PyPI - TopDownHockey-Scraper - Versions diffs - 6.0.4__tar.gz → 6.0.7__tar.gz - Mend

TopDownHockey-Scraper 6.0.4tar.gz → 6.0.7tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of TopDownHockey-Scraper might be problematic. Click here for more details.

Files changed (13) hide show

{topdownhockey_scraper-6.0.4/src/TopDownHockey_Scraper.egg-info → topdownhockey_scraper-6.0.7}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: TopDownHockey_Scraper
-Version: 6.0.4
+Version: 6.0.7
 Summary: The TopDownHockey Scraper
 Home-page: https://github.com/TopDownHockey/TopDownHockey_Scraper
 Author: Patrick Bacon

{topdownhockey_scraper-6.0.4 → topdownhockey_scraper-6.0.7}/setup.cfg RENAMED Viewed

@@ -1,6 +1,6 @@
 [metadata]
 name = TopDownHockey_Scraper
-version = 6.0.4
+version = 6.0.7
 author = Patrick Bacon
 author_email = patrick.s.bacon@gmail.com
 description = A package built for scraping hockey data from EliteProspects, the NHL's HTML/API reports, and ESPN's XML reports.

{topdownhockey_scraper-6.0.4 → topdownhockey_scraper-6.0.7}/setup.py RENAMED Viewed

@@ -9,7 +9,7 @@ with open("README.md", "r", encoding="utf-8") as fh:
 setup(
     name="TopDownHockey_Scraper", # Replace with your own username
-    version="6.0.4",
+    version="6.0.7",
     author="Patrick Bacon",
     author_email="patrick.s.bacon@gmail.com",
     description="The TopDownHockey Scraper",

{topdownhockey_scraper-6.0.4 → topdownhockey_scraper-6.0.7}/src/TopDownHockey_Scraper/TopDownHockey_NHL_Scraper.py RENAMED Viewed

@@ -18,6 +18,7 @@ import xml.etree.ElementTree as ET
 import xmltodict
 from xml.parsers.expat import ExpatError
 from requests.exceptions import ChunkedEncodingError
+import traceback
 print('Successfully did local install plus update')
@@ -834,8 +835,6 @@ def scrape_html_shifts(season, game_id, live = True):
     home_shifts = alldf
-    home_shifts.to_csv('/Users/patrickbacon/compact_topdownhockey/home_shifts.csv', index = False)
     if live == True:
         home_shifts = home_shifts.assign(shift_number = home_shifts.shift_number.astype(int))
@@ -956,8 +955,6 @@ def scrape_html_shifts(season, game_id, live = True):
     away_shifts = alldf
-    away_shifts.to_csv('/Users/patrickbacon/compact_topdownhockey/away_shifts.csv', index = False)
     if live == True:
         away_shifts = away_shifts.assign(shift_number = away_shifts.shift_number.astype(int))
@@ -1064,7 +1061,7 @@ def scrape_html_shifts(season, game_id, live = True):
             home_goalies = home_goalies.assign(team = home_team).rename(columns = {0:'number', 2:'name', 6:'TOI'}).loc[:, ['number', 'name', 'TOI', 'team']]
-            home_goalies = pd.read_html(str(goalie_table))[0][8:9]
+            # home_goalies = pd.read_html(str(goalie_table))[0][8:9]
             # Temporary to test. Will fix later.
@@ -1108,8 +1105,6 @@ def scrape_html_shifts(season, game_id, live = True):
     global all_shifts
     all_shifts = pd.concat([home_shifts, away_shifts])
-    #all_shifts.to_csv('/Users/patrickbacon/compact_topdownhockey/all_shifts.csv', index = False)
     all_shifts = all_shifts.assign(start_time = all_shifts.shift_start.str.split('/').str[0])
@@ -1359,7 +1354,6 @@ def scrape_html_shifts(season, game_id, live = True):
     global changes_on
     global changes_off
     myshifts = all_shifts
-    #myshifts.to_csv('/Users/patrickbacon/compact_topdownhockey/tmp.csv', index = False)
     #print('Printing my shifts')
     #print(myshifts)
@@ -2080,8 +2074,6 @@ def merge_and_prepare(events, shifts):
                                           np.where(merged.event.isin(['PGSTR', 'PGEND', 'PSTR', 'PEND', 'ANTHEM']), -1, 1))).sort_values(
         by = ['game_seconds', 'period', 'event_index'])
-    merged.to_csv('/Users/patrickbacon/compact_topdownhockey/first_merged.csv', index = False)
     merged = merged.assign(change_before_event = np.where(
         (
             (merged.away_on_ice!='') & (merged.event.shift()=='CHANGE') & (merged.away_on_ice!=merged.away_on_ice.shift()) |
@@ -2465,13 +2457,15 @@ def full_scrape_1by1(game_id_list, live = False, shift_to_espn = True):
             # If all goes well with the HTML scrape:
             try:
-                event_coords = scrape_api_events(game_id, shift_to_espn = shift_to_espn)
+                event_coords = scrape_api_events(game_id, shift_to_espn = True)
                 api_coords = event_coords
                 api_coords['coordinate_source'] = 'api'
                 if len(event_coords[(event_coords.event.isin(ewc)) & (pd.isna(event_coords.coords_x))]) > 0:
                     raise ExpatError('Bad takes, dude!')
                 event_coords['game_id'] = int(game_id)
+                print('Attempting to merge events again')
                 events = single.merge(event_coords, on = ['event_player_1', 'game_seconds', 'version', 'period', 'game_id', 'event'], how = 'left')
+                print('Merged events again, we have this many rows:', len(events))
                 try:
                     events = fix_missing(single, event_coords, events)
                 except IndexError as e:
@@ -2528,10 +2522,13 @@ def full_scrape_1by1(game_id_list, live = False, shift_to_espn = True):
                         print('Scraping ESPN IDs')
                         espn_id = scrape_espn_ids_single_game(str(game_date.date()), espn_home_team, espn_away_team).espn_id.iloc[0]
                         print('Scraping ESPN Events')
-                        print('Here is the ESPN ID:' espn_id)
+                        print('Here is the ESPN ID:', espn_id)
                         event_coords = scrape_espn_events(int(espn_id))
+                        print('Scraped ESPN Events, we have this many rows:', len(event_coords))
                         event_coords['coordinate_source'] = 'espn'
+                        print('Attempting to merge events')
                         events = single.merge(event_coords, on = ['event_player_1', 'game_seconds', 'period', 'version', 'event'], how = 'left').drop(columns = ['espn_id'])
+                        print('Merged events, we have this many rows:', len(events))
                         try:
                             events = fix_missing(single, event_coords, events)
                         except IndexError as e:
@@ -2690,6 +2687,7 @@ def full_scrape_1by1(game_id_list, live = False, shift_to_espn = True):
         except AttributeError as e:
             print(str(game_id) + ' does not have an HTML report. Here is the error: ' + str(e))
+            print(traceback.format_exc())
             i = i + 1
             continue
@@ -2796,6 +2794,7 @@ def full_scrape(game_id_list, live = True, shift = False):
     hidden_patrick = 0
     df = full_scrape_1by1(game_id_list, live, shift_to_espn = shift)
+    print('Full scrape complete, we have this many rows:', len(df))
     # Fixing the Pettersson issue for event player. Just going downstream for this.
     try:
@@ -2830,7 +2829,6 @@ def full_scrape(game_id_list, live = True, shift = False):
         )
     except Exception as e:
         print(e)
-        continue
     # Don't even need this, we've had this problem with Stutzle for years, just let it be.
     # df.event_description = df.event_description.str.replace('FEHÃ\x89RVÃ\x81RY', 'FEHERVARY').str.replace('BLÃMEL', 'BLAMEL')

{topdownhockey_scraper-6.0.4 → topdownhockey_scraper-6.0.7/src/TopDownHockey_Scraper.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: TopDownHockey_Scraper
-Version: 6.0.4
+Version: 6.0.7
 Summary: The TopDownHockey Scraper
 Home-page: https://github.com/TopDownHockey/TopDownHockey_Scraper
 Author: Patrick Bacon