PyPI - TopDownHockey-Scraper - Versions diffs - 6.0.0__tar.gz → 6.0.5__tar.gz - Mend

TopDownHockey-Scraper 6.0.0tar.gz → 6.0.5tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of TopDownHockey-Scraper might be problematic. Click here for more details.

Files changed (13) hide show

{topdownhockey_scraper-6.0.0/src/TopDownHockey_Scraper.egg-info → topdownhockey_scraper-6.0.5}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: TopDownHockey_Scraper
-Version: 6.0.0
+Version: 6.0.5
 Summary: The TopDownHockey Scraper
 Home-page: https://github.com/TopDownHockey/TopDownHockey_Scraper
 Author: Patrick Bacon
@@ -17,8 +17,6 @@ Requires-Dist: numpy
 Requires-Dist: pandas
 Requires-Dist: bs4
 Requires-Dist: datetime
-Requires-Dist: seaborn
-Requires-Dist: matplotlib
 Requires-Dist: xmltodict
 Requires-Dist: lxml
 Requires-Dist: natsort

{topdownhockey_scraper-6.0.0 → topdownhockey_scraper-6.0.5}/setup.cfg RENAMED Viewed

@@ -1,6 +1,6 @@
 [metadata]
 name = TopDownHockey_Scraper
-version = 5.0.2
+version = 6.0.5
 author = Patrick Bacon
 author_email = patrick.s.bacon@gmail.com
 description = A package built for scraping hockey data from EliteProspects, the NHL's HTML/API reports, and ESPN's XML reports.
@@ -25,8 +25,6 @@ install_requires =
 	pandas
 	datetime
 	requests
-	seasborn
-	matplotlib
 	xml
 	xmltodict
 	requests

{topdownhockey_scraper-6.0.0 → topdownhockey_scraper-6.0.5}/setup.py RENAMED Viewed

@@ -9,7 +9,7 @@ with open("README.md", "r", encoding="utf-8") as fh:
 setup(
     name="TopDownHockey_Scraper", # Replace with your own username
-    version="6.0.0",
+    version="6.0.5",
     author="Patrick Bacon",
     author_email="patrick.s.bacon@gmail.com",
     description="The TopDownHockey Scraper",
@@ -33,8 +33,6 @@ setup(
     'pandas',
     'bs4',
     'datetime',
-    'seaborn',
-    'matplotlib',
     'xmltodict',
     'lxml',
     'natsort'

{topdownhockey_scraper-6.0.0 → topdownhockey_scraper-6.0.5}/src/TopDownHockey_Scraper/TopDownHockey_NHL_Scraper.py RENAMED Viewed

@@ -62,121 +62,6 @@ team_names = ['ANAHEIM DUCKS',
 ewc = ['SHOT', 'HIT', 'BLOCK', 'MISS', 'GIVE', 'TAKE', 'GOAL']
-def scrape_schedule_one_week(start_date):
-    url = f'https://api-web.nhle.com/v1/schedule/{start_date}'
-    page = requests.get(url, timeout = 500)
-    loaddict = json.loads(page.content)
-    game_df = pd.DataFrame()
-    for i in range(0, (len(loaddict['gameWeek']))):
-        #print(i)
-        game_day = loaddict['gameWeek'][i]
-        game_df = game_df._append(pd.DataFrame(game_day['games']).assign(date = game_day['date']).rename(columns = {'id':'ID'}))
-    home_df = pd.DataFrame(game_df['homeTeam'].values.tolist())
-    away_df = pd.DataFrame(game_df['awayTeam'].values.tolist())
-    game_df = game_df.assign(
-        home_team = game_df.homeTeam.apply(lambda x: x['abbrev']),
-        away_team = game_df.awayTeam.apply(lambda x: x['abbrev'])
-    )
-    game_df = game_df.assign(state = np.where(game_df.gameState=='OFF', 'Final',
-                               np.where(game_df.gameState=='FUT', 'Scheduled',
-                                       np.where(game_df.gameState=='LIVE', 'In Progress',
-                                               'Error'))))
-    game_df = game_df.assign(type = np.where(game_df.gameType==2, 'R', 'Error'),
-                        venue = game_df['venue'].apply(lambda x: x['default']))
-    game_df = game_df.assign(ID = game_df.ID.astype(int), season = game_df.season.astype(int))
-    schedule = game_df.loc[:, ['ID', 'type', 'season', 'date', 'home_team', 'away_team', 'state']]
-    return schedule
-def scrape_full_schedule(
-        start_date = '2023-10-07',
-        end_date = '2024-04-18'):
-    full_schedule = pd.DataFrame()
-    scrape_day = start_date
-    while scrape_day <= end_date:
-        print(scrape_day)
-        week_scrape = scrape_schedule_one_week(scrape_day)
-        full_schedule = full_schedule._append(week_scrape)
-        last_day_scraped = max(full_schedule.date)
-        scrape_day = datetime.strftime((datetime.strptime(last_day_scraped, '%Y-%m-%d').date() + timedelta(days = 1)), '%Y-%m-%d')
-    return full_schedule[full_schedule.type=='R']
-def scrape_standings(season):
-    """
-    Takes an integer in "20202021" form and scrapes standings for that season.
-    """
-    url = 'https://statsapi.web.nhl.com/api/v1/standings?season=' + str(season)
-    page = requests.get(url, timeout = 500)
-    loaddict = json.loads(page.content)
-    record_df = pd.DataFrame(loaddict['records'])
-    team = []
-    wins = []
-    losses = []
-    otl = []
-    rw = []
-    ga = []
-    gf = []
-    row = []
-    gp = []
-    pts = []
-    divisions = []
-    conferences = []
-    for i in range(0, len(record_df['teamRecords'])):
-        div = (record_df['division'].iloc[i]['name'])
-        conf = (record_df['conference'].iloc[i]['name'])
-        for x in range(0, len((record_df['teamRecords'].iloc[i]))):
-            divisions._append(div)
-            conferences._append(conf)
-            team._append(record_df['teamRecords'].iloc[i][x]['team']['name'])
-            wins._append(record_df['teamRecords'].iloc[i][x]['leagueRecord']['wins'])
-            losses._append(record_df['teamRecords'].iloc[i][x]['leagueRecord']['losses'])
-            otl._append(record_df['teamRecords'].iloc[i][x]['leagueRecord']['ot'])
-            gf._append(record_df['teamRecords'].iloc[i][x]['goalsScored'])
-            ga._append(record_df['teamRecords'].iloc[i][x]['goalsAgainst'])
-            if season>20092010:
-                row._append(record_df['teamRecords'].iloc[i][x]['row'])
-            gp._append(record_df['teamRecords'].iloc[i][x]['gamesPlayed'])
-            pts._append(record_df['teamRecords'].iloc[i][x]['points'])
-            if season>20192020:
-                rw._append(record_df['teamRecords'].iloc[i][x]['regulationWins'])
-    if season < 20092010:
-        stand = pd.DataFrame().assign(Team = team, Division = divisions, Conference = conferences,
-                                      GP = gp, W = wins, L = losses, OTL = otl, PTS = pts,  GF = gf, GA = ga)
-        stand = stand.assign(GD = stand.GF - stand.GA).sort_values(by = ['PTS', 'GD'], ascending = False)
-        return stand.assign(Season = season).loc[:, ['Season', 'Team', 'Division', 'Conference', 'GP', 'W', 'L', 'OTL', 'PTS', 'GF','GA', 'GD']].reset_index(drop = True)
-    if ((season<20202021) & (season>20092010)):
-        stand = pd.DataFrame().assign(Team = team, Division = divisions, Conference = conferences,
-                                      GP = gp, W = wins, L = losses, OTL = otl, PTS = pts,  GF = gf, GA = ga, ROW = row)
-        stand = stand.assign(GD = stand.GF - stand.GA).sort_values(by = ['PTS', 'ROW', 'GD'], ascending = False)
-        return stand.assign(Season = season).loc[:, ['Season', 'Team', 'Division', 'Conference', 'GP', 'W', 'L', 'OTL', 'PTS', 'GF','GA', 'ROW', 'GD']].reset_index(drop = True)
-    else:
-        stand = pd.DataFrame().assign(Team = team, Division = divisions, Conference = conferences,
-                                      GP = gp, W = wins, L = losses, OTL = otl, PTS = pts,  GF = gf, GA = ga, RW = rw, ROW = row)
-        stand = stand.assign(GD = stand.GF - stand.GA).sort_values(by = ['PTS', 'RW', 'ROW', 'GD'], ascending = False)
-        return stand.assign(Season = season).loc[:, ['Season', 'Team', 'Division', 'Conference', 'GP', 'W', 'L', 'OTL', 'PTS', 'GF','GA', 'RW', 'ROW', 'GD']].reset_index(drop = True)
 def scrape_schedule(start_date, end_date):
     """
@@ -1517,293 +1402,6 @@ def scrape_api_events(game_id, drop_description = True, shift_to_espn = False):
     if shift_to_espn == True:
         raise KeyError
-    page = requests.get(str('https://api-web.nhle.com/v1/gamecenter/' + str(game_id) + '/play-by-play'))
-    if str(page) == '<Response [404]>':
-        raise KeyError('You got the 404 error; game data could not be found.')
-    loaddict = json.loads(page.content)
-    if loaddict['liveData']['plays']['allPlays'] != []:
-        eventdf = pd.DataFrame(loaddict['liveData']['plays']['allPlays'])
-        coordsdf = pd.DataFrame(eventdf['coordinates'].values.tolist(), index = eventdf.index)
-        resultdf = pd.DataFrame(eventdf['result'].values.tolist(), index = eventdf.index)
-        aboutdf = pd.DataFrame(eventdf['about'].values.tolist(), index = eventdf.index)
-        scoredf = pd.DataFrame(aboutdf['goals'].values.tolist(), index = aboutdf.index)
-        playerdf = pd.DataFrame(eventdf['players'])
-        teamdf = eventdf['team'].apply(pd.Series)
-        clean = playerdf[~pd.isna(playerdf.players)].reset_index()
-        clean_index = clean.loc[:, ['index']]
-        player1 = pd.DataFrame((pd.DataFrame(clean.reset_index()['players'].values.tolist())[0].values.tolist()))
-        player1df = pd.concat([clean_index, pd.DataFrame(player1['player'].values.tolist())], axis = 1).assign(playerType = player1['playerType']).rename(
-            columns = {'id':'player1id', 'fullName':'player1name', 'link':'player1link', 'playerType':'player1type'})
-        player2 = pd.concat([clean_index, pd.DataFrame((pd.DataFrame(clean['players'].values.tolist())[1]))], axis = 1)
-        player2 = player2[player2[1].notnull()]
-        player2df = pd.concat([player2.reset_index(drop = True),
-            (pd.DataFrame(pd.DataFrame(player2[1].values.tolist())['player'].values.tolist()).assign(playerType = (pd.DataFrame(player2[1].values.tolist())).loc[:, ['playerType']]))], axis = 1).drop(
-        columns = 1).rename(
-            columns = {'id':'player2id', 'fullName':'player2name', 'link':'player2link', 'playerType':'player2type'})
-        if len((pd.DataFrame(clean['players'].values.tolist())).columns) > 2:
-            player3 = pd.concat([clean_index, pd.DataFrame((pd.DataFrame(clean['players'].values.tolist())[2]))], axis = 1)
-            player3 = player3[player3[2].notnull()]
-            player3df = pd.concat([player3.reset_index(drop = True),
-                (pd.DataFrame(pd.DataFrame(player3[2].values.tolist())['player'].values.tolist()).assign(playerType = (pd.DataFrame(player3[2].values.tolist())).loc[:, ['playerType']]))], axis = 1).drop(
-            columns = 2).rename(
-                columns = {'id':'player3id', 'fullName':'player3name', 'link':'player3link', 'playerType':'player3type'})
-        else:
-            player3df = pd.DataFrame(columns = ['index', 'player3id', 'player3name', 'player3link', 'player3type'])
-        if len((pd.DataFrame(clean['players'].values.tolist())).columns) > 3:
-            player4 = pd.concat([clean_index, pd.DataFrame((pd.DataFrame(clean['players'].values.tolist())[3]))], axis = 1)
-            player4 = player4[player4[3].notnull()]
-            player4df = pd.concat([player4.reset_index(drop = True),
-                (pd.DataFrame(pd.DataFrame(player4[3].values.tolist())['player'].values.tolist()).assign(playerType = (pd.DataFrame(player4[3].values.tolist())).loc[:, ['playerType']]))], axis = 1).drop(
-            columns = 3).rename(
-                columns = {'id':'player4id', 'fullName':'player4name', 'link':'player4link', 'playerType':'player4type'})
-        else:
-            player4df = pd.DataFrame(columns = ['index', 'player4id', 'player4name', 'player4link', 'player4type'])
-        finaldf = eventdf.assign(
-            hometeam = loaddict['gameData']['teams']['home']['triCode'],
-            hometeamfull = loaddict['gameData']['teams']['home']['name'],
-            awayteam = loaddict['gameData']['teams']['away']['triCode'],
-            awayteamfull = loaddict['gameData']['teams']['away']['name'],
-            description = resultdf['description'],
-            event = resultdf['eventTypeId'],
-            detail = resultdf['secondaryType'],
-            coords_x = coordsdf['x'],
-            coords_y = coordsdf['y'],
-            period = aboutdf['period'],
-            time = aboutdf['periodTime'],
-            homescore = scoredf['home'],
-            awayscore = scoredf['away'],
-            eventteam = teamdf['triCode'],
-            eventteamfull = teamdf['name'],
-            eventidx = aboutdf['eventIdx'],
-            eventNumber = aboutdf['eventId'],
-            session = loaddict['gameData']['game']['type'])
-        finaldf = finaldf.drop(columns = ['result', 'about', 'coordinates', 'players', 'team'])
-        finaldf = finaldf.reset_index().merge(
-        player1df, on = 'index', how = 'left').merge(
-        player2df, on = 'index', how = 'left').merge(
-        player3df, on = 'index', how = 'left').merge(
-        player4df, on = 'index', how = 'left')
-        finaldf = finaldf.assign(
-            awayteamfull = finaldf.awayteamfull.str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8'),
-            hometeamfull = finaldf.hometeamfull.str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8'),
-            eventteamfull = finaldf.eventteamfull.str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8'))
-        finaldf = finaldf.assign(
-            player1name = np.where((finaldf.player1name=='Sebastian Aho') & (finaldf.eventteam=='NYI'),
-                     'Sebastian Aho (SWE)',
-                     finaldf.player1name
-                    ))
-        api_events = finaldf
-        api_events.period = api_events.period.astype(int)
-        api_events.time = api_events.time.astype(str)
-        api_events.event = np.where(api_events.event=='BLOCKED_SHOT', 'BLOCK',
-        np.where(api_events.event=='BLOCKEDSHOT', 'BLOCK',
-                np.where(api_events.event=='MISSED_SHOT', 'MISS',
-                        np.where(api_events.event=='FACEOFF', 'FAC',
-                                np.where(api_events.event=='PENALTY', 'PENL',
-                                        np.where(api_events.event=='GIVEAWAY', 'GIVE',
-                                                np.where(api_events.event=='TAKEAWAY', 'TAKE',
-                                                         np.where(api_events.event=='MISSEDSHOT', 'MISS',
-                                                                  api_events.event))))))))
-        api_events = api_events[api_events.event.isin(['TAKE', 'GIVE', 'MISS', 'HIT', 'SHOT', 'BLOCK', 'GOAL', 'PENL', 'FAC'])]
-        api_events['awayteamfull'] = (api_events.awayteamfull.str.upper())
-        api_events['hometeamfull'] = (api_events.hometeamfull.str.upper())
-        api_events['eventteamfull'] = (api_events.eventteamfull.str.upper())
-        api_events['period_seconds'] = api_events.time.str.split(':').str[0].astype(int) * 60 + api_events.time.str.split(':').str[1].astype(int)
-        api_events['game_seconds'] = (np.where(api_events.period<5,
-                                       (((api_events.period - 1) * 1200) + api_events.period_seconds),
-                              3900))
-        api_events = api_events.loc[:, ['period_seconds', 'game_seconds', 'event', 'session', 'coords_x', 'coords_y', 'description', 'period',
-                                        'eventteam', 'eventteamfull', 'hometeamfull', 'awayteamfull', 'player1name', 'player2name', 'player3name', 'player4name']].rename(
-            columns = {'eventteamfull':'event_team'})
-        api_events = api_events.assign(
-        player1name = api_events.player1name.str.upper(),
-        player2name = api_events.player2name.str.upper(),
-        player3name = api_events.player3name.str.upper()
-        ).drop(columns = 'player4name').rename(columns = {'player1name':'ep1_name', 'player2name':'ep2_name', 'player3name':'ep3_name'})
-        api_events = api_events.assign(event_team = np.where(api_events.event!='BLOCK', api_events.event_team,
-            np.where(api_events.event_team==api_events.hometeamfull, api_events.awayteamfull, api_events.hometeamfull)))
-        api_events = api_events.assign(ep1_name = np.where(api_events.event!='BLOCK', api_events.ep1_name, api_events.ep2_name))
-        api_events = api_events.sort_values(by = ['game_seconds', 'event_team', 'ep1_name'])
-        api_events = api_events.assign(version =
-                               (np.where(
-                               (api_events.event==api_events.event.shift()) &
-                               (api_events.ep1_name==api_events.ep1_name.shift()) &
-                               (api_events.game_seconds==api_events.game_seconds.shift()),
-                                1, 0)))
-        api_events = api_events.assign(version =
-                               (np.where(
-                               (api_events.event==api_events.event.shift(2)) &
-                               (api_events.ep1_name==api_events.ep1_name.shift(2)) &
-                               (api_events.game_seconds==api_events.game_seconds.shift(2) )&
-                               (~api_events.description.str.contains('Penalty Shot')),
-                                2, api_events.version)))
-        api_events = api_events.assign(version =
-                               (np.where(
-                               (api_events.event==api_events.event.shift(3)) &
-                               (api_events.ep1_name==api_events.ep1_name.shift(3)) &
-                               (api_events.game_seconds==api_events.game_seconds.shift(3)),
-                                3, api_events.version)))#.drop(columns = 'description')
-        api_events['ep1_name'] = np.where((api_events.description.str.contains('Too many men')) | (api_events.description.str.contains('unsportsmanlike conduct-bench')), 'BENCH', api_events['ep1_name'])
-        api_events['ep1_name'] = np.where(api_events['ep1_name'].str.contains('ALEXANDRE '),
-                                api_events['ep1_name'].str.replace('ALEXANDRE ', 'ALEX '),
-                                api_events['ep1_name'])
-        api_events['ep1_name'] = np.where(api_events['ep1_name'].str.contains('ALEXANDER '),
-                                    api_events['ep1_name'].str.replace('ALEXANDER ', 'ALEX '),
-                                    api_events['ep1_name'])
-        api_events['ep1_name'] = np.where(api_events['ep1_name'].str.contains('CHRISTOPHER '),
-                                    api_events['ep1_name'].str.replace('CHRISTOPHER ', 'CHRIS '),
-                                    api_events['ep1_name'])
-        api_events = api_events.assign(
-        ep1_name =
-        (np.where(api_events['ep1_name']=="ALEX PECHURSKIY", "ALEX PECHURSKI",
-        (np.where(api_events['ep1_name']=="BEN ONDRUS", "BENJAMIN ONDRUS",
-        (np.where(api_events['ep1_name']=="BRYCE VAN BRABANT", "BRYCE VAN BRABANT",
-        (np.where(api_events['ep1_name']=="CALVIN DE HAAN", "CALVIN DE HAAN",
-        (np.where(api_events['ep1_name']=="CHASE DE LEO", "CHASE DE LEO",
-        (np.where(api_events['ep1_name']=="CAL PETERSEN", "CALVIN PETERSEN",
-        (np.where(api_events['ep1_name']=="DANIEL CARCILLO", "DAN CARCILLO",
-        (np.where(api_events['ep1_name']=="DANNY O'REGAN", "DANIEL O'REGAN",
-        (np.where(api_events['ep1_name']=="DAVID VAN DER GULIK", "DAVID VAN DER GULIK",
-        (np.where(api_events['ep1_name']=="EVGENII DADONOV", "EVGENY DADONOV",
-        (np.where(api_events['ep1_name']=="FREDDY MODIN", "FREDRIK MODIN",
-        (np.where(api_events['ep1_name']=="GREG DE VRIES", "GREG DE VRIES",
-        (np.where(api_events['ep1_name']=="ILYA ZUBOV", "ILJA ZUBOV",
-        (np.where(api_events['ep1_name']=="JACOB DE LA ROSE", "JACOB DE LA ROSE",
-        (np.where(api_events['ep1_name']=="JAMES VAN RIEMSDYK", "JAMES VAN RIEMSDYK",
-        (np.where(api_events['ep1_name']=="JEAN-FRANCOIS JACQUES", "J-F JACQUES",
-        (np.where(api_events['ep1_name']=="JAKOB FORSBACKA KARLSSON", "JAKOB FORSBACKA KARLSSON",
-        (np.where(api_events['ep1_name']=="JIM DOWD", "JAMES DOWD",
-        (np.where(api_events['ep1_name']=="JEFF HAMILTON", "JEFFREY HAMILTON",
-        (np.where(api_events['ep1_name']=="JEFF PENNER", "JEFFREY PENNER",
-        (np.where(api_events['ep1_name']=="JOEL ERIKSSON EK", "JOEL ERIKSSON EK",
-        (np.where(api_events['ep1_name']=="MARK VAN GUILDER", "MARK VAN GUILDER",
-        (np.where(api_events['ep1_name']=="MARTIN ST LOUIS", "MARTIN ST. LOUIS",
-        (np.where(api_events['ep1_name']=="MARTIN ST PIERRE", "MARTIN ST. PIERRE",
-        (np.where(api_events['ep1_name']=="MARTIN ST PIERRE", "MARTIN ST. PIERRE",
-        (np.where(api_events['ep1_name']=="MICHAEL CAMMALLERI", "MIKE CAMMALLERI",
-        (np.where(api_events['ep1_name']=="MICHAEL DAL COLLE", "MICHAEL DAL COLLE",
-        (np.where(api_events['ep1_name']=="MICHAEL DEL ZOTTO", "MICHAEL DEL ZOTTO",
-        (np.where(api_events['ep1_name']=="MIKE VERNACE", "MICHAEL VERNACE",
-        (np.where(api_events['ep1_name']=="MIKE YORK", "MICHAEL YORK",
-        (np.where(api_events['ep1_name']=="MIKE VAN RYN", "MIKE VAN RYN",
-        (np.where(api_events['ep1_name']=="MITCHELL MARNER", "MITCH MARNER",
-        (np.where(api_events['ep1_name']=="PAT MAROON", "PATRICK MAROON",
-        (np.where(api_events['ep1_name']=="PA PARENTEAU", "P.A. PARENTEAU",
-        (np.where(api_events['ep1_name']=="PHILLIP DI GIUSEPPE", "PHILLIP DI GIUSEPPE",
-        (np.where(api_events['ep1_name']=="STEFAN DELLA ROVERE", "STEFAN DELLA ROVERE",
-        (np.where(api_events['ep1_name']=="STEPHANE DA COSTA", "STEPHANE DA COSTA",
-        (np.where(api_events['ep1_name']=="TJ GALIARDI", "T.J. GALIARDI",
-        (np.where(api_events['ep1_name']=="TOBY ENSTROM", "TOBIAS ENSTROM",
-        (np.where(api_events['ep1_name']=="TREVOR VAN RIEMSDYK", "TREVOR VAN RIEMSDYK",
-        (np.where(api_events['ep1_name']=="ZACK FITZGERALD", "ZACH FITZGERALD",
-        ## NEW CHANGES
-        (np.where(api_events['ep1_name']=="TIM GETTINGER", "TIMOTHY GETTINGER",
-        (np.where(api_events['ep1_name']=="THOMAS DI PAULI", "THOMAS DI PAULI",
-        (np.where(api_events['ep1_name']=="NICHOLAS SHORE", "NICK SHORE",
-        (np.where(api_events['ep1_name']=="T.J. TYNAN", "TJ TYNAN",
-        ## '20-21 CHANGES (from HTM update function)
-        (np.where(api_events['ep1_name']=="ALEXIS LAFRENI?RE", "ALEXIS LAFRENIÈRE",
-        (np.where(api_events['ep1_name']=="ALEXIS LAFRENIERE", "ALEXIS LAFRENIÈRE",
-        (np.where(api_events['ep1_name']=="TIM STUTZLE", "TIM STÜTZLE",
-        (np.where(api_events['ep1_name']=="TIM ST?TZLE", "TIM STÜTZLE",
-        (np.where(api_events['ep1_name']== "JANI HAKANPÃ\x84Ã\x84" , "JANI HAKANPAA",
-        (np.where(api_events['ep1_name']=="EGOR SHARANGOVICH", "YEGOR SHARANGOVICH",
-        (np.where(api_events['ep1_name']=="CALLAN FOOTE", "CAL FOOTE",
-        (np.where(api_events['ep1_name']=="JOSH DUNNE", "JOSHUA DUNNE", api_events['ep1_name']
-        ))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))
-        )))))))))))))))))))))))))))))))))))))))))))))))
-        api_events['ep1_name'] = (np.where(api_events['ep1_name']== "JANIS MOSER" , "J.J. MOSER",
-        (np.where(api_events['ep1_name']== "NICHOLAS PAUL" , "NICK PAUL",
-        (np.where(api_events['ep1_name']== "JACOB MIDDLETON" , "JAKE MIDDLETON",
-        (np.where(api_events['ep1_name']== "TOMMY NOVAK" , "THOMAS NOVAK",
-        # New guys from 24-25
-        (np.where(api_events['ep1_name']== "JOSHUA NORRIS" , "JOSH NORRIS",
-        (np.where(api_events['ep1_name']== "P.O JOSEPH" , "PIERRE-OLIVIER JOSEPH",
-        (np.where(api_events['ep1_name']== "MIKEY EYSSIMONT" , "MICHAEL EYSSIMONT",
-        (np.where(api_events['ep1_name']== "MATAJ  BLAMEL" , "MATAJ BLAMEL",
-        (np.where(api_events['ep1_name']== "VITTORIO MANCINI" , "VICTOR MANCINI",
-        (np.where(api_events['ep1_name']== "JOSHUA MAHURA" , "JOSH MAHURA",
-        (np.where(api_events['ep1_name']== "JOSEPH VELENO" , "JOE VELENO",
-        (np.where(api_events['ep1_name']== "ZACK BOLDUC" , "ZACHARY BOLDUC",
-        (np.where(api_events['ep1_name']== "JOSHUA BROWN" , "JOSH BROWN",
-        (np.where(api_events['ep1_name']== "JAKE LUCCHINI" , "JACOB LUCCHINI",
-        (np.where(api_events['ep1_name']== "EMIL LILLEBERG" , "EMIL MARTINSEN LILLEBERG",
-        (np.where(api_events['ep1_name']== "CAMERON ATKINSON" , "CAM ATKINSON",
-        (np.where(api_events['ep1_name']== "JURAJ SLAFKOVSKA" , "JURAJ SLAFKOVSKY",
-        api_events['ep1_name']))))))))))))))))))))))))))))))))))
-        # 21-22 CHANGES
-        api_events['ep1_name'] = api_events['ep1_name'].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8').str.upper()
-        # Apply regex to remove (A) and (C) designations at end of names
-        api_events['ep1_name'] = api_events['ep1_name'].apply(lambda x: re.sub(r' \(A\)$', '', x).strip())
-        api_events['ep1_name'] = api_events['ep1_name'].apply(lambda x: re.sub(r' \(C\)$', '', x).strip())
-        # Apply specific name corrections
-        api_events['ep1_name'] = np.where(api_events['ep1_name'] == "JURAJ SLAFKOVSKA" , "JURAJ SLAFKOVSKY", api_events['ep1_name']) # Need to do this after normalization, only then he becomes Slafkovska?
-        api_events['ep1_name'] = np.where(api_events['ep1_name'] == "JOHN (JACK) ROSLOVIC" , "JACK ROSLOVIC", api_events['ep1_name'])
-        api_events['ep1_name'] = np.where(api_events['ep1_name'] == "ANTHONY-JOHN (AJ) GREER" , "A.J. GREER", api_events['ep1_name'])
-        api_events['ep1_name'] = np.where(api_events['ep1_name'] == 'MARTIN FEHARVARY' , 'MARTIN FEHERVARY', api_events['ep1_name'])
-        api_events['ep1_name'] = np.where(api_events['ep1_name'] == 'MATAJ  BLAMEL' , 'MATAJ BLAMEL', api_events['ep1_name'])
-        api_events['ep1_name'] = api_events['ep1_name'].str.replace('  ', ' ')
-        api_events = api_events.assign(ep1_name = np.where(api_events.ep1_name=='ALEX BARRÃ-BOULET', 'ALEX BARRE_BOULET', api_events.ep1_name))
-        if drop_description == True:
-            return api_events.loc[:, ['game_seconds', 'event', 'coords_x', 'coords_y', 'ep1_name', 'period', 'version']].rename(columns = {'ep1_name':'event_player_1'})
-        else:
-            return api_events.loc[:, ['game_seconds', 'event', 'coords_x', 'coords_y', 'ep1_name', 'period', 'version', 'description']].rename(columns = {'ep1_name':'event_player_1'})
-    else:
-        print("This game doesn't exist within the API.")
-        raise KeyError
 def scrape_html_events(season, game_id):
     #global game
@@ -2255,6 +1853,7 @@ def scrape_espn_ids_single_game(game_date, home_team, away_team):
     this_date = (game_date)
     url = 'http://www.espn.com/nhl/scoreboard?date=' + this_date.replace("-", "")
     page = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}, timeout = 500)
+    print('Request to ESPN IDs successful.')
     soup = BeautifulSoup(page.content, parser = 'lxml')
     soup_found = soup.find_all('a', {'class':['AnchorLink truncate',
                              'AnchorLink Button Button--sm Button--anchorLink Button--alt mb4 w-100',
@@ -2866,7 +2465,7 @@ def full_scrape_1by1(game_id_list, live = False, shift_to_espn = True):
             # If all goes well with the HTML scrape:
             try:
-                event_coords = scrape_api_events(game_id, shift_to_espn = shift_to_espn)
+                event_coords = scrape_api_events(game_id, shift_to_espn = True)
                 api_coords = event_coords
                 api_coords['coordinate_source'] = 'api'
                 if len(event_coords[(event_coords.event.isin(ewc)) & (pd.isna(event_coords.coords_x))]) > 0:
@@ -2926,7 +2525,10 @@ def full_scrape_1by1(game_id_list, live = False, shift_to_espn = True):
                             espn_home_team = 'SJS'
                         if away_team == 'S.J':
                             espn_away_team = 'SJS'
+                        print('Scraping ESPN IDs')
                         espn_id = scrape_espn_ids_single_game(str(game_date.date()), espn_home_team, espn_away_team).espn_id.iloc[0]
+                        print('Scraping ESPN Events')
+                        print('Here is the ESPN ID:', espn_id)
                         event_coords = scrape_espn_events(int(espn_id))
                         event_coords['coordinate_source'] = 'espn'
                         events = single.merge(event_coords, on = ['event_player_1', 'game_seconds', 'period', 'version', 'event'], how = 'left').drop(columns = ['espn_id'])
@@ -3196,35 +2798,38 @@ def full_scrape(game_id_list, live = True, shift = False):
     df = full_scrape_1by1(game_id_list, live, shift_to_espn = shift)
     # Fixing the Pettersson issue for event player. Just going downstream for this.
-    df = df.assign(
-        event_player_1 = np.where(
-            (df.event_player_1 == 'ELIAS PETTERSSON') &
-            (df.event_description.str.contains('#', na=False)) &
-            (df.event_description.str.contains(' PETTERSSON', na=False)) &
-            (df.event_description.str.extract(r'#(\d+) PETTERSSON', expand=False) == '25'),
-            'ELIAS PETTERSSON(D)', df.event_player_1),
-        event_player_2 = np.where(
-            (df.event_player_2 == 'ELIAS PETTERSSON') &
-            (
-                # Goal and Petey got A1
-                ((df.event_type == 'GOAL') &
-                 (df.event_description.str.contains(': #', na=False)) &
-                 (df.event_description.str.contains(' PETTERSSON', na=False)) &
-                 (df.event_description.str.extract(r': #(\d+) PETTERSSON', expand=False) == '25')) |
-                # Not a goal, Petey was EP2
-                ((df.event_type != 'GOAL') &
-                 (df.event_description.str.contains('VAN #', na=False)) &
-                 (df.event_description.str.contains(' PETTERSSON', na=False)) &
-                 (df.event_description.str.extract(r'VAN #(\d+) PETTERSSON', expand=False) == '25'))
-            ),
-            'ELIAS PETTERSSON(D)', df.event_player_2),
-        event_player_3 = np.where(
-            (df.event_player_3=='ELIAS PETTERSSON') &
-            (df.event_description.str.contains('#', na=False)) &
-            (df.event_description.str.contains(' PETTERSSON', na=False)) &
-            (df.event_description.str.extract(r'#(\d+) PETTERSSON(?:\s|$)', expand=False) == '25'),
-            'ELIAS PETTERSSON(D)', df.event_player_3)
-    )
+    try:
+        df = df.assign(
+            event_player_1 = np.where(
+                (df.event_player_1 == 'ELIAS PETTERSSON') &
+                (df.event_description.str.contains('#', na=False)) &
+                (df.event_description.str.contains(' PETTERSSON', na=False)) &
+                (df.event_description.str.extract(r'#(\d+) PETTERSSON', expand=False) == '25'),
+                'ELIAS PETTERSSON(D)', df.event_player_1),
+            event_player_2 = np.where(
+                (df.event_player_2 == 'ELIAS PETTERSSON') &
+                (
+                    # Goal and Petey got A1
+                    ((df.event_type == 'GOAL') &
+                    (df.event_description.str.contains(': #', na=False)) &
+                    (df.event_description.str.contains(' PETTERSSON', na=False)) &
+                    (df.event_description.str.extract(r': #(\d+) PETTERSSON', expand=False) == '25')) |
+                    # Not a goal, Petey was EP2
+                    ((df.event_type != 'GOAL') &
+                    (df.event_description.str.contains('VAN #', na=False)) &
+                    (df.event_description.str.contains(' PETTERSSON', na=False)) &
+                    (df.event_description.str.extract(r'VAN #(\d+) PETTERSSON', expand=False) == '25'))
+                ),
+                'ELIAS PETTERSSON(D)', df.event_player_2),
+            event_player_3 = np.where(
+                (df.event_player_3=='ELIAS PETTERSSON') &
+                (df.event_description.str.contains('#', na=False)) &
+                (df.event_description.str.contains(' PETTERSSON', na=False)) &
+                (df.event_description.str.extract(r'#(\d+) PETTERSSON(?:\s|$)', expand=False) == '25'),
+                'ELIAS PETTERSSON(D)', df.event_player_3)
+        )
+    except Exception as e:
+        print(e)
     # Don't even need this, we've had this problem with Stutzle for years, just let it be.
     # df.event_description = df.event_description.str.replace('FEHÃ\x89RVÃ\x81RY', 'FEHERVARY').str.replace('BLÃMEL', 'BLAMEL')

{topdownhockey_scraper-6.0.0 → topdownhockey_scraper-6.0.5/src/TopDownHockey_Scraper.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: TopDownHockey_Scraper
-Version: 6.0.0
+Version: 6.0.5
 Summary: The TopDownHockey Scraper
 Home-page: https://github.com/TopDownHockey/TopDownHockey_Scraper
 Author: Patrick Bacon
@@ -17,8 +17,6 @@ Requires-Dist: numpy
 Requires-Dist: pandas
 Requires-Dist: bs4
 Requires-Dist: datetime
-Requires-Dist: seaborn
-Requires-Dist: matplotlib
 Requires-Dist: xmltodict
 Requires-Dist: lxml
 Requires-Dist: natsort