PyPI - linkedin-scraper - Versions diffs - 2.1.0__tar.gz - Mend

linkedin-scraper 2.1.0__tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (29) hide show

usr/lib/python3.6/site-packages/linkedin_scraper/__init__.py ADDED Viewed

@@ -0,0 +1,10 @@
+from os.path import dirname, basename, isfile
+from .person import Person
+from .objects import Institution, Experience, Education
+from .company import Company
+__version__ = "2.1.0"
+import glob
+modules = glob.glob(dirname(__file__)+"/*.py")
+__all__ = [ basename(f)[:-3] for f in modules if isfile(f) and not f.endswith('__init__.py')]

usr/lib/python3.6/site-packages/linkedin_scraper/__pycache__/__init__.cpython-36.pyc ADDED Viewed

Binary file

usr/lib/python3.6/site-packages/linkedin_scraper/__pycache__/company.cpython-36.pyc ADDED Viewed

Binary file

usr/lib/python3.6/site-packages/linkedin_scraper/__pycache__/functions.cpython-36.pyc ADDED Viewed

Binary file

usr/lib/python3.6/site-packages/linkedin_scraper/__pycache__/objects.cpython-36.pyc ADDED Viewed

Binary file

usr/lib/python3.6/site-packages/linkedin_scraper/__pycache__/person.cpython-36.pyc ADDED Viewed

Binary file

usr/lib/python3.6/site-packages/linkedin_scraper/__pycache__/scraper.cpython-36.pyc ADDED Viewed

Binary file

usr/lib/python3.6/site-packages/linkedin_scraper/company.py ADDED Viewed

@@ -0,0 +1,213 @@
+import requests
+from lxml import html
+from selenium import webdriver
+from selenium.webdriver.common.by import By
+from selenium.webdriver.support.ui import WebDriverWait
+from selenium.webdriver.support import expected_conditions as EC
+from .objects import Scraper
+import os
+class CompanySummary(object):
+    linkedin_url = None
+    name = None
+    followers = None
+    def __init__(self, linkedin_url = None, name = None, followers = None):
+        self.linkedin_url = linkedin_url
+        self.name = name
+        self.followers = followers
+    def __repr__(self):
+        if self.followers == None:
+            return """ {name} """.format(name = self.name)
+        else:
+            return """ {name} {followers} """.format(name = self.name, followers = self.followers)
+class Company(Scraper):
+    linkedin_url = None
+    name = None
+    about_us =None
+    website = None
+    headquarters = None
+    founded = None
+    company_type = None
+    company_size = None
+    specialties = None
+    showcase_pages =[]
+    affiliated_companies = []
+    def __init__(self, linkedin_url = None, name = None, about_us =None, website = None, headquarters = None, founded = None, company_type = None, company_size = None, specialties = None, showcase_pages =[], affiliated_companies = [], driver = None, scrape = True):
+        self.linkedin_url = linkedin_url
+        self.name = name
+        self.about_us = about_us
+        self.website = website
+        self.headquarters = headquarters
+        self.founded = founded
+        self.company_type = company_type
+        self.company_size = company_size
+        self.specialties = specialties
+        self.showcase_pages = showcase_pages
+        self.affiliated_companies = affiliated_companies
+        if driver is None:
+            try:
+                if os.getenv("CHROMEDRIVER") == None:
+                    driver_path = os.path.join(os.path.dirname(__file__), 'drivers/chromedriver')
+                else:
+                    driver_path = os.getenv("CHROMEDRIVER")
+                driver = webdriver.Chrome(driver_path)
+            except:
+                driver = webdriver.Chrome()
+        driver.get(linkedin_url)
+        self.driver = driver
+        if scrape:
+            self.scrape()
+    def __get_text_under_subtitle(self, elem):
+        return "\n".join(elem.text.split("\n")[1:])
+    def __get_text_under_subtitle_by_class(self, driver, class_name):
+        return self.__get_text_under_subtitle(driver.find_element_by_class_name(class_name))
+    def scrape(self, close_on_complete = True):
+        if self.is_signed_in():
+            self.scrape_logged_in(close_on_complete = close_on_complete)
+        else:
+            self.scrape_not_logged_in(close_on_complete = close_on_complete)
+    def scrape_logged_in(self, close_on_complete = True):
+        driver = self.driver
+        self.name = driver.find_element_by_xpath('//h1[@dir="ltr"]').text
+        self.about_us = driver.find_element_by_class_name("org-about-us-organization-description__text").text
+        self.specialties = "\n".join(driver.find_element_by_class_name("org-about-company-module__specialities").text.split(", "))
+        self.website = driver.find_element_by_class_name("org-about-us-company-module__website").text
+        self.headquarters = driver.find_element_by_class_name("org-about-company-module__headquarters").text
+        self.industry = driver.find_element_by_class_name("company-industries").text
+        self.company_size = driver.find_element_by_class_name("org-about-company-module__company-staff-count-range").text
+        driver.execute_script("window.scrollTo(0, Math.ceil(document.body.scrollHeight/2));")
+        try:
+            _ = WebDriverWait(driver, 3).until(EC.presence_of_element_located((By.CLASS_NAME, 'company-list')))
+            showcase, affiliated = driver.find_elements_by_class_name("company-list")
+            driver.find_element_by_id("org-related-companies-module__show-more-btn").click()
+            # get showcase
+            for showcase_company in showcase.find_elements_by_class_name("org-company-card"):
+                companySummary = CompanySummary(
+                        linkedin_url = showcase_company.find_element_by_class_name("company-name-link").get_attribute("href"),
+                        name = showcase_company.find_element_by_class_name("company-name-link").text,
+                        followers = showcase_company.find_element_by_class_name("company-followers-count").text
+                    )
+                self.showcase_pages.append(companySummary)
+            # affiliated company
+            for affiliated_company in showcase.find_elements_by_class_name("org-company-card"):
+                companySummary = CompanySummary(
+                         linkedin_url = affiliated_company.find_element_by_class_name("company-name-link").get_attribute("href"),
+                        name = affiliated_company.find_element_by_class_name("company-name-link").text,
+                        followers = affiliated_company.find_element_by_class_name("company-followers-count").text
+                        )
+                self.affiliated_companies.append(companySummary)
+        except:
+            pass
+        if close_on_complete:
+            driver.close()
+    def scrape_not_logged_in(self, close_on_complete = True, retry_limit = 10):
+        driver = self.driver
+        retry_times = 0
+        while self.is_signed_in() and retry_times <= retry_limit:
+            page = driver.get(self.linkedin_url)
+            retry_times = retry_times + 1
+        self.name = driver.find_element_by_class_name("name").text
+        self.about_us = driver.find_element_by_class_name("basic-info-description").text
+        self.specialties = self.__get_text_under_subtitle_by_class(driver, "specialties")
+        self.website = self.__get_text_under_subtitle_by_class(driver, "website")
+        self.headquarters = driver.find_element_by_class_name("adr").text
+        self.industry = driver.find_element_by_class_name("industry").text
+        self.company_size = driver.find_element_by_class_name("company-size").text
+        self.company_type = self.__get_text_under_subtitle_by_class(driver, "type")
+        self.founded = self.__get_text_under_subtitle_by_class(driver, "founded")
+        # get showcase
+        try:
+            driver.find_element_by_id("view-other-showcase-pages-dialog").click()
+            WebDriverWait(driver, 3).until(EC.presence_of_element_located((By.ID, 'dialog')))
+            showcase_pages = driver.find_elements_by_class_name("company-showcase-pages")[1]
+            for showcase_company in showcase_pages.find_elements_by_tag_name("li"):
+                name_elem = showcase_company.find_element_by_class_name("name")
+                companySummary = CompanySummary(
+                    linkedin_url = name_elem.find_element_by_tag_name("a").get_attribute("href"),
+                    name = name_elem.text,
+                    followers = showcase_company.text.split("\n")[1]
+                )
+                self.showcase_pages.append(companySummary)
+            driver.find_element_by_class_name("dialog-close").click()
+        except:
+            pass
+        # affiliated company
+        try:
+            affiliated_pages = driver.find_element_by_class_name("affiliated-companies")
+            for i, affiliated_page in enumerate(affiliated_pages.find_elements_by_class_name("affiliated-company-name")):
+                if i % 3 == 0:
+                    affiliated_pages.find_element_by_class_name("carousel-control-next").click()
+                companySummary = CompanySummary(
+                    linkedin_url = affiliated_page.find_element_by_tag_name("a").get_attribute("href"),
+                    name = affiliated_page.text
+                )
+                self.affiliated_companies.append(companySummary)
+        except:
+            pass
+        if close_on_complete:
+            driver.close()
+    def __repr__(self):
+        return """
+{name}
+{about_us}
+Specialties: {specialties}
+Website: {website}
+Industry: {industry}
+Type: {company_type}
+Headquarters: {headquarters}
+Company Size: {company_size}
+Founded: {founded}
+Showcase Pages
+{showcase_pages}
+Affiliated Companies
+{affiliated_companies}
+    """.format(
+        name = self.name,
+        about_us = self.about_us,
+        specialties = self.specialties,
+        website= self.website,
+        industry= self.industry,
+        company_type= self.company_type,
+        headquarters= self.headquarters,
+        company_size= self.company_size,
+        founded= self.founded,
+        showcase_pages = self.showcase_pages,
+        affiliated_companies = self.affiliated_companies
+    )

usr/lib/python3.6/site-packages/linkedin_scraper/functions.py ADDED Viewed

@@ -0,0 +1,15 @@
+import re
+def time_divide(string):
+    duration = re.search("\((.*?)\)", string)
+    if duration != None:
+        duration = duration.group(0)
+        string = string.replace(duration, "").strip()
+    else:
+        duration = "()"
+    times = string.split("–")
+    return (times[0].strip(), times[1].strip(), duration[1:-1])

usr/lib/python3.6/site-packages/linkedin_scraper/objects.py ADDED Viewed

@@ -0,0 +1,60 @@
+class Institution(object):
+    institution_name = None
+    website = None
+    industry = None
+    type = None
+    headquarters = None
+    company_size = None
+    founded = None
+    def __init__(self, name=None, website=None, industry=None, type=None, headquarters=None, company_size=None, founded=None):
+        self.name = name
+        self.website = website
+        self.industry = industry
+        self.type = type
+        self.headquarters = headquarters
+        self.company_size = company_size
+        self.founded = founded
+class Experience(Institution):
+    from_date = None
+    to_date = None
+    description = None
+    position_title = None
+    def __init__(self, from_date = None, to_date = None, description = None, position_title = None):
+        self.from_date = from_date
+        self.to_date = to_date
+        self.description = description
+        self.position_title = position_title
+    def __repr__(self):
+        return "{position_title} at {company} from {from_date} to {to_date}".format( from_date = self.from_date, to_date = self.to_date, position_title = self.position_title, company = self.institution_name)
+class Education(Institution):
+    from_date = None
+    to_date = None
+    description = None
+    degree = None
+    def __init__(self, from_date = None, to_date = None, description = None, degree = None):
+        self.from_date = from_date
+        self.to_date = to_date
+        self.description = description
+        self.degree = degree
+    def __repr__(self):
+        return "{degree} at {company} from {from_date} to {to_date}".format( from_date = self.from_date, to_date = self.to_date, degree = self.degree, company = self.institution_name)
+class Scraper(object):
+    driver = None
+    def is_signed_in(self):
+        try:
+            self.driver.find_element_by_id("profile-nav-item")
+            return True
+        except:
+            pass
+        return False

usr/lib/python3.6/site-packages/linkedin_scraper/person.py ADDED Viewed

@@ -0,0 +1,145 @@
+import requests
+from lxml import html
+from selenium import webdriver
+from selenium.webdriver.common.by import By
+from selenium.webdriver.support.ui import WebDriverWait
+from selenium.webdriver.support import expected_conditions as EC
+from .functions import time_divide
+from .objects import Experience, Education, Scraper
+import os
+class Person(Scraper):
+    name = None
+    experiences = []
+    educations = []
+    also_viewed_urls = []
+    linkedin_url = None
+    def __init__(self, linkedin_url = None, experiences = [], educations = [], driver = None, scrape = True):
+        self.linkedin_url = linkedin_url
+        self.experiences = experiences
+        self.educations = educations
+        if driver is None:
+            try:
+                if os.getenv("CHROMEDRIVER") == None:
+                    driver_path = os.path.join(os.path.dirname(__file__), 'drivers/chromedriver')
+                else:
+                    driver_path = os.getenv("CHROMEDRIVER")
+                driver = webdriver.Chrome(driver_path)
+            except:
+                driver = webdriver.Chrome()
+        driver.get(linkedin_url)
+        self.driver = driver
+        if scrape:
+            self.scrape()
+    def add_experience(self, experience):
+        self.experiences.append(experience)
+    def add_education(self, education):
+        self.educations.append(education)
+    def scrape(self, close_on_complete = True):
+        if self.is_signed_in():
+            self.scrape_logged_in(close_on_complete = close_on_complete)
+        else:
+            self.scrape_not_logged_in(close_on_complete = close_on_complete)
+    def scrape_logged_in(self, close_on_complete = True):
+        driver = self.driver
+        self.name = driver.find_element_by_class_name("pv-top-card-section__name").text
+        driver.execute_script("window.scrollTo(0, Math.ceil(document.body.scrollHeight/2));")
+        _ = WebDriverWait(driver, 3).until(EC.presence_of_element_located((By.ID, "experience-section")))
+        # get experience
+        exp = driver.find_element_by_id("experience-section")
+        for position in exp.find_elements_by_class_name("pv-position-entity"):
+            position_title = position.find_element_by_tag_name("h3").text
+            company = position.find_element_by_class_name("pv-entity__secondary-title").text
+            try:
+                times = position.find_element_by_class_name("pv-entity__date-range").text
+                from_date, to_date, duration = time_divide(times)
+            except:
+                from_date, to_date = (None, None)
+            experience = Experience( position_title = position_title , from_date = from_date , to_date = to_date)
+            experience.institution_name = company
+            self.add_experience(experience)
+        driver.execute_script("window.scrollTo(0, Math.ceil(document.body.scrollHeight/1.5));")
+        _ = WebDriverWait(driver, 3).until(EC.presence_of_element_located((By.ID, "education-section")))
+        # get education
+        edu = driver.find_element_by_id("education-section")
+        for school in edu.find_elements_by_class_name("pv-profile-section__sortable-item"):
+            university = school.find_element_by_class_name("pv-entity__school-name").text
+            degree = school.find_element_by_class_name("pv-entity__degree-name").text
+            try:
+                times = school.find_element_by_class_name("pv-entity__dates").text
+                from_date, to_date, duration = time_divide(times)
+            except:
+                from_date, to_date = (None, None)
+            education = Education(from_date = from_date, to_date = to_date, degree=degree)
+            education.institution_name = university
+            self.add_education(education)
+        if close_on_complete:
+            driver.close()
+    def scrape_not_logged_in(self, close_on_complete=True, retry_limit = 10):
+        driver = self.driver
+        retry_times = 0
+        while self.is_signed_in() and retry_times <= retry_limit:
+            page = driver.get(self.linkedin_url)
+            retry_times = retry_times + 1
+        # get name
+        self.name = driver.find_element_by_id("name").text
+        # get experience
+        exp = driver.find_element_by_id("experience")
+        for position in exp.find_elements_by_class_name("position"):
+            position_title = position.find_element_by_class_name("item-title").text
+            company = position.find_element_by_class_name("item-subtitle").text
+            try:
+                times = position.find_element_by_class_name("date-range").text
+                from_date, to_date, duration = time_divide(times)
+            except:
+                from_date, to_date = (None, None)
+            experience = Experience( position_title = position_title , from_date = from_date , to_date = to_date)
+            experience.institution_name = company
+            self.add_experience(experience)
+        # get education
+        edu = driver.find_element_by_id("education")
+        for school in edu.find_elements_by_class_name("school"):
+            university = school.find_element_by_class_name("item-title").text
+            degree = school.find_element_by_class_name("original").text
+            try:
+                times = school.find_element_by_class_name("date-range").text
+                from_date, to_date, duration = time_divide(times)
+            except:
+                from_date, to_date = (None, None)
+            education = Education(from_date = from_date, to_date = to_date, degree=degree)
+            education.institution_name = university
+            self.add_education(education)
+        # get
+        if close_on_complete:
+            driver.close()
+    def __repr__(self):
+        return "{name}\n\nExperience\n{exp}\n\nEducation\n{edu}".format(name = self.name, exp = self.experiences, edu = self.educations)

usr/lib/python3.6/site-packages/linkedin_scraper/scraper.py ADDED Viewed

@@ -0,0 +1,8 @@
+#!/usr/bin/python3
+import requests
+from lxml import html
+from selenium import webdriver
+import re
+import os

usr/lib/python3.6/site-packages/linkedin_scraper-2.1.0-py3.6.egg-info/PKG-INFO ADDED Viewed

@@ -0,0 +1,13 @@
+Metadata-Version: 1.1
+Name: linkedin-scraper
+Version: 2.1.0
+Summary: Scrapes user data from Linkedin
+Home-page: https://github.com/joeyism/linkedin_scraper
+Author: Joey Sham
+Author-email: sham.joey@gmail.com
+License: UNKNOWN
+Download-URL: https://github.com/joeyism/linkedin_scraper/dist/2.1.0.tar.gz
+Description-Content-Type: UNKNOWN
+Description: UNKNOWN
+Keywords: linkedin,scraping,scraper
+Platform: UNKNOWN

usr/lib/python3.6/site-packages/linkedin_scraper-2.1.0-py3.6.egg-info/SOURCES.txt ADDED Viewed

@@ -0,0 +1,14 @@
+README.rst
+setup.cfg
+setup.py
+linkedin_scraper/__init__.py
+linkedin_scraper/company.py
+linkedin_scraper/functions.py
+linkedin_scraper/objects.py
+linkedin_scraper/person.py
+linkedin_scraper/scraper.py
+linkedin_scraper.egg-info/PKG-INFO
+linkedin_scraper.egg-info/SOURCES.txt
+linkedin_scraper.egg-info/dependency_links.txt
+linkedin_scraper.egg-info/requires.txt
+linkedin_scraper.egg-info/top_level.txt

usr/lib/python3.6/site-packages/linkedin_scraper-2.1.0-py3.6.egg-info/dependency_links.txt ADDED Viewed

	@@ -0,0 +1 @@
1	+

usr/lib/python3.6/site-packages/linkedin_scraper-2.1.0-py3.6.egg-info/requires.txt ADDED Viewed

@@ -0,0 +1,3 @@
+lxml
+request
+selenium

usr/lib/python3.6/site-packages/linkedin_scraper-2.1.0-py3.6.egg-info/top_level.txt ADDED Viewed

	@@ -0,0 +1 @@
1	+ linkedin_scraper

usr/lib/python3.6/site-packages/linkedin_user_scraper/__init__.py ADDED Viewed

@@ -0,0 +1,8 @@
+from os.path import dirname, basename, isfile
+from .person import Person
+from .objects import Institution, Experience, Education
+from .company import Company
+import glob
+modules = glob.glob(dirname(__file__)+"/*.py")
+__all__ = [ basename(f)[:-3] for f in modules if isfile(f) and not f.endswith('__init__.py')]

usr/lib/python3.6/site-packages/linkedin_user_scraper/__pycache__/__init__.cpython-36.pyc ADDED Viewed

Binary file

usr/lib/python3.6/site-packages/linkedin_user_scraper/__pycache__/company.cpython-36.pyc ADDED Viewed

Binary file

usr/lib/python3.6/site-packages/linkedin_user_scraper/__pycache__/functions.cpython-36.pyc ADDED Viewed

Binary file

usr/lib/python3.6/site-packages/linkedin_user_scraper/__pycache__/objects.cpython-36.pyc ADDED Viewed

Binary file

usr/lib/python3.6/site-packages/linkedin_user_scraper/__pycache__/person.cpython-36.pyc ADDED Viewed

Binary file

usr/lib/python3.6/site-packages/linkedin_user_scraper/__pycache__/scraper.cpython-36.pyc ADDED Viewed

Binary file

usr/lib/python3.6/site-packages/linkedin_user_scraper/company.py ADDED Viewed

@@ -0,0 +1,159 @@
+import requests
+from lxml import html
+from selenium import webdriver
+from selenium.webdriver.common.by import By
+from selenium.webdriver.support.ui import WebDriverWait
+from selenium.webdriver.support import expected_conditions as EC
+import os
+class CompanySummary(object):
+    linkedin_url = None
+    name = None
+    followers = None
+    def __init__(self, linkedin_url = None, name = None, followers = None):
+        self.linkedin_url = linkedin_url
+        self.name = name
+        self.followers = followers
+    def __repr__(self):
+        if self.followers == None:
+            return """ {name} """.format(name = self.name)
+        else:
+            return """ {name} {followers} """.format(name = self.name, followers = self.followers)
+class Company(object):
+    linkedin_url = None
+    name = None
+    about_us =None
+    website = None
+    headquarters = None
+    founded = None
+    company_type = None
+    company_size = None
+    specialties = None
+    showcase_pages =[]
+    affiliated_companies = []
+    driver = None
+    def __init__(self, linkedin_url = None, name = None, about_us =None, website = None, headquarters = None, founded = None, company_type = None, company_size = None, specialties = None, showcase_pages =[], affiliated_companies = [], driver = None, scrape = True):
+        self.linkedin_url = linkedin_url
+        self.name = name
+        self.about_us = about_us
+        self.website = website
+        self.headquarters = headquarters
+        self.founded = founded
+        self.company_type = company_type
+        self.company_size = company_size
+        self.specialties = specialties
+        self.showcase_pages = showcase_pages
+        self.affiliated_companies = affiliated_companies
+        if driver is None:
+            try:
+                if os.getenv("CHROMEDRIVER") == None:
+                    driver_path = os.path.join(os.path.dirname(__file__), 'drivers/chromedriver')
+                else:
+                    driver_path = os.getenv("CHROMEDRIVER")
+                driver = webdriver.Chrome(driver_path)
+            except:
+                driver = webdriver.Chrome()
+        driver.get(linkedin_url)
+        self.driver = driver
+        if scrape:
+            self.scrape()
+    def __get_text_under_subtitle(self, elem):
+        return "\n".join(elem.text.split("\n")[1:])
+    def __get_text_under_subtitle_by_class(self, driver, class_name):
+        return self.__get_text_under_subtitle(driver.find_element_by_class_name(class_name))
+    def scrape(self, close_on_complete = True):
+        driver = self.driver
+        page = driver.get(self.linkedin_url)
+        self.name = driver.find_element_by_class_name("name").text
+        self.about_us = driver.find_element_by_class_name("basic-info-description").text
+        self.specialties = self.__get_text_under_subtitle_by_class(driver, "specialties")
+        self.website = self.__get_text_under_subtitle_by_class(driver, "website")
+        self.headquarters = driver.find_element_by_class_name("adr").text
+        self.industry = driver.find_element_by_class_name("industry").text
+        self.company_size = driver.find_element_by_class_name("company-size").text
+        self.company_type = self.__get_text_under_subtitle_by_class(driver, "type")
+        self.founded = self.__get_text_under_subtitle_by_class(driver, "founded")
+        # get showcase
+        try:
+            driver.find_element_by_id("view-other-showcase-pages-dialog").click()
+            WebDriverWait(driver, 3).until(EC.presence_of_element_located((By.ID, 'dialog')))
+            showcase_pages = driver.find_elements_by_class_name("company-showcase-pages")[1]
+            for showcase_company in showcase_pages.find_elements_by_tag_name("li"):
+                name_elem = showcase_company.find_element_by_class_name("name")
+                companySummary = CompanySummary(
+                    linkedin_url = name_elem.find_element_by_tag_name("a").get_attribute("href"),
+                    name = name_elem.text,
+                    followers = showcase_company.text.split("\n")[1]
+                )
+                self.showcase_pages.append(companySummary)
+            driver.find_element_by_class_name("dialog-close").click()
+        except:
+            pass
+        # affiliated company
+        try:
+            affiliated_pages = driver.find_element_by_class_name("affiliated-companies")
+            for i, affiliated_page in enumerate(affiliated_pages.find_elements_by_class_name("affiliated-company-name")):
+                if i % 3 == 0:
+                    affiliated_pages.find_element_by_class_name("carousel-control-next").click()
+                companySummary = CompanySummary(
+                    linkedin_url = affiliated_page.find_element_by_tag_name("a").get_attribute("href"),
+                    name = affiliated_page.text
+                )
+                self.affiliated_companies.append(companySummary)
+        except:
+            pass
+        if close_on_complete:
+            driver.close()
+    def __repr__(self):
+        return """
+{name}
+{about_us}
+Specialties: {specialties}
+Website: {website}
+Industry: {industry}
+Type: {company_type}
+Headquarters: {headquarters}
+Company Size: {company_size}
+Founded: {founded}
+Showcase Pages
+{showcase_pages}
+Affiliated Companies
+{affiliated_companies}
+    """.format(
+        name = self.name,
+        about_us = self.about_us,
+        specialties = self.specialties,
+        website= self.website,
+        industry= self.industry,
+        company_type= self.company_type,
+        headquarters= self.headquarters,
+        company_size= self.company_size,
+        founded= self.founded,
+        showcase_pages = self.showcase_pages,
+        affiliated_companies = self.affiliated_companies
+    )

usr/lib/python3.6/site-packages/linkedin_user_scraper/functions.py ADDED Viewed

@@ -0,0 +1,15 @@
+import re
+def time_divide(string):
+    duration = re.search("\((.*?)\)", string)
+    if duration != None:
+        duration = duration.group(0)
+        string = string.replace(duration, "").strip()
+    else:
+        duration = "()"
+    times = string.split("–")
+    return (times[0].strip(), times[1].strip(), duration[1:-1])

usr/lib/python3.6/site-packages/linkedin_user_scraper/objects.py ADDED Viewed

@@ -0,0 +1,51 @@
+class Institution(object):
+    institution_name = None
+    website = None
+    industry = None
+    type = None
+    headquarters = None
+    company_size = None
+    founded = None
+    def __init__(self, name=None, website=None, industry=None, type=None, headquarters=None, company_size=None, founded=None):
+        self.name = name
+        self.website = website
+        self.industry = industry
+        self.type = type
+        self.headquarters = headquarters
+        self.company_size = company_size
+        self.founded = founded
+class Experience(Institution):
+    from_date = None
+    to_date = None
+    description = None
+    position_title = None
+    def __init__(self, from_date = None, to_date = None, description = None, position_title = None):
+        self.from_date = from_date
+        self.to_date = to_date
+        self.description = description
+        self.position_title = position_title
+    def __repr__(self):
+        return "{position_title} at {company} from {from_date} to {to_date}".format( from_date = self.from_date, to_date = self.to_date, position_title = self.position_title, company = self.institution_name)
+class Education(Institution):
+    from_date = None
+    to_date = None
+    description = None
+    degree = None
+    def __init__(self, from_date = None, to_date = None, description = None, degree = None):
+        self.from_date = from_date
+        self.to_date = to_date
+        self.description = description
+        self.degree = degree
+    def __repr__(self):
+        return "{degree} at {company} from {from_date} to {to_date}".format( from_date = self.from_date, to_date = self.to_date, degree = self.degree, company = self.institution_name)

usr/lib/python3.6/site-packages/linkedin_user_scraper/person.py ADDED Viewed

@@ -0,0 +1,87 @@
+import requests
+from lxml import html
+from selenium import webdriver
+from .functions import time_divide
+import os
+class Person(object):
+    name = None
+    experiences = []
+    educations = []
+    also_viewed_urls = []
+    linkedin_url = None
+    driver = None
+    def __init__(self, linkedin_url = None, experiences = [], educations = [], driver = None, scrape = True):
+        self.linkedin_url = linkedin_url
+        self.experiences = experiences
+        self.educations = educations
+        if driver is None:
+            try:
+                if os.getenv("CHROMEDRIVER") == None:
+                    driver_path = os.path.join(os.path.dirname(__file__), 'drivers/chromedriver')
+                else:
+                    driver_path = os.getenv("CHROMEDRIVER")
+                driver = webdriver.Chrome(driver_path)
+            except:
+                driver = webdriver.Chrome()
+        driver.get(linkedin_url)
+        self.driver = driver
+        if scrape:
+            self.scrape()
+    def add_experience(self, experience):
+        self.experiences.append(experience)
+    def add_education(self, education):
+        self.educations.append(education)
+    def scrape(self, close_on_complete=True):
+        driver = self.driver
+        page = driver.get(self.linkedin_url)
+        # get name
+        self.name = driver.find_element_by_id("name").text
+        # get experience
+        exp = driver.find_element_by_id("experience")
+        for position in exp.find_elements_by_class_name("position"):
+            position_title = position.find_element_by_class_name("item-title").text
+            company = position.find_element_by_class_name("item-subtitle").text
+            try:
+                times = position.find_element_by_class_name("date-range").text
+                from_date, to_date, duration = time_divide(times)
+            except:
+                from_date, to_date = (None, None)
+            experience = Experience( position_title = position_title , from_date = from_date , to_date = to_date)
+            experience.institution_name = company
+            self.add_experience(experience)
+        # get education
+        edu = driver.find_element_by_id("education")
+        for school in edu.find_elements_by_class_name("school"):
+            university = school.find_element_by_class_name("item-title").text
+            degree = school.find_element_by_class_name("original").text
+            try:
+                times = school.find_element_by_class_name("date-range").text
+                from_date, to_date, duration = time_divide(times)
+            except:
+                from_date, to_date = (None, None)
+            education = Education(from_date = from_date, to_date = to_date, degree=degree)
+            education.institution_name = university
+            self.add_education(education)
+        # get
+        if close_on_complete:
+            driver.close()
+    def __repr__(self):
+        return "{name}\n\nExperience\n{exp}\n\nEducation\n{edu}".format(name = self.name, exp = self.experiences, edu = self.educations)

usr/lib/python3.6/site-packages/linkedin_user_scraper/scraper.py ADDED Viewed

@@ -0,0 +1,8 @@
+#!/usr/bin/python3
+import requests
+from lxml import html
+from selenium import webdriver
+import re
+import os