PyPI - jupiterweb-scraper - Versions diffs - 0.1.0__py3-none-any.whl - Mend

jupiterweb-scraper 0.1.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (13) hide show

jupiterweb/__init__.py +19 -0
jupiterweb/data/institutos.json +382 -0
jupiterweb/disciplina.py +373 -0
jupiterweb/instituto.py +61 -0
jupiterweb/jupiterweb.py +15 -0
jupiterweb/paths.py +8 -0
jupiterweb/urls.py +10 -0
jupiterweb/utils.py +25 -0
jupiterweb_scraper-0.1.0.dist-info/METADATA +96 -0
jupiterweb_scraper-0.1.0.dist-info/RECORD +13 -0
jupiterweb_scraper-0.1.0.dist-info/WHEEL +5 -0
jupiterweb_scraper-0.1.0.dist-info/licenses/LICENSE +21 -0
jupiterweb_scraper-0.1.0.dist-info/top_level.txt +1 -0

jupiterweb/__init__.py ADDED Viewed

@@ -0,0 +1,19 @@
+import importlib.metadata
+from .disciplina import Disciplina, HorarioAula, Oferecimento, Requisito
+from .instituto import Instituto
+from .jupiterweb import obter_institutos
+try:
+    __version__ = importlib.metadata.version("your_package")
+except importlib.metadata.PackageNotFoundError:
+    __version__ = "0.0.0"
+__all__ = [
+    "Disciplina",
+    "HorarioAula",
+    "Oferecimento",
+    "Requisito",
+    "Instituto",
+    "obter_institutos",
+]

jupiterweb/data/institutos.json ADDED Viewed

@@ -0,0 +1,382 @@
+{
+    "1": {
+        "nome": "Pró-Reitoria de Graduação - Cursos Interunidades",
+        "campus": "Butantã",
+        "abrev": "PRG"
+    },
+    "2": {
+        "nome": "Faculdade de Direito",
+        "campus": "Quadrilátero",
+        "abrev": "FD"
+    },
+    "3": {
+        "nome": "Escola Politécnica",
+        "campus": "Butantã",
+        "abrev": "POLI"
+    },
+    "4": {
+        "nome": "Instituto de Energia e Ambiente",
+        "campus": "Butantã",
+        "abrev": "IEE"
+    },
+    "5": {
+        "nome": "Faculdade de Medicina",
+        "campus": "Quadrilátero",
+        "abrev": "FM"
+    },
+    "6": {
+        "nome": "Faculdade de Saúde Pública",
+        "campus": "Quadrilátero",
+        "abrev": "FSP"
+    },
+    "7": {
+        "nome": "Escola de Enfermagem",
+        "campus": "Quadrilátero",
+        "abrev": "EE"
+    },
+    "8": {
+        "nome": "Faculdade de Filosofia, Letras e Ciências Humanas",
+        "campus": "Butantã",
+        "abrev": "FFLCH"
+    },
+    "9": {
+        "nome": "Faculdade de Ciências Farmacêuticas",
+        "campus": "Butantã",
+        "abrev": "FCF"
+    },
+    "10": {
+        "nome": "Faculdade de Medicina Veterinária e Zootecnia",
+        "campus": "Butantã",
+        "abrev": "FMVZ"
+    },
+    "11": {
+        "nome": "Escola Superior de Agricultura \"Luiz de Queiroz\"",
+        "campus": "Piracicaba",
+        "abrev": "ESALQ"
+    },
+    "12": {
+        "nome": "Faculdade de Economia, Administração, Contabilidade e Atuária",
+        "campus": "Butantã",
+        "abrev": "FEA"
+    },
+    "13": {
+        "nome": "Escola Politécnica e Faculdade de Medicina",
+        "campus": "Butantã",
+        "abrev": "POLI/FM"
+    },
+    "14": {
+        "nome": "Instituto de Astronomia, Geofísica e Ciências Atmosféricas",
+        "campus": "Butantã",
+        "abrev": "IAG"
+    },
+    "15": {
+        "nome": "Faculdade de Odontologia, Instituto de Ciências Biomédicas, Instituto de Química e Instituto de Biociências",
+        "campus": "Butantã",
+        "abrev": "FO/ICB/IQ/IB"
+    },
+    "16": {
+        "nome": "Faculdade de Arquitetura e Urbanismo e de Design",
+        "campus": "Butantã",
+        "abrev": "FAU"
+    },
+    "17": {
+        "nome": "Faculdade de Medicina de Ribeirão Preto",
+        "campus": "Ribeirão Preto",
+        "abrev": "FMRP"
+    },
+    "18": {
+        "nome": "Escola de Engenharia de São Carlos",
+        "campus": "São Carlos",
+        "abrev": "EESC"
+    },
+    "20": {
+        "nome": "Escola Politécnica, Instituto de Matemática, Estatística e Ciência da Computação, Instituto de Física",
+        "campus": "Butantã",
+        "abrev": "POLI/IME/IF"
+    },
+    "21": {
+        "nome": "Instituto Oceanográfico",
+        "campus": "Butantã",
+        "abrev": "IO"
+    },
+    "22": {
+        "nome": "Escola de Enfermagem de Ribeirão Preto",
+        "campus": "Ribeirão Preto",
+        "abrev": "EERP"
+    },
+    "23": {
+        "nome": "Faculdade de Odontologia",
+        "campus": "Butantã",
+        "abrev": "FO"
+    },
+    "24": {
+        "nome": "Faculdade de Medicina de Bauru",
+        "campus": "Bauru",
+        "abrev": "FMBRU"
+    },
+    "25": {
+        "nome": "Faculdade de Odontologia de Bauru",
+        "campus": "Bauru",
+        "abrev": "FOB"
+    },
+    "26": {
+        "nome": "Instituto de Astronomia, Geofísica e Ciências Atmosféricas e Instituto de Geociências",
+        "campus": "Butantã",
+        "abrev": "IAG/IGc"
+    },
+    "27": {
+        "nome": "Escola de Comunicações e Artes",
+        "campus": "Butantã",
+        "abrev": "ECA"
+    },
+    "30": {
+        "nome": "Centro de Biologia Marinha",
+        "campus": "São Sebastião",
+        "abrev": "CEBIMar"
+    },
+    "31": {
+        "nome": "Instituto de Estudos Brasileiros",
+        "campus": "Butantã",
+        "abrev": "IEB"
+    },
+    "32": {
+        "nome": "Museu de Arte Contemporânea",
+        "campus": "Butantã",
+        "abrev": "MAC"
+    },
+    "33": {
+        "nome": "Museu Paulista",
+        "campus": "Ipiranga",
+        "abrev": "MP"
+    },
+    "37": {
+        "nome": "Instituto de Estudos Avançados",
+        "campus": "Butantã",
+        "abrev": "IEA"
+    },
+    "38": {
+        "nome": "Museu de Zoologia",
+        "campus": "Ipiranga",
+        "abrev": "MZUSP"
+    },
+    "39": {
+        "nome": "Escola de Educação Física e Esporte",
+        "campus": "Butantã",
+        "abrev": "EEFE"
+    },
+    "41": {
+        "nome": "Instituto de Biociências",
+        "campus": "Butantã",
+        "abrev": "IB"
+    },
+    "42": {
+        "nome": "Instituto de Ciências Biomédicas",
+        "campus": "Butantã",
+        "abrev": "ICB"
+    },
+    "43": {
+        "nome": "Instituto de Física",
+        "campus": "Butantã",
+        "abrev": "IF"
+    },
+    "44": {
+        "nome": "Instituto de Geociências",
+        "campus": "Butantã",
+        "abrev": "IGc"
+    },
+    "45": {
+        "nome": "Instituto de Matemática, Estatística e Ciência da Computação",
+        "campus": "Butantã",
+        "abrev": "IME"
+    },
+    "46": {
+        "nome": "Instituto de Química",
+        "campus": "Butantã",
+        "abrev": "IQ"
+    },
+    "47": {
+        "nome": "Instituto de Psicologia",
+        "campus": "Butantã",
+        "abrev": "IP"
+    },
+    "48": {
+        "nome": "Faculdade de Educação",
+        "campus": "Butantã",
+        "abrev": "FE"
+    },
+    "55": {
+        "nome": "Instituto de Ciências Matemáticas e de Computação",
+        "campus": "São Carlos",
+        "abrev": "ICMC"
+    },
+    "58": {
+        "nome": "Faculdade de Odontologia de Ribeirão Preto",
+        "campus": "Ribeirão Preto",
+        "abrev": "FORP"
+    },
+    "59": {
+        "nome": "Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto",
+        "campus": "Ribeirão Preto",
+        "abrev": "FFCLRP"
+    },
+    "60": {
+        "nome": "Faculdade de Ciências Farmacêuticas de Ribeirão Preto",
+        "campus": "Ribeirão Preto",
+        "abrev": "FCFRP"
+    },
+    "61": {
+        "nome": "Hospital de Reabilitação de Anomalias Craniofaciais",
+        "campus": "Bauru",
+        "abrev": "HRAC"
+    },
+    "64": {
+        "nome": "Centro de Energia Nuclear na Agricultura",
+        "campus": "Piracicaba",
+        "abrev": "CENA"
+    },
+    "65": {
+        "nome": "Pró-Reitoria de Graduação - Licenciatura em Ciências - Semipresencial",
+        "campus": "Butantã",
+        "abrev": "PRG-LC"
+    },
+    "66": {
+        "nome": "Física Médica - Instituto de Física e Faculdade de Medicina",
+        "campus": "Butantã",
+        "abrev": "IF/FM"
+    },
+    "67": {
+        "nome": "Faculdade de Medicina, Instituto de Ciências Biomédicas, Instituto de Química e Instituto de Biociências",
+        "campus": "Quadrilátero",
+        "abrev": "FM/ICB/IQ/IB"
+    },
+    "68": {
+        "nome": "Faculdade de Odontologia e Instituto de Ciências Biomédicas",
+        "campus": "Butantã",
+        "abrev": "FO/ICB"
+    },
+    "69": {
+        "nome": "Instituto de Biociências e Faculdade de Arquitetura e Urbanismo",
+        "campus": "Butantã",
+        "abrev": "IB/FAU"
+    },
+    "71": {
+        "nome": "Museu de Arqueologia e Etnologia",
+        "campus": "Butantã",
+        "abrev": "MAE"
+    },
+    "74": {
+        "nome": "Faculdade de Zootecnia e Engenharia de Alimentos",
+        "campus": "Pirassununga",
+        "abrev": "FZEA"
+    },
+    "75": {
+        "nome": "Instituto de Química de São Carlos",
+        "campus": "São Carlos",
+        "abrev": "IQSC"
+    },
+    "76": {
+        "nome": "Instituto de Física de São Carlos",
+        "campus": "São Carlos",
+        "abrev": "IFSC"
+    },
+    "81": {
+        "nome": "Faculdade de Economia, Administração e Contabilidade de Ribeirão Preto",
+        "campus": "Ribeirão Preto",
+        "abrev": "FEARP"
+    },
+    "83": {
+        "nome": "Instituto de Medicina Tropical de São Paulo",
+        "campus": "Quadrilátero",
+        "abrev": "IMT"
+    },
+    "85": {
+        "nome": "Instituto de Pesquisas Energéticas e Nucleares",
+        "campus": "Butantã",
+        "abrev": "IPEN"
+    },
+    "86": {
+        "nome": "Escola de Artes, Ciências e Humanidades",
+        "campus": "Leste",
+        "abrev": "EACH"
+    },
+    "87": {
+        "nome": "Instituto de Relações Internacionais",
+        "campus": "Butantã",
+        "abrev": "IRI"
+    },
+    "88": {
+        "nome": "Escola de Engenharia de Lorena",
+        "campus": "Lorena",
+        "abrev": "EEL"
+    },
+    "89": {
+        "nome": "Faculdade de Direito de Ribeirão Preto",
+        "campus": "Ribeirão Preto",
+        "abrev": "FDRP"
+    },
+    "90": {
+        "nome": "Licenciatura em Ciências Exatas - São Carlos",
+        "campus": "São Carlos",
+        "abrev": "LCE"
+    },
+    "91": {
+        "nome": "Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto e Faculdade de Medicina de Ribeirão Preto",
+        "campus": "Ribeirão Preto",
+        "abrev": "FFCLRP/FMRP"
+    },
+    "92": {
+        "nome": "Instituto de Biociências e Centro de Biologia Marinha",
+        "campus": "Butantã",
+        "abrev": "IB/CEBIMar"
+    },
+    "93": {
+        "nome": "Instituto de Astronomia, Geofísica e Ciências Atmosféricas e Instituto Oceanográfico",
+        "campus": "Butantã",
+        "abrev": "IAG/IO"
+    },
+    "94": {
+        "nome": "Escola de Enfermagem de Ribeirão Preto e Faculdade de Economia, Administração e Contabilidade de Ribeirão Preto",
+        "campus": "Ribeirão Preto",
+        "abrev": "EERP/FEARP"
+    },
+    "95": {
+        "nome": "Faculdade de Odontologia de Ribeirão Preto e Faculdade de Ciências Farmacêuticas de Ribeirão Preto",
+        "campus": "Ribeirão Preto",
+        "abrev": "FORP/FCFRP"
+    },
+    "96": {
+        "nome": "Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto e Faculdade de Economia, Administração e Contabilidade de Ribeirão Preto",
+        "campus": "Ribeirão Preto",
+        "abrev": "FFCLRP/FEARP"
+    },
+    "97": {
+        "nome": "Escola de Engenharia de São Carlos e Instituto de Ciências Matemáticas e de Computação",
+        "campus": "São Carlos",
+        "abrev": "EESC/ICMC"
+    },
+    "98": {
+        "nome": "Escola de Educação Física e Esporte de Ribeirão Preto",
+        "campus": "Ribeirão Preto",
+        "abrev": "EEFERP"
+    },
+    "99": {
+        "nome": "Instituto de Arquitetura e Urbanismo de São Carlos",
+        "campus": "São Carlos",
+        "abrev": "IAU"
+    },
+    "100": {
+        "nome": "Faculdade de Ciências Farmacêuticas e Instituto de Ciências Biomédicas",
+        "campus": "Butantã",
+        "abrev": "FCF/ICB"
+    },
+    "101": {
+        "nome": "Instituto de Química e Faculdade de Ciências Farmacêuticas",
+        "campus": "Butantã",
+        "abrev": "IQ/FCF"
+    },
+    "102": {
+        "nome": "Faculdade de Saúde Pública e Faculdade de Ciências Farmacêuticas",
+        "campus": "Quadrilátero",
+        "abrev": "FSP/FCF"
+    }
+}

jupiterweb/disciplina.py ADDED Viewed

@@ -0,0 +1,373 @@
+import re
+import unicodedata
+from typing import Any
+from warnings import warn
+from .urls import URLS
+from .utils import obter_soup, truncate_string
+class Disciplina:
+    """
+    Disciplina cadastrada no Jupiterweb.
+    """
+    def __init__(self, sigla: str) -> None:
+        self.sigla = str(sigla).upper()
+        self._dados: dict[str, Any] = {}
+        self._carregado = False
+    def __repr__(self) -> str:
+        return f"Disciplina(sigla='{self.sigla}')"
+    def __str__(self) -> str:
+        return self.sigla
+    def __getitem__(self, key: str) -> Any:
+        return self.obter_dados()[key]
+    def obter_dados(self) -> dict[str, Any]:
+        """
+        Retorna dados da disciplina no Jupiterweb. Se disciplina ainda nao foi carregada,
+        faz o scraping antes de retornar.
+        """
+        if not self._carregado:
+            self._carregar()
+        return self._dados
+    @property
+    def url_principal(self) -> str:
+        """
+        URL da pagina principal da disciplina no Jupiterweb.
+        """
+        return URLS["disciplina"].format(sigla=self.sigla)
+    @property
+    def url_oferecimento(self) -> str:
+        """
+        URL da pagina de oferecimentos da disciplina no Jupiterweb.
+        """
+        return URLS["oferecimento"].format(sigla=self.sigla)
+    @property
+    def url_requisitos(self) -> str:
+        """
+        URL da pagina de requisitos da disciplina no Jupiterweb.
+        """
+        return URLS["requisitos"].format(sigla=self.sigla)
+    def _normalizar_titulo(self, title: str) -> str:
+        """
+        Converte titulo ao formato padrao para chaves de dicionario.
+        """
+        title = title.strip().rstrip(":")
+        title = unicodedata.normalize("NFKD", title)
+        title = title.encode("ascii", "ignore").decode()
+        title = title.lower()
+        title = re.sub(r" +", " ", title)
+        return title
+    def _carregar_principal(self) -> None:
+        """
+        Faz scraping da pagina principal da disciplina e armazena os dados obtidos.
+        """
+        soup = obter_soup(self.url_principal)
+        table = soup.select_one("form[name='form1'] > table")
+        if not table:
+            warn(f"Nao foi possivel carregar pagina principal da disciplina {self.sigla}")
+            return
+        # ----- Texto centralizado -----
+        centered_text = [i.get_text(strip=True) for i in table.select("td[align='CENTER']")]
+        centered_text = [(centered_text[i] if len(centered_text) > i else "") for i in range(4)]
+        self._dados["instituto"] = centered_text[0]
+        self._dados["departamento"] = centered_text[1]
+        self._dados["nome"] = centered_text[2].removeprefix("Disciplina:").split("-", 1)[1].strip()
+        self._dados["nome ingles"] = centered_text[3]
+        # ----- Texto livre -----
+        span_text = table.select("span.txt_arial_8pt_gray, span.txt_arial_8pt_black")
+        title = ""  # guardar texto em self._dados[title] (se subtitle == "")
+        subtitle = ""  # guardar texto em self._dados[title][subtitle] (se subtitle != "")
+        subtitle_tab = None  # tabela em que subtitle foi encontrado
+        added_text = False  # se texto ja foi adicionado ao titulo atual (nao pode ter subtitulos)
+        for span in span_text:
+            text = span.get_text(strip=True, separator="\n")
+            if span.has_attr("class") and "txt_arial_8pt_black" in span["class"]:  # titulo ou subtitulo
+                text = self._normalizar_titulo(text)
+                tab = span.find_parent("table")
+                if title and ((not subtitle and not added_text) or (subtitle and tab == subtitle_tab)):  # subtitulo
+                    subtitle = text
+                    subtitle_tab = tab
+                    if (title not in self._dados) or (not isinstance(self._dados[title], dict)):
+                        self._dados[title] = {}
+                    self._dados[title][subtitle] = ""
+                else:  # titulo
+                    title = text
+                    subtitle = ""
+                    self._dados[title] = ""
+                added_text = False
+            else:  # texto
+                if subtitle:
+                    self._dados[title][subtitle] += "\n" + text if self._dados[title][subtitle] and text else text
+                else:
+                    self._dados[title] += "\n" + text if self._dados[title] and text else text
+                    added_text = True  # mesmo se text = "" o titulo nao pode ter subtitulos
+    def _carregar_requisitos(self) -> None:
+        """
+        Faz scraping da pagina de requisitos da disciplina e armazena os dados obtidos.
+        """
+        # dados["requisitos"][curso] = [["x"], ["y", "z"]] significa que, para fazer a
+        # disciplina, alunos de 'curso' precisam ter feito a disciplina "x", ou ter
+        # feito ambas as disciplinas "y" e "z".
+        self._dados["requisitos"] = {}
+        self._dados["periodo ideal"] = {}
+        soup = obter_soup(self.url_requisitos)
+        table = soup.select_one("form[name='form1'] > table")
+        if not table:
+            return  # sem requisitos
+        rows = table.select("tr.txt_verdana_8pt_gray")
+        curso = ""
+        index = 0  # adicionar em self._dados["requisitos"][curso][index]
+        for row in rows:
+            td = row.find_all("td")
+            if not td:
+                continue
+            txt = " ".join(td[0].text.strip().split())
+            if not txt:
+                continue
+            if txt.startswith("Curso"):
+                sep = txt.removeprefix("Curso:").split(" - Período ideal:", 1)
+                curso = sep[0].strip()
+                index = 0
+                self._dados["requisitos"][curso] = [[]]
+                if len(sep) > 1:
+                    self._dados["periodo ideal"][curso] = int(sep[1])
+            elif curso and txt.lower() == "ou":
+                index += 1
+                self._dados["requisitos"][curso].append([])
+            elif curso:
+                sigla = txt.split("-", 1)[0].strip().upper()
+                tipo = td[1].get_text(strip=True)
+                if not tipo:
+                    tipo = "requisito"
+                req = Requisito(sigla, tipo)
+                self._dados["requisitos"][curso][index].append(req)
+    def _carregar_oferecimento(self) -> None:
+        """
+        Faz scraping da pagina de oferecimento da disciplina e armazena os dados obtidos.
+        """
+        self._dados["oferecimento"] = []
+        soup = obter_soup(self.url_oferecimento)
+        table = soup.select_one("div#layout_principal > table:nth-of-type(4)")
+        if not table:
+            return  # sem oferecimentos
+        boxes = table.select_one("td").find_all("div", recursive=False)
+        for box in boxes:
+            box_tables = box.find_all("table", recursive=False)
+            # ----- Informacao basica -----
+            info_text = [i.get_text(strip=True) for i in box_tables[0].select("span.txt_arial_8pt_gray")]
+            info_text = [(info_text[i] if len(info_text) > i else "") for i in range(5)]
+            oferecimento = Oferecimento(
+                codigo=info_text[0],
+                data_inicio=info_text[1],
+                data_fim=info_text[2],
+                tipo_turma=info_text[3],
+                observacoes=info_text[4],
+                sigla_disciplina=self.sigla,
+            )
+            # ----- Horarios -----
+            horarios_rows = box_tables[1].find_all("tr", recursive=False)[1:]
+            for row in horarios_rows:
+                row_text = [i.get_text(strip=True) for i in row.find_all("td", recursive=False)]
+                row_text = [(row_text[i] if len(row_text) > i else "") for i in range(4)]
+                oferecimento.adicionar_horario(row_text[0], row_text[1], row_text[2], row_text[3])
+            # ----- Vagas -----
+            vagas_rows = box_tables[2].find_all("tr", recursive=False)
+            vagas_labels = [i.get_text(strip=True).lower() for i in vagas_rows[0].find_all("td", recursive=False)][1:]
+            vagas_labels = [self._normalizar_titulo(i) for i in vagas_labels]
+            tipo_vaga = ""
+            for row in vagas_rows[1:]:
+                row_text = [i.get_text(strip=True) for i in row.find_all("td", recursive=False)]
+                istitle = row_text[0] != ""
+                if not istitle:
+                    row_text = row_text[1:]
+                row_name = row_text[0]
+                row_vals = [(int(i) if i.isnumeric() else "-") for i in row_text[1:]]
+                row_vals = [(row_vals[i] if len(row_vals) > i else "-") for i in range(len(vagas_labels))]
+                row_items = {vagas_labels[i]: row_vals[i] for i in range(len(vagas_labels))}
+                if istitle:  # novo tipo de vaga
+                    tipo_vaga = self._normalizar_titulo(row_name)
+                    oferecimento.vagas[tipo_vaga] = row_items
+                    oferecimento.vagas[tipo_vaga]["cursos"] = {}
+                else:
+                    oferecimento.vagas[tipo_vaga]["cursos"][row_name] = row_items
+            self._dados["oferecimento"].append(oferecimento)
+    def _carregar(self) -> None:
+        """
+        Faz scraping da disciplina e armazena os seus dados.
+        """
+        self._dados = {
+            "sigla": self.sigla,
+        }
+        self._carregar_principal()
+        self._carregar_requisitos()
+        self._carregar_oferecimento()
+        self._carregado = True
+    def possui_oferecimento(self) -> bool:
+        """
+        Verifica se disciplina tem algum oferecimento no semestre atual.
+        """
+        return bool(self.obter_dados().get("oferecimento"))
+    def mostrar(self, trunc_str: bool = True) -> None:
+        """
+        Mostra dados da disciplina de forma legivel. Utilizada principalmente
+        para debug. Se trunc_str = True, strings longas serao truncadas.
+        """
+        LARGURA = 120
+        for key, val in self.obter_dados().items():
+            print(f"\n{key}{'─'*max(0, LARGURA-len(key))}")
+            if not val:
+                print("  (vazio)")
+            elif isinstance(val, dict):
+                for subkey, subval in val.items():
+                    print(f" {subkey}{'─'*max(0, LARGURA-len(subkey)-1)}")
+                    if isinstance(subval, str) and trunc_str:
+                        subval = truncate_string(subval, LARGURA - 4)
+                    print(f"    {subval}")
+            else:
+                if isinstance(val, str) and trunc_str:
+                    val = truncate_string(val, LARGURA - 2)
+                print(f"  {val}")
+class Requisito:
+    """
+    Requisito de disciplina no Jupiterweb.
+    """
+    def __init__(self, sigla: str, tipo: str = "requisito") -> None:
+        self.sigla = str(sigla)
+        self.tipo = str(tipo).lower()  # requisito fraco, indicacao de conjunto, etc.
+    def __repr__(self) -> str:
+        return f"Requisito(sigla='{self.sigla}',tipo='{self.tipo}')"
+    def __str__(self) -> str:
+        return self.sigla
+    def obter_disciplina(self) -> Disciplina:
+        """
+        Retorna objeto Disciplina correspondente ao requisito.
+        """
+        return Disciplina(self.sigla)
+class Oferecimento:
+    """
+    Oferecimento de turma no Jupiterweb.
+    """
+    def __init__(
+        self,
+        codigo: str,
+        data_inicio: str,
+        data_fim: str,
+        tipo_turma: str,
+        observacoes: str = "",
+        sigla_disciplina: str = "",
+    ) -> None:
+        self.codigo = str(codigo).upper()
+        self.data_inicio = data_inicio
+        self.data_fim = data_fim
+        self.tipo_turma = str(tipo_turma).lower()
+        self.observacoes = observacoes
+        self.sigla_disciplina = str(sigla_disciplina).upper()
+        self.horarios: list[HorarioAula] = []
+        self.vagas = {}
+    def __repr__(self) -> str:
+        return f"Oferecimento(codigo='{self.codigo}',data_inicio='{self.data_inicio}',data_fim='{self.data_fim}',tipo_turma='{self.tipo_turma}',observacoes='{self.observacoes}',sigla_disciplina='{self.sigla_disciplina}')"
+    def __str__(self) -> str:
+        return f"Turma {self.codigo}"
+    def adicionar_horario(self, dia_semana: str, hora_inicio: str, hora_fim: str, professor: str) -> None:
+        """
+        Adiciona horario de aula ao oferecimento.
+        """
+        horario = HorarioAula(dia_semana, hora_inicio, hora_fim, professor)
+        self.horarios.append(horario)
+class HorarioAula:
+    """
+    Horario de aula no Jupiterweb.
+    """
+    def __init__(self, dia_semana: str, hora_inicio: str, hora_fim: str, professor: str) -> None:
+        self.dia_semana = str(dia_semana).lower()
+        self.hora_inicio = hora_inicio
+        self.hora_fim = hora_fim
+        self.professor = professor
+    def __repr__(self) -> str:
+        return f"HorarioAula(dia_semana='{self.dia_semana}',hora_inicio='{self.hora_inicio}',hora_fim='{self.hora_fim}',professor='{self.professor}')"
+    def __str__(self) -> str:
+        return f"{self.dia_semana} ({self.hora_inicio} - {self.hora_fim}) Prof(a). {self.professor}"

jupiterweb/instituto.py ADDED Viewed

@@ -0,0 +1,61 @@
+from .disciplina import Disciplina
+from .urls import URLS
+from .utils import obter_soup
+class Instituto:
+    """
+    Unidade de ensino cadastrada no Jupiterweb.
+    """
+    def __init__(self, codigo: str, nome: str, campus: str, abrev: str) -> None:
+        self.codigo = str(codigo)
+        self.nome = nome
+        self.campus = campus
+        self.abrev = abrev
+        self.disciplinas = []
+        self._carregado = False
+    def __repr__(self) -> str:
+        return f"Instituto(codigo='{self.codigo}',nome='{self.nome}',campus='{self.campus}',abrev='{self.abrev}')"
+    def __str__(self) -> str:
+        return self.nome
+    def _carregar(self) -> None:
+        """
+        Faz scraping da pagina com as disciplinas do instituto e armazena
+        os objetos do tipo Disciplina correspondentes (delega o scraping das
+        disciplinas, que é feito sob demanda).
+        """
+        if self._carregado:
+            return
+        soup = obter_soup(self.url_listagem)
+        disciplina_rows = soup.select("tr[bgcolor='#658CCF'] ~tr")
+        for row in disciplina_rows:
+            tds = row.find_all("td")
+            sigla = tds[0].find("span").get_text(strip=True)
+            self.disciplinas.append(Disciplina(sigla))
+        self._carregado = True
+    @property
+    def url_listagem(self) -> str:
+        """
+        URL do Jupiterweb com todas as disciplinas oferecidas pela unidade de ensino.
+        """
+        return URLS["listagem"].format(codigo=self.codigo)
+    def obter_disciplinas(self) -> list[Disciplina]:
+        """
+        Retorna lista de disciplinas oferecidas no instituto.
+        """
+        if not self._carregado:
+            self._carregar()
+        return self.disciplinas

jupiterweb/jupiterweb.py ADDED Viewed

@@ -0,0 +1,15 @@
+import json
+from .instituto import Instituto
+from .paths import PATHS
+def obter_institutos() -> list[Instituto]:
+    """
+    Retorna lista com todas as unidades de ensino cadastradas no Jupiterweb (delega
+    o scraping da pagina da unidade e de suas disciplinas, que é feito sob demanda).
+    """
+    with open(PATHS["institutos"], "r", encoding="utf-8") as f:
+        data = json.load(f)
+    return [Instituto(codigo, data[codigo]["nome"], data[codigo]["campus"], data[codigo]["abrev"]) for codigo in data]

jupiterweb/paths.py ADDED Viewed

@@ -0,0 +1,8 @@
+from pathlib import Path
+ROOT_DIR = Path(__file__).parent.resolve()
+DATA_DIR = ROOT_DIR / "data"
+PATHS = {
+    "institutos": DATA_DIR / "institutos.json",
+}

jupiterweb/urls.py ADDED Viewed

@@ -0,0 +1,10 @@
+from urllib.parse import urljoin
+URL_BASE = "https://uspdigital.usp.br/jupiterweb/"
+URLS: dict[str, str] = {
+    "listagem": urljoin(URL_BASE, "jupDisciplinaLista?codcg={codigo}&letra=0-Z&tipo=D"),
+    "disciplina": urljoin(URL_BASE, "obterDisciplina?sgldis={sigla}"),
+    "oferecimento": urljoin(URL_BASE, "obterTurma?sgldis={sigla}"),
+    "requisitos": urljoin(URL_BASE, "listarCursosRequisitos?coddis={sigla}"),
+    "institutos": urljoin(URL_BASE, "jupColegiadoLista?tipo=D"),
+}

jupiterweb/utils.py ADDED Viewed

@@ -0,0 +1,25 @@
+import requests
+from bs4 import BeautifulSoup
+def obter_soup(url: str) -> BeautifulSoup:
+    """
+    Faz request para URL e retorna objeto BeautifulSoup com o texto da resposta.
+    """
+    response = requests.get(url, timeout=10)
+    response.raise_for_status()
+    response.encoding = "iso-8859-1"
+    soup = BeautifulSoup(response.text, "html.parser")
+    return soup
+def truncate_string(s: str, max_length: int) -> str:
+    """
+    Trunca string para um comprimento máximo, adicionando "..." no final se necessário.
+    """
+    if len(s) <= max_length:
+        return s
+    return s[: max(max_length - 3, 0)] + "..."

jupiterweb_scraper-0.1.0.dist-info/METADATA ADDED Viewed

@@ -0,0 +1,96 @@
+Metadata-Version: 2.4
+Name: jupiterweb-scraper
+Version: 0.1.0
+Summary: Extração de informações sobre disciplinas da Universidade de São Paulo a partir do Jupiterweb
+Author: Davi Golebiovski, Isaque Nascimento, Lucas Kevin Silva Muniz
+License: MIT License
+        Copyright (c) 2026 IME Jr
+        Permission is hereby granted, free of charge, to any person obtaining a copy
+        of this software and associated documentation files (the "Software"), to deal
+        in the Software without restriction, including without limitation the rights
+        to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+        copies of the Software, and to permit persons to whom the Software is
+        furnished to do so, subject to the following conditions:
+        The above copyright notice and this permission notice shall be included in all
+        copies or substantial portions of the Software.
+        THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+        IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+        FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+        AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+        LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+        OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+        SOFTWARE.
+Project-URL: Repository, https://github.com/davigole/jupiterweb-scraper
+Project-URL: Issues, https://github.com/davigole/jupiterweb-scraper/issues
+Keywords: usp,jupiterweb,scraper,universidade,web,university
+Classifier: Development Status :: 4 - Beta
+Classifier: Intended Audience :: Developers
+Classifier: License :: OSI Approved :: MIT License
+Classifier: Programming Language :: Python :: 3
+Classifier: Programming Language :: Python :: 3.9
+Classifier: Programming Language :: Python :: 3.10
+Classifier: Programming Language :: Python :: 3.11
+Classifier: Programming Language :: Python :: 3.12
+Requires-Python: >=3.9
+Description-Content-Type: text/markdown
+License-File: LICENSE
+Requires-Dist: requests>=2.34.2
+Requires-Dist: beautifulsoup4>=4.15.0
+Dynamic: license-file
+# Jupiterweb Scraper
+![Python Version](https://img.shields.io/pypi/pyversions/jupiterweb-scraper)
+![License](https://img.shields.io/github/license/davigole/jupiterweb-scraper)
+[![PyPI](https://img.shields.io/pypi/v/jupiterweb-scraper)](https://pypi.org/project/jupiterweb-scraper/)
+Biblioteca para extração de informações sobre disciplinas da Universidade de São Paulo a partir do [Jupiterweb](https://uspdigital.usp.br/jupiterweb/).
+## 📖 Sobre o projeto
+O **Jupiterweb Scraper** é uma biblioteca Python que permite a extração de informações sobre disciplinas da Universidade de São Paulo a partir do [Jupiterweb](https://uspdigital.usp.br/jupiterweb/), o sistema oficial de gestão acadêmica da universidade.
+A biblioteca foi desenvolvida por alunos do IME-USP, inicialmente para atender às demandas de um projeto interno da [IME Jr](https://imejr.com/) — a empresa júnior do instituto. No entanto, percebemos que a obtenção de dados do Jupiterweb é uma necessidade recorrente em projetos voltados à comunidade USP. Por isso, decidimos disponibilizar o scraper como projeto open-source, com o intuito de facilitar o desenvolvimento de novas ferramentas destinadas à universidade.
+> ⚠️ **Aviso:** O Jupiterweb é um site antigo, com uma estrutura HTML complexa e por vezes inconsistente, o que torna o processo de scraping muito desafiador. É esperado que a biblioteca contenha erros que passaram despercebidos. Se você encontrar algum problema ou comportamento inesperado, pedimos que abra uma [Issue](https://github.com/davigole/jupiterweb-scraper/issues) descrevendo o ocorrido.
+## 🚀 Instalação
+Para instalar a biblioteca, utilize o comando
+```bash
+pip install jupiterweb-scraper
+```
+Ou, para instalar a partir do repositório:
+```bash
+git clone https://github.com/davigole/jupiterweb-scraper.git
+cd jupiterweb-scraper
+pip install -e .
+```
+## 📚 Como usar
+*A fazer*
+## 🤝 Como contribuir
+Caso queira contribuir mas não saiba por onde começar, aqui estão algumas melhorias e funcionalidades que ainda não foram implementadas:
+- Buscar disciplinas por parte do nome, horário, vagas remanescentes, etc. (o Jupiterweb já tem essas funcionalidades)
+- Obter os cursos oferecidos por cada unidade e informações sobre cada curso (descrição, objetivos, grade curricular, etc.), disponíveis na seção "Cursos de ingresso" do Jupiterweb
+- Obter informações sobre docentes (nome, instituto, departamento, disciplinas que ministra/ministrou, etc.)
+- Obter informações do calendário escolar, disponível em PDF no Jupiterweb
+- Testes automáticos para verificar o funcionamento do scraping
+- Documentação mais completa e exemplos de uso
+- Qualquer alteração nas funções de scraping que torne a biblioteca mais robusta
+Contribuições são muito bem-vindas!
+## 📄 Licença
+MIT © [IME Jr](https://imejr.com/)

jupiterweb_scraper-0.1.0.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,13 @@
+jupiterweb/__init__.py,sha256=kBBu3Li9m9nr4NOz7VXC7Cc1MbBHhVtYjON4dR95hLA,464
+jupiterweb/disciplina.py,sha256=TAHCPYmzzUs0bIFMFEvDxHy0nXzFLh3k4kqBYo1snGM,13478
+jupiterweb/instituto.py,sha256=i3HL80A_QkK7y2hUgSDUNZOoAi0nbbv8NA_btk6hyjQ,1789
+jupiterweb/jupiterweb.py,sha256=MhRTNCrv8xTgD218OK1aES02hQn4NIKVqa8x1FtSDyc,529
+jupiterweb/paths.py,sha256=AjNzlYqYteYdh-Lc3wWyutbbfhbNJAHP2bMsprTmZb8,167
+jupiterweb/urls.py,sha256=B4SPM5W8E_J6MG7CZhS7L0BOufsDHZjW0AoLb07IDi4,493
+jupiterweb/utils.py,sha256=ZwUQe864hfT2Y6H-oeTXe5aYHacgqtHKxy-altG7I8A,655
+jupiterweb/data/institutos.json,sha256=cJ6Gy8Us60A7PXtQ66JW6ZPtBv5vyXs4jSNuln_4J7s,11402
+jupiterweb_scraper-0.1.0.dist-info/licenses/LICENSE,sha256=GQFN4qoFW8zH3u6PJvlOwiP7y8BV-mf-1YMIFRoqfv8,1084
+jupiterweb_scraper-0.1.0.dist-info/METADATA,sha256=ET7fG-8nX645cNXvu6j2Lj3gkAZ0HoHFttAWA2N-N1A,5229
+jupiterweb_scraper-0.1.0.dist-info/WHEEL,sha256=aeYiig01lYGDzBgS8HxWXOg3uV61G9ijOsup-k9o1sk,91
+jupiterweb_scraper-0.1.0.dist-info/top_level.txt,sha256=q2V6URFa8JKMOWGH2ZKBR_A6Rv5Le0qc7y40PuxFgvQ,11
+jupiterweb_scraper-0.1.0.dist-info/RECORD,,

jupiterweb_scraper-0.1.0.dist-info/WHEEL ADDED Viewed

@@ -0,0 +1,5 @@
+Wheel-Version: 1.0
+Generator: setuptools (82.0.1)
+Root-Is-Purelib: true
+Tag: py3-none-any

jupiterweb_scraper-0.1.0.dist-info/licenses/LICENSE ADDED Viewed

@@ -0,0 +1,21 @@
+MIT License
+Copyright (c) 2026 IME Jr
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+The above copyright notice and this permission notice shall be included in all
+copies or substantial portions of the Software.
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+SOFTWARE.

jupiterweb_scraper-0.1.0.dist-info/top_level.txt ADDED Viewed

	@@ -0,0 +1 @@
1	+ jupiterweb