PyPI - sista-tacrpy - Versions diffs - 1.0.12__py3-none-any.whl - Mend

sista-tacrpy 1.0.12__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (17) hide show

sista_tacrpy-1.0.12.dist-info/METADATA +18 -0
sista_tacrpy-1.0.12.dist-info/RECORD +17 -0
sista_tacrpy-1.0.12.dist-info/WHEEL +5 -0
sista_tacrpy-1.0.12.dist-info/top_level.txt +1 -0
tacrpy/__init__.py +3 -0
tacrpy/analytics/__init__.py +0 -0
tacrpy/data_fetcher/__init__.py +3 -0
tacrpy/data_fetcher/googlesheets.py +237 -0
tacrpy/data_fetcher/isvavai.py +162 -0
tacrpy/data_fetcher/ssot.py +1006 -0
tacrpy/data_operations.py +70 -0
tacrpy/datahub/__init__.py +5 -0
tacrpy/datahub/data_lineage.py +86 -0
tacrpy/datahub/datasets.py +421 -0
tacrpy/datahub/glossary.py +378 -0
tacrpy/datahub/import_checks.py +123 -0
tacrpy/datahub/openapi.py +78 -0

sista_tacrpy-1.0.12.dist-info/METADATA ADDED Viewed

@@ -0,0 +1,18 @@
+Metadata-Version: 2.1
+Name: sista-tacrpy
+Version: 1.0.12
+Summary: stahovani dat ze sista
+Home-page: UNKNOWN
+Author: velci panove tacru
+Author-email: rozalie.bilkova@tacr.cz
+License: UNKNOWN
+Project-URL: Documentation, https://youtu.be/1RulQYSl1aw?feature=shared
+Platform: UNKNOWN
+Requires-Dist: pandas
+Requires-Dist: gspread
+Requires-Dist: numpy
+Requires-Dist: requests
+Requires-Dist: unidecode
+odebiram summary

sista_tacrpy-1.0.12.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,17 @@
+tacrpy/__init__.py,sha256=5EqHQTmrErChJWgYELv5IVBCiCS_LdHM873KIaDBHd8,69
+tacrpy/data_operations.py,sha256=hofQLx2q-XV_MILHEntUwnoG-6wlz-uQ2IR35KPwKqs,2751
+tacrpy/analytics/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+tacrpy/data_fetcher/__init__.py,sha256=leOLhwRHvGW4tN79HNOEjSKLfQW7mKEPhhn8lwIidw0,68
+tacrpy/data_fetcher/googlesheets.py,sha256=yqHOVAwyCA_xajDtsJAFfwi0PJH3Ireoowu50hnQAdY,9674
+tacrpy/data_fetcher/isvavai.py,sha256=xPhGbKF_GV1QEG5R-u6Dv83deymnJtlvZ-GsfzBNbLA,5441
+tacrpy/data_fetcher/ssot.py,sha256=UP7nXbqeOExKaA9g2vuIFDJ12rElIfRJM3HhS8w92q4,52143
+tacrpy/datahub/__init__.py,sha256=0zK9D2SShhdxCfHDh0sPiQxn__YxVjB7d6cEIS2U4g4,122
+tacrpy/datahub/data_lineage.py,sha256=-QqvyihMHUZ5hiSghye2BjObs_A5JuJbjlFiyA4FrG8,3425
+tacrpy/datahub/datasets.py,sha256=Qs71cziF2igP1XWVmMOUufE8whiRJ-dPWG1YJOZf9YE,16806
+tacrpy/datahub/glossary.py,sha256=mD3u2A8ve5T26hebF6oRqF67GhgHfHw_ct3YKFMnj94,18424
+tacrpy/datahub/import_checks.py,sha256=A10G9Cb8RoDskLzXM4R6Ek_x2uCJu7LtLfphjoN34Pc,6031
+tacrpy/datahub/openapi.py,sha256=M8ewVDiywa2UT5G4Wz0Q6YUxl4oxrbf9fFv2QeDYgQ4,2147
+sista_tacrpy-1.0.12.dist-info/METADATA,sha256=0Sx1HcECha_eIR0983Kms9IMgiTOtH8uQDLQd2LCSPE,414
+sista_tacrpy-1.0.12.dist-info/WHEEL,sha256=yQN5g4mg4AybRjkgi-9yy4iQEFibGQmlz78Pik5Or-A,92
+sista_tacrpy-1.0.12.dist-info/top_level.txt,sha256=BqpXuN5c5p-Kf_Qv8U1hT8dbV6NhdnLZ7QQa4wAvBH4,7
+sista_tacrpy-1.0.12.dist-info/RECORD,,

sista_tacrpy-1.0.12.dist-info/WHEEL ADDED Viewed

@@ -0,0 +1,5 @@
+Wheel-Version: 1.0
+Generator: bdist_wheel (0.41.2)
+Root-Is-Purelib: true
+Tag: py3-none-any

sista_tacrpy-1.0.12.dist-info/top_level.txt ADDED Viewed

	@@ -0,0 +1 @@
1	+ tacrpy

tacrpy/__init__.py ADDED Viewed

@@ -0,0 +1,3 @@
+# from . import nlp
+from . import datahub
+from . import data_fetcher

tacrpy/analytics/__init__.py ADDED Viewed

File without changes

tacrpy/data_fetcher/__init__.py ADDED Viewed

@@ -0,0 +1,3 @@
+from . import googlesheets
+from . import ssot
+from . import isvavai

tacrpy/data_fetcher/googlesheets.py ADDED Viewed

@@ -0,0 +1,237 @@
+"""Modul na načítání dat, které jsou uložené v BigQuery jakožto 'zdroj pravdy'."""
+import pandas as pd
+import gspread
+#from google.colab import auth
+#auth.authenticate_user()
+#from google.auth import default
+#creds, _ = default()
+def _load_df_from_google_sheet(creds, file_id, worksheet_idx):
+    gc = gspread.authorize(creds)
+    sht = gc.open_by_key(file_id)
+    worksheet = sht.get_worksheet(worksheet_idx)
+    rows = worksheet.get_all_values()
+    df = pd.DataFrame.from_records(rows[1:], columns=rows[0])
+    return df
+class Projects:
+    """ Třída, která načítá a reprezentuje tabulku projektů.
+    Funguje pouze v rámci Google Colab prostředí.
+    :param projects: DataFrame načtených dat ze zdroje nebo z nově vytvořené (vyfiltrované) instance
+    :type projects: DataFrame
+    :param summary: DataFrame s agregovanými údaji na úrovni veřejných soutěží
+    :type summary: DataFrame
+    """
+    def __init__(self, creds_or_df: object):
+        """ Kontstruktor, který načte data do DataFrame, očistí finanční hodnoty a vytvoří agregovanou tabulku.
+        :param creds_or_df: údaje, které slouží k authenizaci v rámci Google Colab nebo přímo DataFrame projektu
+        """
+        self.projects = None
+        if isinstance(creds_or_df, pd.DataFrame):
+            self.projects = creds_or_df
+        else:
+            self.projects = self._get_projects(creds_or_df)
+            self._finance_cleaning('Náklady celkem')
+            self._finance_cleaning('Podpora celkem')
+            self._finance_cleaning('Ostatní celkem')
+        self.summary = self.create_summary()
+    def _get_projects(self, creds_or_df: object) -> pd.DataFrame:
+        """ Načte data o projektech ze "zdroje pravdy" z googlesheets uloženého na Google disku.
+        Lze použít pouze v rámci Google Colab prostředí.
+        :param creds_or_df: údaje, které slouží k authenizaci v rámci Google Colab nebo přímo DataFrame projektu
+        :return: DataFrame načtených dat ze zdroje
+        """
+        file_id = "1Ax1OYkdg3IA1YZki0fePizgQR6zOuzq7VGhFgeMorDQ"
+        return _load_df_from_google_sheet(creds_or_df, file_id, 0)
+    def _finance_cleaning(self, column_name: str):
+        """ Interní funkce, která očistí finanční data.
+        :param column_name: název sloupce, ve kterém se mají finanční data očistit
+        """
+        self.projects[column_name].fillna(0, inplace=True)
+        self.projects[column_name] = self.projects[column_name].str.replace(',', '.')
+        self.projects[column_name] = self.projects[column_name].replace('', '0')
+        self.projects[column_name] = self.projects[column_name].astype(float)
+    def _check_missing_items(self, provided_items: tuple, existing_items: list, item_name: str):
+        """Ověří, zda se všechny zadané položky nacházejí v existujícím seznamu.
+        Pokud jsou nalezeny chybějící položky, vyvolá ValueError s chybovou zprávou.
+        :param provided_items: Tuple položek zadaných pro filtrování.
+        :param existing_items: Seznam všech unikátních položek nacházejících se v datové sadě.
+        :param item_name: Popisný název položky, který se použije v chabové hlášce.
+        :raises ValueError: Pokud alespoň jedna zadaná položka neexistuje v datové sadě.
+        """
+        missing_items = [item for item in provided_items if item not in existing_items]
+        if missing_items:
+            raise ValueError(f'{item_name} {missing_items} neexistuje/neexistují.')
+    def create_summary(self, level: str = 'cfp') -> pd.DataFrame:
+        """ Vytvoří agregovaný souhrn buď na úrovni veřejných soutěží (defaultní) nebo na úrovni programů.
+        :param level: určuje, na jaké úrovni se provede agregace
+                      * 'cfp' (defaultní) - na úrovni veřejných soutěží
+                      * 'prog' - na úrovni programů
+        :return: agregovaný DataFrame, který obsahuje:
+                * Počet podaných projektů
+                * Počet podpořených projektů
+                * Náklady podpořených projektů
+                * Podpora podpořených projektů
+        """
+        if level not in ['cfp', 'prog']:
+            raise ValueError('Neexistující forma agregace.')
+        temp_df = self.projects.copy()
+        temp_df['Podpořené'] = temp_df.apply(
+            lambda x: 'Ano' if x['Fáze projektu'] in ['Realizace', 'Implementace', 'Ukončené'] else 'Ne', axis=1)
+        submitted = temp_df.groupby(['Kód programu', 'Kód VS']).agg(
+            {'Kód projektu': 'count', 'Náklady celkem': 'sum', 'Podpora celkem': 'sum'}).reset_index()
+        funded = temp_df[temp_df['Podpořené'] == 'Ano'].groupby(['Kód programu', 'Kód VS']).agg(
+            {'Kód projektu': 'count', 'Náklady celkem': 'sum', 'Podpora celkem': 'sum'}).reset_index()
+        summary_df = pd.merge(submitted[['Kód programu', 'Kód VS', 'Kód projektu']], funded, how='inner',
+                              on=['Kód programu', 'Kód VS'])
+        summary_df.columns = ['Kód programu', 'Kód VS', 'Podané', 'Podpořené', 'Náklady', 'Podpora']
+        if level == 'cfp':
+            pass
+        elif level == 'prog':
+            summary_df = summary_df.groupby('Kód programu').agg('sum', numeric_only=True).reset_index()
+        return summary_df
+    def select_programme(self, *args: str) -> 'Projects':
+        """ Vyfiltruje tabulku tak, aby obsahovala pouze projekty vybraných programů.
+        :param args: kódy programů, které se mají vyfiltrovat
+        :return: nová instance třídy Projects s vyfiltrovanými údaji
+        :raise: ValueError
+        """
+        existing_programmes = self.projects['Kód programu'].unique()
+        self._check_missing_items(args, existing_programmes, 'Programy')
+        select_df = self.projects[self.projects['Kód programu'].isin(args)].reset_index(drop=True)
+        return Projects(select_df)  # todo maybe another class Programms?
+    def select_cfp(self, *args: str) -> 'Projects':
+        """ Vyfiltruje tabulku tak, aby obsahovala pouze projekty vybraných veřejných soutěží.
+        :param args: kódy veřejných soutěží, které se mají vyfiltrovat
+        :return: nová instance třídy Projects s vyfiltrovanými údaji
+        :raise: ValueError
+        """
+        existing_cfp = self.projects['Kód VS'].unique()
+        self._check_missing_items(args, existing_cfp, 'Veřejné soutěže')
+        select_df = self.projects[self.projects['Kód VS'].isin(args)].reset_index(drop=True)
+        return Projects(select_df)
+    def select_funded(self) -> 'Projects':
+        """ Vyfiltruje tabulku tak, aby obsahovala pouze podpořené projekty.
+        :return: nová instance třídy Projects s vyfiltrovanými údaji
+        """
+        funded_states = ['Realizace', 'Implementace', 'Ukončené']
+        select_df = self.projects[self.projects['Fáze projektu'].isin(funded_states)].reset_index(drop=True)
+        return Projects(select_df)
+def projects_finance(creds_or_df: object) -> pd.DataFrame:
+    """ Načte data o financích projektů ze "zdroje pravdy" z googlesheets uloženého na Google disku.
+    Finance jsou v rozdělení po jednotlivých letech.
+    Lze použít pouze v rámci Google Colab prostředí.
+    :param creds_or_df: údaje, které slouží k authenizaci v rámci Google Colab
+    :return: DataFrame načtených dat ze zdroje
+    """
+    file_id = "1Ax1OYkdg3IA1YZki0fePizgQR6zOuzq7VGhFgeMorDQ"
+    return _load_df_from_google_sheet(creds_or_df, file_id, 1)
+def organizations(creds_or_df: object) -> pd.DataFrame:
+    """ Načte data o uchazečích/příjemcích ze "zdroje pravdy" z googlesheets uloženého na Google disku.
+    Lze použít pouze v rámci Google Colab prostředí.
+    :param creds_or_df: údaje, které slouží k authenizaci v rámci Google Colab
+    :return: DataFrame načtených dat ze zdroje
+    """
+    file_id = "1h7HpPn-G0_XY2gb_sExAQDkzR1TswGUH_2FuHCWhbRg"
+    return _load_df_from_google_sheet(creds_or_df, file_id, 0)
+def organizations_finance(creds_or_df: object) -> pd.DataFrame:
+    """ Načte data o financích uchazečů/příjemců ze "zdroje pravdy" z googlesheets uloženého na Google disku.
+    Finance jsou v rozdělení po jednotlivých letech.
+    Lze použít pouze v rámci Google Colab prostředí.
+    :param creds_or_df: údaje, které slouží k authenizaci v rámci Google Colab
+    :return: DataFrame načtených dat ze zdroje
+    """
+    file_id = "1h7HpPn-G0_XY2gb_sExAQDkzR1TswGUH_2FuHCWhbRg"
+    return _load_df_from_google_sheet(creds_or_df, file_id, 1)
+def results(creds_or_df: object) -> pd.DataFrame:
+    """ Načte data o výsledcích ze "zdroje pravdy" z googlesheets uloženého na Google disku.
+    Lze použít pouze v rámci Google Colab prostředí.
+    :param creds_or_df: údaje, které slouží k authenizaci v rámci Google Colab
+    :return: DataFrame načtených dat ze zdroje
+    """
+    file_id = "1eSE6gB8bwuP6OVwVVhQojQLS6aPi_q8t7gK6VhPyiRw"
+    return _load_df_from_google_sheet(creds_or_df, file_id, 0)
+def cfp(creds_or_df: object) -> pd.DataFrame:
+    """ Načte data o veřejných soutěží z googlesheets uloženého na Google disku.
+    Lze použít pouze v rámci Google Colab prostředí.
+    :param creds_or_df: údaje, které slouží k authenizaci v rámci Google Colab
+    :return: DataFrame načtených dat ze zdroje
+    """
+    file_id = "1FaVienG6ceJGdqSTyD5tpsUsRGxgPii6BWOL73Vk2_s"
+    return _load_df_from_google_sheet(creds_or_df, file_id, 1).iloc[:, 0:15]

tacrpy/data_fetcher/isvavai.py ADDED Viewed

@@ -0,0 +1,162 @@
+"""Modul na načítání dat z IS VaVaI a STARFOSu."""
+import pandas as pd
+import requests
+import string
+from tqdm import tqdm
+from typing import Union
+from bs4 import BeautifulSoup
+def isvav_projects() -> pd.DataFrame:
+    """ Načte data o příjemcích z otevřených dat IS VaVaI.
+    Data jsou aktualizovaná cca jednou za čtvrt roku.
+    :return: DataFrame načtených dat ze zdroje
+    """
+    df = pd.read_csv("https://www.isvavai.cz/dokumenty/opendata/CEP-projekty.csv")
+    return df
+def isvav_organizations() -> pd.DataFrame:
+    """ Načte data o projektech z otevřených dat IS VaVaI.
+    Data jsou aktualizovaná cca jednou za čtvrt roku.
+    :return: DataFrame načtených dat ze zdroje
+    """
+    df = pd.read_csv("https://www.isvavai.cz/dokumenty/opendata/CEP-ucastnici.csv")
+    return df
+def get_providers() -> list:
+    """ Stáhne seznam kódu všech poskytovatelů v IS VaVaI.
+    Data jsou získána pomocí web scrapingu z webu IS VaVaI.
+    :return: seznam kódu poskytovatelů
+    """
+    base_url = 'https://www.isvavai.cz/cea?s=poskytovatele&n='
+    provider_list = []
+    for page in range(0, 2):
+        url = base_url + str(page)
+        html = requests.get(url).content
+        parsed_html = BeautifulSoup(html, 'html.parser')
+        for i in parsed_html.findAll('b', attrs={'class': 'abbr'}):
+            provider_list.append(i.find('a').text)
+    # nejsou v seznamu aktivních poskytovatelů, jedná se o historická ministerstva
+    # ministerstvo hospodářství a ministesrtvo informatiky
+    provider_list.extend(['MH0', 'MI0'])
+    return provider_list
+def starfos_projects(prog_select: Union[str, list] = None,
+                     prov_select: Union[str, list] = None) -> Union[pd.DataFrame, dict[str]]:
+    """ Stáhne ze STARFOS projekty buď podle kódů programů nebo kódů poskytovatelů
+    Volá API endpoint, který slouží pro vytváření exportů. Výstup exportu převede na DataFrame.
+    :param prog_select: seznam programů
+    :param prov_select: seznam poskytovatelů
+    :return: projekty ze STARFOS
+    """
+    url = 'https://old.starfos.tacr.cz/api/starfos/export'
+    headers = {'content-type': 'application/json'}
+    common_query_template = {
+        "collection": "isvav_project",
+        "language_ui": "cs",
+        "format": "xlsx",
+        "limit": 0,
+        "columns": ["code", "name", "anot", "name_en", "anot_en", "x_solve_begin_year", "x_solve_end_year"],
+        "filters": {}
+    }
+    if prog_select:
+        programme_filter = {
+            "programme__code": {
+                "option_codes": prog_select
+            }
+        }
+        common_query_template['filters'].update(programme_filter)
+    if prov_select:
+        provider_filter = {
+            "programme__funder__code": {
+                "option_codes": prov_select
+            }
+        }
+        common_query_template['filters'].update(provider_filter)
+    try:
+        r = requests.post(url, headers=headers, json=common_query_template, stream=True)
+        r.raise_for_status()
+        df = pd.read_excel(r.content)
+        return df
+    except requests.exceptions.RequestException as e:
+        if not prog_select or prov_select:
+            return {'error': str(e),
+                    'additional_info': 'You need to enter at least one programme (prog_select) or provider (prov_select).'}
+        else:
+            return {'error': str(e), 'additional_info': 'Unknown error.'}
+def starfos_projects_all() -> pd.DataFrame:
+    """ Stáhne ze STARFOS všechny projekty.
+    Postupně volá API endpoint, který slouží pro vytváření exportu, za jednotlivé poskytovatele. Výjimku tvoří GA ČR,
+    který přesahuje maximální limit 20 000 záznamů, proto se volá po jednotlivých programech (resp. zkouší různé
+    kombinace s G na začátku). Výstupy se skládají do jednoho DataFrame.
+    :return: projekty ze STARFOS
+    """
+    url = 'https://old.starfos.tacr.cz/api/starfos/export'
+    headers = {'content-type': 'application/json'}
+    df_list = []
+    provider_list = get_providers()
+    common_query_template = {
+        "collection": "isvav_project",
+        "language_ui": "cs",
+        "format": "xlsx",
+        "limit": 0,
+        "columns": ["code", "name", "anot", "name_en", "anot_en", "x_solve_begin_year", "x_solve_end_year"],
+        "filters": {}
+    }
+    for prov in tqdm(provider_list):
+        query_template = common_query_template.copy()
+        if prov == 'GA0':
+            programme_list = ['G' + i for i in string.ascii_uppercase]
+            for prog in programme_list:
+                query_template['filters'] = {
+                    "programme__code": {
+                        "option_codes": [prog]
+                    }
+                }
+                r = requests.post(url, headers=headers, json=query_template, stream=True)
+                df = pd.read_excel(r.content)
+                df['provider'] = prov
+                df_list.append(df)
+        else:
+            query_template['filters'] = {
+                "programme__funder__code": {
+                    "option_codes": [prov]
+                }
+            }
+            r = requests.post(url, headers=headers, json=query_template, stream=True)
+            df = pd.read_excel(r.content)
+            df['provider'] = prov
+            df_list.append(df)
+    df_concat = pd.concat(df_list).reset_index(drop=True)
+    return df_concat