servify 0.0.1__tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
servify-0.0.1/LICENCE ADDED
@@ -0,0 +1,20 @@
1
+ The MIT License (MIT)
2
+
3
+ Copyright (c) 2025 Felipe Pegoraro
4
+
5
+ Permission is hereby granted, free of charge, to any person obtaining a copy of
6
+ this software and associated documentation files (the "Software"), to deal in
7
+ the Software without restriction, including without limitation the rights to
8
+ use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of
9
+ the Software, and to permit persons to whom the Software is furnished to do so,
10
+ subject to the following conditions:
11
+
12
+ The above copyright notice and this permission notice shall be included in all
13
+ copies or substantial portions of the Software.
14
+
15
+ THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
16
+ IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS
17
+ FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR
18
+ COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER
19
+ IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN
20
+ CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
servify-0.0.1/PKG-INFO ADDED
@@ -0,0 +1,101 @@
1
+ Metadata-Version: 2.4
2
+ Name: servify
3
+ Version: 0.0.1
4
+ Summary: Commons utilitários para projetos Spark
5
+ Author: Felipe Pegoraro
6
+ Author-email: felipepegoraro93@gmail.com
7
+ License: MIT
8
+ Keywords: spark pyspark utils commons
9
+ Description-Content-Type: text/markdown
10
+ License-File: LICENCE
11
+ Requires-Dist: pyspark>=4.0.0
12
+ Requires-Dist: delta-spark>=4.0.1
13
+ Requires-Dist: loguru>=0.7.3
14
+ Requires-Dist: holidays>=0.88
15
+ Requires-Dist: pandas>=2.3.2
16
+ Requires-Dist: pyarrow>=21.0.0
17
+ Requires-Dist: tqdm>=4.67.1
18
+ Dynamic: author
19
+ Dynamic: author-email
20
+ Dynamic: description
21
+ Dynamic: description-content-type
22
+ Dynamic: keywords
23
+ Dynamic: license
24
+ Dynamic: license-file
25
+ Dynamic: requires-dist
26
+ Dynamic: summary
27
+
28
+ # Repositório destinado a criação de functions para tratativas de dados em Arquitetura Medalhão!
29
+
30
+ ## Conceito:
31
+
32
+ A arquitetura medalhão descreve uma série de camadas de dados que denotam a qualidade dos dados armazenados no lakehouse.
33
+
34
+ Essa arquitetura garante atomicidade, consistência, isolamento e durabilidade à medida que os dados passam por várias camadas
35
+ de validações e transformações antes de serem armazenados em uma disposição otimizada para uma análise eficiente.
36
+
37
+ Os termos bronze (bruto), prata (validado) e ouro (enriquecido) descrevem a qualidade dos dados em cada uma dessas camadas.
38
+
39
+ A arquitetura medalhão é um padrão de design de dados usado para organizar dados logicamente. Seu objetivo é melhorar de forma
40
+ incremental e progressiva a estrutura e a qualidade dos dados à medida que eles fluem por cada
41
+ camada da arquitetura (de Bronze ⇒ Prata ⇒ Ouro).
42
+
43
+ Com o avanço dos dados por essas camadas, as organizações podem melhorar gradativamente a qualidade e a confiabilidade dos dados,
44
+ tornando-os mais adequados para aplicativos de Business Intelligence e aprendizado de máquina.
45
+
46
+ fonte:
47
+ https://docs.databricks.com/aws/pt/lakehouse/medallion
48
+
49
+ ## Funções da Camada Silver
50
+
51
+ Para utilização das funções abaixo. é necessário utilizar um dataframe em pysaprk
52
+
53
+ As funções abaixo são referente a etapa de um processo silver em uma arquitetura de dados medalhão
54
+
55
+ Onde nessa etapa o foco é realizar uma limpeza e normalização dos dados, definição de schema e
56
+ outras modelagens que não são referente a regras de negócio.
57
+
58
+ No final, teremos uma tabela de dados confiável para a próxima etapa do pipeline.
59
+
60
+ - column_to_date: Converte uma coluna de string para o tipo de dado de data.
61
+ - column_to_timestamp: Converte uma coluna de string para o tipo timestamp.
62
+ - numbers_to_date: Converte uma coluna de números em datas.
63
+ - change_null_numeric: Substitui valores nulos em colunas numéricas por 0.
64
+ - change_null_string: Substitui valores nulos em colunas de string por '-'.
65
+ - remove_extra_spaces: Remove espaços em branco extras de todas as colunas de string em um DataFrame.
66
+ - upper_string_column: Converte todos os caracteres de uma coluna de string para maiúsculas.
67
+ - lower_string_column: Converte todos os caracteres de uma coluna de string para minúsculas.
68
+ - change_column_name: Altera o nome de uma coluna em um DataFrame.
69
+ - union_dataframes: Une uma lista de DataFrames .
70
+ - filter_like: Filtra os registros de um DataFrame onde os valores de uma coluna específica correspondem a um padrão regex.
71
+ - filter_by_max_date: Filtra o DataFrame para manter apenas as linhas com a maior data.
72
+ - organize_data: Ordena o dataframe de acordo com uma coluna de identificação eliminando possivéis duplicatas.
73
+ - convert_currency_column: Converte uma coluna de moeda no DataFrame para o tipo double.
74
+ - type_monetary: Identifica o tipo de 'moeda' com base de uma coluna específicas.
75
+ - replace_characters: Substitui um caracter específico por outro em uma coluna do DataFrame.
76
+ - concat_columns: Concatena duas colunas de um DataFrame com um separador "_".
77
+
78
+ ## Funções da Camada Gold
79
+
80
+ Para utilização das funções abaixo. é necessário utilizar um dataframe em pysaprk
81
+
82
+ As funções abaixo são referente a etapa de um processo gold em uma arquitetura de dados medalhão
83
+
84
+ Onde somente funções que são referente a regra de negocio passam por essa etapa.
85
+ Além de funções para tratamento de dados, podemos realizar agragações para definição de tabela fato e dimenssão.
86
+
87
+ No final, teremos uma tabela de dados apta para criação de dataviz e processo de machine leaning.
88
+
89
+ - extract_memory: Adiciona uma coluna com a quantidade de memória em GB extraída de outra coluna do DataFrame.
90
+ - extract_characters: Extrai caracteres específicos de uma coluna e coloca o resultado em outra coluna do DataFrame.
91
+ - condition_like: Adiciona uma nova coluna ao DataFrame com valores 'Sim' ou 'Nao' com base em uma condição de correspondência de padrão.
92
+
93
+ ## Funções de Teste Funcional
94
+
95
+ - df_not_empty: Verifica se o Dataframe não está vazio retornando o nnúmero de linhas.
96
+ - schema_equals_df_schema: Verifica se o schema corresponde ao que está ao dataframe (Utilizado após a aplicação do Schema ao df).
97
+ - count_df_filtered_filter: Verifica se não ocorreu perda de linhas em um filtro de dados.
98
+ - count_df_filtered_is_not_null: Verifica a quantidade de linhas nulas e não nulas são iguais ao dataframe original.
99
+ - count_union_df: Verifica a consistência da união de um conjunto de DataFrames.
100
+ - list_names_equal_df_names: Verifica se os nomes das colunas de um DataFrame (df) são exatamente iguais aos nomes presentes em uma lista (list_name).
101
+ - number_columns_list_names_and_df: Verifica se o dataframe possuí a mesma quantidade de nomes em uma lista.
@@ -0,0 +1,74 @@
1
+ # Repositório destinado a criação de functions para tratativas de dados em Arquitetura Medalhão!
2
+
3
+ ## Conceito:
4
+
5
+ A arquitetura medalhão descreve uma série de camadas de dados que denotam a qualidade dos dados armazenados no lakehouse.
6
+
7
+ Essa arquitetura garante atomicidade, consistência, isolamento e durabilidade à medida que os dados passam por várias camadas
8
+ de validações e transformações antes de serem armazenados em uma disposição otimizada para uma análise eficiente.
9
+
10
+ Os termos bronze (bruto), prata (validado) e ouro (enriquecido) descrevem a qualidade dos dados em cada uma dessas camadas.
11
+
12
+ A arquitetura medalhão é um padrão de design de dados usado para organizar dados logicamente. Seu objetivo é melhorar de forma
13
+ incremental e progressiva a estrutura e a qualidade dos dados à medida que eles fluem por cada
14
+ camada da arquitetura (de Bronze ⇒ Prata ⇒ Ouro).
15
+
16
+ Com o avanço dos dados por essas camadas, as organizações podem melhorar gradativamente a qualidade e a confiabilidade dos dados,
17
+ tornando-os mais adequados para aplicativos de Business Intelligence e aprendizado de máquina.
18
+
19
+ fonte:
20
+ https://docs.databricks.com/aws/pt/lakehouse/medallion
21
+
22
+ ## Funções da Camada Silver
23
+
24
+ Para utilização das funções abaixo. é necessário utilizar um dataframe em pysaprk
25
+
26
+ As funções abaixo são referente a etapa de um processo silver em uma arquitetura de dados medalhão
27
+
28
+ Onde nessa etapa o foco é realizar uma limpeza e normalização dos dados, definição de schema e
29
+ outras modelagens que não são referente a regras de negócio.
30
+
31
+ No final, teremos uma tabela de dados confiável para a próxima etapa do pipeline.
32
+
33
+ - column_to_date: Converte uma coluna de string para o tipo de dado de data.
34
+ - column_to_timestamp: Converte uma coluna de string para o tipo timestamp.
35
+ - numbers_to_date: Converte uma coluna de números em datas.
36
+ - change_null_numeric: Substitui valores nulos em colunas numéricas por 0.
37
+ - change_null_string: Substitui valores nulos em colunas de string por '-'.
38
+ - remove_extra_spaces: Remove espaços em branco extras de todas as colunas de string em um DataFrame.
39
+ - upper_string_column: Converte todos os caracteres de uma coluna de string para maiúsculas.
40
+ - lower_string_column: Converte todos os caracteres de uma coluna de string para minúsculas.
41
+ - change_column_name: Altera o nome de uma coluna em um DataFrame.
42
+ - union_dataframes: Une uma lista de DataFrames .
43
+ - filter_like: Filtra os registros de um DataFrame onde os valores de uma coluna específica correspondem a um padrão regex.
44
+ - filter_by_max_date: Filtra o DataFrame para manter apenas as linhas com a maior data.
45
+ - organize_data: Ordena o dataframe de acordo com uma coluna de identificação eliminando possivéis duplicatas.
46
+ - convert_currency_column: Converte uma coluna de moeda no DataFrame para o tipo double.
47
+ - type_monetary: Identifica o tipo de 'moeda' com base de uma coluna específicas.
48
+ - replace_characters: Substitui um caracter específico por outro em uma coluna do DataFrame.
49
+ - concat_columns: Concatena duas colunas de um DataFrame com um separador "_".
50
+
51
+ ## Funções da Camada Gold
52
+
53
+ Para utilização das funções abaixo. é necessário utilizar um dataframe em pysaprk
54
+
55
+ As funções abaixo são referente a etapa de um processo gold em uma arquitetura de dados medalhão
56
+
57
+ Onde somente funções que são referente a regra de negocio passam por essa etapa.
58
+ Além de funções para tratamento de dados, podemos realizar agragações para definição de tabela fato e dimenssão.
59
+
60
+ No final, teremos uma tabela de dados apta para criação de dataviz e processo de machine leaning.
61
+
62
+ - extract_memory: Adiciona uma coluna com a quantidade de memória em GB extraída de outra coluna do DataFrame.
63
+ - extract_characters: Extrai caracteres específicos de uma coluna e coloca o resultado em outra coluna do DataFrame.
64
+ - condition_like: Adiciona uma nova coluna ao DataFrame com valores 'Sim' ou 'Nao' com base em uma condição de correspondência de padrão.
65
+
66
+ ## Funções de Teste Funcional
67
+
68
+ - df_not_empty: Verifica se o Dataframe não está vazio retornando o nnúmero de linhas.
69
+ - schema_equals_df_schema: Verifica se o schema corresponde ao que está ao dataframe (Utilizado após a aplicação do Schema ao df).
70
+ - count_df_filtered_filter: Verifica se não ocorreu perda de linhas em um filtro de dados.
71
+ - count_df_filtered_is_not_null: Verifica a quantidade de linhas nulas e não nulas são iguais ao dataframe original.
72
+ - count_union_df: Verifica a consistência da união de um conjunto de DataFrames.
73
+ - list_names_equal_df_names: Verifica se os nomes das colunas de um DataFrame (df) são exatamente iguais aos nomes presentes em uma lista (list_name).
74
+ - number_columns_list_names_and_df: Verifica se o dataframe possuí a mesma quantidade de nomes em uma lista.
@@ -0,0 +1,10 @@
1
+
2
+ [tool.isort]
3
+ profile = "black"
4
+ line_length = 88
5
+
6
+ [tool.black]
7
+ line-length = 88
8
+ target-version = ["py39"]
9
+
10
+
@@ -0,0 +1,3 @@
1
+ from app.commons import reading_data # noqa: F401,F403
2
+
3
+ __all__ = ["reading_data"]
@@ -0,0 +1,101 @@
1
+ Metadata-Version: 2.4
2
+ Name: servify
3
+ Version: 0.0.1
4
+ Summary: Commons utilitários para projetos Spark
5
+ Author: Felipe Pegoraro
6
+ Author-email: felipepegoraro93@gmail.com
7
+ License: MIT
8
+ Keywords: spark pyspark utils commons
9
+ Description-Content-Type: text/markdown
10
+ License-File: LICENCE
11
+ Requires-Dist: pyspark>=4.0.0
12
+ Requires-Dist: delta-spark>=4.0.1
13
+ Requires-Dist: loguru>=0.7.3
14
+ Requires-Dist: holidays>=0.88
15
+ Requires-Dist: pandas>=2.3.2
16
+ Requires-Dist: pyarrow>=21.0.0
17
+ Requires-Dist: tqdm>=4.67.1
18
+ Dynamic: author
19
+ Dynamic: author-email
20
+ Dynamic: description
21
+ Dynamic: description-content-type
22
+ Dynamic: keywords
23
+ Dynamic: license
24
+ Dynamic: license-file
25
+ Dynamic: requires-dist
26
+ Dynamic: summary
27
+
28
+ # Repositório destinado a criação de functions para tratativas de dados em Arquitetura Medalhão!
29
+
30
+ ## Conceito:
31
+
32
+ A arquitetura medalhão descreve uma série de camadas de dados que denotam a qualidade dos dados armazenados no lakehouse.
33
+
34
+ Essa arquitetura garante atomicidade, consistência, isolamento e durabilidade à medida que os dados passam por várias camadas
35
+ de validações e transformações antes de serem armazenados em uma disposição otimizada para uma análise eficiente.
36
+
37
+ Os termos bronze (bruto), prata (validado) e ouro (enriquecido) descrevem a qualidade dos dados em cada uma dessas camadas.
38
+
39
+ A arquitetura medalhão é um padrão de design de dados usado para organizar dados logicamente. Seu objetivo é melhorar de forma
40
+ incremental e progressiva a estrutura e a qualidade dos dados à medida que eles fluem por cada
41
+ camada da arquitetura (de Bronze ⇒ Prata ⇒ Ouro).
42
+
43
+ Com o avanço dos dados por essas camadas, as organizações podem melhorar gradativamente a qualidade e a confiabilidade dos dados,
44
+ tornando-os mais adequados para aplicativos de Business Intelligence e aprendizado de máquina.
45
+
46
+ fonte:
47
+ https://docs.databricks.com/aws/pt/lakehouse/medallion
48
+
49
+ ## Funções da Camada Silver
50
+
51
+ Para utilização das funções abaixo. é necessário utilizar um dataframe em pysaprk
52
+
53
+ As funções abaixo são referente a etapa de um processo silver em uma arquitetura de dados medalhão
54
+
55
+ Onde nessa etapa o foco é realizar uma limpeza e normalização dos dados, definição de schema e
56
+ outras modelagens que não são referente a regras de negócio.
57
+
58
+ No final, teremos uma tabela de dados confiável para a próxima etapa do pipeline.
59
+
60
+ - column_to_date: Converte uma coluna de string para o tipo de dado de data.
61
+ - column_to_timestamp: Converte uma coluna de string para o tipo timestamp.
62
+ - numbers_to_date: Converte uma coluna de números em datas.
63
+ - change_null_numeric: Substitui valores nulos em colunas numéricas por 0.
64
+ - change_null_string: Substitui valores nulos em colunas de string por '-'.
65
+ - remove_extra_spaces: Remove espaços em branco extras de todas as colunas de string em um DataFrame.
66
+ - upper_string_column: Converte todos os caracteres de uma coluna de string para maiúsculas.
67
+ - lower_string_column: Converte todos os caracteres de uma coluna de string para minúsculas.
68
+ - change_column_name: Altera o nome de uma coluna em um DataFrame.
69
+ - union_dataframes: Une uma lista de DataFrames .
70
+ - filter_like: Filtra os registros de um DataFrame onde os valores de uma coluna específica correspondem a um padrão regex.
71
+ - filter_by_max_date: Filtra o DataFrame para manter apenas as linhas com a maior data.
72
+ - organize_data: Ordena o dataframe de acordo com uma coluna de identificação eliminando possivéis duplicatas.
73
+ - convert_currency_column: Converte uma coluna de moeda no DataFrame para o tipo double.
74
+ - type_monetary: Identifica o tipo de 'moeda' com base de uma coluna específicas.
75
+ - replace_characters: Substitui um caracter específico por outro em uma coluna do DataFrame.
76
+ - concat_columns: Concatena duas colunas de um DataFrame com um separador "_".
77
+
78
+ ## Funções da Camada Gold
79
+
80
+ Para utilização das funções abaixo. é necessário utilizar um dataframe em pysaprk
81
+
82
+ As funções abaixo são referente a etapa de um processo gold em uma arquitetura de dados medalhão
83
+
84
+ Onde somente funções que são referente a regra de negocio passam por essa etapa.
85
+ Além de funções para tratamento de dados, podemos realizar agragações para definição de tabela fato e dimenssão.
86
+
87
+ No final, teremos uma tabela de dados apta para criação de dataviz e processo de machine leaning.
88
+
89
+ - extract_memory: Adiciona uma coluna com a quantidade de memória em GB extraída de outra coluna do DataFrame.
90
+ - extract_characters: Extrai caracteres específicos de uma coluna e coloca o resultado em outra coluna do DataFrame.
91
+ - condition_like: Adiciona uma nova coluna ao DataFrame com valores 'Sim' ou 'Nao' com base em uma condição de correspondência de padrão.
92
+
93
+ ## Funções de Teste Funcional
94
+
95
+ - df_not_empty: Verifica se o Dataframe não está vazio retornando o nnúmero de linhas.
96
+ - schema_equals_df_schema: Verifica se o schema corresponde ao que está ao dataframe (Utilizado após a aplicação do Schema ao df).
97
+ - count_df_filtered_filter: Verifica se não ocorreu perda de linhas em um filtro de dados.
98
+ - count_df_filtered_is_not_null: Verifica a quantidade de linhas nulas e não nulas são iguais ao dataframe original.
99
+ - count_union_df: Verifica a consistência da união de um conjunto de DataFrames.
100
+ - list_names_equal_df_names: Verifica se os nomes das colunas de um DataFrame (df) são exatamente iguais aos nomes presentes em uma lista (list_name).
101
+ - number_columns_list_names_and_df: Verifica se o dataframe possuí a mesma quantidade de nomes em uma lista.
@@ -0,0 +1,10 @@
1
+ LICENCE
2
+ README.md
3
+ pyproject.toml
4
+ setup.py
5
+ servify/__init__.py
6
+ servify.egg-info/PKG-INFO
7
+ servify.egg-info/SOURCES.txt
8
+ servify.egg-info/dependency_links.txt
9
+ servify.egg-info/requires.txt
10
+ servify.egg-info/top_level.txt
@@ -0,0 +1,7 @@
1
+ pyspark>=4.0.0
2
+ delta-spark>=4.0.1
3
+ loguru>=0.7.3
4
+ holidays>=0.88
5
+ pandas>=2.3.2
6
+ pyarrow>=21.0.0
7
+ tqdm>=4.67.1
@@ -0,0 +1 @@
1
+ servify
@@ -0,0 +1,4 @@
1
+ [egg_info]
2
+ tag_build =
3
+ tag_date = 0
4
+
servify-0.0.1/setup.py ADDED
@@ -0,0 +1,26 @@
1
+ from setuptools import find_packages, setup
2
+
3
+ with open("README.md", "r", encoding="utf-8") as arq:
4
+ readme = arq.read()
5
+
6
+ setup(
7
+ name="servify",
8
+ version="0.0.1",
9
+ license="MIT",
10
+ author="Felipe Pegoraro",
11
+ author_email="felipepegoraro93@gmail.com",
12
+ description="Commons utilitários para projetos Spark",
13
+ long_description=readme,
14
+ long_description_content_type="text/markdown",
15
+ keywords="spark pyspark utils commons",
16
+ packages=find_packages(include=["servify", "servify.*"]),
17
+ install_requires=[
18
+ "pyspark>=4.0.0",
19
+ "delta-spark>=4.0.1",
20
+ "loguru>=0.7.3",
21
+ "holidays>=0.88",
22
+ "pandas>=2.3.2",
23
+ "pyarrow>=21.0.0",
24
+ "tqdm>=4.67.1",
25
+ ],
26
+ )