experionml 0.0.0__tar.gz
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- experionml-0.0.0/LICENSE +21 -0
- experionml-0.0.0/PKG-INFO +128 -0
- experionml-0.0.0/README.md +42 -0
- experionml-0.0.0/experionml/__init__.py +9 -0
- experionml-0.0.0/experionml/_show_versions.py +123 -0
- experionml-0.0.0/experionml/api.py +970 -0
- experionml-0.0.0/experionml/basemodel.py +3668 -0
- experionml-0.0.0/experionml/baserunner.py +1586 -0
- experionml-0.0.0/experionml/basetracker.py +53 -0
- experionml-0.0.0/experionml/basetrainer.py +448 -0
- experionml-0.0.0/experionml/basetransformer.py +637 -0
- experionml-0.0.0/experionml/data_cleaning.py +3303 -0
- experionml-0.0.0/experionml/experionml.py +2555 -0
- experionml-0.0.0/experionml/feature_engineering.py +1593 -0
- experionml-0.0.0/experionml/integrations.py +60 -0
- experionml-0.0.0/experionml/nlp.py +1032 -0
- experionml-0.0.0/experionml/pipeline.py +1101 -0
- experionml-0.0.0/experionml/training.py +2625 -0
- experionml-0.0.0/experionml.egg-info/PKG-INFO +128 -0
- experionml-0.0.0/experionml.egg-info/SOURCES.txt +38 -0
- experionml-0.0.0/experionml.egg-info/dependency_links.txt +1 -0
- experionml-0.0.0/experionml.egg-info/requires.txt +49 -0
- experionml-0.0.0/experionml.egg-info/top_level.txt +1 -0
- experionml-0.0.0/pyproject.toml +229 -0
- experionml-0.0.0/setup.cfg +4 -0
- experionml-0.0.0/tests/test_api.py +43 -0
- experionml-0.0.0/tests/test_basemodel.py +1123 -0
- experionml-0.0.0/tests/test_baserunner.py +1191 -0
- experionml-0.0.0/tests/test_basetrainer.py +409 -0
- experionml-0.0.0/tests/test_basetransformer.py +414 -0
- experionml-0.0.0/tests/test_data.py +763 -0
- experionml-0.0.0/tests/test_data_cleaning.py +806 -0
- experionml-0.0.0/tests/test_experionml.py +1112 -0
- experionml-0.0.0/tests/test_feature_engineering.py +591 -0
- experionml-0.0.0/tests/test_models.py +402 -0
- experionml-0.0.0/tests/test_nlp.py +216 -0
- experionml-0.0.0/tests/test_pipeline.py +265 -0
- experionml-0.0.0/tests/test_plots.py +931 -0
- experionml-0.0.0/tests/test_training.py +89 -0
- experionml-0.0.0/tests/test_utils.py +99 -0
experionml-0.0.0/LICENSE
ADDED
|
@@ -0,0 +1,21 @@
|
|
|
1
|
+
MIT License
|
|
2
|
+
|
|
3
|
+
Copyright (c) 2025 Gerson
|
|
4
|
+
|
|
5
|
+
Permission is hereby granted, free of charge, to any person obtaining a copy
|
|
6
|
+
of this software and associated documentation files (the "Software"), to deal
|
|
7
|
+
in the Software without restriction, including without limitation the rights
|
|
8
|
+
to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
|
|
9
|
+
copies of the Software, and to permit persons to whom the Software is
|
|
10
|
+
furnished to do so, subject to the following conditions:
|
|
11
|
+
|
|
12
|
+
The above copyright notice and this permission notice shall be included in all
|
|
13
|
+
copies or substantial portions of the Software.
|
|
14
|
+
|
|
15
|
+
THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
|
|
16
|
+
IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
|
|
17
|
+
FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
|
|
18
|
+
AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
|
|
19
|
+
LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
|
|
20
|
+
OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
|
|
21
|
+
SOFTWARE.
|
|
@@ -0,0 +1,128 @@
|
|
|
1
|
+
Metadata-Version: 2.4
|
|
2
|
+
Name: experionml
|
|
3
|
+
Version: 0.0.0
|
|
4
|
+
Summary: A Python package for fast exploration of machine learning pipelines
|
|
5
|
+
Author-email: gersonrs <gersonrodriguessantos8@gmail.com>
|
|
6
|
+
License: MIT License
|
|
7
|
+
|
|
8
|
+
Copyright (c) 2025 Gerson
|
|
9
|
+
|
|
10
|
+
Permission is hereby granted, free of charge, to any person obtaining a copy
|
|
11
|
+
of this software and associated documentation files (the "Software"), to deal
|
|
12
|
+
in the Software without restriction, including without limitation the rights
|
|
13
|
+
to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
|
|
14
|
+
copies of the Software, and to permit persons to whom the Software is
|
|
15
|
+
furnished to do so, subject to the following conditions:
|
|
16
|
+
|
|
17
|
+
The above copyright notice and this permission notice shall be included in all
|
|
18
|
+
copies or substantial portions of the Software.
|
|
19
|
+
|
|
20
|
+
THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
|
|
21
|
+
IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
|
|
22
|
+
FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
|
|
23
|
+
AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
|
|
24
|
+
LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
|
|
25
|
+
OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
|
|
26
|
+
SOFTWARE.
|
|
27
|
+
|
|
28
|
+
Project-URL: Repository, https://github.com/gersonrs/ExperionML
|
|
29
|
+
Project-URL: Bug Tracker, https://github.com/gersonrs/ExperionML/issues
|
|
30
|
+
Keywords: Python package,Machine Learning,Modeling,Data Pipeline
|
|
31
|
+
Classifier: Programming Language :: Python :: 3.10
|
|
32
|
+
Classifier: Programming Language :: Python :: 3.11
|
|
33
|
+
Classifier: Programming Language :: Python :: 3.12
|
|
34
|
+
Classifier: Topic :: Scientific/Engineering :: Artificial Intelligence
|
|
35
|
+
Classifier: Topic :: Scientific/Engineering :: Information Analysis
|
|
36
|
+
Classifier: License :: OSI Approved :: MIT License
|
|
37
|
+
Classifier: Operating System :: OS Independent
|
|
38
|
+
Requires-Python: <3.13,>=3.10
|
|
39
|
+
Description-Content-Type: text/markdown
|
|
40
|
+
License-File: LICENSE
|
|
41
|
+
Requires-Dist: beartype>=0.18.5
|
|
42
|
+
Requires-Dist: category-encoders>=2.6.3
|
|
43
|
+
Requires-Dist: dill>=0.3.6
|
|
44
|
+
Requires-Dist: featuretools>=1.28.0
|
|
45
|
+
Requires-Dist: gplearn>=0.4.2
|
|
46
|
+
Requires-Dist: imbalanced-learn>=0.12.3
|
|
47
|
+
Requires-Dist: ipython>=8.9.0
|
|
48
|
+
Requires-Dist: ipywidgets>=8.1.1
|
|
49
|
+
Requires-Dist: joblib>=1.3.1
|
|
50
|
+
Requires-Dist: matplotlib>=3.7.2
|
|
51
|
+
Requires-Dist: mlflow>=2.10.2
|
|
52
|
+
Requires-Dist: nltk>=3.8.1
|
|
53
|
+
Requires-Dist: numpy>=1.23.0
|
|
54
|
+
Requires-Dist: optuna>=3.6.0
|
|
55
|
+
Requires-Dist: pandas>=2.2.2
|
|
56
|
+
Requires-Dist: plotly>=5.18.0
|
|
57
|
+
Requires-Dist: scikit-learn>=1.5.0
|
|
58
|
+
Requires-Dist: scipy>=1.10.1
|
|
59
|
+
Requires-Dist: shap>=0.43.0
|
|
60
|
+
Requires-Dist: sktime[forecasting]>=0.30.0
|
|
61
|
+
Requires-Dist: statsmodels>=0.14.1
|
|
62
|
+
Requires-Dist: zoofs>=0.1.25
|
|
63
|
+
Provides-Extra: full
|
|
64
|
+
Requires-Dist: botorch>=0.8.5; python_version < "3.12" and extra == "full"
|
|
65
|
+
Requires-Dist: catboost>=1.2; extra == "full"
|
|
66
|
+
Requires-Dist: dagshub>=0.3.8; extra == "full"
|
|
67
|
+
Requires-Dist: dask[dataframe,distributed]>=2024.2.0; extra == "full"
|
|
68
|
+
Requires-Dist: explainerdashboard>=0.4.3; extra == "full"
|
|
69
|
+
Requires-Dist: gradio>=3.44.4; extra == "full"
|
|
70
|
+
Requires-Dist: lightgbm>=4.1.0; extra == "full"
|
|
71
|
+
Requires-Dist: modin[ray]>=0.25.0; python_version < "3.12" and extra == "full"
|
|
72
|
+
Requires-Dist: optuna-integration>=3.6.0; extra == "full"
|
|
73
|
+
Requires-Dist: polars>=0.20.7; extra == "full"
|
|
74
|
+
Requires-Dist: pyarrow>=15.0.0; extra == "full"
|
|
75
|
+
Requires-Dist: pyspark>=3.5.0; extra == "full"
|
|
76
|
+
Requires-Dist: ray[serve]>=2.9.1; python_version < "3.12" and extra == "full"
|
|
77
|
+
Requires-Dist: requests>=2.31.0; extra == "full"
|
|
78
|
+
Requires-Dist: scikit-learn-intelex>=2023.2.1; (platform_system != "Darwin" and (platform_machine == "x86_64" or platform_machine == "AMD64")) and extra == "full"
|
|
79
|
+
Requires-Dist: schemdraw>=0.16; extra == "full"
|
|
80
|
+
Requires-Dist: statsforecast>=1.7.3; extra == "full"
|
|
81
|
+
Requires-Dist: supersmoother>=0.4; extra == "full"
|
|
82
|
+
Requires-Dist: sweetviz>=2.3.1; extra == "full"
|
|
83
|
+
Requires-Dist: wordcloud>=1.9.2; extra == "full"
|
|
84
|
+
Requires-Dist: xgboost>=2.0.0; extra == "full"
|
|
85
|
+
Dynamic: license-file
|
|
86
|
+
|
|
87
|
+
# ExperionML
|
|
88
|
+
|
|
89
|
+
## 💡 **Introdução**
|
|
90
|
+
|
|
91
|
+
Durante a fase de exploração de um projeto de aprendizado de máquina, o cientista de dados precisa identificar o pipeline mais adequado para o seu problema específico. Esse processo normalmente envolve diversas etapas, como limpeza de dados, criação ou seleção de atributos relevantes, teste de diferentes algoritmos e avaliação de múltiplas configurações de modelos.
|
|
92
|
+
|
|
93
|
+
Explorar várias combinações de pipelines costuma exigir muitas linhas de código. Quando todo esse processo é realizado em um único notebook, o código rapidamente se torna longo, difícil de manter e pouco organizado. Por outro lado, dividir os experimentos em múltiplos notebooks pode dificultar a comparação entre resultados e a visão geral do progresso do projeto. Além disso, refatorar código para cada novo experimento pode consumir um tempo significativo.
|
|
94
|
+
|
|
95
|
+
Quantas vezes você já executou as mesmas etapas de pré-processamento para diferentes conjuntos de dados? Quantas vezes precisou copiar e colar código de repositórios antigos para reutilizar em novos projetos?
|
|
96
|
+
|
|
97
|
+
**ExperionML** foi desenvolvido para resolver esses problemas comuns no fluxo de trabalho de machine learning. A biblioteca atua como uma camada de orquestração sobre todo o pipeline de modelagem, permitindo que cientistas de dados executem experimentos de forma rápida, organizada e reproduzível.
|
|
98
|
+
|
|
99
|
+
Com o ExperionML, tarefas repetitivas são automatizadas e o foco passa a ser a experimentação e a análise de resultados. Em poucas linhas de código, é possível aplicar etapas essenciais de pré-processamento, selecionar atributos relevantes, treinar múltiplos modelos e comparar seus desempenhos em um mesmo conjunto de dados.
|
|
100
|
+
|
|
101
|
+
Dessa forma, o ExperionML permite que o usuário avance rapidamente do **dado bruto para insights relevantes**, mantendo os experimentos estruturados e fáceis de analisar.
|
|
102
|
+
|
|
103
|
+
---
|
|
104
|
+
|
|
105
|
+
### Exemplo de etapas executadas no pipeline do ExperionML
|
|
106
|
+
|
|
107
|
+
**1. Limpeza de dados**
|
|
108
|
+
|
|
109
|
+
- Tratamento de valores ausentes
|
|
110
|
+
- Codificação de variáveis categóricas
|
|
111
|
+
- Detecção e remoção de outliers
|
|
112
|
+
- Balanceamento do conjunto de treinamento
|
|
113
|
+
|
|
114
|
+
**2. Engenharia de atributos**
|
|
115
|
+
|
|
116
|
+
- Criação de atributos não lineares
|
|
117
|
+
- Seleção das variáveis mais relevantes
|
|
118
|
+
|
|
119
|
+
**3. Treinamento e validação de múltiplos modelos**
|
|
120
|
+
|
|
121
|
+
- Ajuste de hiperparâmetros
|
|
122
|
+
- Treinamento dos modelos no conjunto de treino
|
|
123
|
+
- Avaliação no conjunto de teste
|
|
124
|
+
|
|
125
|
+
**4. Análise dos resultados**
|
|
126
|
+
|
|
127
|
+
- Cálculo de métricas de desempenho
|
|
128
|
+
- Visualizações para comparação entre modelos
|
|
@@ -0,0 +1,42 @@
|
|
|
1
|
+
# ExperionML
|
|
2
|
+
|
|
3
|
+
## 💡 **Introdução**
|
|
4
|
+
|
|
5
|
+
Durante a fase de exploração de um projeto de aprendizado de máquina, o cientista de dados precisa identificar o pipeline mais adequado para o seu problema específico. Esse processo normalmente envolve diversas etapas, como limpeza de dados, criação ou seleção de atributos relevantes, teste de diferentes algoritmos e avaliação de múltiplas configurações de modelos.
|
|
6
|
+
|
|
7
|
+
Explorar várias combinações de pipelines costuma exigir muitas linhas de código. Quando todo esse processo é realizado em um único notebook, o código rapidamente se torna longo, difícil de manter e pouco organizado. Por outro lado, dividir os experimentos em múltiplos notebooks pode dificultar a comparação entre resultados e a visão geral do progresso do projeto. Além disso, refatorar código para cada novo experimento pode consumir um tempo significativo.
|
|
8
|
+
|
|
9
|
+
Quantas vezes você já executou as mesmas etapas de pré-processamento para diferentes conjuntos de dados? Quantas vezes precisou copiar e colar código de repositórios antigos para reutilizar em novos projetos?
|
|
10
|
+
|
|
11
|
+
**ExperionML** foi desenvolvido para resolver esses problemas comuns no fluxo de trabalho de machine learning. A biblioteca atua como uma camada de orquestração sobre todo o pipeline de modelagem, permitindo que cientistas de dados executem experimentos de forma rápida, organizada e reproduzível.
|
|
12
|
+
|
|
13
|
+
Com o ExperionML, tarefas repetitivas são automatizadas e o foco passa a ser a experimentação e a análise de resultados. Em poucas linhas de código, é possível aplicar etapas essenciais de pré-processamento, selecionar atributos relevantes, treinar múltiplos modelos e comparar seus desempenhos em um mesmo conjunto de dados.
|
|
14
|
+
|
|
15
|
+
Dessa forma, o ExperionML permite que o usuário avance rapidamente do **dado bruto para insights relevantes**, mantendo os experimentos estruturados e fáceis de analisar.
|
|
16
|
+
|
|
17
|
+
---
|
|
18
|
+
|
|
19
|
+
### Exemplo de etapas executadas no pipeline do ExperionML
|
|
20
|
+
|
|
21
|
+
**1. Limpeza de dados**
|
|
22
|
+
|
|
23
|
+
- Tratamento de valores ausentes
|
|
24
|
+
- Codificação de variáveis categóricas
|
|
25
|
+
- Detecção e remoção de outliers
|
|
26
|
+
- Balanceamento do conjunto de treinamento
|
|
27
|
+
|
|
28
|
+
**2. Engenharia de atributos**
|
|
29
|
+
|
|
30
|
+
- Criação de atributos não lineares
|
|
31
|
+
- Seleção das variáveis mais relevantes
|
|
32
|
+
|
|
33
|
+
**3. Treinamento e validação de múltiplos modelos**
|
|
34
|
+
|
|
35
|
+
- Ajuste de hiperparâmetros
|
|
36
|
+
- Treinamento dos modelos no conjunto de treino
|
|
37
|
+
- Avaliação no conjunto de teste
|
|
38
|
+
|
|
39
|
+
**4. Análise dos resultados**
|
|
40
|
+
|
|
41
|
+
- Cálculo de métricas de desempenho
|
|
42
|
+
- Visualizações para comparação entre modelos
|
|
@@ -0,0 +1,9 @@
|
|
|
1
|
+
|
|
2
|
+
import sklearn
|
|
3
|
+
|
|
4
|
+
from experionml._show_versions import show_versions
|
|
5
|
+
from experionml.api import ExperionMLClassifier, ExperionMLForecaster, ExperionMLModel, ExperionMLRegressor
|
|
6
|
+
from experionml.utils.constants import __version__
|
|
7
|
+
|
|
8
|
+
|
|
9
|
+
sklearn.set_config(transform_output="pandas", enable_metadata_routing=True)
|
|
@@ -0,0 +1,123 @@
|
|
|
1
|
+
__all__ = ["show_versions"]
|
|
2
|
+
|
|
3
|
+
|
|
4
|
+
import importlib
|
|
5
|
+
import platform
|
|
6
|
+
import sys
|
|
7
|
+
|
|
8
|
+
|
|
9
|
+
# Dependências cujas versões serão exibidas
|
|
10
|
+
DEFAULT_DEPS = [
|
|
11
|
+
"pip",
|
|
12
|
+
"experionml",
|
|
13
|
+
"beartype",
|
|
14
|
+
"category_encoders",
|
|
15
|
+
"dill",
|
|
16
|
+
"featuretools",
|
|
17
|
+
"gplearn",
|
|
18
|
+
"imblearn",
|
|
19
|
+
"ipywidgets",
|
|
20
|
+
"joblib",
|
|
21
|
+
"matplotlib",
|
|
22
|
+
"mlflow",
|
|
23
|
+
"modin",
|
|
24
|
+
"nltk",
|
|
25
|
+
"numpy",
|
|
26
|
+
"optuna",
|
|
27
|
+
"pandas",
|
|
28
|
+
"plotly",
|
|
29
|
+
"sklearn",
|
|
30
|
+
"scipy",
|
|
31
|
+
"shap",
|
|
32
|
+
"sktime",
|
|
33
|
+
"statsmodels",
|
|
34
|
+
"zoofs", # Has no __version__ attribute
|
|
35
|
+
"botorch",
|
|
36
|
+
"catboost",
|
|
37
|
+
"dagshub",
|
|
38
|
+
"dask",
|
|
39
|
+
"explainerdashboard",
|
|
40
|
+
"gradio",
|
|
41
|
+
"lightgbm",
|
|
42
|
+
"modin",
|
|
43
|
+
"polars",
|
|
44
|
+
"pyarrow",
|
|
45
|
+
"pyspark",
|
|
46
|
+
"ray",
|
|
47
|
+
"requests",
|
|
48
|
+
"sklearnex", # Has no __version__ attribute
|
|
49
|
+
"schemdraw",
|
|
50
|
+
"statsforecast",
|
|
51
|
+
"sweetviz",
|
|
52
|
+
"wordcloud",
|
|
53
|
+
"xgboost",
|
|
54
|
+
]
|
|
55
|
+
|
|
56
|
+
|
|
57
|
+
def _get_sys_info():
|
|
58
|
+
"""Obtém informações do sistema e da versão do Python.
|
|
59
|
+
|
|
60
|
+
Returns
|
|
61
|
+
-------
|
|
62
|
+
dict
|
|
63
|
+
Informações coletadas.
|
|
64
|
+
|
|
65
|
+
"""
|
|
66
|
+
return {
|
|
67
|
+
"python": sys.version.replace("\n", " "),
|
|
68
|
+
"executable": sys.executable,
|
|
69
|
+
"machine": platform.platform(),
|
|
70
|
+
}
|
|
71
|
+
|
|
72
|
+
|
|
73
|
+
def _get_deps_info(deps: list[str]) -> dict[str, str | None]:
|
|
74
|
+
"""Retorna uma visão geral das versões instaladas das dependências principais.
|
|
75
|
+
|
|
76
|
+
Parameters
|
|
77
|
+
----------
|
|
78
|
+
deps: list of str
|
|
79
|
+
Dependências das quais obter a versão.
|
|
80
|
+
|
|
81
|
+
Returns
|
|
82
|
+
-------
|
|
83
|
+
dict
|
|
84
|
+
Informações de versão das bibliotecas em `deps`, onde as chaves
|
|
85
|
+
são os nomes de importação e os valores são strings de versão
|
|
86
|
+
PEP 440 conforme disponíveis no ambiente Python atual.
|
|
87
|
+
|
|
88
|
+
"""
|
|
89
|
+
deps_info = {}
|
|
90
|
+
for modname in deps:
|
|
91
|
+
try:
|
|
92
|
+
if modname in sys.modules:
|
|
93
|
+
mod = sys.modules[modname]
|
|
94
|
+
else:
|
|
95
|
+
mod = importlib.import_module(modname)
|
|
96
|
+
deps_info[modname] = mod.__version__
|
|
97
|
+
except (ImportError, AttributeError): # noqa: PERF203
|
|
98
|
+
deps_info[modname] = None
|
|
99
|
+
|
|
100
|
+
return deps_info
|
|
101
|
+
|
|
102
|
+
|
|
103
|
+
def show_versions():
|
|
104
|
+
"""Exibe informações do sistema e dos pacotes.
|
|
105
|
+
|
|
106
|
+
As seguintes informações são exibidas:
|
|
107
|
+
|
|
108
|
+
- Versão do Python do ambiente.
|
|
109
|
+
- Localização do executável do Python.
|
|
110
|
+
- Versão do sistema operacional.
|
|
111
|
+
- Nome de importação e versão das dependências Python selecionadas.
|
|
112
|
+
|
|
113
|
+
"""
|
|
114
|
+
sys_info = _get_sys_info()
|
|
115
|
+
deps_info = _get_deps_info(deps=DEFAULT_DEPS)
|
|
116
|
+
|
|
117
|
+
print("\nSistema:") # noqa: T201
|
|
118
|
+
for k, stat in sys_info.items():
|
|
119
|
+
print(f"{k:>10}: {stat}") # noqa: T201
|
|
120
|
+
|
|
121
|
+
print("\nDependências Python:") # noqa: T201
|
|
122
|
+
for k, stat in deps_info.items():
|
|
123
|
+
print(f"{k:>13}: {stat}") # noqa: T201
|