PyPI - pycharter - Versions diffs - 0.0.22__py3-none-any.whl → 0.0.24__py3-none-any.whl - Mend

pycharter 0.0.22py3-none-any.whl → 0.0.24py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (404) hide show

api/main.py +27 -1
api/models/docs.py +68 -0
api/models/evolution.py +117 -0
api/models/tracking.py +111 -0
api/models/validation.py +46 -6
api/routes/v1/__init__.py +14 -1
api/routes/v1/docs.py +187 -0
api/routes/v1/evolution.py +337 -0
api/routes/v1/templates.py +211 -27
api/routes/v1/tracking.py +301 -0
api/routes/v1/validation.py +68 -31
pycharter/__init__.py +268 -58
pycharter/data/templates/contract/template_coercion_rules.yaml +57 -0
pycharter/data/templates/contract/template_contract.yaml +122 -0
pycharter/data/templates/contract/template_metadata.yaml +68 -0
pycharter/data/templates/contract/template_schema.yaml +100 -0
pycharter/data/templates/contract/template_validation_rules.yaml +75 -0
pycharter/data/templates/etl/README.md +224 -0
pycharter/data/templates/etl/extract_cloud_azure.yaml +24 -0
pycharter/data/templates/etl/extract_cloud_gcs.yaml +25 -0
pycharter/data/templates/etl/extract_cloud_s3.yaml +30 -0
pycharter/data/templates/etl/extract_database.yaml +34 -0
pycharter/data/templates/etl/extract_database_ssh.yaml +40 -0
pycharter/data/templates/etl/extract_file_csv.yaml +21 -0
pycharter/data/templates/etl/extract_file_glob.yaml +25 -0
pycharter/data/templates/etl/extract_file_json.yaml +24 -0
pycharter/data/templates/etl/extract_file_parquet.yaml +20 -0
pycharter/data/templates/etl/extract_http_paginated.yaml +79 -0
pycharter/data/templates/etl/extract_http_path_params.yaml +38 -0
pycharter/data/templates/etl/extract_http_simple.yaml +62 -0
pycharter/data/templates/etl/load_cloud_azure.yaml +24 -0
pycharter/data/templates/etl/load_cloud_gcs.yaml +22 -0
pycharter/data/templates/etl/load_cloud_s3.yaml +27 -0
pycharter/data/templates/etl/load_file.yaml +34 -0
pycharter/data/templates/etl/load_insert.yaml +18 -0
pycharter/data/templates/etl/load_postgresql.yaml +39 -0
pycharter/data/templates/etl/load_sqlite.yaml +21 -0
pycharter/data/templates/etl/load_truncate_and_load.yaml +20 -0
pycharter/data/templates/etl/load_upsert.yaml +25 -0
pycharter/data/templates/etl/load_with_dlq.yaml +34 -0
pycharter/data/templates/etl/load_with_ssh_tunnel.yaml +35 -0
pycharter/data/templates/etl/pipeline_http_to_db.yaml +75 -0
pycharter/data/templates/etl/transform_combined.yaml +48 -0
pycharter/data/templates/etl/transform_custom_function.yaml +58 -0
pycharter/data/templates/etl/transform_jsonata.yaml +51 -0
pycharter/data/templates/etl/transform_simple.yaml +59 -0
pycharter/db/schemas/.ipynb_checkpoints/data_contract-checkpoint.py +160 -0
pycharter/docs_generator/__init__.py +43 -0
pycharter/docs_generator/generator.py +465 -0
pycharter/docs_generator/renderers.py +247 -0
pycharter/etl_generator/__init__.py +168 -80
pycharter/etl_generator/builder.py +121 -0
pycharter/etl_generator/config_loader.py +394 -0
pycharter/etl_generator/config_validator.py +418 -0
pycharter/etl_generator/context.py +132 -0
pycharter/etl_generator/expression.py +499 -0
pycharter/etl_generator/extractors/__init__.py +30 -0
pycharter/etl_generator/extractors/base.py +70 -0
pycharter/etl_generator/extractors/cloud_storage.py +530 -0
pycharter/etl_generator/extractors/database.py +221 -0
pycharter/etl_generator/extractors/factory.py +185 -0
pycharter/etl_generator/extractors/file.py +475 -0
pycharter/etl_generator/extractors/http.py +895 -0
pycharter/etl_generator/extractors/streaming.py +57 -0
pycharter/etl_generator/loaders/__init__.py +41 -0
pycharter/etl_generator/loaders/base.py +35 -0
pycharter/etl_generator/loaders/cloud.py +87 -0
pycharter/etl_generator/loaders/cloud_storage_loader.py +275 -0
pycharter/etl_generator/loaders/database.py +274 -0
pycharter/etl_generator/loaders/factory.py +180 -0
pycharter/etl_generator/loaders/file.py +72 -0
pycharter/etl_generator/loaders/file_loader.py +130 -0
pycharter/etl_generator/pipeline.py +743 -0
pycharter/etl_generator/protocols.py +54 -0
pycharter/etl_generator/result.py +63 -0
pycharter/etl_generator/schemas/__init__.py +49 -0
pycharter/etl_generator/transformers/__init__.py +49 -0
pycharter/etl_generator/transformers/base.py +63 -0
pycharter/etl_generator/transformers/config.py +45 -0
pycharter/etl_generator/transformers/custom_function.py +101 -0
pycharter/etl_generator/transformers/jsonata_transformer.py +56 -0
pycharter/etl_generator/transformers/operations.py +218 -0
pycharter/etl_generator/transformers/pipeline.py +54 -0
pycharter/etl_generator/transformers/simple_operations.py +131 -0
pycharter/quality/__init__.py +25 -0
pycharter/quality/tracking/__init__.py +64 -0
pycharter/quality/tracking/collector.py +318 -0
pycharter/quality/tracking/exporters.py +238 -0
pycharter/quality/tracking/models.py +194 -0
pycharter/quality/tracking/store.py +385 -0
pycharter/runtime_validator/__init__.py +20 -7
pycharter/runtime_validator/builder.py +328 -0
pycharter/runtime_validator/validator.py +311 -7
pycharter/runtime_validator/validator_core.py +61 -0
pycharter/schema_evolution/__init__.py +61 -0
pycharter/schema_evolution/compatibility.py +270 -0
pycharter/schema_evolution/diff.py +496 -0
pycharter/schema_evolution/models.py +201 -0
pycharter/shared/__init__.py +56 -0
pycharter/shared/errors.py +296 -0
pycharter/shared/protocols.py +234 -0
{pycharter-0.0.22.dist-info → pycharter-0.0.24.dist-info}/METADATA +146 -26
pycharter-0.0.24.dist-info/RECORD +543 -0
{pycharter-0.0.22.dist-info → pycharter-0.0.24.dist-info}/WHEEL +1 -1
ui/static/404/index.html +1 -1
ui/static/404.html +1 -1
ui/static/__next.__PAGE__.txt +1 -1
ui/static/__next._full.txt +1 -1
ui/static/__next._head.txt +1 -1
ui/static/__next._index.txt +1 -1
ui/static/__next._tree.txt +1 -1
ui/static/_next/static/chunks/26dfc590f7714c03.js +1 -0
ui/static/_next/static/chunks/34d289e6db2ef551.js +1 -0
ui/static/_next/static/chunks/99508d9d5869cc27.js +1 -0
ui/static/_next/static/chunks/b313c35a6ba76574.js +1 -0
ui/static/_not-found/__next._full.txt +1 -1
ui/static/_not-found/__next._head.txt +1 -1
ui/static/_not-found/__next._index.txt +1 -1
ui/static/_not-found/__next._not-found.__PAGE__.txt +1 -1
ui/static/_not-found/__next._not-found.txt +1 -1
ui/static/_not-found/__next._tree.txt +1 -1
ui/static/_not-found/index.html +1 -1
ui/static/_not-found/index.txt +1 -1
ui/static/contracts/__next._full.txt +2 -2
ui/static/contracts/__next._head.txt +1 -1
ui/static/contracts/__next._index.txt +1 -1
ui/static/contracts/__next._tree.txt +1 -1
ui/static/contracts/__next.contracts.__PAGE__.txt +2 -2
ui/static/contracts/__next.contracts.txt +1 -1
ui/static/contracts/index.html +1 -1
ui/static/contracts/index.txt +2 -2
ui/static/documentation/__next._full.txt +1 -1
ui/static/documentation/__next._head.txt +1 -1
ui/static/documentation/__next._index.txt +1 -1
ui/static/documentation/__next._tree.txt +1 -1
ui/static/documentation/__next.documentation.__PAGE__.txt +1 -1
ui/static/documentation/__next.documentation.txt +1 -1
ui/static/documentation/index.html +2 -2
ui/static/documentation/index.txt +1 -1
ui/static/index.html +1 -1
ui/static/index.txt +1 -1
ui/static/metadata/__next._full.txt +1 -1
ui/static/metadata/__next._head.txt +1 -1
ui/static/metadata/__next._index.txt +1 -1
ui/static/metadata/__next._tree.txt +1 -1
ui/static/metadata/__next.metadata.__PAGE__.txt +1 -1
ui/static/metadata/__next.metadata.txt +1 -1
ui/static/metadata/index.html +1 -1
ui/static/metadata/index.txt +1 -1
ui/static/quality/__next._full.txt +2 -2
ui/static/quality/__next._head.txt +1 -1
ui/static/quality/__next._index.txt +1 -1
ui/static/quality/__next._tree.txt +1 -1
ui/static/quality/__next.quality.__PAGE__.txt +2 -2
ui/static/quality/__next.quality.txt +1 -1
ui/static/quality/index.html +2 -2
ui/static/quality/index.txt +2 -2
ui/static/rules/__next._full.txt +1 -1
ui/static/rules/__next._head.txt +1 -1
ui/static/rules/__next._index.txt +1 -1
ui/static/rules/__next._tree.txt +1 -1
ui/static/rules/__next.rules.__PAGE__.txt +1 -1
ui/static/rules/__next.rules.txt +1 -1
ui/static/rules/index.html +1 -1
ui/static/rules/index.txt +1 -1
ui/static/schemas/__next._full.txt +1 -1
ui/static/schemas/__next._head.txt +1 -1
ui/static/schemas/__next._index.txt +1 -1
ui/static/schemas/__next._tree.txt +1 -1
ui/static/schemas/__next.schemas.__PAGE__.txt +1 -1
ui/static/schemas/__next.schemas.txt +1 -1
ui/static/schemas/index.html +1 -1
ui/static/schemas/index.txt +1 -1
ui/static/settings/__next._full.txt +1 -1
ui/static/settings/__next._head.txt +1 -1
ui/static/settings/__next._index.txt +1 -1
ui/static/settings/__next._tree.txt +1 -1
ui/static/settings/__next.settings.__PAGE__.txt +1 -1
ui/static/settings/__next.settings.txt +1 -1
ui/static/settings/index.html +1 -1
ui/static/settings/index.txt +1 -1
ui/static/static/404/index.html +1 -1
ui/static/static/404.html +1 -1
ui/static/static/__next.__PAGE__.txt +1 -1
ui/static/static/__next._full.txt +2 -2
ui/static/static/__next._head.txt +1 -1
ui/static/static/__next._index.txt +2 -2
ui/static/static/__next._tree.txt +2 -2
ui/static/static/_next/static/chunks/13d4a0fbd74c1ee4.js +1 -0
ui/static/static/_next/static/chunks/2edb43b48432ac04.js +441 -0
ui/static/static/_next/static/chunks/d2363397e1b2bcab.css +1 -0
ui/static/static/_next/static/chunks/f7d1a90dd75d2572.js +1 -0
ui/static/static/_not-found/__next._full.txt +2 -2
ui/static/static/_not-found/__next._head.txt +1 -1
ui/static/static/_not-found/__next._index.txt +2 -2
ui/static/static/_not-found/__next._not-found.__PAGE__.txt +1 -1
ui/static/static/_not-found/__next._not-found.txt +1 -1
ui/static/static/_not-found/__next._tree.txt +2 -2
ui/static/static/_not-found/index.html +1 -1
ui/static/static/_not-found/index.txt +2 -2
ui/static/static/contracts/__next._full.txt +3 -3
ui/static/static/contracts/__next._head.txt +1 -1
ui/static/static/contracts/__next._index.txt +2 -2
ui/static/static/contracts/__next._tree.txt +2 -2
ui/static/static/contracts/__next.contracts.__PAGE__.txt +2 -2
ui/static/static/contracts/__next.contracts.txt +1 -1
ui/static/static/contracts/index.html +1 -1
ui/static/static/contracts/index.txt +3 -3
ui/static/static/documentation/__next._full.txt +3 -3
ui/static/static/documentation/__next._head.txt +1 -1
ui/static/static/documentation/__next._index.txt +2 -2
ui/static/static/documentation/__next._tree.txt +2 -2
ui/static/static/documentation/__next.documentation.__PAGE__.txt +2 -2
ui/static/static/documentation/__next.documentation.txt +1 -1
ui/static/static/documentation/index.html +2 -2
ui/static/static/documentation/index.txt +3 -3
ui/static/static/index.html +1 -1
ui/static/static/index.txt +2 -2
ui/static/static/metadata/__next._full.txt +2 -2
ui/static/static/metadata/__next._head.txt +1 -1
ui/static/static/metadata/__next._index.txt +2 -2
ui/static/static/metadata/__next._tree.txt +2 -2
ui/static/static/metadata/__next.metadata.__PAGE__.txt +1 -1
ui/static/static/metadata/__next.metadata.txt +1 -1
ui/static/static/metadata/index.html +1 -1
ui/static/static/metadata/index.txt +2 -2
ui/static/static/quality/__next._full.txt +2 -2
ui/static/static/quality/__next._head.txt +1 -1
ui/static/static/quality/__next._index.txt +2 -2
ui/static/static/quality/__next._tree.txt +2 -2
ui/static/static/quality/__next.quality.__PAGE__.txt +1 -1
ui/static/static/quality/__next.quality.txt +1 -1
ui/static/static/quality/index.html +2 -2
ui/static/static/quality/index.txt +2 -2
ui/static/static/rules/__next._full.txt +2 -2
ui/static/static/rules/__next._head.txt +1 -1
ui/static/static/rules/__next._index.txt +2 -2
ui/static/static/rules/__next._tree.txt +2 -2
ui/static/static/rules/__next.rules.__PAGE__.txt +1 -1
ui/static/static/rules/__next.rules.txt +1 -1
ui/static/static/rules/index.html +1 -1
ui/static/static/rules/index.txt +2 -2
ui/static/static/schemas/__next._full.txt +2 -2
ui/static/static/schemas/__next._head.txt +1 -1
ui/static/static/schemas/__next._index.txt +2 -2
ui/static/static/schemas/__next._tree.txt +2 -2
ui/static/static/schemas/__next.schemas.__PAGE__.txt +1 -1
ui/static/static/schemas/__next.schemas.txt +1 -1
ui/static/static/schemas/index.html +1 -1
ui/static/static/schemas/index.txt +2 -2
ui/static/static/settings/__next._full.txt +2 -2
ui/static/static/settings/__next._head.txt +1 -1
ui/static/static/settings/__next._index.txt +2 -2
ui/static/static/settings/__next._tree.txt +2 -2
ui/static/static/settings/__next.settings.__PAGE__.txt +1 -1
ui/static/static/settings/__next.settings.txt +1 -1
ui/static/static/settings/index.html +1 -1
ui/static/static/settings/index.txt +2 -2
ui/static/static/static/.gitkeep +0 -0
ui/static/static/static/404/index.html +1 -0
ui/static/static/static/404.html +1 -0
ui/static/static/static/__next.__PAGE__.txt +10 -0
ui/static/static/static/__next._full.txt +30 -0
ui/static/static/static/__next._head.txt +7 -0
ui/static/static/static/__next._index.txt +9 -0
ui/static/static/static/__next._tree.txt +2 -0
ui/static/static/static/_next/static/chunks/222442f6da32302a.js +1 -0
ui/static/static/static/_next/static/chunks/247eb132b7f7b574.js +1 -0
ui/static/static/static/_next/static/chunks/297d55555b71baba.js +1 -0
ui/static/static/static/_next/static/chunks/2ab439ce003cd691.js +1 -0
ui/static/static/static/_next/static/chunks/414e77373f8ff61c.js +1 -0
ui/static/static/static/_next/static/chunks/49ca65abd26ae49e.js +1 -0
ui/static/static/static/_next/static/chunks/652ad0aa26265c47.js +2 -0
ui/static/static/static/_next/static/chunks/9667e7a3d359eb39.js +1 -0
ui/static/static/static/_next/static/chunks/9c23f44fff36548a.js +1 -0
ui/static/static/static/_next/static/chunks/a6dad97d9634a72d.js +1 -0
ui/static/static/static/_next/static/chunks/b32a0963684b9933.js +4 -0
ui/static/static/static/_next/static/chunks/c69f6cba366bd988.js +1 -0
ui/static/static/static/_next/static/chunks/db913959c675cea6.js +1 -0
ui/static/static/static/_next/static/chunks/f061a4be97bfc3b3.js +1 -0
ui/static/static/static/_next/static/chunks/f2e7afeab1178138.js +1 -0
ui/static/static/static/_next/static/chunks/ff1a16fafef87110.js +1 -0
ui/static/static/static/_next/static/chunks/turbopack-ffcb7ab6794027ef.js +3 -0
ui/static/static/static/_next/static/tNTkVW6puVXC4bAm4WrHl/_buildManifest.js +11 -0
ui/static/static/static/_next/static/tNTkVW6puVXC4bAm4WrHl/_ssgManifest.js +1 -0
ui/static/static/static/_not-found/__next._full.txt +17 -0
ui/static/static/static/_not-found/__next._head.txt +7 -0
ui/static/static/static/_not-found/__next._index.txt +9 -0
ui/static/static/static/_not-found/__next._not-found.__PAGE__.txt +5 -0
ui/static/static/static/_not-found/__next._not-found.txt +4 -0
ui/static/static/static/_not-found/__next._tree.txt +2 -0
ui/static/static/static/_not-found/index.html +1 -0
ui/static/static/static/_not-found/index.txt +17 -0
ui/static/static/static/contracts/__next._full.txt +21 -0
ui/static/static/static/contracts/__next._head.txt +7 -0
ui/static/static/static/contracts/__next._index.txt +9 -0
ui/static/static/static/contracts/__next._tree.txt +2 -0
ui/static/static/static/contracts/__next.contracts.__PAGE__.txt +9 -0
ui/static/static/static/contracts/__next.contracts.txt +4 -0
ui/static/static/static/contracts/index.html +1 -0
ui/static/static/static/contracts/index.txt +21 -0
ui/static/static/static/documentation/__next._full.txt +21 -0
ui/static/static/static/documentation/__next._head.txt +7 -0
ui/static/static/static/documentation/__next._index.txt +9 -0
ui/static/static/static/documentation/__next._tree.txt +2 -0
ui/static/static/static/documentation/__next.documentation.__PAGE__.txt +9 -0
ui/static/static/static/documentation/__next.documentation.txt +4 -0
ui/static/static/static/documentation/index.html +93 -0
ui/static/static/static/documentation/index.txt +21 -0
ui/static/static/static/index.html +1 -0
ui/static/static/static/index.txt +30 -0
ui/static/static/static/metadata/__next._full.txt +21 -0
ui/static/static/static/metadata/__next._head.txt +7 -0
ui/static/static/static/metadata/__next._index.txt +9 -0
ui/static/static/static/metadata/__next._tree.txt +2 -0
ui/static/static/static/metadata/__next.metadata.__PAGE__.txt +9 -0
ui/static/static/static/metadata/__next.metadata.txt +4 -0
ui/static/static/static/metadata/index.html +1 -0
ui/static/static/static/metadata/index.txt +21 -0
ui/static/static/static/quality/__next._full.txt +21 -0
ui/static/static/static/quality/__next._head.txt +7 -0
ui/static/static/static/quality/__next._index.txt +9 -0
ui/static/static/static/quality/__next._tree.txt +2 -0
ui/static/static/static/quality/__next.quality.__PAGE__.txt +9 -0
ui/static/static/static/quality/__next.quality.txt +4 -0
ui/static/static/static/quality/index.html +2 -0
ui/static/static/static/quality/index.txt +21 -0
ui/static/static/static/rules/__next._full.txt +21 -0
ui/static/static/static/rules/__next._head.txt +7 -0
ui/static/static/static/rules/__next._index.txt +9 -0
ui/static/static/static/rules/__next._tree.txt +2 -0
ui/static/static/static/rules/__next.rules.__PAGE__.txt +9 -0
ui/static/static/static/rules/__next.rules.txt +4 -0
ui/static/static/static/rules/index.html +1 -0
ui/static/static/static/rules/index.txt +21 -0
ui/static/static/static/schemas/__next._full.txt +21 -0
ui/static/static/static/schemas/__next._head.txt +7 -0
ui/static/static/static/schemas/__next._index.txt +9 -0
ui/static/static/static/schemas/__next._tree.txt +2 -0
ui/static/static/static/schemas/__next.schemas.__PAGE__.txt +9 -0
ui/static/static/static/schemas/__next.schemas.txt +4 -0
ui/static/static/static/schemas/index.html +1 -0
ui/static/static/static/schemas/index.txt +21 -0
ui/static/static/static/settings/__next._full.txt +21 -0
ui/static/static/static/settings/__next._head.txt +7 -0
ui/static/static/static/settings/__next._index.txt +9 -0
ui/static/static/static/settings/__next._tree.txt +2 -0
ui/static/static/static/settings/__next.settings.__PAGE__.txt +9 -0
ui/static/static/static/settings/__next.settings.txt +4 -0
ui/static/static/static/settings/index.html +1 -0
ui/static/static/static/settings/index.txt +21 -0
ui/static/static/static/validation/__next._full.txt +21 -0
ui/static/static/static/validation/__next._head.txt +7 -0
ui/static/static/static/validation/__next._index.txt +9 -0
ui/static/static/static/validation/__next._tree.txt +2 -0
ui/static/static/static/validation/__next.validation.__PAGE__.txt +9 -0
ui/static/static/static/validation/__next.validation.txt +4 -0
ui/static/static/static/validation/index.html +1 -0
ui/static/static/static/validation/index.txt +21 -0
ui/static/static/validation/__next._full.txt +2 -2
ui/static/static/validation/__next._head.txt +1 -1
ui/static/static/validation/__next._index.txt +2 -2
ui/static/static/validation/__next._tree.txt +2 -2
ui/static/static/validation/__next.validation.__PAGE__.txt +1 -1
ui/static/static/validation/__next.validation.txt +1 -1
ui/static/static/validation/index.html +1 -1
ui/static/static/validation/index.txt +2 -2
ui/static/validation/__next._full.txt +2 -2
ui/static/validation/__next._head.txt +1 -1
ui/static/validation/__next._index.txt +1 -1
ui/static/validation/__next._tree.txt +1 -1
ui/static/validation/__next.validation.__PAGE__.txt +2 -2
ui/static/validation/__next.validation.txt +1 -1
ui/static/validation/index.html +1 -1
ui/static/validation/index.txt +2 -2
pycharter/data/templates/template_coercion_rules.yaml +0 -15
pycharter/data/templates/template_contract.yaml +0 -587
pycharter/data/templates/template_metadata.yaml +0 -38
pycharter/data/templates/template_schema.yaml +0 -22
pycharter/data/templates/template_transform_advanced.yaml +0 -50
pycharter/data/templates/template_transform_simple.yaml +0 -59
pycharter/data/templates/template_validation_rules.yaml +0 -29
pycharter/etl_generator/extraction.py +0 -916
pycharter/etl_generator/factory.py +0 -174
pycharter/etl_generator/orchestrator.py +0 -1650
pycharter/integrations/__init__.py +0 -19
pycharter/integrations/kafka.py +0 -178
pycharter/integrations/streaming.py +0 -100
pycharter-0.0.22.dist-info/RECORD +0 -358
{pycharter-0.0.22.dist-info → pycharter-0.0.24.dist-info}/entry_points.txt +0 -0
{pycharter-0.0.22.dist-info → pycharter-0.0.24.dist-info}/licenses/LICENSE +0 -0
{pycharter-0.0.22.dist-info → pycharter-0.0.24.dist-info}/top_level.txt +0 -0
/ui/static/_next/static/{0rYA78L88aUyD2Uh38hhX → 2gKjNv6YvE6BcIdFthBLs}/_buildManifest.js +0 -0
/ui/static/_next/static/{0rYA78L88aUyD2Uh38hhX → 2gKjNv6YvE6BcIdFthBLs}/_ssgManifest.js +0 -0
/ui/static/static/_next/static/{tNTkVW6puVXC4bAm4WrHl → 0rYA78L88aUyD2Uh38hhX}/_buildManifest.js +0 -0
/ui/static/static/_next/static/{tNTkVW6puVXC4bAm4WrHl → 0rYA78L88aUyD2Uh38hhX}/_ssgManifest.js +0 -0
/ui/static/{_next → static/_next}/static/chunks/c4fa4f4114b7c352.js +0 -0
/ui/static/static/{_next → static/_next}/static/chunks/4e310fe5005770a3.css +0 -0
/ui/static/{_next → static/static/_next}/static/chunks/5e04d10c4a7b58a3.js +0 -0
/ui/static/static/{_next → static/_next}/static/chunks/5fc14c00a2779dc5.js +0 -0
/ui/static/{_next → static/static/_next}/static/chunks/75d88a058d8ffaa6.js +0 -0
/ui/static/{_next → static/static/_next}/static/chunks/8c89634cf6bad76f.js +0 -0
/ui/static/static/{_next → static/_next}/static/chunks/b584574fdc8ab13e.js +0 -0
/ui/static/static/{_next → static/_next}/static/chunks/d5989c94d3614b3a.js +0 -0

pycharter/etl_generator/extractors/file.py ADDED Viewed

@@ -0,0 +1,475 @@
+"""
+File-based extractor for ETL orchestrator.
+Supports reading from local files in various formats:
+- CSV, TSV
+- JSON (single file or newline-delimited JSON)
+- Parquet
+- Excel (xlsx, xls)
+- XML
+"""
+import gzip
+import json
+import logging
+import zipfile
+from pathlib import Path
+from typing import Any, AsyncIterator, Dict, List, Optional
+import pandas as pd
+from pycharter.etl_generator.extractors.base import BaseExtractor
+from pycharter.utils.value_injector import resolve_values
+logger = logging.getLogger(__name__)
+# Supported file formats
+SUPPORTED_FORMATS = {
+    '.csv': 'csv',
+    '.tsv': 'tsv',
+    '.json': 'json',
+    '.jsonl': 'jsonl',  # Newline-delimited JSON
+    '.ndjson': 'jsonl',
+    '.parquet': 'parquet',
+    '.xlsx': 'excel',
+    '.xls': 'excel',
+    '.xml': 'xml',
+}
+class FileExtractor(BaseExtractor):
+    """
+    Extractor for file-based data sources.
+    Supports two modes:
+    1. Programmatic API:
+        >>> extractor = FileExtractor(path="data.csv")
+        >>> async for batch in extractor.extract():
+        ...     process(batch)
+    2. Config-driven:
+        >>> extractor = FileExtractor()
+        >>> async for batch in extractor.extract_streaming(config, params, headers):
+        ...     process(batch)
+    """
+    def __init__(
+        self,
+        path: Optional[str] = None,
+        file_format: Optional[str] = None,
+        batch_size: int = 1000,
+        max_records: Optional[int] = None,
+    ):
+        self.path = path
+        self.file_format = file_format
+        self.batch_size = batch_size
+        self.max_records = max_records
+    @classmethod
+    def from_config(cls, config: Dict[str, Any]) -> "FileExtractor":
+        """Create extractor from configuration dict."""
+        return cls(
+            path=config.get("file_path") or config.get("path"),
+            file_format=config.get("format"),
+            batch_size=config.get("batch_size", 1000),
+            max_records=config.get("max_records"),
+        )
+    async def extract(self, **params) -> AsyncIterator[List[Dict[str, Any]]]:
+        """
+        Extract data from file.
+        Yields:
+            Batches of records
+        """
+        if not self.path:
+            raise ValueError("File path is required")
+        extract_config = {
+            "file_path": self.path,
+            "format": self.file_format,
+        }
+        async for batch in self.extract_streaming(
+            extract_config, {}, {},
+            batch_size=self.batch_size,
+            max_records=self.max_records,
+        ):
+            yield batch
+    def validate_config(self, extract_config: Dict[str, Any]) -> None:
+        """Validate file extractor configuration."""
+        if 'source_type' in extract_config and extract_config['source_type'] != 'file':
+            raise ValueError(f"FileExtractor requires source_type='file', got '{extract_config.get('source_type')}'")
+        file_path = extract_config.get('file_path')
+        if not file_path:
+            raise ValueError("File extractor requires 'file_path' in extract_config")
+    async def extract_streaming(
+        self,
+        extract_config: Dict[str, Any],
+        params: Dict[str, Any],
+        headers: Dict[str, Any],
+        contract_dir: Optional[Any] = None,
+        batch_size: int = 1000,
+        max_records: Optional[int] = None,
+        config_context: Optional[Dict[str, Any]] = None,
+    ) -> AsyncIterator[List[Dict[str, Any]]]:
+        """
+        Extract data from file(s) in batches.
+        Supports:
+        - Single files
+        - Glob patterns for multiple files
+        - Compressed files (gzip, zip)
+        """
+        # Resolve file_path with variable injection
+        source_file = str(contract_dir / "extract.yaml") if contract_dir else None
+        file_path = extract_config.get('file_path')
+        if not file_path:
+            raise ValueError("File extractor requires 'file_path' in extract_config")
+        file_path = resolve_values(file_path, context=config_context, source_file=source_file)
+        # Detect format
+        file_format = extract_config.get('format')
+        if not file_format:
+            file_format = self._detect_format(file_path)
+        # Handle glob patterns
+        path = Path(file_path)
+        if '*' in str(path) or '?' in str(path):
+            # Glob pattern - process multiple files
+            files = list(path.parent.glob(path.name))
+            if not files:
+                raise FileNotFoundError(f"No files found matching pattern: {file_path}")
+            logger.info(f"Found {len(files)} files matching pattern: {file_path}")
+            total_extracted = 0
+            for file in sorted(files):
+                if max_records and total_extracted >= max_records:
+                    break
+                logger.info(f"Processing file: {file}")
+                async for batch in self._extract_from_file(
+                    file, file_format, batch_size, max_records, total_extracted
+                ):
+                    total_extracted += len(batch)
+                    yield batch
+                    if max_records and total_extracted >= max_records:
+                        break
+        else:
+            # Single file
+            if not path.exists():
+                raise FileNotFoundError(f"File not found: {file_path}")
+            async for batch in self._extract_from_file(
+                path, file_format, batch_size, max_records, 0
+            ):
+                yield batch
+    async def _extract_from_file(
+        self,
+        file_path: Path,
+        file_format: str,
+        batch_size: int,
+        max_records: Optional[int],
+        offset: int = 0,
+    ) -> AsyncIterator[List[Dict[str, Any]]]:
+        """Extract data from a single file."""
+        extracted_file = None
+        original_path = file_path
+        # Handle compressed files
+        if file_path.suffix == '.gz':
+            # Gzip compressed - pandas can handle this directly
+            # No need to decompress manually
+            pass
+        elif file_path.suffix == '.zip':
+            # Zip file - extract first file
+            with zipfile.ZipFile(file_path, 'r') as zip_ref:
+                file_list = zip_ref.namelist()
+                if not file_list:
+                    raise ValueError(f"Zip file is empty: {file_path}")
+                # Use first file in zip
+                extracted_file = zip_ref.extract(file_list[0])
+                file_path = Path(extracted_file)
+        try:
+            if file_format == 'csv' or file_format == 'tsv':
+                async for batch in self._extract_csv(file_path, batch_size, max_records, offset, file_format):
+                    yield batch
+            elif file_format == 'json':
+                async for batch in self._extract_json(file_path, batch_size, max_records, offset):
+                    yield batch
+            elif file_format == 'jsonl':
+                async for batch in self._extract_jsonl(file_path, batch_size, max_records, offset):
+                    yield batch
+            elif file_format == 'parquet':
+                async for batch in self._extract_parquet(file_path, batch_size, max_records, offset):
+                    yield batch
+            elif file_format == 'excel':
+                async for batch in self._extract_excel(file_path, batch_size, max_records, offset):
+                    yield batch
+            elif file_format == 'xml':
+                async for batch in self._extract_xml(file_path, batch_size, max_records, offset):
+                    yield batch
+            else:
+                raise ValueError(f"Unsupported file format: {file_format}")
+        finally:
+            # Cleanup if we extracted from zip
+            if extracted_file and Path(extracted_file).exists():
+                Path(extracted_file).unlink()
+    async def _extract_csv(
+        self,
+        file_path: Path,
+        batch_size: int,
+        max_records: Optional[int],
+        offset: int,
+        format_type: str,
+    ) -> AsyncIterator[List[Dict[str, Any]]]:
+        """Extract data from CSV/TSV file."""
+        delimiter = '\t' if format_type == 'tsv' else ','
+        # Use pandas for efficient CSV reading
+        chunk_size = batch_size
+        total_read = 0
+        try:
+            for chunk in pd.read_csv(
+                file_path,
+                delimiter=delimiter,
+                chunksize=chunk_size,
+                skiprows=offset if offset > 0 else None,
+            ):
+                records = chunk.to_dict('records')
+                # Convert pandas types to native Python types
+                records = [self._convert_pandas_types(record) for record in records]
+                if max_records and total_read + len(records) > max_records:
+                    records = records[:max_records - total_read]
+                total_read += len(records)
+                yield records
+                if max_records and total_read >= max_records:
+                    break
+        except Exception as e:
+            raise RuntimeError(f"Error reading CSV file {file_path}: {e}") from e
+    async def _extract_json(
+        self,
+        file_path: Path,
+        batch_size: int,
+        max_records: Optional[int],
+        offset: int,
+    ) -> AsyncIterator[List[Dict[str, Any]]]:
+        """Extract data from JSON file."""
+        try:
+            # Handle gzip compressed JSON
+            if file_path.suffix == ".gz":
+                with gzip.open(file_path, "rt", encoding="utf-8") as f:
+                    data = json.load(f)
+            else:
+                with open(file_path, 'r', encoding='utf-8') as f:
+                    data = json.load(f)
+            # Handle different JSON structures
+            if isinstance(data, list):
+                records = data
+            elif isinstance(data, dict):
+                # Try to find array in common keys
+                for key in ['data', 'results', 'items', 'records', 'values']:
+                    if key in data and isinstance(data[key], list):
+                        records = data[key]
+                        break
+                else:
+                    # Single object
+                    records = [data]
+            else:
+                raise ValueError(f"JSON file must contain a list or dict, got {type(data)}")
+            # Apply offset and max_records
+            if offset > 0:
+                records = records[offset:]
+            if max_records:
+                records = records[:max_records]
+            # Yield in batches
+            for i in range(0, len(records), batch_size):
+                yield records[i:i + batch_size]
+        except Exception as e:
+            raise RuntimeError(f"Error reading JSON file {file_path}: {e}") from e
+    async def _extract_jsonl(
+        self,
+        file_path: Path,
+        batch_size: int,
+        max_records: Optional[int],
+        offset: int,
+    ) -> AsyncIterator[List[Dict[str, Any]]]:
+        """Extract data from newline-delimited JSON file."""
+        try:
+            current_batch = []
+            total_read = 0
+            skipped = 0
+            # Handle gzip compressed JSONL
+            if file_path.suffix == '.gz':
+                import gzip
+                file_handle = gzip.open(file_path, 'rt', encoding='utf-8')
+            else:
+                file_handle = open(file_path, 'r', encoding='utf-8')
+            with file_handle as f:
+                for line in f:
+                    # Skip lines until offset
+                    if skipped < offset:
+                        skipped += 1
+                        continue
+                    if max_records and total_read >= max_records:
+                        break
+                    line = line.strip()
+                    if not line:
+                        continue
+                    try:
+                        record = json.loads(line)
+                        current_batch.append(record)
+                        total_read += 1
+                        if len(current_batch) >= batch_size:
+                            yield current_batch
+                            current_batch = []
+                    except json.JSONDecodeError as e:
+                        logger.warning(f"Skipping invalid JSON line in {file_path}: {e}")
+                        continue
+                # Yield remaining records
+                if current_batch:
+                    yield current_batch
+        except Exception as e:
+            raise RuntimeError(f"Error reading JSONL file {file_path}: {e}") from e
+    async def _extract_parquet(
+        self,
+        file_path: Path,
+        batch_size: int,
+        max_records: Optional[int],
+        offset: int,
+    ) -> AsyncIterator[List[Dict[str, Any]]]:
+        """Extract data from Parquet file."""
+        try:
+            # Read parquet file
+            df = pd.read_parquet(file_path)
+            # Apply offset
+            if offset > 0:
+                df = df.iloc[offset:]
+            # Apply max_records
+            if max_records:
+                df = df.head(max_records)
+            # Yield in batches
+            for i in range(0, len(df), batch_size):
+                chunk = df.iloc[i:i + batch_size]
+                records = chunk.to_dict('records')
+                records = [self._convert_pandas_types(record) for record in records]
+                yield records
+        except Exception as e:
+            raise RuntimeError(f"Error reading Parquet file {file_path}: {e}") from e
+    async def _extract_excel(
+        self,
+        file_path: Path,
+        batch_size: int,
+        max_records: Optional[int],
+        offset: int,
+    ) -> AsyncIterator[List[Dict[str, Any]]]:
+        """Extract data from Excel file."""
+        try:
+            # Read Excel file
+            df = pd.read_excel(file_path)
+            # Apply offset
+            if offset > 0:
+                df = df.iloc[offset:]
+            # Apply max_records
+            if max_records:
+                df = df.head(max_records)
+            # Yield in batches
+            for i in range(0, len(df), batch_size):
+                chunk = df.iloc[i:i + batch_size]
+                records = chunk.to_dict('records')
+                records = [self._convert_pandas_types(record) for record in records]
+                yield records
+        except Exception as e:
+            raise RuntimeError(f"Error reading Excel file {file_path}: {e}") from e
+    async def _extract_xml(
+        self,
+        file_path: Path,
+        batch_size: int,
+        max_records: Optional[int],
+        offset: int,
+    ) -> AsyncIterator[List[Dict[str, Any]]]:
+        """Extract data from XML file."""
+        try:
+            # Use pandas to read XML (requires lxml)
+            df = pd.read_xml(file_path)
+            # Apply offset
+            if offset > 0:
+                df = df.iloc[offset:]
+            # Apply max_records
+            if max_records:
+                df = df.head(max_records)
+            # Yield in batches
+            for i in range(0, len(df), batch_size):
+                chunk = df.iloc[i:i + batch_size]
+                records = chunk.to_dict('records')
+                records = [self._convert_pandas_types(record) for record in records]
+                yield records
+        except Exception as e:
+            raise RuntimeError(f"Error reading XML file {file_path}: {e}") from e
+    def _detect_format(self, file_path: str) -> str:
+        """Detect file format from extension."""
+        path = Path(file_path)
+        suffix = path.suffix.lower()
+        if suffix in SUPPORTED_FORMATS:
+            return SUPPORTED_FORMATS[suffix]
+        # Check for compressed files
+        if suffix == '.gz':
+            # Remove .gz and check again
+            stem_suffix = path.stem.split('.')[-1] if '.' in path.stem else ''
+            if f'.{stem_suffix}' in SUPPORTED_FORMATS:
+                return SUPPORTED_FORMATS[f'.{stem_suffix}']
+        raise ValueError(f"Could not detect file format from extension: {suffix}")
+    def _convert_pandas_types(self, record: Dict[str, Any]) -> Dict[str, Any]:
+        """Convert pandas types to native Python types."""
+        converted = {}
+        for key, value in record.items():
+            if pd.isna(value):
+                converted[key] = None
+            elif isinstance(value, (pd.Timestamp, pd.DatetimeTZDtype)):
+                converted[key] = value.isoformat()
+            elif isinstance(value, pd.Timedelta):
+                converted[key] = str(value)
+            else:
+                converted[key] = value
+        return converted

pycharter 0.0.22__py3-none-any.whl → 0.0.24__py3-none-any.whl

pycharter 0.0.22py3-none-any.whl → 0.0.24py3-none-any.whl