PyPI - dsgrid-toolkit - Versions diffs - 0.3.3__cp313-cp313-win_amd64.whl - Mend

dsgrid-toolkit 0.3.3__cp313-cp313-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (157) hide show

build_backend.py +93 -0
dsgrid/__init__.py +22 -0
dsgrid/api/__init__.py +0 -0
dsgrid/api/api_manager.py +179 -0
dsgrid/api/app.py +419 -0
dsgrid/api/models.py +60 -0
dsgrid/api/response_models.py +116 -0
dsgrid/apps/__init__.py +0 -0
dsgrid/apps/project_viewer/app.py +216 -0
dsgrid/apps/registration_gui.py +444 -0
dsgrid/chronify.py +32 -0
dsgrid/cli/__init__.py +0 -0
dsgrid/cli/common.py +120 -0
dsgrid/cli/config.py +176 -0
dsgrid/cli/download.py +13 -0
dsgrid/cli/dsgrid.py +157 -0
dsgrid/cli/dsgrid_admin.py +92 -0
dsgrid/cli/install_notebooks.py +62 -0
dsgrid/cli/query.py +729 -0
dsgrid/cli/registry.py +1862 -0
dsgrid/cloud/__init__.py +0 -0
dsgrid/cloud/cloud_storage_interface.py +140 -0
dsgrid/cloud/factory.py +31 -0
dsgrid/cloud/fake_storage_interface.py +37 -0
dsgrid/cloud/s3_storage_interface.py +156 -0
dsgrid/common.py +36 -0
dsgrid/config/__init__.py +0 -0
dsgrid/config/annual_time_dimension_config.py +194 -0
dsgrid/config/common.py +142 -0
dsgrid/config/config_base.py +148 -0
dsgrid/config/dataset_config.py +907 -0
dsgrid/config/dataset_schema_handler_factory.py +46 -0
dsgrid/config/date_time_dimension_config.py +136 -0
dsgrid/config/dimension_config.py +54 -0
dsgrid/config/dimension_config_factory.py +65 -0
dsgrid/config/dimension_mapping_base.py +350 -0
dsgrid/config/dimension_mappings_config.py +48 -0
dsgrid/config/dimensions.py +1025 -0
dsgrid/config/dimensions_config.py +71 -0
dsgrid/config/file_schema.py +190 -0
dsgrid/config/index_time_dimension_config.py +80 -0
dsgrid/config/input_dataset_requirements.py +31 -0
dsgrid/config/mapping_tables.py +209 -0
dsgrid/config/noop_time_dimension_config.py +42 -0
dsgrid/config/project_config.py +1462 -0
dsgrid/config/registration_models.py +188 -0
dsgrid/config/representative_period_time_dimension_config.py +194 -0
dsgrid/config/simple_models.py +49 -0
dsgrid/config/supplemental_dimension.py +29 -0
dsgrid/config/time_dimension_base_config.py +192 -0
dsgrid/data_models.py +155 -0
dsgrid/dataset/__init__.py +0 -0
dsgrid/dataset/dataset.py +123 -0
dsgrid/dataset/dataset_expression_handler.py +86 -0
dsgrid/dataset/dataset_mapping_manager.py +121 -0
dsgrid/dataset/dataset_schema_handler_base.py +945 -0
dsgrid/dataset/dataset_schema_handler_one_table.py +209 -0
dsgrid/dataset/dataset_schema_handler_two_table.py +322 -0
dsgrid/dataset/growth_rates.py +162 -0
dsgrid/dataset/models.py +51 -0
dsgrid/dataset/table_format_handler_base.py +257 -0
dsgrid/dataset/table_format_handler_factory.py +17 -0
dsgrid/dataset/unpivoted_table.py +121 -0
dsgrid/dimension/__init__.py +0 -0
dsgrid/dimension/base_models.py +230 -0
dsgrid/dimension/dimension_filters.py +308 -0
dsgrid/dimension/standard.py +252 -0
dsgrid/dimension/time.py +352 -0
dsgrid/dimension/time_utils.py +103 -0
dsgrid/dsgrid_rc.py +88 -0
dsgrid/exceptions.py +105 -0
dsgrid/filesystem/__init__.py +0 -0
dsgrid/filesystem/cloud_filesystem.py +32 -0
dsgrid/filesystem/factory.py +32 -0
dsgrid/filesystem/filesystem_interface.py +136 -0
dsgrid/filesystem/local_filesystem.py +74 -0
dsgrid/filesystem/s3_filesystem.py +118 -0
dsgrid/loggers.py +132 -0
dsgrid/minimal_patterns.cp313-win_amd64.pyd +0 -0
dsgrid/notebooks/connect_to_dsgrid_registry.ipynb +949 -0
dsgrid/notebooks/registration.ipynb +48 -0
dsgrid/notebooks/start_notebook.sh +11 -0
dsgrid/project.py +451 -0
dsgrid/query/__init__.py +0 -0
dsgrid/query/dataset_mapping_plan.py +142 -0
dsgrid/query/derived_dataset.py +388 -0
dsgrid/query/models.py +728 -0
dsgrid/query/query_context.py +287 -0
dsgrid/query/query_submitter.py +994 -0
dsgrid/query/report_factory.py +19 -0
dsgrid/query/report_peak_load.py +70 -0
dsgrid/query/reports_base.py +20 -0
dsgrid/registry/__init__.py +0 -0
dsgrid/registry/bulk_register.py +165 -0
dsgrid/registry/common.py +287 -0
dsgrid/registry/config_update_checker_base.py +63 -0
dsgrid/registry/data_store_factory.py +34 -0
dsgrid/registry/data_store_interface.py +74 -0
dsgrid/registry/dataset_config_generator.py +158 -0
dsgrid/registry/dataset_registry_manager.py +950 -0
dsgrid/registry/dataset_update_checker.py +16 -0
dsgrid/registry/dimension_mapping_registry_manager.py +575 -0
dsgrid/registry/dimension_mapping_update_checker.py +16 -0
dsgrid/registry/dimension_registry_manager.py +413 -0
dsgrid/registry/dimension_update_checker.py +16 -0
dsgrid/registry/duckdb_data_store.py +207 -0
dsgrid/registry/filesystem_data_store.py +150 -0
dsgrid/registry/filter_registry_manager.py +123 -0
dsgrid/registry/project_config_generator.py +57 -0
dsgrid/registry/project_registry_manager.py +1623 -0
dsgrid/registry/project_update_checker.py +48 -0
dsgrid/registry/registration_context.py +223 -0
dsgrid/registry/registry_auto_updater.py +316 -0
dsgrid/registry/registry_database.py +667 -0
dsgrid/registry/registry_interface.py +446 -0
dsgrid/registry/registry_manager.py +558 -0
dsgrid/registry/registry_manager_base.py +367 -0
dsgrid/registry/versioning.py +92 -0
dsgrid/rust_ext/__init__.py +14 -0
dsgrid/rust_ext/find_minimal_patterns.py +129 -0
dsgrid/spark/__init__.py +0 -0
dsgrid/spark/functions.py +589 -0
dsgrid/spark/types.py +110 -0
dsgrid/tests/__init__.py +0 -0
dsgrid/tests/common.py +140 -0
dsgrid/tests/make_us_data_registry.py +265 -0
dsgrid/tests/register_derived_datasets.py +103 -0
dsgrid/tests/utils.py +25 -0
dsgrid/time/__init__.py +0 -0
dsgrid/time/time_conversions.py +80 -0
dsgrid/time/types.py +67 -0
dsgrid/units/__init__.py +0 -0
dsgrid/units/constants.py +113 -0
dsgrid/units/convert.py +71 -0
dsgrid/units/energy.py +145 -0
dsgrid/units/power.py +87 -0
dsgrid/utils/__init__.py +0 -0
dsgrid/utils/dataset.py +830 -0
dsgrid/utils/files.py +179 -0
dsgrid/utils/filters.py +125 -0
dsgrid/utils/id_remappings.py +100 -0
dsgrid/utils/py_expression_eval/LICENSE +19 -0
dsgrid/utils/py_expression_eval/README.md +8 -0
dsgrid/utils/py_expression_eval/__init__.py +847 -0
dsgrid/utils/py_expression_eval/tests.py +283 -0
dsgrid/utils/run_command.py +70 -0
dsgrid/utils/scratch_dir_context.py +65 -0
dsgrid/utils/spark.py +918 -0
dsgrid/utils/spark_partition.py +98 -0
dsgrid/utils/timing.py +239 -0
dsgrid/utils/utilities.py +221 -0
dsgrid/utils/versioning.py +36 -0
dsgrid_toolkit-0.3.3.dist-info/METADATA +193 -0
dsgrid_toolkit-0.3.3.dist-info/RECORD +157 -0
dsgrid_toolkit-0.3.3.dist-info/WHEEL +4 -0
dsgrid_toolkit-0.3.3.dist-info/entry_points.txt +4 -0
dsgrid_toolkit-0.3.3.dist-info/licenses/LICENSE +29 -0

dsgrid/registry/filesystem_data_store.py ADDED Viewed

@@ -0,0 +1,150 @@
+import logging
+from pathlib import Path
+from typing import Self
+from dsgrid.registry.data_store_interface import DataStoreInterface
+from dsgrid.spark.functions import coalesce
+from dsgrid.spark.types import DataFrame
+from dsgrid.utils.files import delete_if_exists
+from dsgrid.utils.spark import read_dataframe, write_dataframe, write_dataframe_and_auto_partition
+TABLE_FILENAME = "table.parquet"
+LOOKUP_TABLE_FILENAME = "lookup_table.parquet"
+MISSING_ASSOCIATIONS_TABLE_FILENAME = "missing_associations_table.parquet"
+# We used to write these filenames. Keep support for old registries, for now.
+ALT_TABLE_FILENAME = "load_data.parquet"
+ALT_LOOKUP_TABLE_FILENAME = "load_data_lookup.parquet"
+logger = logging.getLogger(__name__)
+class FilesystemDataStore(DataStoreInterface):
+    """Data store that stores tables in Parquet files on the local or remote filesystem."""
+    @classmethod
+    def create(cls, base_path: Path) -> Self:
+        base_path.mkdir(exist_ok=True)
+        return cls(base_path)
+    @classmethod
+    def load(cls, base_path: Path) -> Self:
+        if not base_path.exists():
+            msg = f"Base path {base_path} does not exist. Cannot load FilesystemDataStore."
+            raise FileNotFoundError(msg)
+        return cls(base_path)
+    def read_table(self, dataset_id: str, version: str) -> DataFrame:
+        filename = self._table_filename(dataset_id, version)
+        if not filename.exists():
+            filename = self._alt_table_filename(dataset_id, version)
+        if not filename.exists():
+            msg = f"Table does not exist for dataset {dataset_id}, version {version} at {filename.parent}."
+            raise FileNotFoundError(msg)
+        return read_dataframe(filename)
+    def replace_table(self, df: DataFrame, dataset_id: str, version: str) -> None:
+        filename = self._get_existing_table_filename(dataset_id, version)
+        if filename is None:
+            self.write_table(df, dataset_id, version)
+            return
+        self._replace_table(df, filename)
+    def read_lookup_table(self, dataset_id: str, version: str) -> DataFrame:
+        filename = self._get_existing_lookup_table_filename(dataset_id, version)
+        if filename is None:
+            msg = f"Table does not exist for dataset {dataset_id}, version {version}."
+            raise FileNotFoundError(msg)
+        return read_dataframe(filename)
+    def replace_lookup_table(self, df: DataFrame, dataset_id: str, version: str) -> None:
+        filename = self._get_existing_lookup_table_filename(dataset_id, version)
+        if filename is None:
+            self.write_lookup_table(df, dataset_id, version)
+            return
+        self._replace_table(df, filename)
+    def read_missing_associations_tables(
+        self, dataset_id: str, version: str
+    ) -> dict[str, DataFrame]:
+        assoc_dir = self._missing_associations_dir(dataset_id, version)
+        if not assoc_dir.exists():
+            return {}
+        return {x.stem: read_dataframe(x) for x in assoc_dir.iterdir()}
+    def write_table(
+        self, df: DataFrame, dataset_id: str, version: str, overwrite: bool = False
+    ) -> None:
+        filename = self._table_filename(dataset_id, version)
+        filename.parent.mkdir(parents=True, exist_ok=True)
+        write_dataframe_and_auto_partition(df, filename)
+    def write_lookup_table(
+        self, df: DataFrame, dataset_id: str, version: str, overwrite: bool = False
+    ) -> None:
+        filename = self._lookup_table_filename(dataset_id, version)
+        filename.parent.mkdir(parents=True, exist_ok=True)
+        write_dataframe(coalesce(df, 1), filename, overwrite=overwrite)
+    def write_missing_associations_tables(
+        self, dfs: dict[str, DataFrame], dataset_id: str, version: str, overwrite: bool = False
+    ) -> None:
+        for name, df in dfs.items():
+            filename = self._missing_associations_table_filename(name, dataset_id, version)
+            filename.parent.mkdir(parents=True, exist_ok=True)
+            write_dataframe_and_auto_partition(df, filename)
+    def remove_tables(self, dataset_id: str, version: str) -> None:
+        delete_if_exists(self._base_dir(dataset_id, version))
+    @property
+    def _data_dir(self) -> Path:
+        return self.base_path / "data"
+    def _base_dir(self, dataset_id: str, version: str) -> Path:
+        return self._data_dir / dataset_id / version
+    def _lookup_table_filename(self, dataset_id: str, version: str) -> Path:
+        return self._data_dir / dataset_id / version / LOOKUP_TABLE_FILENAME
+    def _missing_associations_dir(self, dataset_id: str, version: str) -> Path:
+        return self._data_dir / dataset_id / version / "missing_associations"
+    def _missing_associations_table_filename(
+        self, name: str, dataset_id: str, version: str
+    ) -> Path:
+        return self._missing_associations_dir(dataset_id, version) / f"{name}.parquet"
+    def _table_filename(self, dataset_id: str, version: str) -> Path:
+        return self._data_dir / dataset_id / version / TABLE_FILENAME
+    def _alt_lookup_table_filename(self, dataset_id: str, version: str) -> Path:
+        return self._data_dir / dataset_id / version / ALT_LOOKUP_TABLE_FILENAME
+    def _alt_table_filename(self, dataset_id: str, version: str) -> Path:
+        return self._data_dir / dataset_id / version / ALT_TABLE_FILENAME
+    def _get_existing_lookup_table_filename(self, dataset_id: str, version: str) -> Path | None:
+        filename = self._lookup_table_filename(dataset_id, version)
+        if filename.exists():
+            return filename
+        alt_filename = self._alt_lookup_table_filename(dataset_id, version)
+        if alt_filename.exists():
+            return alt_filename
+        return None
+    def _get_existing_table_filename(self, dataset_id: str, version: str) -> Path | None:
+        filename = self._table_filename(dataset_id, version)
+        if filename.exists():
+            return filename
+        alt_filename = self._alt_table_filename(dataset_id, version)
+        if alt_filename.exists():
+            return alt_filename
+        return None
+    @staticmethod
+    def _replace_table(df: DataFrame, filename: Path) -> None:
+        tmp_name = filename.parent / f"{filename.stem}_tmp.parquet"
+        write_dataframe(df, tmp_name)
+        delete_if_exists(filename)
+        tmp_name.rename(filename)

dsgrid/registry/filter_registry_manager.py ADDED Viewed

@@ -0,0 +1,123 @@
+import logging
+from sqlalchemy import Connection
+from dsgrid.config.simple_models import RegistrySimpleModel
+from dsgrid.config.dataset_schema_handler_factory import make_dataset_schema_handler
+from dsgrid.spark.functions import is_dataframe_empty
+from dsgrid.utils.timing import track_timing, timer_stats_collector
+from .registry_manager import RegistryManager
+logger = logging.getLogger(__name__)
+class FilterRegistryManager(RegistryManager):
+    """Specialized RegistryManager that performs filtering operations."""
+    @track_timing(timer_stats_collector)
+    def filter(self, simple_model: RegistrySimpleModel, conn: Connection | None = None):
+        """Filter the registry as described by simple_model.
+        Parameters
+        ----------
+        simple_model : RegistrySimpleModel
+            Filter all configs and data according to this model.
+        """
+        if conn is None:
+            with self.project_manager.db.engine.begin() as conn:
+                self._filter(conn, simple_model)
+        else:
+            self._filter(conn, simple_model)
+    def _filter(self, conn: Connection, simple_model: RegistrySimpleModel):
+        project_ids_to_keep = {x.project_id for x in simple_model.projects}
+        to_remove = [
+            x for x in self._project_mgr.list_ids(conn=conn) if x not in project_ids_to_keep
+        ]
+        for project_id in to_remove:
+            self._project_mgr.remove(project_id, conn=conn)
+        dataset_ids_to_keep = {x.dataset_id for x in simple_model.datasets}
+        dataset_ids_to_remove = set(self._dataset_mgr.list_ids(conn=conn)) - dataset_ids_to_keep
+        for dataset_id in dataset_ids_to_remove:
+            self._dataset_mgr.remove(dataset_id, conn=conn)
+        modified_dims = set()
+        modified_dim_records = {}
+        def handle_dimension(simple_dim, dim):
+            records = dim.get_records_dataframe()
+            df = records.filter(records.id.isin(simple_dim.record_ids))
+            filtered_records = [x.asDict() for x in df.collect()]
+            modified_dims.add(dim.model.dimension_id)
+            modified_dim_records[dim.model.dimension_id] = {
+                x.id for x in df.select("id").distinct().collect()
+            }
+            return filtered_records
+        logger.info("Filter project dimensions")
+        for project in simple_model.projects:
+            changed_project = False
+            project_config = self._project_mgr.get_by_id(project.project_id, conn=conn)
+            indices_to_remove = []
+            for i, dataset in enumerate(project_config.model.datasets):
+                if dataset.dataset_id in dataset_ids_to_remove:
+                    indices_to_remove.append(i)
+            for index in reversed(indices_to_remove):
+                project_config.model.datasets.pop(index)
+                changed_project = True
+            for simple_dim in project.dimensions.base_dimensions:
+                for dim in project_config.list_base_dimensions(
+                    dimension_type=simple_dim.dimension_type
+                ):
+                    dim.model.records = handle_dimension(simple_dim, dim)
+                    self.dimension_manager.db.replace(conn, dim.model)
+            for simple_dim in project.dimensions.supplemental_dimensions:
+                for dim in project_config.list_supplemental_dimensions(simple_dim.dimension_type):
+                    if dim.model.name == simple_dim.dimension_name:
+                        dim.model.records = handle_dimension(simple_dim, dim)
+                        self.dimension_manager.db.replace(conn, dim.model)
+            if changed_project:
+                self.project_manager.db.replace(conn, project_config.model)
+        logger.info("Filter dataset dimensions")
+        for dataset in simple_model.datasets:
+            logger.info("Filter dataset %s", dataset.dataset_id)
+            dataset_config = self._dataset_mgr.get_by_id(dataset.dataset_id, conn=conn)
+            for simple_dim in dataset.dimensions:
+                dim = dataset_config.get_dimension(simple_dim.dimension_type)
+                dim.model.records = handle_dimension(simple_dim, dim)
+                self.dimension_manager.db.replace(conn, dim.model)
+            handler = make_dataset_schema_handler(
+                conn,
+                dataset_config,
+                self._dimension_mgr,
+                self._dimension_mapping_mgr,
+                store=self._data_store,
+            )
+            handler.filter_data(dataset.dimensions, self._data_store)
+        logger.info("Filter dimension mapping records")
+        for mapping in self._dimension_mapping_mgr.iter_configs():
+            records = None
+            changed = False
+            from_id = mapping.model.from_dimension.dimension_id
+            to_id = mapping.model.to_dimension.dimension_id
+            if from_id in modified_dims or to_id in modified_dims:
+                records = mapping.get_records_dataframe()
+                if from_id in modified_dims:
+                    records = records.filter(records.from_id.isin(modified_dim_records[from_id]))
+                    changed = True
+                if to_id in modified_dims:
+                    records = records.filter(records.to_id.isin(modified_dim_records[to_id]))
+                    changed = True
+            # TODO: probably need to remove a dimension mapping if it is empty
+            if records is not None and changed and not is_dataframe_empty(records):
+                mapping.model.records = [x.asDict() for x in records.collect()]
+                self.dimension_mapping_manager.db.replace(conn, mapping.model)
+                logger.info(
+                    "Filtered dimension mapping records from ID %s", mapping.model.mapping_id
+                )

dsgrid/registry/project_config_generator.py ADDED Viewed

@@ -0,0 +1,57 @@
+import logging
+from pathlib import Path
+from typing import Iterable
+from chronify.utils.path_utils import check_overwrite
+from dsgrid.dimension.time import TimeDimensionType
+from dsgrid.exceptions import DSGInvalidParameter
+from dsgrid.utils.files import dump_data
+from dsgrid.config.project_config import make_unvalidated_project_config
+logger = logging.getLogger(__name__)
+def generate_project_config(
+    project_id: str,
+    dataset_ids: Iterable[str],
+    metric_types: Iterable[str],
+    name: str | None = None,
+    description: str | None = None,
+    time_type: TimeDimensionType = TimeDimensionType.DATETIME,
+    output_directory: Path | None = None,
+    overwrite: bool = False,
+):
+    """Generate project config files and filesystem skeleton."""
+    if not metric_types:
+        msg = "At least one metric type must be passed"
+        raise DSGInvalidParameter(msg)
+    output_dir = (output_directory or Path()) / project_id
+    check_overwrite(output_dir, overwrite)
+    output_dir.mkdir()
+    project_dir = output_dir / "project"
+    project_dir.mkdir()
+    project_file = project_dir / "project.json5"
+    datasets_dir = output_dir / "datasets"
+    datasets_dir.mkdir()
+    (datasets_dir / "historical").mkdir()
+    (datasets_dir / "modeled").mkdir()
+    dimensions_dir = project_dir / "dimensions"
+    dimensions_dir.mkdir()
+    (dimensions_dir / "subset").mkdir()
+    (dimensions_dir / "supplemental").mkdir()
+    (project_dir / "dimension_mappings").mkdir()
+    config = make_unvalidated_project_config(
+        project_id,
+        dataset_ids,
+        metric_types,
+        name=name,
+        description=description,
+        time_type=time_type,
+    )
+    dump_data(config, project_file, indent=2)
+    logger.info(
+        "Created project directory structure at %s with config file %s", output_dir, project_file
+    )