PyPI - data-designer - Versions diffs - 0.3.4__py3-none-any.whl → 0.3.6__py3-none-any.whl - Mend

data-designer 0.3.4py3-none-any.whl → 0.3.6py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (173) hide show

data_designer/__init__.py +2 -0
data_designer/_version.py +2 -2
data_designer/cli/__init__.py +2 -0
data_designer/cli/commands/download.py +2 -0
data_designer/cli/commands/list.py +2 -0
data_designer/cli/commands/models.py +2 -0
data_designer/cli/commands/providers.py +2 -0
data_designer/cli/commands/reset.py +2 -0
data_designer/cli/controllers/__init__.py +2 -0
data_designer/cli/controllers/download_controller.py +2 -0
data_designer/cli/controllers/model_controller.py +6 -1
data_designer/cli/controllers/provider_controller.py +6 -1
data_designer/cli/forms/__init__.py +2 -0
data_designer/cli/forms/builder.py +2 -0
data_designer/cli/forms/field.py +2 -0
data_designer/cli/forms/form.py +2 -0
data_designer/cli/forms/model_builder.py +2 -0
data_designer/cli/forms/provider_builder.py +2 -0
data_designer/cli/main.py +2 -0
data_designer/cli/repositories/__init__.py +2 -0
data_designer/cli/repositories/base.py +2 -0
data_designer/cli/repositories/model_repository.py +2 -0
data_designer/cli/repositories/persona_repository.py +2 -0
data_designer/cli/repositories/provider_repository.py +2 -0
data_designer/cli/services/__init__.py +2 -0
data_designer/cli/services/download_service.py +2 -0
data_designer/cli/services/model_service.py +2 -0
data_designer/cli/services/provider_service.py +2 -0
data_designer/cli/ui.py +2 -0
data_designer/cli/utils.py +2 -0
data_designer/config/analysis/column_profilers.py +2 -0
data_designer/config/analysis/column_statistics.py +8 -5
data_designer/config/analysis/dataset_profiler.py +9 -3
data_designer/config/analysis/utils/errors.py +2 -0
data_designer/config/analysis/utils/reporting.py +7 -3
data_designer/config/column_configs.py +77 -7
data_designer/config/column_types.py +33 -36
data_designer/config/dataset_builders.py +2 -0
data_designer/config/default_model_settings.py +1 -0
data_designer/config/errors.py +2 -0
data_designer/config/exports.py +2 -0
data_designer/config/interface.py +3 -2
data_designer/config/models.py +7 -2
data_designer/config/preview_results.py +7 -3
data_designer/config/processors.py +2 -0
data_designer/config/run_config.py +2 -0
data_designer/config/sampler_constraints.py +2 -0
data_designer/config/sampler_params.py +7 -2
data_designer/config/seed.py +2 -0
data_designer/config/seed_source.py +7 -2
data_designer/config/seed_source_types.py +2 -0
data_designer/config/utils/constants.py +2 -0
data_designer/config/utils/errors.py +2 -0
data_designer/config/utils/info.py +2 -0
data_designer/config/utils/io_helpers.py +8 -3
data_designer/config/utils/misc.py +2 -2
data_designer/config/utils/numerical_helpers.py +2 -0
data_designer/config/utils/type_helpers.py +2 -0
data_designer/config/utils/visualization.py +8 -4
data_designer/config/validator_params.py +2 -0
data_designer/engine/analysis/column_profilers/base.py +9 -8
data_designer/engine/analysis/column_profilers/judge_score_profiler.py +15 -19
data_designer/engine/analysis/column_profilers/registry.py +2 -0
data_designer/engine/analysis/column_statistics.py +5 -2
data_designer/engine/analysis/dataset_profiler.py +12 -9
data_designer/engine/analysis/errors.py +2 -0
data_designer/engine/analysis/utils/column_statistics_calculations.py +7 -4
data_designer/engine/analysis/utils/judge_score_processing.py +7 -3
data_designer/engine/column_generators/generators/base.py +26 -14
data_designer/engine/column_generators/generators/embedding.py +4 -11
data_designer/engine/column_generators/generators/expression.py +7 -16
data_designer/engine/column_generators/generators/llm_completion.py +11 -37
data_designer/engine/column_generators/generators/samplers.py +8 -14
data_designer/engine/column_generators/generators/seed_dataset.py +9 -15
data_designer/engine/column_generators/generators/validation.py +8 -20
data_designer/engine/column_generators/registry.py +2 -0
data_designer/engine/column_generators/utils/errors.py +2 -0
data_designer/engine/column_generators/utils/generator_classification.py +2 -0
data_designer/engine/column_generators/utils/judge_score_factory.py +2 -0
data_designer/engine/column_generators/utils/prompt_renderer.py +4 -2
data_designer/engine/compiler.py +3 -6
data_designer/engine/configurable_task.py +12 -13
data_designer/engine/dataset_builders/artifact_storage.py +87 -8
data_designer/engine/dataset_builders/column_wise_builder.py +32 -34
data_designer/engine/dataset_builders/errors.py +2 -0
data_designer/engine/dataset_builders/multi_column_configs.py +2 -0
data_designer/engine/dataset_builders/utils/config_compiler.py +2 -0
data_designer/engine/dataset_builders/utils/dag.py +7 -2
data_designer/engine/dataset_builders/utils/dataset_batch_manager.py +9 -6
data_designer/engine/dataset_builders/utils/errors.py +2 -0
data_designer/engine/errors.py +2 -0
data_designer/engine/model_provider.py +2 -0
data_designer/engine/models/errors.py +23 -31
data_designer/engine/models/facade.py +12 -9
data_designer/engine/models/factory.py +42 -0
data_designer/engine/models/litellm_overrides.py +22 -11
data_designer/engine/models/parsers/errors.py +2 -0
data_designer/engine/models/parsers/parser.py +2 -2
data_designer/engine/models/parsers/postprocessors.py +1 -0
data_designer/engine/models/parsers/tag_parsers.py +2 -0
data_designer/engine/models/parsers/types.py +2 -0
data_designer/engine/models/recipes/base.py +2 -0
data_designer/engine/models/recipes/response_recipes.py +2 -0
data_designer/engine/models/registry.py +11 -18
data_designer/engine/models/telemetry.py +6 -2
data_designer/engine/processing/ginja/ast.py +2 -0
data_designer/engine/processing/ginja/environment.py +2 -0
data_designer/engine/processing/ginja/exceptions.py +2 -0
data_designer/engine/processing/ginja/record.py +2 -0
data_designer/engine/processing/gsonschema/exceptions.py +9 -2
data_designer/engine/processing/gsonschema/schema_transformers.py +2 -0
data_designer/engine/processing/gsonschema/types.py +2 -0
data_designer/engine/processing/gsonschema/validators.py +10 -6
data_designer/engine/processing/processors/base.py +1 -5
data_designer/engine/processing/processors/drop_columns.py +7 -10
data_designer/engine/processing/processors/registry.py +2 -0
data_designer/engine/processing/processors/schema_transform.py +7 -10
data_designer/engine/processing/utils.py +7 -3
data_designer/engine/registry/base.py +2 -0
data_designer/engine/registry/data_designer_registry.py +2 -0
data_designer/engine/registry/errors.py +2 -0
data_designer/engine/resources/managed_dataset_generator.py +6 -2
data_designer/engine/resources/managed_dataset_repository.py +8 -5
data_designer/engine/resources/managed_storage.py +2 -0
data_designer/engine/resources/resource_provider.py +8 -1
data_designer/engine/resources/seed_reader.py +7 -2
data_designer/engine/sampling_gen/column.py +2 -0
data_designer/engine/sampling_gen/constraints.py +8 -2
data_designer/engine/sampling_gen/data_sources/base.py +10 -7
data_designer/engine/sampling_gen/data_sources/errors.py +2 -0
data_designer/engine/sampling_gen/data_sources/sources.py +27 -22
data_designer/engine/sampling_gen/entities/dataset_based_person_fields.py +2 -2
data_designer/engine/sampling_gen/entities/email_address_utils.py +2 -0
data_designer/engine/sampling_gen/entities/errors.py +2 -0
data_designer/engine/sampling_gen/entities/national_id_utils.py +2 -0
data_designer/engine/sampling_gen/entities/person.py +2 -0
data_designer/engine/sampling_gen/entities/phone_number.py +8 -1
data_designer/engine/sampling_gen/errors.py +2 -0
data_designer/engine/sampling_gen/generator.py +5 -4
data_designer/engine/sampling_gen/jinja_utils.py +7 -3
data_designer/engine/sampling_gen/people_gen.py +7 -7
data_designer/engine/sampling_gen/person_constants.py +2 -0
data_designer/engine/sampling_gen/schema.py +5 -1
data_designer/engine/sampling_gen/schema_builder.py +2 -0
data_designer/engine/sampling_gen/utils.py +7 -1
data_designer/engine/secret_resolver.py +2 -0
data_designer/engine/validation.py +2 -2
data_designer/engine/validators/__init__.py +2 -0
data_designer/engine/validators/base.py +2 -0
data_designer/engine/validators/local_callable.py +7 -2
data_designer/engine/validators/python.py +7 -1
data_designer/engine/validators/remote.py +7 -1
data_designer/engine/validators/sql.py +8 -3
data_designer/errors.py +2 -0
data_designer/essentials/__init__.py +2 -0
data_designer/interface/data_designer.py +23 -17
data_designer/interface/errors.py +2 -0
data_designer/interface/results.py +5 -2
data_designer/lazy_heavy_imports.py +54 -0
data_designer/logging.py +2 -0
data_designer/plugins/__init__.py +2 -0
data_designer/plugins/errors.py +2 -0
data_designer/plugins/plugin.py +0 -1
data_designer/plugins/registry.py +2 -0
data_designer/plugins/testing/__init__.py +2 -0
data_designer/plugins/testing/stubs.py +21 -43
data_designer/plugins/testing/utils.py +2 -0
{data_designer-0.3.4.dist-info → data_designer-0.3.6.dist-info}/METADATA +12 -5
data_designer-0.3.6.dist-info/RECORD +196 -0
data_designer-0.3.4.dist-info/RECORD +0 -194
{data_designer-0.3.4.dist-info → data_designer-0.3.6.dist-info}/WHEEL +0 -0
{data_designer-0.3.4.dist-info → data_designer-0.3.6.dist-info}/entry_points.txt +0 -0
{data_designer-0.3.4.dist-info → data_designer-0.3.6.dist-info}/licenses/LICENSE +0 -0

data_designer/config/column_types.py CHANGED Viewed

@@ -1,6 +1,7 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from typing_extensions import TypeAlias
@@ -15,7 +16,7 @@ from data_designer.config.column_configs import (
     SeedDatasetColumnConfig,
     ValidationColumnConfig,
 )
-from data_designer.config.errors import InvalidColumnTypeError, InvalidConfigError
+from data_designer.config.errors import InvalidConfigError
 from data_designer.config.sampler_params import SamplerType
 from data_designer.config.utils.type_helpers import (
     SAMPLER_PARAMS,
@@ -45,22 +46,6 @@ DataDesignerColumnType = create_str_enum_from_discriminated_type_union(
     discriminator_field_name="column_type",
 )
-COLUMN_TYPE_EMOJI_MAP = {
-    "general": "⚛️",  # possible analysis column type
-    DataDesignerColumnType.EXPRESSION: "🧩",
-    DataDesignerColumnType.LLM_CODE: "💻",
-    DataDesignerColumnType.LLM_JUDGE: "⚖️",
-    DataDesignerColumnType.LLM_STRUCTURED: "🗂️",
-    DataDesignerColumnType.LLM_TEXT: "📝",
-    DataDesignerColumnType.SEED_DATASET: "🌱",
-    DataDesignerColumnType.SAMPLER: "🎲",
-    DataDesignerColumnType.VALIDATION: "🔍",
-    DataDesignerColumnType.EMBEDDING: "🧬",
-}
-COLUMN_TYPE_EMOJI_MAP.update(
-    {DataDesignerColumnType(p.name): p.emoji for p in plugin_manager.get_column_generator_plugins()}
-)
 def get_column_config_from_kwargs(name: str, column_type: DataDesignerColumnType, **kwargs) -> ColumnConfigT:
     """Create a Data Designer column config object from kwargs.
@@ -74,27 +59,20 @@ def get_column_config_from_kwargs(name: str, column_type: DataDesignerColumnType
         Data Designer column object of the appropriate type.
     """
     column_type = resolve_string_enum(column_type, DataDesignerColumnType)
-    if column_type == DataDesignerColumnType.LLM_TEXT:
-        return LLMTextColumnConfig(name=name, **kwargs)
-    if column_type == DataDesignerColumnType.LLM_CODE:
-        return LLMCodeColumnConfig(name=name, **kwargs)
-    if column_type == DataDesignerColumnType.LLM_STRUCTURED:
-        return LLMStructuredColumnConfig(name=name, **kwargs)
-    if column_type == DataDesignerColumnType.LLM_JUDGE:
-        return LLMJudgeColumnConfig(name=name, **kwargs)
-    if column_type == DataDesignerColumnType.VALIDATION:
-        return ValidationColumnConfig(name=name, **kwargs)
-    if column_type == DataDesignerColumnType.EXPRESSION:
-        return ExpressionColumnConfig(name=name, **kwargs)
+    config_cls = get_column_config_cls_from_type(column_type)
     if column_type == DataDesignerColumnType.SAMPLER:
-        return SamplerColumnConfig(name=name, **_resolve_sampler_kwargs(name, kwargs))
-    if column_type == DataDesignerColumnType.SEED_DATASET:
-        return SeedDatasetColumnConfig(name=name, **kwargs)
-    if column_type == DataDesignerColumnType.EMBEDDING:
-        return EmbeddingColumnConfig(name=name, **kwargs)
+        kwargs = _resolve_sampler_kwargs(name, kwargs)
+    return config_cls(name=name, **kwargs)
+def get_column_config_cls_from_type(column_type: DataDesignerColumnType) -> type[ColumnConfigT]:
+    """Get the column config class for a column type."""
+    column_type = resolve_string_enum(column_type, DataDesignerColumnType)
+    if column_type in _COLUMN_TYPE_CONFIG_CLS_MAP:
+        return _COLUMN_TYPE_CONFIG_CLS_MAP[column_type]
     if plugin := plugin_manager.get_column_generator_plugin_if_exists(column_type.value):
-        return plugin.config_cls(name=name, **kwargs)
-    raise InvalidColumnTypeError(f"🛑 {column_type} is not a valid column type.")  # pragma: no cover
+        return plugin.config_cls
+    raise InvalidConfigError(f"🛑 {column_type} is not a valid column type.")
 def get_column_display_order() -> list[DataDesignerColumnType]:
@@ -114,6 +92,12 @@ def get_column_display_order() -> list[DataDesignerColumnType]:
     return display_order
+def get_column_emoji_from_type(column_type: DataDesignerColumnType) -> str:
+    """Get the emoji for a column type."""
+    config_cls = get_column_config_cls_from_type(resolve_string_enum(column_type, DataDesignerColumnType))
+    return config_cls.get_column_emoji()
 def _resolve_sampler_kwargs(name: str, kwargs: dict) -> dict:
     if "sampler_type" not in kwargs:
         raise InvalidConfigError(f"🛑 `sampler_type` is required for sampler column '{name}'.")
@@ -142,3 +126,16 @@ def _resolve_sampler_kwargs(name: str, kwargs: dict) -> dict:
         "params": params,
         **{k: v for k, v in kwargs.items() if k not in ["sampler_type", "params"]},
     }
+_COLUMN_TYPE_CONFIG_CLS_MAP = {
+    DataDesignerColumnType.LLM_TEXT: LLMTextColumnConfig,
+    DataDesignerColumnType.LLM_CODE: LLMCodeColumnConfig,
+    DataDesignerColumnType.LLM_STRUCTURED: LLMStructuredColumnConfig,
+    DataDesignerColumnType.LLM_JUDGE: LLMJudgeColumnConfig,
+    DataDesignerColumnType.VALIDATION: ValidationColumnConfig,
+    DataDesignerColumnType.EXPRESSION: ExpressionColumnConfig,
+    DataDesignerColumnType.SAMPLER: SamplerColumnConfig,
+    DataDesignerColumnType.SEED_DATASET: SeedDatasetColumnConfig,
+    DataDesignerColumnType.EMBEDDING: EmbeddingColumnConfig,
+}

data_designer/config/dataset_builders.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from enum import Enum

data_designer/config/default_model_settings.py CHANGED Viewed

@@ -1,6 +1,7 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 import logging
 import os

data_designer/config/errors.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from data_designer.errors import DataDesignerError

data_designer/config/exports.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from data_designer.config.analysis.column_profilers import JudgeScoreProfilerConfig
 from data_designer.config.column_configs import (
     EmbeddingColumnConfig,

data_designer/config/interface.py CHANGED Viewed

@@ -6,13 +6,14 @@ from __future__ import annotations
 from abc import ABC, abstractmethod
 from typing import TYPE_CHECKING, Generic, Protocol, TypeVar
-import pandas as pd
 from data_designer.config.models import ModelConfig, ModelProvider
 from data_designer.config.utils.constants import DEFAULT_NUM_RECORDS
 from data_designer.config.utils.info import InterfaceInfo
+from data_designer.lazy_heavy_imports import pd
 if TYPE_CHECKING:
+    import pandas as pd
     from data_designer.config.analysis.dataset_profiler import DatasetProfilerResults
     from data_designer.config.config_builder import DataDesignerConfigBuilder
     from data_designer.config.preview_results import PreviewResults

data_designer/config/models.py CHANGED Viewed

@@ -1,13 +1,14 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 import logging
 from abc import ABC, abstractmethod
 from enum import Enum
 from pathlib import Path
-from typing import Annotated, Any, Generic, Literal, TypeVar
+from typing import TYPE_CHECKING, Annotated, Any, Generic, Literal, TypeVar
-import numpy as np
 from pydantic import BaseModel, Field, field_validator, model_validator
 from typing_extensions import Self, TypeAlias
@@ -20,6 +21,10 @@ from data_designer.config.utils.constants import (
     MIN_TOP_P,
 )
 from data_designer.config.utils.io_helpers import smart_load_yaml
+from data_designer.lazy_heavy_imports import np
+if TYPE_CHECKING:
+    import numpy as np
 logger = logging.getLogger(__name__)

data_designer/config/preview_results.py CHANGED Viewed

@@ -3,12 +3,16 @@
 from __future__ import annotations
-import pandas as pd
+from typing import TYPE_CHECKING
 from data_designer.config.analysis.dataset_profiler import DatasetProfilerResults
 from data_designer.config.config_builder import DataDesignerConfigBuilder
 from data_designer.config.dataset_metadata import DatasetMetadata
 from data_designer.config.utils.visualization import WithRecordSamplerMixin
+from data_designer.lazy_heavy_imports import pd
+if TYPE_CHECKING:
+    import pandas as pd
 class PreviewResults(WithRecordSamplerMixin):
@@ -16,7 +20,7 @@ class PreviewResults(WithRecordSamplerMixin):
         self,
         *,
         config_builder: DataDesignerConfigBuilder,
-        dataset_metadata: DatasetMetadata,
+        dataset_metadata: DatasetMetadata | None = None,
         dataset: pd.DataFrame | None = None,
         analysis: DatasetProfilerResults | None = None,
         processor_artifacts: dict[str, list[str] | str] | None = None,
@@ -33,5 +37,5 @@ class PreviewResults(WithRecordSamplerMixin):
         self.dataset: pd.DataFrame | None = dataset
         self.analysis: DatasetProfilerResults | None = analysis
         self.processor_artifacts: dict[str, list[str] | str] | None = processor_artifacts
-        self.dataset_metadata = dataset_metadata
+        self.dataset_metadata: DatasetMetadata | None = dataset_metadata
         self._config_builder = config_builder

data_designer/config/processors.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 import json
 from abc import ABC
 from enum import Enum

data_designer/config/run_config.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from pydantic import Field, model_validator
 from typing_extensions import Self

data_designer/config/sampler_constraints.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from abc import ABC, abstractmethod
 from enum import Enum

data_designer/config/sampler_params.py CHANGED Viewed

@@ -1,10 +1,11 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from enum import Enum
-from typing import Literal
+from typing import TYPE_CHECKING, Literal
-import pandas as pd
 from pydantic import Field, field_validator, model_validator
 from typing_extensions import Self, TypeAlias
@@ -16,6 +17,10 @@ from data_designer.config.utils.constants import (
     MAX_AGE,
     MIN_AGE,
 )
+from data_designer.lazy_heavy_imports import pd
+if TYPE_CHECKING:
+    import pandas as pd
 class SamplerType(str, Enum):

data_designer/config/seed.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from enum import Enum
 from pydantic import Field, model_validator

data_designer/config/seed_source.py CHANGED Viewed

@@ -1,10 +1,11 @@
 # SPDX-FileCopyrightText: Copyright (c) 2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from abc import ABC
-from typing import Literal
+from typing import TYPE_CHECKING, Literal
-import pandas as pd
 from pydantic import BaseModel, ConfigDict, Field, field_validator
 from pydantic.json_schema import SkipJsonSchema
 from typing_extensions import Self
@@ -14,6 +15,10 @@ from data_designer.config.utils.io_helpers import (
     validate_dataset_file_path,
     validate_path_contains_files_of_type,
 )
+from data_designer.lazy_heavy_imports import pd
+if TYPE_CHECKING:
+    import pandas as pd
 class SeedSource(BaseModel, ABC):

data_designer/config/seed_source_types.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from typing import Annotated
 from pydantic import Field

data_designer/config/utils/constants.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 import os
 from enum import Enum
 from pathlib import Path

data_designer/config/utils/errors.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from data_designer.errors import DataDesignerError

data_designer/config/utils/info.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from abc import ABC, abstractmethod
 from enum import Enum
 from typing import Literal, TypeVar

data_designer/config/utils/io_helpers.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 import json
 import logging
 import os
@@ -8,13 +10,16 @@ from datetime import date, datetime, timedelta
 from decimal import Decimal
 from numbers import Number
 from pathlib import Path
-from typing import Any
+from typing import TYPE_CHECKING, Any
-import numpy as np
-import pandas as pd
 import yaml
 from data_designer.config.errors import InvalidFileFormatError, InvalidFilePathError
+from data_designer.lazy_heavy_imports import np, pd
+if TYPE_CHECKING:
+    import numpy as np
+    import pandas as pd
 logger = logging.getLogger(__name__)

data_designer/config/utils/misc.py CHANGED Viewed

@@ -48,8 +48,8 @@ def can_run_data_designer_locally() -> bool:
     return True
-def get_prompt_template_keywords(template: str) -> set[str]:
-    """Extract all keywords from a valid string template."""
+def extract_keywords_from_jinja2_template(template: str) -> set[str]:
+    """Extract all keywords from a valid Jinja2 template."""
     with template_error_handler():
         ast = ImmutableSandboxedEnvironment().parse(template)
         keywords = set(meta.find_undeclared_variables(ast))

data_designer/config/utils/numerical_helpers.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 import numbers
 from numbers import Number
 from typing import Any

data_designer/config/utils/type_helpers.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 import inspect
 from enum import Enum
 from typing import Any, Literal, get_args, get_origin

data_designer/config/utils/visualization.py CHANGED Viewed

@@ -10,8 +10,6 @@ from enum import Enum
 from functools import cached_property
 from typing import TYPE_CHECKING, Any
-import numpy as np
-import pandas as pd
 from rich.console import Console, Group
 from rich.padding import Padding
 from rich.panel import Panel
@@ -28,8 +26,12 @@ from data_designer.config.sampler_params import SamplerType
 from data_designer.config.utils.code_lang import code_lang_to_syntax_lexer
 from data_designer.config.utils.constants import NVIDIA_API_KEY_ENV_VAR_NAME, OPENAI_API_KEY_ENV_VAR_NAME
 from data_designer.config.utils.errors import DatasetSampleDisplayError
+from data_designer.lazy_heavy_imports import np, pd
 if TYPE_CHECKING:
+    import numpy as np
+    import pandas as pd
     from data_designer.config.config_builder import DataDesignerConfigBuilder
     from data_designer.config.dataset_metadata import DatasetMetadata
@@ -58,7 +60,7 @@ class ColorPalette(str, Enum):
 class WithRecordSamplerMixin:
     _display_cycle_index: int = 0
-    dataset_metadata: DatasetMetadata
+    dataset_metadata: DatasetMetadata | None
     @cached_property
     def _record_sampler_dataset(self) -> pd.DataFrame:
@@ -122,7 +124,9 @@ class WithRecordSamplerMixin:
                     else:
                         processor_data_to_display[processor] = self.processor_artifacts[processor]
-        seed_column_names = None if hide_seed_columns else self.dataset_metadata.seed_column_names
+        seed_column_names = (
+            None if hide_seed_columns or self.dataset_metadata is None else self.dataset_metadata.seed_column_names
+        )
         display_sample_record(
             record=record,

data_designer/config/validator_params.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from enum import Enum
 from typing import Any

data_designer/engine/analysis/column_profilers/base.py CHANGED Viewed

@@ -5,15 +5,19 @@ from __future__ import annotations
 import logging
 from abc import ABC, abstractmethod
+from typing import TYPE_CHECKING
-import pandas as pd
 from pydantic import BaseModel, model_validator
 from typing_extensions import Self
 from data_designer.config.base import ConfigBase
 from data_designer.config.column_configs import SingleColumnConfig
 from data_designer.config.column_types import DataDesignerColumnType
-from data_designer.engine.configurable_task import ConfigurableTask, ConfigurableTaskMetadata, TaskConfigT
+from data_designer.engine.configurable_task import ConfigurableTask, TaskConfigT
+from data_designer.lazy_heavy_imports import pd
+if TYPE_CHECKING:
+    import pandas as pd
 logger = logging.getLogger(__name__)
@@ -32,17 +36,14 @@ class ColumnConfigWithDataFrame(ConfigBase):
         return (self.column_config, self.df)
-class ColumnProfilerMetadata(ConfigurableTaskMetadata):
-    applicable_column_types: list[DataDesignerColumnType]
 class ColumnProfiler(ConfigurableTask[TaskConfigT], ABC):
     @staticmethod
     @abstractmethod
-    def metadata() -> ColumnProfilerMetadata: ...
+    def get_applicable_column_types() -> list[DataDesignerColumnType]:
+        """Returns a list of column types that this profiler can be applied to during dataset profiling."""
     @abstractmethod
     def profile(self, column_config_with_df: ColumnConfigWithDataFrame) -> BaseModel: ...
     def _initialize(self) -> None:
-        logger.info(f"💫 Initializing column profiler: '{self.metadata().name}'")
+        logger.info(f"💫 Initializing column profiler: '{self.name}'")

data_designer/engine/analysis/column_profilers/judge_score_profiler.py CHANGED Viewed

@@ -5,44 +5,41 @@ from __future__ import annotations
 import logging
 import random
+from typing import TYPE_CHECKING
 from data_designer.config.analysis.column_profilers import (
     JudgeScoreProfilerConfig,
     JudgeScoreProfilerResults,
-    JudgeScoreSample,
     JudgeScoreSummary,
 )
 from data_designer.config.analysis.column_statistics import (
-    CategoricalDistribution,
-    CategoricalHistogramData,
     ColumnDistributionType,
     MissingValue,
-    NumericalDistribution,
-)
-from data_designer.config.column_types import COLUMN_TYPE_EMOJI_MAP, DataDesignerColumnType
-from data_designer.engine.analysis.column_profilers.base import (
-    ColumnConfigWithDataFrame,
-    ColumnProfiler,
-    ColumnProfilerMetadata,
 )
+from data_designer.config.column_types import DataDesignerColumnType
+from data_designer.engine.analysis.column_profilers.base import ColumnConfigWithDataFrame, ColumnProfiler
 from data_designer.engine.analysis.utils.judge_score_processing import (
     extract_judge_score_distributions,
     sample_scores_and_reasoning,
 )
-from data_designer.engine.models.facade import ModelFacade
 from data_designer.engine.models.recipes.response_recipes import TextResponseRecipe
+if TYPE_CHECKING:
+    from data_designer.config.analysis.column_profilers import JudgeScoreSample
+    from data_designer.config.analysis.column_statistics import (
+        CategoricalDistribution,
+        CategoricalHistogramData,
+        NumericalDistribution,
+    )
+    from data_designer.engine.models.facade import ModelFacade
 logger = logging.getLogger(__name__)
 class JudgeScoreProfiler(ColumnProfiler[JudgeScoreProfilerConfig]):
     @staticmethod
-    def metadata() -> ColumnProfilerMetadata:
-        return ColumnProfilerMetadata(
-            name="judge_score_profiler",
-            description="Analyzes LLM-as-judge score distributions in a Data Designer dataset.",
-            applicable_column_types=[DataDesignerColumnType.LLM_JUDGE],
-        )
+    def get_applicable_column_types() -> list[DataDesignerColumnType]:
+        return [DataDesignerColumnType.LLM_JUDGE]
     def get_model(self, model_alias: str) -> ModelFacade:
         return self.resource_provider.model_registry.get_model(model_alias=model_alias)
@@ -51,8 +48,7 @@ class JudgeScoreProfiler(ColumnProfiler[JudgeScoreProfilerConfig]):
         column_config, df = column_config_with_df.as_tuple()
         logger.info(
-            f"{COLUMN_TYPE_EMOJI_MAP[column_config.column_type]} Analyzing LLM-as-judge "
-            f"scores for column: '{column_config.name}'"
+            f"{column_config.get_column_emoji()} Analyzing LLM-as-judge scores for column: '{column_config.name}'"
         )
         score_summaries = {}

data_designer/engine/analysis/column_profilers/registry.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from data_designer.config.analysis.column_profilers import ColumnProfilerType
 from data_designer.config.base import ConfigBase
 from data_designer.engine.analysis.column_profilers.base import ColumnProfiler

data_designer/engine/analysis/column_statistics.py CHANGED Viewed

@@ -4,9 +4,8 @@
 from __future__ import annotations
 import logging
-from typing import Any, TypeAlias
+from typing import TYPE_CHECKING, Any, TypeAlias
-import pandas as pd
 from pydantic import BaseModel
 from typing_extensions import Self
@@ -25,6 +24,10 @@ from data_designer.engine.analysis.utils.column_statistics_calculations import (
     calculate_token_stats,
     calculate_validation_column_info,
 )
+from data_designer.lazy_heavy_imports import pd
+if TYPE_CHECKING:
+    import pandas as pd
 logger = logging.getLogger(__name__)

data-designer 0.3.4__py3-none-any.whl → 0.3.6__py3-none-any.whl

data-designer 0.3.4py3-none-any.whl → 0.3.6py3-none-any.whl