PyPI - data-designer - Versions diffs - 0.3.3__py3-none-any.whl → 0.3.5__py3-none-any.whl - Mend

data-designer 0.3.3py3-none-any.whl → 0.3.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (176) hide show

data_designer/__init__.py +2 -0
data_designer/_version.py +2 -2
data_designer/cli/__init__.py +2 -0
data_designer/cli/commands/download.py +2 -0
data_designer/cli/commands/list.py +2 -0
data_designer/cli/commands/models.py +2 -0
data_designer/cli/commands/providers.py +2 -0
data_designer/cli/commands/reset.py +2 -0
data_designer/cli/controllers/__init__.py +2 -0
data_designer/cli/controllers/download_controller.py +2 -0
data_designer/cli/controllers/model_controller.py +6 -1
data_designer/cli/controllers/provider_controller.py +6 -1
data_designer/cli/forms/__init__.py +2 -0
data_designer/cli/forms/builder.py +2 -0
data_designer/cli/forms/field.py +2 -0
data_designer/cli/forms/form.py +2 -0
data_designer/cli/forms/model_builder.py +2 -0
data_designer/cli/forms/provider_builder.py +2 -0
data_designer/cli/main.py +2 -0
data_designer/cli/repositories/__init__.py +2 -0
data_designer/cli/repositories/base.py +2 -0
data_designer/cli/repositories/model_repository.py +2 -0
data_designer/cli/repositories/persona_repository.py +2 -0
data_designer/cli/repositories/provider_repository.py +2 -0
data_designer/cli/services/__init__.py +2 -0
data_designer/cli/services/download_service.py +2 -0
data_designer/cli/services/model_service.py +2 -0
data_designer/cli/services/provider_service.py +2 -0
data_designer/cli/ui.py +2 -0
data_designer/cli/utils.py +2 -0
data_designer/config/analysis/column_profilers.py +2 -0
data_designer/config/analysis/column_statistics.py +8 -5
data_designer/config/analysis/dataset_profiler.py +9 -3
data_designer/config/analysis/utils/errors.py +2 -0
data_designer/config/analysis/utils/reporting.py +7 -3
data_designer/config/base.py +1 -0
data_designer/config/column_configs.py +77 -7
data_designer/config/column_types.py +33 -36
data_designer/config/dataset_builders.py +2 -0
data_designer/config/dataset_metadata.py +18 -0
data_designer/config/default_model_settings.py +1 -0
data_designer/config/errors.py +2 -0
data_designer/config/exports.py +2 -0
data_designer/config/interface.py +3 -2
data_designer/config/models.py +7 -2
data_designer/config/preview_results.py +9 -1
data_designer/config/processors.py +2 -0
data_designer/config/run_config.py +19 -5
data_designer/config/sampler_constraints.py +2 -0
data_designer/config/sampler_params.py +7 -2
data_designer/config/seed.py +2 -0
data_designer/config/seed_source.py +9 -3
data_designer/config/seed_source_types.py +2 -0
data_designer/config/utils/constants.py +2 -0
data_designer/config/utils/errors.py +2 -0
data_designer/config/utils/info.py +2 -0
data_designer/config/utils/io_helpers.py +8 -3
data_designer/config/utils/misc.py +2 -2
data_designer/config/utils/numerical_helpers.py +2 -0
data_designer/config/utils/type_helpers.py +2 -0
data_designer/config/utils/visualization.py +19 -11
data_designer/config/validator_params.py +2 -0
data_designer/engine/analysis/column_profilers/base.py +9 -8
data_designer/engine/analysis/column_profilers/judge_score_profiler.py +15 -19
data_designer/engine/analysis/column_profilers/registry.py +2 -0
data_designer/engine/analysis/column_statistics.py +5 -2
data_designer/engine/analysis/dataset_profiler.py +12 -9
data_designer/engine/analysis/errors.py +2 -0
data_designer/engine/analysis/utils/column_statistics_calculations.py +7 -4
data_designer/engine/analysis/utils/judge_score_processing.py +7 -3
data_designer/engine/column_generators/generators/base.py +26 -14
data_designer/engine/column_generators/generators/embedding.py +4 -11
data_designer/engine/column_generators/generators/expression.py +7 -16
data_designer/engine/column_generators/generators/llm_completion.py +13 -47
data_designer/engine/column_generators/generators/samplers.py +8 -14
data_designer/engine/column_generators/generators/seed_dataset.py +9 -15
data_designer/engine/column_generators/generators/validation.py +9 -20
data_designer/engine/column_generators/registry.py +2 -0
data_designer/engine/column_generators/utils/errors.py +2 -0
data_designer/engine/column_generators/utils/generator_classification.py +2 -0
data_designer/engine/column_generators/utils/judge_score_factory.py +2 -0
data_designer/engine/column_generators/utils/prompt_renderer.py +4 -2
data_designer/engine/compiler.py +3 -6
data_designer/engine/configurable_task.py +12 -13
data_designer/engine/dataset_builders/artifact_storage.py +87 -8
data_designer/engine/dataset_builders/column_wise_builder.py +34 -35
data_designer/engine/dataset_builders/errors.py +2 -0
data_designer/engine/dataset_builders/multi_column_configs.py +2 -0
data_designer/engine/dataset_builders/utils/concurrency.py +13 -4
data_designer/engine/dataset_builders/utils/config_compiler.py +2 -0
data_designer/engine/dataset_builders/utils/dag.py +7 -2
data_designer/engine/dataset_builders/utils/dataset_batch_manager.py +35 -25
data_designer/engine/dataset_builders/utils/errors.py +2 -0
data_designer/engine/errors.py +2 -0
data_designer/engine/model_provider.py +2 -0
data_designer/engine/models/errors.py +23 -31
data_designer/engine/models/facade.py +12 -9
data_designer/engine/models/factory.py +42 -0
data_designer/engine/models/litellm_overrides.py +16 -11
data_designer/engine/models/parsers/errors.py +2 -0
data_designer/engine/models/parsers/parser.py +2 -2
data_designer/engine/models/parsers/postprocessors.py +1 -0
data_designer/engine/models/parsers/tag_parsers.py +2 -0
data_designer/engine/models/parsers/types.py +2 -0
data_designer/engine/models/recipes/base.py +2 -0
data_designer/engine/models/recipes/response_recipes.py +2 -0
data_designer/engine/models/registry.py +11 -18
data_designer/engine/models/telemetry.py +6 -2
data_designer/engine/processing/ginja/ast.py +2 -0
data_designer/engine/processing/ginja/environment.py +2 -0
data_designer/engine/processing/ginja/exceptions.py +2 -0
data_designer/engine/processing/ginja/record.py +2 -0
data_designer/engine/processing/gsonschema/exceptions.py +9 -2
data_designer/engine/processing/gsonschema/schema_transformers.py +2 -0
data_designer/engine/processing/gsonschema/types.py +2 -0
data_designer/engine/processing/gsonschema/validators.py +10 -6
data_designer/engine/processing/processors/base.py +1 -5
data_designer/engine/processing/processors/drop_columns.py +7 -10
data_designer/engine/processing/processors/registry.py +2 -0
data_designer/engine/processing/processors/schema_transform.py +7 -10
data_designer/engine/processing/utils.py +7 -3
data_designer/engine/registry/base.py +2 -0
data_designer/engine/registry/data_designer_registry.py +2 -0
data_designer/engine/registry/errors.py +2 -0
data_designer/engine/resources/managed_dataset_generator.py +6 -2
data_designer/engine/resources/managed_dataset_repository.py +8 -5
data_designer/engine/resources/managed_storage.py +2 -0
data_designer/engine/resources/resource_provider.py +20 -1
data_designer/engine/resources/seed_reader.py +7 -2
data_designer/engine/sampling_gen/column.py +2 -0
data_designer/engine/sampling_gen/constraints.py +8 -2
data_designer/engine/sampling_gen/data_sources/base.py +10 -7
data_designer/engine/sampling_gen/data_sources/errors.py +2 -0
data_designer/engine/sampling_gen/data_sources/sources.py +27 -22
data_designer/engine/sampling_gen/entities/dataset_based_person_fields.py +2 -2
data_designer/engine/sampling_gen/entities/email_address_utils.py +2 -0
data_designer/engine/sampling_gen/entities/errors.py +2 -0
data_designer/engine/sampling_gen/entities/national_id_utils.py +2 -0
data_designer/engine/sampling_gen/entities/person.py +2 -0
data_designer/engine/sampling_gen/entities/phone_number.py +8 -1
data_designer/engine/sampling_gen/errors.py +2 -0
data_designer/engine/sampling_gen/generator.py +5 -4
data_designer/engine/sampling_gen/jinja_utils.py +7 -3
data_designer/engine/sampling_gen/people_gen.py +7 -7
data_designer/engine/sampling_gen/person_constants.py +2 -0
data_designer/engine/sampling_gen/schema.py +5 -1
data_designer/engine/sampling_gen/schema_builder.py +2 -0
data_designer/engine/sampling_gen/utils.py +7 -1
data_designer/engine/secret_resolver.py +2 -0
data_designer/engine/validation.py +2 -2
data_designer/engine/validators/__init__.py +2 -0
data_designer/engine/validators/base.py +2 -0
data_designer/engine/validators/local_callable.py +7 -2
data_designer/engine/validators/python.py +7 -1
data_designer/engine/validators/remote.py +7 -1
data_designer/engine/validators/sql.py +8 -3
data_designer/errors.py +2 -0
data_designer/essentials/__init__.py +2 -0
data_designer/interface/data_designer.py +36 -39
data_designer/interface/errors.py +2 -0
data_designer/interface/results.py +9 -2
data_designer/lazy_heavy_imports.py +54 -0
data_designer/logging.py +2 -0
data_designer/plugins/__init__.py +2 -0
data_designer/plugins/errors.py +2 -0
data_designer/plugins/plugin.py +0 -1
data_designer/plugins/registry.py +2 -0
data_designer/plugins/testing/__init__.py +2 -0
data_designer/plugins/testing/stubs.py +21 -43
data_designer/plugins/testing/utils.py +2 -0
{data_designer-0.3.3.dist-info → data_designer-0.3.5.dist-info}/METADATA +19 -4
data_designer-0.3.5.dist-info/RECORD +196 -0
data_designer-0.3.3.dist-info/RECORD +0 -193
{data_designer-0.3.3.dist-info → data_designer-0.3.5.dist-info}/WHEEL +0 -0
{data_designer-0.3.3.dist-info → data_designer-0.3.5.dist-info}/entry_points.txt +0 -0
{data_designer-0.3.3.dist-info → data_designer-0.3.5.dist-info}/licenses/LICENSE +0 -0

data_designer/config/column_types.py CHANGED Viewed

@@ -1,6 +1,7 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from typing_extensions import TypeAlias
@@ -15,7 +16,7 @@ from data_designer.config.column_configs import (
     SeedDatasetColumnConfig,
     ValidationColumnConfig,
 )
-from data_designer.config.errors import InvalidColumnTypeError, InvalidConfigError
+from data_designer.config.errors import InvalidConfigError
 from data_designer.config.sampler_params import SamplerType
 from data_designer.config.utils.type_helpers import (
     SAMPLER_PARAMS,
@@ -45,22 +46,6 @@ DataDesignerColumnType = create_str_enum_from_discriminated_type_union(
     discriminator_field_name="column_type",
 )
-COLUMN_TYPE_EMOJI_MAP = {
-    "general": "⚛️",  # possible analysis column type
-    DataDesignerColumnType.EXPRESSION: "🧩",
-    DataDesignerColumnType.LLM_CODE: "💻",
-    DataDesignerColumnType.LLM_JUDGE: "⚖️",
-    DataDesignerColumnType.LLM_STRUCTURED: "🗂️",
-    DataDesignerColumnType.LLM_TEXT: "📝",
-    DataDesignerColumnType.SEED_DATASET: "🌱",
-    DataDesignerColumnType.SAMPLER: "🎲",
-    DataDesignerColumnType.VALIDATION: "🔍",
-    DataDesignerColumnType.EMBEDDING: "🧬",
-}
-COLUMN_TYPE_EMOJI_MAP.update(
-    {DataDesignerColumnType(p.name): p.emoji for p in plugin_manager.get_column_generator_plugins()}
-)
 def get_column_config_from_kwargs(name: str, column_type: DataDesignerColumnType, **kwargs) -> ColumnConfigT:
     """Create a Data Designer column config object from kwargs.
@@ -74,27 +59,20 @@ def get_column_config_from_kwargs(name: str, column_type: DataDesignerColumnType
         Data Designer column object of the appropriate type.
     """
     column_type = resolve_string_enum(column_type, DataDesignerColumnType)
-    if column_type == DataDesignerColumnType.LLM_TEXT:
-        return LLMTextColumnConfig(name=name, **kwargs)
-    if column_type == DataDesignerColumnType.LLM_CODE:
-        return LLMCodeColumnConfig(name=name, **kwargs)
-    if column_type == DataDesignerColumnType.LLM_STRUCTURED:
-        return LLMStructuredColumnConfig(name=name, **kwargs)
-    if column_type == DataDesignerColumnType.LLM_JUDGE:
-        return LLMJudgeColumnConfig(name=name, **kwargs)
-    if column_type == DataDesignerColumnType.VALIDATION:
-        return ValidationColumnConfig(name=name, **kwargs)
-    if column_type == DataDesignerColumnType.EXPRESSION:
-        return ExpressionColumnConfig(name=name, **kwargs)
+    config_cls = get_column_config_cls_from_type(column_type)
     if column_type == DataDesignerColumnType.SAMPLER:
-        return SamplerColumnConfig(name=name, **_resolve_sampler_kwargs(name, kwargs))
-    if column_type == DataDesignerColumnType.SEED_DATASET:
-        return SeedDatasetColumnConfig(name=name, **kwargs)
-    if column_type == DataDesignerColumnType.EMBEDDING:
-        return EmbeddingColumnConfig(name=name, **kwargs)
+        kwargs = _resolve_sampler_kwargs(name, kwargs)
+    return config_cls(name=name, **kwargs)
+def get_column_config_cls_from_type(column_type: DataDesignerColumnType) -> type[ColumnConfigT]:
+    """Get the column config class for a column type."""
+    column_type = resolve_string_enum(column_type, DataDesignerColumnType)
+    if column_type in _COLUMN_TYPE_CONFIG_CLS_MAP:
+        return _COLUMN_TYPE_CONFIG_CLS_MAP[column_type]
     if plugin := plugin_manager.get_column_generator_plugin_if_exists(column_type.value):
-        return plugin.config_cls(name=name, **kwargs)
-    raise InvalidColumnTypeError(f"🛑 {column_type} is not a valid column type.")  # pragma: no cover
+        return plugin.config_cls
+    raise InvalidConfigError(f"🛑 {column_type} is not a valid column type.")
 def get_column_display_order() -> list[DataDesignerColumnType]:
@@ -114,6 +92,12 @@ def get_column_display_order() -> list[DataDesignerColumnType]:
     return display_order
+def get_column_emoji_from_type(column_type: DataDesignerColumnType) -> str:
+    """Get the emoji for a column type."""
+    config_cls = get_column_config_cls_from_type(resolve_string_enum(column_type, DataDesignerColumnType))
+    return config_cls.get_column_emoji()
 def _resolve_sampler_kwargs(name: str, kwargs: dict) -> dict:
     if "sampler_type" not in kwargs:
         raise InvalidConfigError(f"🛑 `sampler_type` is required for sampler column '{name}'.")
@@ -142,3 +126,16 @@ def _resolve_sampler_kwargs(name: str, kwargs: dict) -> dict:
         "params": params,
         **{k: v for k, v in kwargs.items() if k not in ["sampler_type", "params"]},
     }
+_COLUMN_TYPE_CONFIG_CLS_MAP = {
+    DataDesignerColumnType.LLM_TEXT: LLMTextColumnConfig,
+    DataDesignerColumnType.LLM_CODE: LLMCodeColumnConfig,
+    DataDesignerColumnType.LLM_STRUCTURED: LLMStructuredColumnConfig,
+    DataDesignerColumnType.LLM_JUDGE: LLMJudgeColumnConfig,
+    DataDesignerColumnType.VALIDATION: ValidationColumnConfig,
+    DataDesignerColumnType.EXPRESSION: ExpressionColumnConfig,
+    DataDesignerColumnType.SAMPLER: SamplerColumnConfig,
+    DataDesignerColumnType.SEED_DATASET: SeedDatasetColumnConfig,
+    DataDesignerColumnType.EMBEDDING: EmbeddingColumnConfig,
+}

data_designer/config/dataset_builders.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from enum import Enum

data_designer/config/dataset_metadata.py ADDED Viewed

@@ -0,0 +1,18 @@
+# SPDX-FileCopyrightText: Copyright (c) 2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: Apache-2.0
+from pydantic import BaseModel
+class DatasetMetadata(BaseModel):
+    """Metadata about a generated dataset.
+    This object is created by the engine and passed to results objects for use
+    in visualization and other client-side utilities. It is designed to be
+    serializable so it can be sent over the wire in a client-server architecture.
+    Attributes:
+        seed_column_names: Names of columns from the seed dataset. Empty list if no seed dataset.
+    """
+    seed_column_names: list[str] = []

data_designer/config/default_model_settings.py CHANGED Viewed

@@ -1,6 +1,7 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 import logging
 import os

data_designer/config/errors.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from data_designer.errors import DataDesignerError

data_designer/config/exports.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from data_designer.config.analysis.column_profilers import JudgeScoreProfilerConfig
 from data_designer.config.column_configs import (
     EmbeddingColumnConfig,

data_designer/config/interface.py CHANGED Viewed

@@ -6,13 +6,14 @@ from __future__ import annotations
 from abc import ABC, abstractmethod
 from typing import TYPE_CHECKING, Generic, Protocol, TypeVar
-import pandas as pd
 from data_designer.config.models import ModelConfig, ModelProvider
 from data_designer.config.utils.constants import DEFAULT_NUM_RECORDS
 from data_designer.config.utils.info import InterfaceInfo
+from data_designer.lazy_heavy_imports import pd
 if TYPE_CHECKING:
+    import pandas as pd
     from data_designer.config.analysis.dataset_profiler import DatasetProfilerResults
     from data_designer.config.config_builder import DataDesignerConfigBuilder
     from data_designer.config.preview_results import PreviewResults

data_designer/config/models.py CHANGED Viewed

@@ -1,13 +1,14 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 import logging
 from abc import ABC, abstractmethod
 from enum import Enum
 from pathlib import Path
-from typing import Annotated, Any, Generic, Literal, TypeVar
+from typing import TYPE_CHECKING, Annotated, Any, Generic, Literal, TypeVar
-import numpy as np
 from pydantic import BaseModel, Field, field_validator, model_validator
 from typing_extensions import Self, TypeAlias
@@ -20,6 +21,10 @@ from data_designer.config.utils.constants import (
     MIN_TOP_P,
 )
 from data_designer.config.utils.io_helpers import smart_load_yaml
+from data_designer.lazy_heavy_imports import np
+if TYPE_CHECKING:
+    import numpy as np
 logger = logging.getLogger(__name__)

data_designer/config/preview_results.py CHANGED Viewed

@@ -3,11 +3,16 @@
 from __future__ import annotations
-import pandas as pd
+from typing import TYPE_CHECKING
 from data_designer.config.analysis.dataset_profiler import DatasetProfilerResults
 from data_designer.config.config_builder import DataDesignerConfigBuilder
+from data_designer.config.dataset_metadata import DatasetMetadata
 from data_designer.config.utils.visualization import WithRecordSamplerMixin
+from data_designer.lazy_heavy_imports import pd
+if TYPE_CHECKING:
+    import pandas as pd
 class PreviewResults(WithRecordSamplerMixin):
@@ -15,6 +20,7 @@ class PreviewResults(WithRecordSamplerMixin):
         self,
         *,
         config_builder: DataDesignerConfigBuilder,
+        dataset_metadata: DatasetMetadata | None = None,
         dataset: pd.DataFrame | None = None,
         analysis: DatasetProfilerResults | None = None,
         processor_artifacts: dict[str, list[str] | str] | None = None,
@@ -23,6 +29,7 @@ class PreviewResults(WithRecordSamplerMixin):
         Args:
             config_builder: Data Designer configuration builder.
+            dataset_metadata: Metadata about the generated dataset (e.g., seed column names).
             dataset: Dataset of the preview run.
             analysis: Analysis of the preview run.
             processor_artifacts: Artifacts generated by the processors.
@@ -30,4 +37,5 @@ class PreviewResults(WithRecordSamplerMixin):
         self.dataset: pd.DataFrame | None = dataset
         self.analysis: DatasetProfilerResults | None = analysis
         self.processor_artifacts: dict[str, list[str] | str] | None = processor_artifacts
+        self.dataset_metadata: DatasetMetadata | None = dataset_metadata
         self._config_builder = config_builder

data_designer/config/processors.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 import json
 from abc import ABC
 from enum import Enum

data_designer/config/run_config.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from pydantic import Field, model_validator
 from typing_extensions import Self
@@ -14,21 +16,33 @@ class RunConfig(ConfigBase):
     part of the dataset configuration itself.
     Attributes:
-        disable_early_shutdown: If True, disables early shutdown entirely. Generation
-            will continue regardless of error rate. Default is False.
-        shutdown_error_rate: Error rate threshold (0.0-1.0) that triggers early shutdown.
-            When early shutdown is disabled, this value is normalized to 1.0. Default is 0.5.
+        disable_early_shutdown: If True, disables the executor's early-shutdown behavior entirely.
+            Generation will continue regardless of error rate, and the early-shutdown exception
+            will never be raised. Error counts and summaries are still collected. Default is False.
+        shutdown_error_rate: Error rate threshold (0.0-1.0) that triggers early shutdown when
+            early shutdown is enabled. Default is 0.5.
         shutdown_error_window: Minimum number of completed tasks before error rate
             monitoring begins. Must be >= 0. Default is 10.
+        buffer_size: Number of records to process in each batch during dataset generation.
+            A batch is processed end-to-end (column generation, post-batch processors, and writing the batch
+            to artifact storage) before moving on to the next batch. Must be > 0. Default is 1000.
+        max_conversation_restarts: Maximum number of full conversation restarts permitted when
+            generation tasks call `ModelFacade.generate(...)`. Must be >= 0. Default is 5.
+        max_conversation_correction_steps: Maximum number of correction rounds permitted within a
+            single conversation when generation tasks call `ModelFacade.generate(...)`. Must be >= 0.
+            Default is 0.
     """
     disable_early_shutdown: bool = False
     shutdown_error_rate: float = Field(default=0.5, ge=0.0, le=1.0)
     shutdown_error_window: int = Field(default=10, ge=0)
+    buffer_size: int = Field(default=1000, gt=0)
+    max_conversation_restarts: int = Field(default=5, ge=0)
+    max_conversation_correction_steps: int = Field(default=0, ge=0)
     @model_validator(mode="after")
     def normalize_shutdown_settings(self) -> Self:
-        """Set shutdown_error_rate to 1.0 when early shutdown is disabled."""
+        """Normalize shutdown settings for compatibility."""
         if self.disable_early_shutdown:
             self.shutdown_error_rate = 1.0
         return self

data_designer/config/sampler_constraints.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from abc import ABC, abstractmethod
 from enum import Enum

data_designer/config/sampler_params.py CHANGED Viewed

@@ -1,10 +1,11 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from enum import Enum
-from typing import Literal
+from typing import TYPE_CHECKING, Literal
-import pandas as pd
 from pydantic import Field, field_validator, model_validator
 from typing_extensions import Self, TypeAlias
@@ -16,6 +17,10 @@ from data_designer.config.utils.constants import (
     MAX_AGE,
     MIN_AGE,
 )
+from data_designer.lazy_heavy_imports import pd
+if TYPE_CHECKING:
+    import pandas as pd
 class SamplerType(str, Enum):

data_designer/config/seed.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from enum import Enum
 from pydantic import Field, model_validator

data_designer/config/seed_source.py CHANGED Viewed

@@ -1,11 +1,13 @@
 # SPDX-FileCopyrightText: Copyright (c) 2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from abc import ABC
-from typing import Literal
+from typing import TYPE_CHECKING, Literal
-import pandas as pd
 from pydantic import BaseModel, ConfigDict, Field, field_validator
+from pydantic.json_schema import SkipJsonSchema
 from typing_extensions import Self
 from data_designer.config.utils.io_helpers import (
@@ -13,6 +15,10 @@ from data_designer.config.utils.io_helpers import (
     validate_dataset_file_path,
     validate_path_contains_files_of_type,
 )
+from data_designer.lazy_heavy_imports import pd
+if TYPE_CHECKING:
+    import pandas as pd
 class SeedSource(BaseModel, ABC):
@@ -68,7 +74,7 @@ class DataFrameSeedSource(SeedSource):
     model_config = ConfigDict(arbitrary_types_allowed=True)
-    df: pd.DataFrame = Field(
+    df: SkipJsonSchema[pd.DataFrame] = Field(
         ...,
         exclude=True,
         description=(

data_designer/config/seed_source_types.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from typing import Annotated
 from pydantic import Field

data_designer/config/utils/constants.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 import os
 from enum import Enum
 from pathlib import Path

data_designer/config/utils/errors.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from data_designer.errors import DataDesignerError

data_designer/config/utils/info.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from abc import ABC, abstractmethod
 from enum import Enum
 from typing import Literal, TypeVar

data_designer/config/utils/io_helpers.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 import json
 import logging
 import os
@@ -8,13 +10,16 @@ from datetime import date, datetime, timedelta
 from decimal import Decimal
 from numbers import Number
 from pathlib import Path
-from typing import Any
+from typing import TYPE_CHECKING, Any
-import numpy as np
-import pandas as pd
 import yaml
 from data_designer.config.errors import InvalidFileFormatError, InvalidFilePathError
+from data_designer.lazy_heavy_imports import np, pd
+if TYPE_CHECKING:
+    import numpy as np
+    import pandas as pd
 logger = logging.getLogger(__name__)

data_designer/config/utils/misc.py CHANGED Viewed

@@ -48,8 +48,8 @@ def can_run_data_designer_locally() -> bool:
     return True
-def get_prompt_template_keywords(template: str) -> set[str]:
-    """Extract all keywords from a valid string template."""
+def extract_keywords_from_jinja2_template(template: str) -> set[str]:
+    """Extract all keywords from a valid Jinja2 template."""
     with template_error_handler():
         ast = ImmutableSandboxedEnvironment().parse(template)
         keywords = set(meta.find_undeclared_variables(ast))

data_designer/config/utils/numerical_helpers.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 import numbers
 from numbers import Number
 from typing import Any

data_designer/config/utils/type_helpers.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 import inspect
 from enum import Enum
 from typing import Any, Literal, get_args, get_origin

data_designer/config/utils/visualization.py CHANGED Viewed

@@ -10,8 +10,6 @@ from enum import Enum
 from functools import cached_property
 from typing import TYPE_CHECKING, Any
-import numpy as np
-import pandas as pd
 from rich.console import Console, Group
 from rich.padding import Padding
 from rich.panel import Panel
@@ -28,9 +26,14 @@ from data_designer.config.sampler_params import SamplerType
 from data_designer.config.utils.code_lang import code_lang_to_syntax_lexer
 from data_designer.config.utils.constants import NVIDIA_API_KEY_ENV_VAR_NAME, OPENAI_API_KEY_ENV_VAR_NAME
 from data_designer.config.utils.errors import DatasetSampleDisplayError
+from data_designer.lazy_heavy_imports import np, pd
 if TYPE_CHECKING:
+    import numpy as np
+    import pandas as pd
     from data_designer.config.config_builder import DataDesignerConfigBuilder
+    from data_designer.config.dataset_metadata import DatasetMetadata
 console = Console()
@@ -57,6 +60,7 @@ class ColorPalette(str, Enum):
 class WithRecordSamplerMixin:
     _display_cycle_index: int = 0
+    dataset_metadata: DatasetMetadata | None
     @cached_property
     def _record_sampler_dataset(self) -> pd.DataFrame:
@@ -79,22 +83,22 @@ class WithRecordSamplerMixin:
         self,
         index: int | None = None,
         *,
-        hide_seed_columns: bool = False,
         syntax_highlighting_theme: str = "dracula",
         background_color: str | None = None,
         processors_to_display: list[str] | None = None,
+        hide_seed_columns: bool = False,
     ) -> None:
         """Display a sample record from the Data Designer dataset preview.
         Args:
             index: Index of the record to display. If None, the next record will be displayed.
                 This is useful for running the cell in a notebook multiple times.
-            hide_seed_columns: If True, the columns from the seed dataset (if any) will not be displayed.
             syntax_highlighting_theme: Theme to use for syntax highlighting. See the `Syntax`
                 documentation from `rich` for information about available themes.
             background_color: Background color to use for the record. See the `Syntax`
                 documentation from `rich` for information about available background colors.
             processors_to_display: List of processors to display the artifacts for. If None, all processors will be displayed.
+            hide_seed_columns: If True, seed columns will not be displayed separately.
         """
         i = index or self._display_cycle_index
@@ -120,14 +124,18 @@ class WithRecordSamplerMixin:
                     else:
                         processor_data_to_display[processor] = self.processor_artifacts[processor]
+        seed_column_names = (
+            None if hide_seed_columns or self.dataset_metadata is None else self.dataset_metadata.seed_column_names
+        )
         display_sample_record(
             record=record,
             processor_data_to_display=processor_data_to_display,
             config_builder=self._config_builder,
             background_color=background_color,
             syntax_highlighting_theme=syntax_highlighting_theme,
-            hide_seed_columns=hide_seed_columns,
             record_index=i,
+            seed_column_names=seed_column_names,
         )
         if index is None:
             self._display_cycle_index = (self._display_cycle_index + 1) % num_records
@@ -160,7 +168,7 @@ def display_sample_record(
     background_color: str | None = None,
     syntax_highlighting_theme: str = "dracula",
     record_index: int | None = None,
-    hide_seed_columns: bool = False,
+    seed_column_names: list[str] | None = None,
 ):
     if isinstance(record, (dict, pd.Series)):
         record = pd.DataFrame([record]).iloc[0]
@@ -179,14 +187,14 @@ def display_sample_record(
     render_list = []
     table_kws = dict(show_lines=True, expand=True)
-    seed_columns = config_builder.get_columns_of_type(DataDesignerColumnType.SEED_DATASET)
-    if not hide_seed_columns and len(seed_columns) > 0:
+    # Display seed columns if seed_column_names is provided and not empty
+    if seed_column_names:
         table = Table(title="Seed Columns", **table_kws)
         table.add_column("Name")
         table.add_column("Value")
-        for col in seed_columns:
-            if not col.drop:
-                table.add_row(col.name, convert_to_row_element(record[col.name]))
+        for col_name in seed_column_names:
+            if col_name in record.index:
+                table.add_row(col_name, convert_to_row_element(record[col_name]))
         render_list.append(pad_console_element(table))
     non_code_columns = (

data_designer/config/validator_params.py CHANGED Viewed

@@ -1,6 +1,8 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 from enum import Enum
 from typing import Any

data_designer/engine/analysis/column_profilers/base.py CHANGED Viewed

@@ -5,15 +5,19 @@ from __future__ import annotations
 import logging
 from abc import ABC, abstractmethod
+from typing import TYPE_CHECKING
-import pandas as pd
 from pydantic import BaseModel, model_validator
 from typing_extensions import Self
 from data_designer.config.base import ConfigBase
 from data_designer.config.column_configs import SingleColumnConfig
 from data_designer.config.column_types import DataDesignerColumnType
-from data_designer.engine.configurable_task import ConfigurableTask, ConfigurableTaskMetadata, TaskConfigT
+from data_designer.engine.configurable_task import ConfigurableTask, TaskConfigT
+from data_designer.lazy_heavy_imports import pd
+if TYPE_CHECKING:
+    import pandas as pd
 logger = logging.getLogger(__name__)
@@ -32,17 +36,14 @@ class ColumnConfigWithDataFrame(ConfigBase):
         return (self.column_config, self.df)
-class ColumnProfilerMetadata(ConfigurableTaskMetadata):
-    applicable_column_types: list[DataDesignerColumnType]
 class ColumnProfiler(ConfigurableTask[TaskConfigT], ABC):
     @staticmethod
     @abstractmethod
-    def metadata() -> ColumnProfilerMetadata: ...
+    def get_applicable_column_types() -> list[DataDesignerColumnType]:
+        """Returns a list of column types that this profiler can be applied to during dataset profiling."""
     @abstractmethod
     def profile(self, column_config_with_df: ColumnConfigWithDataFrame) -> BaseModel: ...
     def _initialize(self) -> None:
-        logger.info(f"💫 Initializing column profiler: '{self.metadata().name}'")
+        logger.info(f"💫 Initializing column profiler: '{self.name}'")

data-designer 0.3.3__py3-none-any.whl → 0.3.5__py3-none-any.whl

data-designer 0.3.3py3-none-any.whl → 0.3.5py3-none-any.whl