PyPI - data-designer-config - Versions diffs - 0.4.0rc3__py3-none-any.whl → 0.5.0rc1__py3-none-any.whl - Mend

data-designer-config 0.4.0rc3py3-none-any.whl → 0.5.0rc1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (17) hide show

data_designer/config/__init__.py +219 -142
data_designer/config/base.py +37 -39
data_designer/config/column_configs.py +147 -61
data_designer/config/column_types.py +5 -1
data_designer/config/config_builder.py +103 -3
data_designer/config/custom_column.py +64 -0
data_designer/config/data_designer_config.py +5 -1
data_designer/config/exportable_config.py +59 -0
data_designer/config/mcp.py +109 -0
data_designer/config/run_config.py +1 -6
data_designer/config/utils/constants.py +9 -0
data_designer/config/utils/trace_type.py +24 -0
data_designer/config/utils/visualization.py +6 -0
{data_designer_config-0.4.0rc3.dist-info → data_designer_config-0.5.0rc1.dist-info}/METADATA +1 -1
{data_designer_config-0.4.0rc3.dist-info → data_designer_config-0.5.0rc1.dist-info}/RECORD +16 -13
data_designer/config/_version.py +0 -34
{data_designer_config-0.4.0rc3.dist-info → data_designer_config-0.5.0rc1.dist-info}/WHEEL +0 -0

data_designer/config/__init__.py CHANGED Viewed

@@ -3,147 +3,224 @@
 from __future__ import annotations
-from data_designer.config.analysis.column_profilers import JudgeScoreProfilerConfig
-from data_designer.config.column_configs import (
-    EmbeddingColumnConfig,
-    ExpressionColumnConfig,
-    LLMCodeColumnConfig,
-    LLMJudgeColumnConfig,
-    LLMStructuredColumnConfig,
-    LLMTextColumnConfig,
-    SamplerColumnConfig,
-    Score,
-    SeedDatasetColumnConfig,
-    ValidationColumnConfig,
-)
-from data_designer.config.column_types import DataDesignerColumnType
-from data_designer.config.config_builder import DataDesignerConfigBuilder
-from data_designer.config.data_designer_config import DataDesignerConfig
-from data_designer.config.dataset_builders import BuildStage
-from data_designer.config.models import (
-    ChatCompletionInferenceParams,
-    EmbeddingInferenceParams,
-    GenerationType,
-    ImageContext,
-    ImageFormat,
-    ManualDistribution,
-    ManualDistributionParams,
-    Modality,
-    ModalityContext,
-    ModalityDataType,
-    ModelConfig,
-    ModelProvider,
-    UniformDistribution,
-    UniformDistributionParams,
-)
-from data_designer.config.processors import (
-    DropColumnsProcessorConfig,
-    ProcessorType,
-    SchemaTransformProcessorConfig,
-)
-from data_designer.config.run_config import RunConfig
-from data_designer.config.sampler_constraints import ColumnInequalityConstraint, ScalarInequalityConstraint
-from data_designer.config.sampler_params import (
-    BernoulliMixtureSamplerParams,
-    BernoulliSamplerParams,
-    BinomialSamplerParams,
-    CategorySamplerParams,
-    DatetimeSamplerParams,
-    GaussianSamplerParams,
-    PersonFromFakerSamplerParams,
-    PersonSamplerParams,
-    PoissonSamplerParams,
-    SamplerType,
-    ScipySamplerParams,
-    SubcategorySamplerParams,
-    TimeDeltaSamplerParams,
-    UniformSamplerParams,
-    UUIDSamplerParams,
-)
-from data_designer.config.seed import (
-    IndexRange,
-    PartitionBlock,
-    SamplingStrategy,
-    SeedConfig,
-)
-from data_designer.config.seed_source import (
-    DataFrameSeedSource,
-    HuggingFaceSeedSource,
-    LocalFileSeedSource,
-)
-from data_designer.config.utils.code_lang import CodeLang
-from data_designer.config.utils.info import InfoType
-from data_designer.config.validator_params import (
-    CodeValidatorParams,
-    LocalCallableValidatorParams,
-    RemoteValidatorParams,
-    ValidatorType,
-)
+import importlib
+from typing import TYPE_CHECKING
+if TYPE_CHECKING:
+    # These imports are for IDE autocomplete and type checking only.
+    # At runtime, __getattr__ lazily loads the actual objects.
+    from data_designer.config.analysis.column_profilers import (  # noqa: F401
+        JudgeScoreProfilerConfig,
+    )
+    from data_designer.config.column_configs import (  # noqa: F401
+        CustomColumnConfig,
+        EmbeddingColumnConfig,
+        ExpressionColumnConfig,
+        GenerationStrategy,
+        LLMCodeColumnConfig,
+        LLMJudgeColumnConfig,
+        LLMStructuredColumnConfig,
+        LLMTextColumnConfig,
+        SamplerColumnConfig,
+        Score,
+        SeedDatasetColumnConfig,
+        ValidationColumnConfig,
+    )
+    from data_designer.config.column_types import DataDesignerColumnType  # noqa: F401
+    from data_designer.config.config_builder import DataDesignerConfigBuilder  # noqa: F401
+    from data_designer.config.custom_column import custom_column_generator  # noqa: F401
+    from data_designer.config.data_designer_config import DataDesignerConfig  # noqa: F401
+    from data_designer.config.dataset_builders import BuildStage  # noqa: F401
+    from data_designer.config.mcp import (  # noqa: F401
+        LocalStdioMCPProvider,
+        MCPProvider,
+        ToolConfig,
+    )
+    from data_designer.config.models import (  # noqa: F401
+        ChatCompletionInferenceParams,
+        EmbeddingInferenceParams,
+        GenerationType,
+        ImageContext,
+        ImageFormat,
+        ManualDistribution,
+        ManualDistributionParams,
+        Modality,
+        ModalityContext,
+        ModalityDataType,
+        ModelConfig,
+        ModelProvider,
+        UniformDistribution,
+        UniformDistributionParams,
+    )
+    from data_designer.config.processors import (  # noqa: F401
+        DropColumnsProcessorConfig,
+        ProcessorType,
+        SchemaTransformProcessorConfig,
+    )
+    from data_designer.config.run_config import RunConfig  # noqa: F401
+    from data_designer.config.sampler_constraints import (  # noqa: F401
+        ColumnInequalityConstraint,
+        ScalarInequalityConstraint,
+    )
+    from data_designer.config.sampler_params import (  # noqa: F401
+        BernoulliMixtureSamplerParams,
+        BernoulliSamplerParams,
+        BinomialSamplerParams,
+        CategorySamplerParams,
+        DatetimeSamplerParams,
+        GaussianSamplerParams,
+        PersonFromFakerSamplerParams,
+        PersonSamplerParams,
+        PoissonSamplerParams,
+        SamplerType,
+        ScipySamplerParams,
+        SubcategorySamplerParams,
+        TimeDeltaSamplerParams,
+        UniformSamplerParams,
+        UUIDSamplerParams,
+    )
+    from data_designer.config.seed import (  # noqa: F401
+        IndexRange,
+        PartitionBlock,
+        SamplingStrategy,
+        SeedConfig,
+    )
+    from data_designer.config.seed_source import (  # noqa: F401
+        DataFrameSeedSource,
+        HuggingFaceSeedSource,
+        LocalFileSeedSource,
+    )
+    from data_designer.config.utils.code_lang import CodeLang  # noqa: F401
+    from data_designer.config.utils.info import InfoType  # noqa: F401
+    from data_designer.config.utils.trace_type import TraceType  # noqa: F401
+    from data_designer.config.validator_params import (  # noqa: F401
+        CodeValidatorParams,
+        LocalCallableValidatorParams,
+        RemoteValidatorParams,
+        ValidatorType,
+    )
-def get_config_exports() -> list[str]:
-    return [
-        SchemaTransformProcessorConfig.__name__,
-        BernoulliMixtureSamplerParams.__name__,
-        BernoulliSamplerParams.__name__,
-        BinomialSamplerParams.__name__,
-        CategorySamplerParams.__name__,
-        CodeLang.__name__,
-        CodeValidatorParams.__name__,
-        ColumnInequalityConstraint.__name__,
-        ChatCompletionInferenceParams.__name__,
-        DataDesignerColumnType.__name__,
-        DataDesignerConfig.__name__,
-        DataDesignerConfigBuilder.__name__,
-        DataFrameSeedSource.__name__,
-        BuildStage.__name__,
-        DatetimeSamplerParams.__name__,
-        DropColumnsProcessorConfig.__name__,
-        EmbeddingColumnConfig.__name__,
-        EmbeddingInferenceParams.__name__,
-        ExpressionColumnConfig.__name__,
-        GaussianSamplerParams.__name__,
-        GenerationType.__name__,
-        HuggingFaceSeedSource.__name__,
-        IndexRange.__name__,
-        InfoType.__name__,
-        ImageContext.__name__,
-        ImageFormat.__name__,
-        JudgeScoreProfilerConfig.__name__,
-        LLMCodeColumnConfig.__name__,
-        LLMJudgeColumnConfig.__name__,
-        LLMStructuredColumnConfig.__name__,
-        LLMTextColumnConfig.__name__,
-        LocalCallableValidatorParams.__name__,
-        LocalFileSeedSource.__name__,
-        ManualDistribution.__name__,
-        ManualDistributionParams.__name__,
-        Modality.__name__,
-        ModalityContext.__name__,
-        ModalityDataType.__name__,
-        ModelConfig.__name__,
-        ModelProvider.__name__,
-        PartitionBlock.__name__,
-        PersonSamplerParams.__name__,
-        PersonFromFakerSamplerParams.__name__,
-        PoissonSamplerParams.__name__,
-        ProcessorType.__name__,
-        RemoteValidatorParams.__name__,
-        RunConfig.__name__,
-        SamplerColumnConfig.__name__,
-        SamplerType.__name__,
-        SamplingStrategy.__name__,
-        ScalarInequalityConstraint.__name__,
-        ScipySamplerParams.__name__,
-        Score.__name__,
-        SeedConfig.__name__,
-        SeedDatasetColumnConfig.__name__,
-        SubcategorySamplerParams.__name__,
-        TimeDeltaSamplerParams.__name__,
-        UniformDistribution.__name__,
-        UniformDistributionParams.__name__,
-        UniformSamplerParams.__name__,
-        UUIDSamplerParams.__name__,
-        ValidationColumnConfig.__name__,
-        ValidatorType.__name__,
-    ]
+# Base module path and submodule paths for lazy imports
+_MOD_BASE = "data_designer.config"
+_MOD_COLUMN_CONFIGS = f"{_MOD_BASE}.column_configs"
+_MOD_MCP = f"{_MOD_BASE}.mcp"
+_MOD_MODELS = f"{_MOD_BASE}.models"
+_MOD_PROCESSORS = f"{_MOD_BASE}.processors"
+_MOD_SAMPLER_CONSTRAINTS = f"{_MOD_BASE}.sampler_constraints"
+_MOD_SAMPLER_PARAMS = f"{_MOD_BASE}.sampler_params"
+_MOD_SEED = f"{_MOD_BASE}.seed"
+_MOD_SEED_SOURCE = f"{_MOD_BASE}.seed_source"
+_MOD_VALIDATOR_PARAMS = f"{_MOD_BASE}.validator_params"
+_MOD_UTILS = f"{_MOD_BASE}.utils"
+# Mapping of export names to (module_path, attribute_name) for lazy loading
+_LAZY_IMPORTS: dict[str, tuple[str, str]] = {
+    # analysis.column_profilers
+    "JudgeScoreProfilerConfig": (f"{_MOD_BASE}.analysis.column_profilers", "JudgeScoreProfilerConfig"),
+    # column_configs
+    "CustomColumnConfig": (_MOD_COLUMN_CONFIGS, "CustomColumnConfig"),
+    "EmbeddingColumnConfig": (_MOD_COLUMN_CONFIGS, "EmbeddingColumnConfig"),
+    "ExpressionColumnConfig": (_MOD_COLUMN_CONFIGS, "ExpressionColumnConfig"),
+    "GenerationStrategy": (_MOD_COLUMN_CONFIGS, "GenerationStrategy"),
+    "LLMCodeColumnConfig": (_MOD_COLUMN_CONFIGS, "LLMCodeColumnConfig"),
+    "LLMJudgeColumnConfig": (_MOD_COLUMN_CONFIGS, "LLMJudgeColumnConfig"),
+    "LLMStructuredColumnConfig": (_MOD_COLUMN_CONFIGS, "LLMStructuredColumnConfig"),
+    "LLMTextColumnConfig": (_MOD_COLUMN_CONFIGS, "LLMTextColumnConfig"),
+    "SamplerColumnConfig": (_MOD_COLUMN_CONFIGS, "SamplerColumnConfig"),
+    "Score": (_MOD_COLUMN_CONFIGS, "Score"),
+    "SeedDatasetColumnConfig": (_MOD_COLUMN_CONFIGS, "SeedDatasetColumnConfig"),
+    "ValidationColumnConfig": (_MOD_COLUMN_CONFIGS, "ValidationColumnConfig"),
+    # column_types
+    "DataDesignerColumnType": (f"{_MOD_BASE}.column_types", "DataDesignerColumnType"),
+    # config_builder
+    "DataDesignerConfigBuilder": (f"{_MOD_BASE}.config_builder", "DataDesignerConfigBuilder"),
+    # custom_column
+    "custom_column_generator": (f"{_MOD_BASE}.custom_column", "custom_column_generator"),
+    # data_designer_config
+    "DataDesignerConfig": (f"{_MOD_BASE}.data_designer_config", "DataDesignerConfig"),
+    # dataset_builders
+    "BuildStage": (f"{_MOD_BASE}.dataset_builders", "BuildStage"),
+    # mcp
+    "LocalStdioMCPProvider": (_MOD_MCP, "LocalStdioMCPProvider"),
+    "MCPProvider": (_MOD_MCP, "MCPProvider"),
+    "ToolConfig": (_MOD_MCP, "ToolConfig"),
+    # models
+    "ChatCompletionInferenceParams": (_MOD_MODELS, "ChatCompletionInferenceParams"),
+    "EmbeddingInferenceParams": (_MOD_MODELS, "EmbeddingInferenceParams"),
+    "GenerationType": (_MOD_MODELS, "GenerationType"),
+    "ImageContext": (_MOD_MODELS, "ImageContext"),
+    "ImageFormat": (_MOD_MODELS, "ImageFormat"),
+    "ManualDistribution": (_MOD_MODELS, "ManualDistribution"),
+    "ManualDistributionParams": (_MOD_MODELS, "ManualDistributionParams"),
+    "Modality": (_MOD_MODELS, "Modality"),
+    "ModalityContext": (_MOD_MODELS, "ModalityContext"),
+    "ModalityDataType": (_MOD_MODELS, "ModalityDataType"),
+    "ModelConfig": (_MOD_MODELS, "ModelConfig"),
+    "ModelProvider": (_MOD_MODELS, "ModelProvider"),
+    "UniformDistribution": (_MOD_MODELS, "UniformDistribution"),
+    "UniformDistributionParams": (_MOD_MODELS, "UniformDistributionParams"),
+    # processors
+    "DropColumnsProcessorConfig": (_MOD_PROCESSORS, "DropColumnsProcessorConfig"),
+    "ProcessorType": (_MOD_PROCESSORS, "ProcessorType"),
+    "SchemaTransformProcessorConfig": (_MOD_PROCESSORS, "SchemaTransformProcessorConfig"),
+    # run_config
+    "RunConfig": (f"{_MOD_BASE}.run_config", "RunConfig"),
+    # sampler_constraints
+    "ColumnInequalityConstraint": (_MOD_SAMPLER_CONSTRAINTS, "ColumnInequalityConstraint"),
+    "ScalarInequalityConstraint": (_MOD_SAMPLER_CONSTRAINTS, "ScalarInequalityConstraint"),
+    # sampler_params
+    "BernoulliMixtureSamplerParams": (_MOD_SAMPLER_PARAMS, "BernoulliMixtureSamplerParams"),
+    "BernoulliSamplerParams": (_MOD_SAMPLER_PARAMS, "BernoulliSamplerParams"),
+    "BinomialSamplerParams": (_MOD_SAMPLER_PARAMS, "BinomialSamplerParams"),
+    "CategorySamplerParams": (_MOD_SAMPLER_PARAMS, "CategorySamplerParams"),
+    "DatetimeSamplerParams": (_MOD_SAMPLER_PARAMS, "DatetimeSamplerParams"),
+    "GaussianSamplerParams": (_MOD_SAMPLER_PARAMS, "GaussianSamplerParams"),
+    "PersonFromFakerSamplerParams": (_MOD_SAMPLER_PARAMS, "PersonFromFakerSamplerParams"),
+    "PersonSamplerParams": (_MOD_SAMPLER_PARAMS, "PersonSamplerParams"),
+    "PoissonSamplerParams": (_MOD_SAMPLER_PARAMS, "PoissonSamplerParams"),
+    "SamplerType": (_MOD_SAMPLER_PARAMS, "SamplerType"),
+    "ScipySamplerParams": (_MOD_SAMPLER_PARAMS, "ScipySamplerParams"),
+    "SubcategorySamplerParams": (_MOD_SAMPLER_PARAMS, "SubcategorySamplerParams"),
+    "TimeDeltaSamplerParams": (_MOD_SAMPLER_PARAMS, "TimeDeltaSamplerParams"),
+    "UniformSamplerParams": (_MOD_SAMPLER_PARAMS, "UniformSamplerParams"),
+    "UUIDSamplerParams": (_MOD_SAMPLER_PARAMS, "UUIDSamplerParams"),
+    # seed
+    "IndexRange": (_MOD_SEED, "IndexRange"),
+    "PartitionBlock": (_MOD_SEED, "PartitionBlock"),
+    "SamplingStrategy": (_MOD_SEED, "SamplingStrategy"),
+    "SeedConfig": (_MOD_SEED, "SeedConfig"),
+    # seed_source
+    "DataFrameSeedSource": (_MOD_SEED_SOURCE, "DataFrameSeedSource"),
+    "HuggingFaceSeedSource": (_MOD_SEED_SOURCE, "HuggingFaceSeedSource"),
+    "LocalFileSeedSource": (_MOD_SEED_SOURCE, "LocalFileSeedSource"),
+    # utils
+    "CodeLang": (f"{_MOD_UTILS}.code_lang", "CodeLang"),
+    "InfoType": (f"{_MOD_UTILS}.info", "InfoType"),
+    "TraceType": (f"{_MOD_UTILS}.trace_type", "TraceType"),
+    # validator_params
+    "CodeValidatorParams": (_MOD_VALIDATOR_PARAMS, "CodeValidatorParams"),
+    "LocalCallableValidatorParams": (_MOD_VALIDATOR_PARAMS, "LocalCallableValidatorParams"),
+    "RemoteValidatorParams": (_MOD_VALIDATOR_PARAMS, "RemoteValidatorParams"),
+    "ValidatorType": (_MOD_VALIDATOR_PARAMS, "ValidatorType"),
+}
+__all__ = list(_LAZY_IMPORTS.keys())
+def __getattr__(name: str) -> object:
+    """Lazily import config module exports when accessed.
+    This allows fast imports of data_designer.config while deferring loading
+    of submodules until they're actually needed.
+    """
+    if name in _LAZY_IMPORTS:
+        module_path, attr_name = _LAZY_IMPORTS[name]
+        module = importlib.import_module(module_path)
+        return getattr(module, attr_name)
+    raise AttributeError(f"module 'data_designer.config' has no attribute {name!r}")
+def __dir__() -> list[str]:
+    """Return list of available exports for tab-completion."""
+    return __all__

data_designer/config/base.py CHANGED Viewed

@@ -1,16 +1,15 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+# IMPORTANT: This module must NOT import from any data_designer submodules (i.e., data_designer.*).
+# These base abstractions are foundational and should only depend on pydantic and Python builtins.
 from __future__ import annotations
-from pathlib import Path
-from typing import Any
+from abc import ABC, abstractmethod
-import yaml
 from pydantic import BaseModel, ConfigDict
-from data_designer.config.utils.io_helpers import serialize_data
 class ConfigBase(BaseModel):
     model_config = ConfigDict(
@@ -22,48 +21,47 @@ class ConfigBase(BaseModel):
     )
-class ExportableConfigBase(ConfigBase):
-    def to_dict(self) -> dict[str, Any]:
-        """Convert the configuration to a dictionary.
+class SingleColumnConfig(ConfigBase, ABC):
+    """Abstract base class for all single-column configuration types.
-        Returns:
-            A dictionary representation of the configuration using JSON-compatible
-            serialization.
-        """
-        return self.model_dump(mode="json")
+    This class serves as the foundation for all column configurations in DataDesigner,
+    defining shared fields and properties across all column types.
+    Attributes:
+        name: Unique name of the column to be generated.
+        drop: If True, the column will be generated but removed from the final dataset.
+            Useful for intermediate columns that are dependencies for other columns.
+        column_type: Discriminator field that identifies the specific column type.
+            Subclasses must override this field to specify the column type with a `Literal` value.
+    """
+    name: str
+    drop: bool = False
+    column_type: str
-    def to_yaml(self, path: str | Path | None = None, *, indent: int | None = 2, **kwargs) -> str | None:
-        """Convert the configuration to a YAML string or file.
+    @staticmethod
+    def get_column_emoji() -> str:
+        return "🎨"
-        Args:
-            path: Optional file path to write the YAML to. If None, returns the
-                YAML string instead of writing to file.
-            indent: Number of spaces for YAML indentation. Defaults to 2.
-            **kwargs: Additional keyword arguments passed to yaml.dump().
+    @property
+    @abstractmethod
+    def required_columns(self) -> list[str]:
+        """Returns a list of column names that must exist before this column can be generated.
         Returns:
-            The YAML string if path is None, otherwise None (file is written).
+            List of column names that this column depends on. Empty list indicates
+            no dependencies. Override in subclasses to specify dependencies.
         """
-        yaml_str = yaml.dump(self.to_dict(), indent=indent, **kwargs)
-        if path is None:
-            return yaml_str
-        with open(path, "w") as f:
-            f.write(yaml_str)
-    def to_json(self, path: str | Path | None = None, *, indent: int | None = 2, **kwargs) -> str | None:
-        """Convert the configuration to a JSON string or file.
+    @property
+    @abstractmethod
+    def side_effect_columns(self) -> list[str]:
+        """Returns a list of additional columns that this column will create as a side effect.
-        Args:
-            path: Optional file path to write the JSON to. If None, returns the
-                JSON string instead of writing to file.
-            indent: Number of spaces for JSON indentation. Defaults to 2.
-            **kwargs: Additional keyword arguments passed to json.dumps().
+        Some column types generate additional metadata or auxiliary columns alongside
+        the primary column (e.g., reasoning traces for LLM columns).
         Returns:
-            The JSON string if path is None, otherwise None (file is written).
+            List of column names that this column will create as a side effect. Empty list
+            indicates no side effect columns. Override in subclasses to specify side effects.
         """
-        json_str = serialize_data(self.to_dict(), indent=indent, **kwargs)
-        if path is None:
-            return json_str
-        with open(path, "w") as f:
-            f.write(json_str)

data-designer-config 0.4.0rc3__py3-none-any.whl → 0.5.0rc1__py3-none-any.whl

data-designer-config 0.4.0rc3py3-none-any.whl → 0.5.0rc1py3-none-any.whl