PyPI - data-designer - Versions diffs - 0.3.8rc2__py3-none-any.whl → 0.4.0__py3-none-any.whl - Mend

data-designer 0.3.8rc2py3-none-any.whl → 0.4.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (166) hide show

data_designer/cli/commands/__init__.py +1 -1
data_designer/interface/__init__.py +21 -1
data_designer/{_version.py → interface/_version.py} +2 -2
data_designer/interface/data_designer.py +1 -7
{data_designer-0.3.8rc2.dist-info → data_designer-0.4.0.dist-info}/METADATA +10 -42
data_designer-0.4.0.dist-info/RECORD +39 -0
data_designer/__init__.py +0 -17
data_designer/config/__init__.py +0 -2
data_designer/config/analysis/__init__.py +0 -2
data_designer/config/analysis/column_profilers.py +0 -159
data_designer/config/analysis/column_statistics.py +0 -421
data_designer/config/analysis/dataset_profiler.py +0 -84
data_designer/config/analysis/utils/errors.py +0 -10
data_designer/config/analysis/utils/reporting.py +0 -192
data_designer/config/base.py +0 -69
data_designer/config/column_configs.py +0 -470
data_designer/config/column_types.py +0 -141
data_designer/config/config_builder.py +0 -595
data_designer/config/data_designer_config.py +0 -40
data_designer/config/dataset_builders.py +0 -13
data_designer/config/dataset_metadata.py +0 -18
data_designer/config/default_model_settings.py +0 -129
data_designer/config/errors.py +0 -24
data_designer/config/exports.py +0 -145
data_designer/config/interface.py +0 -55
data_designer/config/models.py +0 -455
data_designer/config/preview_results.py +0 -41
data_designer/config/processors.py +0 -148
data_designer/config/run_config.py +0 -51
data_designer/config/sampler_constraints.py +0 -52
data_designer/config/sampler_params.py +0 -639
data_designer/config/seed.py +0 -116
data_designer/config/seed_source.py +0 -84
data_designer/config/seed_source_types.py +0 -19
data_designer/config/utils/code_lang.py +0 -82
data_designer/config/utils/constants.py +0 -363
data_designer/config/utils/errors.py +0 -21
data_designer/config/utils/info.py +0 -94
data_designer/config/utils/io_helpers.py +0 -258
data_designer/config/utils/misc.py +0 -78
data_designer/config/utils/numerical_helpers.py +0 -30
data_designer/config/utils/type_helpers.py +0 -106
data_designer/config/utils/visualization.py +0 -482
data_designer/config/validator_params.py +0 -94
data_designer/engine/__init__.py +0 -2
data_designer/engine/analysis/column_profilers/base.py +0 -49
data_designer/engine/analysis/column_profilers/judge_score_profiler.py +0 -153
data_designer/engine/analysis/column_profilers/registry.py +0 -22
data_designer/engine/analysis/column_statistics.py +0 -145
data_designer/engine/analysis/dataset_profiler.py +0 -149
data_designer/engine/analysis/errors.py +0 -9
data_designer/engine/analysis/utils/column_statistics_calculations.py +0 -234
data_designer/engine/analysis/utils/judge_score_processing.py +0 -132
data_designer/engine/column_generators/__init__.py +0 -2
data_designer/engine/column_generators/generators/__init__.py +0 -2
data_designer/engine/column_generators/generators/base.py +0 -122
data_designer/engine/column_generators/generators/embedding.py +0 -35
data_designer/engine/column_generators/generators/expression.py +0 -55
data_designer/engine/column_generators/generators/llm_completion.py +0 -113
data_designer/engine/column_generators/generators/samplers.py +0 -69
data_designer/engine/column_generators/generators/seed_dataset.py +0 -144
data_designer/engine/column_generators/generators/validation.py +0 -140
data_designer/engine/column_generators/registry.py +0 -60
data_designer/engine/column_generators/utils/errors.py +0 -15
data_designer/engine/column_generators/utils/generator_classification.py +0 -43
data_designer/engine/column_generators/utils/judge_score_factory.py +0 -58
data_designer/engine/column_generators/utils/prompt_renderer.py +0 -100
data_designer/engine/compiler.py +0 -97
data_designer/engine/configurable_task.py +0 -71
data_designer/engine/dataset_builders/artifact_storage.py +0 -283
data_designer/engine/dataset_builders/column_wise_builder.py +0 -335
data_designer/engine/dataset_builders/errors.py +0 -15
data_designer/engine/dataset_builders/multi_column_configs.py +0 -46
data_designer/engine/dataset_builders/utils/__init__.py +0 -2
data_designer/engine/dataset_builders/utils/concurrency.py +0 -212
data_designer/engine/dataset_builders/utils/config_compiler.py +0 -62
data_designer/engine/dataset_builders/utils/dag.py +0 -62
data_designer/engine/dataset_builders/utils/dataset_batch_manager.py +0 -200
data_designer/engine/dataset_builders/utils/errors.py +0 -15
data_designer/engine/errors.py +0 -51
data_designer/engine/model_provider.py +0 -77
data_designer/engine/models/__init__.py +0 -2
data_designer/engine/models/errors.py +0 -300
data_designer/engine/models/facade.py +0 -287
data_designer/engine/models/factory.py +0 -42
data_designer/engine/models/litellm_overrides.py +0 -179
data_designer/engine/models/parsers/__init__.py +0 -2
data_designer/engine/models/parsers/errors.py +0 -34
data_designer/engine/models/parsers/parser.py +0 -235
data_designer/engine/models/parsers/postprocessors.py +0 -93
data_designer/engine/models/parsers/tag_parsers.py +0 -62
data_designer/engine/models/parsers/types.py +0 -84
data_designer/engine/models/recipes/base.py +0 -81
data_designer/engine/models/recipes/response_recipes.py +0 -293
data_designer/engine/models/registry.py +0 -146
data_designer/engine/models/telemetry.py +0 -359
data_designer/engine/models/usage.py +0 -73
data_designer/engine/models/utils.py +0 -38
data_designer/engine/processing/ginja/__init__.py +0 -2
data_designer/engine/processing/ginja/ast.py +0 -65
data_designer/engine/processing/ginja/environment.py +0 -463
data_designer/engine/processing/ginja/exceptions.py +0 -56
data_designer/engine/processing/ginja/record.py +0 -32
data_designer/engine/processing/gsonschema/__init__.py +0 -2
data_designer/engine/processing/gsonschema/exceptions.py +0 -15
data_designer/engine/processing/gsonschema/schema_transformers.py +0 -83
data_designer/engine/processing/gsonschema/types.py +0 -10
data_designer/engine/processing/gsonschema/validators.py +0 -202
data_designer/engine/processing/processors/base.py +0 -13
data_designer/engine/processing/processors/drop_columns.py +0 -42
data_designer/engine/processing/processors/registry.py +0 -25
data_designer/engine/processing/processors/schema_transform.py +0 -49
data_designer/engine/processing/utils.py +0 -169
data_designer/engine/registry/base.py +0 -99
data_designer/engine/registry/data_designer_registry.py +0 -39
data_designer/engine/registry/errors.py +0 -12
data_designer/engine/resources/managed_dataset_generator.py +0 -39
data_designer/engine/resources/managed_dataset_repository.py +0 -197
data_designer/engine/resources/managed_storage.py +0 -65
data_designer/engine/resources/resource_provider.py +0 -77
data_designer/engine/resources/seed_reader.py +0 -154
data_designer/engine/sampling_gen/column.py +0 -91
data_designer/engine/sampling_gen/constraints.py +0 -100
data_designer/engine/sampling_gen/data_sources/base.py +0 -217
data_designer/engine/sampling_gen/data_sources/errors.py +0 -12
data_designer/engine/sampling_gen/data_sources/sources.py +0 -347
data_designer/engine/sampling_gen/entities/__init__.py +0 -2
data_designer/engine/sampling_gen/entities/assets/zip_area_code_map.parquet +0 -0
data_designer/engine/sampling_gen/entities/dataset_based_person_fields.py +0 -86
data_designer/engine/sampling_gen/entities/email_address_utils.py +0 -171
data_designer/engine/sampling_gen/entities/errors.py +0 -10
data_designer/engine/sampling_gen/entities/national_id_utils.py +0 -102
data_designer/engine/sampling_gen/entities/person.py +0 -144
data_designer/engine/sampling_gen/entities/phone_number.py +0 -128
data_designer/engine/sampling_gen/errors.py +0 -26
data_designer/engine/sampling_gen/generator.py +0 -122
data_designer/engine/sampling_gen/jinja_utils.py +0 -64
data_designer/engine/sampling_gen/people_gen.py +0 -199
data_designer/engine/sampling_gen/person_constants.py +0 -56
data_designer/engine/sampling_gen/schema.py +0 -147
data_designer/engine/sampling_gen/schema_builder.py +0 -61
data_designer/engine/sampling_gen/utils.py +0 -46
data_designer/engine/secret_resolver.py +0 -82
data_designer/engine/validation.py +0 -367
data_designer/engine/validators/__init__.py +0 -19
data_designer/engine/validators/base.py +0 -38
data_designer/engine/validators/local_callable.py +0 -39
data_designer/engine/validators/python.py +0 -254
data_designer/engine/validators/remote.py +0 -89
data_designer/engine/validators/sql.py +0 -65
data_designer/errors.py +0 -7
data_designer/essentials/__init__.py +0 -33
data_designer/lazy_heavy_imports.py +0 -54
data_designer/logging.py +0 -163
data_designer/plugin_manager.py +0 -78
data_designer/plugins/__init__.py +0 -8
data_designer/plugins/errors.py +0 -15
data_designer/plugins/plugin.py +0 -141
data_designer/plugins/registry.py +0 -88
data_designer/plugins/testing/__init__.py +0 -10
data_designer/plugins/testing/stubs.py +0 -116
data_designer/plugins/testing/utils.py +0 -20
data_designer-0.3.8rc2.dist-info/RECORD +0 -196
data_designer-0.3.8rc2.dist-info/licenses/LICENSE +0 -201
{data_designer-0.3.8rc2.dist-info → data_designer-0.4.0.dist-info}/WHEEL +0 -0
{data_designer-0.3.8rc2.dist-info → data_designer-0.4.0.dist-info}/entry_points.txt +0 -0

data_designer/config/seed.py DELETED Viewed

@@ -1,116 +0,0 @@
-# SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
-# SPDX-License-Identifier: Apache-2.0
-from __future__ import annotations
-from enum import Enum
-from pydantic import Field, model_validator
-from typing_extensions import Self
-from data_designer.config.base import ConfigBase
-from data_designer.config.seed_source_types import SeedSourceT
-class SamplingStrategy(str, Enum):
-    ORDERED = "ordered"
-    SHUFFLE = "shuffle"
-class IndexRange(ConfigBase):
-    start: int = Field(ge=0, description="The start index of the index range (inclusive)")
-    end: int = Field(ge=0, description="The end index of the index range (inclusive)")
-    @model_validator(mode="after")
-    def _validate_index_range(self) -> Self:
-        if self.start > self.end:
-            raise ValueError("'start' index must be less than or equal to 'end' index")
-        return self
-    @property
-    def size(self) -> int:
-        return self.end - self.start + 1
-class PartitionBlock(ConfigBase):
-    index: int = Field(default=0, ge=0, description="The index of the partition to sample from")
-    num_partitions: int = Field(default=1, ge=1, description="The total number of partitions in the dataset")
-    @model_validator(mode="after")
-    def _validate_partition_block(self) -> Self:
-        if self.index >= self.num_partitions:
-            raise ValueError("'index' must be less than 'num_partitions'")
-        return self
-    def to_index_range(self, dataset_size: int) -> IndexRange:
-        partition_size = dataset_size // self.num_partitions
-        start = self.index * partition_size
-        # For the last partition, extend to the end of the dataset to include remainder rows
-        if self.index == self.num_partitions - 1:
-            end = dataset_size - 1
-        else:
-            end = ((self.index + 1) * partition_size) - 1
-        return IndexRange(start=start, end=end)
-class SeedConfig(ConfigBase):
-    """Configuration for sampling data from a seed dataset.
-    Args:
-        source: A SeedSource defining where the seed data exists
-        sampling_strategy: Strategy for how to sample rows from the dataset.
-            - ORDERED: Read rows sequentially in their original order.
-            - SHUFFLE: Randomly shuffle rows before sampling. When used with
-              selection_strategy, shuffling occurs within the selected range/partition.
-        selection_strategy: Optional strategy to select a subset of the dataset.
-            - IndexRange: Select a specific range of indices (e.g., rows 100-200).
-            - PartitionBlock: Select a partition by splitting the dataset into N equal parts.
-              Partition indices are zero-based (index=0 is the first partition, index=1 is
-              the second, etc.).
-    Examples:
-        Read rows sequentially from start to end:
-            SeedConfig(
-                source=LocalFileSeedSource(path="my_data.parquet"),
-                sampling_strategy=SamplingStrategy.ORDERED
-            )
-        Read rows in random order:
-            SeedConfig(
-                source=LocalFileSeedSource(path="my_data.parquet"),
-                sampling_strategy=SamplingStrategy.SHUFFLE
-            )
-        Read specific index range (rows 100-199):
-            SeedConfig(
-                source=LocalFileSeedSource(path="my_data.parquet"),
-                sampling_strategy=SamplingStrategy.ORDERED,
-                selection_strategy=IndexRange(start=100, end=199)
-            )
-        Read random rows from a specific index range (shuffles within rows 100-199):
-            SeedConfig(
-                source=LocalFileSeedSource(path="my_data.parquet"),
-                sampling_strategy=SamplingStrategy.SHUFFLE,
-                selection_strategy=IndexRange(start=100, end=199)
-            )
-        Read from partition 2 (3rd partition, zero-based) of 5 partitions (20% of dataset):
-            SeedConfig(
-                source=LocalFileSeedSource(path="my_data.parquet"),
-                sampling_strategy=SamplingStrategy.ORDERED,
-                selection_strategy=PartitionBlock(index=2, num_partitions=5)
-            )
-        Read shuffled rows from partition 0 of 10 partitions (shuffles within the partition):
-            SeedConfig(
-                source=LocalFileSeedSource(path="my_data.parquet"),
-                sampling_strategy=SamplingStrategy.SHUFFLE,
-                selection_strategy=PartitionBlock(index=0, num_partitions=10)
-            )
-    """
-    source: SeedSourceT
-    sampling_strategy: SamplingStrategy = SamplingStrategy.ORDERED
-    selection_strategy: IndexRange | PartitionBlock | None = None

data_designer/config/seed_source.py DELETED Viewed

@@ -1,84 +0,0 @@
-# SPDX-FileCopyrightText: Copyright (c) 2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
-# SPDX-License-Identifier: Apache-2.0
-from __future__ import annotations
-from abc import ABC
-from typing import TYPE_CHECKING, Literal
-from pydantic import BaseModel, ConfigDict, Field, field_validator
-from pydantic.json_schema import SkipJsonSchema
-from typing_extensions import Self
-from data_designer.config.utils.io_helpers import (
-    VALID_DATASET_FILE_EXTENSIONS,
-    validate_dataset_file_path,
-    validate_path_contains_files_of_type,
-)
-from data_designer.lazy_heavy_imports import pd
-if TYPE_CHECKING:
-    import pandas as pd
-class SeedSource(BaseModel, ABC):
-    """Base class for seed dataset configurations.
-    All subclasses must define a `seed_type` field with a Literal value.
-    This serves as a discriminated union discriminator.
-    """
-    seed_type: str
-class LocalFileSeedSource(SeedSource):
-    seed_type: Literal["local"] = "local"
-    path: str
-    @field_validator("path", mode="after")
-    def validate_path(cls, v: str) -> str:
-        valid_wild_card_versions = {f"*{ext}" for ext in VALID_DATASET_FILE_EXTENSIONS}
-        if any(v.endswith(wildcard) for wildcard in valid_wild_card_versions):
-            parts = v.split("*.")
-            file_path = parts[0]
-            file_extension = parts[-1]
-            validate_path_contains_files_of_type(file_path, file_extension)
-        else:
-            validate_dataset_file_path(v)
-        return v
-    @classmethod
-    def from_dataframe(cls, df: pd.DataFrame, path: str) -> Self:
-        df.to_parquet(path, index=False)
-        return cls(path=path)
-class HuggingFaceSeedSource(SeedSource):
-    seed_type: Literal["hf"] = "hf"
-    path: str = Field(
-        ...,
-        description=(
-            "Path to the seed data in HuggingFace. Wildcards are allowed. Examples include "
-            "'datasets/my-username/my-dataset/data/000_00000.parquet', 'datasets/my-username/my-dataset/data/*.parquet', "
-            "and 'datasets/my-username/my-dataset/**/*.parquet'"
-        ),
-    )
-    token: str | None = None
-    endpoint: str = "https://huggingface.co"
-class DataFrameSeedSource(SeedSource):
-    seed_type: Literal["df"] = "df"
-    model_config = ConfigDict(arbitrary_types_allowed=True)
-    df: SkipJsonSchema[pd.DataFrame] = Field(
-        ...,
-        exclude=True,
-        description=(
-            "DataFrame to use directly as the seed dataset. NOTE: if you need to write a Data Designer config, "
-            "you must use `LocalFileSeedSource` instead, since DataFrame objects are not serializable."
-        ),
-    )

data_designer/config/seed_source_types.py DELETED Viewed

@@ -1,19 +0,0 @@
-# SPDX-FileCopyrightText: Copyright (c) 2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
-# SPDX-License-Identifier: Apache-2.0
-from __future__ import annotations
-from typing import Annotated
-from pydantic import Field
-from typing_extensions import TypeAlias
-from data_designer.config.seed_source import DataFrameSeedSource, HuggingFaceSeedSource, LocalFileSeedSource
-from data_designer.plugin_manager import PluginManager
-plugin_manager = PluginManager()
-_SeedSourceT: TypeAlias = LocalFileSeedSource | HuggingFaceSeedSource | DataFrameSeedSource
-_SeedSourceT = plugin_manager.inject_into_seed_source_type_union(_SeedSourceT)
-SeedSourceT = Annotated[_SeedSourceT, Field(discriminator="seed_type")]

data_designer/config/utils/code_lang.py DELETED Viewed

@@ -1,82 +0,0 @@
-# SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
-# SPDX-License-Identifier: Apache-2.0
-from __future__ import annotations
-from enum import Enum
-class CodeLang(str, Enum):
-    GO = "go"
-    JAVASCRIPT = "javascript"
-    JAVA = "java"
-    KOTLIN = "kotlin"
-    PYTHON = "python"
-    RUBY = "ruby"
-    RUST = "rust"
-    SCALA = "scala"
-    SWIFT = "swift"
-    TYPESCRIPT = "typescript"
-    SQL_SQLITE = "sql:sqlite"
-    SQL_TSQL = "sql:tsql"
-    SQL_BIGQUERY = "sql:bigquery"
-    SQL_MYSQL = "sql:mysql"
-    SQL_POSTGRES = "sql:postgres"
-    SQL_ANSI = "sql:ansi"
-    @staticmethod
-    def parse(value: str | CodeLang) -> tuple[str, str | None]:
-        value = value.value if isinstance(value, CodeLang) else value
-        split_vals = value.split(":")
-        return (split_vals[0], split_vals[1] if len(split_vals) > 1 else None)
-    @staticmethod
-    def parse_lang(value: str | CodeLang) -> str:
-        return CodeLang.parse(value)[0]
-    @staticmethod
-    def parse_dialect(value: str | CodeLang) -> str | None:
-        return CodeLang.parse(value)[1]
-    @staticmethod
-    def supported_values() -> set[str]:
-        return {lang.value for lang in CodeLang}
-SQL_DIALECTS: set[CodeLang] = {
-    CodeLang.SQL_SQLITE,
-    CodeLang.SQL_TSQL,
-    CodeLang.SQL_BIGQUERY,
-    CodeLang.SQL_MYSQL,
-    CodeLang.SQL_POSTGRES,
-    CodeLang.SQL_ANSI,
-}
-##########################################################
-# Helper functions
-##########################################################
-def code_lang_to_syntax_lexer(code_lang: CodeLang | str) -> str:
-    """Convert the code language to a syntax lexer for Pygments.
-    Reference: https://pygments.org/docs/lexers/
-    """
-    code_lang_to_lexer = {
-        CodeLang.GO: "golang",
-        CodeLang.JAVASCRIPT: "javascript",
-        CodeLang.JAVA: "java",
-        CodeLang.KOTLIN: "kotlin",
-        CodeLang.PYTHON: "python",
-        CodeLang.RUBY: "ruby",
-        CodeLang.RUST: "rust",
-        CodeLang.SCALA: "scala",
-        CodeLang.SWIFT: "swift",
-        CodeLang.SQL_SQLITE: "sql",
-        CodeLang.SQL_ANSI: "sql",
-        CodeLang.SQL_TSQL: "tsql",
-        CodeLang.SQL_BIGQUERY: "sql",
-        CodeLang.SQL_MYSQL: "mysql",
-        CodeLang.SQL_POSTGRES: "postgres",
-    }
-    return code_lang_to_lexer.get(code_lang, code_lang)

data_designer/config/utils/constants.py DELETED Viewed

@@ -1,363 +0,0 @@
-# SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
-# SPDX-License-Identifier: Apache-2.0
-from __future__ import annotations
-import os
-from enum import Enum
-from pathlib import Path
-from rich.theme import Theme
-DEFAULT_NUM_RECORDS = 10
-EPSILON = 1e-8
-REPORTING_PRECISION = 2
-DEFAULT_REPR_HTML_STYLE = "nord"
-REPR_HTML_FIXED_WIDTH = 1000
-REPR_HTML_TEMPLATE = """
-<meta charset="UTF-8">
-<style>
-{{css}}
-.code {{{{
-  padding: 4px;
-  border: 1px solid grey;
-  border-radius: 4px;
-  max-width: {fixed_width}px;
-  width: 100%;
-  display: inline-block;
-  box-sizing: border-box;
-  text-align: left;
-  vertical-align: top;
-  line-height: normal;
-  overflow-x: auto;
-}}}}
-.code pre {{{{
-  white-space: pre-wrap;       /* CSS 3 */
-  white-space: -moz-pre-wrap;  /* Mozilla, since 1999 */
-  white-space: -pre-wrap;      /* Opera 4-6 */
-  white-space: -o-pre-wrap;    /* Opera 7 */
-  word-wrap: break-word;
-  overflow-wrap: break-word;
-  margin: 0;
-}}}}
-</style>
-{{highlighted_html}}
-""".format(fixed_width=REPR_HTML_FIXED_WIDTH)
-class NordColor(Enum):
-    NORD0 = "#2E3440"  # Darkest gray (background)
-    NORD1 = "#3B4252"  # Dark gray
-    NORD2 = "#434C5E"  # Medium dark gray
-    NORD3 = "#4C566A"  # Lighter dark gray
-    NORD4 = "#D8DEE9"  # Light gray (default text)
-    NORD5 = "#E5E9F0"  # Very light gray
-    NORD6 = "#ECEFF4"  # Almost white
-    NORD7 = "#8FBCBB"  # Teal
-    NORD8 = "#88C0D0"  # Light cyan
-    NORD9 = "#81A1C1"  # Soft blue
-    NORD10 = "#5E81AC"  # Darker blue
-    NORD11 = "#BF616A"  # Red
-    NORD12 = "#D08770"  # Orange
-    NORD13 = "#EBCB8B"  # Yellow
-    NORD14 = "#A3BE8C"  # Green
-    NORD15 = "#B48EAD"  # Purple
-RICH_CONSOLE_THEME = Theme(
-    {
-        "repr.number": NordColor.NORD15.value,  # Purple for numbers
-        "repr.string": NordColor.NORD14.value,  # Green for strings
-        "repr.bool_true": NordColor.NORD9.value,  # Blue for True
-        "repr.bool_false": NordColor.NORD9.value,  # Blue for False
-        "repr.none": NordColor.NORD11.value,  # Red for None
-        "repr.brace": NordColor.NORD7.value,  # Teal for brackets/braces
-        "repr.comma": NordColor.NORD7.value,  # Teal for commas
-        "repr.ellipsis": NordColor.NORD7.value,  # Teal for ellipsis
-        "repr.attrib_name": NordColor.NORD3.value,  # Light gray for dict keys
-        "repr.attrib_equal": NordColor.NORD7.value,  # Teal for equals signs
-        "repr.call": NordColor.NORD10.value,  # Darker blue for function calls
-        "repr.function_name": NordColor.NORD10.value,  # Darker blue for function names
-        "repr.class_name": NordColor.NORD12.value,  # Orange for class names
-        "repr.module_name": NordColor.NORD8.value,  # Light cyan for module names
-        "repr.error": NordColor.NORD11.value,  # Red for errors
-        "repr.warning": NordColor.NORD13.value,  # Yellow for warnings
-    }
-)
-DEFAULT_HIST_NAME_COLOR = "medium_purple1"
-DEFAULT_HIST_VALUE_COLOR = "pale_green3"
-DEFAULT_AGE_RANGE = [18, 114]
-MIN_AGE = 0
-MAX_AGE = 114
-US_STATES_AND_MAJOR_TERRITORIES = {
-    # States
-    "AK",
-    "AL",
-    "AR",
-    "AZ",
-    "CA",
-    "CO",
-    "CT",
-    "DE",
-    "FL",
-    "GA",
-    "HI",
-    "IA",
-    "ID",
-    "IL",
-    "IN",
-    "KS",
-    "KY",
-    "LA",
-    "MA",
-    "MD",
-    "ME",
-    "MI",
-    "MN",
-    "MO",
-    "MS",
-    "MT",
-    "NC",
-    "ND",
-    "NE",
-    "NH",
-    "NJ",
-    "NM",
-    "NV",
-    "NY",
-    "OH",
-    "OK",
-    "OR",
-    "PA",
-    "RI",
-    "SC",
-    "SD",
-    "TN",
-    "TX",
-    "UT",
-    "VA",
-    "VT",
-    "WA",
-    "WI",
-    "WV",
-    "WY",
-    # D.C.
-    "DC",
-    # Territories
-    "AS",
-    "GU",
-    "MP",
-    "PR",
-    "VI",
-}
-MAX_TEMPERATURE = 2.0
-MIN_TEMPERATURE = 0.0
-MAX_TOP_P = 1.0
-MIN_TOP_P = 0.0
-MIN_MAX_TOKENS = 1
-REASONING_TRACE_COLUMN_POSTFIX = "__reasoning_trace"
-AVAILABLE_LOCALES = [
-    "ar_AA",
-    "ar_AE",
-    "ar_BH",
-    "ar_EG",
-    "ar_JO",
-    "ar_PS",
-    "ar_SA",
-    "az_AZ",
-    "bg_BG",
-    "bn_BD",
-    "bs_BA",
-    "cs_CZ",
-    "da_DK",
-    "de",
-    "de_AT",
-    "de_CH",
-    "de_DE",
-    "dk_DK",
-    "el_CY",
-    "el_GR",
-    "en",
-    "en_AU",
-    "en_BD",
-    "en_CA",
-    "en_GB",
-    "en_IE",
-    "en_IN",
-    "en_NZ",
-    "en_PH",
-    "en_TH",
-    "en_US",
-    "es",
-    "es_AR",
-    "es_CA",
-    "es_CL",
-    "es_CO",
-    "es_ES",
-    "es_MX",
-    "et_EE",
-    "fa_IR",
-    "fi_FI",
-    "fil_PH",
-    "fr_BE",
-    "fr_CA",
-    "fr_CH",
-    "fr_FR",
-    #    "fr_QC", deprecated, use fr_CA instead
-    "ga_IE",
-    "he_IL",
-    "hi_IN",
-    "hr_HR",
-    "hu_HU",
-    "hy_AM",
-    "id_ID",
-    "it_CH",
-    "it_IT",
-    "ja_JP",
-    "ka_GE",
-    "ko_KR",
-    "la",
-    "lb_LU",
-    "lt_LT",
-    "lv_LV",
-    "mt_MT",
-    "ne_NP",
-    "nl_BE",
-    "nl_NL",
-    "no_NO",
-    "or_IN",
-    "pl_PL",
-    "pt_BR",
-    "pt_PT",
-    "ro_RO",
-    "ru_RU",
-    "sk_SK",
-    "sl_SI",
-    "sq_AL",
-    "sv_SE",
-    "ta_IN",
-    "th",
-    "th_TH",
-    "tl_PH",
-    "tr_TR",
-    "tw_GH",
-    "uk_UA",
-    "vi_VN",
-    "zh_CN",
-    "zh_TW",
-    "zu_ZA",
-]
-DATA_DESIGNER_HOME_ENV_VAR = "DATA_DESIGNER_HOME"
-DATA_DESIGNER_HOME = Path(os.getenv(DATA_DESIGNER_HOME_ENV_VAR, Path.home() / ".data-designer"))
-MANAGED_ASSETS_PATH_ENV_VAR = "DATA_DESIGNER_MANAGED_ASSETS_PATH"
-MANAGED_ASSETS_PATH = Path(os.getenv(MANAGED_ASSETS_PATH_ENV_VAR, DATA_DESIGNER_HOME / "managed-assets"))
-MODEL_CONFIGS_FILE_NAME = "model_configs.yaml"
-MODEL_CONFIGS_FILE_PATH = DATA_DESIGNER_HOME / MODEL_CONFIGS_FILE_NAME
-MODEL_PROVIDERS_FILE_NAME = "model_providers.yaml"
-MODEL_PROVIDERS_FILE_PATH = DATA_DESIGNER_HOME / MODEL_PROVIDERS_FILE_NAME
-NVIDIA_PROVIDER_NAME = "nvidia"
-NVIDIA_API_KEY_ENV_VAR_NAME = "NVIDIA_API_KEY"
-OPENAI_PROVIDER_NAME = "openai"
-OPENAI_API_KEY_ENV_VAR_NAME = "OPENAI_API_KEY"
-OPENROUTER_PROVIDER_NAME = "openrouter"
-OPENROUTER_API_KEY_ENV_VAR_NAME = "OPENROUTER_API_KEY"
-PREDEFINED_PROVIDERS = [
-    {
-        "name": NVIDIA_PROVIDER_NAME,
-        "endpoint": "https://integrate.api.nvidia.com/v1",
-        "provider_type": "openai",
-        "api_key": NVIDIA_API_KEY_ENV_VAR_NAME,
-    },
-    {
-        "name": OPENAI_PROVIDER_NAME,
-        "endpoint": "https://api.openai.com/v1",
-        "provider_type": "openai",
-        "api_key": OPENAI_API_KEY_ENV_VAR_NAME,
-    },
-    {
-        "name": OPENROUTER_PROVIDER_NAME,
-        "endpoint": "https://openrouter.ai/api/v1",
-        "provider_type": "openai",
-        "api_key": OPENROUTER_API_KEY_ENV_VAR_NAME,
-    },
-]
-DEFAULT_TEXT_INFERENCE_PARAMS = {"temperature": 0.85, "top_p": 0.95}
-DEFAULT_REASONING_INFERENCE_PARAMS = {"temperature": 0.35, "top_p": 0.95}
-DEFAULT_VISION_INFERENCE_PARAMS = {"temperature": 0.85, "top_p": 0.95}
-DEFAULT_EMBEDDING_INFERENCE_PARAMS = {"encoding_format": "float"}
-NEMOTRON_3_NANO_30B_A3B_INFERENCE_PARAMS = {"temperature": 1.0, "top_p": 1.0}
-PREDEFINED_PROVIDERS_MODEL_MAP = {
-    NVIDIA_PROVIDER_NAME: {
-        "text": {
-            "model": "nvidia/nemotron-3-nano-30b-a3b",
-            "inference_parameters": NEMOTRON_3_NANO_30B_A3B_INFERENCE_PARAMS,
-        },
-        "reasoning": {"model": "openai/gpt-oss-20b", "inference_parameters": DEFAULT_REASONING_INFERENCE_PARAMS},
-        "vision": {"model": "nvidia/nemotron-nano-12b-v2-vl", "inference_parameters": DEFAULT_VISION_INFERENCE_PARAMS},
-        "embedding": {
-            "model": "nvidia/llama-3.2-nv-embedqa-1b-v2",
-            "inference_parameters": DEFAULT_EMBEDDING_INFERENCE_PARAMS | {"extra_body": {"input_type": "query"}},
-        },
-    },
-    OPENAI_PROVIDER_NAME: {
-        "text": {"model": "gpt-4.1", "inference_parameters": DEFAULT_TEXT_INFERENCE_PARAMS},
-        "reasoning": {"model": "gpt-5", "inference_parameters": DEFAULT_REASONING_INFERENCE_PARAMS},
-        "vision": {"model": "gpt-5", "inference_parameters": DEFAULT_VISION_INFERENCE_PARAMS},
-        "embedding": {"model": "text-embedding-3-large", "inference_parameters": DEFAULT_EMBEDDING_INFERENCE_PARAMS},
-    },
-    OPENROUTER_PROVIDER_NAME: {
-        "text": {
-            "model": "nvidia/nemotron-3-nano-30b-a3b",
-            "inference_parameters": NEMOTRON_3_NANO_30B_A3B_INFERENCE_PARAMS,
-        },
-        "reasoning": {"model": "openai/gpt-oss-20b", "inference_parameters": DEFAULT_REASONING_INFERENCE_PARAMS},
-        "vision": {"model": "nvidia/nemotron-nano-12b-v2-vl", "inference_parameters": DEFAULT_VISION_INFERENCE_PARAMS},
-        "embedding": {
-            "model": "openai/text-embedding-3-large",
-            "inference_parameters": DEFAULT_EMBEDDING_INFERENCE_PARAMS,
-        },
-    },
-}
-# Persona locale metadata - used by the CLI and the person sampler.
-NEMOTRON_PERSONAS_DATASET_SIZES = {
-    "en_US": "1.24 GB",
-    "en_IN": "2.39 GB",
-    "hi_Deva_IN": "4.14 GB",
-    "hi_Latn_IN": "2.7 GB",
-    "ja_JP": "1.69 GB",
-}
-LOCALES_WITH_MANAGED_DATASETS = list[str](NEMOTRON_PERSONAS_DATASET_SIZES.keys())
-NEMOTRON_PERSONAS_DATASET_PREFIX = "nemotron-personas-dataset-"

data_designer/config/utils/errors.py DELETED Viewed

@@ -1,21 +0,0 @@
-# SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
-# SPDX-License-Identifier: Apache-2.0
-from __future__ import annotations
-from data_designer.errors import DataDesignerError
-class UserJinjaTemplateSyntaxError(DataDesignerError): ...
-class InvalidEnumValueError(DataDesignerError): ...
-class InvalidTypeUnionError(DataDesignerError): ...
-class InvalidDiscriminatorFieldError(DataDesignerError): ...
-class DatasetSampleDisplayError(DataDesignerError): ...

data-designer 0.3.8rc2__py3-none-any.whl → 0.4.0__py3-none-any.whl

data-designer 0.3.8rc2py3-none-any.whl → 0.4.0py3-none-any.whl