PyPI - data-designer - Versions diffs - 0.3.8rc1__py3-none-any.whl → 0.4.0__py3-none-any.whl - Mend

data-designer 0.3.8rc1py3-none-any.whl → 0.4.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (166) hide show

data_designer/cli/commands/__init__.py +1 -1
data_designer/interface/__init__.py +21 -1
data_designer/{_version.py → interface/_version.py} +2 -2
data_designer/interface/data_designer.py +8 -11
{data_designer-0.3.8rc1.dist-info → data_designer-0.4.0.dist-info}/METADATA +10 -42
data_designer-0.4.0.dist-info/RECORD +39 -0
data_designer/__init__.py +0 -17
data_designer/config/__init__.py +0 -2
data_designer/config/analysis/__init__.py +0 -2
data_designer/config/analysis/column_profilers.py +0 -159
data_designer/config/analysis/column_statistics.py +0 -421
data_designer/config/analysis/dataset_profiler.py +0 -84
data_designer/config/analysis/utils/errors.py +0 -10
data_designer/config/analysis/utils/reporting.py +0 -192
data_designer/config/base.py +0 -69
data_designer/config/column_configs.py +0 -470
data_designer/config/column_types.py +0 -141
data_designer/config/config_builder.py +0 -595
data_designer/config/data_designer_config.py +0 -40
data_designer/config/dataset_builders.py +0 -13
data_designer/config/dataset_metadata.py +0 -18
data_designer/config/default_model_settings.py +0 -121
data_designer/config/errors.py +0 -24
data_designer/config/exports.py +0 -145
data_designer/config/interface.py +0 -55
data_designer/config/models.py +0 -455
data_designer/config/preview_results.py +0 -41
data_designer/config/processors.py +0 -148
data_designer/config/run_config.py +0 -48
data_designer/config/sampler_constraints.py +0 -52
data_designer/config/sampler_params.py +0 -639
data_designer/config/seed.py +0 -116
data_designer/config/seed_source.py +0 -84
data_designer/config/seed_source_types.py +0 -19
data_designer/config/utils/code_lang.py +0 -82
data_designer/config/utils/constants.py +0 -363
data_designer/config/utils/errors.py +0 -21
data_designer/config/utils/info.py +0 -94
data_designer/config/utils/io_helpers.py +0 -258
data_designer/config/utils/misc.py +0 -78
data_designer/config/utils/numerical_helpers.py +0 -30
data_designer/config/utils/type_helpers.py +0 -106
data_designer/config/utils/visualization.py +0 -482
data_designer/config/validator_params.py +0 -94
data_designer/engine/__init__.py +0 -2
data_designer/engine/analysis/column_profilers/base.py +0 -49
data_designer/engine/analysis/column_profilers/judge_score_profiler.py +0 -153
data_designer/engine/analysis/column_profilers/registry.py +0 -22
data_designer/engine/analysis/column_statistics.py +0 -145
data_designer/engine/analysis/dataset_profiler.py +0 -149
data_designer/engine/analysis/errors.py +0 -9
data_designer/engine/analysis/utils/column_statistics_calculations.py +0 -234
data_designer/engine/analysis/utils/judge_score_processing.py +0 -132
data_designer/engine/column_generators/__init__.py +0 -2
data_designer/engine/column_generators/generators/__init__.py +0 -2
data_designer/engine/column_generators/generators/base.py +0 -122
data_designer/engine/column_generators/generators/embedding.py +0 -35
data_designer/engine/column_generators/generators/expression.py +0 -55
data_designer/engine/column_generators/generators/llm_completion.py +0 -113
data_designer/engine/column_generators/generators/samplers.py +0 -69
data_designer/engine/column_generators/generators/seed_dataset.py +0 -144
data_designer/engine/column_generators/generators/validation.py +0 -140
data_designer/engine/column_generators/registry.py +0 -60
data_designer/engine/column_generators/utils/errors.py +0 -15
data_designer/engine/column_generators/utils/generator_classification.py +0 -43
data_designer/engine/column_generators/utils/judge_score_factory.py +0 -58
data_designer/engine/column_generators/utils/prompt_renderer.py +0 -100
data_designer/engine/compiler.py +0 -97
data_designer/engine/configurable_task.py +0 -71
data_designer/engine/dataset_builders/artifact_storage.py +0 -283
data_designer/engine/dataset_builders/column_wise_builder.py +0 -338
data_designer/engine/dataset_builders/errors.py +0 -15
data_designer/engine/dataset_builders/multi_column_configs.py +0 -46
data_designer/engine/dataset_builders/utils/__init__.py +0 -2
data_designer/engine/dataset_builders/utils/concurrency.py +0 -215
data_designer/engine/dataset_builders/utils/config_compiler.py +0 -62
data_designer/engine/dataset_builders/utils/dag.py +0 -62
data_designer/engine/dataset_builders/utils/dataset_batch_manager.py +0 -200
data_designer/engine/dataset_builders/utils/errors.py +0 -15
data_designer/engine/errors.py +0 -51
data_designer/engine/model_provider.py +0 -77
data_designer/engine/models/__init__.py +0 -2
data_designer/engine/models/errors.py +0 -300
data_designer/engine/models/facade.py +0 -287
data_designer/engine/models/factory.py +0 -42
data_designer/engine/models/litellm_overrides.py +0 -179
data_designer/engine/models/parsers/__init__.py +0 -2
data_designer/engine/models/parsers/errors.py +0 -34
data_designer/engine/models/parsers/parser.py +0 -235
data_designer/engine/models/parsers/postprocessors.py +0 -93
data_designer/engine/models/parsers/tag_parsers.py +0 -62
data_designer/engine/models/parsers/types.py +0 -84
data_designer/engine/models/recipes/base.py +0 -81
data_designer/engine/models/recipes/response_recipes.py +0 -293
data_designer/engine/models/registry.py +0 -146
data_designer/engine/models/telemetry.py +0 -359
data_designer/engine/models/usage.py +0 -73
data_designer/engine/models/utils.py +0 -38
data_designer/engine/processing/ginja/__init__.py +0 -2
data_designer/engine/processing/ginja/ast.py +0 -65
data_designer/engine/processing/ginja/environment.py +0 -463
data_designer/engine/processing/ginja/exceptions.py +0 -56
data_designer/engine/processing/ginja/record.py +0 -32
data_designer/engine/processing/gsonschema/__init__.py +0 -2
data_designer/engine/processing/gsonschema/exceptions.py +0 -15
data_designer/engine/processing/gsonschema/schema_transformers.py +0 -83
data_designer/engine/processing/gsonschema/types.py +0 -10
data_designer/engine/processing/gsonschema/validators.py +0 -202
data_designer/engine/processing/processors/base.py +0 -13
data_designer/engine/processing/processors/drop_columns.py +0 -42
data_designer/engine/processing/processors/registry.py +0 -25
data_designer/engine/processing/processors/schema_transform.py +0 -49
data_designer/engine/processing/utils.py +0 -169
data_designer/engine/registry/base.py +0 -99
data_designer/engine/registry/data_designer_registry.py +0 -39
data_designer/engine/registry/errors.py +0 -12
data_designer/engine/resources/managed_dataset_generator.py +0 -39
data_designer/engine/resources/managed_dataset_repository.py +0 -197
data_designer/engine/resources/managed_storage.py +0 -65
data_designer/engine/resources/resource_provider.py +0 -77
data_designer/engine/resources/seed_reader.py +0 -154
data_designer/engine/sampling_gen/column.py +0 -91
data_designer/engine/sampling_gen/constraints.py +0 -100
data_designer/engine/sampling_gen/data_sources/base.py +0 -217
data_designer/engine/sampling_gen/data_sources/errors.py +0 -12
data_designer/engine/sampling_gen/data_sources/sources.py +0 -347
data_designer/engine/sampling_gen/entities/__init__.py +0 -2
data_designer/engine/sampling_gen/entities/assets/zip_area_code_map.parquet +0 -0
data_designer/engine/sampling_gen/entities/dataset_based_person_fields.py +0 -86
data_designer/engine/sampling_gen/entities/email_address_utils.py +0 -171
data_designer/engine/sampling_gen/entities/errors.py +0 -10
data_designer/engine/sampling_gen/entities/national_id_utils.py +0 -102
data_designer/engine/sampling_gen/entities/person.py +0 -144
data_designer/engine/sampling_gen/entities/phone_number.py +0 -128
data_designer/engine/sampling_gen/errors.py +0 -26
data_designer/engine/sampling_gen/generator.py +0 -122
data_designer/engine/sampling_gen/jinja_utils.py +0 -64
data_designer/engine/sampling_gen/people_gen.py +0 -199
data_designer/engine/sampling_gen/person_constants.py +0 -56
data_designer/engine/sampling_gen/schema.py +0 -147
data_designer/engine/sampling_gen/schema_builder.py +0 -61
data_designer/engine/sampling_gen/utils.py +0 -46
data_designer/engine/secret_resolver.py +0 -82
data_designer/engine/validation.py +0 -367
data_designer/engine/validators/__init__.py +0 -19
data_designer/engine/validators/base.py +0 -38
data_designer/engine/validators/local_callable.py +0 -39
data_designer/engine/validators/python.py +0 -254
data_designer/engine/validators/remote.py +0 -89
data_designer/engine/validators/sql.py +0 -65
data_designer/errors.py +0 -7
data_designer/essentials/__init__.py +0 -33
data_designer/lazy_heavy_imports.py +0 -54
data_designer/logging.py +0 -163
data_designer/plugin_manager.py +0 -78
data_designer/plugins/__init__.py +0 -8
data_designer/plugins/errors.py +0 -15
data_designer/plugins/plugin.py +0 -141
data_designer/plugins/registry.py +0 -88
data_designer/plugins/testing/__init__.py +0 -10
data_designer/plugins/testing/stubs.py +0 -116
data_designer/plugins/testing/utils.py +0 -20
data_designer-0.3.8rc1.dist-info/RECORD +0 -196
data_designer-0.3.8rc1.dist-info/licenses/LICENSE +0 -201
{data_designer-0.3.8rc1.dist-info → data_designer-0.4.0.dist-info}/WHEEL +0 -0
{data_designer-0.3.8rc1.dist-info → data_designer-0.4.0.dist-info}/entry_points.txt +0 -0

data_designer/engine/analysis/utils/column_statistics_calculations.py DELETED Viewed

@@ -1,234 +0,0 @@
-# SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
-# SPDX-License-Identifier: Apache-2.0
-from __future__ import annotations
-import logging
-from numbers import Number
-from typing import TYPE_CHECKING, Any
-import tiktoken
-from data_designer.config.analysis.column_statistics import (
-    CategoricalDistribution,
-    ColumnDistributionType,
-    MissingValue,
-    NumericalDistribution,
-)
-from data_designer.config.column_configs import (
-    LLMTextColumnConfig,
-)
-from data_designer.engine.column_generators.utils.prompt_renderer import (
-    PromptType,
-    RecordBasedPromptRenderer,
-    create_response_recipe,
-)
-from data_designer.lazy_heavy_imports import np, pa, pd
-if TYPE_CHECKING:
-    import numpy as np
-    import pandas as pd
-    import pyarrow as pa
-RANDOM_SEED = 42
-MAX_PROMPT_SAMPLE_SIZE = 1000
-TOKENIZER = tiktoken.get_encoding("cl100k_base")
-WARNING_PREFIX = "⚠️ Error during column profile calculation: "
-TEXT_FIELD_AVG_SPACE_COUNT_THRESHOLD = 0.1
-logger = logging.getLogger(__name__)
-def calculate_column_distribution(
-    column_name: str, df: pd.DataFrame, distribution_type: ColumnDistributionType
-) -> dict[str, CategoricalDistribution | NumericalDistribution | MissingValue | None]:
-    distribution_type = ColumnDistributionType(distribution_type)
-    try:
-        if distribution_type == ColumnDistributionType.CATEGORICAL:
-            return {
-                "distribution_type": ColumnDistributionType.CATEGORICAL,
-                "distribution": CategoricalDistribution.from_series(df[column_name]),
-            }
-        if distribution_type == ColumnDistributionType.NUMERICAL:
-            return {
-                "distribution_type": ColumnDistributionType.NUMERICAL,
-                "distribution": NumericalDistribution.from_series(df[column_name]),
-            }
-    except Exception as e:
-        logger.warning(f"{WARNING_PREFIX} failed to calculate column distribution for '{column_name}' {e}")
-        return {
-            "distribution_type": ColumnDistributionType.UNKNOWN,
-            "distribution": MissingValue.CALCULATION_FAILED,
-        }
-def calculate_general_column_info(column_name: str, df: pd.DataFrame) -> dict[str, Any]:
-    try:
-        _df = pd.DataFrame(df[column_name].apply(ensure_hashable))
-        if has_pyarrow_backend(df):
-            pyarrow_dtype = str(df[column_name].dtype.pyarrow_dtype)
-            simple_dtype = convert_pyarrow_dtype_to_simple_dtype(df[column_name].dtype.pyarrow_dtype)
-        else:
-            # We do not log a warning at the column-level because it would be too noisy.
-            # However, there is a logged warning at the dataset-profiler level.
-            try:
-                simple_dtype = get_column_data_type_from_first_non_null_value(column_name, df)
-            except Exception:
-                simple_dtype = MissingValue.CALCULATION_FAILED
-            pyarrow_dtype = "n/a"
-        return {
-            "pyarrow_dtype": pyarrow_dtype,
-            "simple_dtype": simple_dtype,
-            "num_records": len(_df[column_name]),
-            "num_null": _df[column_name].isnull().sum(),
-            "num_unique": _df[column_name].nunique(),
-        }
-    except Exception as e:
-        logger.warning(f"{WARNING_PREFIX} failed to calculate general column info for '{column_name}': {e}")
-        return {
-            "pyarrow_dtype": MissingValue.CALCULATION_FAILED,
-            "simple_dtype": MissingValue.CALCULATION_FAILED,
-            "num_records": MissingValue.CALCULATION_FAILED,
-            "num_null": MissingValue.CALCULATION_FAILED,
-            "num_unique": MissingValue.CALCULATION_FAILED,
-        }
-def calculate_input_token_stats(
-    column_config: LLMTextColumnConfig, df: pd.DataFrame
-) -> dict[str, float | MissingValue]:
-    try:
-        num_tokens = []
-        num_samples = min(MAX_PROMPT_SAMPLE_SIZE, len(df))
-        renderer = RecordBasedPromptRenderer(response_recipe=create_response_recipe(column_config))
-        for record in df.sample(num_samples, random_state=RANDOM_SEED).to_dict(orient="records"):
-            system_prompt = renderer.render(
-                prompt_template=column_config.system_prompt, record=record, prompt_type=PromptType.SYSTEM_PROMPT
-            )
-            prompt = renderer.render(
-                prompt_template=column_config.prompt, record=record, prompt_type=PromptType.USER_PROMPT
-            )
-            concatenated_prompt = str(system_prompt + "\n\n" + prompt)
-            num_tokens.append(len(TOKENIZER.encode(concatenated_prompt, disallowed_special=())))
-    except Exception as e:
-        logger.warning(f"{WARNING_PREFIX} failed to calculate input token stats for column {column_config.name!r}: {e}")
-        return {
-            "input_tokens_mean": MissingValue.CALCULATION_FAILED,
-            "input_tokens_median": MissingValue.CALCULATION_FAILED,
-            "input_tokens_stddev": MissingValue.CALCULATION_FAILED,
-        }
-    return {
-        "input_tokens_mean": np.mean(num_tokens),
-        "input_tokens_median": np.median(num_tokens),
-        "input_tokens_stddev": np.std(num_tokens),
-    }
-def calculate_output_token_stats(
-    column_config: LLMTextColumnConfig, df: pd.DataFrame
-) -> dict[str, float | MissingValue]:
-    try:
-        tokens_per_record = df[column_config.name].apply(
-            lambda value: len(TOKENIZER.encode(str(value), disallowed_special=()))
-        )
-        return {
-            "output_tokens_mean": tokens_per_record.mean(),
-            "output_tokens_median": tokens_per_record.median(),
-            "output_tokens_stddev": tokens_per_record.std(),
-        }
-    except Exception as e:
-        logger.warning(f"{WARNING_PREFIX} failed to calculate output token stats for column {column_config.name}: {e}")
-        return {
-            "output_tokens_mean": MissingValue.CALCULATION_FAILED,
-            "output_tokens_median": MissingValue.CALCULATION_FAILED,
-            "output_tokens_stddev": MissingValue.CALCULATION_FAILED,
-        }
-def calculate_token_stats(column_config: LLMTextColumnConfig, df: pd.DataFrame) -> dict[str, float | MissingValue]:
-    return {
-        **calculate_input_token_stats(column_config, df),
-        **calculate_output_token_stats(column_config, df),
-    }
-def calculate_validation_column_info(column_name: str, df: pd.DataFrame) -> dict[str, Any]:
-    try:
-        return {"num_valid_records": df[column_name].apply(lambda x: ensure_boolean(x["is_valid"])).sum()}
-    except Exception as e:
-        logger.warning(
-            f"{WARNING_PREFIX} failed to calculate code validation column info for column {column_name}: {e}"
-        )
-        return {"num_valid_records": MissingValue.CALCULATION_FAILED}
-def convert_pyarrow_dtype_to_simple_dtype(pyarrow_dtype: pa.DataType) -> str:
-    if isinstance(pyarrow_dtype, pa.ListType):
-        return f"list[{convert_pyarrow_dtype_to_simple_dtype(pyarrow_dtype.value_type)}]"
-    if isinstance(pyarrow_dtype, pa.StructType):
-        return "dict"
-    return convert_to_simple_dtype(str(pyarrow_dtype))
-def convert_to_simple_dtype(dtype: str) -> str:
-    if "int" in dtype:
-        return "int"
-    if "double" in dtype:
-        return "float"
-    if "float" in dtype:
-        return "float"
-    if "str" in dtype:
-        return "string"
-    if "timestamp" in dtype:
-        return "timestamp"
-    if "time" in dtype:
-        return "time"
-    if "date" in dtype:
-        return "date"
-    return dtype
-def get_column_data_type_from_first_non_null_value(column_name: str, df: pd.DataFrame) -> str:
-    df_no_nulls = df[column_name].dropna()
-    if len(df_no_nulls) == 0:
-        return MissingValue.CALCULATION_FAILED
-    dtype = type(df_no_nulls.iloc[0]).__name__
-    return convert_to_simple_dtype(dtype)
-def ensure_hashable(x: Any) -> str:
-    """
-    Makes a best effort turn known unhashable types to a hashable
-    string representation that preserves both structure and values.
-    """
-    if isinstance(x, (Number, bool)) or x is None:
-        return x
-    if isinstance(x, dict):
-        # Sort by keys and convert key-value pairs to tuples
-        return str(sorted([(str(k), ensure_hashable(v)) for k, v in x.items()]))
-    if isinstance(x, (list, tuple, set, np.ndarray)):
-        # Recursively make all elements hashable
-        return str(sorted([ensure_hashable(e) for e in x]))
-    return str(x)
-def ensure_boolean(v: bool | str | int | None) -> bool:
-    if isinstance(v, (bool, np.bool_)):
-        return bool(v)
-    if isinstance(v, (int, float, np.integer, np.floating)) and v in [0, 1, 0.0, 1.0]:
-        return bool(v)
-    if isinstance(v, (str, np.str_)) and v.lower() in ["true", "false"]:
-        return v.lower() == "true"
-    if v is None:
-        return False
-    raise ValueError(f"Invalid boolean value: {v}")
-def has_pyarrow_backend(df: pd.DataFrame) -> bool:
-    return all(isinstance(dtype, pd.ArrowDtype) for dtype in df.dtypes)

data_designer/engine/analysis/utils/judge_score_processing.py DELETED Viewed

@@ -1,132 +0,0 @@
-# SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
-# SPDX-License-Identifier: Apache-2.0
-from __future__ import annotations
-import logging
-from collections import defaultdict
-from typing import TYPE_CHECKING, Any
-from data_designer.config.analysis.column_profilers import JudgeScoreDistributions, JudgeScoreSample
-from data_designer.config.analysis.column_statistics import (
-    CategoricalDistribution,
-    ColumnDistributionType,
-    MissingValue,
-    NumericalDistribution,
-)
-from data_designer.config.column_configs import LLMJudgeColumnConfig
-from data_designer.lazy_heavy_imports import pd
-if TYPE_CHECKING:
-    import pandas as pd
-logger = logging.getLogger(__name__)
-def extract_judge_score_distributions(
-    column_config: LLMJudgeColumnConfig, df: pd.DataFrame
-) -> JudgeScoreDistributions | MissingValue:
-    scores = defaultdict(list)
-    reasoning = defaultdict(list)
-    # Aggregate results as dicts of form {score_name: <result>}.
-    histograms = {}
-    distributions = {}
-    distribution_types = {}
-    for score in column_config.scores:
-        is_numerical = True
-        name = score.name
-        for results in df[column_config.name]:
-            try:
-                score = results[name].get("score", None)
-                if _can_be_converted_to_int(score):
-                    score = int(score)
-                else:
-                    score = str(score)
-                    is_numerical = False
-                scores[name].append(score)
-                reasoning[name].append(results[name].get("reasoning", "No reasoning provided"))
-            except Exception as e:
-                logger.warning(f"⚠️ Failed to extract judge score for '{name}': {e}")
-                return MissingValue.OUTPUT_FORMAT_ERROR
-        try:
-            series = pd.Series(scores[name], name=name)
-            cat_dist = CategoricalDistribution.from_series(series)
-            # For judge scores, build a categorical histogram, since numerical scores are integers.
-            histograms[name] = cat_dist.histogram
-            if is_numerical:
-                distribution_types[name] = ColumnDistributionType.NUMERICAL
-                distributions[name] = NumericalDistribution.from_series(series)
-            else:
-                distribution_types[name] = ColumnDistributionType.CATEGORICAL
-                distributions[name] = cat_dist
-        except Exception as e:
-            logger.warning(f"⚠️ Failed to calculate judge score distribution for '{name}': {e}")
-            distribution_types[name] = ColumnDistributionType.UNKNOWN
-            distributions[name] = MissingValue.CALCULATION_FAILED
-            histograms[name] = MissingValue.CALCULATION_FAILED
-    return JudgeScoreDistributions(
-        scores=dict(scores),
-        reasoning=dict(reasoning),
-        distribution_types=distribution_types,
-        distributions=distributions,
-        histograms=histograms,
-    )
-def sample_scores_and_reasoning(
-    scores: list[int | str],
-    reasoning: list[str],
-    num_samples: int,
-    random_seed: int | None = None,
-) -> list[JudgeScoreSample]:
-    if len(scores) != len(reasoning):
-        raise ValueError("scores and reasoning must have the same length")
-    if len(scores) == 0:
-        raise ValueError("scores and reasoning must not be empty")
-    if num_samples <= 0:
-        raise ValueError("num_samples must be greater than 0")
-    df_samples = pd.DataFrame({"score": scores, "reasoning": reasoning})
-    if len(scores) <= num_samples:
-        return [JudgeScoreSample(score=score, reasoning=reasoning) for score, reasoning in zip(scores, reasoning)]
-    # Sample maintaining original proportions from each category (int or str)
-    # Calculate the frequency of each score category
-    score_category_counts = df_samples["score"].value_counts()
-    # If more categories than samples, pick one sample from each of the most frequent categories
-    if len(score_category_counts) >= num_samples:
-        top_categories = score_category_counts.head(num_samples).index
-        samples = pd.concat(
-            [df_samples[df_samples["score"] == cat].sample(n=1, random_state=random_seed) for cat in top_categories],
-            ignore_index=True,
-        )
-    else:
-        # Sample proportionally to maintain original category ratios
-        # Create weights based on the original frequency of each score
-        weights = df_samples["score"].map(score_category_counts)
-        samples = df_samples.sample(n=num_samples, weights=weights, random_state=random_seed)
-    return [
-        JudgeScoreSample(score=row["score"], reasoning=row["reasoning"]) for row in samples.to_dict(orient="records")
-    ]
-def _can_be_converted_to_int(value: Any) -> bool:
-    try:
-        int(value)
-        return True
-    except (ValueError, TypeError):
-        return False

data_designer/engine/column_generators/__init__.py DELETED Viewed

	@@ -1,2 +0,0 @@
1	- # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
2	- # SPDX-License-Identifier: Apache-2.0

data_designer/engine/column_generators/generators/__init__.py DELETED Viewed

	@@ -1,2 +0,0 @@
1	- # SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
2	- # SPDX-License-Identifier: Apache-2.0

data_designer/engine/column_generators/generators/base.py DELETED Viewed

@@ -1,122 +0,0 @@
-# SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
-# SPDX-License-Identifier: Apache-2.0
-from __future__ import annotations
-import functools
-import logging
-from abc import ABC, abstractmethod
-from enum import Enum
-from typing import TYPE_CHECKING, overload
-from data_designer.engine.configurable_task import ConfigurableTask, DataT, TaskConfigT
-from data_designer.lazy_heavy_imports import pd
-if TYPE_CHECKING:
-    import pandas as pd
-    from data_designer.config.models import BaseInferenceParams, ModelConfig
-    from data_designer.engine.models.facade import ModelFacade
-    from data_designer.engine.models.registry import ModelRegistry
-logger = logging.getLogger(__name__)
-class GenerationStrategy(str, Enum):
-    CELL_BY_CELL = "cell_by_cell"
-    FULL_COLUMN = "full_column"
-class ColumnGenerator(ConfigurableTask[TaskConfigT], ABC):
-    @property
-    def can_generate_from_scratch(self) -> bool:
-        return False
-    @staticmethod
-    @abstractmethod
-    def get_generation_strategy() -> GenerationStrategy: ...
-    @overload
-    @abstractmethod
-    def generate(self, data: dict) -> dict: ...
-    @overload
-    @abstractmethod
-    def generate(self, data: pd.DataFrame) -> pd.DataFrame: ...
-    @abstractmethod
-    def generate(self, data: DataT) -> DataT: ...
-    def log_pre_generation(self) -> None:
-        """A shared method to log info before the generator's `generate` method is called.
-        The idea is for dataset builders to call this method for all generators before calling their
-        `generate` method. This is to avoid logging the same information multiple times when running
-        generators in parallel.
-        """
-class FromScratchColumnGenerator(ColumnGenerator[TaskConfigT], ABC):
-    @property
-    def can_generate_from_scratch(self) -> bool:
-        return True
-    @abstractmethod
-    def generate_from_scratch(self, num_records: int) -> pd.DataFrame: ...
-class ColumnGeneratorWithModelRegistry(ColumnGenerator[TaskConfigT], ABC):
-    @property
-    def model_registry(self) -> ModelRegistry:
-        return self.resource_provider.model_registry
-    def get_model(self, model_alias: str) -> ModelFacade:
-        return self.model_registry.get_model(model_alias=model_alias)
-    def get_model_config(self, model_alias: str) -> ModelConfig:
-        return self.model_registry.get_model_config(model_alias=model_alias)
-    def get_model_provider_name(self, model_alias: str) -> str:
-        provider = self.model_registry.get_model_provider(model_alias=model_alias)
-        return provider.name
-class ColumnGeneratorWithModel(ColumnGeneratorWithModelRegistry[TaskConfigT], ABC):
-    @functools.cached_property
-    def model(self) -> ModelFacade:
-        return self.get_model(model_alias=self.config.model_alias)
-    @functools.cached_property
-    def model_config(self) -> ModelConfig:
-        return self.get_model_config(model_alias=self.config.model_alias)
-    @functools.cached_property
-    def inference_parameters(self) -> BaseInferenceParams:
-        return self.model_config.inference_parameters
-    def log_pre_generation(self) -> None:
-        logger.info(
-            f"{self.config.get_column_emoji()} {self.config.column_type} model config for column '{self.config.name}'"
-        )
-        logger.info(f"  |-- model: {self.model_config.model!r}")
-        logger.info(f"  |-- model alias: {self.config.model_alias!r}")
-        logger.info(f"  |-- model provider: {self.get_model_provider_name(model_alias=self.config.model_alias)!r}")
-        logger.info(f"  |-- inference parameters: {self.inference_parameters.format_for_display()}")
-class ColumnGeneratorCellByCell(ColumnGenerator[TaskConfigT], ABC):
-    @staticmethod
-    def get_generation_strategy() -> GenerationStrategy:
-        return GenerationStrategy.CELL_BY_CELL
-    @abstractmethod
-    def generate(self, data: dict) -> dict: ...
-class ColumnGeneratorFullColumn(ColumnGenerator[TaskConfigT], ABC):
-    @staticmethod
-    def get_generation_strategy() -> GenerationStrategy:
-        return GenerationStrategy.FULL_COLUMN
-    @abstractmethod
-    def generate(self, data: pd.DataFrame) -> pd.DataFrame: ...

data_designer/engine/column_generators/generators/embedding.py DELETED Viewed

@@ -1,35 +0,0 @@
-# SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
-# SPDX-License-Identifier: Apache-2.0
-from __future__ import annotations
-from pydantic import BaseModel, computed_field
-from data_designer.config.column_configs import EmbeddingColumnConfig
-from data_designer.engine.column_generators.generators.base import ColumnGeneratorWithModel, GenerationStrategy
-from data_designer.engine.processing.utils import deserialize_json_values, parse_list_string
-class EmbeddingGenerationResult(BaseModel):
-    embeddings: list[list[float]]
-    @computed_field
-    def num_embeddings(self) -> int:
-        return len(self.embeddings)
-    @computed_field
-    def dimension(self) -> int:
-        return len(self.embeddings[0]) if len(self.embeddings) > 0 else 0
-class EmbeddingCellGenerator(ColumnGeneratorWithModel[EmbeddingColumnConfig]):
-    @staticmethod
-    def get_generation_strategy() -> GenerationStrategy:
-        return GenerationStrategy.CELL_BY_CELL
-    def generate(self, data: dict) -> dict:
-        deserialized_record = deserialize_json_values(data)
-        input_texts = parse_list_string(deserialized_record[self.config.target_column])
-        embeddings = self.model.generate_text_embeddings(input_texts=input_texts)
-        data[self.config.name] = EmbeddingGenerationResult(embeddings=embeddings).model_dump(mode="json")
-        return data

data_designer/engine/column_generators/generators/expression.py DELETED Viewed

@@ -1,55 +0,0 @@
-# SPDX-FileCopyrightText: Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
-# SPDX-License-Identifier: Apache-2.0
-from __future__ import annotations
-import logging
-from typing import TYPE_CHECKING
-from data_designer.config.column_configs import ExpressionColumnConfig
-from data_designer.engine.column_generators.generators.base import ColumnGeneratorFullColumn
-from data_designer.engine.column_generators.utils.errors import ExpressionTemplateRenderError
-from data_designer.engine.processing.ginja.environment import WithJinja2UserTemplateRendering
-from data_designer.engine.processing.utils import deserialize_json_values
-from data_designer.lazy_heavy_imports import pd
-if TYPE_CHECKING:
-    import pandas as pd
-logger = logging.getLogger(__name__)
-class ExpressionColumnGenerator(WithJinja2UserTemplateRendering, ColumnGeneratorFullColumn[ExpressionColumnConfig]):
-    def generate(self, data: pd.DataFrame) -> pd.DataFrame:
-        logger.info(f"🧩 Generating column `{self.config.name}` from expression")
-        missing_columns = list(set(self.config.required_columns) - set(data.columns))
-        if len(missing_columns) > 0:
-            error_msg = (
-                f"There was an error preparing the Jinja2 expression template. "
-                f"The following columns {missing_columns} are missing!"
-            )
-            raise ExpressionTemplateRenderError(error_msg)
-        self.prepare_jinja2_template_renderer(self.config.expr, data.columns.to_list())
-        records = []
-        for record in data.to_dict(orient="records"):
-            record[self.config.name] = self._cast_type(self.render_template(deserialize_json_values(record)))
-            records.append(record)
-        return pd.DataFrame(records)
-    def _cast_type(self, value: str) -> str | float | int | bool:
-        if self.config.dtype == "str":
-            return value
-        elif self.config.dtype == "float":
-            return float(value)
-        elif self.config.dtype == "int":
-            return int(float(value))
-        elif self.config.dtype == "bool":
-            try:
-                return bool(int(float(value)))
-            except ValueError:
-                return bool(f"{value}".lower() == "true")
-        else:
-            raise ValueError(f"Invalid dtype: {self.config.dtype}")

data-designer 0.3.8rc1__py3-none-any.whl → 0.4.0__py3-none-any.whl

data-designer 0.3.8rc1py3-none-any.whl → 0.4.0py3-none-any.whl