PyPI - data-designer - Versions diffs - 0.1.4__py3-none-any.whl → 0.1.5__py3-none-any.whl - Mend

data-designer 0.1.4py3-none-any.whl → 0.1.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (18) hide show

data_designer/_version.py CHANGED Viewed

@@ -28,7 +28,7 @@ version_tuple: VERSION_TUPLE
 commit_id: COMMIT_ID
 __commit_id__: COMMIT_ID
-__version__ = version = '0.1.4'
-__version_tuple__ = version_tuple = (0, 1, 4)
+__version__ = version = '0.1.5'
+__version_tuple__ = version_tuple = (0, 1, 5)
 __commit_id__ = commit_id = None

data_designer/config/exports.py CHANGED Viewed

@@ -32,7 +32,11 @@ from data_designer.config.models import (
     UniformDistribution,
     UniformDistributionParams,
 )
-from data_designer.config.processors import DropColumnsProcessorConfig, ProcessorType
+from data_designer.config.processors import (
+    DropColumnsProcessorConfig,
+    ProcessorType,
+    SchemaTransformProcessorConfig,
+)
 from data_designer.config.sampler_constraints import ColumnInequalityConstraint, ScalarInequalityConstraint
 from data_designer.config.sampler_params import (
     BernoulliMixtureSamplerParams,
@@ -69,6 +73,7 @@ from data_designer.config.validator_params import (
 def get_config_exports() -> list[str]:
     return [
+        SchemaTransformProcessorConfig.__name__,
         BernoulliMixtureSamplerParams.__name__,
         BernoulliSamplerParams.__name__,
         BinomialSamplerParams.__name__,

data_designer/config/preview_results.py CHANGED Viewed

@@ -3,7 +3,7 @@
 from __future__ import annotations
-from typing import Optional
+from typing import Optional, Union
 import pandas as pd
@@ -19,6 +19,7 @@ class PreviewResults(WithRecordSamplerMixin):
         config_builder: DataDesignerConfigBuilder,
         dataset: Optional[pd.DataFrame] = None,
         analysis: Optional[DatasetProfilerResults] = None,
+        processor_artifacts: Optional[dict[str, Union[list[str], str]]] = None,
     ):
         """Creates a new instance with results from a Data Designer preview run.
@@ -26,7 +27,9 @@ class PreviewResults(WithRecordSamplerMixin):
             config_builder: Data Designer configuration builder.
             dataset: Dataset of the preview run.
             analysis: Analysis of the preview run.
+            processor_artifacts: Artifacts generated by the processors.
         """
-        self.dataset: pd.DataFrame | None = dataset
-        self.analysis: DatasetProfilerResults | None = analysis
+        self.dataset: Optional[pd.DataFrame] = dataset
+        self.analysis: Optional[DatasetProfilerResults] = analysis
+        self.processor_artifacts: Optional[dict[str, Union[list[str], str]]] = processor_artifacts
         self._config_builder = config_builder

data_designer/config/processors.py CHANGED Viewed

@@ -1,25 +1,32 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+import json
 from abc import ABC
 from enum import Enum
-from typing import Literal
+from typing import Any, Literal
 from pydantic import Field, field_validator
 from data_designer.config.base import ConfigBase
 from data_designer.config.dataset_builders import BuildStage
+from data_designer.config.errors import InvalidConfigError
 SUPPORTED_STAGES = [BuildStage.POST_BATCH]
 class ProcessorType(str, Enum):
     DROP_COLUMNS = "drop_columns"
+    SCHEMA_TRANSFORM = "schema_transform"
 class ProcessorConfig(ConfigBase, ABC):
+    name: str = Field(
+        description="The name of the processor, used to identify the processor in the results and to write the artifacts to disk.",
+    )
     build_stage: BuildStage = Field(
-        ..., description=f"The stage at which the processor will run. Supported stages: {', '.join(SUPPORTED_STAGES)}"
+        default=BuildStage.POST_BATCH,
+        description=f"The stage at which the processor will run. Supported stages: {', '.join(SUPPORTED_STAGES)}",
     )
     @field_validator("build_stage")
@@ -34,8 +41,45 @@ class ProcessorConfig(ConfigBase, ABC):
 def get_processor_config_from_kwargs(processor_type: ProcessorType, **kwargs) -> ProcessorConfig:
     if processor_type == ProcessorType.DROP_COLUMNS:
         return DropColumnsProcessorConfig(**kwargs)
+    elif processor_type == ProcessorType.SCHEMA_TRANSFORM:
+        return SchemaTransformProcessorConfig(**kwargs)
 class DropColumnsProcessorConfig(ProcessorConfig):
     column_names: list[str]
     processor_type: Literal[ProcessorType.DROP_COLUMNS] = ProcessorType.DROP_COLUMNS
+class SchemaTransformProcessorConfig(ProcessorConfig):
+    template: dict[str, Any] = Field(
+        ...,
+        description="""
+        Dictionary specifying columns and templates to use in the new dataset with transformed schema.
+        Each key is a new column name, and each value is an object containing Jinja2 templates - for instance, a string or a list of strings.
+        Values must be JSON-serializable.
+        Example:
+        ```python
+        template = {
+            "list_of_strings": ["{{ col1 }}", "{{ col2 }}"],
+            "uppercase_string": "{{ col1 | upper }}",
+            "lowercase_string": "{{ col2 | lower }}",
+        }
+        ```
+        The above templates will create an new dataset with three columns: "list_of_strings", "uppercase_string", and "lowercase_string".
+        References to columns "col1" and "col2" in the templates will be replaced with the actual values of the columns in the dataset.
+        """,
+    )
+    processor_type: Literal[ProcessorType.SCHEMA_TRANSFORM] = ProcessorType.SCHEMA_TRANSFORM
+    @field_validator("template")
+    def validate_template(cls, v: dict[str, Any]) -> dict[str, Any]:
+        try:
+            json.dumps(v)
+        except TypeError as e:
+            if "not JSON serializable" in str(e):
+                raise InvalidConfigError("Template must be JSON serializable")
+        return v

data_designer/config/utils/validation.py CHANGED Viewed

@@ -18,7 +18,10 @@ from rich.panel import Panel
 from data_designer.config.column_types import ColumnConfigT, DataDesignerColumnType, column_type_is_llm_generated
 from data_designer.config.processors import ProcessorConfig, ProcessorType
 from data_designer.config.utils.constants import RICH_CONSOLE_THEME
-from data_designer.config.utils.misc import can_run_data_designer_locally
+from data_designer.config.utils.misc import (
+    can_run_data_designer_locally,
+    get_prompt_template_keywords,
+)
 from data_designer.config.validator_params import ValidatorType
@@ -63,6 +66,7 @@ def validate_data_designer_config(
     violations.extend(validate_expression_references(columns=columns, allowed_references=allowed_references))
     violations.extend(validate_columns_not_all_dropped(columns=columns))
     violations.extend(validate_drop_columns_processor(columns=columns, processor_configs=processor_configs))
+    violations.extend(validate_schema_transform_processor(columns=columns, processor_configs=processor_configs))
     if not can_run_data_designer_locally():
         violations.extend(validate_local_only_columns(columns=columns))
     return violations
@@ -271,7 +275,7 @@ def validate_drop_columns_processor(
     columns: list[ColumnConfigT],
     processor_configs: list[ProcessorConfig],
 ) -> list[Violation]:
-    all_column_names = set([c.name for c in columns])
+    all_column_names = {c.name for c in columns}
     for processor_config in processor_configs:
         if processor_config.processor_type == ProcessorType.DROP_COLUMNS:
             invalid_columns = set(processor_config.column_names) - all_column_names
@@ -288,6 +292,33 @@ def validate_drop_columns_processor(
     return []
+def validate_schema_transform_processor(
+    columns: list[ColumnConfigT],
+    processor_configs: list[ProcessorConfig],
+) -> list[Violation]:
+    violations = []
+    all_column_names = {c.name for c in columns}
+    for processor_config in processor_configs:
+        if processor_config.processor_type == ProcessorType.SCHEMA_TRANSFORM:
+            for col, template in processor_config.template.items():
+                template_keywords = get_prompt_template_keywords(template)
+                invalid_keywords = set(template_keywords) - all_column_names
+                if len(invalid_keywords) > 0:
+                    invalid_keywords = ", ".join([f"'{k}'" for k in invalid_keywords])
+                    message = f"Ancillary dataset processor attempts to reference columns {invalid_keywords} in the template for '{col}', but the columns are not defined in the dataset."
+                    violations.append(
+                        Violation(
+                            column=None,
+                            type=ViolationType.INVALID_REFERENCE,
+                            message=message,
+                            level=ViolationLevel.ERROR,
+                        )
+                    )
+    return violations
 def validate_expression_references(
     columns: list[ColumnConfigT],
     allowed_references: list[str],

data_designer/config/utils/visualization.py CHANGED Viewed

@@ -72,6 +72,9 @@ class WithRecordSamplerMixin:
         else:
             raise DatasetSampleDisplayError("No valid dataset found in results object.")
+    def _has_processor_artifacts(self) -> bool:
+        return hasattr(self, "processor_artifacts") and self.processor_artifacts is not None
     def display_sample_record(
         self,
         index: Optional[int] = None,
@@ -79,6 +82,7 @@ class WithRecordSamplerMixin:
         hide_seed_columns: bool = False,
         syntax_highlighting_theme: str = "dracula",
         background_color: Optional[str] = None,
+        processors_to_display: Optional[list[str]] = None,
     ) -> None:
         """Display a sample record from the Data Designer dataset preview.
@@ -90,6 +94,7 @@ class WithRecordSamplerMixin:
                 documentation from `rich` for information about available themes.
             background_color: Background color to use for the record. See the `Syntax`
                 documentation from `rich` for information about available background colors.
+            processors_to_display: List of processors to display the artifacts for. If None, all processors will be displayed.
         """
         i = index or self._display_cycle_index
@@ -99,8 +104,25 @@ class WithRecordSamplerMixin:
         except IndexError:
             raise DatasetSampleDisplayError(f"Index {i} is out of bounds for dataset of length {num_records}.")
+        processor_data_to_display = None
+        if self._has_processor_artifacts() and len(self.processor_artifacts) > 0:
+            if processors_to_display is None:
+                processors_to_display = list(self.processor_artifacts.keys())
+            if len(processors_to_display) > 0:
+                processor_data_to_display = {}
+                for processor in processors_to_display:
+                    if (
+                        isinstance(self.processor_artifacts[processor], list)
+                        and len(self.processor_artifacts[processor]) == num_records
+                    ):
+                        processor_data_to_display[processor] = self.processor_artifacts[processor][i]
+                    else:
+                        processor_data_to_display[processor] = self.processor_artifacts[processor]
         display_sample_record(
             record=record,
+            processor_data_to_display=processor_data_to_display,
             config_builder=self._config_builder,
             background_color=background_color,
             syntax_highlighting_theme=syntax_highlighting_theme,
@@ -134,6 +156,7 @@ def create_rich_histogram_table(
 def display_sample_record(
     record: Union[dict, pd.Series, pd.DataFrame],
     config_builder: DataDesignerConfigBuilder,
+    processor_data_to_display: Optional[dict[str, Union[list[str], str]]] = None,
     background_color: Optional[str] = None,
     syntax_highlighting_theme: str = "dracula",
     record_index: Optional[int] = None,
@@ -230,6 +253,15 @@ def display_sample_record(
             table.add_row(*row)
             render_list.append(pad_console_element(table, (1, 0, 1, 0)))
+    if processor_data_to_display and len(processor_data_to_display) > 0:
+        for processor_name, processor_data in processor_data_to_display.items():
+            table = Table(title=f"Processor Outputs: {processor_name}", **table_kws)
+            table.add_column("Name")
+            table.add_column("Value")
+            for col, value in processor_data.items():
+                table.add_row(col, convert_to_row_element(value))
+        render_list.append(pad_console_element(table, (1, 0, 1, 0)))
     if record_index is not None:
         index_label = Text(f"[index: {record_index}]", justify="center")
         render_list.append(index_label)

data_designer/engine/dataset_builders/artifact_storage.py CHANGED Viewed

@@ -25,6 +25,7 @@ class BatchStage(StrEnum):
     PARTIAL_RESULT = "partial_results_path"
     FINAL_RESULT = "final_dataset_path"
     DROPPED_COLUMNS = "dropped_columns_dataset_path"
+    PROCESSORS_OUTPUTS = "processors_outputs_path"
 class ArtifactStorage(BaseModel):
@@ -33,6 +34,7 @@ class ArtifactStorage(BaseModel):
     final_dataset_folder_name: str = "parquet-files"
     partial_results_folder_name: str = "tmp-partial-parquet-files"
     dropped_columns_folder_name: str = "dropped-columns-parquet-files"
+    processors_outputs_folder_name: str = "processors-files"
     @property
     def artifact_path_exists(self) -> bool:
@@ -70,6 +72,10 @@ class ArtifactStorage(BaseModel):
     def partial_results_path(self) -> Path:
         return self.base_dataset_path / self.partial_results_folder_name
+    @property
+    def processors_outputs_path(self) -> Path:
+        return self.base_dataset_path / self.processors_outputs_folder_name
     @field_validator("artifact_path")
     def validate_artifact_path(cls, v: Union[Path, str]) -> Path:
         v = Path(v)
@@ -84,6 +90,7 @@ class ArtifactStorage(BaseModel):
             self.final_dataset_folder_name,
             self.partial_results_folder_name,
             self.dropped_columns_folder_name,
+            self.processors_outputs_folder_name,
         ]
         for name in folder_names:
@@ -169,9 +176,10 @@ class ArtifactStorage(BaseModel):
         batch_number: int,
         dataframe: pd.DataFrame,
         batch_stage: BatchStage,
+        subfolder: str | None = None,
     ) -> Path:
         file_path = self.create_batch_file_path(batch_number, batch_stage=batch_stage)
-        self.write_parquet_file(file_path.name, dataframe, batch_stage)
+        self.write_parquet_file(file_path.name, dataframe, batch_stage, subfolder=subfolder)
         return file_path
     def write_parquet_file(
@@ -179,9 +187,11 @@ class ArtifactStorage(BaseModel):
         parquet_file_name: str,
         dataframe: pd.DataFrame,
         batch_stage: BatchStage,
+        subfolder: str | None = None,
     ) -> Path:
-        self.mkdir_if_needed(self._get_stage_path(batch_stage))
-        file_path = self._get_stage_path(batch_stage) / parquet_file_name
+        subfolder = subfolder or ""
+        self.mkdir_if_needed(self._get_stage_path(batch_stage) / subfolder)
+        file_path = self._get_stage_path(batch_stage) / subfolder / parquet_file_name
         dataframe.to_parquet(file_path, index=False)
         return file_path

data_designer/engine/dataset_builders/column_wise_builder.py CHANGED Viewed

@@ -171,6 +171,8 @@ class ColumnWiseDatasetBuilder:
         max_workers = MAX_CONCURRENCY_PER_NON_LLM_GENERATOR
         if isinstance(generator, WithLLMGeneration):
             max_workers = generator.inference_parameters.max_parallel_requests
+        elif hasattr(generator.config, "max_parallel_requests"):
+            max_workers = generator.config.max_parallel_requests
         self._fan_out_with_threads(generator, max_workers=max_workers)
     def _run_full_column_generator(self, generator: ColumnGenerator) -> None:
@@ -244,6 +246,7 @@ class ColumnWiseDatasetBuilder:
             processors[BuildStage.POST_BATCH].append(  # as post-batch by default
                 DropColumnsProcessor(
                     config=DropColumnsProcessorConfig(
+                        name="default_drop_columns_processor",
                         column_names=columns_to_drop,
                         build_stage=BuildStage.POST_BATCH,
                     ),

data_designer/engine/processing/processors/drop_columns.py CHANGED Viewed

@@ -17,7 +17,7 @@ class DropColumnsProcessor(Processor[DropColumnsProcessorConfig]):
     @staticmethod
     def metadata() -> ConfigurableTaskMetadata:
         return ConfigurableTaskMetadata(
-            name="drop_columns",
+            name="drop_columns_processor",
             description="Drop columns from the input dataset.",
             required_resources=None,
         )

data_designer/engine/processing/processors/registry.py CHANGED Viewed

@@ -5,9 +5,11 @@ from data_designer.config.base import ConfigBase
 from data_designer.config.processors import (
     DropColumnsProcessorConfig,
     ProcessorType,
+    SchemaTransformProcessorConfig,
 )
 from data_designer.engine.processing.processors.base import Processor
 from data_designer.engine.processing.processors.drop_columns import DropColumnsProcessor
+from data_designer.engine.processing.processors.schema_transform import SchemaTransformProcessor
 from data_designer.engine.registry.base import TaskRegistry
@@ -16,5 +18,6 @@ class ProcessorRegistry(TaskRegistry[str, Processor, ConfigBase]): ...
 def create_default_processor_registry() -> ProcessorRegistry:
     registry = ProcessorRegistry()
+    registry.register(ProcessorType.SCHEMA_TRANSFORM, SchemaTransformProcessor, SchemaTransformProcessorConfig, False)
     registry.register(ProcessorType.DROP_COLUMNS, DropColumnsProcessor, DropColumnsProcessorConfig, False)
     return registry

data_designer/engine/processing/processors/schema_transform.py ADDED Viewed

@@ -0,0 +1,53 @@
+# SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: Apache-2.0
+import json
+import logging
+import pandas as pd
+from data_designer.config.processors import SchemaTransformProcessorConfig
+from data_designer.engine.configurable_task import ConfigurableTaskMetadata
+from data_designer.engine.dataset_builders.artifact_storage import BatchStage
+from data_designer.engine.processing.ginja.environment import WithJinja2UserTemplateRendering
+from data_designer.engine.processing.processors.base import Processor
+from data_designer.engine.processing.utils import deserialize_json_values
+logger = logging.getLogger(__name__)
+class SchemaTransformProcessor(WithJinja2UserTemplateRendering, Processor[SchemaTransformProcessorConfig]):
+    @staticmethod
+    def metadata() -> ConfigurableTaskMetadata:
+        return ConfigurableTaskMetadata(
+            name="schema_transform_processor",
+            description="Generate dataset with transformed schema using a Jinja2 template.",
+            required_resources=None,
+        )
+    @property
+    def template_as_str(self) -> str:
+        return json.dumps(self.config.template)
+    def process(self, data: pd.DataFrame, *, current_batch_number: int | None = None) -> pd.DataFrame:
+        self.prepare_jinja2_template_renderer(self.template_as_str, data.columns.to_list())
+        formatted_records = [
+            json.loads(self.render_template(deserialize_json_values(record)).replace("\n", "\\n"))
+            for record in data.to_dict(orient="records")
+        ]
+        formatted_data = pd.DataFrame(formatted_records)
+        if current_batch_number is not None:
+            self.artifact_storage.write_batch_to_parquet_file(
+                batch_number=current_batch_number,
+                dataframe=formatted_data,
+                batch_stage=BatchStage.PROCESSORS_OUTPUTS,
+                subfolder=self.config.name,
+            )
+        else:
+            self.artifact_storage.write_parquet_file(
+                parquet_file_name=f"{self.config.name}.parquet",
+                dataframe=formatted_data,
+                batch_stage=BatchStage.PROCESSORS_OUTPUTS,
+            )
+        return data

data_designer/interface/data_designer.py CHANGED Viewed

@@ -249,6 +249,17 @@ class DataDesigner(DataDesignerInterface[DatasetCreationResults]):
         except Exception as e:
             raise DataDesignerProfilingError(f"🛑 Error profiling preview dataset: {e}")
+        if builder.artifact_storage.processors_outputs_path.exists():
+            processor_artifacts = {
+                processor_config.name: pd.read_parquet(
+                    builder.artifact_storage.processors_outputs_path / f"{processor_config.name}.parquet",
+                    dtype_backend="pyarrow",
+                ).to_dict(orient="records")
+                for processor_config in config_builder.get_processor_configs()
+            }
+        else:
+            processor_artifacts = {}
         if (
             len(processed_dataset) > 0
             and isinstance(analysis, DatasetProfilerResults)
@@ -259,6 +270,7 @@ class DataDesigner(DataDesignerInterface[DatasetCreationResults]):
         return PreviewResults(
             dataset=processed_dataset,
             analysis=analysis,
+            processor_artifacts=processor_artifacts,
             config_builder=config_builder,
         )

data_designer/interface/results.py CHANGED Viewed

@@ -3,12 +3,15 @@
 from __future__ import annotations
+from pathlib import Path
 import pandas as pd
 from data_designer.config.analysis.dataset_profiler import DatasetProfilerResults
 from data_designer.config.config_builder import DataDesignerConfigBuilder
 from data_designer.config.utils.visualization import WithRecordSamplerMixin
 from data_designer.engine.dataset_builders.artifact_storage import ArtifactStorage
+from data_designer.engine.dataset_builders.errors import ArtifactStorageError
 class DatasetCreationResults(WithRecordSamplerMixin):
@@ -53,3 +56,36 @@ class DatasetCreationResults(WithRecordSamplerMixin):
             A pandas DataFrame containing the full generated dataset.
         """
         return self.artifact_storage.load_dataset()
+    def load_processor_dataset(self, processor_name: str) -> pd.DataFrame:
+        """Load the dataset generated by a processor.
+        This only works for processors that write their artifacts in Parquet format.
+        Args:
+            processor_name: The name of the processor to load the dataset from.
+        Returns:
+            A pandas DataFrame containing the dataset generated by the processor.
+        """
+        try:
+            dataset = self.artifact_storage.read_parquet_files(
+                self.artifact_storage.processors_outputs_path / processor_name
+            )
+        except Exception as e:
+            raise ArtifactStorageError(f"Failed to load dataset for processor {processor_name}: {e}")
+        return dataset
+    def get_path_to_processor_artifacts(self, processor_name: str) -> Path:
+        """Get the path to the artifacts generated by a processor.
+        Args:
+            processor_name: The name of the processor to load the artifact from.
+        Returns:
+            The path to the artifacts.
+        """
+        if not self.artifact_storage.processors_outputs_path.exists():
+            raise ArtifactStorageError(f"Processor {processor_name} has no artifacts.")
+        return self.artifact_storage.processors_outputs_path / processor_name

{data_designer-0.1.4.dist-info → data_designer-0.1.5.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: data-designer
-Version: 0.1.4
+Version: 0.1.5
 Summary: General framework for synthetic data generation
 License-Expression: Apache-2.0
 License-File: LICENSE
@@ -144,12 +144,12 @@ preview.display_sample_record()
 ### 📚 Learn more
-- **[Quick Start Guide](https://nvidia-nemo.github.io/DataDesigner/quick-start/)** – Detailed walkthrough with more examples
-- **[Tutorial Notebooks](https://nvidia-nemo.github.io/DataDesigner/notebooks/)** – Step-by-step interactive tutorials
-- **[Column Types](https://nvidia-nemo.github.io/DataDesigner/concepts/columns/)** – Explore samplers, LLM columns, validators, and more
-- **[Validators](https://nvidia-nemo.github.io/DataDesigner/concepts/validators/)** – Learn how to validate generated data with Python, SQL, and remote validators
-- **[Model Configuration](https://nvidia-nemo.github.io/DataDesigner/concepts/models/model-configs/)** – Configure custom models and providers
-- **[Person Sampling](https://nvidia-nemo.github.io/DataDesigner/concepts/person_sampling/)** – Learn how to sample realistic person data with demographic attributes
+- **[Quick Start Guide](https://nvidia-nemo.github.io/DataDesigner/latest/quick-start/)** – Detailed walkthrough with more examples
+- **[Tutorial Notebooks](https://nvidia-nemo.github.io/DataDesigner/latest/notebooks/)** – Step-by-step interactive tutorials
+- **[Column Types](https://nvidia-nemo.github.io/DataDesigner/latest/concepts/columns/)** – Explore samplers, LLM columns, validators, and more
+- **[Validators](https://nvidia-nemo.github.io/DataDesigner/latest/concepts/validators/)** – Learn how to validate generated data with Python, SQL, and remote validators
+- **[Model Configuration](https://nvidia-nemo.github.io/DataDesigner/latest/concepts/models/model-configs/)** – Configure custom models and providers
+- **[Person Sampling](https://nvidia-nemo.github.io/DataDesigner/latest/concepts/person_sampling/)** – Learn how to sample realistic person data with demographic attributes
 ### 🔧 Configure models via CLI
@@ -161,7 +161,7 @@ data-designer config list      # View current settings
 ### 🤝 Get involved
-- **[Contributing Guide](https://nvidia-nemo.github.io/DataDesigner/CONTRIBUTING)** – Help improve Data Designer
+- **[Contributing Guide](https://nvidia-nemo.github.io/DataDesigner/latest/CONTRIBUTING)** – Help improve Data Designer
 - **[GitHub Issues](https://github.com/NVIDIA-NeMo/DataDesigner/issues)** – Report bugs or make a feature request
 ---
@@ -178,7 +178,7 @@ If you use NeMo Data Designer in your research, please cite it using the followi
 ```bibtex
 @misc{nemo-data-designer,
-  author = {The NeMo Data Designer Team},
+  author = {The NeMo Data Designer Team, NVIDIA},
   title = {NeMo Data Designer: A framework for generating synthetic data from scratch or based on your own seed data},
   howpublished = {\url{https://github.com/NVIDIA-NeMo/DataDesigner}},
   year = {2025},

{data_designer-0.1.4.dist-info → data_designer-0.1.5.dist-info}/RECORD RENAMED Viewed

@@ -1,5 +1,5 @@
 data_designer/__init__.py,sha256=iCeqRnb640RrL2QpA630GY5Ng7JiDt83Vq0DwLnNugU,461
-data_designer/_version.py,sha256=rLCrf4heo25FJtBY-2Ap7ZuWW-5FS7sqTjsolIUuI5c,704
+data_designer/_version.py,sha256=rdxBMYpwzYxiWk08QbPLHSAxHoDfeKWwyaJIAM0lSic,704
 data_designer/errors.py,sha256=Z4eN9XwzZvGRdBluSNoSqQYkPPzNQIDf0ET_OqWRZh8,179
 data_designer/logging.py,sha256=OqRGvWNlGA3ebRFts7e5k-5GFwoAPaGXYQS4oEzVG0o,5354
 data_designer/plugin_manager.py,sha256=eXtmmqyyoVHWO1zvlLvKQ-rTrONJxf9jhr4ZMzsXWSE,2610
@@ -39,11 +39,11 @@ data_designer/config/dataset_builders.py,sha256=1pNFy_pkQ5lJ6AVZ43AeTuSbz6yC_l7N
 data_designer/config/datastore.py,sha256=brMylPuBsT7uDKSy7G59M7Zdx91RTYWMOVcdRVe5Wjs,7632
 data_designer/config/default_model_settings.py,sha256=HAGyfYzT1fdWMpMSLeJuZZZQHKku2T9KJTOhpwS_5Ek,4577
 data_designer/config/errors.py,sha256=MNMnqh8G1XzXAMeJ5ju6zkBiIH2aVgyITnzYJbGEwFY,461
-data_designer/config/exports.py,sha256=FoyxvW7fckm_KYRU-sgtAJUM8GWWHaDakX8Zk3DAokE,4342
+data_designer/config/exports.py,sha256=vDokNLxoBlaII_-TBIS4w65t-g-MX8ADV85arpOPBRA,4440
 data_designer/config/interface.py,sha256=ery8a93pnCW1JPbgtiaRsMKSR8Q2o7rDmsZfVYbfkeE,1619
 data_designer/config/models.py,sha256=kB9Ut9Y00V6nG9zKK2c4xIVZewn3vPPIU6deug_Rttc,11362
-data_designer/config/preview_results.py,sha256=6SXdkq3oz15VxB7RGroSWikDP1EVPbbBn8GbMrRn2Wc,1147
-data_designer/config/processors.py,sha256=9JeXbGi79QSJanzjiFIDvCxRqriQDlaOtycDVYVUFI4,1368
+data_designer/config/preview_results.py,sha256=6FHBUJAxYEoLq8raCCkQYPUSJTQLvhXFMKciOBU_mVw,1411
+data_designer/config/processors.py,sha256=Q1fCRoL7YSWAnLwJ6sGERwQXdJNx4By8WVyHhjwtd_8,3172
 data_designer/config/sampler_constraints.py,sha256=Dxbjt5PNNmvm5CMp-Z5CYrfd6oeDeXOUnODR6FgvCDk,1187
 data_designer/config/sampler_params.py,sha256=50OEhC1AF3EPMoMlpJGGZ72kXej5wsqcZiyt7J7Kx08,26614
 data_designer/config/seed.py,sha256=tKzNUvHx-9JV8uPDUbQqx44tG88CAeCss_T8xFEPh5g,5547
@@ -61,8 +61,8 @@ data_designer/config/utils/io_helpers.py,sha256=Jl1ihaQM0K_SL86UfP0N1-y4KVph4z3S
 data_designer/config/utils/misc.py,sha256=HVRvrbpdO5c_oPI-e_3hrS7cBJA1SaG8iHMLtWKVv8A,2526
 data_designer/config/utils/numerical_helpers.py,sha256=tcm5x5qSURoZZHjN9Bm1-Jkct3G67QefXm10QQXDtlM,803
 data_designer/config/utils/type_helpers.py,sha256=RvhDk4rxQKDOMBLqJiMM4IJXdLoNUf3uzW52vB5cqrg,4024
-data_designer/config/utils/validation.py,sha256=wXXzdZXVAWraM6XbH21zMb-X2RvzQvzZSC290G8-iks,13079
-data_designer/config/utils/visualization.py,sha256=dk1TQRTg2Uo08mqEabSxui5wXOk4YgjC-Cd4Autilmc,15784
+data_designer/config/utils/validation.py,sha256=1MoVqrS_DofT0LDIrGpWTPi02chntZT1p2K0FIyUOzs,14463
+data_designer/config/utils/visualization.py,sha256=X0R-EDW-yzIaYtK1ttLsCXEp6a6ubejvm_9xpO2UrMg,17599
 data_designer/engine/__init__.py,sha256=9eG4WHKyrJcNoK4GEz6BCw_E0Ewo9elQoDN4TLMbAog,137
 data_designer/engine/configurable_task.py,sha256=GnaBG6xVBQ1ELpzumNctwKYZJvKKjh2LMKhws4W2GS4,3124
 data_designer/engine/errors.py,sha256=DUoKhQCSwIBoLSQGv7dstzO3DFGDRqW3MBoWnRPcm1I,1262
@@ -88,8 +88,8 @@ data_designer/engine/column_generators/generators/validation.py,sha256=MbDFXzief
 data_designer/engine/column_generators/utils/errors.py,sha256=ugNwaqnPdrPZI7YnKLbYwFjYUSm0WAzgaVu_u6i5Rc8,365
 data_designer/engine/column_generators/utils/judge_score_factory.py,sha256=JRoaZgRGK24dH0zx7MNGSccK196tQK_l0sbwNkurg7c,2132
 data_designer/engine/column_generators/utils/prompt_renderer.py,sha256=d4tbyPsgmFDikW3nxL5is9RNaajMkoPDCrfkQkxw7rc,4760
-data_designer/engine/dataset_builders/artifact_storage.py,sha256=r70ZoohD-givRxd0mQT7JBZiUp1hhQvu_zzH-g_lQbU,7995
-data_designer/engine/dataset_builders/column_wise_builder.py,sha256=OSpIAChevQpLjMehP9zFwJbIURaZN-sEF0Hhy8QTbGA,13074
+data_designer/engine/dataset_builders/artifact_storage.py,sha256=GCHuKuQ6Y_ePG515rsqc3NzQtN1v4pEV2L1I2H2_tx4,8451
+data_designer/engine/dataset_builders/column_wise_builder.py,sha256=ljf-2fAKdry1UCVubhkhRWhoVlKZfK77ytwgkjuQ5VY,13267
 data_designer/engine/dataset_builders/errors.py,sha256=1kChleChG4rASWIiL4Bel6Ox6aFZjQUrh5ogPt1CDWo,359
 data_designer/engine/dataset_builders/multi_column_configs.py,sha256=t28fhI-WRIBohFnAJ80l5EAETEDB5rJ5RSWInMiRfyE,1619
 data_designer/engine/dataset_builders/utils/__init__.py,sha256=9eG4WHKyrJcNoK4GEz6BCw_E0Ewo9elQoDN4TLMbAog,137
@@ -125,8 +125,9 @@ data_designer/engine/processing/gsonschema/schema_transformers.py,sha256=__-dfrC
 data_designer/engine/processing/gsonschema/types.py,sha256=-x_K2HrVnZ_Z7fzYl4T2Gd7QHf6B6ADvn7E7iYvw5Kc,313
 data_designer/engine/processing/gsonschema/validators.py,sha256=5Jh864KnA5gWBeLbpz1cE5Kk_GMxI6kPWvunAbLI3vI,4704
 data_designer/engine/processing/processors/base.py,sha256=WJl7_0dtiUppjfY-lrQ3lDiIgYqRDSEYUwSAQNN7nFE,548
-data_designer/engine/processing/processors/drop_columns.py,sha256=-ATddFz8efrM2jwiG6w7vgtj48VVy4ZoDvSbGY0aZfY,2050
-data_designer/engine/processing/processors/registry.py,sha256=2zr91IjEMy7duN43fkborPekXohA_X1J8BSKVc1rJKk,804
+data_designer/engine/processing/processors/drop_columns.py,sha256=MIb_CVrpoM3kyN5-8dHZrdFAAUiCCWgDEyQjAk8nZqE,2060
+data_designer/engine/processing/processors/registry.py,sha256=nhB1O4b0wSUkWQeleV9l1MykwZD-dSvY0ydqmSscEY8,1056
+data_designer/engine/processing/processors/schema_transform.py,sha256=amRIw69F5Mn6ZrJvov3ZCRXk-Vil1_adQ1_rC6VKELg,2233
 data_designer/engine/registry/base.py,sha256=8h5MRPccLGSGcss3qFoQ-i7XGzvn8gdiRR0tYr7mDgk,3544
 data_designer/engine/registry/data_designer_registry.py,sha256=0nO7JEezwc2wnnDRKAX5BZz6RhBI3-kNU3Eb1WAdCFI,1487
 data_designer/engine/registry/errors.py,sha256=nO794QVy4DovKGKWEjycVDN9cdDlH-skbZLTb354M3Y,309
@@ -164,15 +165,15 @@ data_designer/engine/validators/remote.py,sha256=jtDIvWzfHh17m2ac_Fp93p49Th8RlkB
 data_designer/engine/validators/sql.py,sha256=bxbyxPxDT9yuwjhABVEY40iR1pzWRFi65WU4tPgG2bE,2250
 data_designer/essentials/__init__.py,sha256=eHuZFJTmeRf_b6KQZ2vZeqy1afJ7y7RMTm7q4Jrg58s,1012
 data_designer/interface/__init__.py,sha256=9eG4WHKyrJcNoK4GEz6BCw_E0Ewo9elQoDN4TLMbAog,137
-data_designer/interface/data_designer.py,sha256=fnkKrhOW-uI6LDxpVHHbnySmCSEuEUfDh4mHgIpDm6c,16288
+data_designer/interface/data_designer.py,sha256=O6PehBIdL4_2d9rFW86J9b3jfJ_CJmFId8T2AviM2zM,16844
 data_designer/interface/errors.py,sha256=jagKT3tPUnYq4e3e6AkTnBkcayHyEfxjPMBzx-GEKe4,565
-data_designer/interface/results.py,sha256=qFxa8SuCXeADiRpaCMBwJcExkJBCfUPeGCdcJSTjoTc,2111
+data_designer/interface/results.py,sha256=zYVX589OUyFuB-8XLmjjdKk3hCDNKu189sH-gOOFreQ,3511
 data_designer/plugins/__init__.py,sha256=c_V7q4QhfVoNf_uc9UwmXCsWqwtyWogI7YoN_0PzzE4,234
 data_designer/plugins/errors.py,sha256=yPIHpSddEr-o9ZcNVibb2hI-73O15Kg_Od8SlmQlnRs,297
 data_designer/plugins/plugin.py,sha256=7ErdUyrTdOb5PCBE3msdhTOrvQpldjOQw90-Bu4Bosc,2522
 data_designer/plugins/registry.py,sha256=w0o7I3A5UpIaCiqSJIj3kv_dLlh7m_WHznP_O-X13-s,3018
-data_designer-0.1.4.dist-info/METADATA,sha256=Sf3MnCQkIfyO53T7lSqn20ckC_mFLx8tlOpd8izk-nc,6653
-data_designer-0.1.4.dist-info/WHEEL,sha256=WLgqFyCfm_KASv4WHyYy0P3pM_m7J5L9k2skdKLirC8,87
-data_designer-0.1.4.dist-info/entry_points.txt,sha256=NWWWidyDxN6CYX6y664PhBYMhbaYTQTyprqfYAgkyCg,57
-data_designer-0.1.4.dist-info/licenses/LICENSE,sha256=cSWJDwVqHyQgly8Zmt3pqXJ2eQbZVYwN9qd0NMssxXY,11336
-data_designer-0.1.4.dist-info/RECORD,,
+data_designer-0.1.5.dist-info/METADATA,sha256=s4j9BlO8RDnExQPVbFCYZhY5FNI539DanL-sLEmwzGk,6710
+data_designer-0.1.5.dist-info/WHEEL,sha256=WLgqFyCfm_KASv4WHyYy0P3pM_m7J5L9k2skdKLirC8,87
+data_designer-0.1.5.dist-info/entry_points.txt,sha256=NWWWidyDxN6CYX6y664PhBYMhbaYTQTyprqfYAgkyCg,57
+data_designer-0.1.5.dist-info/licenses/LICENSE,sha256=cSWJDwVqHyQgly8Zmt3pqXJ2eQbZVYwN9qd0NMssxXY,11336
+data_designer-0.1.5.dist-info/RECORD,,

{data_designer-0.1.4.dist-info → data_designer-0.1.5.dist-info}/WHEEL RENAMED Viewed

File without changes

{data_designer-0.1.4.dist-info → data_designer-0.1.5.dist-info}/entry_points.txt RENAMED Viewed

File without changes

{data_designer-0.1.4.dist-info → data_designer-0.1.5.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

data-designer 0.1.4__py3-none-any.whl → 0.1.5__py3-none-any.whl

data-designer 0.1.4py3-none-any.whl → 0.1.5py3-none-any.whl