PyPI - data-designer - Versions diffs - 0.2.0__py3-none-any.whl → 0.2.2__py3-none-any.whl - Mend

data-designer 0.2.0py3-none-any.whl → 0.2.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (13) hide show

data_designer/_version.py CHANGED Viewed

@@ -28,7 +28,7 @@ version_tuple: VERSION_TUPLE
 commit_id: COMMIT_ID
 __commit_id__: COMMIT_ID
-__version__ = version = '0.2.0'
-__version_tuple__ = version_tuple = (0, 2, 0)
+__version__ = version = '0.2.2'
+__version_tuple__ = version_tuple = (0, 2, 2)
 __commit_id__ = commit_id = None

data_designer/config/config_builder.py CHANGED Viewed

@@ -224,6 +224,9 @@ class DataDesignerConfigBuilder:
         Returns:
             The current Data Designer config builder instance.
+        Raises:
+            BuilderConfigurationError: If the column name collides with an existing seed dataset column.
         """
         if column_config is None:
             if name is None or column_type is None:
@@ -240,6 +243,13 @@ class DataDesignerConfigBuilder:
                 f"{', '.join([t.__name__ for t in allowed_column_configs])}"
             )
+        existing_config = self._column_configs.get(column_config.name)
+        if existing_config is not None and isinstance(existing_config, SeedDatasetColumnConfig):
+            raise BuilderConfigurationError(
+                f"🛑 Column {column_config.name!r} already exists as a seed dataset column. "
+                "Please use a different column name or update the seed dataset."
+            )
         self._column_configs[column_config.name] = column_config
         return self
@@ -568,7 +578,8 @@ class DataDesignerConfigBuilder:
         This method sets the seed dataset for the configuration and automatically creates
         SeedDatasetColumnConfig objects for each column found in the dataset. The column
-        names are fetched from the dataset source (Hugging Face Hub or NeMo Microservices Datastore).
+        names are fetched from the dataset source, which can be the Hugging Face Hub, the
+        NeMo Microservices Datastore, or in the case of direct library usage, a local file.
         Args:
             dataset_reference: Seed dataset reference for fetching from the datastore.
@@ -577,7 +588,18 @@ class DataDesignerConfigBuilder:
         Returns:
             The current Data Designer config builder instance.
+        Raises:
+            BuilderConfigurationError: If any seed dataset column name collides with an existing column.
         """
+        seed_column_names = fetch_seed_dataset_column_names(dataset_reference)
+        colliding_columns = [name for name in seed_column_names if name in self._column_configs]
+        if colliding_columns:
+            raise BuilderConfigurationError(
+                f"🛑 Seed dataset column(s) {colliding_columns} collide with existing column(s). "
+                "Please remove the conflicting columns or use a seed dataset with different column names."
+            )
         self._seed_config = SeedConfig(
             dataset=dataset_reference.dataset,
             sampling_strategy=sampling_strategy,
@@ -586,7 +608,7 @@ class DataDesignerConfigBuilder:
         self.set_seed_datastore_settings(
             dataset_reference.datastore_settings if hasattr(dataset_reference, "datastore_settings") else None
         )
-        for column_name in fetch_seed_dataset_column_names(dataset_reference):
+        for column_name in seed_column_names:
             self._column_configs[column_name] = SeedDatasetColumnConfig(name=column_name)
         return self

data_designer/config/sampler_params.py CHANGED Viewed

@@ -522,6 +522,25 @@ class PersonSamplerParams(ConfigBase):
 class PersonFromFakerSamplerParams(ConfigBase):
+    """Parameters for sampling synthetic person data with demographic attributes from Faker.
+    Uses the Faker library to generate random personal information. The data is basic and not demographically
+    accurate, but is useful for quick testing, prototyping, or when realistic demographic distributions are not
+    relevant for your use case. For demographically accurate person data, use the `PersonSamplerParams` sampler.
+    Attributes:
+        locale: Locale string determining the language and geographic region for synthetic people.
+            Can be any locale supported by Faker.
+        sex: If specified, filters to only sample people of the specified sex. Options: "Male" or
+            "Female". If None, samples both sexes.
+        city: If specified, filters to only sample people from the specified city or cities. Can be
+            a single city name (string) or a list of city names.
+        age_range: Two-element list [min_age, max_age] specifying the age range to sample from
+            (inclusive). Defaults to a standard age range. Both values must be between the minimum and
+            maximum allowed ages.
+        sampler_type: Discriminator for the sampler type. Must be `SamplerType.PERSON_FROM_FAKER`.
+    """
     locale: str = Field(
         default="en_US",
         description=(

data_designer/engine/column_generators/generators/base.py CHANGED Viewed

@@ -1,23 +1,27 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 import functools
 import logging
 from abc import ABC, abstractmethod
-from typing import overload
+from enum import Enum
+from typing import TYPE_CHECKING, overload
 import pandas as pd
-from data_designer.config.column_types import COLUMN_TYPE_EMOJI_MAP
-from data_designer.config.models import BaseInferenceParams, ModelConfig
-from data_designer.config.utils.type_helpers import StrEnum
 from data_designer.engine.configurable_task import ConfigurableTask, ConfigurableTaskMetadata, DataT, TaskConfigT
-from data_designer.engine.models.facade import ModelFacade
+if TYPE_CHECKING:
+    from data_designer.config.models import BaseInferenceParams, ModelConfig
+    from data_designer.engine.models.facade import ModelFacade
 logger = logging.getLogger(__name__)
-class GenerationStrategy(StrEnum):
+class GenerationStrategy(str, Enum):
     CELL_BY_CELL = "cell_by_cell"
     FULL_COLUMN = "full_column"
@@ -82,8 +86,7 @@ class WithModelGeneration:
         return self.model_config.inference_parameters
     def log_pre_generation(self) -> None:
-        emoji = COLUMN_TYPE_EMOJI_MAP[self.config.column_type]
-        logger.info(f"{emoji} Preparing {self.config.column_type} column generation")
+        logger.info(f"Preparing {self.config.column_type} column generation")
         logger.info(f"  |-- column name: {self.config.name!r}")
         logger.info(f"  |-- model config:\n{self.model_config.model_dump_json(indent=4)}")
         if self.model_config.provider is None:

data_designer/engine/dataset_builders/column_wise_builder.py CHANGED Viewed

@@ -1,12 +1,15 @@
 # SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
+from __future__ import annotations
 import functools
+import importlib.metadata
 import json
 import logging
 import time
+import uuid
 from pathlib import Path
-from typing import Callable
+from typing import TYPE_CHECKING, Callable
 import pandas as pd
@@ -35,14 +38,21 @@ from data_designer.engine.dataset_builders.utils.concurrency import (
 from data_designer.engine.dataset_builders.utils.dataset_batch_manager import (
     DatasetBatchManager,
 )
+from data_designer.engine.models.telemetry import InferenceEvent, NemoSourceEnum, TaskStatusEnum, TelemetryHandler
 from data_designer.engine.processing.processors.base import Processor
 from data_designer.engine.processing.processors.drop_columns import DropColumnsProcessor
 from data_designer.engine.registry.data_designer_registry import DataDesignerRegistry
 from data_designer.engine.resources.resource_provider import ResourceProvider
+if TYPE_CHECKING:
+    from data_designer.engine.models.usage import ModelUsageStats
 logger = logging.getLogger(__name__)
+_CLIENT_VERSION: str = importlib.metadata.version("data_designer")
 class ColumnWiseDatasetBuilder:
     def __init__(
         self,
@@ -89,11 +99,12 @@ class ColumnWiseDatasetBuilder:
         generators = self._initialize_generators()
         start_time = time.perf_counter()
+        group_id = uuid.uuid4().hex
         self.batch_manager.start(num_records=num_records, buffer_size=buffer_size)
         for batch_idx in range(self.batch_manager.num_batches):
             logger.info(f"⏳ Processing batch {batch_idx + 1} of {self.batch_manager.num_batches}")
-            self._run_batch(generators)
+            self._run_batch(generators, batch_mode="batch", group_id=group_id)
             df_batch = self._run_processors(
                 stage=BuildStage.POST_BATCH,
                 dataframe=self.batch_manager.get_current_batch(as_dataframe=True),
@@ -114,10 +125,10 @@ class ColumnWiseDatasetBuilder:
         self._run_model_health_check_if_needed()
         generators = self._initialize_generators()
+        group_id = uuid.uuid4().hex
         start_time = time.perf_counter()
         self.batch_manager.start(num_records=num_records, buffer_size=num_records)
-        self._run_batch(generators, save_partial_results=False)
+        self._run_batch(generators, batch_mode="preview", save_partial_results=False, group_id=group_id)
         dataset = self.batch_manager.get_current_batch(as_dataframe=True)
         self.batch_manager.reset()
@@ -143,7 +154,10 @@ class ColumnWiseDatasetBuilder:
             for config in self._column_configs
         ]
-    def _run_batch(self, generators: list[ColumnGenerator], *, save_partial_results: bool = True) -> None:
+    def _run_batch(
+        self, generators: list[ColumnGenerator], *, batch_mode: str, save_partial_results: bool = True, group_id: str
+    ) -> None:
+        pre_batch_snapshot = self._resource_provider.model_registry.get_model_usage_snapshot()
         for generator in generators:
             generator.log_pre_generation()
             try:
@@ -166,6 +180,12 @@ class ColumnWiseDatasetBuilder:
                 )
                 raise DatasetGenerationError(f"🛑 Failed to process {column_error_str}:\n{e}")
+        try:
+            usage_deltas = self._resource_provider.model_registry.get_usage_deltas(pre_batch_snapshot)
+            self._emit_batch_inference_events(batch_mode, usage_deltas, group_id)
+        except Exception:
+            pass
     def _run_from_scratch_column_generator(self, generator: ColumnGenerator) -> None:
         df = generator.generate_from_scratch(self.batch_manager.num_records_batch)
         self.batch_manager.add_records(df.to_dict(orient="records"))
@@ -289,3 +309,25 @@ class ColumnWiseDatasetBuilder:
             json_file_name="model_configs.json",
             configs=self._resource_provider.model_registry.model_configs.values(),
         )
+    def _emit_batch_inference_events(
+        self, batch_mode: str, usage_deltas: dict[str, ModelUsageStats], group_id: str
+    ) -> None:
+        if not usage_deltas:
+            return
+        events = [
+            InferenceEvent(
+                nemo_source=NemoSourceEnum.DATADESIGNER,
+                task=batch_mode,
+                task_status=TaskStatusEnum.SUCCESS,
+                model=model_name,
+                input_tokens=delta.token_usage.input_tokens,
+                output_tokens=delta.token_usage.output_tokens,
+            )
+            for model_name, delta in usage_deltas.items()
+        ]
+        with TelemetryHandler(source_client_version=_CLIENT_VERSION, session_id=group_id) as telemetry_handler:
+            for event in events:
+                telemetry_handler.enqueue(event)

data_designer/engine/models/registry.py CHANGED Viewed

@@ -9,6 +9,7 @@ from data_designer.config.models import GenerationType, ModelConfig
 from data_designer.engine.model_provider import ModelProvider, ModelProviderRegistry
 from data_designer.engine.models.facade import ModelFacade
 from data_designer.engine.models.litellm_overrides import apply_litellm_patches
+from data_designer.engine.models.usage import ModelUsageStats, RequestUsageStats, TokenUsageStats
 from data_designer.engine.secret_resolver import SecretResolver
 logger = logging.getLogger(__name__)
@@ -25,7 +26,7 @@ class ModelRegistry:
         self._secret_resolver = secret_resolver
         self._model_provider_registry = model_provider_registry
         self._model_configs = {}
-        self._models = {}
+        self._models: dict[str, ModelFacade] = {}
         self._set_model_configs(model_configs)
     @property
@@ -69,6 +70,31 @@ class ModelRegistry:
             if model.usage_stats.has_usage
         }
+    def get_model_usage_snapshot(self) -> dict[str, ModelUsageStats]:
+        return {
+            model.model_name: model.usage_stats.model_copy(deep=True)
+            for model in self._models.values()
+            if model.usage_stats.has_usage
+        }
+    def get_usage_deltas(self, snapshot: dict[str, ModelUsageStats]) -> dict[str, ModelUsageStats]:
+        deltas = {}
+        for model_name, current in self.get_model_usage_snapshot().items():
+            prev = snapshot.get(model_name)
+            delta_input = current.token_usage.input_tokens - (prev.token_usage.input_tokens if prev else 0)
+            delta_output = current.token_usage.output_tokens - (prev.token_usage.output_tokens if prev else 0)
+            delta_successful = current.request_usage.successful_requests - (
+                prev.request_usage.successful_requests if prev else 0
+            )
+            delta_failed = current.request_usage.failed_requests - (prev.request_usage.failed_requests if prev else 0)
+            if delta_input > 0 or delta_output > 0 or delta_successful > 0 or delta_failed > 0:
+                deltas[model_name] = ModelUsageStats(
+                    token_usage=TokenUsageStats(input_tokens=delta_input, output_tokens=delta_output),
+                    request_usage=RequestUsageStats(successful_requests=delta_successful, failed_requests=delta_failed),
+                )
+        return deltas
     def get_model_provider(self, *, model_alias: str) -> ModelProvider:
         model_config = self.get_model_config(model_alias=model_alias)
         return self._model_provider_registry.get_provider(model_config.provider)

data_designer/engine/models/telemetry.py ADDED Viewed

@@ -0,0 +1,355 @@
+# SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: Apache-2.0
+"""
+Telemetry handler for NeMo products.
+Environment variables:
+- NEMO_TELEMETRY_ENABLED: Whether telemetry is enabled.
+- NEMO_DEPLOYMENT_TYPE: The deployment type the event came from.
+- NEMO_TELEMETRY_ENDPOINT: The endpoint to send the telemetry events to.
+"""
+from __future__ import annotations
+import asyncio
+import os
+import platform
+from dataclasses import dataclass
+from datetime import datetime, timezone
+from enum import Enum
+from typing import Any, ClassVar
+import httpx
+from pydantic import BaseModel, Field
+TELEMETRY_ENABLED = os.getenv("NEMO_TELEMETRY_ENABLED", "true").lower() in ("1", "true", "yes")
+CLIENT_ID = "184482118588404"
+NEMO_TELEMETRY_VERSION = "nemo-telemetry/1.0"
+MAX_RETRIES = 3
+NEMO_TELEMETRY_ENDPOINT = os.getenv(
+    "NEMO_TELEMETRY_ENDPOINT", "https://events.telemetry.data.nvidia.com/v1.1/events/json"
+).lower()
+CPU_ARCHITECTURE = platform.uname().machine
+class NemoSourceEnum(str, Enum):
+    INFERENCE = "inference"
+    AUDITOR = "auditor"
+    DATADESIGNER = "datadesigner"
+    EVALUATOR = "evaluator"
+    GUARDRAILS = "guardrails"
+    UNDEFINED = "undefined"
+class DeploymentTypeEnum(str, Enum):
+    LIBRARY = "library"
+    API = "api"
+    UNDEFINED = "undefined"
+_deployment_type_raw = os.getenv("NEMO_DEPLOYMENT_TYPE", "library").lower()
+try:
+    DEPLOYMENT_TYPE = DeploymentTypeEnum(_deployment_type_raw)
+except ValueError:
+    valid_values = [e.value for e in DeploymentTypeEnum]
+    raise ValueError(
+        f"Invalid NEMO_DEPLOYMENT_TYPE: {_deployment_type_raw!r}. Must be one of: {valid_values}"
+    ) from None
+class TaskStatusEnum(str, Enum):
+    SUCCESS = "success"
+    FAILURE = "failure"
+    UNDEFINED = "undefined"
+class TelemetryEvent(BaseModel):
+    _event_name: ClassVar[str]  # Subclasses must define this
+    _schema_version: ClassVar[str] = "1.3"
+    def __init_subclass__(cls, **kwargs: Any) -> None:
+        super().__init_subclass__(**kwargs)
+        if "_event_name" not in cls.__dict__:
+            raise TypeError(f"{cls.__name__} must define '_event_name' class variable")
+class InferenceEvent(TelemetryEvent):
+    _event_name: ClassVar[str] = "inference_event"
+    nemo_source: NemoSourceEnum = Field(
+        ...,
+        alias="nemoSource",
+        description="The NeMo product that created the event (i.e. data-designer).",
+    )
+    task: str = Field(
+        ...,
+        description="The type of task that was performed that generated the inference event (i.e. preview-job, batch-job).",
+    )
+    task_status: TaskStatusEnum = Field(
+        ...,
+        alias="taskStatus",
+        description="The status of the task.",
+    )
+    deployment_type: DeploymentTypeEnum = Field(
+        default=DEPLOYMENT_TYPE,
+        alias="deploymentType",
+        description="The deployment type the event came from.",
+    )
+    model: str = Field(
+        ...,
+        description="The name of the model that was used.",
+    )
+    model_group: str = Field(
+        default="undefined",
+        alias="modelGroup",
+        description="An optional identifier to group models together.",
+    )
+    input_bytes: int = Field(
+        default=-1,
+        alias="inputBytes",
+        description="Number of bytes provided as input to the model. -1 if not available.",
+        ge=-9223372036854775808,
+        le=9223372036854775807,
+    )
+    input_tokens: int = Field(
+        default=-1,
+        alias="inputTokens",
+        description="Number of tokens provided as input to the model. -1 if not available.",
+        ge=-9223372036854775808,
+        le=9223372036854775807,
+    )
+    output_bytes: int = Field(
+        default=-1,
+        alias="outputBytes",
+        description="Number of bytes returned by the model. -1 if not available.",
+        ge=-9223372036854775808,
+        le=9223372036854775807,
+    )
+    output_tokens: int = Field(
+        default=-1,
+        alias="outputTokens",
+        description="Number of tokens returned by the model. -1 if not available.",
+        ge=-9223372036854775808,
+        le=9223372036854775807,
+    )
+    model_config = {"populate_by_name": True}
+@dataclass
+class QueuedEvent:
+    event: TelemetryEvent
+    timestamp: datetime
+    retry_count: int = 0
+def _get_iso_timestamp(dt: datetime | None = None) -> str:
+    if dt is None:
+        dt = datetime.now(timezone.utc)
+    return dt.strftime("%Y-%m-%dT%H:%M:%S.") + f"{dt.microsecond // 1000:03d}Z"
+def build_payload(
+    events: list[QueuedEvent], *, source_client_version: str, session_id: str = "undefined"
+) -> dict[str, Any]:
+    return {
+        "browserType": "undefined",  # do not change
+        "clientId": CLIENT_ID,
+        "clientType": "Native",  # do not change
+        "clientVariant": "Release",  # do not change
+        "clientVer": source_client_version,
+        "cpuArchitecture": CPU_ARCHITECTURE,
+        "deviceGdprBehOptIn": "None",  # do not change
+        "deviceGdprFuncOptIn": "None",  # do not change
+        "deviceGdprTechOptIn": "None",  # do not change
+        "deviceId": "undefined",  # do not change
+        "deviceMake": "undefined",  # do not change
+        "deviceModel": "undefined",  # do not change
+        "deviceOS": "undefined",  # do not change
+        "deviceOSVersion": "undefined",  # do not change
+        "deviceType": "undefined",  # do not change
+        "eventProtocol": "1.6",  # do not change
+        "eventSchemaVer": events[0].event._schema_version,
+        "eventSysVer": NEMO_TELEMETRY_VERSION,
+        "externalUserId": "undefined",  # do not change
+        "gdprBehOptIn": "None",  # do not change
+        "gdprFuncOptIn": "None",  # do not change
+        "gdprTechOptIn": "None",  # do not change
+        "idpId": "undefined",  # do not change
+        "integrationId": "undefined",  # do not change
+        "productName": "undefined",  # do not change
+        "productVersion": "undefined",  # do not change
+        "sentTs": _get_iso_timestamp(),
+        "sessionId": session_id,
+        "userId": "undefined",  # do not change
+        "events": [
+            {
+                "ts": _get_iso_timestamp(queued.timestamp),
+                "parameters": queued.event.model_dump(by_alias=True),
+                "name": queued.event._event_name,
+            }
+            for queued in events
+        ],
+    }
+class TelemetryHandler:
+    """
+    Handles telemetry event batching, flushing, and retry logic for NeMo products.
+    Args:
+        flush_interval_seconds (float): The interval in seconds to flush the events.
+        max_queue_size (int): The maximum number of events to queue before flushing.
+        max_retries (int): The maximum number of times to retry sending an event.
+        source_client_version (str): The version of the source client. This should be the version of
+            the actual NeMo product that is sending the events, typically the same as the version of
+            a PyPi package that a user would install.
+        session_id (str): An optional session ID to associate with the events.
+            This should be a unique identifier for the session, such as a UUID.
+            It is used to group events together.
+    """
+    def __init__(
+        self,
+        flush_interval_seconds: float = 120.0,
+        max_queue_size: int = 50,
+        max_retries: int = MAX_RETRIES,
+        source_client_version: str = "undefined",
+        session_id: str = "undefined",
+    ):
+        self._flush_interval = flush_interval_seconds
+        self._max_queue_size = max_queue_size
+        self._max_retries = max_retries
+        self._events: list[QueuedEvent] = []
+        self._dlq: list[QueuedEvent] = []  # Dead letter queue for retry
+        self._flush_signal = asyncio.Event()
+        self._timer_task: asyncio.Task | None = None
+        self._running = False
+        self._source_client_version = source_client_version
+        self._session_id = session_id
+    async def astart(self) -> None:
+        if self._running:
+            return
+        self._running = True
+        self._timer_task = asyncio.create_task(self._timer_loop())
+    async def astop(self) -> None:
+        self._running = False
+        self._flush_signal.set()
+        if self._timer_task:
+            self._timer_task.cancel()
+            try:
+                await self._timer_task
+            except asyncio.CancelledError:
+                pass
+            self._timer_task = None
+        await self._flush_events()
+    async def aflush(self) -> None:
+        self._flush_signal.set()
+    def start(self) -> None:
+        self._run_sync(self.astart())
+    def stop(self) -> None:
+        self._run_sync(self.astop())
+    def flush(self) -> None:
+        self._flush_signal.set()
+    def enqueue(self, event: TelemetryEvent) -> None:
+        if not TELEMETRY_ENABLED:
+            return
+        if not isinstance(event, TelemetryEvent):
+            # Silently fail as we prioritize not disrupting upstream call sites and telemetry is best effort
+            return
+        queued = QueuedEvent(event=event, timestamp=datetime.now(timezone.utc))
+        self._events.append(queued)
+        if len(self._events) >= self._max_queue_size:
+            self._flush_signal.set()
+    def _run_sync(self, coro: Any) -> Any:
+        try:
+            loop = asyncio.get_running_loop()
+        except RuntimeError:
+            loop = None
+        if loop and loop.is_running():
+            import concurrent.futures
+            with concurrent.futures.ThreadPoolExecutor() as pool:
+                future = pool.submit(asyncio.run, coro)
+                return future.result()
+        else:
+            return asyncio.run(coro)
+    def __enter__(self) -> TelemetryHandler:
+        self.start()
+        return self
+    def __exit__(self, exc_type: Any, exc_val: Any, exc_tb: Any) -> None:
+        self.stop()
+    async def __aenter__(self) -> TelemetryHandler:
+        await self.astart()
+        return self
+    async def __aexit__(self, exc_type: Any, exc_val: Any, exc_tb: Any) -> None:
+        await self.astop()
+    async def _timer_loop(self) -> None:
+        while self._running:
+            try:
+                await asyncio.wait_for(
+                    self._flush_signal.wait(),
+                    timeout=self._flush_interval,
+                )
+            except asyncio.TimeoutError:
+                pass
+            self._flush_signal.clear()
+            await self._flush_events()
+    async def _flush_events(self) -> None:
+        dlq_events, self._dlq = self._dlq, []
+        new_events, self._events = self._events, []
+        events_to_send = dlq_events + new_events
+        if events_to_send:
+            await self._send_events(events_to_send)
+    async def _send_events(self, events: list[QueuedEvent]) -> None:
+        async with httpx.AsyncClient() as client:
+            await self._send_events_with_client(client, events)
+    async def _send_events_with_client(self, client: httpx.AsyncClient, events: list[QueuedEvent]) -> None:
+        if not events:
+            return
+        payload = build_payload(events, source_client_version=self._source_client_version, session_id=self._session_id)
+        try:
+            response = await client.post(NEMO_TELEMETRY_ENDPOINT, json=payload)
+            # 2xx, 400, 422 are all considered complete (no retry)
+            # 400/422 indicate bad payload which retrying won't fix
+            if response.status_code in (400, 422) or response.is_success:
+                return
+            # 413 (payload too large) - split and retry
+            if response.status_code == 413:
+                if len(events) == 1:
+                    # Can't split further, drop the event
+                    return
+                mid = len(events) // 2
+                await self._send_events_with_client(client, events[:mid])
+                await self._send_events_with_client(client, events[mid:])
+                return
+            if response.status_code == 408 or response.status_code >= 500:
+                self._add_to_dlq(events)
+        except httpx.HTTPError:
+            self._add_to_dlq(events)
+    def _add_to_dlq(self, events: list[QueuedEvent]) -> None:
+        for queued in events:
+            queued.retry_count += 1
+            if queued.retry_count > self._max_retries:
+                continue
+            self._dlq.append(queued)

data_designer/engine/validators/python.py CHANGED Viewed

@@ -2,8 +2,8 @@
 # SPDX-License-Identifier: Apache-2.0
 import ast
+import json
 import logging
-import re
 import subprocess
 import tempfile
 from collections import defaultdict
@@ -179,9 +179,8 @@ class PythonValidator(BaseValidator):
         for file in Path(codebase_path).glob("*.py"):
             processed[file.stem] = PythonLinterMessages()
-        # Run ruff linter
+        # Run ruff linter with JSON output
         ruff_bin = find_ruff_bin()
-        env = {"NO_COLOR": "1"}
         ruff_exec = subprocess.run(
             [
@@ -189,9 +188,9 @@ class PythonValidator(BaseValidator):
                 "check",
                 "--select",
                 "E,F6,F7,F8,SIM,PLC,PLE,PLR,PLW",
+                "--output-format=json",
                 codebase_path,
             ],
-            env=env,
             text=True,
             capture_output=True,
             check=False,
@@ -199,30 +198,34 @@ class PythonValidator(BaseValidator):
         )
         ruff_output = ruff_exec.stdout
-        # Parse ruff output
-        if "All checks passed!" in ruff_output:
-            return processed  # no errors or warnings
-        pattern = r"(.*):([0-9]*):([0-9]*): ([A-Za-z0-9]*):? (?:\[\*\] )?(.*)\n"
-        errors = re.findall(pattern, ruff_output)
+        # Parse JSON output
+        try:
+            diagnostics = json.loads(ruff_output)
+        except json.JSONDecodeError as e:
+            raise RuntimeError(f"Failed to parse ruff JSON output: {e}")
-        if errors == []:  # output could not be parsed
-            raise RuntimeError("ruff's output could not be parsed")
+        if not diagnostics:
+            return processed  # no errors or warnings
-        try:
-            for error in errors:
-                filename, line, column, symbol, message = error
-                processed[Path(filename).stem].add(
-                    PythonLinterMessage(
-                        type=TYPE_FROM_SYMBOL[re.sub(r"[^A-Za-z]+", "", symbol)],
-                        symbol=symbol,
-                        line=int(line),
-                        column=int(column),
-                        message=message,
-                    )
+        for diagnostic in diagnostics:
+            filename = diagnostic["filename"]
+            code = diagnostic["code"]
+            location = diagnostic["location"]
+            message = diagnostic["message"]
+            # Extract alphabetic prefix from code for type mapping
+            alpha_prefix = "".join(c for c in code if c.isalpha())
+            error_type = TYPE_FROM_SYMBOL.get(alpha_prefix, "warning")
+            processed[Path(filename).stem].add(
+                PythonLinterMessage(
+                    type=error_type,
+                    symbol=code,
+                    line=location["row"],
+                    column=location["column"],
+                    message=message,
                 )
-        except Exception:  # output not in expected format
-            raise RuntimeError("ruff's output not in expected format")
+            )
         return processed

{data_designer-0.2.0.dist-info → data_designer-0.2.2.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: data-designer
-Version: 0.2.0
+Version: 0.2.2
 Summary: General framework for synthetic data generation
 License-Expression: Apache-2.0
 License-File: LICENSE
@@ -15,36 +15,34 @@ Classifier: Programming Language :: Python :: 3.13
 Classifier: Topic :: Scientific/Engineering :: Artificial Intelligence
 Classifier: Topic :: Software Development
 Requires-Python: >=3.10
-Requires-Dist: anyascii<1.0,>=0.3.3
-Requires-Dist: datasets>=4.0.0
-Requires-Dist: duckdb==1.1.3
-Requires-Dist: faker==20.1.0
-Requires-Dist: httpx-retries>=0.4.2
-Requires-Dist: httpx>=0.27.2
-Requires-Dist: huggingface-hub>=0.34.4
+Requires-Dist: anyascii<1,>=0.3.3
+Requires-Dist: duckdb<2,>=1.1.3
+Requires-Dist: faker<21,>=20.1.0
+Requires-Dist: httpx-retries<1,>=0.4.2
+Requires-Dist: httpx<1,>=0.27.2
+Requires-Dist: huggingface-hub<2,>=1.0.1
 Requires-Dist: jinja2<4,>=3.1.6
-Requires-Dist: json-repair==0.48.0
-Requires-Dist: jsonpath-rust-bindings>=1.0
-Requires-Dist: litellm==1.73.6
-Requires-Dist: lxml>=6.0.2
-Requires-Dist: marko==2.1.2
-Requires-Dist: networkx==3.0
-Requires-Dist: numpy>=1.23.5
-Requires-Dist: pandas>=1.5.3
-Requires-Dist: prompt-toolkit>=3.0.0
-Requires-Dist: pyarrow>=19.0.1
-Requires-Dist: pydantic>=2.9.2
-Requires-Dist: pydantic[email]>=2.9.2
-Requires-Dist: pygments>=2.19.2
-Requires-Dist: python-json-logger==2.0.7
-Requires-Dist: pyyaml>=6.0.1
+Requires-Dist: json-repair<1,>=0.48.0
+Requires-Dist: jsonpath-rust-bindings<2,>=1.0
+Requires-Dist: litellm<2,>=1.73.6
+Requires-Dist: lxml<7,>=6.0.2
+Requires-Dist: marko<3,>=2.1.2
+Requires-Dist: networkx<4,>=3.0
+Requires-Dist: numpy<3,>=1.23.5
+Requires-Dist: pandas<3,>=2.3.3
+Requires-Dist: prompt-toolkit<4,>=3.0.0
+Requires-Dist: pyarrow<20,>=19.0.1
+Requires-Dist: pydantic[email]<3,>=2.9.2
+Requires-Dist: pygments<3,>=2.19.2
+Requires-Dist: python-json-logger<4,>=3
+Requires-Dist: pyyaml<7,>=6.0.1
 Requires-Dist: requests<3,>=2.32.2
-Requires-Dist: rich>=13.7.1
-Requires-Dist: ruff==0.12.3
-Requires-Dist: scipy>=1.11.0
-Requires-Dist: sqlfluff==3.2.0
-Requires-Dist: tiktoken>=0.8.0
-Requires-Dist: typer>=0.12.0
+Requires-Dist: rich<14,>=13.7.1
+Requires-Dist: ruff<1,>=0.14.10
+Requires-Dist: scipy<2,>=1.11.0
+Requires-Dist: sqlfluff<4,>=3.2.0
+Requires-Dist: tiktoken<1,>=0.8.0
+Requires-Dist: typer<1,>=0.12.0
 Description-Content-Type: text/markdown
 # 🎨 NeMo Data Designer
@@ -166,6 +164,37 @@ data-designer config list      # View current settings
 ---
+## Telemetry
+Data Designer collects telemetry to help us improve the library for developers. We collect:
+* The names of models used
+* The count of input tokens
+* The count of output tokens
+**No user or device information is collected.** This data is not used to track any individual user behavior. It is used to see an aggregation of which models are the most popular for SDG. We will share this usage data with the community.
+Specifically, a model name that is defined a `ModelConfig` object, is what will be collected. In the below example config:
+```python
+ModelConfig(
+    alias="nv-reasoning",
+    model="openai/gpt-oss-20b",
+    provider="nvidia",
+    inference_parameters=InferenceParameters(
+        temperature=0.3,
+        top_p=0.9,
+        max_tokens=4096,
+    ),
+    )
+```
+The value `openai/gpt-oss-20b` would be collected.
+To disable telemetry capture, set `NEMO_TELEMETRY_ENABLED=false`.
+---
 ## License
 Apache License 2.0 – see [LICENSE](LICENSE) for details.

{data_designer-0.2.0.dist-info → data_designer-0.2.2.dist-info}/RECORD RENAMED Viewed

@@ -1,5 +1,5 @@
 data_designer/__init__.py,sha256=iCeqRnb640RrL2QpA630GY5Ng7JiDt83Vq0DwLnNugU,461
-data_designer/_version.py,sha256=Dg8AmJomLVpjKL6prJylOONZAPRtB86LOce7dorQS_A,704
+data_designer/_version.py,sha256=o3ZTescp-19Z9cvBGq9dQnbppljgzdUYUf98Nov0spY,704
 data_designer/errors.py,sha256=Z4eN9XwzZvGRdBluSNoSqQYkPPzNQIDf0ET_OqWRZh8,179
 data_designer/logging.py,sha256=ZsruJ0tx_4NK0PIMyxCZJJ0wJugoDff9UP3PbsdEDxQ,5341
 data_designer/plugin_manager.py,sha256=xaMX274gdlYLNNPIrAOmJNLaZlG_0ROJ0H29v8t2aKs,2604
@@ -37,7 +37,7 @@ data_designer/config/__init__.py,sha256=9eG4WHKyrJcNoK4GEz6BCw_E0Ewo9elQoDN4TLMb
 data_designer/config/base.py,sha256=ypam9XX6dg8Q_55su84WmVExNXsmt5jb3eeW3JLlHwc,2396
 data_designer/config/column_configs.py,sha256=pjpy5z3Kk7i4WmIjOxdiW5Awpjy5CxQSy0YMy0QxtvA,18961
 data_designer/config/column_types.py,sha256=EILVM42d4TMl2xbSj5htMsenJwybCHIc_G8AUXyrjWU,7197
-data_designer/config/config_builder.py,sha256=BMzYzUY0FXZHZRdH7hn7UUj2-CvcArpEOvVy-3nMQGU,28071
+data_designer/config/config_builder.py,sha256=n8in3O-hR2j3wJBnZMCoT5NawlobJDWTyNZCIYSgWIo,29241
 data_designer/config/data_designer_config.py,sha256=D2b4Dl8pR6kCkvPoZ3APxC9pVBqXi5EJMVK1WBZ6ni8,1886
 data_designer/config/dataset_builders.py,sha256=1pNFy_pkQ5lJ6AVZ43AeTuSbz6yC_l7Ndcyp5yaT8hQ,327
 data_designer/config/datastore.py,sha256=gEHR2hYlJwD_vzjuaSOMRiYjtwdQhyO9q1afZDrhBCo,7586
@@ -49,7 +49,7 @@ data_designer/config/models.py,sha256=_uLOh2TutJV3Fq_8YyAi5E7G37j47j64zcrCYnzpjb
 data_designer/config/preview_results.py,sha256=bPRKX1enzNTY240ixc8jZVgO7EDHABZ1_er0TabhLZg,1345
 data_designer/config/processors.py,sha256=bA6SVF1kmAJSshmWseLE6HzlEBAsH9FtUtNJk0QzJtU,5987
 data_designer/config/sampler_constraints.py,sha256=Q8-JrwTD69AJy8cvs_-0yf4yOBGemLwLZNmk-8Y5wPk,1156
-data_designer/config/sampler_params.py,sha256=jBOkgluDoskYBHKYx7N6iITswHKhLMdweIqgWTEZ0_s,26589
+data_designer/config/sampler_params.py,sha256=-MLNFDqattNWrHuWPYyGTe2YdbaGMH-JKTCzxq1ji3E,27838
 data_designer/config/seed.py,sha256=n4iHDBkUlwNJSXqDu6BqD6uZZeFtLu6x1hyyOhcG9zM,5503
 data_designer/config/validator_params.py,sha256=BSDNVZQvXB4hmhuX4EnJ89pR-1hdEfI_KWYO8POQlMk,3906
 data_designer/config/analysis/__init__.py,sha256=9eG4WHKyrJcNoK4GEz6BCw_E0Ewo9elQoDN4TLMbAog,137
@@ -84,7 +84,7 @@ data_designer/engine/analysis/utils/judge_score_processing.py,sha256=rl11e3PxAOQ
 data_designer/engine/column_generators/__init__.py,sha256=9eG4WHKyrJcNoK4GEz6BCw_E0Ewo9elQoDN4TLMbAog,137
 data_designer/engine/column_generators/registry.py,sha256=Eg6tqNM7mmEPNom1fWF9S5D3qABpMennOHGEGePwJN0,3060
 data_designer/engine/column_generators/generators/__init__.py,sha256=9eG4WHKyrJcNoK4GEz6BCw_E0Ewo9elQoDN4TLMbAog,137
-data_designer/engine/column_generators/generators/base.py,sha256=48kQHNcT6k6-anMRoSelgoPhsdrb90n6BQqc45ZE7n8,3327
+data_designer/engine/column_generators/generators/base.py,sha256=zurwtamM2l3shLa4SLjUOE0zOTDozQ5wPGAvDkrNYqE,3231
 data_designer/engine/column_generators/generators/embedding.py,sha256=xYnFWRJ2W7JuwK8CRIUhv4QiT_DCGDuQkuHFKXCxrow,1724
 data_designer/engine/column_generators/generators/expression.py,sha256=7xniEj8aPscWDYLrnNbG2mF3s08C7aR8ZgNUCzr_x8g,2539
 data_designer/engine/column_generators/generators/llm_completion.py,sha256=XqpXzYczbZ6efUIVuvcm2O_mXBnXCMAvcjeyaB5dIFA,5301
@@ -95,7 +95,7 @@ data_designer/engine/column_generators/utils/errors.py,sha256=ugNwaqnPdrPZI7YnKL
 data_designer/engine/column_generators/utils/judge_score_factory.py,sha256=umo8-iMWbvkAztWkB5m_pU1cY1eBpR5L2gHt_fuZPD4,2100
 data_designer/engine/column_generators/utils/prompt_renderer.py,sha256=d4tbyPsgmFDikW3nxL5is9RNaajMkoPDCrfkQkxw7rc,4760
 data_designer/engine/dataset_builders/artifact_storage.py,sha256=mVCqcW8shylofi_pjYEeHUa9Mo-tjIcl4nR8D8oy2bw,8420
-data_designer/engine/dataset_builders/column_wise_builder.py,sha256=mc8f2W1gVj2Z5nT3fRNJ3CIGtETkoSPVDlQzijBI41o,13096
+data_designer/engine/dataset_builders/column_wise_builder.py,sha256=h6R6YfU2sfhxewIyTaLdcgSI6FpfIouyc1qdfnWfUZ0,14801
 data_designer/engine/dataset_builders/errors.py,sha256=1kChleChG4rASWIiL4Bel6Ox6aFZjQUrh5ogPt1CDWo,359
 data_designer/engine/dataset_builders/multi_column_configs.py,sha256=t28fhI-WRIBohFnAJ80l5EAETEDB5rJ5RSWInMiRfyE,1619
 data_designer/engine/dataset_builders/utils/__init__.py,sha256=9eG4WHKyrJcNoK4GEz6BCw_E0Ewo9elQoDN4TLMbAog,137
@@ -108,7 +108,8 @@ data_designer/engine/models/__init__.py,sha256=9eG4WHKyrJcNoK4GEz6BCw_E0Ewo9elQo
 data_designer/engine/models/errors.py,sha256=AQlZ-cf0IqFW-e-K9HZFH3YhXXOTLLI2eZCXr7_58Yk,12174
 data_designer/engine/models/facade.py,sha256=sqTSqW7jQ1vbRc1fCOoKuhb7vTVil5Z8RqN_NBp6exY,12410
 data_designer/engine/models/litellm_overrides.py,sha256=tUVB_Zvg_6VoFNTK7WEKHUjoAknMkAOvureLycMENh0,5504
-data_designer/engine/models/registry.py,sha256=d9-ACVuTGebmqnkEId9bXQ2BskVaebkg2tCcdUpvpuY,5305
+data_designer/engine/models/registry.py,sha256=-TbGhvs8WRq6f7z6cH_DDdo7uhs4Hb5qkJce_Y4UBWM,6840
+data_designer/engine/models/telemetry.py,sha256=3g4jDz8xxOOkPtIYit94c4D4mGUwgfiCDaDdnbTLhFQ,12407
 data_designer/engine/models/usage.py,sha256=rObhH8X0O7L-P863Jz2EAO4FO25-6VP42HL6Tvx4lRg,2405
 data_designer/engine/models/utils.py,sha256=91oPXpHsnER1rEWxIkBhphlln8VOuTOoLGJL9eyWYBo,1254
 data_designer/engine/models/parsers/__init__.py,sha256=9eG4WHKyrJcNoK4GEz6BCw_E0Ewo9elQoDN4TLMbAog,137
@@ -166,7 +167,7 @@ data_designer/engine/sampling_gen/entities/assets/zip_area_code_map.parquet,sha2
 data_designer/engine/validators/__init__.py,sha256=lMouN5BTbDNi31KfTQNjV7qrL46q-ssejXNT24iDTGI,652
 data_designer/engine/validators/base.py,sha256=lzO4gRoCDvh3BFP0sM4OjcwG-84qodYFW-G9NEOk3Cs,964
 data_designer/engine/validators/local_callable.py,sha256=oCUXj_NRt0gVqUIh0fLrvw-iURDR6OHFrVi5GOMhXj8,1387
-data_designer/engine/validators/python.py,sha256=DK6xxTzUHD8JUEmfP14W4hKdSb45ifbmvrWoU_o_l7Y,7871
+data_designer/engine/validators/python.py,sha256=jAp1u8yLjqfebh60xGapkHVjMz58WHB0QjfMc2zQCaY,7894
 data_designer/engine/validators/remote.py,sha256=jtDIvWzfHh17m2ac_Fp93p49Th8RlkBzzih2jiqD7gk,2929
 data_designer/engine/validators/sql.py,sha256=bxbyxPxDT9yuwjhABVEY40iR1pzWRFi65WU4tPgG2bE,2250
 data_designer/essentials/__init__.py,sha256=eHuZFJTmeRf_b6KQZ2vZeqy1afJ7y7RMTm7q4Jrg58s,1012
@@ -178,8 +179,8 @@ data_designer/plugins/__init__.py,sha256=c_V7q4QhfVoNf_uc9UwmXCsWqwtyWogI7YoN_0P
 data_designer/plugins/errors.py,sha256=yPIHpSddEr-o9ZcNVibb2hI-73O15Kg_Od8SlmQlnRs,297
 data_designer/plugins/plugin.py,sha256=a2KfoCNhYa8U0uQrPSBWfuyjXOb5WeITzFRpEdZFo6s,2516
 data_designer/plugins/registry.py,sha256=c0X03TnA_J60RWpxaVJEmtIXKvA9up-LznrUHXDcYxg,3012
-data_designer-0.2.0.dist-info/METADATA,sha256=FEDBX1QVjIrObfr4tmsQ6u08OhUliIV4_yzMDiq0l_0,6710
-data_designer-0.2.0.dist-info/WHEEL,sha256=WLgqFyCfm_KASv4WHyYy0P3pM_m7J5L9k2skdKLirC8,87
-data_designer-0.2.0.dist-info/entry_points.txt,sha256=NWWWidyDxN6CYX6y664PhBYMhbaYTQTyprqfYAgkyCg,57
-data_designer-0.2.0.dist-info/licenses/LICENSE,sha256=cSWJDwVqHyQgly8Zmt3pqXJ2eQbZVYwN9qd0NMssxXY,11336
-data_designer-0.2.0.dist-info/RECORD,,
+data_designer-0.2.2.dist-info/METADATA,sha256=kcCjCe9CSOS7xenYsG6NduNpMm5ELNmRBBv3goYAqoY,7636
+data_designer-0.2.2.dist-info/WHEEL,sha256=WLgqFyCfm_KASv4WHyYy0P3pM_m7J5L9k2skdKLirC8,87
+data_designer-0.2.2.dist-info/entry_points.txt,sha256=NWWWidyDxN6CYX6y664PhBYMhbaYTQTyprqfYAgkyCg,57
+data_designer-0.2.2.dist-info/licenses/LICENSE,sha256=cSWJDwVqHyQgly8Zmt3pqXJ2eQbZVYwN9qd0NMssxXY,11336
+data_designer-0.2.2.dist-info/RECORD,,

{data_designer-0.2.0.dist-info → data_designer-0.2.2.dist-info}/WHEEL RENAMED Viewed

File without changes

{data_designer-0.2.0.dist-info → data_designer-0.2.2.dist-info}/entry_points.txt RENAMED Viewed

File without changes

{data_designer-0.2.0.dist-info → data_designer-0.2.2.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

data-designer 0.2.0__py3-none-any.whl → 0.2.2__py3-none-any.whl

data-designer 0.2.0py3-none-any.whl → 0.2.2py3-none-any.whl