PyPI - renderers - Versions diffs - 0.1.8.dev43__tar.gz → 0.1.8.dev45__tar.gz - Mend

renderers 0.1.8.dev43tar.gz → 0.1.8.dev45tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (71) hide show

{renderers-0.1.8.dev43 → renderers-0.1.8.dev45}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: renderers
-Version: 0.1.8.dev43
+Version: 0.1.8.dev45
 Summary: Chat template renderers — deterministic message-to-token conversion for LLM training
 License-Expression: Apache-2.0
 License-File: LICENSE
@@ -57,7 +57,7 @@ next_prompt_ids = r.bridge_to_next_turn(
 )
 ```
-Hand-coded renderers ship for `qwen3`, `qwen3-vl`, `qwen3.5`, `qwen3.6`, `glm-5`, `glm-5.1`, `glm-4.5`, `minimax-m2`, `deepseek-v3`, `kimi-k2`, `kimi-k2.5`, `nemotron-3`, `gpt-oss`. Anything else falls back to `DefaultRenderer`, a generic `apply_chat_template` wrapper.
+Hand-coded renderers ship for `qwen3`, `qwen3-vl`, `qwen3.5`, `qwen3.6`, `glm-5`, `glm-5.1`, `glm-4.5`, `minimax-m2`, `deepseek-v3`, `kimi-k2`, `kimi-k2.5`, `nemotron-3`, `nemotron-3-ultra`, `gpt-oss`. Anything else falls back to `DefaultRenderer`, a generic `apply_chat_template` wrapper.
 ## API

{renderers-0.1.8.dev43 → renderers-0.1.8.dev45}/README.md RENAMED Viewed

@@ -40,7 +40,7 @@ next_prompt_ids = r.bridge_to_next_turn(
 )
 ```
-Hand-coded renderers ship for `qwen3`, `qwen3-vl`, `qwen3.5`, `qwen3.6`, `glm-5`, `glm-5.1`, `glm-4.5`, `minimax-m2`, `deepseek-v3`, `kimi-k2`, `kimi-k2.5`, `nemotron-3`, `gpt-oss`. Anything else falls back to `DefaultRenderer`, a generic `apply_chat_template` wrapper.
+Hand-coded renderers ship for `qwen3`, `qwen3-vl`, `qwen3.5`, `qwen3.6`, `glm-5`, `glm-5.1`, `glm-4.5`, `minimax-m2`, `deepseek-v3`, `kimi-k2`, `kimi-k2.5`, `nemotron-3`, `nemotron-3-ultra`, `gpt-oss`. Anything else falls back to `DefaultRenderer`, a generic `apply_chat_template` wrapper.
 ## API

{renderers-0.1.8.dev43 → renderers-0.1.8.dev45}/renderers/__init__.py RENAMED Viewed

@@ -56,6 +56,7 @@ from renderers.configs import (
     Llama3RendererConfig,
     MiniMaxM2RendererConfig,
     Nemotron3RendererConfig,
+    Nemotron3UltraRendererConfig,
     Qwen35RendererConfig,
     Qwen36RendererConfig,
     Qwen3RendererConfig,
@@ -88,6 +89,7 @@ _LAZY_RENDERERS: dict[str, str] = {
     "Llama3Renderer": "renderers.llama_3",
     "MiniMaxM2Renderer": "renderers.minimax_m2",
     "Nemotron3Renderer": "renderers.nemotron3",
+    "Nemotron3UltraRenderer": "renderers.nemotron3",
     "Qwen35Renderer": "renderers.qwen35",
     "Qwen36Renderer": "renderers.qwen36",
     "Qwen3Renderer": "renderers.qwen3",
@@ -146,6 +148,8 @@ __all__ = [
     "MultimodalRenderer",
     "Nemotron3Renderer",
     "Nemotron3RendererConfig",
+    "Nemotron3UltraRenderer",
+    "Nemotron3UltraRendererConfig",
     "OverlongPromptError",
     "ParsedResponse",
     "ParsedToolCall",

{renderers-0.1.8.dev43 → renderers-0.1.8.dev45}/renderers/_version.py RENAMED Viewed

@@ -18,7 +18,7 @@ version_tuple: tuple[int | str, ...]
 commit_id: str | None
 __commit_id__: str | None
-__version__ = version = '0.1.8.dev43'
-__version_tuple__ = version_tuple = (0, 1, 8, 'dev43')
+__version__ = version = '0.1.8.dev45'
+__version_tuple__ = version_tuple = (0, 1, 8, 'dev45')
 __commit_id__ = commit_id = None

{renderers-0.1.8.dev43 → renderers-0.1.8.dev45}/renderers/base.py RENAMED Viewed

@@ -1040,14 +1040,15 @@ MODEL_RENDERER_MAP: dict[str, str] = {
     "moonshotai/Kimi-K2-Instruct": "kimi-k2",
     "moonshotai/Kimi-K2.5": "kimi-k2.5",
     "moonshotai/Kimi-K2.6": "kimi-k2.5",
-    # Nemotron 3. Nano / Super share one chat-template variant; the Ultra
-    # checkpoints use the Ultra variant — the renderer auto-selects it from
-    # the model name (see ``nemotron3._ULTRA_DEFAULTS``). BF16 and FP8 share the
+    # Nemotron 3. Nano / Super share one chat-template variant (``nemotron-3``);
+    # the Ultra checkpoints use the Ultra variant (``nemotron-3-ultra``, distinct
+    # ``</think>`` glue). Both route to the same Nemotron3Renderer, which selects
+    # the variant from the resolved config's ``name``. BF16 and FP8 share the
     # same tokenizer and template.
     "nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16": "nemotron-3",
     "nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16": "nemotron-3",
-    "nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16": "nemotron-3",
-    "nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-FP8": "nemotron-3",
+    "nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16": "nemotron-3-ultra",
+    "nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-FP8": "nemotron-3-ultra",
     # Llama 3.2 (Instruct). Tested against the gated meta-llama repos and
     # the unrestricted unsloth/... mirror, which ships a byte-identical
     # chat template. ``Llama3Renderer`` defaults ``date_string`` to
@@ -1350,7 +1351,7 @@ def _populate_registry():
     from renderers.laguna_xs2 import LagunaXS2Renderer
     from renderers.llama_3 import Llama3Renderer
     from renderers.minimax_m2 import MiniMaxM2Renderer
-    from renderers.nemotron3 import Nemotron3Renderer
+    from renderers.nemotron3 import Nemotron3Renderer, Nemotron3UltraRenderer
     from renderers.qwen3 import Qwen3Renderer
     from renderers.qwen3_vl import Qwen3VLRenderer
     from renderers.qwen35 import Qwen35Renderer
@@ -1374,6 +1375,7 @@ def _populate_registry():
             "laguna-xs.2": LagunaXS2Renderer,
             "llama-3": Llama3Renderer,
             "nemotron-3": Nemotron3Renderer,
+            "nemotron-3-ultra": Nemotron3UltraRenderer,
             "gpt-oss": GptOssRenderer,
         }
     )
@@ -1706,19 +1708,45 @@ def _get_offset_tokenizer(tokenizer):
             kwargs = {"trust_remote_code": True, "revision": revision}
         else:
             kwargs = {"trust_remote_code": False}
-        # Explicitly vanilla — we want HF's Rust tokenizer with offset
-        # tracking, not the fastokens shim. ``load_tokenizer`` would
-        # patch fastokens in by default; routing through
-        # ``_load_tokenizer_via_auto`` keeps the fastokens patch out
-        # of this code path while still applying the config-build
-        # fallback (RoPE-validation failures on nested
-        # ``rope_parameters``, etc.).
+        def _has_offsets(tok) -> bool:
+            if not getattr(tok, "is_fast", False):
+                return False
+            try:
+                tok("a", add_special_tokens=False, return_offsets_mapping=True)
+                return True
+            except (NotImplementedError, ValueError, TypeError):
+                return False
+        # We want HF's Rust tokenizer with offset tracking, not the fastokens
+        # shim. The shim is installed by a *process-global* monkeypatch that
+        # ``load_tokenizer`` toggles per pool-slot load, so a plain reload here
+        # can race a concurrent slot's open patch window and silently pick up
+        # the offset-less shim (then get cached, poisoning the process). So:
+        # load, verify offsets, and if missing, reload with the patch forced
+        # off — serialized against pool patch/unpatch via ``_FASTOKENS_PATCH_LOCK``
+        # so no concurrent window can swap the shim back in mid-load — then
+        # restore the prior patch state. Never cache a non-offset tokenizer.
         offset_tok = _load_tokenizer_via_auto(name_or_path, **kwargs)
-        if not getattr(offset_tok, "is_fast", False):
+        if not _has_offsets(offset_tok):
+            import fastokens
+            with _FASTOKENS_PATCH_LOCK:
+                was_patched = bool(getattr(fastokens, "_patched", False))
+                if was_patched:
+                    with contextlib.redirect_stdout(io.StringIO()):
+                        fastokens.unpatch_transformers()
+                try:
+                    offset_tok = _load_tokenizer_via_auto(name_or_path, **kwargs)
+                finally:
+                    if was_patched:
+                        with contextlib.redirect_stdout(io.StringIO()):
+                            fastokens.patch_transformers()
+        if not _has_offsets(offset_tok):
             raise RuntimeError(
-                f"Vanilla tokenizer for {name_or_path!r} is not a fast "
-                "tokenizer; offset_mapping is unavailable. Hand-coded "
-                "renderers require a fast tokenizer for body/scaffold "
+                f"Could not load an offset-capable tokenizer for {name_or_path!r}: "
+                "offset_mapping is unavailable even with the fastokens patch off. "
+                "Hand-coded renderers require a fast tokenizer for body/scaffold "
                 "attribution."
             )
         _offset_tokenizers[name_or_path] = offset_tok

{renderers-0.1.8.dev43 → renderers-0.1.8.dev45}/renderers/configs.py RENAMED Viewed

@@ -354,7 +354,14 @@ class MiniMaxM2RendererConfig(BaseRendererConfig):
 class Nemotron3RendererConfig(BaseRendererConfig):
-    """Nemotron 3 renderer config."""
+    """Nemotron-3 **Nano / Super** renderer config.
+    Nano and Super share one chat-template variant; the renderer routes both
+    through :class:`renderers.nemotron3.Nemotron3Renderer`. The Ultra variant
+    has its own template (different reasoning-block glue) and config —
+    :class:`Nemotron3UltraRendererConfig` — and is reached via the
+    ``nemotron-3-ultra`` discriminator.
+    """
     name: Literal["nemotron-3"] = "nemotron-3"
@@ -362,26 +369,6 @@ class Nemotron3RendererConfig(BaseRendererConfig):
     """When ``True``, the generation prompt includes ``<think>``. Mirrors
     the chat template's ``enable_thinking`` kwarg."""
-    ultra: bool | None = None
-    """Select the Nemotron-3 **Ultra** chat-template variant.
-    ``None`` (default) auto-detects from the model name (see
-    ``renderers.nemotron3._ULTRA_DEFAULTS``): the Ultra checkpoints resolve
-    to ``True``; Nano / Super and unknown checkpoints to ``False``. Set
-    explicitly to force a variant — e.g. an Ultra fine-tune or a
-    locally-pathed checkpoint whose ``name_or_path`` isn't in the table.
-    Ultra's template differs from Nano/Super: the reasoning block is glued
-    as ``<think>\\n{reasoning}</think>{content}`` (no ``\\n`` around
-    ``</think>``), truncated historical turns collapse to
-    ``<think></think>{content}`` (no ``\\n``), and the thinking-truncation
-    boundary follows the template's ``loop.index0 < last_user_idx`` rule
-    (drop thinking on every assistant turn before the last user message).
-    Not a chat-template kwarg — it picks which template the renderer
-    mirrors, not a variable passed into one — so it's listed in
-    ``_internal_fields`` and excluded from ``template_field_names()``."""
     truncate_history_thinking: bool = True
     """When ``False``, keep ``<think>{reasoning}</think>`` on past-cycle
     assistant turns instead of dropping them. Mirrors the chat
@@ -389,14 +376,37 @@ class Nemotron3RendererConfig(BaseRendererConfig):
     ``preserve_all_thinking`` / ``preserve_thinking_between_tool_calls``
     — see :class:`BaseRendererConfig` for the contract."""
-    # ``ultra`` is a template-variant SELECTOR — it picks which template the
-    # renderer mirrors (Ultra vs Nano/Super), not a variable passed into one;
-    # there is no ``ultra`` Jinja variable. Marked internal so the parity
-    # matrix doesn't cross it as a template field. Same ``_internal_fields``
-    # mechanism DeepSeek-V3 uses for its no-op ``enable_thinking``, for a
-    # different underlying reason (theirs is an ignored kwarg, this is a
-    # variant switch).
-    _internal_fields = frozenset({"ultra"})
+    low_effort: bool = False
+    """When ``True``, append ``\\n\\n{reasoning effort: low}`` to the last user
+    message, nudging the model toward shorter reasoning. Mirrors the **Super**
+    chat template's ``low_effort`` kwarg. A no-op on **Nano** (its template
+    doesn't define it) — exactly as ``apply_chat_template`` ignores an undefined
+    template variable; the renderer distinguishes the two by model name (see
+    ``renderers.nemotron3._is_super``)."""
+class Nemotron3UltraRendererConfig(BaseRendererConfig):
+    """Nemotron-3 **Ultra** renderer config — distinct discriminator so the
+    registry routes Ultra checkpoints to the Ultra template variant.
+    Ultra's template differs from Nano/Super: the reasoning block is glued as
+    ``<think>\\n{reasoning}</think>{content}`` (no ``\\n`` around ``</think>``)
+    and truncated historical turns collapse to ``<think></think>{content}``
+    (no ``\\n``). It shares the :class:`renderers.nemotron3.Nemotron3Renderer`
+    implementation, which selects the variant from ``config.name``.
+    """
+    name: Literal["nemotron-3-ultra"] = "nemotron-3-ultra"
+    enable_thinking: bool = True
+    """See :class:`Nemotron3RendererConfig.enable_thinking`."""
+    truncate_history_thinking: bool = True
+    """See :class:`Nemotron3RendererConfig.truncate_history_thinking`."""
+    medium_effort: bool = False
+    """When ``True``, append ``\\n\\n{reasoning effort: efficient}`` to the last
+    user message. Mirrors the Ultra chat template's ``medium_effort`` kwarg."""
 class DeepSeekV3RendererConfig(BaseRendererConfig):
@@ -444,6 +454,7 @@ RendererConfig = Annotated[
         Llama3RendererConfig,
         MiniMaxM2RendererConfig,
         Nemotron3RendererConfig,
+        Nemotron3UltraRendererConfig,
         DeepSeekV3RendererConfig,
         DeepSeekR1RendererConfig,
     ],
@@ -480,6 +491,7 @@ _CONFIG_BY_NAME: dict[str, type[BaseRendererConfig]] = {
     "llama-3": Llama3RendererConfig,
     "minimax-m2": MiniMaxM2RendererConfig,
     "nemotron-3": Nemotron3RendererConfig,
+    "nemotron-3-ultra": Nemotron3UltraRendererConfig,
     "deepseek-v3": DeepSeekV3RendererConfig,
     "deepseek-r1": DeepSeekR1RendererConfig,
 }
@@ -525,6 +537,7 @@ __all__ = [
     "Llama3RendererConfig",
     "MiniMaxM2RendererConfig",
     "Nemotron3RendererConfig",
+    "Nemotron3UltraRendererConfig",
     "Qwen35RendererConfig",
     "Qwen36RendererConfig",
     "Qwen3RendererConfig",

renderers 0.1.8.dev43__tar.gz → 0.1.8.dev45__tar.gz

renderers 0.1.8.dev43tar.gz → 0.1.8.dev45tar.gz