PyPI - ommlds - Versions diffs - 0.0.0.dev456__py3-none-any.whl → 0.0.0.dev485__py3-none-any.whl - Mend

ommlds 0.0.0.dev456py3-none-any.whl → 0.0.0.dev485py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (212) hide show

ommlds/.omlish-manifests.json +314 -33
ommlds/__about__.py +15 -9
ommlds/_hacks/__init__.py +4 -0
ommlds/_hacks/funcs.py +110 -0
ommlds/_hacks/names.py +158 -0
ommlds/_hacks/params.py +73 -0
ommlds/_hacks/patches.py +0 -3
ommlds/backends/anthropic/protocol/__init__.py +13 -1
ommlds/backends/anthropic/protocol/_dataclasses.py +1625 -0
ommlds/backends/anthropic/protocol/sse/assemble.py +22 -6
ommlds/backends/anthropic/protocol/sse/events.py +13 -0
ommlds/backends/google/protocol/__init__.py +13 -0
ommlds/backends/google/protocol/_dataclasses.py +5997 -0
ommlds/backends/google/protocol/types.py +5 -1
ommlds/backends/groq/__init__.py +7 -0
ommlds/backends/groq/_dataclasses.py +3901 -0
ommlds/backends/groq/_marshal.py +23 -0
ommlds/backends/groq/protocol.py +249 -0
ommlds/backends/llamacpp/logging.py +4 -1
ommlds/backends/mlx/caching.py +7 -3
ommlds/backends/mlx/cli.py +10 -7
ommlds/backends/mlx/generation.py +18 -16
ommlds/backends/mlx/limits.py +10 -6
ommlds/backends/mlx/loading.py +65 -5
ommlds/backends/ollama/__init__.py +7 -0
ommlds/backends/ollama/_dataclasses.py +3458 -0
ommlds/backends/ollama/protocol.py +170 -0
ommlds/backends/openai/protocol/__init__.py +15 -1
ommlds/backends/openai/protocol/_dataclasses.py +7708 -0
ommlds/backends/tavily/__init__.py +7 -0
ommlds/backends/tavily/_dataclasses.py +1734 -0
ommlds/backends/tavily/protocol.py +301 -0
ommlds/backends/tinygrad/models/llama3/__init__.py +22 -14
ommlds/backends/transformers/__init__.py +14 -0
ommlds/backends/transformers/filecache.py +109 -0
ommlds/backends/transformers/streamers.py +73 -0
ommlds/cli/__init__.py +7 -0
ommlds/cli/_dataclasses.py +2562 -0
ommlds/cli/asyncs.py +30 -0
ommlds/cli/backends/catalog.py +93 -0
ommlds/cli/backends/configs.py +9 -0
ommlds/cli/backends/inject.py +31 -36
ommlds/cli/backends/injection.py +16 -0
ommlds/cli/backends/types.py +46 -0
ommlds/cli/content/messages.py +34 -0
ommlds/cli/content/strings.py +42 -0
ommlds/cli/inject.py +15 -32
ommlds/cli/inputs/__init__.py +0 -0
ommlds/cli/inputs/asyncs.py +32 -0
ommlds/cli/inputs/sync.py +75 -0
ommlds/cli/main.py +267 -128
ommlds/cli/rendering/__init__.py +0 -0
ommlds/cli/rendering/configs.py +9 -0
ommlds/cli/rendering/inject.py +31 -0
ommlds/cli/rendering/markdown.py +52 -0
ommlds/cli/rendering/raw.py +73 -0
ommlds/cli/rendering/types.py +21 -0
ommlds/cli/secrets.py +21 -0
ommlds/cli/sessions/base.py +1 -1
ommlds/cli/sessions/chat/chat/__init__.py +0 -0
ommlds/cli/sessions/chat/chat/ai/__init__.py +0 -0
ommlds/cli/sessions/chat/chat/ai/configs.py +11 -0
ommlds/cli/sessions/chat/chat/ai/inject.py +74 -0
ommlds/cli/sessions/chat/chat/ai/injection.py +14 -0
ommlds/cli/sessions/chat/chat/ai/rendering.py +70 -0
ommlds/cli/sessions/chat/chat/ai/services.py +79 -0
ommlds/cli/sessions/chat/chat/ai/tools.py +44 -0
ommlds/cli/sessions/chat/chat/ai/types.py +28 -0
ommlds/cli/sessions/chat/chat/state/__init__.py +0 -0
ommlds/cli/sessions/chat/chat/state/configs.py +11 -0
ommlds/cli/sessions/chat/chat/state/inject.py +36 -0
ommlds/cli/sessions/chat/chat/state/inmemory.py +33 -0
ommlds/cli/sessions/chat/chat/state/storage.py +52 -0
ommlds/cli/sessions/chat/chat/state/types.py +38 -0
ommlds/cli/sessions/chat/chat/user/__init__.py +0 -0
ommlds/cli/sessions/chat/chat/user/configs.py +17 -0
ommlds/cli/sessions/chat/chat/user/inject.py +62 -0
ommlds/cli/sessions/chat/chat/user/interactive.py +31 -0
ommlds/cli/sessions/chat/chat/user/oneshot.py +25 -0
ommlds/cli/sessions/chat/chat/user/types.py +15 -0
ommlds/cli/sessions/chat/configs.py +27 -0
ommlds/cli/sessions/chat/driver.py +43 -0
ommlds/cli/sessions/chat/inject.py +33 -65
ommlds/cli/sessions/chat/phases/__init__.py +0 -0
ommlds/cli/sessions/chat/phases/inject.py +27 -0
ommlds/cli/sessions/chat/phases/injection.py +14 -0
ommlds/cli/sessions/chat/phases/manager.py +29 -0
ommlds/cli/sessions/chat/phases/types.py +29 -0
ommlds/cli/sessions/chat/session.py +27 -0
ommlds/cli/sessions/chat/tools/__init__.py +0 -0
ommlds/cli/sessions/chat/tools/configs.py +22 -0
ommlds/cli/sessions/chat/tools/confirmation.py +46 -0
ommlds/cli/sessions/chat/tools/execution.py +66 -0
ommlds/cli/sessions/chat/tools/fs/__init__.py +0 -0
ommlds/cli/sessions/chat/tools/fs/configs.py +12 -0
ommlds/cli/sessions/chat/tools/fs/inject.py +35 -0
ommlds/cli/sessions/chat/tools/inject.py +88 -0
ommlds/cli/sessions/chat/tools/injection.py +44 -0
ommlds/cli/sessions/chat/tools/rendering.py +58 -0
ommlds/cli/sessions/chat/tools/todo/__init__.py +0 -0
ommlds/cli/sessions/chat/tools/todo/configs.py +12 -0
ommlds/cli/sessions/chat/tools/todo/inject.py +31 -0
ommlds/cli/sessions/chat/tools/weather/__init__.py +0 -0
ommlds/cli/sessions/chat/tools/weather/configs.py +12 -0
ommlds/cli/sessions/chat/tools/weather/inject.py +22 -0
ommlds/cli/{tools/weather.py → sessions/chat/tools/weather/tools.py} +1 -1
ommlds/cli/sessions/completion/configs.py +21 -0
ommlds/cli/sessions/completion/inject.py +42 -0
ommlds/cli/sessions/completion/session.py +35 -0
ommlds/cli/sessions/embedding/configs.py +21 -0
ommlds/cli/sessions/embedding/inject.py +42 -0
ommlds/cli/sessions/embedding/session.py +33 -0
ommlds/cli/sessions/inject.py +28 -11
ommlds/cli/state/__init__.py +0 -0
ommlds/cli/state/inject.py +28 -0
ommlds/cli/{state.py → state/storage.py} +41 -24
ommlds/minichain/__init__.py +46 -17
ommlds/minichain/_dataclasses.py +15401 -0
ommlds/minichain/backends/catalogs/base.py +20 -1
ommlds/minichain/backends/catalogs/simple.py +2 -2
ommlds/minichain/backends/catalogs/strings.py +10 -8
ommlds/minichain/backends/impls/anthropic/chat.py +31 -65
ommlds/minichain/backends/impls/anthropic/names.py +3 -4
ommlds/minichain/backends/impls/anthropic/protocol.py +109 -0
ommlds/minichain/backends/impls/anthropic/stream.py +53 -31
ommlds/minichain/backends/impls/duckduckgo/search.py +5 -1
ommlds/minichain/backends/impls/dummy/__init__.py +0 -0
ommlds/minichain/backends/impls/dummy/chat.py +69 -0
ommlds/minichain/backends/impls/google/chat.py +9 -2
ommlds/minichain/backends/impls/google/search.py +6 -1
ommlds/minichain/backends/impls/google/stream.py +122 -32
ommlds/minichain/backends/impls/groq/__init__.py +0 -0
ommlds/minichain/backends/impls/groq/chat.py +75 -0
ommlds/minichain/backends/impls/groq/names.py +48 -0
ommlds/minichain/backends/impls/groq/protocol.py +143 -0
ommlds/minichain/backends/impls/groq/stream.py +125 -0
ommlds/minichain/backends/impls/huggingface/repos.py +1 -5
ommlds/minichain/backends/impls/llamacpp/chat.py +15 -3
ommlds/minichain/backends/impls/llamacpp/completion.py +7 -3
ommlds/minichain/backends/impls/llamacpp/stream.py +38 -19
ommlds/minichain/backends/impls/mistral.py +9 -2
ommlds/minichain/backends/impls/mlx/chat.py +100 -23
ommlds/minichain/backends/impls/ollama/__init__.py +0 -0
ommlds/minichain/backends/impls/ollama/chat.py +199 -0
ommlds/minichain/backends/impls/openai/chat.py +14 -7
ommlds/minichain/backends/impls/openai/completion.py +9 -2
ommlds/minichain/backends/impls/openai/embedding.py +9 -2
ommlds/minichain/backends/impls/openai/format.py +115 -109
ommlds/minichain/backends/impls/openai/names.py +31 -5
ommlds/minichain/backends/impls/openai/stream.py +33 -27
ommlds/minichain/backends/impls/sentencepiece/tokens.py +9 -6
ommlds/minichain/backends/impls/tavily.py +66 -0
ommlds/minichain/backends/impls/tinygrad/chat.py +17 -14
ommlds/minichain/backends/impls/tokenizers/tokens.py +9 -6
ommlds/minichain/backends/impls/transformers/sentence.py +5 -2
ommlds/minichain/backends/impls/transformers/tokens.py +10 -7
ommlds/minichain/backends/impls/transformers/transformers.py +139 -20
ommlds/minichain/backends/strings/parsing.py +1 -1
ommlds/minichain/backends/strings/resolving.py +4 -1
ommlds/minichain/chat/choices/stream/__init__.py +0 -0
ommlds/minichain/chat/choices/stream/adapters.py +35 -0
ommlds/minichain/chat/choices/stream/joining.py +31 -0
ommlds/minichain/chat/choices/stream/services.py +45 -0
ommlds/minichain/chat/choices/stream/types.py +43 -0
ommlds/minichain/chat/stream/_marshal.py +4 -4
ommlds/minichain/chat/stream/joining.py +85 -0
ommlds/minichain/chat/stream/services.py +15 -15
ommlds/minichain/chat/stream/types.py +24 -18
ommlds/minichain/llms/types.py +4 -0
ommlds/minichain/registries/globals.py +18 -4
ommlds/minichain/resources.py +28 -3
ommlds/minichain/search.py +1 -1
ommlds/minichain/standard.py +8 -0
ommlds/minichain/stream/services.py +19 -16
ommlds/minichain/tools/reflect.py +5 -1
ommlds/nanochat/LICENSE +21 -0
ommlds/nanochat/__init__.py +0 -0
ommlds/nanochat/rustbpe/LICENSE +21 -0
ommlds/nanochat/tokenizers.py +406 -0
ommlds/specs/__init__.py +0 -0
ommlds/specs/mcp/__init__.py +0 -0
ommlds/specs/mcp/_marshal.py +23 -0
ommlds/specs/mcp/clients.py +146 -0
ommlds/specs/mcp/protocol.py +371 -0
ommlds/tools/git.py +13 -6
ommlds/tools/ocr.py +1 -8
ommlds/wiki/analyze.py +2 -2
ommlds/wiki/text/mfh.py +1 -5
ommlds/wiki/text/wtp.py +1 -3
ommlds/wiki/utils/xml.py +5 -5
{ommlds-0.0.0.dev456.dist-info → ommlds-0.0.0.dev485.dist-info}/METADATA +22 -19
{ommlds-0.0.0.dev456.dist-info → ommlds-0.0.0.dev485.dist-info}/RECORD +198 -95
ommlds/cli/backends/standard.py +0 -20
ommlds/cli/sessions/chat/base.py +0 -42
ommlds/cli/sessions/chat/code.py +0 -129
ommlds/cli/sessions/chat/interactive.py +0 -71
ommlds/cli/sessions/chat/printing.py +0 -97
ommlds/cli/sessions/chat/prompt.py +0 -151
ommlds/cli/sessions/chat/state.py +0 -110
ommlds/cli/sessions/chat/tools.py +0 -100
ommlds/cli/sessions/completion/completion.py +0 -44
ommlds/cli/sessions/embedding/embedding.py +0 -42
ommlds/cli/tools/config.py +0 -14
ommlds/cli/tools/inject.py +0 -75
ommlds/minichain/backends/impls/openai/format2.py +0 -210
ommlds/minichain/chat/stream/adapters.py +0 -80
/ommlds/{huggingface.py → backends/huggingface.py} +0 -0
/ommlds/cli/{tools → content}/__init__.py +0 -0
{ommlds-0.0.0.dev456.dist-info → ommlds-0.0.0.dev485.dist-info}/WHEEL +0 -0
{ommlds-0.0.0.dev456.dist-info → ommlds-0.0.0.dev485.dist-info}/entry_points.txt +0 -0
{ommlds-0.0.0.dev456.dist-info → ommlds-0.0.0.dev485.dist-info}/licenses/LICENSE +0 -0
{ommlds-0.0.0.dev456.dist-info → ommlds-0.0.0.dev485.dist-info}/top_level.txt +0 -0

ommlds/backends/groq/_marshal.py ADDED Viewed

@@ -0,0 +1,23 @@
+from omlish import lang
+from omlish import marshal as msh
+from .protocol import ChatCompletionRequest
+##
+@lang.static_init
+def _install_standard_marshaling() -> None:
+    for root_cls, tag_field in [
+        (ChatCompletionRequest.Message, 'role'),
+    ]:
+        msh.install_standard_factories(*msh.standard_polymorphism_factories(
+            msh.polymorphism_from_subclasses(
+                root_cls,
+                naming=msh.Naming.SNAKE,
+                strip_suffix=msh.AutoStripSuffix,
+            ),
+            msh.FieldTypeTagging(tag_field),
+            unions='partial',
+        ))

ommlds/backends/groq/protocol.py ADDED Viewed

@@ -0,0 +1,249 @@
+"""
+https://console.groq.com/docs/api-reference#chat-create
+"""
+import typing as ta
+from omlish import dataclasses as dc
+from omlish import lang
+from omlish import marshal as msh
+##
+def _set_class_marshal_options(cls):
+    msh.update_object_metadata(
+        cls,
+        field_defaults=msh.FieldMetadata(
+            options=msh.FieldOptions(
+                omit_if=lang.is_none,
+            ),
+        ),
+    )
+    return cls
+##
+@dc.dataclass(frozen=True, kw_only=True)
+@_set_class_marshal_options
+class ChatCompletionRequest(lang.Final):
+    @dc.dataclass(frozen=True, kw_only=True)
+    class Message(lang.Sealed, lang.Abstract):
+        pass
+    @dc.dataclass(frozen=True, kw_only=True)
+    @_set_class_marshal_options
+    class SystemMessage(Message, lang.Final):
+        content: str | ta.Sequence[str]
+        name: str | None = None
+        role: ta.Literal['system'] = 'system'
+    @dc.dataclass(frozen=True, kw_only=True)
+    @_set_class_marshal_options
+    class UserMessage(Message, lang.Final):
+        content: str | ta.Sequence[str]
+        name: str | None = None
+        role: ta.Literal['user'] = 'user'
+    @dc.dataclass(frozen=True, kw_only=True)
+    @_set_class_marshal_options
+    class AssistantMessage(Message, lang.Final):
+        content: str | ta.Sequence[str] | None = None
+        name: str | None = None
+        reasoning: str | None = None
+        role: ta.Literal['assistant'] = 'assistant'
+        @dc.dataclass(frozen=True, kw_only=True)
+        @_set_class_marshal_options
+        class ToolCall(lang.Final):
+            @dc.dataclass(frozen=True, kw_only=True)
+            @_set_class_marshal_options
+            class Function(lang.Final):
+                arguments: str
+                name: str
+            function: Function
+            id: str
+            type: ta.Literal['function'] = 'function'
+        tool_calls: ta.Sequence[ToolCall] | None = None
+    @dc.dataclass(frozen=True, kw_only=True)
+    @_set_class_marshal_options
+    class ToolMessage(Message, lang.Final):
+        content: str | ta.Sequence[str]
+        role: ta.Literal['tool'] = 'tool'
+        tool_call_id: str
+    messages: ta.Sequence[Message]
+    model: str
+    citation_options: ta.Literal['enabled', 'disabled'] | None = None
+    compound_custom: ta.Mapping[str, ta.Any] | None = None
+    disable_tool_validation: bool | None = None
+    documents: ta.Sequence[ta.Mapping[str, ta.Any]] | None = None
+    frequency_penalty: float | None = None
+    include_reasoning: bool | None = None
+    logit_bias: ta.Mapping[str, ta.Any] | None = None
+    logprobs: bool | None = None
+    max_completion_tokens: int | None = None
+    n: int | None = None
+    parallel_tool_calls: bool | None = None
+    presence_penalty: float | None = None
+    reasoning_effort: ta.Literal['none', 'default', 'low', 'medium', 'high'] | None = None
+    reasoning_format: ta.Literal['hidden', 'raw', 'parsed'] | None = None
+    response_format: ta.Any | None = None
+    search_settings: ta.Mapping[str, ta.Any] | None = None
+    seed: int | None = None
+    service_tier: ta.Literal['auto', 'on_demand', 'flex', 'performance', 'null'] | None = None
+    stop: str | ta.Sequence[str] | None = None
+    store: bool | None = None
+    stream: bool | None = None
+    stream_options: ta.Mapping[str, ta.Any] | None = None
+    temperature: float | None = None
+    ool_choice: str | None = None
+    @dc.dataclass(frozen=True, kw_only=True)
+    @_set_class_marshal_options
+    class Tool(lang.Final):
+        @dc.dataclass(frozen=True, kw_only=True)
+        @_set_class_marshal_options
+        class Function(lang.Final):
+            description: str | None = None
+            name: str
+            parameters: ta.Mapping[str, ta.Any] | None = None  # json schema
+            strict: bool | None = None
+        function: Function
+        type: ta.Literal['function', 'browser_search', 'code_interpreter'] = 'function'
+    tools: ta.Sequence[Tool] | None = None
+    top_logprobs: int | None = None
+    top_p: float | None = None
+    user: str | None = None
+@dc.dataclass(frozen=True, kw_only=True)
+@_set_class_marshal_options
+class ExecutedTool(lang.Final):
+    arguments: str
+    index: int
+    type: str
+    browser_results: ta.Sequence[ta.Any] | None = None
+    code_results: ta.Sequence[ta.Any] | None = None
+    output: str | None = None
+    search_results: ta.Any | None = None
+@dc.dataclass(frozen=True, kw_only=True)
+@_set_class_marshal_options
+class ChatCompletionResponse(lang.Final):
+    @dc.dataclass(frozen=True, kw_only=True)
+    @_set_class_marshal_options
+    class Choice(lang.Final):
+        finish_reason: ta.Literal['stop', 'length', 'tool_calls', 'function_call']
+        index: int
+        logprobs: ta.Mapping[str, ta.Any] | None = None
+        @dc.dataclass(frozen=True, kw_only=True)
+        @_set_class_marshal_options
+        class Message(lang.Final):
+            annotations: ta.Sequence[ta.Mapping[str, ta.Any]] | None = None
+            content: str | None = None
+            executed_tools: ta.Sequence[ExecutedTool] | None = None
+            reasoning: str | None = None
+            role: ta.Literal['assistant'] = 'assistant'
+            @dc.dataclass(frozen=True, kw_only=True)
+            @_set_class_marshal_options
+            class ToolCall(lang.Final):
+                id: str
+                @dc.dataclass(frozen=True, kw_only=True)
+                @_set_class_marshal_options
+                class Function(lang.Final):
+                    arguments: str
+                    name: str
+                function: Function
+                type: ta.Literal['function'] = 'function'
+            tool_calls: ta.Sequence[ToolCall] | None = None
+        message: Message
+    choices: ta.Sequence[Choice]
+    created: int
+    id: str
+    model: str
+    object: ta.Literal['chat.completion'] = 'chat.completion'
+    system_fingerprint: str
+    usage: ta.Mapping[str, ta.Any] | None = None
+    usage_breakdown: ta.Mapping[str, ta.Any] | None = None
+    x_groq: ta.Mapping[str, ta.Any] | None = None
+    service_tier: str | None = None
+@dc.dataclass(frozen=True, kw_only=True)
+@_set_class_marshal_options
+class ChatCompletionChunk(lang.Final):
+    id: str
+    object: ta.Literal['chat.completion.chunk'] = 'chat.completion.chunk'
+    created: int
+    model: str
+    system_fingerprint: str
+    @dc.dataclass(frozen=True, kw_only=True)
+    @_set_class_marshal_options
+    class Choice(lang.Final):
+        index: int
+        @dc.dataclass(frozen=True, kw_only=True)
+        @_set_class_marshal_options
+        class Delta(lang.Final):
+            role: str | None = None
+            content: str | None = None
+            channel: str | None = None
+            reasoning: str | None = None
+            @dc.dataclass(frozen=True, kw_only=True)
+            @_set_class_marshal_options
+            class ToolCall(lang.Final):
+                index: int
+                id: str | None = None
+                @dc.dataclass(frozen=True, kw_only=True)
+                @_set_class_marshal_options
+                class Function(lang.Final):
+                    arguments: str | None = None
+                    name: str | None = None
+                function: Function | None = None
+                type: ta.Literal['function'] = 'function'
+            tool_calls: ta.Sequence[ToolCall] | None = None
+            executed_tools: ta.Sequence[ExecutedTool] | None = None
+        delta: Delta
+        logprobs: ta.Mapping[str, ta.Any] | None = None
+        finish_reason: ta.Literal['stop', 'length', 'tool_calls', 'function_call'] | None = None
+    choices: ta.Sequence[Choice]
+    x_groq: ta.Mapping[str, ta.Any] | None = None
+    service_tier: str | None = None
+    usage: ta.Mapping[str, ta.Any] | None = None
+##
+msh.register_global_module_import('._marshal', __package__)

ommlds/backends/llamacpp/logging.py CHANGED Viewed

@@ -1,4 +1,7 @@
 """
+NOTE: This can't be cleaned up too much - the callback can't be a closure to hide its guts because it needs to be
+      picklable for multiprocessing.
 FIXME:
  - it outputs newline-terminated so buffer and chop on newlines - DelimitingBuffer again
 """
@@ -27,4 +30,4 @@ def llama_log_callback(
 @lang.cached_function
 def install_logging_hook() -> None:
-    llama_cpp.llama_log_set(llama_log_callback, ct.c_void_p(0))
+    llama_cpp.llama_log_set(llama_log_callback, ct.c_void_p(0))  # noqa

ommlds/backends/mlx/caching.py CHANGED Viewed

@@ -17,7 +17,11 @@
 # https://github.com/ml-explore/mlx-lm/blob/ce2358d297af245b002e690623f00195b6507da0/mlx_lm/generate.py
 import typing as ta
-import mlx_lm.models.cache
+from omlish import lang
+with lang.auto_proxy_import(globals()):
+    import mlx_lm.models.cache as mlx_lm_models_cache
 ##
@@ -32,13 +36,13 @@ def maybe_quantize_kv_cache(
 ) -> None:
     if not (
             kv_bits is not None and
-            not isinstance(prompt_cache[0], mlx_lm.models.cache.QuantizedKVCache) and
+            not isinstance(prompt_cache[0], mlx_lm_models_cache.QuantizedKVCache) and
             prompt_cache[0].offset > quantized_kv_start
     ):
         return
     for i in range(len(prompt_cache)):
-        if isinstance(prompt_cache[i], mlx_lm.models.cache.KVCache):
+        if isinstance(prompt_cache[i], mlx_lm_models_cache.KVCache):
             prompt_cache[i] = prompt_cache[i].to_quantized(
                 bits=kv_bits,
                 group_size=kv_group_size,

ommlds/backends/mlx/cli.py CHANGED Viewed

@@ -20,16 +20,19 @@ import json
 import sys
 import typing as ta
-import mlx.core as mx
-import mlx_lm.models.cache
-import mlx_lm.sample_utils
-import mlx_lm.utils
+from omlish import lang
 from .generation import GenerationParams
 from .generation import generate
 from .loading import load_model
+with lang.auto_proxy_import(globals()):
+    import mlx.core as mx
+    import mlx_lm.models.cache as mlx_lm_models_cache
+    import mlx_lm.sample_utils as mlx_lm_sample_utils
 ##
@@ -214,11 +217,11 @@ def _main() -> None:
     # Load the prompt cache and metadata if a cache file is provided
     using_cache = args.prompt_cache_file is not None
     if using_cache:
-        prompt_cache, metadata = mlx_lm.models.cache.load_prompt_cache(
+        prompt_cache, metadata = mlx_lm_models_cache.load_prompt_cache(
             args.prompt_cache_file,
             return_metadata=True,
         )
-        if isinstance(prompt_cache[0], mlx_lm.models.cache.QuantizedKVCache):
+        if isinstance(prompt_cache[0], mlx_lm_models_cache.QuantizedKVCache):
             if args.kv_bits is not None and args.kv_bits != prompt_cache[0].bits:
                 raise ValueError('--kv-bits does not match the kv cache loaded from --prompt-cache-file.')
             if args.kv_group_size != prompt_cache[0].group_size:
@@ -293,7 +296,7 @@ def _main() -> None:
     else:
         prompt = tokenizer.encode(prompt)
-    sampler = mlx_lm.sample_utils.make_sampler(
+    sampler = mlx_lm_sample_utils.make_sampler(
         args.temp,
         args.top_p,
         args.min_p,

ommlds/backends/mlx/generation.py CHANGED Viewed

@@ -21,10 +21,6 @@ import io
 import sys
 import typing as ta
-import mlx.core as mx
-import mlx_lm.models.cache
-from mlx import nn
 from omlish import check
 from omlish import lang
@@ -33,6 +29,12 @@ from .limits import wired_limit_context
 from .tokenization import Tokenization
+with lang.auto_proxy_import(globals()):
+    import mlx.core as mx
+    import mlx.nn as mlx_nn
+    import mlx_lm.models.cache as mlx_lm_models_cache
 ##
@@ -47,9 +49,9 @@ def _generation_stream():
 class LogitProcessor(ta.Protocol):
     def __call__(
             self,
-            tokens: mx.array,
-            logits: mx.array,
-    ) -> mx.array:
+            tokens: 'mx.array',
+            logits: 'mx.array',
+    ) -> 'mx.array':
         ...
@@ -99,12 +101,12 @@ class GenerationParams:
 class _GenerationStep(ta.NamedTuple):
     token: int
-    logprobs: mx.array
+    logprobs: 'mx.array'
 def _generate_step(
-        prompt: mx.array,
-        model: nn.Module,
+        prompt: 'mx.array',
+        model: 'mlx_nn.Module',
         params: GenerationParams = GenerationParams(),
 ) -> ta.Generator[_GenerationStep]:
     y = prompt
@@ -113,7 +115,7 @@ def _generate_step(
     # Create the Kv cache for generation
     prompt_cache = params.prompt_cache
     if prompt_cache is None:
-        prompt_cache = mlx_lm.models.cache.make_prompt_cache(
+        prompt_cache = mlx_lm_models_cache.make_prompt_cache(
             model,
             max_kv_size=params.max_kv_size,
         )
@@ -221,7 +223,7 @@ class GenerationOutput:
     token: int
     # A vector of log probabilities.
-    logprobs: mx.array
+    logprobs: 'mx.array'
     # The number of tokens in the prompt.
     prompt_tokens: int
@@ -234,9 +236,9 @@ class GenerationOutput:
 def stream_generate(
-        model: nn.Module,
+        model: 'mlx_nn.Module',
         tokenization: Tokenization,
-        prompt: str | mx.array,
+        prompt: ta.Union[str, 'mx.array'],
         params: GenerationParams = GenerationParams(),
 ) -> ta.Generator[GenerationOutput]:
     if not isinstance(prompt, mx.array):
@@ -308,9 +310,9 @@ def stream_generate(
 def generate(
-        model: nn.Module,
+        model: 'mlx_nn.Module',
         tokenization: Tokenization,
-        prompt: str | mx.array,
+        prompt: ta.Union[str, 'mx.array'],
         params: GenerationParams = GenerationParams(),
         *,
         verbose: bool = False,

ommlds/backends/mlx/limits.py CHANGED Viewed

@@ -19,9 +19,13 @@ import contextlib
 import sys
 import typing as ta
-import mlx.core as mx
-import mlx.utils
-from mlx import nn
+from omlish import lang
+with lang.auto_proxy_import(globals()):
+    import mlx.core as mx
+    import mlx.nn as mlx_nn
+    import mlx.utils as mlx_utils
 ##
@@ -29,8 +33,8 @@ from mlx import nn
 @contextlib.contextmanager
 def wired_limit_context(
-        model: nn.Module,
-        streams: ta.Iterable[mx.Stream] | None = None,
+        model: 'mlx_nn.Module',
+        streams: ta.Iterable['mx.Stream'] | None = None,
 ) -> ta.Generator[None]:
     """
     A context manager to temporarily change the wired limit.
@@ -43,7 +47,7 @@ def wired_limit_context(
         yield
         return
-    model_bytes = mlx.utils.tree_reduce(
+    model_bytes = mlx_utils.tree_reduce(
         lambda acc, x: acc + x.nbytes if isinstance(x, mx.array) else acc,
         model,
         0,

ommlds/backends/mlx/loading.py CHANGED Viewed

@@ -1,10 +1,8 @@
+# ruff: noqa: TC002
 import dataclasses as dc
 import pathlib
 import typing as ta
-import mlx_lm.utils
-from mlx import nn
 from omlish import check
 from omlish import lang
@@ -12,6 +10,68 @@ from .tokenization import Tokenization
 from .tokenization import load_tokenization
+with lang.auto_proxy_import(globals()):
+    import mlx.nn as mlx_nn
+    import mlx_lm.utils
+##
+def get_model_path(
+        path_or_hf_repo: str,
+        revision: str | None = None,
+) -> tuple[pathlib.Path, str | None]:
+    """
+    Ensures the model is available locally. If the path does not exist locally,
+    it is downloaded from the Hugging Face Hub.
+    Args:
+        path_or_hf_repo (str): The local path or Hugging Face repository ID of the model.
+        revision (str, optional): A revision id which can be a branch name, a tag, or a commit hash.
+    Returns:
+        Tuple[Path, str]: A tuple containing the local file path and the Hugging Face repo ID.
+    """
+    model_path = pathlib.Path(path_or_hf_repo)
+    if not model_path.exists():
+        from huggingface_hub import snapshot_download
+        hf_path = path_or_hf_repo
+        model_path = pathlib.Path(
+            snapshot_download(
+                path_or_hf_repo,
+                revision=revision,
+                allow_patterns=[
+                    '*.jinja',
+                    '*.json',
+                    '*.jsonl',
+                    '*.py',
+                    '*.txt',
+                    'model*.safetensors',
+                    '*.tiktoken',
+                    'tiktoken.model',
+                    'tokenizer.model',
+                ],
+            ),
+        )
+    else:
+        from huggingface_hub import ModelCard
+        card_path = model_path / 'README.md'
+        if card_path.is_file():
+            card = ModelCard.load(card_path)
+            hf_path = card.data.base_model
+        else:
+            hf_path = None
+    return model_path, hf_path
 ##
@@ -19,7 +79,7 @@ from .tokenization import load_tokenization
 class LoadedModel:
     path: pathlib.Path
-    model: nn.Module
+    model: 'mlx_nn.Module'
     config: dict
     #
@@ -46,7 +106,7 @@ def load_model(
 ) -> LoadedModel:
     # FIXME: get_model_path return annotation is wrong:
     #   https://github.com/ml-explore/mlx-lm/blob/9ee2b7358f5e258af7b31a8561acfbbe56ad5085/mlx_lm/utils.py#L82
-    model_path_res = ta.cast(ta.Any, mlx_lm.utils.get_model_path(path_or_hf_repo))
+    model_path_res = ta.cast(ta.Any, get_model_path(path_or_hf_repo))
     if isinstance(model_path_res, tuple):
         model_path = check.isinstance(model_path_res[0], pathlib.Path)
     else:

ommlds/backends/ollama/__init__.py ADDED Viewed

@@ -0,0 +1,7 @@
+from omlish import dataclasses as _dc  # noqa
+_dc.init_package(
+    globals(),
+    codegen=True,
+)

ommlds 0.0.0.dev456__py3-none-any.whl → 0.0.0.dev485__py3-none-any.whl

ommlds 0.0.0.dev456py3-none-any.whl → 0.0.0.dev485py3-none-any.whl