PyPI - ommlds - Versions diffs - 0.0.0.dev480__py3-none-any.whl → 0.0.0.dev503__py3-none-any.whl - Mend

ommlds 0.0.0.dev480py3-none-any.whl → 0.0.0.dev503py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (277) hide show

ommlds/.omlish-manifests.json +100 -33
ommlds/README.md +11 -0
ommlds/__about__.py +9 -6
ommlds/backends/anthropic/protocol/__init__.py +13 -1
ommlds/backends/anthropic/protocol/_dataclasses.py +1625 -0
ommlds/backends/anthropic/protocol/sse/events.py +2 -0
ommlds/backends/cerebras/__init__.py +7 -0
ommlds/backends/cerebras/_dataclasses.py +4254 -0
ommlds/backends/cerebras/_marshal.py +24 -0
ommlds/backends/cerebras/protocol.py +312 -0
ommlds/backends/google/protocol/__init__.py +13 -0
ommlds/backends/google/protocol/_dataclasses.py +5997 -0
ommlds/backends/groq/__init__.py +7 -0
ommlds/backends/groq/_dataclasses.py +3901 -0
ommlds/backends/groq/clients.py +9 -0
ommlds/backends/llamacpp/logging.py +4 -1
ommlds/backends/mlx/caching.py +7 -3
ommlds/backends/mlx/cli.py +10 -7
ommlds/backends/mlx/generation.py +18 -16
ommlds/backends/mlx/limits.py +10 -6
ommlds/backends/mlx/loading.py +7 -4
ommlds/backends/ollama/__init__.py +7 -0
ommlds/backends/ollama/_dataclasses.py +3488 -0
ommlds/backends/ollama/protocol.py +3 -0
ommlds/backends/openai/protocol/__init__.py +15 -1
ommlds/backends/openai/protocol/_dataclasses.py +7708 -0
ommlds/backends/tavily/__init__.py +7 -0
ommlds/backends/tavily/_dataclasses.py +1734 -0
ommlds/backends/transformers/__init__.py +14 -0
ommlds/cli/__init__.py +7 -0
ommlds/cli/_dataclasses.py +3515 -0
ommlds/cli/backends/catalog.py +0 -5
ommlds/cli/backends/inject.py +70 -7
ommlds/cli/backends/meta.py +82 -0
ommlds/cli/content/messages.py +1 -1
ommlds/cli/inject.py +11 -3
ommlds/cli/main.py +137 -68
ommlds/cli/rendering/types.py +6 -0
ommlds/cli/secrets.py +2 -1
ommlds/cli/sessions/base.py +1 -10
ommlds/cli/sessions/chat/configs.py +9 -17
ommlds/cli/sessions/chat/{chat → drivers}/ai/configs.py +3 -1
ommlds/cli/sessions/chat/drivers/ai/events.py +57 -0
ommlds/cli/sessions/chat/{chat → drivers}/ai/inject.py +10 -3
ommlds/cli/sessions/chat/{chat → drivers}/ai/rendering.py +1 -1
ommlds/cli/sessions/chat/{chat → drivers}/ai/services.py +1 -1
ommlds/cli/sessions/chat/{chat → drivers}/ai/tools.py +4 -8
ommlds/cli/sessions/chat/{chat → drivers}/ai/types.py +9 -0
ommlds/cli/sessions/chat/drivers/configs.py +25 -0
ommlds/cli/sessions/chat/drivers/events/inject.py +27 -0
ommlds/cli/sessions/chat/drivers/events/injection.py +14 -0
ommlds/cli/sessions/chat/drivers/events/manager.py +16 -0
ommlds/cli/sessions/chat/drivers/events/types.py +38 -0
ommlds/cli/sessions/chat/drivers/impl.py +50 -0
ommlds/cli/sessions/chat/drivers/inject.py +70 -0
ommlds/cli/sessions/chat/{chat → drivers}/state/configs.py +2 -0
ommlds/cli/sessions/chat/drivers/state/ids.py +25 -0
ommlds/cli/sessions/chat/drivers/state/inject.py +83 -0
ommlds/cli/sessions/chat/{chat → drivers}/state/inmemory.py +0 -4
ommlds/cli/sessions/chat/{chat → drivers}/state/storage.py +17 -10
ommlds/cli/sessions/chat/{chat → drivers}/state/types.py +10 -5
ommlds/cli/sessions/chat/{tools → drivers/tools}/configs.py +2 -2
ommlds/cli/sessions/chat/drivers/tools/confirmation.py +44 -0
ommlds/cli/sessions/chat/drivers/tools/errorhandling.py +39 -0
ommlds/cli/sessions/chat/{tools → drivers/tools}/execution.py +3 -4
ommlds/cli/sessions/chat/{tools → drivers/tools}/fs/inject.py +3 -3
ommlds/cli/sessions/chat/{tools → drivers/tools}/inject.py +7 -12
ommlds/cli/sessions/chat/{tools → drivers/tools}/injection.py +5 -5
ommlds/cli/sessions/chat/{tools → drivers/tools}/rendering.py +3 -3
ommlds/cli/sessions/chat/{tools → drivers/tools}/todo/inject.py +3 -3
ommlds/cli/sessions/chat/{tools → drivers/tools}/weather/tools.py +1 -1
ommlds/cli/sessions/chat/drivers/types.py +31 -0
ommlds/cli/sessions/chat/{chat → drivers}/user/configs.py +0 -3
ommlds/cli/sessions/chat/drivers/user/inject.py +41 -0
ommlds/cli/sessions/chat/facades/__init__.py +0 -0
ommlds/cli/sessions/chat/facades/commands/__init__.py +0 -0
ommlds/cli/sessions/chat/facades/commands/base.py +83 -0
ommlds/cli/sessions/chat/facades/commands/configs.py +9 -0
ommlds/cli/sessions/chat/facades/commands/inject.py +41 -0
ommlds/cli/sessions/chat/facades/commands/injection.py +15 -0
ommlds/cli/sessions/chat/facades/commands/manager.py +59 -0
ommlds/cli/sessions/chat/facades/commands/simple.py +34 -0
ommlds/cli/sessions/chat/facades/commands/types.py +13 -0
ommlds/cli/sessions/chat/facades/configs.py +11 -0
ommlds/cli/sessions/chat/facades/facade.py +26 -0
ommlds/cli/sessions/chat/facades/inject.py +35 -0
ommlds/cli/sessions/chat/facades/ui.py +34 -0
ommlds/cli/sessions/chat/inject.py +8 -31
ommlds/cli/sessions/chat/interfaces/__init__.py +0 -0
ommlds/cli/sessions/chat/interfaces/bare/__init__.py +0 -0
ommlds/cli/sessions/chat/interfaces/bare/configs.py +15 -0
ommlds/cli/sessions/chat/interfaces/bare/inject.py +69 -0
ommlds/cli/sessions/chat/interfaces/bare/interactive.py +49 -0
ommlds/cli/sessions/chat/interfaces/bare/oneshot.py +21 -0
ommlds/cli/sessions/chat/{tools/confirmation.py → interfaces/bare/tools.py} +3 -22
ommlds/cli/sessions/chat/interfaces/base.py +13 -0
ommlds/cli/sessions/chat/interfaces/configs.py +11 -0
ommlds/cli/sessions/chat/interfaces/inject.py +29 -0
ommlds/cli/sessions/chat/interfaces/textual/__init__.py +0 -0
ommlds/cli/sessions/chat/interfaces/textual/app.py +310 -0
ommlds/cli/sessions/chat/interfaces/textual/configs.py +11 -0
ommlds/cli/sessions/chat/interfaces/textual/facades.py +19 -0
ommlds/cli/sessions/chat/interfaces/textual/inject.py +97 -0
ommlds/cli/sessions/chat/interfaces/textual/interface.py +24 -0
ommlds/cli/sessions/chat/interfaces/textual/styles/__init__.py +29 -0
ommlds/cli/sessions/chat/interfaces/textual/styles/input.tcss +53 -0
ommlds/cli/sessions/chat/interfaces/textual/styles/markdown.tcss +7 -0
ommlds/cli/sessions/chat/interfaces/textual/styles/messages.tcss +157 -0
ommlds/cli/sessions/chat/interfaces/textual/tools.py +38 -0
ommlds/cli/sessions/chat/interfaces/textual/widgets/__init__.py +0 -0
ommlds/cli/sessions/chat/interfaces/textual/widgets/input.py +36 -0
ommlds/cli/sessions/chat/interfaces/textual/widgets/messages.py +197 -0
ommlds/cli/sessions/chat/session.py +8 -13
ommlds/cli/sessions/completion/configs.py +3 -4
ommlds/cli/sessions/completion/inject.py +1 -2
ommlds/cli/sessions/completion/session.py +4 -8
ommlds/cli/sessions/configs.py +10 -0
ommlds/cli/sessions/embedding/configs.py +3 -4
ommlds/cli/sessions/embedding/inject.py +1 -2
ommlds/cli/sessions/embedding/session.py +4 -8
ommlds/cli/sessions/inject.py +15 -15
ommlds/cli/state/storage.py +7 -1
ommlds/minichain/__init__.py +161 -38
ommlds/minichain/_dataclasses.py +20452 -0
ommlds/minichain/_typedvalues.py +11 -4
ommlds/minichain/backends/impls/anthropic/names.py +3 -3
ommlds/minichain/backends/impls/anthropic/protocol.py +2 -2
ommlds/minichain/backends/impls/anthropic/stream.py +1 -1
ommlds/minichain/backends/impls/cerebras/__init__.py +0 -0
ommlds/minichain/backends/impls/cerebras/chat.py +80 -0
ommlds/minichain/backends/impls/cerebras/names.py +45 -0
ommlds/minichain/backends/impls/cerebras/protocol.py +143 -0
ommlds/minichain/backends/impls/cerebras/stream.py +125 -0
ommlds/minichain/backends/impls/duckduckgo/search.py +5 -1
ommlds/minichain/backends/impls/google/names.py +6 -0
ommlds/minichain/backends/impls/google/stream.py +1 -1
ommlds/minichain/backends/impls/google/tools.py +2 -2
ommlds/minichain/backends/impls/groq/chat.py +2 -0
ommlds/minichain/backends/impls/groq/protocol.py +2 -2
ommlds/minichain/backends/impls/groq/stream.py +3 -1
ommlds/minichain/backends/impls/huggingface/repos.py +1 -5
ommlds/minichain/backends/impls/llamacpp/chat.py +6 -3
ommlds/minichain/backends/impls/llamacpp/completion.py +7 -3
ommlds/minichain/backends/impls/llamacpp/stream.py +6 -3
ommlds/minichain/backends/impls/mlx/chat.py +6 -3
ommlds/minichain/backends/impls/ollama/chat.py +51 -57
ommlds/minichain/backends/impls/ollama/protocol.py +144 -0
ommlds/minichain/backends/impls/openai/format.py +4 -3
ommlds/minichain/backends/impls/openai/names.py +3 -1
ommlds/minichain/backends/impls/openai/stream.py +33 -1
ommlds/minichain/backends/impls/sentencepiece/tokens.py +9 -6
ommlds/minichain/backends/impls/tinygrad/chat.py +7 -4
ommlds/minichain/backends/impls/tokenizers/tokens.py +9 -6
ommlds/minichain/backends/impls/transformers/sentence.py +5 -2
ommlds/minichain/backends/impls/transformers/tokens.py +9 -6
ommlds/minichain/backends/impls/transformers/transformers.py +10 -8
ommlds/minichain/backends/strings/resolving.py +1 -1
ommlds/minichain/chat/content.py +42 -0
ommlds/minichain/chat/messages.py +43 -39
ommlds/minichain/chat/stream/joining.py +36 -12
ommlds/minichain/chat/stream/types.py +1 -1
ommlds/minichain/chat/templating.py +3 -3
ommlds/minichain/content/__init__.py +19 -3
ommlds/minichain/content/_marshal.py +181 -55
ommlds/minichain/content/code.py +26 -0
ommlds/minichain/content/composite.py +28 -0
ommlds/minichain/content/content.py +27 -0
ommlds/minichain/content/dynamic.py +12 -0
ommlds/minichain/content/emphasis.py +27 -0
ommlds/minichain/content/images.py +2 -2
ommlds/minichain/content/json.py +2 -2
ommlds/minichain/content/link.py +13 -0
ommlds/minichain/content/markdown.py +12 -0
ommlds/minichain/content/metadata.py +10 -0
ommlds/minichain/content/namespaces.py +8 -0
ommlds/minichain/content/placeholders.py +10 -9
ommlds/minichain/content/quote.py +26 -0
ommlds/minichain/content/raw.py +49 -0
ommlds/minichain/content/recursive.py +12 -0
ommlds/minichain/content/section.py +26 -0
ommlds/minichain/content/sequence.py +17 -3
ommlds/minichain/content/standard.py +32 -0
ommlds/minichain/content/tag.py +28 -0
ommlds/minichain/content/templates.py +13 -0
ommlds/minichain/content/text.py +2 -2
ommlds/minichain/content/transform/__init__.py +0 -0
ommlds/minichain/content/transform/json.py +55 -0
ommlds/minichain/content/transform/markdown.py +8 -0
ommlds/minichain/content/transform/materialize.py +51 -0
ommlds/minichain/content/transform/metadata.py +16 -0
ommlds/minichain/content/{prepare.py → transform/prepare.py} +10 -15
ommlds/minichain/content/transform/recursive.py +97 -0
ommlds/minichain/content/transform/standard.py +43 -0
ommlds/minichain/content/{transforms → transform}/stringify.py +1 -7
ommlds/minichain/content/transform/strings.py +33 -0
ommlds/minichain/content/transform/templates.py +25 -0
ommlds/minichain/content/visitors.py +231 -0
ommlds/minichain/lib/fs/tools/read.py +1 -1
ommlds/minichain/lib/fs/tools/recursivels/rendering.py +1 -1
ommlds/minichain/lib/fs/tools/recursivels/running.py +1 -1
ommlds/minichain/lib/todo/tools/write.py +2 -1
ommlds/minichain/lib/todo/types.py +1 -1
ommlds/minichain/metadata.py +56 -2
ommlds/minichain/resources.py +22 -1
ommlds/minichain/services/README.md +154 -0
ommlds/minichain/services/__init__.py +6 -2
ommlds/minichain/services/_marshal.py +46 -10
ommlds/minichain/services/_origclasses.py +11 -0
ommlds/minichain/services/_typedvalues.py +8 -3
ommlds/minichain/services/requests.py +73 -3
ommlds/minichain/services/responses.py +73 -3
ommlds/minichain/services/services.py +9 -0
ommlds/minichain/stream/services.py +24 -1
ommlds/minichain/text/applypatch.py +2 -1
ommlds/minichain/text/toolparsing/llamacpp/types.py +1 -1
ommlds/minichain/tokens/specials.py +1 -1
ommlds/minichain/tools/execution/catalog.py +1 -1
ommlds/minichain/tools/execution/errorhandling.py +36 -0
ommlds/minichain/tools/execution/errors.py +2 -2
ommlds/minichain/tools/execution/executors.py +1 -1
ommlds/minichain/tools/fns.py +1 -1
ommlds/minichain/tools/jsonschema.py +2 -2
ommlds/minichain/tools/reflect.py +6 -6
ommlds/minichain/tools/types.py +12 -15
ommlds/minichain/vectors/_marshal.py +1 -1
ommlds/minichain/vectors/embeddings.py +1 -1
ommlds/minichain/wrappers/__init__.py +7 -0
ommlds/minichain/wrappers/firstinwins.py +144 -0
ommlds/minichain/wrappers/instrument.py +146 -0
ommlds/minichain/wrappers/retry.py +168 -0
ommlds/minichain/wrappers/services.py +98 -0
ommlds/minichain/wrappers/stream.py +57 -0
ommlds/nanochat/rustbpe/README.md +9 -0
ommlds/nanochat/tokenizers.py +40 -6
ommlds/specs/mcp/clients.py +146 -0
ommlds/specs/mcp/protocol.py +123 -18
ommlds/tools/git.py +82 -65
{ommlds-0.0.0.dev480.dist-info → ommlds-0.0.0.dev503.dist-info}/METADATA +13 -11
ommlds-0.0.0.dev503.dist-info/RECORD +520 -0
ommlds/cli/sessions/chat/chat/state/inject.py +0 -36
ommlds/cli/sessions/chat/chat/user/inject.py +0 -62
ommlds/cli/sessions/chat/chat/user/interactive.py +0 -31
ommlds/cli/sessions/chat/chat/user/oneshot.py +0 -25
ommlds/cli/sessions/chat/chat/user/types.py +0 -15
ommlds/cli/sessions/chat/driver.py +0 -43
ommlds/minichain/content/materialize.py +0 -196
ommlds/minichain/content/simple.py +0 -47
ommlds/minichain/content/transforms/base.py +0 -46
ommlds/minichain/content/transforms/interleave.py +0 -70
ommlds/minichain/content/transforms/squeeze.py +0 -72
ommlds/minichain/content/transforms/strings.py +0 -24
ommlds/minichain/content/types.py +0 -43
ommlds/minichain/stream/wrap.py +0 -62
ommlds-0.0.0.dev480.dist-info/RECORD +0 -427
/ommlds/cli/sessions/chat/{chat → drivers}/__init__.py +0 -0
/ommlds/cli/sessions/chat/{chat → drivers}/ai/__init__.py +0 -0
/ommlds/cli/sessions/chat/{chat → drivers}/ai/injection.py +0 -0
/ommlds/cli/sessions/chat/{chat/state → drivers/events}/__init__.py +0 -0
/ommlds/cli/sessions/chat/{chat/user → drivers/phases}/__init__.py +0 -0
/ommlds/cli/sessions/chat/{phases → drivers/phases}/inject.py +0 -0
/ommlds/cli/sessions/chat/{phases → drivers/phases}/injection.py +0 -0
/ommlds/cli/sessions/chat/{phases → drivers/phases}/manager.py +0 -0
/ommlds/cli/sessions/chat/{phases → drivers/phases}/types.py +0 -0
/ommlds/cli/sessions/chat/{phases → drivers/state}/__init__.py +0 -0
/ommlds/cli/sessions/chat/{tools → drivers/tools}/__init__.py +0 -0
/ommlds/cli/sessions/chat/{tools → drivers/tools}/fs/__init__.py +0 -0
/ommlds/cli/sessions/chat/{tools → drivers/tools}/fs/configs.py +0 -0
/ommlds/cli/sessions/chat/{tools → drivers/tools}/todo/__init__.py +0 -0
/ommlds/cli/sessions/chat/{tools → drivers/tools}/todo/configs.py +0 -0
/ommlds/cli/sessions/chat/{tools → drivers/tools}/weather/__init__.py +0 -0
/ommlds/cli/sessions/chat/{tools → drivers/tools}/weather/configs.py +0 -0
/ommlds/cli/sessions/chat/{tools → drivers/tools}/weather/inject.py +0 -0
/ommlds/{minichain/content/transforms → cli/sessions/chat/drivers/user}/__init__.py +0 -0
{ommlds-0.0.0.dev480.dist-info → ommlds-0.0.0.dev503.dist-info}/WHEEL +0 -0
{ommlds-0.0.0.dev480.dist-info → ommlds-0.0.0.dev503.dist-info}/entry_points.txt +0 -0
{ommlds-0.0.0.dev480.dist-info → ommlds-0.0.0.dev503.dist-info}/licenses/LICENSE +0 -0
{ommlds-0.0.0.dev480.dist-info → ommlds-0.0.0.dev503.dist-info}/top_level.txt +0 -0

ommlds/minichain/wrappers/stream.py ADDED Viewed

@@ -0,0 +1,57 @@
+import typing as ta
+from omlish import lang
+from ..services.requests import Request
+from ..services.services import Service
+from ..stream.services import StreamOptions
+from ..stream.services import StreamResponse
+from ..types import Output
+from .services import WrappedOptionT
+from .services import WrappedOutputT
+from .services import WrappedRequestV
+from .services import WrappedResponseV
+WrappedStreamOutputT = ta.TypeVar('WrappedStreamOutputT', bound=Output)
+WrappedStreamOptions: ta.TypeAlias = WrappedOptionT | StreamOptions
+WrappedStreamRequest: ta.TypeAlias = Request[
+    WrappedRequestV,
+    WrappedStreamOptions,
+]
+WrappedStreamResponse: ta.TypeAlias = StreamResponse[
+    WrappedResponseV,
+    WrappedOutputT,
+    WrappedStreamOutputT,
+]
+WrappedStreamService: ta.TypeAlias = Service[
+    WrappedStreamRequest,
+    WrappedStreamResponse,
+]
+##
+class WrapperStreamService(
+    lang.Abstract,
+    ta.Generic[
+        WrappedRequestV,
+        WrappedOptionT,
+        WrappedResponseV,
+        WrappedOutputT,
+        WrappedStreamOutputT,
+    ],
+):
+    def __init__(
+            self,
+            service: WrappedStreamService,
+    ) -> None:
+        super().__init__()
+        self._service = service

ommlds/nanochat/rustbpe/README.md ADDED Viewed

@@ -0,0 +1,9 @@
+# https://github.com/karpathy/nanochat/tree/9467d83cf23dcc9a9b4ca6e35103142f48a55b27
+---
+# rustbpe
+> The missing tiktoken training code
+A very lightweight Rust library for training a GPT tokenizer. The issue is that the inference library [tiktoken](https://github.com/openai/tiktoken) is great, but only does inference. Separately, the huggingface [tokenizers](https://github.com/huggingface/tokenizers) library does training, but it is rather bloated and really hard to navigate because it has to support all the different historical baggage of how people dealt with tokenizers over the years. More recently, I also wrote the [minbpe](https://github.com/karpathy/minbpe) library which does both training and inference, but only in inefficient Python. Basically what I really want is a non-fancy, super simple, but still relatively efficient training code for GPT tokenizer (more efficient than minbpe, much cleaner/simpler than tokenizers), and then export the trained vocab for inference with tiktoken. Does that make sense? So here we are. There are more opportunities for optimization here, I just stopped a bit early because unlike minbpe before it, rustbpe is now simple and fast enough, and not a significant bottleneck for nanochat.

ommlds/nanochat/tokenizers.py CHANGED Viewed

@@ -18,7 +18,10 @@ from omlish import lang
 with lang.auto_proxy_import(globals()):
     import tiktoken
-    import tokenizers
+    import tokenizers.decoders
+    import tokenizers.models
+    import tokenizers.pre_tokenizers
+    import tokenizers.trainers
 rustbpe: ta.Any = lang.proxy_import('.rustbpe', __package__)
@@ -27,7 +30,7 @@ rustbpe: ta.Any = lang.proxy_import('.rustbpe', __package__)
 ##
-SPECIAL_TOKENS = [
+SPECIAL_TOKENS: ta.Sequence[str] = [
     # every document begins with the Beginning of Sequence (BOS) token that delimits documents
     '<|bos|>',
     # tokens below are only used during finetuning to render Conversations into token ids
@@ -45,10 +48,18 @@ SPECIAL_TOKENS = [
 # NOTE: this split pattern deviates from GPT-4 in that we use \p{N}{1,2} instead of \p{N}{1,3}
 # I did this because I didn't want to "waste" too many tokens on numbers for smaller vocab sizes.
 # I haven't validated that this is actually a good idea, TODO.
-SPLIT_PATTERN = r"""'(?i:[sdmt]|ll|ve|re)|[^\r\n\p{L}\p{N}]?+\p{L}+|\p{N}{1,2}| ?[^\s\p{L}\p{N}]++[\r\n]*|\s*[\r\n]|\s+(?!\S)|\s+"""  # noqa
+SPLIT_PATTERN = (
+    r"'(?i:[sdmt]|ll|ve|re)|"
+    r"[^\r\n\p{L}\p{N}]?+\p{L}+|"
+    r"\p{N}{1,2}|"
+    r" ?[^\s\p{L}\p{N}]++[\r\n]*|"
+    r"\s*[\r\n]|"
+    r"\s+(?!\S)|"
+    r"\s+"
+)
-# -----------------------------------------------------------------------------
+##
 # Generic GPT-4-style tokenizer based on HuggingFace Tokenizer
@@ -87,22 +98,28 @@ class HuggingFaceTokenizer:
             unk_token=None,
             fuse_unk=False,
         ))
         # Normalizer: None
         tokenizer.normalizer = None
         # Pre-tokenizer: GPT-4 style
         # the regex pattern used by GPT-4 to split text into groups before BPE
         # NOTE: The pattern was changed from \p{N}{1,3} to \p{N}{1,2} because I suspect it is harmful to
         # very small models and smaller vocab sizes, because it is a little bit wasteful in the token space.
         # (but I haven't validated this! TODO)
         gpt4_split_regex = tokenizers.Regex(split_pattern)  # huggingface demands that you wrap it in Regex!!
         tokenizer.pre_tokenizer = tokenizers.pre_tokenizers.Sequence([
             tokenizers.pre_tokenizers.Split(pattern=gpt4_split_regex, behavior='isolated', invert=False),
             tokenizers.pre_tokenizers.ByteLevel(add_prefix_space=False, use_regex=False),
         ])
         # Decoder: ByteLevel (it pairs together with the ByteLevel pre-tokenizer)
         tokenizer.decoder = tokenizers.decoders.ByteLevel()
         # Post-processor: None
         tokenizer.post_processor = None
         # Trainer: BPE
         trainer = tokenizers.trainers.BpeTrainer(
             vocab_size=vocab_size,
@@ -111,8 +128,10 @@ class HuggingFaceTokenizer:
             initial_alphabet=tokenizers.pre_tokenizers.ByteLevel.alphabet(),
             special_tokens=special_tokens,
         )
         # Kick off the training
         tokenizer.train_from_iterator(text_iterator, trainer)
         return cls(tokenizer)
     def encode_ordinary(self, text):
@@ -174,7 +193,7 @@ class HuggingFaceTokenizer:
         print(f'Saved tokenizer to {tokenizer_path}')
-# -----------------------------------------------------------------------------
+##
 # Tokenizer based on rustbpe + tiktoken combo
@@ -255,6 +274,7 @@ class RustBPETokenizer:
                 ids.insert(0, prepend_id)  # TODO: slightly inefficient here? :( hmm
             if append is not None:
                 ids.append(append_id)
         elif isinstance(text, list):
             ids = self.enc.encode_ordinary_batch(text, num_threads=num_threads)
             if prepend is not None:
@@ -263,6 +283,7 @@ class RustBPETokenizer:
             if append is not None:
                 for ids_row in ids:
                     ids_row.append(append_id)
         else:
             raise ValueError(f'Invalid input type: {type(text)}')  # noqa
@@ -285,6 +306,7 @@ class RustBPETokenizer:
     def render_conversation(self, conversation, max_tokens=2048):
         """
         Tokenize a single Chat conversation (which we call a "doc" or "document" here).
         Returns:
         - ids: list[int] is a list of token ids of this rendered conversation
         - mask: list[int] of same length, mask = 1 for tokens that the Assistant is expected to train on.
@@ -324,7 +346,10 @@ class RustBPETokenizer:
         for i, message in enumerate(messages):
             # some sanity checking here around assumptions, to prevent footguns
             must_be_from = 'user' if i % 2 == 0 else 'assistant'
-            check.state(message['role'] == must_be_from, f"Message {i} is from {message['role']} but should be from {must_be_from}")  # noqa
+            check.state(
+                message['role'] == must_be_from,
+                f"Message {i} is from {message['role']} but should be from {must_be_from}",
+            )
             # content can be either a simple string or a list of parts (e.g. containing tool calls)
             content = message['content']
@@ -335,33 +360,42 @@ class RustBPETokenizer:
                 add_tokens(user_start, 0)
                 add_tokens(value_ids, 0)
                 add_tokens(user_end, 0)
             elif message['role'] == 'assistant':
                 add_tokens(assistant_start, 0)
                 if isinstance(content, str):
                     # simple string => simply add the tokens
                     value_ids = self.encode(content)
                     add_tokens(value_ids, 1)
                 elif isinstance(content, list):
                     for part in content:
                         value_ids = self.encode(part['text'])
                         if part['type'] == 'text':
                             # string part => simply add the tokens
                             add_tokens(value_ids, 1)
                         elif part['type'] == 'python':
                             # python tool call => add the tokens inside <|python_start|> and <|python_end|>
                             add_tokens(python_start, 1)
                             add_tokens(value_ids, 1)
                             add_tokens(python_end, 1)
                         elif part['type'] == 'python_output':
                             # python output => add the tokens inside <|output_start|> and <|output_end|>
                             # none of these tokens are supervised because the tokens come from Python at test time
                             add_tokens(output_start, 0)
                             add_tokens(value_ids, 0)
                             add_tokens(output_end, 0)
                         else:
                             raise ValueError(f"Unknown part type: {part['type']}")
                 else:
                     raise ValueError(f'Unknown content type: {type(content)}')
                 add_tokens(assistant_end, 1)
         # truncate to max_tokens tokens MAX (helps prevent OOMs)

ommlds/specs/mcp/clients.py ADDED Viewed

@@ -0,0 +1,146 @@
+import contextlib
+import subprocess
+import typing as ta
+import anyio.abc
+from omlish import check
+from omlish import dataclasses as dc
+from omlish import marshal as msh
+from omlish.asyncs import anyio as aiu
+from omlish.specs import jsonrpc as jr
+from . import protocol as pt
+##
+class McpServerConnection:
+    def __init__(
+            self,
+            tg: anyio.abc.TaskGroup,
+            stream: anyio.abc.ByteStream,
+            *,
+            default_timeout: float | None = 30.,
+    ) -> None:
+        super().__init__()
+        self._conn = jr.Connection(
+            tg,
+            stream,
+            request_handler=self._handle_client_request,
+            notification_handler=self._handle_client_notification,
+            default_timeout=default_timeout,
+        )
+    #
+    @classmethod
+    def from_process(
+            cls,
+            tg: anyio.abc.TaskGroup,
+            proc: anyio.abc.Process,
+            **kwargs: ta.Any,
+    ) -> 'McpServerConnection':
+        return cls(
+            tg,
+            aiu.StapledByteStream(
+                check.not_none(proc.stdin),
+                check.not_none(proc.stdout),
+            ),
+            **kwargs,
+        )
+    @classmethod
+    def open_process(
+            cls,
+            tg: anyio.abc.TaskGroup,
+            cmd: ta.Sequence[str],
+            open_kwargs: ta.Mapping[str, ta.Any] | None = None,
+            **kwargs: ta.Any,
+    ) -> ta.AsyncContextManager[tuple[anyio.abc.Process, 'McpServerConnection']]:
+        @contextlib.asynccontextmanager
+        async def inner():
+            async with await anyio.open_process(
+                    cmd,
+                    stdin=subprocess.PIPE,
+                    stdout=subprocess.PIPE,
+                    **open_kwargs or {},
+            ) as proc:
+                async with cls.from_process(
+                        tg,
+                        proc,
+                        **kwargs,
+                ) as client:
+                    yield (proc, client)
+        return inner()
+    #
+    async def __aenter__(self) -> 'McpServerConnection':
+        await self._conn.__aenter__()
+        return self
+    async def __aexit__(self, et, e, tb) -> None:
+        await self._conn.__aexit__(et, e, tb)
+    #
+    async def _handle_client_request(self, _client: jr.Connection, req: jr.Request) -> None:
+        pass
+    async def _handle_client_notification(self, _client: jr.Connection, no: jr.Request) -> None:
+        pass
+    #
+    async def request(self, req: pt.ClientRequest[pt.ClientResultT]) -> pt.ClientResultT:
+        res_cls = pt.MESSAGE_TYPES_BY_JSON_RPC_METHOD_NAME[pt.ClientResult][req.json_rpc_method_name]  # type: ignore[type-abstract]  # noqa
+        req_mv = msh.marshal(req)
+        res_mv = await self._conn.request(req.json_rpc_method_name, req_mv)  # type: ignore[arg-type]
+        res = msh.unmarshal(res_mv, res_cls)
+        return ta.cast(pt.ClientResultT, res)
+    async def notify(self, no: pt.Notification) -> None:
+        no_mv = msh.marshal(no)
+        await self._conn.notify(no.json_rpc_method_name, no_mv)  # type: ignore[arg-type]
+    #
+    async def yield_cursor_request(
+            self,
+            req: pt.CursorClientRequest[pt.CursorClientResultT],
+    ) -> ta.AsyncGenerator[pt.CursorClientResultT]:
+        check.none(req.cursor)
+        cursor: str | None = None
+        while True:
+            res = await self.request(dc.replace(req, cursor=cursor))  # noqa
+            yield res
+            if (cursor := res.next_cursor) is None:
+                break
+    async def list_cursor_request(
+            self,
+            req: pt.CursorClientRequest[pt.CursorClientResultT],
+    ) -> list[pt.CursorClientResultT]:
+        return [res async for res in self.yield_cursor_request(req)]
+    #
+    async def list_tools(self) -> list[pt.Tool]:
+        return [
+            tool
+            async for res in self.yield_cursor_request(pt.ListToolsRequest())
+            for tool in res.tools
+        ]
+    async def list_prompts(self) -> list[pt.Prompt]:
+        return [
+            prompt
+            async for res in self.yield_cursor_request(pt.ListPromptsRequest())
+            for prompt in res.prompts
+        ]

ommlds/specs/mcp/protocol.py CHANGED Viewed

@@ -1,6 +1,15 @@
 """
 https://modelcontextprotocol.io/specification/2025-06-18
 https://modelcontextprotocol.io/specification/2025-06-18/schema
+TODO:
+ - https://modelcontextprotocol.io/specification/2025-06-18/basic/utilities/cancellation
+ - https://modelcontextprotocol.io/specification/2025-06-18/basic/utilities/progress
+ - https://modelcontextprotocol.io/specification/2025-06-18/client/sampling
+ - https://modelcontextprotocol.io/specification/2025-06-18/client/elicitation
+ - https://modelcontextprotocol.io/specification/2025-06-18/server/prompts
+ - https://modelcontextprotocol.io/specification/2025-06-18/server/resources
+ - https://modelcontextprotocol.io/specification/2025-06-18/server/utilities/logging
 """
 import abc
 import typing as ta
@@ -11,6 +20,16 @@ from omlish import lang
 from omlish import marshal as msh
+ClientRequestT = ta.TypeVar('ClientRequestT', bound='ClientRequest')
+ClientResultT = ta.TypeVar('ClientResultT', bound='ClientResult')
+ServerRequestT = ta.TypeVar('ServerRequestT', bound='ServerRequest')
+ServerResultT = ta.TypeVar('ServerResultT', bound='ServerResult')
+CursorClientRequestT = ta.TypeVar('CursorClientRequestT', bound='CursorClientRequest')
+CursorClientResultT = ta.TypeVar('CursorClientResultT', bound='CursorClientResult')
 msh.register_global_module_import('._marshal', __package__)
@@ -41,27 +60,36 @@ class Message(lang.Sealed, lang.Abstract):
         raise NotImplementedError
-class ClientRequest(Message, lang.Abstract):
+#
+class ClientRequest(Message, lang.Abstract, ta.Generic[ClientResultT]):
     pass
-class ClientResult(Message, lang.Abstract):
+class ClientResult(Message, lang.Abstract, ta.Generic[ClientRequestT]):
     pass
-class ServerRequest(Message, lang.Abstract):
+#
+class ServerRequest(Message, lang.Abstract, ta.Generic[ServerResultT]):
     pass
-class ServerResult(Message, lang.Abstract):
+class ServerResult(Message, lang.Abstract, ta.Generic[ServerRequestT]):
     pass
+#
 class Notification(Message, lang.Abstract):
     pass
-#
+##
 @dc.dataclass(frozen=True, kw_only=True)
@@ -84,7 +112,7 @@ DEFAULT_PROTOCOL_VERSION = '2025-06-18'
 @dc.dataclass(frozen=True, kw_only=True)
 @_set_class_marshal_options
-class ClientCapabilities:
+class ClientCapabilities(lang.Final):
     elicitation: ta.Any | None = None
     experimental: ta.Mapping[str, ta.Any] | None = None
@@ -101,7 +129,7 @@ class ClientCapabilities:
 @dc.dataclass(frozen=True, kw_only=True)
 @_set_class_marshal_options
-class InitializeRequest(ClientRequest):
+class InitializeRequest(ClientRequest['InitializeResult']):
     json_rpc_method_name: ta.ClassVar[str] = 'initialize'
     client_info: Implementation
@@ -143,12 +171,13 @@ class ServerCapabilities:
 @dc.dataclass(frozen=True, kw_only=True)
 @_set_class_marshal_options
-class InitializeResult(ClientResult, WithMeta):
+class InitializeResult(ClientResult[InitializeRequest], WithMeta):
     json_rpc_method_name: ta.ClassVar[str] = 'initialize'
     server_info: Implementation
     protocol_version: str
     capabilities: ServerCapabilities
+    instructions: str | None = None
 @dc.dataclass(frozen=True, kw_only=True)
@@ -160,6 +189,19 @@ class InitializedNotification(Notification):
 ##
+@dc.dataclass(frozen=True, kw_only=True)
+class CursorClientRequest(ClientRequest[CursorClientResultT], lang.Abstract):
+    cursor: str | None = None
+@dc.dataclass(frozen=True, kw_only=True)
+class CursorClientResult(ClientResult[CursorClientRequestT], lang.Abstract):
+    next_cursor: str | None = None
+##
 @dc.dataclass(frozen=True, kw_only=True)
 @_set_class_marshal_options
 class ToolAnnotations(lang.Final):
@@ -172,7 +214,7 @@ class ToolAnnotations(lang.Final):
 @dc.dataclass(frozen=True, kw_only=True)
 @_set_class_marshal_options
-class Tool(lang.Final):
+class Tool(WithMeta, lang.Final):
     name: str
     title: str | None = None
@@ -186,19 +228,16 @@ class Tool(lang.Final):
 @dc.dataclass(frozen=True, kw_only=True)
 @_set_class_marshal_options
-class ListToolsRequest(ClientRequest):
+class ListToolsRequest(CursorClientRequest['ListToolsResult']):
     json_rpc_method_name: ta.ClassVar[str] = 'tools/list'
-    cursor: str | None = None
 @dc.dataclass(frozen=True, kw_only=True)
 @_set_class_marshal_options
-class ListToolsResult(ClientResult, WithMeta):
+class ListToolsResult(CursorClientResult[ListToolsRequest], WithMeta):
     json_rpc_method_name: ta.ClassVar[str] = 'tools/list'
     tools: ta.Sequence[Tool]
-    next_cursor: str | None = None
 ##
@@ -219,7 +258,7 @@ class TextContentBlock(ContentBlock, lang.Final):
 @dc.dataclass(frozen=True, kw_only=True)
 @_set_class_marshal_options
-class CallToolRequest(ClientRequest):
+class CallToolRequest(ClientRequest['CallToolResult']):
     json_rpc_method_name: ta.ClassVar[str] = 'tools/call'
     name: str
@@ -228,7 +267,7 @@ class CallToolRequest(ClientRequest):
 @dc.dataclass(frozen=True, kw_only=True)
 @_set_class_marshal_options
-class CallToolResult(ClientResult, WithMeta):
+class CallToolResult(ClientResult[CallToolRequest], WithMeta):
     json_rpc_method_name: ta.ClassVar[str] = 'tools/call'
     content: ta.Sequence[ContentBlock]
@@ -241,16 +280,82 @@ class CallToolResult(ClientResult, WithMeta):
 @dc.dataclass(frozen=True, kw_only=True)
 @_set_class_marshal_options
-class PingRequest(ClientRequest, WithMeta):
+class PingClientRequest(ClientRequest['PingClientResult'], WithMeta):
     json_rpc_method_name: ta.ClassVar[str] = 'ping'
 @dc.dataclass(frozen=True, kw_only=True)
 @_set_class_marshal_options
-class PingResult(ClientResult):
+class PingClientResult(ClientResult[PingClientRequest]):
     json_rpc_method_name: ta.ClassVar[str] = 'ping'
+@dc.dataclass(frozen=True, kw_only=True)
+@_set_class_marshal_options
+class PingServerRequest(ServerRequest['PingServerResult'], WithMeta):
+    json_rpc_method_name: ta.ClassVar[str] = 'ping'
+@dc.dataclass(frozen=True, kw_only=True)
+@_set_class_marshal_options
+class PingServerResult(ServerResult[PingServerRequest]):
+    json_rpc_method_name: ta.ClassVar[str] = 'ping'
+##
+@dc.dataclass(frozen=True, kw_only=True)
+@_set_class_marshal_options
+class PromptArgument(lang.Final):
+    name: str
+    title: str | None = None
+    description: str | None = None
+    required: bool | None = None
+@dc.dataclass(frozen=True, kw_only=True)
+@_set_class_marshal_options
+class Prompt(WithMeta, lang.Final):
+    name: str
+    title: str | None = None
+    description: str | None = None
+    arguments: ta.Sequence[PromptArgument] | None = None
+@dc.dataclass(frozen=True, kw_only=True)
+@_set_class_marshal_options
+class ListPromptsRequest(CursorClientRequest['ListPromptsResult']):
+    json_rpc_method_name: ta.ClassVar[str] = 'prompts/list'
+@dc.dataclass(frozen=True, kw_only=True)
+@_set_class_marshal_options
+class ListPromptsResult(CursorClientResult[ListPromptsRequest], WithMeta):
+    json_rpc_method_name: ta.ClassVar[str] = 'prompts/list'
+    prompts: ta.Sequence[Prompt]
+##
+LoggingLevel: ta.TypeAlias = ta.Literal[
+    'debug',
+    'info',
+    'notice',
+    'warning',
+    'error',
+    'critical',
+    'alert',
+    'emergency',
+]
 ##

ommlds 0.0.0.dev480__py3-none-any.whl → 0.0.0.dev503__py3-none-any.whl

ommlds 0.0.0.dev480py3-none-any.whl → 0.0.0.dev503py3-none-any.whl