PyPI - python-fastllm - Versions diffs - 0.0.10__tar.gz → 0.0.11__tar.gz - Mend

python-fastllm 0.0.10tar.gz → 0.0.11tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (28) hide show

{python_fastllm-0.0.10 → python_fastllm-0.0.11}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: python-fastllm
-Version: 0.0.10
+Version: 0.0.11
 Author-email: Kerem Turgutlu <keremturgutlu@gmail.com>
 License: Apache-2.0
 Project-URL: Repository, https://github.com/AnswerDotAI/fastllm

python_fastllm-0.0.11/fastllm/__init__.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ __version__ = "0.0.11"

{python_fastllm-0.0.10 → python_fastllm-0.0.11}/fastllm/acomplete.py RENAMED Viewed

@@ -38,6 +38,7 @@ vendor_mapping = {
     "codex":        ('openai', 'https://chatgpt.com/backend-api/codex', 'CODEX_AUTH_TOKEN', _codex_json),
     "moonshot":     ('openai_chat', "https://api.moonshot.ai/v1", "MOONSHOT_API_KEY"),
     "deepseek":     ('openai_chat', "https://api.deepseek.com/v1", "DEEPSEEK_API_KEY"),
+    "mimo":         ('openai_chat', "https://api.xiaomimimo.com/v1", "MIMO_API_KEY"),
     "openrouter":   ('openai_chat', "https://openrouter.ai/api/v1", "OPENROUTER_API_KEY"),
     "together":     ('openai_chat', "https://api.together.xyz/v1", "TOGETHER_API_KEY"),
     "fireworks_ai": ('openai_chat', "https://api.fireworks.ai/inference/v1", "FIREWORKS_API_KEY"),
@@ -82,7 +83,7 @@ def _is_ctx_exceeded(code, msg):
     if str(code or "").lower() == "context_length_exceeded": return True
     return any(s in m for s in ("exceed context limit", "maximum context length", "maximum context limit",
     "longer than the model's context length", "input tokens exceed the configured limit",
-    "exceeds the maximum number of tokens allowed", "prompt is too long"))
+    "exceeds the maximum number of tokens allowed", "prompt is too long", "exceeds the context window"))
 def _classify_error(exc):
     "Upgrade generic `APIError` to a specific subclass if applicable."

{python_fastllm-0.0.10 → python_fastllm-0.0.11}/fastllm/anthropic.py RENAMED Viewed

@@ -287,7 +287,7 @@ def cost(usage, m):
     in_tok = raw['input_tokens']
     cache_read = raw.get('cache_read_input_tokens', 0)
     cc = raw.get('cache_creation', {}) or {}
-    cache_5m  = cc.get('ephemeral_5m_input_tokens', 0)
+    cache_5m  = cc.get('ephemeral_5m_input_tokens', raw.get('cache_creation_input_tokens', 0))
     cache_1h  = cc.get('ephemeral_1h_input_tokens', 0)
     cost  = in_tok     * m.input_cost_per_token
     cost += raw['output_tokens'] * m.output_cost_per_token

{python_fastllm-0.0.10 → python_fastllm-0.0.11}/fastllm/chat.py RENAMED Viewed

@@ -116,7 +116,7 @@ re_token = re.compile(fr"^{re.escape(token_dtls_tag)}\n*<summary>.*?</summary>\n
 _fence_back = '`````'
 _fence_re = re.compile(f'^{_fence_back}(py|bash)\n(.*?)\n{_fence_back}$', re.DOTALL | re.MULTILINE)
 _result_re = re.compile(f'\n{_fence_back}result\n(.*?)\n{_fence_back}\n', re.DOTALL)
-_lang2tool = dict(py='python', bash='bash')
+_lang2tool = dict(py='pyrun', bash='bash')
 class FenceToolStop:
     def __init__(self, langs): self.langs = langs
@@ -204,6 +204,7 @@ def fmt2hist(outp:str)->list[Msg]:
     for msg in hist:
         if msg.role == 'assistant': result.extend(_split_msg_on_fences(msg))
         else: result.append(msg)
+    if result[-1].role == 'tool': result.append(Msg(role='assistant', content=[Part(type=PartType.text, text='.')]))
     return result
 # %% ../nbs/07_chat.ipynb #8de5ce8d
@@ -635,7 +636,7 @@ def _active_fence_langs(tool_schemas):
 async def run_fence_tool(lang, code, ns):
     "Run the mapped tool for `lang` with the code, return result fence"
     tname = _lang2tool[lang]
-    arg = dict(code=code) if lang == 'py' else dict(command=code)
+    arg = dict(code=code) if lang == 'py' else dict(cmd=code)
     res = _mk_tool_result(await call_func_async(tname, arg, ns=ns, raise_on_err=False))
     return _mk_result_fence(_trunc_str(str(res)))

{python_fastllm-0.0.10 → python_fastllm-0.0.11}/fastllm/openai_chat.py RENAMED Viewed

@@ -195,7 +195,7 @@ def get_hdrs(api_key=None):
 # %% ../nbs/03_oai_chat.ipynb #f89e2bf6
 def cost(usage, m):
     raw = usage.raw
-    pd, cd = raw.get('prompt_tokens_details', {}), raw.get('completion_tokens_details', {})
+    pd,cd = raw.get('prompt_tokens_details') or {},raw.get('completion_tokens_details') or {}
     cached = pd.get('cached_tokens', 0)
     in_audio, out_audio = pd.get('audio_tokens', 0), cd.get('audio_tokens', 0)
     in_txt  = raw['prompt_tokens']     - cached - in_audio

{python_fastllm-0.0.10 → python_fastllm-0.0.11}/fastllm/streaming.py RENAMED Viewed

@@ -157,7 +157,7 @@ async def mk_acollect_stream(it, index_fn, model=None, api_name=None, vendor_nam
     if stop: fin = FinishReason.stop
     fin = FinishReason.tool_calls if fin==FinishReason.stop and any(~L(tcs).attrgot('server')) else fin # recheck tool calls post collation
     # tool calls and non-anthropic citations are yielded at the end
-    yield Completion(d.raw.get('model', model),
+    yield Completion(model,
             message=Msg(role="assistant", content=part_accum.parts),
             finish_reason=fin, usage=usg, tool_calls=tcs, api_name=api_name, vendor_name=vendor_name,
             raw={'deltas':deltas})

{python_fastllm-0.0.10 → python_fastllm-0.0.11}/fastllm/types.py RENAMED Viewed

@@ -5,10 +5,11 @@
 # %% auto #0
 __all__ = ['PartType', 'FinishReason', 'api_registry', 'model_prices_url', 'haik45', 'sonn45', 'sonn', 'sonn46', 'opus46', 'opus',
            'gpt54', 'gpt54m', 'gpt55', 'codex54', 'codex54m', 'codex55', 'codex53spark', 'model_info_registry',
-           'deepseek_v4_common', 'codex_pricing', 'Part', 'Msg', 'ToolCall', 'display_list', 'Usage', 'Completion',
-           'APIRegistry', 'mk_completion', 'mk_tool_res_msg', 'fn_schema', 'sys_text', 'part_txt', 'data_url',
-           'url_mime', 'payload_kwargs', 'get_api_key', 'model_prices_meta', 'infer_api_name', 'get_model_meta',
-           'register_model_info', 'get_model_info', 'get_model_pricing', 'approx_pricing']
+           'modern_llm', 'deepseek_v4_common', 'mimo_v25_common', 'codex_pricing', 'Part', 'Msg', 'ToolCall',
+           'display_list', 'Usage', 'Completion', 'APIRegistry', 'mk_completion', 'mk_tool_res_msg', 'fn_schema',
+           'sys_text', 'part_txt', 'data_url', 'url_mime', 'payload_kwargs', 'get_api_key', 'model_prices_meta',
+           'infer_api_name', 'get_model_meta', 'register_model_info', 'get_model_info', 'get_model_pricing',
+           'approx_pricing']
 # %% ../nbs/00_types.ipynb #b4d047fd
 import httpx
@@ -164,7 +165,7 @@ def mk_completion(resp, model, api_name, vendor_name):
     parts = api.norm_parts(resp)
     usg = api.finalize_usage(api.norm_usage(resp), parts)
     return Completion(
-        model=resp.get("model") or model,
+        model=model,
         message=Msg(role="assistant", content=parts),
         finish_reason=api.norm_finish(resp, tcs),
         usage=usg,
@@ -173,7 +174,6 @@ def mk_completion(resp, model, api_name, vendor_name):
         vendor_name=vendor_name,
         raw=resp)
 # %% ../nbs/00_types.ipynb #d5322db5
 def mk_tool_res_msg(tool_calls:list[ToolCall], results:list[str|list]):
     'A util to prepare parallel tool call with str or media list results'
@@ -271,7 +271,7 @@ haik45 = "claude-haiku-4-5"
 sonn45 = "claude-sonnet-4-5"
 sonn = sonn46 = "claude-sonnet-4-6"
 opus46 = "claude-opus-4-6"
-opus = "claude-opus-4-7"
+opus = "claude-opus-4-8"
 gpt54 = "gpt-5.4"
 gpt54m = "gpt-5.4-mini"
 gpt55 = "gpt-5.5"
@@ -287,6 +287,8 @@ def register_model_info(model, vendor_name=None, base=None, base_vendor_name=Non
     "Register model metadata, optionally starting from `base`."
     info = dict(get_model_info(base, base_vendor_name or vendor_name)) if base else {}
     info.update(overrides)
+    if isinstance(c := info.get('search_context_cost_per_query'), (int,float)):
+        info['search_context_cost_per_query'] = {f'search_context_size_{s}':c for s in ('low','medium','high')}
     model_info_registry[vendor_name, model] = info
 def get_model_info(mn, vendor_name=None):
@@ -294,11 +296,17 @@ def get_model_info(mn, vendor_name=None):
     if 'search_context_cost_per_query' in info: info['supports_web_search'] = True
     return dict2obj(info)
+# %% ../nbs/00_types.ipynb #331c5d0a
+register_model_info("claude-opus-4-8", vendor_name='anthropic', base="claude-opus-4-6")
+# %% ../nbs/00_types.ipynb #b36178d4
+modern_llm = dict(supports_function_calling=True, supports_tool_choice=True, supports_prompt_caching=True,
+    supports_parallel_function_calling=True, supports_native_streaming=True, supports_native_structured_output=True,
+    supports_reasoning=True, supports_response_schema=True, supports_system_messages=True)
 # %% ../nbs/00_types.ipynb #8261dcd0
-register_model_info('accounts/fireworks/models/qwen3p6-plus', vendor_name='fireworks_ai',
-    supports_vision=True, supports_reasoning=True, supports_function_calling=True, supports_tool_choice=True,
-    supports_system_messages=True, supports_response_schema=True, supports_parallel_function_calling=True,
-    supports_prompt_caching=True, supports_native_streaming=True, supports_native_structured_output=True,
+register_model_info('accounts/fireworks/models/qwen3p6-plus', vendor_name='fireworks_ai', **modern_llm,
+    supports_vision=True,
     max_tokens=1000000, max_input_tokens=1000000, max_output_tokens=65536,
     input_cost_per_token=0.5e-6, cache_read_input_token_cost=0.1e-6, output_cost_per_token=3.0e-6)
@@ -322,9 +330,7 @@ for model in ('accounts/fireworks/models/kimi-k2p5', 'accounts/fireworks/models/
         input_cost_per_token=0.95e-6, cache_read_input_token_cost=0.16e-6, output_cost_per_token=4.0e-6)
 # %% ../nbs/00_types.ipynb #948d55d0
-deepseek_v4_common = dict(
-    supports_assistant_prefill=True, supports_function_calling=True, supports_prompt_caching=True,
-    supports_reasoning=True, supports_tool_choice=True,
+deepseek_v4_common = dict(**modern_llm, supports_assistant_prefill=True,
     max_input_tokens=1048576, max_output_tokens=393216, max_tokens=393216)
 register_model_info('deepseek-v4-flash', vendor_name='deepseek', base='deepseek/deepseek-v3.2', **deepseek_v4_common,
@@ -334,19 +340,26 @@ register_model_info('deepseek-v4-pro', vendor_name='deepseek', base='deepseek/de
     input_cost_per_token=4.35e-07, input_cost_per_token_cache_hit=3.625e-09,
     output_cost_per_token=8.7e-07, cache_read_input_token_cost=4.35e-07/10)
+mimo_v25_common = dict(**modern_llm, supports_web_search=True, max_input_tokens=1048576, max_output_tokens=131072, max_tokens=131072)
+register_model_info('mimo-v2.5-pro', vendor_name='mimo', **mimo_v25_common, base='deepseek/deepseek-v4-pro',
+    input_cost_per_token=0.435e-6, output_cost_per_token=0.87e-6, cache_read_input_token_cost=0.0036e-6, search_context_cost_per_query=0.005)
+register_model_info('mimo-v2.5', vendor_name='mimo', **mimo_v25_common, base='deepseek/deepseek-v4',
+    input_cost_per_token=0.14e-6,  output_cost_per_token=0.28e-6, cache_read_input_token_cost=0.0028e-6, search_context_cost_per_query=0.005,
+    supports_vision=True, supports_image_input=True)
 # %% ../nbs/00_types.ipynb #2c23d11e
 codex_pricing = dict(
     input_cost_per_token = 0.10/1_000_000, output_cost_per_token = 0.50/1_000_000,
     cache_creation_input_token_cost = 0.10/1_000_000, cache_read_input_token_cost = 0.10/1_000_000)
 for model in (codex54, codex54m, codex55):
-    register_model_info(model, 'codex', base=model, base_vendor_name='chatgpt', supports_web_search=True, **codex_pricing)
+    register_model_info(model, 'codex', base=model, base_vendor_name='chatgpt', supports_web_search=True, max_input_tokens=256000, **codex_pricing)
 register_model_info(codex53spark, 'codex', **codex_pricing,
-    supports_vision=False, supports_image_input=False, supports_web_search=True, supports_reasoning=True,
+    supports_vision=False, supports_image_input=False, supports_web_search=True, supports_reasoning=True, supports_function_calling=True,
     max_tokens=128000, max_input_tokens=128000, max_output_tokens=128000)
 # %% ../nbs/00_types.ipynb #24cc47ec
 def get_model_pricing(mn, vendor_name, million=True):
     return {k:round(v * (1e6 if million else 1), 6)
@@ -359,7 +372,7 @@ def approx_pricing(nm, vendor_name, out=10, cache=80, inp=10, markup=0):
     p = get_model_pricing(nm, vendor_name)
     ic = p.get('cache_creation_input_token_cost', p['input_cost_per_token'])
     res = (p['output_cost_per_token']*out + p['cache_read_input_token_cost']*cache + ic*inp) / (out+cache+inp)
-    if nm=='claude-opus-4-7': res *= 1.5
+    if nm in ('claude-opus-4-7','claude-opus-4-8'): res *= 1.5
     return res*(1+markup)
 # %% ../nbs/00_types.ipynb #8bfca02d

{python_fastllm-0.0.10 → python_fastllm-0.0.11}/python_fastllm.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: python-fastllm
-Version: 0.0.10
+Version: 0.0.11
 Author-email: Kerem Turgutlu <keremturgutlu@gmail.com>
 License: Apache-2.0
 Project-URL: Repository, https://github.com/AnswerDotAI/fastllm