PyPI - kiln-ai - Versions diffs - 0.21.0__py3-none-any.whl → 0.22.1__py3-none-any.whl - Mend

kiln-ai 0.21.0py3-none-any.whl → 0.22.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of kiln-ai might be problematic. Click here for more details.

Files changed (53) hide show

kiln_ai/adapters/extractors/litellm_extractor.py +52 -32
kiln_ai/adapters/extractors/test_litellm_extractor.py +169 -71
kiln_ai/adapters/ml_embedding_model_list.py +330 -28
kiln_ai/adapters/ml_model_list.py +503 -23
kiln_ai/adapters/model_adapters/litellm_adapter.py +39 -8
kiln_ai/adapters/model_adapters/test_litellm_adapter.py +78 -0
kiln_ai/adapters/model_adapters/test_litellm_adapter_tools.py +119 -5
kiln_ai/adapters/model_adapters/test_saving_adapter_results.py +9 -3
kiln_ai/adapters/model_adapters/test_structured_output.py +6 -9
kiln_ai/adapters/test_ml_embedding_model_list.py +89 -279
kiln_ai/adapters/test_ml_model_list.py +0 -10
kiln_ai/adapters/vector_store/lancedb_adapter.py +24 -70
kiln_ai/adapters/vector_store/lancedb_helpers.py +101 -0
kiln_ai/adapters/vector_store/test_lancedb_adapter.py +9 -16
kiln_ai/adapters/vector_store/test_lancedb_helpers.py +142 -0
kiln_ai/adapters/vector_store_loaders/__init__.py +0 -0
kiln_ai/adapters/vector_store_loaders/test_lancedb_loader.py +282 -0
kiln_ai/adapters/vector_store_loaders/test_vector_store_loader.py +544 -0
kiln_ai/adapters/vector_store_loaders/vector_store_loader.py +91 -0
kiln_ai/datamodel/basemodel.py +31 -3
kiln_ai/datamodel/external_tool_server.py +206 -54
kiln_ai/datamodel/extraction.py +14 -0
kiln_ai/datamodel/task.py +5 -0
kiln_ai/datamodel/task_output.py +41 -11
kiln_ai/datamodel/test_attachment.py +3 -3
kiln_ai/datamodel/test_basemodel.py +269 -13
kiln_ai/datamodel/test_datasource.py +50 -0
kiln_ai/datamodel/test_external_tool_server.py +534 -152
kiln_ai/datamodel/test_extraction_model.py +31 -0
kiln_ai/datamodel/test_task.py +35 -1
kiln_ai/datamodel/test_tool_id.py +106 -1
kiln_ai/datamodel/tool_id.py +49 -0
kiln_ai/tools/base_tool.py +30 -6
kiln_ai/tools/built_in_tools/math_tools.py +12 -4
kiln_ai/tools/kiln_task_tool.py +162 -0
kiln_ai/tools/mcp_server_tool.py +7 -5
kiln_ai/tools/mcp_session_manager.py +50 -24
kiln_ai/tools/rag_tools.py +17 -6
kiln_ai/tools/test_kiln_task_tool.py +527 -0
kiln_ai/tools/test_mcp_server_tool.py +4 -15
kiln_ai/tools/test_mcp_session_manager.py +186 -226
kiln_ai/tools/test_rag_tools.py +86 -5
kiln_ai/tools/test_tool_registry.py +199 -5
kiln_ai/tools/tool_registry.py +49 -17
kiln_ai/utils/filesystem.py +4 -4
kiln_ai/utils/open_ai_types.py +19 -2
kiln_ai/utils/pdf_utils.py +21 -0
kiln_ai/utils/test_open_ai_types.py +88 -12
kiln_ai/utils/test_pdf_utils.py +14 -1
{kiln_ai-0.21.0.dist-info → kiln_ai-0.22.1.dist-info}/METADATA +79 -1
{kiln_ai-0.21.0.dist-info → kiln_ai-0.22.1.dist-info}/RECORD +53 -45
{kiln_ai-0.21.0.dist-info → kiln_ai-0.22.1.dist-info}/WHEEL +0 -0
{kiln_ai-0.21.0.dist-info → kiln_ai-0.22.1.dist-info}/licenses/LICENSE.txt +0 -0

kiln_ai/adapters/ml_embedding_model_list.py CHANGED Viewed

@@ -17,6 +17,15 @@ class KilnEmbeddingModelFamily(str, Enum):
     gemini = "gemini"
     gemma = "gemma"
     nomic = "nomic"
+    qwen = "qwen"
+    baai = "baai"
+    modernbert = "modernbert"
+    intfloat = "intfloat"
+    together = "together"
+    thenlper = "thenlper"
+    where_is_ai = "where_is_ai"
+    mixedbread = "mixedbread"
+    netease = "netease"
 class EmbeddingModelName(str, Enum):
@@ -33,6 +42,20 @@ class EmbeddingModelName(str, Enum):
     gemini_embedding_001 = "gemini_embedding_001"
     embedding_gemma_300m = "embedding_gemma_300m"
     nomic_text_embedding_v1_5 = "nomic_text_embedding_v1_5"
+    qwen_3_embedding_0p6b = "qwen_3_embedding_0p6b"
+    qwen_3_embedding_4b = "qwen_3_embedding_4b"
+    qwen_3_embedding_8b = "qwen_3_embedding_8b"
+    baai_bge_small_1_5 = "baai_bge_small_1_5"
+    baai_bge_base_1_5 = "baai_bge_base_1_5"
+    baai_bge_large_1_5 = "baai_bge_large_1_5"
+    m2_bert_retrieval_32k = "m2_bert_retrieval_32k"
+    gte_modernbert_base = "gte_modernbert_base"
+    multilingual_e5_large_instruct = "multilingual_e5_large_instruct"
+    thenlper_gte_large = "thenlper_gte_large"
+    thenlper_gte_base = "thenlper_gte_base"
+    where_is_ai_uae_large_v1 = "where_is_ai_uae_large_v1"
+    mixedbread_ai_mxbai_embed_large_v1 = "mixedbread_ai_mxbai_embed_large_v1"
+    netease_youdao_bce_embedding_base_v1 = "netease_youdao_bce_embedding_base_v1"
 class KilnEmbeddingModelProvider(BaseModel):
@@ -76,66 +99,68 @@ class KilnEmbeddingModel(BaseModel):
 built_in_embedding_models: List[KilnEmbeddingModel] = [
-    # openai
+    # OpenAI Text Embedding 3 Large
     KilnEmbeddingModel(
         family=KilnEmbeddingModelFamily.openai,
-        name=EmbeddingModelName.openai_text_embedding_3_small,
-        friendly_name="Text Embedding 3 Small",
+        name=EmbeddingModelName.openai_text_embedding_3_large,
+        friendly_name="Text Embedding 3 Large",
         providers=[
             KilnEmbeddingModelProvider(
                 name=ModelProviderName.openai,
-                model_id="text-embedding-3-small",
-                n_dimensions=1536,
+                model_id="text-embedding-3-large",
+                n_dimensions=3072,
                 max_input_tokens=8192,
                 supports_custom_dimensions=True,
+                suggested_for_chunk_embedding=True,
             ),
         ],
     ),
+    # OpenAI Text Embedding 3 Small
     KilnEmbeddingModel(
         family=KilnEmbeddingModelFamily.openai,
-        name=EmbeddingModelName.openai_text_embedding_3_large,
-        friendly_name="Text Embedding 3 Large",
+        name=EmbeddingModelName.openai_text_embedding_3_small,
+        friendly_name="Text Embedding 3 Small",
         providers=[
             KilnEmbeddingModelProvider(
                 name=ModelProviderName.openai,
-                model_id="text-embedding-3-large",
-                n_dimensions=3072,
+                model_id="text-embedding-3-small",
+                n_dimensions=1536,
                 max_input_tokens=8192,
                 supports_custom_dimensions=True,
-                suggested_for_chunk_embedding=True,
             ),
         ],
     ),
-    # gemini
+    # Gemini Embedding 001
     KilnEmbeddingModel(
         family=KilnEmbeddingModelFamily.gemini,
-        name=EmbeddingModelName.gemini_text_embedding_004,
-        friendly_name="Text Embedding 004",
+        name=EmbeddingModelName.gemini_embedding_001,
+        friendly_name="Gemini Embedding 001",
         providers=[
             KilnEmbeddingModelProvider(
                 name=ModelProviderName.gemini_api,
-                model_id="text-embedding-004",
-                n_dimensions=768,
+                model_id="gemini-embedding-001",
+                n_dimensions=3072,
                 max_input_tokens=2048,
+                supports_custom_dimensions=True,
+                suggested_for_chunk_embedding=True,
             ),
         ],
     ),
+    # Gemini Text Embedding 004
     KilnEmbeddingModel(
         family=KilnEmbeddingModelFamily.gemini,
-        name=EmbeddingModelName.gemini_embedding_001,
-        friendly_name="Gemini Embedding 001",
+        name=EmbeddingModelName.gemini_text_embedding_004,
+        friendly_name="Text Embedding 004",
         providers=[
             KilnEmbeddingModelProvider(
                 name=ModelProviderName.gemini_api,
-                model_id="gemini-embedding-001",
-                n_dimensions=3072,
+                model_id="text-embedding-004",
+                n_dimensions=768,
                 max_input_tokens=2048,
-                supports_custom_dimensions=True,
-                suggested_for_chunk_embedding=True,
             ),
         ],
     ),
-    # gemma
+    # Embedding Gemma 300m
     KilnEmbeddingModel(
         family=KilnEmbeddingModelFamily.gemma,
         name=EmbeddingModelName.embedding_gemma_300m,
@@ -146,14 +171,15 @@ built_in_embedding_models: List[KilnEmbeddingModel] = [
                 model_id="embeddinggemma:300m",
                 n_dimensions=768,
                 max_input_tokens=2048,
-                # the model itself does support custom dimensions, but
-                # not sure if ollama supports it
+                # the model itself does support custom dimensions, but not working
+                # because litellm rejects the param:
+                # https://github.com/BerriAI/litellm/issues/11940
                 supports_custom_dimensions=False,
                 ollama_model_aliases=["embeddinggemma"],
             ),
         ],
     ),
-    # nomic
+    # Nomic Embed Text v1.5
     KilnEmbeddingModel(
         family=KilnEmbeddingModelFamily.nomic,
         name=EmbeddingModelName.nomic_text_embedding_v1_5,
@@ -163,12 +189,288 @@ built_in_embedding_models: List[KilnEmbeddingModel] = [
                 name=ModelProviderName.ollama,
                 model_id="nomic-embed-text:v1.5",
                 n_dimensions=768,
-                max_input_tokens=2048,
-                # the model itself does support custom dimensions, but
-                # not sure if ollama supports it
+                max_input_tokens=8192,
+                # the model itself does support custom dimensions, but not working
+                # because litellm rejects the param:
+                # https://github.com/BerriAI/litellm/issues/11940
                 supports_custom_dimensions=False,
                 ollama_model_aliases=["nomic-embed-text"],
             ),
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.fireworks_ai,
+                model_id="nomic-ai/nomic-embed-text-v1.5",
+                n_dimensions=768,
+                max_input_tokens=8192,
+                supports_custom_dimensions=True,
+            ),
+        ],
+    ),
+    # Qwen3 Embedding 8B
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.qwen,
+        name=EmbeddingModelName.qwen_3_embedding_8b,
+        friendly_name="Qwen 3 Embedding 8B",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.ollama,
+                model_id="qwen3-embedding:8b",
+                n_dimensions=4096,
+                max_input_tokens=32_000,
+                # the model itself does support custom dimensions, but not working
+                # because litellm rejects the param:
+                # https://github.com/BerriAI/litellm/issues/11940
+                supports_custom_dimensions=False,
+                ollama_model_aliases=[
+                    # 8b is default
+                    "qwen3-embedding",
+                ],
+            ),
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.fireworks_ai,
+                model_id="accounts/fireworks/models/qwen3-embedding-8b",
+                n_dimensions=4096,
+                max_input_tokens=32_000,
+                # the model itself does support custom dimensions, but not working
+                supports_custom_dimensions=True,
+            ),
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.siliconflow_cn,
+                model_id="Qwen/Qwen3-Embedding-8B",
+                n_dimensions=4096,
+                max_input_tokens=32_000,
+                # the model itself does support custom dimensions, but not working
+                # because litellm rejects the param:
+                # https://github.com/BerriAI/litellm/issues/11940
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # Qwen3 Embedding 4B
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.qwen,
+        name=EmbeddingModelName.qwen_3_embedding_4b,
+        friendly_name="Qwen 3 Embedding 4B",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.ollama,
+                model_id="qwen3-embedding:4b",
+                n_dimensions=2560,
+                max_input_tokens=32_000,
+                # the model itself does support custom dimensions, but not working
+                # because litellm rejects the param:
+                # https://github.com/BerriAI/litellm/issues/11940
+                supports_custom_dimensions=False,
+            ),
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.siliconflow_cn,
+                model_id="Qwen/Qwen3-Embedding-4B",
+                n_dimensions=2560,
+                max_input_tokens=32_000,
+                # the model itself does support custom dimensions, but not working
+                # because litellm rejects the param:
+                # https://github.com/BerriAI/litellm/issues/11940
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # Qwen3 Embedding 0.6B
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.qwen,
+        name=EmbeddingModelName.qwen_3_embedding_0p6b,
+        friendly_name="Qwen 3 Embedding 0.6B",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.ollama,
+                model_id="qwen3-embedding:0.6b",
+                n_dimensions=1024,
+                max_input_tokens=32_000,
+                # the model itself does support custom dimensions, but not working
+                # because litellm rejects the param:
+                # https://github.com/BerriAI/litellm/issues/11940
+                supports_custom_dimensions=False,
+            ),
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.siliconflow_cn,
+                model_id="Qwen/Qwen3-Embedding-0.6B",
+                n_dimensions=1024,
+                max_input_tokens=32_000,
+                # the model itself does support custom dimensions, but not working
+                # because litellm rejects the param:
+                # https://github.com/BerriAI/litellm/issues/11940
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # BAAI-Bge-Large-1.5
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.baai,
+        name=EmbeddingModelName.baai_bge_large_1_5,
+        friendly_name="BAAI Bge Large 1.5",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.together_ai,
+                model_id="BAAI/bge-large-en-v1.5",
+                n_dimensions=1024,
+                max_input_tokens=512,
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # BAAI-Bge-Base-1.5
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.baai,
+        name=EmbeddingModelName.baai_bge_base_1_5,
+        friendly_name="BAAI Bge Base 1.5",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.fireworks_ai,
+                model_id="BAAI/bge-base-en-v1.5",
+                n_dimensions=768,
+                max_input_tokens=512,
+                supports_custom_dimensions=False,
+            ),
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.together_ai,
+                model_id="BAAI/bge-base-en-v1.5",
+                n_dimensions=768,
+                max_input_tokens=512,
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # BAAI-Bge-Small-1.5
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.baai,
+        name=EmbeddingModelName.baai_bge_small_1_5,
+        friendly_name="BAAI Bge Small 1.5",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.fireworks_ai,
+                model_id="BAAI/bge-small-en-v1.5",
+                n_dimensions=384,
+                max_input_tokens=512,
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # M2-BERT-Retrieval-32k
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.together,
+        name=EmbeddingModelName.m2_bert_retrieval_32k,
+        friendly_name="M2 BERT Retrieval 32k",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.together_ai,
+                model_id="togethercomputer/m2-bert-80M-32k-retrieval",
+                n_dimensions=768,
+                max_input_tokens=32_768,
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # Gte Modernbert Base
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.modernbert,
+        name=EmbeddingModelName.gte_modernbert_base,
+        friendly_name="Gte Modernbert Base",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.together_ai,
+                model_id="Alibaba-NLP/gte-modernbert-base",
+                n_dimensions=768,
+                max_input_tokens=8192,
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # Multilingual E5 Large Instruct
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.intfloat,
+        name=EmbeddingModelName.multilingual_e5_large_instruct,
+        friendly_name="Multilingual E5 Large Instruct",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.together_ai,
+                model_id="intfloat/multilingual-e5-large-instruct",
+                n_dimensions=1024,
+                max_input_tokens=512,
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # Thenlper Gte Large
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.thenlper,
+        name=EmbeddingModelName.thenlper_gte_large,
+        friendly_name="Thenlper Gte Large",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.fireworks_ai,
+                model_id="thenlper/gte-large",
+                n_dimensions=1024,
+                max_input_tokens=512,
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # Thenlper Gte Base
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.thenlper,
+        name=EmbeddingModelName.thenlper_gte_base,
+        friendly_name="Thenlper Gte Base",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.fireworks_ai,
+                model_id="thenlper/gte-base",
+                n_dimensions=768,
+                max_input_tokens=512,
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # Where Is AI UAE Large V1
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.where_is_ai,
+        name=EmbeddingModelName.where_is_ai_uae_large_v1,
+        friendly_name="Where Is AI UAE Large V1",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.fireworks_ai,
+                model_id="WhereIsAI/UAE-Large-V1",
+                n_dimensions=1024,
+                max_input_tokens=512,
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # Mixedbread AI Mxbai Embed Large V1
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.mixedbread,
+        name=EmbeddingModelName.mixedbread_ai_mxbai_embed_large_v1,
+        friendly_name="Mixedbread AI Mxbai Embed Large V1",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.fireworks_ai,
+                model_id="mixedbread-ai/mxbai-embed-large-v1",
+                n_dimensions=1024,
+                max_input_tokens=512,
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # Netease Youdao Bce Embedding Base V1
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.netease,
+        name=EmbeddingModelName.netease_youdao_bce_embedding_base_v1,
+        friendly_name="Netease Youdao Bce Embedding Base V1",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.siliconflow_cn,
+                model_id="netease-youdao/bce-embedding-base_v1",
+                n_dimensions=768,
+                max_input_tokens=512,
+                supports_custom_dimensions=False,
+            ),
         ],
     ),
 ]

kiln-ai 0.21.0__py3-none-any.whl → 0.22.1__py3-none-any.whl

Potentially problematic release.

kiln-ai 0.21.0py3-none-any.whl → 0.22.1py3-none-any.whl