PyPI - kiln-ai - Versions diffs - 0.20.1__py3-none-any.whl → 0.22.0__py3-none-any.whl - Mend

kiln-ai 0.20.1py3-none-any.whl → 0.22.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of kiln-ai might be problematic. Click here for more details.

Files changed (133) hide show

kiln_ai/adapters/__init__.py +6 -0
kiln_ai/adapters/adapter_registry.py +43 -226
kiln_ai/adapters/chunkers/__init__.py +13 -0
kiln_ai/adapters/chunkers/base_chunker.py +42 -0
kiln_ai/adapters/chunkers/chunker_registry.py +16 -0
kiln_ai/adapters/chunkers/fixed_window_chunker.py +39 -0
kiln_ai/adapters/chunkers/helpers.py +23 -0
kiln_ai/adapters/chunkers/test_base_chunker.py +63 -0
kiln_ai/adapters/chunkers/test_chunker_registry.py +28 -0
kiln_ai/adapters/chunkers/test_fixed_window_chunker.py +346 -0
kiln_ai/adapters/chunkers/test_helpers.py +75 -0
kiln_ai/adapters/data_gen/test_data_gen_task.py +9 -3
kiln_ai/adapters/embedding/__init__.py +0 -0
kiln_ai/adapters/embedding/base_embedding_adapter.py +44 -0
kiln_ai/adapters/embedding/embedding_registry.py +32 -0
kiln_ai/adapters/embedding/litellm_embedding_adapter.py +199 -0
kiln_ai/adapters/embedding/test_base_embedding_adapter.py +283 -0
kiln_ai/adapters/embedding/test_embedding_registry.py +166 -0
kiln_ai/adapters/embedding/test_litellm_embedding_adapter.py +1149 -0
kiln_ai/adapters/eval/eval_runner.py +6 -2
kiln_ai/adapters/eval/test_base_eval.py +1 -3
kiln_ai/adapters/eval/test_g_eval.py +1 -1
kiln_ai/adapters/extractors/__init__.py +18 -0
kiln_ai/adapters/extractors/base_extractor.py +72 -0
kiln_ai/adapters/extractors/encoding.py +20 -0
kiln_ai/adapters/extractors/extractor_registry.py +44 -0
kiln_ai/adapters/extractors/extractor_runner.py +112 -0
kiln_ai/adapters/extractors/litellm_extractor.py +406 -0
kiln_ai/adapters/extractors/test_base_extractor.py +244 -0
kiln_ai/adapters/extractors/test_encoding.py +54 -0
kiln_ai/adapters/extractors/test_extractor_registry.py +181 -0
kiln_ai/adapters/extractors/test_extractor_runner.py +181 -0
kiln_ai/adapters/extractors/test_litellm_extractor.py +1290 -0
kiln_ai/adapters/fine_tune/test_dataset_formatter.py +2 -2
kiln_ai/adapters/fine_tune/test_fireworks_tinetune.py +2 -6
kiln_ai/adapters/fine_tune/test_together_finetune.py +2 -6
kiln_ai/adapters/ml_embedding_model_list.py +494 -0
kiln_ai/adapters/ml_model_list.py +876 -18
kiln_ai/adapters/model_adapters/litellm_adapter.py +40 -75
kiln_ai/adapters/model_adapters/test_litellm_adapter.py +79 -1
kiln_ai/adapters/model_adapters/test_litellm_adapter_tools.py +119 -5
kiln_ai/adapters/model_adapters/test_saving_adapter_results.py +9 -3
kiln_ai/adapters/model_adapters/test_structured_output.py +9 -10
kiln_ai/adapters/ollama_tools.py +69 -12
kiln_ai/adapters/provider_tools.py +190 -46
kiln_ai/adapters/rag/deduplication.py +49 -0
kiln_ai/adapters/rag/progress.py +252 -0
kiln_ai/adapters/rag/rag_runners.py +844 -0
kiln_ai/adapters/rag/test_deduplication.py +195 -0
kiln_ai/adapters/rag/test_progress.py +785 -0
kiln_ai/adapters/rag/test_rag_runners.py +2376 -0
kiln_ai/adapters/remote_config.py +80 -8
kiln_ai/adapters/test_adapter_registry.py +579 -86
kiln_ai/adapters/test_ml_embedding_model_list.py +239 -0
kiln_ai/adapters/test_ml_model_list.py +202 -0
kiln_ai/adapters/test_ollama_tools.py +340 -1
kiln_ai/adapters/test_prompt_builders.py +1 -1
kiln_ai/adapters/test_provider_tools.py +199 -8
kiln_ai/adapters/test_remote_config.py +551 -56
kiln_ai/adapters/vector_store/__init__.py +1 -0
kiln_ai/adapters/vector_store/base_vector_store_adapter.py +83 -0
kiln_ai/adapters/vector_store/lancedb_adapter.py +389 -0
kiln_ai/adapters/vector_store/test_base_vector_store.py +160 -0
kiln_ai/adapters/vector_store/test_lancedb_adapter.py +1841 -0
kiln_ai/adapters/vector_store/test_vector_store_registry.py +199 -0
kiln_ai/adapters/vector_store/vector_store_registry.py +33 -0
kiln_ai/datamodel/__init__.py +16 -13
kiln_ai/datamodel/basemodel.py +201 -4
kiln_ai/datamodel/chunk.py +158 -0
kiln_ai/datamodel/datamodel_enums.py +27 -0
kiln_ai/datamodel/embedding.py +64 -0
kiln_ai/datamodel/external_tool_server.py +206 -54
kiln_ai/datamodel/extraction.py +317 -0
kiln_ai/datamodel/project.py +33 -1
kiln_ai/datamodel/rag.py +79 -0
kiln_ai/datamodel/task.py +5 -0
kiln_ai/datamodel/task_output.py +41 -11
kiln_ai/datamodel/test_attachment.py +649 -0
kiln_ai/datamodel/test_basemodel.py +270 -14
kiln_ai/datamodel/test_chunk_models.py +317 -0
kiln_ai/datamodel/test_dataset_split.py +1 -1
kiln_ai/datamodel/test_datasource.py +50 -0
kiln_ai/datamodel/test_embedding_models.py +448 -0
kiln_ai/datamodel/test_eval_model.py +6 -6
kiln_ai/datamodel/test_external_tool_server.py +534 -152
kiln_ai/datamodel/test_extraction_chunk.py +206 -0
kiln_ai/datamodel/test_extraction_model.py +501 -0
kiln_ai/datamodel/test_rag.py +641 -0
kiln_ai/datamodel/test_task.py +35 -1
kiln_ai/datamodel/test_tool_id.py +187 -1
kiln_ai/datamodel/test_vector_store.py +320 -0
kiln_ai/datamodel/tool_id.py +58 -0
kiln_ai/datamodel/vector_store.py +141 -0
kiln_ai/tools/base_tool.py +12 -3
kiln_ai/tools/built_in_tools/math_tools.py +12 -4
kiln_ai/tools/kiln_task_tool.py +158 -0
kiln_ai/tools/mcp_server_tool.py +2 -2
kiln_ai/tools/mcp_session_manager.py +51 -22
kiln_ai/tools/rag_tools.py +164 -0
kiln_ai/tools/test_kiln_task_tool.py +527 -0
kiln_ai/tools/test_mcp_server_tool.py +4 -15
kiln_ai/tools/test_mcp_session_manager.py +187 -227
kiln_ai/tools/test_rag_tools.py +929 -0
kiln_ai/tools/test_tool_registry.py +290 -7
kiln_ai/tools/tool_registry.py +69 -16
kiln_ai/utils/__init__.py +3 -0
kiln_ai/utils/async_job_runner.py +62 -17
kiln_ai/utils/config.py +2 -2
kiln_ai/utils/env.py +15 -0
kiln_ai/utils/filesystem.py +14 -0
kiln_ai/utils/filesystem_cache.py +60 -0
kiln_ai/utils/litellm.py +94 -0
kiln_ai/utils/lock.py +100 -0
kiln_ai/utils/mime_type.py +38 -0
kiln_ai/utils/open_ai_types.py +19 -2
kiln_ai/utils/pdf_utils.py +59 -0
kiln_ai/utils/test_async_job_runner.py +151 -35
kiln_ai/utils/test_env.py +142 -0
kiln_ai/utils/test_filesystem_cache.py +316 -0
kiln_ai/utils/test_litellm.py +206 -0
kiln_ai/utils/test_lock.py +185 -0
kiln_ai/utils/test_mime_type.py +66 -0
kiln_ai/utils/test_open_ai_types.py +88 -12
kiln_ai/utils/test_pdf_utils.py +86 -0
kiln_ai/utils/test_uuid.py +111 -0
kiln_ai/utils/test_validation.py +524 -0
kiln_ai/utils/uuid.py +9 -0
kiln_ai/utils/validation.py +90 -0
{kiln_ai-0.20.1.dist-info → kiln_ai-0.22.0.dist-info}/METADATA +9 -1
kiln_ai-0.22.0.dist-info/RECORD +213 -0
kiln_ai-0.20.1.dist-info/RECORD +0 -138
{kiln_ai-0.20.1.dist-info → kiln_ai-0.22.0.dist-info}/WHEEL +0 -0
{kiln_ai-0.20.1.dist-info → kiln_ai-0.22.0.dist-info}/licenses/LICENSE.txt +0 -0

kiln_ai/adapters/fine_tune/test_dataset_formatter.py CHANGED Viewed

@@ -206,7 +206,7 @@ def test_generate_chat_message_toolcall(mock_training_chat_two_step_json):
 def test_generate_chat_message_toolcall_invalid_json(mock_training_chat_two_step_json):
     mock_training_chat_two_step_json[-1].content = "invalid json"
-    with pytest.raises(ValueError, match="^Last message is not JSON"):
+    with pytest.raises(ValueError, match=r"^Last message is not JSON"):
         generate_chat_message_toolcall(mock_training_chat_two_step_json)
@@ -536,7 +536,7 @@ def test_generate_huggingface_chat_template_toolcall_invalid_json(
 ):
     mock_training_chat_two_step_json[-1].content = "invalid json"
-    with pytest.raises(ValueError, match="^Last message is not JSON"):
+    with pytest.raises(ValueError, match=r"^Last message is not JSON"):
         generate_huggingface_chat_template_toolcall(mock_training_chat_two_step_json)

kiln_ai/adapters/fine_tune/test_fireworks_tinetune.py CHANGED Viewed

@@ -14,11 +14,7 @@ from kiln_ai.adapters.fine_tune.fireworks_finetune import (
     DeployStatus,
     FireworksFinetune,
 )
-from kiln_ai.datamodel import (
-    DatasetSplit,
-    StructuredOutputMode,
-    Task,
-)
+from kiln_ai.datamodel import DatasetSplit, StructuredOutputMode, Task
 from kiln_ai.datamodel import Finetune as FinetuneModel
 from kiln_ai.datamodel.datamodel_enums import ChatStrategy
 from kiln_ai.datamodel.dataset_split import Train80Test20SplitDefinition
@@ -1053,7 +1049,7 @@ async def test_fetch_all_deployments_invalid_json(fireworks_finetune, mock_api_k
         with pytest.raises(
             ValueError,
-            match="Invalid response from Fireworks. Expected list of deployments in 'deployments' key",
+            match=r"Invalid response from Fireworks. Expected list of deployments in 'deployments' key",
         ):
             await fireworks_finetune._fetch_all_deployments()

kiln_ai/adapters/fine_tune/test_together_finetune.py CHANGED Viewed

@@ -17,11 +17,7 @@ from kiln_ai.adapters.fine_tune.together_finetune import (
     _pending_statuses,
     _running_statuses,
 )
-from kiln_ai.datamodel import (
-    DatasetSplit,
-    StructuredOutputMode,
-    Task,
-)
+from kiln_ai.datamodel import DatasetSplit, StructuredOutputMode, Task
 from kiln_ai.datamodel import Finetune as FinetuneModel
 from kiln_ai.datamodel.dataset_split import Train80Test20SplitDefinition
 from kiln_ai.utils.config import Config
@@ -105,7 +101,7 @@ def mock_api_key():
 def test_init_missing_api_key(finetune):
     with patch.object(Config, "shared") as mock_config:
         mock_config.return_value.together_api_key = None
-        with pytest.raises(ValueError, match="Together.ai API key not set"):
+        with pytest.raises(ValueError, match=r"Together.ai API key not set"):
             TogetherFinetune(datamodel=finetune)

kiln_ai/adapters/ml_embedding_model_list.py ADDED Viewed

@@ -0,0 +1,494 @@
+from enum import Enum
+from typing import List
+from pydantic import BaseModel, Field
+from kiln_ai.datamodel.datamodel_enums import ModelProviderName
+class KilnEmbeddingModelFamily(str, Enum):
+    """
+    Enumeration of supported embedding model families.
+    """
+    # for bespoke proprietary models, the family tends to be the same
+    # as provider name, but it does not have to be
+    openai = "openai"
+    gemini = "gemini"
+    gemma = "gemma"
+    nomic = "nomic"
+    qwen = "qwen"
+    baai = "baai"
+    modernbert = "modernbert"
+    intfloat = "intfloat"
+    together = "together"
+    thenlper = "thenlper"
+    where_is_ai = "where_is_ai"
+    mixedbread = "mixedbread"
+    netease = "netease"
+class EmbeddingModelName(str, Enum):
+    """
+    Enumeration of specific model versions supported by the system.
+    """
+    # Embedding model names are often generic (e.g., "text-embedding"),
+    # so we prefix them with the provider name (e.g., "openai_") to ensure
+    # uniqueness across providers now and in the future
+    openai_text_embedding_3_small = "openai_text_embedding_3_small"
+    openai_text_embedding_3_large = "openai_text_embedding_3_large"
+    gemini_text_embedding_004 = "gemini_text_embedding_004"
+    gemini_embedding_001 = "gemini_embedding_001"
+    embedding_gemma_300m = "embedding_gemma_300m"
+    nomic_text_embedding_v1_5 = "nomic_text_embedding_v1_5"
+    qwen_3_embedding_0p6b = "qwen_3_embedding_0p6b"
+    qwen_3_embedding_4b = "qwen_3_embedding_4b"
+    qwen_3_embedding_8b = "qwen_3_embedding_8b"
+    baai_bge_small_1_5 = "baai_bge_small_1_5"
+    baai_bge_base_1_5 = "baai_bge_base_1_5"
+    baai_bge_large_1_5 = "baai_bge_large_1_5"
+    m2_bert_retrieval_32k = "m2_bert_retrieval_32k"
+    gte_modernbert_base = "gte_modernbert_base"
+    multilingual_e5_large_instruct = "multilingual_e5_large_instruct"
+    thenlper_gte_large = "thenlper_gte_large"
+    thenlper_gte_base = "thenlper_gte_base"
+    where_is_ai_uae_large_v1 = "where_is_ai_uae_large_v1"
+    mixedbread_ai_mxbai_embed_large_v1 = "mixedbread_ai_mxbai_embed_large_v1"
+    netease_youdao_bce_embedding_base_v1 = "netease_youdao_bce_embedding_base_v1"
+class KilnEmbeddingModelProvider(BaseModel):
+    name: ModelProviderName
+    model_id: str = Field(
+        description="The model ID for the embedding model. This is the ID used to identify the model in the provider's API.",
+    )
+    max_input_tokens: int | None = Field(
+        default=None,
+        description="The maximum number of tokens that can be input to the model.",
+    )
+    n_dimensions: int = Field(
+        description="The number of dimensions in the output embedding.",
+    )
+    supports_custom_dimensions: bool = Field(
+        default=False,
+        description="Whether the model supports setting a custom output dimension. If true, the user can set the output dimension in the UI.",
+    )
+    suggested_for_chunk_embedding: bool = Field(
+        default=False,
+        description="Whether the model is particularly good for chunk embedding.",
+    )
+    ollama_model_aliases: List[str] | None = None
+class KilnEmbeddingModel(BaseModel):
+    """
+    Configuration for a specific embedding model.
+    """
+    family: str
+    name: str
+    friendly_name: str
+    providers: List[KilnEmbeddingModelProvider]
+built_in_embedding_models: List[KilnEmbeddingModel] = [
+    # OpenAI Text Embedding 3 Large
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.openai,
+        name=EmbeddingModelName.openai_text_embedding_3_large,
+        friendly_name="Text Embedding 3 Large",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.openai,
+                model_id="text-embedding-3-large",
+                n_dimensions=3072,
+                max_input_tokens=8192,
+                supports_custom_dimensions=True,
+                suggested_for_chunk_embedding=True,
+            ),
+        ],
+    ),
+    # OpenAI Text Embedding 3 Small
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.openai,
+        name=EmbeddingModelName.openai_text_embedding_3_small,
+        friendly_name="Text Embedding 3 Small",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.openai,
+                model_id="text-embedding-3-small",
+                n_dimensions=1536,
+                max_input_tokens=8192,
+                supports_custom_dimensions=True,
+            ),
+        ],
+    ),
+    # Gemini Embedding 001
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.gemini,
+        name=EmbeddingModelName.gemini_embedding_001,
+        friendly_name="Gemini Embedding 001",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.gemini_api,
+                model_id="gemini-embedding-001",
+                n_dimensions=3072,
+                max_input_tokens=2048,
+                supports_custom_dimensions=True,
+                suggested_for_chunk_embedding=True,
+            ),
+        ],
+    ),
+    # Gemini Text Embedding 004
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.gemini,
+        name=EmbeddingModelName.gemini_text_embedding_004,
+        friendly_name="Text Embedding 004",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.gemini_api,
+                model_id="text-embedding-004",
+                n_dimensions=768,
+                max_input_tokens=2048,
+            ),
+        ],
+    ),
+    # Embedding Gemma 300m
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.gemma,
+        name=EmbeddingModelName.embedding_gemma_300m,
+        friendly_name="Embedding Gemma 300m",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.ollama,
+                model_id="embeddinggemma:300m",
+                n_dimensions=768,
+                max_input_tokens=2048,
+                # the model itself does support custom dimensions, but not working
+                # because litellm rejects the param:
+                # https://github.com/BerriAI/litellm/issues/11940
+                supports_custom_dimensions=False,
+                ollama_model_aliases=["embeddinggemma"],
+            ),
+        ],
+    ),
+    # Nomic Embed Text v1.5
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.nomic,
+        name=EmbeddingModelName.nomic_text_embedding_v1_5,
+        friendly_name="Nomic Embed Text v1.5",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.ollama,
+                model_id="nomic-embed-text:v1.5",
+                n_dimensions=768,
+                max_input_tokens=8192,
+                # the model itself does support custom dimensions, but not working
+                # because litellm rejects the param:
+                # https://github.com/BerriAI/litellm/issues/11940
+                supports_custom_dimensions=False,
+                ollama_model_aliases=["nomic-embed-text"],
+            ),
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.fireworks_ai,
+                model_id="nomic-ai/nomic-embed-text-v1.5",
+                n_dimensions=768,
+                max_input_tokens=8192,
+                supports_custom_dimensions=True,
+            ),
+        ],
+    ),
+    # Qwen3 Embedding 8B
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.qwen,
+        name=EmbeddingModelName.qwen_3_embedding_8b,
+        friendly_name="Qwen 3 Embedding 8B",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.ollama,
+                model_id="qwen3-embedding:8b",
+                n_dimensions=4096,
+                max_input_tokens=32_000,
+                # the model itself does support custom dimensions, but not working
+                # because litellm rejects the param:
+                # https://github.com/BerriAI/litellm/issues/11940
+                supports_custom_dimensions=False,
+                ollama_model_aliases=[
+                    # 8b is default
+                    "qwen3-embedding",
+                ],
+            ),
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.fireworks_ai,
+                model_id="accounts/fireworks/models/qwen3-embedding-8b",
+                n_dimensions=4096,
+                max_input_tokens=32_000,
+                # the model itself does support custom dimensions, but not working
+                supports_custom_dimensions=True,
+            ),
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.siliconflow_cn,
+                model_id="Qwen/Qwen3-Embedding-8B",
+                n_dimensions=4096,
+                max_input_tokens=32_000,
+                # the model itself does support custom dimensions, but not working
+                # because litellm rejects the param:
+                # https://github.com/BerriAI/litellm/issues/11940
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # Qwen3 Embedding 4B
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.qwen,
+        name=EmbeddingModelName.qwen_3_embedding_4b,
+        friendly_name="Qwen 3 Embedding 4B",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.ollama,
+                model_id="qwen3-embedding:4b",
+                n_dimensions=2560,
+                max_input_tokens=32_000,
+                # the model itself does support custom dimensions, but not working
+                # because litellm rejects the param:
+                # https://github.com/BerriAI/litellm/issues/11940
+                supports_custom_dimensions=False,
+            ),
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.siliconflow_cn,
+                model_id="Qwen/Qwen3-Embedding-4B",
+                n_dimensions=2560,
+                max_input_tokens=32_000,
+                # the model itself does support custom dimensions, but not working
+                # because litellm rejects the param:
+                # https://github.com/BerriAI/litellm/issues/11940
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # Qwen3 Embedding 0.6B
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.qwen,
+        name=EmbeddingModelName.qwen_3_embedding_0p6b,
+        friendly_name="Qwen 3 Embedding 0.6B",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.ollama,
+                model_id="qwen3-embedding:0.6b",
+                n_dimensions=1024,
+                max_input_tokens=32_000,
+                # the model itself does support custom dimensions, but not working
+                # because litellm rejects the param:
+                # https://github.com/BerriAI/litellm/issues/11940
+                supports_custom_dimensions=False,
+            ),
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.siliconflow_cn,
+                model_id="Qwen/Qwen3-Embedding-0.6B",
+                n_dimensions=1024,
+                max_input_tokens=32_000,
+                # the model itself does support custom dimensions, but not working
+                # because litellm rejects the param:
+                # https://github.com/BerriAI/litellm/issues/11940
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # BAAI-Bge-Large-1.5
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.baai,
+        name=EmbeddingModelName.baai_bge_large_1_5,
+        friendly_name="BAAI Bge Large 1.5",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.together_ai,
+                model_id="BAAI/bge-large-en-v1.5",
+                n_dimensions=1024,
+                max_input_tokens=512,
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # BAAI-Bge-Base-1.5
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.baai,
+        name=EmbeddingModelName.baai_bge_base_1_5,
+        friendly_name="BAAI Bge Base 1.5",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.fireworks_ai,
+                model_id="BAAI/bge-base-en-v1.5",
+                n_dimensions=768,
+                max_input_tokens=512,
+                supports_custom_dimensions=False,
+            ),
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.together_ai,
+                model_id="BAAI/bge-base-en-v1.5",
+                n_dimensions=768,
+                max_input_tokens=512,
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # BAAI-Bge-Small-1.5
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.baai,
+        name=EmbeddingModelName.baai_bge_small_1_5,
+        friendly_name="BAAI Bge Small 1.5",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.fireworks_ai,
+                model_id="BAAI/bge-small-en-v1.5",
+                n_dimensions=384,
+                max_input_tokens=512,
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # M2-BERT-Retrieval-32k
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.together,
+        name=EmbeddingModelName.m2_bert_retrieval_32k,
+        friendly_name="M2 BERT Retrieval 32k",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.together_ai,
+                model_id="togethercomputer/m2-bert-80M-32k-retrieval",
+                n_dimensions=768,
+                max_input_tokens=32_768,
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # Gte Modernbert Base
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.modernbert,
+        name=EmbeddingModelName.gte_modernbert_base,
+        friendly_name="Gte Modernbert Base",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.together_ai,
+                model_id="Alibaba-NLP/gte-modernbert-base",
+                n_dimensions=768,
+                max_input_tokens=8192,
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # Multilingual E5 Large Instruct
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.intfloat,
+        name=EmbeddingModelName.multilingual_e5_large_instruct,
+        friendly_name="Multilingual E5 Large Instruct",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.together_ai,
+                model_id="intfloat/multilingual-e5-large-instruct",
+                n_dimensions=1024,
+                max_input_tokens=512,
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # Thenlper Gte Large
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.thenlper,
+        name=EmbeddingModelName.thenlper_gte_large,
+        friendly_name="Thenlper Gte Large",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.fireworks_ai,
+                model_id="thenlper/gte-large",
+                n_dimensions=1024,
+                max_input_tokens=512,
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # Thenlper Gte Base
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.thenlper,
+        name=EmbeddingModelName.thenlper_gte_base,
+        friendly_name="Thenlper Gte Base",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.fireworks_ai,
+                model_id="thenlper/gte-base",
+                n_dimensions=768,
+                max_input_tokens=512,
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # Where Is AI UAE Large V1
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.where_is_ai,
+        name=EmbeddingModelName.where_is_ai_uae_large_v1,
+        friendly_name="Where Is AI UAE Large V1",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.fireworks_ai,
+                model_id="WhereIsAI/UAE-Large-V1",
+                n_dimensions=1024,
+                max_input_tokens=512,
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # Mixedbread AI Mxbai Embed Large V1
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.mixedbread,
+        name=EmbeddingModelName.mixedbread_ai_mxbai_embed_large_v1,
+        friendly_name="Mixedbread AI Mxbai Embed Large V1",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.fireworks_ai,
+                model_id="mixedbread-ai/mxbai-embed-large-v1",
+                n_dimensions=1024,
+                max_input_tokens=512,
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+    # Netease Youdao Bce Embedding Base V1
+    KilnEmbeddingModel(
+        family=KilnEmbeddingModelFamily.netease,
+        name=EmbeddingModelName.netease_youdao_bce_embedding_base_v1,
+        friendly_name="Netease Youdao Bce Embedding Base V1",
+        providers=[
+            KilnEmbeddingModelProvider(
+                name=ModelProviderName.siliconflow_cn,
+                model_id="netease-youdao/bce-embedding-base_v1",
+                n_dimensions=768,
+                max_input_tokens=512,
+                supports_custom_dimensions=False,
+            ),
+        ],
+    ),
+]
+def get_model_by_name(name: EmbeddingModelName) -> KilnEmbeddingModel:
+    for model in built_in_embedding_models:
+        if model.name == name:
+            return model
+    raise ValueError(f"Embedding model {name} not found in the list of built-in models")
+def built_in_embedding_models_from_provider(
+    provider_name: ModelProviderName, model_name: str
+) -> KilnEmbeddingModelProvider | None:
+    for model in built_in_embedding_models:
+        if model.name == model_name:
+            for p in model.providers:
+                if p.name == provider_name:
+                    return p
+    return None

kiln-ai 0.20.1__py3-none-any.whl → 0.22.0__py3-none-any.whl

Potentially problematic release.

kiln-ai 0.20.1py3-none-any.whl → 0.22.0py3-none-any.whl