PyPI - ebm4subjects - Versions diffs - 0.5.2__tar.gz → 0.5.3__tar.gz - Mend

ebm4subjects 0.5.2tar.gz → 0.5.3tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (25) hide show

{ebm4subjects-0.5.2 → ebm4subjects-0.5.3}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: ebm4subjects
-Version: 0.5.2
+Version: 0.5.3
 Summary: Embedding Based Matching for Automated Subject Indexing
 Author: Deutsche Nationalbibliothek
 Maintainer-email: Clemens Rietdorf <c.rietdorf@dnb.de>, Maximilian Kähler <m.kaehler@dnb.de>

{ebm4subjects-0.5.2 → ebm4subjects-0.5.3}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name = "ebm4subjects"
-version = "0.5.2"
+version = "0.5.3"
 description = "Embedding Based Matching for Automated Subject Indexing"
 authors = [
     {name = "Deutsche Nationalbibliothek"},

{ebm4subjects-0.5.2 → ebm4subjects-0.5.3}/src/ebm4subjects/ebm_model.py RENAMED Viewed

@@ -15,7 +15,7 @@ from ebm4subjects.duckdb_client import Duckdb_client
 from ebm4subjects.ebm_logging import EbmLogger, NullLogger, XGBLogging
 from ebm4subjects.embedding_generator import (
     EmbeddingGeneratorHuggingFaceTEI,
-    EmbeddingGeneratorInternal,
+    EmbeddingGeneratorOfflineInference,
     EmbeddingGeneratorMock,
 )
@@ -43,7 +43,7 @@ class EbmModel:
         use_altLabels: bool = True,
         hnsw_index_params: dict | str | None = None,
         embedding_model_name: str | None = None,
-        embedding_model_type: str = "internal",
+        embedding_model_type: str = "offline-inference",
         embedding_model_args: dict | str | None = None,
         encode_args_vocab: dict | str | None = None,
         encode_args_documents: dict | str | None = None,
@@ -179,9 +179,9 @@ class EbmModel:
             None
         """
         if self.generator is None:
-            if self.embedding_model_type == "internal":
-                self.logger.info("initializing internal embedding generator")
-                self.generator = EmbeddingGeneratorInternal(
+            if self.embedding_model_type == "offline-inference":
+                self.logger.info("initializing offline-inference embedding generator")
+                self.generator = EmbeddingGeneratorOfflineInference(
                     model_name=self.embedding_model_name,
                     embedding_dimensions=self.embedding_dimensions,
                     **self.embedding_model_args,
@@ -404,7 +404,7 @@ class EbmModel:
             .join(
                 other=gold_standard.with_columns(pl.lit(True).alias("gold")),
                 on=["doc_id", "label_id"],
-                how="outer",
+                how="full",
             )
             # Fill dataframe so that all not suggested labels which are not part of
             # the gold standard and all gold standard labels which where not

{ebm4subjects-0.5.2 → ebm4subjects-0.5.3}/src/ebm4subjects/embedding_generator.py RENAMED Viewed

@@ -102,9 +102,10 @@ class EmbeddingGeneratorHuggingFaceTEI(EmbeddingGeneratorAPI):
         return np.array(embeddings)
-class EmbeddingGeneratorInternal(EmbeddingGenerator):
+class EmbeddingGeneratorOfflineInference(EmbeddingGenerator):
     """
-    A class for generating embeddings using a given SentenceTransformer model.
+    A class for generating embeddings using a given SentenceTransformer model
+    loaded offline with SentenceTransformer.
     Args:
         model_name (str): The name of the SentenceTransformer model.
@@ -118,7 +119,7 @@ class EmbeddingGeneratorInternal(EmbeddingGenerator):
     def __init__(self, model_name: str, embedding_dimensions: int, **kwargs) -> None:
         """
-        Initializes the internal EmbeddingGenerator.
+        Initializes the EmbeddingGenerator in offline inference mode.
         Sets the model name, embedding dimensions, and creates a
         SentenceTransformer model instance.