PyPI - streamlit-octostar-utils - Versions diffs - 2.11a5__py3-none-any.whl → 2.11a6__py3-none-any.whl - Mend

streamlit-octostar-utils 2.11a5py3-none-any.whl → 2.11a6py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

streamlit_octostar_utils/nlp/language.py CHANGED Viewed

@@ -1,20 +1,39 @@
 import re
 import py3langid as langid
-import iso639 as languages
+from iso639 import Lang
+FLAIR_MODELS = {
+    "en": "flair/ner-english-large",
+    "es": "flair/ner-spanish-large",
+    "de": "flair/ner-german-large",
+    "nl": "flair/ner-dutch-large",
+    "multi": "flair/ner-multi",                     # English, German, French, Spanish
+    "multi-fast": "flair/ner-multi-fast",           # English, German, Dutch, Spanish
+}
+SPACY_MODELS = {
+    "en": "en_core_web_sm",
+    "es": "es_core_news_sm",
+    "fr": "fr_core_news_sm",
+    "de": "de_core_news_sm",
+    "it": "it_core_news_sm"
+}
 def alpha2_to_language(alpha2: str) -> str:
     if not alpha2:
-        return None
-    code = alpha2.strip().lower()
-    return languages.to_name(code)
+        raise ValueError("Language code must be a non-empty string.")
+    return Lang(alpha2).name
 def language_to_alpha2(language_name: str) -> str:
     if not language_name:
-        return None
-    name = language_name.strip().lower()
-    data = languages.find(name)
-    return data["iso639_1"]
+        raise ValueError("Language name must be a non-empty string.")
+    name = re.sub(r'\b\w+', lambda m: m.group(0).capitalize(), name)
+    return Lang(name).pt1
 def detect_language(text, min_confidence=None):
     detector = langid.langid.LanguageIdentifier.from_pickled_model(
@@ -23,6 +42,23 @@ def detect_language(text, min_confidence=None):
     detected_lang, confidence = detector.classify(text)
     if min_confidence and confidence < min_confidence:
         return None, confidence
-    detected_lang = re.sub("[^A-Za-z]", "", detected_lang).lower()
-    detected_lang = languages.to_name(detected_lang).lower()
+    detected_lang = alpha2_to_language(detected_lang)
     return detected_lang, confidence
+def load_language_model(language, type):
+    from flair.models import SequenceTagger
+    from spacy_download import load_spacy
+    model = None
+    match type:
+        case "spacy":
+            model_name = SPACY_MODELS.get(language_to_alpha2(language), SPACY_MODELS["en"])
+            model = load_spacy(model_name)
+        case "flair":
+            model_name = FLAIR_MODELS.get(language, "flair/ner-multi")
+            model = SequenceTagger.load(model_name)
+    return model

streamlit_octostar_utils/nlp/ner.py CHANGED Viewed

@@ -20,7 +20,7 @@ from sumy.summarizers.lsa import LsaSummarizer
 from sumy.summarizers.luhn import LuhnSummarizer
 from sumy.utils import get_stop_words
-from .language import alpha2_to_language, language_to_alpha2
+from .language import alpha2_to_language
 BASE_ALLOWED_LABELS = ["PERSON", "ORG", "LOC", "NORP", "GPE", "PRODUCT", "DATE", "PHONE", "IP_ADDRESS", "EMAIL", "URL",
                        "CRYPTO", "IBAN", "CREDIT_CARD", "US_SSN", "US_DRIVER_LICENSE", "US_PASSPORT", "MEDICAL_LICENSE"]
@@ -67,38 +67,6 @@ BASE_TO_RECOGNIZER_EXPANSIONS = {
 BASE_TO_ONTONOTES_LABELMAP = {"PER": "PERSON"}
-FLAIR_MODELS = {
-    "en": "flair/ner-english-large",
-    "es": "flair/ner-spanish-large",
-    "de": "flair/ner-german-large",
-    "nl": "flair/ner-dutch-large",
-    "multi": "flair/ner-multi",                     # English, German, French, Spanish
-    "multi-fast": "flair/ner-multi-fast",           # English, German, Dutch, Spanish
-}
-SPACY_MODELS = {
-    "en": "en_core_web_sm",
-    "es": "es_core_news_sm",
-    "fr": "fr_core_news_sm",
-    "de": "de_core_news_sm",
-    "it": "it_core_news_sm"
-}
-def load_language_model(language, type):
-    from flair.models import SequenceTagger
-    model = None
-    match type:
-        case "spacy":
-            model = SPACY_MODELS.get(language_to_alpha2(language), SPACY_MODELS["en"])
-        case "flair":
-            model_name = FLAIR_MODELS.get(language, "flair/ner-multi")
-            model = SequenceTagger.load(model_name)
-    return model
 class FlairRecognizer(EntityRecognizer):
     ENTITIES = [
@@ -430,7 +398,7 @@ def analyze_dataframe_optimized(df: pd.DataFrame, analyzer: AnalyzerEngine, lang
 def compute_ner_presidio(
-        text,
+        text_or_df,
         language,
         analyzer,
         entities=None,
@@ -441,15 +409,15 @@ def compute_ner_presidio(
         batch_size=32,
         n_process=4
 ):
-    if isinstance(text, pd.DataFrame):
-        if len(text) >= 100:
-            return analyze_dataframe_optimized(text, analyzer, language, entities, score_threshold)
+    if isinstance(text_or_df, pd.DataFrame):
+        if len(text_or_df) >= 100:
+            return analyze_dataframe_optimized(text_or_df, analyzer, language, entities, score_threshold)
         else:
             texts = []
-            for col in text.columns:
-                for idx, value in text[col].dropna().items():
+            for col in text_or_df.columns:
+                for idx, value in text_or_df[col].dropna().items():
                     text_value = str(value).strip()
                     if text_value:
@@ -457,7 +425,8 @@ def compute_ner_presidio(
             text = "\n".join(texts)
-    elif isinstance(text, list):
+    elif isinstance(text_or_df, list):
+        text = text_or_df
         batch_analyzer = BatchAnalyzerEngine(analyzer_engine=analyzer)
         results_generator = batch_analyzer.analyze_iterator(
@@ -566,7 +535,7 @@ def get_extractive_summary(text, language, max_chars, fast=False, with_scores=Fa
 def ner_pipe(
-        text,
+        text_or_df,
         language,
         model,
         engine_type="spacy",
@@ -589,9 +558,9 @@ def ner_pipe(
         model=model,
     )
-    if isinstance(text, pd.DataFrame):
+    if isinstance(text_or_df, pd.DataFrame):
         ner = compute_ner_presidio(
-            text,
+            text_or_df,
             language,
             analyzer,
             entities,
@@ -602,6 +571,8 @@ def ner_pipe(
             n_process=n_process
         )
     else:
+        text = text_or_df
         if compression_ratio == "auto":
             compression_ratio = max(1.0, len(text) / 15000) if fast else 1.0
@@ -640,8 +611,8 @@ def get_ner_handler(
     except LookupError:
         language = "en"
-    return lambda text, compression_ratio="auto", with_scores=False, with_comentions=True, with_context=True: ner_pipe(
-        text,
+    return lambda text_or_df, compression_ratio="auto", with_scores=False, with_comentions=True, with_context=True: ner_pipe(
+        text_or_df,
         language,
         model,
         engine_type,

{streamlit_octostar_utils-2.11a5.dist-info → streamlit_octostar_utils-2.11a6.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: streamlit-octostar-utils
-Version: 2.11a5
+Version: 2.11a6
 Summary:
 License: MIT
 License-File: LICENSE

{streamlit_octostar_utils-2.11a5.dist-info → streamlit_octostar_utils-2.11a6.dist-info}/RECORD RENAMED Viewed

@@ -20,8 +20,8 @@ streamlit_octostar_utils/core/threading/__init__.py,sha256=AbpHGcgLb-kRsJGnwFEkt
 streamlit_octostar_utils/core/threading/key_queue.py,sha256=7CJpj0gvZMQd8eC5wKQi3Ak5SQQ4zQ1OPTs_OP_kD20,2255
 streamlit_octostar_utils/core/timestamp.py,sha256=a3s4xfm1nctLzYsHOJxqoWIDTdbNY_yN1OByl8ahLc8,383
 streamlit_octostar_utils/nlp/__init__.py,sha256=BtlYDZK_xaEbc7Ju_7MznXbCVPZcdLn26xwR9qf_UhM,336
-streamlit_octostar_utils/nlp/language.py,sha256=l48rBoLLBpTZz40N2KWNSpAWc8smcWMtiiDXREhmLtE,926
-streamlit_octostar_utils/nlp/ner.py,sha256=LwnGbQHoT2mitroc0WjM2lVjtSUW7OUhqNmLsLMpNYQ,21196
+streamlit_octostar_utils/nlp/language.py,sha256=zmzGVd_RcJ3O5DHLOTjntZgnxQ5vKhxWu24_ihC1y8w,1929
+streamlit_octostar_utils/nlp/ner.py,sha256=5swAuH7r9xZ7c48ApqZfLqidjdf6f2qxK52KLk7-9Cc,20406
 streamlit_octostar_utils/octostar/__init__.py,sha256=AbpHGcgLb-kRsJGnwFEktk7uzpZOCcBY74-YBdrKVGs,1
 streamlit_octostar_utils/octostar/client.py,sha256=NUvHe9asd65g4-hJ4CuUvUns-9dNWes1XZRJlO9eAAc,1690
 streamlit_octostar_utils/octostar/context.py,sha256=TpucK48EbeVy4vDqKd9UULEtr1JOY-_4nBs-rXZzESw,212
@@ -36,7 +36,7 @@ streamlit_octostar_utils/threading/__init__.py,sha256=AbpHGcgLb-kRsJGnwFEktk7uzp
 streamlit_octostar_utils/threading/async_task_manager.py,sha256=q7N6YZwUvIYMzkSHmsJNheNVCv93c03H6Hyg9uH8pvk,4747
 streamlit_octostar_utils/threading/session_callback_manager.py,sha256=LvZVP4g6tvKtYmI13f2j1sX_7hm61Groqp5xJine9_k,3973
 streamlit_octostar_utils/threading/session_state_hot_swapper.py,sha256=6eeCQI6A42hp4DmW2NQw2rbeR-k9N8DhfBKQdN_fbLU,811
-streamlit_octostar_utils-2.11a5.dist-info/METADATA,sha256=sa3ksvvDUHpMWd_szqcaFI_x9u7dVwc9Ctj1gcAyujg,2330
-streamlit_octostar_utils-2.11a5.dist-info/WHEEL,sha256=zp0Cn7JsFoX2ATtOhtaFYIiE2rmFAD4OcMhtUki8W3U,88
-streamlit_octostar_utils-2.11a5.dist-info/licenses/LICENSE,sha256=dkwVPyV03fPHHtERnF6RnvRXcll__tud9gWca1RcgnQ,1073
-streamlit_octostar_utils-2.11a5.dist-info/RECORD,,
+streamlit_octostar_utils-2.11a6.dist-info/METADATA,sha256=7FI-njG_MgeGy-YcXWQ_40COdjEHLnE3u3oSLRLIpNI,2330
+streamlit_octostar_utils-2.11a6.dist-info/WHEEL,sha256=zp0Cn7JsFoX2ATtOhtaFYIiE2rmFAD4OcMhtUki8W3U,88
+streamlit_octostar_utils-2.11a6.dist-info/licenses/LICENSE,sha256=dkwVPyV03fPHHtERnF6RnvRXcll__tud9gWca1RcgnQ,1073
+streamlit_octostar_utils-2.11a6.dist-info/RECORD,,

{streamlit_octostar_utils-2.11a5.dist-info → streamlit_octostar_utils-2.11a6.dist-info}/WHEEL RENAMED Viewed

File without changes

{streamlit_octostar_utils-2.11a5.dist-info → streamlit_octostar_utils-2.11a6.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

streamlit-octostar-utils 2.11a5__py3-none-any.whl → 2.11a6__py3-none-any.whl

streamlit-octostar-utils 2.11a5py3-none-any.whl → 2.11a6py3-none-any.whl