PyPI - batchalign - Versions diffs - 0.7.6a33__tar.gz → 0.7.7a2__tar.gz - Mend

batchalign 0.7.6a33tar.gz → 0.7.7a2tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (112) hide show

{batchalign-0.7.6a33/batchalign.egg-info → batchalign-0.7.7a2}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: batchalign
-Version: 0.7.6a33
+Version: 0.7.7a2
 Summary: Python Speech Language Sample Analysis
 Author: Brian MacWhinney, Houjun Liu
 Author-email: macw@cmu.edu, houjun@cmu.edu

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/formats/chat/utils.py RENAMED Viewed

@@ -108,7 +108,7 @@ def annotation_clean(content, special=False):
     cleaned_word = re.sub(r"\x15\d+_\d+\x15", '', cleaned_word)
     if not special:
         cleaned_word = re.sub(r"&~\w+", '', cleaned_word)
-    cleaned_word = cleaned_word.replace("(","").replace(")","")
+    # cleaned_word = cleaned_word.replace("(","").replace(")","")
     cleaned_word = cleaned_word.replace("[","").replace("]","")
     cleaned_word = cleaned_word.replace("<","").replace(">","")
     cleaned_word = cleaned_word.replace("“","").replace("”","")

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/analysis/eval.py RENAMED Viewed

@@ -3,6 +3,7 @@ eval.py
 Engines for transcript evaluation
 """
+import re
 from batchalign.document import *
 from batchalign.pipelines.base import *
 from batchalign.pipelines.asr.utils import *
@@ -22,11 +23,34 @@ class EvaluationEngine(BatchalignEngine):
         forms = [ j.text.lower() for i in doc.content for j in i.content if isinstance(i, Utterance)]
         gold_forms = [ j.text.lower() for i in gold.content for j in i.content if isinstance(i, Utterance)]
-        forms = [i for i in forms if i.strip() not in MOR_PUNCT+ENDING_PUNCT]
-        gold_forms = [i for i in gold_forms if i.strip() not in MOR_PUNCT+ENDING_PUNCT]
+        forms = [i.replace("-", "") for i in forms if i.strip() not in MOR_PUNCT+ENDING_PUNCT]
+        gold_forms = [i.replace("-", "") for i in gold_forms if i.strip() not in MOR_PUNCT+ENDING_PUNCT]
+        forms = [re.sub(r"\((.*)\)",r"", i) for i in forms]
+        gold_forms = [re.sub(r"\((.*)\)",r"", i) for i in gold_forms]
+        # if there are single letter frames, we combine them tofgether
+        # until the utterance is done or there isn't any left
+        forms_finished = []
+        single_sticky = ""
+        is_single = False
+        for i in forms:
+            if len(i) == 1:
+                single_sticky += i
+            else:
+                if single_sticky != "":
+                    forms_finished.append(single_sticky)
+                    single_sticky = ""
+                forms_finished.append(i)
+        if single_sticky != "":
+            forms_finished.append(single_sticky)
+            single_sticky = ""
         # dp!
-        alignment = align(forms, gold_forms, False)
+        alignment = align(forms_finished, gold_forms, False)
         # calculate each type of error
         sub = 0
@@ -39,14 +63,28 @@ class EvaluationEngine(BatchalignEngine):
         #     but if we have <extra.reference> <extra.reference> this is 2 insertions
         cleaned_alignment = []
+        # whether we had a "firstname" in reference document and hence are
+        # anticipating a payload for it (the actual name) in the next entry in the
+        # alignment
+        anticipating_payload = False
         for i in alignment:
             if isinstance(i, Extra):
-                if len(cleaned_alignment) > 0 and i.extra_type == ExtraType.REFERENCE and "name" in i.key and i.key[:4] != "name":
-                    cleaned_alignment.pop(-1)
+                if i.extra_type == ExtraType.REFERENCE and "name" in i.key and i.key[:4] != "name":
+                    if (isinstance(cleaned_alignment[-1], Extra) and
+                        cleaned_alignment[-1].extra_type ==  ExtraType.PAYLOAD and
+                        len(cleaned_alignment) > 0):
+                        cleaned_alignment.pop(-1)
+                    else:
+                        anticipating_payload = True
                     cleaned_alignment.append(Match(i.key, None, None))
                     continue
+                elif i.extra_type == ExtraType.PAYLOAD and anticipating_payload:
+                    anticipating_payload = False
+                    continue
                 if prev_error != None and prev_error != i.extra_type:
                     # this is a substitution: we have different "extra"s in
@@ -75,7 +113,7 @@ class EvaluationEngine(BatchalignEngine):
             cleaned_alignment.append(i)
         diff = []
-        for i in alignment:
+        for i in cleaned_alignment:
             if isinstance(i, Extra):
                 diff.append(f"{'+' if i.extra_type == ExtraType.REFERENCE else '-'} {i.key}")
             else:

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/morphosyntax/ud.py RENAMED Viewed

@@ -115,6 +115,7 @@ def handler(word, lang=None):
     target = target.replace('/100', '')
     target = target.replace('/r', '')
     target = target.replace('(', '')
+    target = target.replace("(","").replace(")","")
     # remove attachments
     if "|" in target:
@@ -848,7 +849,7 @@ def morphoanalyze(doc: Document, retokenize:bool, status_hook:callable = None, *
         inputs.append(line_cut)
         try:
-            sents = nlp(line_cut.strip()).sentences
+            sents = nlp(line_cut.replace("(","").replace(")","").strip()).sentences
             if len(sents) == 0:
                 continue

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/utterance/ud_utterance.py RENAMED Viewed

@@ -84,6 +84,7 @@ def parse_tree(subtree):
                      for i in stack]
 def process_ut(ut, nlp):
     # remove punct
     if (ut.content[-1].type == TokenType.PUNCT or
         ut.content[-1].text in ENDING_PUNCT):
@@ -142,7 +143,7 @@ def process_ut(ut, nlp):
         if isinstance(i, Match):
             matches.append(i)
         elif i.extra_type == ExtraType.REFERENCE:
-            new_refs.append(ReferenceTarget(key=i.key, payload=i.payload))
+            new_refs.append(ReferenceTarget(key=i.key, payload=i.payload if i.payload else -1))
     # we now sort the references based on their orignial utterance order
     matches = matches + new_refs

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/utils/utils.py RENAMED Viewed

@@ -29,6 +29,7 @@ def word_tokenize(str):
         return tmp.tokenize(str)
     except LookupError:
         nltk.download("punkt")
+        nltk.download("punkt_tab")
         return tmp.tokenize(str)
 def sent_tokenize(str):
@@ -49,6 +50,7 @@ def sent_tokenize(str):
         return ST(str)
     except LookupError:
         nltk.download("punkt")
+        nltk.download("punkt_tab")
         return ST(str)
 def detokenize(tokens):
@@ -69,6 +71,7 @@ def detokenize(tokens):
         return TreebankWordDetokenizer().detokenize(tokens)
     except LookupError:
         nltk.download("punkt")
+        nltk.download("punkt_tab")
         return TreebankWordDetokenizer().detokenize(tokens)
 def correct_timing(doc):

batchalign-0.7.7a2/batchalign/version ADDED Viewed

@@ -0,0 +1,3 @@
+0.7.7-alpha.2
+December 06, 2024
+DP logic

{batchalign-0.7.6a33 → batchalign-0.7.7a2/batchalign.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: batchalign
-Version: 0.7.6a33
+Version: 0.7.7a2
 Summary: Python Speech Language Sample Analysis
 Author: Brian MacWhinney, Houjun Liu
 Author-email: macw@cmu.edu, houjun@cmu.edu

batchalign-0.7.6a33/batchalign/version DELETED Viewed

@@ -1,3 +0,0 @@
-0.7.6-alpha.33
-November 26, 2024
-French APM (minor)

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/LICENSE RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/MANIFEST.in RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/README.md RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/__main__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/cli/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/cli/cli.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/cli/dispatch.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/constants.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/document.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/errors.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/formats/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/formats/base.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/formats/chat/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/formats/chat/file.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/formats/chat/generator.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/formats/chat/lexer.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/formats/chat/parser.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/formats/textgrid/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/formats/textgrid/file.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/formats/textgrid/generator.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/formats/textgrid/parser.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/models/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/models/resolve.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/models/speaker/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/models/speaker/config.yaml RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/models/speaker/infer.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/models/speaker/utils.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/models/training/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/models/training/run.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/models/training/utils.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/models/utils.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/models/utterance/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/models/utterance/dataset.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/models/utterance/execute.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/models/utterance/infer.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/models/utterance/prep.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/models/utterance/train.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/models/whisper/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/models/whisper/infer_asr.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/models/whisper/infer_fa.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/analysis/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/asr/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/asr/rev.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/asr/utils.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/asr/whisper.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/asr/whisperx.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/base.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/cleanup/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/cleanup/cleanup.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/cleanup/disfluencies.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/cleanup/parse_support.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/cleanup/retrace.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/cleanup/support/filled_pauses.eng RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/cleanup/support/replacements.eng RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/cleanup/support/test.test RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/dispatch.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/fa/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/fa/whisper_fa.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/morphosyntax/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/morphosyntax/coref.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/morphosyntax/en/irr.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/morphosyntax/fr/apm.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/morphosyntax/fr/apmn.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/morphosyntax/fr/case.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/morphosyntax/ja/verbforms.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/pipeline.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/speaker/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/speaker/nemo_speaker.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/utr/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/utr/rev_utr.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/utr/utils.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/utr/whisper_utr.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/pipelines/utterance/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/tests/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/tests/conftest.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/tests/formats/chat/test_chat_file.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/tests/formats/chat/test_chat_generator.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/tests/formats/chat/test_chat_lexer.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/tests/formats/chat/test_chat_parser.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/tests/formats/chat/test_chat_utils.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/tests/formats/textgrid/test_textgrid.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/tests/pipelines/analysis/test_eval.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/tests/pipelines/asr/test_asr_pipeline.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/tests/pipelines/asr/test_asr_utils.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/tests/pipelines/cleanup/test_disfluency.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/tests/pipelines/cleanup/test_parse_support.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/tests/pipelines/fa/test_fa_pipeline.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/tests/pipelines/fixures.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/tests/pipelines/test_pipeline.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/tests/pipelines/test_pipeline_models.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/tests/test_document.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/utils/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/utils/config.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign/utils/dp.py RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign.egg-info/SOURCES.txt RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign.egg-info/dependency_links.txt RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign.egg-info/entry_points.txt RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign.egg-info/requires.txt RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/batchalign.egg-info/top_level.txt RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/setup.cfg RENAMED Viewed

File without changes

{batchalign-0.7.6a33 → batchalign-0.7.7a2}/setup.py RENAMED Viewed

File without changes

batchalign 0.7.6a33__tar.gz → 0.7.7a2__tar.gz

batchalign 0.7.6a33tar.gz → 0.7.7a2tar.gz