PyPI - batchalign - Versions diffs - 0.7.16__tar.gz → 0.7.17__tar.gz - Mend

batchalign 0.7.16tar.gz → 0.7.17tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (119) hide show

{batchalign-0.7.16/batchalign.egg-info → batchalign-0.7.17}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: batchalign
-Version: 0.7.16
+Version: 0.7.17
 Summary: Python Speech Language Sample Analysis
 Author: Brian MacWhinney, Houjun Liu
 Author-email: macw@cmu.edu, houjun@cmu.edu

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/resolve.py RENAMED Viewed

@@ -12,7 +12,7 @@ resolver = {
     },
     "whisper": {
         'eng': ("talkbank/CHATWhisper-en-large-v1", "openai/whisper-large-v2"),
-        # 'yue': ("alvanlii/whisper-small-cantonese", "alvanlii/whisper-small-cantonese"),
+        'yue': ("alvanlii/whisper-small-cantonese", "alvanlii/whisper-small-cantonese"),
     }
 }

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/utterance/cantonese_infer.py RENAMED Viewed

@@ -150,15 +150,45 @@ class BertCantoneseUtteranceModel(object):
             final_passage.append(self.tokenizer.convert_tokens_to_string(res_toks))
         # Step 4: Join processed chunks together into the final passage
-        final_text = ' '.join(final_passage)
+        final_passage = ' '.join(final_passage)
         print("Text processing completed. Generating final output...")
         # Optionally, tokenize the final text into sentences based on punctuation
-        try:
-            split_passage = sent_tokenize(final_text)
-        except LookupError:
-            nltk.download('punkt')
-            split_passage = sent_tokenize(final_text)
+        def custom_sent_tokenize(text):
+            # Regular expression to match sentence-ending punctuation marks (. ! ?)
+            sentence_endings = re.compile(r'([.!?])')
+            split_passage = []
+            # Split the passage based on punctuation marks and keep them
+            parts = re.split(sentence_endings, text)
+            # Debug: Output the parts after splitting
+            print(f"Parts after splitting: {parts}")
+            # Combine parts and punctuation together
+            for i in range(0, len(parts) - 1, 2):
+                sentence = parts[i] + parts[i + 1]  # Join sentence with punctuation
+                print(f"Sentence formed: {sentence}")  # Debug: Output the current sentence
+                if sentence.strip():  # Only add non-empty sentences (check for non-whitespace content)
+                    split_passage.append(sentence)
+            # If the last part doesn't have punctuation, we handle it here
+            if len(parts) % 2 != 0:  # If there's no punctuation at the end
+                last_part = parts[-1].strip()
+                print(f"Last part without punctuation: {last_part}")  # Debug: Output the last part
+                if last_part:  # Only add non-empty sentences
+                    split_passage.append(last_part)
+            # Final output
+            print(f"Final split passage: {split_passage}")
+            return split_passage
+        split_passage = custom_sent_tokenize(final_passage)
+        # Debugging: Output the sentences after splitting
+        print(f"Final sentences: {split_passage}")
         return split_passage

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/whisper/infer_asr.py RENAMED Viewed

@@ -68,6 +68,22 @@ class WhisperASRModel(object):
         self.__config = GenerationConfig.from_pretrained(base)
         self.__config.no_repeat_ngram_size = 4
+        if language == "Cantonese":
+            self.__config.no_repeat_ngram_size = 4
+            self.__config.no_timestamps_token_id = 50363
+            self.__config.alignment_heads = [
+                [5, 3],
+                [5, 9],
+                [8, 0],
+                [8, 4],
+                [8, 8],
+                [9, 0],
+                [9, 7],
+                [9, 9],
+                [10, 5]
+            ]
         self.pipe = pipeline(
             "automatic-speech-recognition",
             model=model,
@@ -159,7 +175,7 @@ class WhisperASRModel(object):
         if self.lang == "Cantonese":
             config = {
                 "repetition_penalty": 1.001,
-                # "generation_config": self.__config,
+                "generation_config": self.__config,
                 # "task": "transcribe",
                 # "language": self.lang
             }

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/asr/utils.py RENAMED Viewed

@@ -71,7 +71,7 @@ def retokenize_with_engine(intermediate_output, engine):
     final_outputs = []
     for speaker, utterance in intermediate_output:
-        # becasue we are using an utterance engine, we need
+        # because we are using an utterance engine, we need
         # to get rid of all the preexisting punctuation
         for i in utterance:
             for j in MOR_PUNCT+ENDING_PUNCT:
@@ -84,8 +84,12 @@ def retokenize_with_engine(intermediate_output, engine):
         joined = joined.replace("。", ".")
         split = engine(joined)
+        # Initialize current index to track position in original utterance
+        current_index = 0
         # align the utterance against original splits and generate final outputs
         for i in split:
+            # Check if the split has ending punctuation
             if i[-1] in ENDING_PUNCT:
                 new_ut, delim = (i[:-1].split(" "), i[-1])
             else:
@@ -94,12 +98,18 @@ def retokenize_with_engine(intermediate_output, engine):
             tmp = []
             for s in new_ut:
-                try:
-                    tmp.append((s, utterance.pop(0)[1]))
-                except IndexError:
-                    continue
+                if current_index < len(utterance):
+                    # Use current element and move index forward
+                    tmp.append((s, utterance[current_index][1]))
+                    current_index += 1
+                else:
+                    # Append with default timestamp if utterance is exhausted
+                    tmp.append((s, [None, None]))
+            if current_index >= len(utterance):
+                tmp.append((delim, [None, None]))  # Append the punctuation
-            final_outputs.append((speaker, tmp+[[delim, [None, None]]]))
+            final_outputs.append((speaker, tmp))
     return final_outputs
@@ -220,7 +230,6 @@ def process_generation(output, lang="eng", utterance_engine=None):
                     seen_word = True
                     words.append(Form(text=word, time=(int(start), int(end))))
             else:
-                if seen_word:
                     words.append(Form(text=word, time=None))
         final_utterances.append(Utterance(

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/morphosyntax/ud.py RENAMED Viewed

@@ -143,7 +143,7 @@ def handler(word, lang=None):
         pos,target = verbform(pos,target,word.text)
         target = target.replace(',', 'cm')
+    target = re.sub(r'@\w$', '', target)
     return f"{'' if not unknown else '0'}{pos}|{target}"
 # POS specific handler

batchalign-0.7.17/batchalign/version ADDED Viewed

@@ -0,0 +1,3 @@
+0.7.17
+March 4th, 2025
+Cantonese patches + removing special mor line annotations

{batchalign-0.7.16 → batchalign-0.7.17/batchalign.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: batchalign
-Version: 0.7.16
+Version: 0.7.17
 Summary: Python Speech Language Sample Analysis
 Author: Brian MacWhinney, Houjun Liu
 Author-email: macw@cmu.edu, houjun@cmu.edu

batchalign-0.7.16/batchalign/version DELETED Viewed

@@ -1,3 +0,0 @@
-0.7.16
-Feburary 27th, 2025
-More Hebrew features

{batchalign-0.7.16 → batchalign-0.7.17}/LICENSE RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/MANIFEST.in RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/README.md RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/__main__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/cli/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/cli/cli.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/cli/dispatch.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/constants.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/document.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/errors.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/formats/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/formats/base.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/formats/chat/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/formats/chat/file.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/formats/chat/generator.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/formats/chat/lexer.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/formats/chat/parser.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/formats/chat/utils.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/formats/textgrid/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/formats/textgrid/file.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/formats/textgrid/generator.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/formats/textgrid/parser.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/speaker/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/speaker/config.yaml RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/speaker/infer.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/speaker/utils.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/training/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/training/run.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/training/utils.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/utils.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/utterance/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/utterance/dataset.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/utterance/execute.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/utterance/infer.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/utterance/prep.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/utterance/train.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/wave2vec/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/wave2vec/infer_fa.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/whisper/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/models/whisper/infer_fa.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/analysis/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/analysis/eval.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/asr/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/asr/num2chinese.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/asr/rev.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/asr/whisper.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/asr/whisperx.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/base.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/cleanup/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/cleanup/cleanup.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/cleanup/disfluencies.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/cleanup/parse_support.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/cleanup/retrace.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/cleanup/support/filled_pauses.eng RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/cleanup/support/replacements.eng RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/cleanup/support/test.test RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/dispatch.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/fa/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/fa/wave2vec_fa.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/fa/whisper_fa.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/morphosyntax/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/morphosyntax/coref.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/morphosyntax/en/irr.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/morphosyntax/fr/apm.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/morphosyntax/fr/apmn.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/morphosyntax/fr/case.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/morphosyntax/ja/verbforms.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/pipeline.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/speaker/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/speaker/nemo_speaker.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/translate/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/translate/seamless.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/utr/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/utr/rev_utr.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/utr/utils.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/utr/whisper_utr.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/utterance/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/pipelines/utterance/ud_utterance.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/tests/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/tests/conftest.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/tests/formats/chat/test_chat_file.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/tests/formats/chat/test_chat_generator.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/tests/formats/chat/test_chat_lexer.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/tests/formats/chat/test_chat_parser.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/tests/formats/chat/test_chat_utils.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/tests/formats/textgrid/test_textgrid.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/tests/pipelines/analysis/test_eval.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/tests/pipelines/asr/test_asr_pipeline.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/tests/pipelines/asr/test_asr_utils.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/tests/pipelines/cleanup/test_disfluency.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/tests/pipelines/cleanup/test_parse_support.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/tests/pipelines/fa/test_fa_pipeline.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/tests/pipelines/fixures.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/tests/pipelines/test_pipeline.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/tests/pipelines/test_pipeline_models.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/tests/test_document.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/utils/__init__.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/utils/config.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/utils/dp.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign/utils/utils.py RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign.egg-info/SOURCES.txt RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign.egg-info/dependency_links.txt RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign.egg-info/entry_points.txt RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign.egg-info/requires.txt RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/batchalign.egg-info/top_level.txt RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/setup.cfg RENAMED Viewed

File without changes

{batchalign-0.7.16 → batchalign-0.7.17}/setup.py RENAMED Viewed

File without changes

batchalign 0.7.16__tar.gz → 0.7.17__tar.gz

batchalign 0.7.16tar.gz → 0.7.17tar.gz