PyPI - Anchor-annotator - Versions diffs - 0.1.0__py3-none-any.whl → 0.2.0__py3-none-any.whl - Mend

Anchor-annotator 0.1.0py3-none-any.whl → 0.2.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (13) hide show

{Anchor_annotator-0.1.0.dist-info → Anchor_annotator-0.2.0.dist-info}/METADATA +1 -1
Anchor_annotator-0.2.0.dist-info/RECORD +21 -0
anchor/_version.py +2 -2
anchor/main.py +44 -22
anchor/models.py +821 -468
anchor/plot.py +428 -399
anchor/undo.py +173 -128
anchor/widgets.py +35 -44
anchor/workers.py +43 -17
Anchor_annotator-0.1.0.dist-info/RECORD +0 -21
{Anchor_annotator-0.1.0.dist-info → Anchor_annotator-0.2.0.dist-info}/LICENSE +0 -0
{Anchor_annotator-0.1.0.dist-info → Anchor_annotator-0.2.0.dist-info}/WHEEL +0 -0
{Anchor_annotator-0.1.0.dist-info → Anchor_annotator-0.2.0.dist-info}/top_level.txt +0 -0

anchor/widgets.py CHANGED Viewed

@@ -25,6 +25,8 @@ from anchor.models import (
     CorpusSelectionModel,
     DiarizationModel,
     DictionaryTableModel,
+    FileSelectionModel,
+    FileUtterancesModel,
     OovModel,
     SpeakerModel,
     TextFilterQuery,
@@ -61,7 +63,6 @@ class MediaPlayer(QtMultimedia.QMediaPlayer):  # pragma: no cover
         self.max_time = None
         self.start_load_time = None
         self.min_time = None
-        self.corpus_model = None
         self.selection_model = None
         self.timer = QtCore.QTimer(self)
         self.timer.setInterval(1)
@@ -78,7 +79,6 @@ class MediaPlayer(QtMultimedia.QMediaPlayer):  # pragma: no cover
         self._audio_output.setDevice(self.devices.defaultAudioOutput())
         self.setAudioOutput(self._audio_output)
         self.playbackStateChanged.connect(self.reset_position)
-        self.mediaStatusChanged.connect(self.update_load)
         self.fade_in_anim = QtCore.QPropertyAnimation(self._audio_output, b"volume")
         self.fade_in_anim.setDuration(10)
         self.fade_in_anim.setStartValue(0.1)
@@ -95,11 +95,6 @@ class MediaPlayer(QtMultimedia.QMediaPlayer):  # pragma: no cover
         self.fade_out_anim.finished.connect(super().pause)
         self.file_path = None
-    def update_load(self, state):
-        if state == self.MediaStatus.LoadedMedia:
-            self.reset_position()
-            self.audioReady.emit(True)
     def handle_error(self, *args):
         print("ERROR")
         print(args)
@@ -118,12 +113,22 @@ class MediaPlayer(QtMultimedia.QMediaPlayer):  # pragma: no cover
         self.fade_in_anim.start()
     def startTime(self):
-        if self.selection_model.selected_min_time is not None:
+        if (
+            self.selection_model.selected_min_time is not None
+            and self.selection_model.min_time
+            <= self.selection_model.selected_min_time
+            <= self.selection_model.max_time
+        ):
             return self.selection_model.selected_min_time
         return self.selection_model.min_time
     def maxTime(self):
-        if self.selection_model.selected_max_time is not None:
+        if (
+            self.selection_model.selected_max_time is not None
+            and self.selection_model.min_time
+            <= self.selection_model.selected_max_time
+            <= self.selection_model.max_time
+        ):
             return self.selection_model.selected_max_time
         return self.selection_model.max_time
@@ -149,14 +154,10 @@ class MediaPlayer(QtMultimedia.QMediaPlayer):  # pragma: no cover
                 break
         self._audio_output.setDevice(o)
-    def set_corpus_models(
-        self, corpus_model: Optional[CorpusModel], selection_model: Optional[CorpusSelectionModel]
-    ):
-        self.corpus_model = corpus_model
-        self.selection_model = selection_model
-        if corpus_model is None:
+    def set_models(self, selection_model: Optional[FileSelectionModel]):
+        if selection_model is None:
             return
-        # self.selection_model.fileAboutToChange.connect(self.unload_file)
+        self.selection_model = selection_model
         self.selection_model.fileChanged.connect(self.loadNewFile)
         self.selection_model.viewChanged.connect(self.update_times)
         self.selection_model.selectionAudioChanged.connect(self.update_selection_times)
@@ -187,29 +188,27 @@ class MediaPlayer(QtMultimedia.QMediaPlayer):  # pragma: no cover
         self.setCurrentTime(self.startTime())
     def update_times(self):
-        if (
-            self.playbackState() == QtMultimedia.QMediaPlayer.PlaybackState.StoppedState
-            or self.currentTime() < self.startTime()
-            or self.currentTime() > self.maxTime()
-        ):
+        if self.currentTime() < self.startTime() or self.currentTime() > self.maxTime():
+            self.stop()
+        if self.playbackState() != QtMultimedia.QMediaPlayer.PlaybackState.PlayingState:
             self.setCurrentTime(self.startTime())
     def loadNewFile(self, *args):
         self.audioReady.emit(False)
         self.stop()
         try:
-            new_file = self.selection_model.current_file.sound_file.sound_file_path
+            new_file = self.selection_model.model().file.sound_file.sound_file_path
         except Exception:
             self.setSource(QtCore.QUrl())
             return
         if (
             self.selection_model.max_time is None
-            or self.selection_model.current_file is None
-            or self.selection_model.current_file.duration is None
+            or self.selection_model.model().file is None
+            or self.selection_model.model().file.duration is None
         ):
             self.setSource(QtCore.QUrl())
             return
-        self.channels = self.selection_model.current_file.num_channels
+        self.channels = self.selection_model.model().file.num_channels
         self.setSource(f"file:///{new_file}")
         self.setPosition(0)
         self.audioReady.emit(True)
@@ -218,19 +217,6 @@ class MediaPlayer(QtMultimedia.QMediaPlayer):  # pragma: no cover
         pos = self.position()
         return pos / 1000
-    def setMaxTime(self, max_time):
-        if max_time is None:
-            return
-        self.max_time = max_time * 1000
-    def setMinTime(
-        self, min_time
-    ):  # Positions for MediaPlayer are in milliseconds, no SR required
-        if min_time is None:
-            min_time = 0
-        self.min_time = int(min_time * 1000)
-        self.setCurrentTime(min_time)
     def setCurrentTime(self, time):
         if time is None:
             time = 0
@@ -245,7 +231,7 @@ class MediaPlayer(QtMultimedia.QMediaPlayer):  # pragma: no cover
             self.stop()
             self.setSource(
                 QtCore.QUrl.fromLocalFile(
-                    self.selection_model.current_file.sound_file.sound_file_path
+                    self.selection_model.model().file.sound_file.sound_file_path
                 )
             )
             self.play()
@@ -793,6 +779,7 @@ class UtteranceDetailWidget(QtWidgets.QWidget):  # pragma: no cover
         self.settings = AnchorSettings()
         self.setAttribute(QtCore.Qt.WidgetAttribute.WA_StyledBackground, True)
         self.corpus_model = None
+        self.file_model = None
         self.selection_model = None
         self.dictionary_model = None
         self.plot_widget = UtteranceView(self)
@@ -829,24 +816,28 @@ class UtteranceDetailWidget(QtWidgets.QWidget):  # pragma: no cover
     def set_models(
         self,
         corpus_model: CorpusModel,
-        selection_model: CorpusSelectionModel,
+        file_model: FileUtterancesModel,
+        selection_model: FileSelectionModel,
         dictionary_model: DictionaryTableModel,
     ):
         self.corpus_model = corpus_model
+        self.file_model = file_model
         self.selection_model = selection_model
         self.dictionary_model = dictionary_model
         self.corpus_model.textFilterChanged.connect(self.plot_widget.set_search_term)
         self.selection_model.viewChanged.connect(self.update_to_slider)
         self.selection_model.fileChanged.connect(self.update_to_slider)
-        self.plot_widget.set_models(corpus_model, selection_model, self.dictionary_model)
+        self.plot_widget.set_models(
+            corpus_model, file_model, selection_model, self.dictionary_model
+        )
     def update_to_slider(self):
         with QtCore.QSignalBlocker(self.scroll_bar):
-            if self.selection_model.current_file is None or self.selection_model.min_time is None:
+            if self.selection_model.model().file is None or self.selection_model.min_time is None:
                 return
             if (
                 self.selection_model.min_time == 0
-                and self.selection_model.max_time == self.selection_model.current_file.duration
+                and self.selection_model.max_time == self.selection_model.model().file.duration
             ):
                 self.scroll_bar.setPageStep(10)
                 self.scroll_bar.setEnabled(False)
@@ -854,7 +845,7 @@ class UtteranceDetailWidget(QtWidgets.QWidget):  # pragma: no cover
                 self.pan_right_button.setEnabled(False)
                 self.scroll_bar.setMaximum(0)
                 return
-            duration_ms = int(self.selection_model.current_file.duration * 1000)
+            duration_ms = int(self.selection_model.model().file.duration * 1000)
             begin = self.selection_model.min_time * 1000
             end = self.selection_model.max_time * 1000
             window_size_ms = int(end - begin)

anchor/workers.py CHANGED Viewed

@@ -19,7 +19,8 @@ import dataclassy
 import librosa
 import numpy as np
 import psycopg2.errors
-import resampy
+import scipy
+import scipy.signal
 import soundfile
 import sqlalchemy
 import tqdm
@@ -28,6 +29,7 @@ from _kalpy.feat import compute_pitch
 from _kalpy.ivector import Plda, ivector_normalize_length
 from _kalpy.matrix import DoubleVector, FloatVector
 from kalpy.feat.pitch import PitchComputer
+from line_profiler_pycharm import profile
 from montreal_forced_aligner import config
 from montreal_forced_aligner.alignment import PretrainedAligner
 from montreal_forced_aligner.config import IVECTOR_DIMENSION, XVECTOR_DIMENSION
@@ -3081,6 +3083,7 @@ class SpeakerTierWorker(FunctionWorker):  # pragma: no cover
         super().__init__("Generating speaker tier", *args)
         self.query_alignment = False
         self.session = None
+        self.file_id = None
     def set_params(self, file_id):
         with self.lock:
@@ -3090,21 +3093,31 @@ class SpeakerTierWorker(FunctionWorker):  # pragma: no cover
         if self.session is None:
             return
         self.stopped.clear()
-        with self.lock:
-            utterances = self.session.query(Utterance).options(
-                joinedload(Utterance.speaker, innerjoin=True),
+        with self.lock, self.session() as session:
+            show_phones = (
+                self.settings.value(self.settings.TIER_ALIGNED_PHONES_VISIBLE)
+                or self.settings.value(self.settings.TIER_TRANSCRIBED_PHONES_VISIBLE)
+                or self.settings.value(self.settings.TIER_REFERENCE_PHONES_VISIBLE)
             )
+            show_words = self.settings.value(
+                self.settings.TIER_ALIGNED_WORDS_VISIBLE
+            ) or self.settings.value(self.settings.TIER_TRANSCRIBED_WORDS_VISIBLE)
+            utterances = session.query(Utterance)
             if self.query_alignment:
-                utterances = utterances.options(
-                    selectinload(Utterance.phone_intervals).options(
-                        joinedload(PhoneInterval.phone, innerjoin=True),
-                        joinedload(PhoneInterval.workflow, innerjoin=True),
-                    ),
-                    selectinload(Utterance.word_intervals).options(
-                        joinedload(WordInterval.word, innerjoin=True),
-                        joinedload(WordInterval.workflow, innerjoin=True),
-                    ),
-                )
+                if show_phones:
+                    utterances = utterances.options(
+                        selectinload(Utterance.phone_intervals).options(
+                            joinedload(PhoneInterval.phone, innerjoin=True),
+                            joinedload(PhoneInterval.workflow, innerjoin=True),
+                        )
+                    )
+                if show_words:
+                    utterances = utterances.options(
+                        selectinload(Utterance.word_intervals).options(
+                            joinedload(WordInterval.word, innerjoin=True),
+                            joinedload(WordInterval.workflow, innerjoin=True),
+                        ),
+                    )
             utterances = utterances.filter(Utterance.file_id == self.file_id).order_by(
                 Utterance.begin
             )
@@ -3138,6 +3151,7 @@ class SpectrogramWorker(FunctionWorker):  # pragma: no cover
             self.end = end
             self.channel = channel
+    @profile
     def run(self):
         self.stopped.clear()
         dynamic_range = self.settings.value(self.settings.SPEC_DYNAMIC_RANGE)
@@ -3146,12 +3160,18 @@ class SpectrogramWorker(FunctionWorker):  # pragma: no cover
         window_size = self.settings.value(self.settings.SPEC_WINDOW_SIZE)
         pre_emph_coeff = self.settings.value(self.settings.SPEC_PREEMPH)
         max_freq = self.settings.value(self.settings.SPEC_MAX_FREQ)
+        if self.y.shape[0] == 0:
+            return
+        duration = self.y.shape[0] / self.sample_rate
+        if duration > 30:
+            return
         with self.lock:
-            if self.y.shape[0] == 0:
-                return
             max_sr = 2 * max_freq
             if self.sample_rate > max_sr:
-                self.y = resampy.resample(self.y, self.sample_rate, max_sr)
+                self.y = scipy.signal.resample(
+                    self.y, int(self.y.shape[0] * max_sr / self.sample_rate)
+                )
+                # self.y = resampy.resample(self.y, self.sample_rate, max_sr, filter='kaiser_fast')
                 self.sample_rate = max_sr
             self.y = librosa.effects.preemphasis(self.y, coef=pre_emph_coeff)
             if self.stopped.is_set():
@@ -3225,6 +3245,10 @@ class PitchWorker(FunctionWorker):  # pragma: no cover
                 max_f0=self.max_f0,
                 penalty_factor=self.penalty_factor,
                 delta_pitch=self.delta_pitch,
+                add_pov_feature=True,
+                add_normalized_log_pitch=False,
+                add_delta_pitch=False,
+                add_raw_log_pitch=True,
             )
     def run(self):
@@ -3232,6 +3256,8 @@ class PitchWorker(FunctionWorker):  # pragma: no cover
         with self.lock:
             if self.y.shape[0] == 0:
                 return
+            if self.end - self.begin < 0.1:
+                return
             pitch_track = compute_pitch(
                 self.y, self.pitch_computer.extraction_opts, self.pitch_computer.process_opts
             ).numpy()

Anchor_annotator-0.1.0.dist-info/RECORD DELETED Viewed

@@ -1,21 +0,0 @@
-anchor/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-anchor/__main__.py,sha256=5ufG8lcx2x1am-04xI991AG7saJd24dxPw5JzjmB878,45
-anchor/_version.py,sha256=IMl2Pr_Sy4LVRKy_Sm4CdwUl1Gryous6ncL96EMYsnM,411
-anchor/command_line.py,sha256=xvuCWaPWNVZTg5Ic28qbOYsOLaFbodhBsoZHKJSBazs,482
-anchor/db.py,sha256=ef4lO6HtCKoxC9CorIc0ZbPxKpjHa576a0ZIBOWNU9E,4956
-anchor/main.py,sha256=GOol2yC_57qrJ-uTtvISGAlrZ5cMojcMq9puUVohojc,113324
-anchor/models.py,sha256=lWXlKzH9xGhdNbFgob7XZy2CGYZXAPoiIIP8Dmhqt-o,75130
-anchor/plot.py,sha256=CUAcUsPpX9Ja4PINTQN08gfuT_x27bK2kIkkAyH69-A,106870
-anchor/resources_rc.py,sha256=sQ6GvAK3NTVR5bvgR9jCWDeepSYOhEph2mg1ECxnMOs,3560262
-anchor/settings.py,sha256=SJ9-5xjThJp3-zl99OBLWLSXZmsyUU1JNsgGWHlkJS8,46649
-anchor/ui_error_dialog.py,sha256=c_QS0s1VaJEV9AhcrQZQyWHHpUPudWjJY1NI7Ytipio,3832
-anchor/ui_main_window.py,sha256=aEABdKi1Eb1c2MKUsbCbufEp1lKSLFNsC9TPX244UPI,64618
-anchor/ui_preferences.py,sha256=uer2Xzyq26j-5wwbIKKcK8YEe2w7OFJPXfWSkKcPWhI,40146
-anchor/undo.py,sha256=rVus-7HC9wPIiab3dUxIeNGK7jWOMSVmDvCFEwU-408,33163
-anchor/widgets.py,sha256=CkFsF1Iuck79lQSnszouLNt_MOPMp35zpL0dzQR2l1o,135702
-anchor/workers.py,sha256=0kytaQYryib3hm0qDFuZpnLIfLC-HeaZY6zV6PYTxr4,169699
-Anchor_annotator-0.1.0.dist-info/LICENSE,sha256=C0oIsblENEgWQ7XMNdYoXyXsIA5wa3YF0I9lK3H7A1s,1076
-Anchor_annotator-0.1.0.dist-info/METADATA,sha256=zS_ndUVMaJxv4bBGpZgHQcwTjQSTqLh1KYYWag9h5Ds,1500
-Anchor_annotator-0.1.0.dist-info/WHEEL,sha256=GJ7t_kWBFywbagK5eo9IoUwLW6oyOeTKmQ-9iHFVNxQ,92
-Anchor_annotator-0.1.0.dist-info/top_level.txt,sha256=wX6ZKxImGRZKFQjs3f6XYw_TfbAp6Xs3SmbLfLbFAJ0,7
-Anchor_annotator-0.1.0.dist-info/RECORD,,

{Anchor_annotator-0.1.0.dist-info → Anchor_annotator-0.2.0.dist-info}/LICENSE RENAMED Viewed

File without changes

{Anchor_annotator-0.1.0.dist-info → Anchor_annotator-0.2.0.dist-info}/WHEEL RENAMED Viewed

File without changes

{Anchor_annotator-0.1.0.dist-info → Anchor_annotator-0.2.0.dist-info}/top_level.txt RENAMED Viewed

File without changes

Anchor-annotator 0.1.0__py3-none-any.whl → 0.2.0__py3-none-any.whl

Anchor-annotator 0.1.0py3-none-any.whl → 0.2.0py3-none-any.whl