PyPI - karaoke-gen - Versions diffs - 0.90.1__py3-none-any.whl → 0.99.3__py3-none-any.whl - Mend

karaoke-gen 0.90.1py3-none-any.whl → 0.99.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (197) hide show

backend/.coveragerc +20 -0
backend/.gitignore +37 -0
backend/Dockerfile +43 -0
backend/Dockerfile.base +74 -0
backend/README.md +242 -0
backend/__init__.py +0 -0
backend/api/__init__.py +0 -0
backend/api/dependencies.py +457 -0
backend/api/routes/__init__.py +0 -0
backend/api/routes/admin.py +835 -0
backend/api/routes/audio_search.py +913 -0
backend/api/routes/auth.py +348 -0
backend/api/routes/file_upload.py +2112 -0
backend/api/routes/health.py +409 -0
backend/api/routes/internal.py +435 -0
backend/api/routes/jobs.py +1629 -0
backend/api/routes/review.py +652 -0
backend/api/routes/themes.py +162 -0
backend/api/routes/users.py +1513 -0
backend/config.py +172 -0
backend/main.py +157 -0
backend/middleware/__init__.py +5 -0
backend/middleware/audit_logging.py +124 -0
backend/models/__init__.py +0 -0
backend/models/job.py +519 -0
backend/models/requests.py +123 -0
backend/models/theme.py +153 -0
backend/models/user.py +254 -0
backend/models/worker_log.py +164 -0
backend/pyproject.toml +29 -0
backend/quick-check.sh +93 -0
backend/requirements.txt +29 -0
backend/run_tests.sh +60 -0
backend/services/__init__.py +0 -0
backend/services/audio_analysis_service.py +243 -0
backend/services/audio_editing_service.py +278 -0
backend/services/audio_search_service.py +702 -0
backend/services/auth_service.py +630 -0
backend/services/credential_manager.py +792 -0
backend/services/discord_service.py +172 -0
backend/services/dropbox_service.py +301 -0
backend/services/email_service.py +1093 -0
backend/services/encoding_interface.py +454 -0
backend/services/encoding_service.py +502 -0
backend/services/firestore_service.py +512 -0
backend/services/flacfetch_client.py +573 -0
backend/services/gce_encoding/README.md +72 -0
backend/services/gce_encoding/__init__.py +22 -0
backend/services/gce_encoding/main.py +589 -0
backend/services/gce_encoding/requirements.txt +16 -0
backend/services/gdrive_service.py +356 -0
backend/services/job_logging.py +258 -0
backend/services/job_manager.py +853 -0
backend/services/job_notification_service.py +271 -0
backend/services/langfuse_preloader.py +98 -0
backend/services/local_encoding_service.py +590 -0
backend/services/local_preview_encoding_service.py +407 -0
backend/services/lyrics_cache_service.py +216 -0
backend/services/metrics.py +413 -0
backend/services/nltk_preloader.py +122 -0
backend/services/packaging_service.py +287 -0
backend/services/rclone_service.py +106 -0
backend/services/spacy_preloader.py +65 -0
backend/services/storage_service.py +209 -0
backend/services/stripe_service.py +371 -0
backend/services/structured_logging.py +254 -0
backend/services/template_service.py +330 -0
backend/services/theme_service.py +469 -0
backend/services/tracing.py +543 -0
backend/services/user_service.py +721 -0
backend/services/worker_service.py +558 -0
backend/services/youtube_service.py +112 -0
backend/services/youtube_upload_service.py +445 -0
backend/tests/__init__.py +4 -0
backend/tests/conftest.py +224 -0
backend/tests/emulator/__init__.py +7 -0
backend/tests/emulator/conftest.py +109 -0
backend/tests/emulator/test_e2e_cli_backend.py +1053 -0
backend/tests/emulator/test_emulator_integration.py +356 -0
backend/tests/emulator/test_style_loading_direct.py +436 -0
backend/tests/emulator/test_worker_logs_direct.py +229 -0
backend/tests/emulator/test_worker_logs_subcollection.py +443 -0
backend/tests/requirements-test.txt +10 -0
backend/tests/requirements.txt +6 -0
backend/tests/test_admin_email_endpoints.py +411 -0
backend/tests/test_api_integration.py +460 -0
backend/tests/test_api_routes.py +93 -0
backend/tests/test_audio_analysis_service.py +294 -0
backend/tests/test_audio_editing_service.py +386 -0
backend/tests/test_audio_search.py +1398 -0
backend/tests/test_audio_services.py +378 -0
backend/tests/test_auth_firestore.py +231 -0
backend/tests/test_config_extended.py +68 -0
backend/tests/test_credential_manager.py +377 -0
backend/tests/test_dependencies.py +54 -0
backend/tests/test_discord_service.py +244 -0
backend/tests/test_distribution_services.py +820 -0
backend/tests/test_dropbox_service.py +472 -0
backend/tests/test_email_service.py +492 -0
backend/tests/test_emulator_integration.py +322 -0
backend/tests/test_encoding_interface.py +412 -0
backend/tests/test_file_upload.py +1739 -0
backend/tests/test_flacfetch_client.py +632 -0
backend/tests/test_gdrive_service.py +524 -0
backend/tests/test_instrumental_api.py +431 -0
backend/tests/test_internal_api.py +343 -0
backend/tests/test_job_creation_regression.py +583 -0
backend/tests/test_job_manager.py +356 -0
backend/tests/test_job_manager_notifications.py +329 -0
backend/tests/test_job_notification_service.py +443 -0
backend/tests/test_jobs_api.py +283 -0
backend/tests/test_local_encoding_service.py +423 -0
backend/tests/test_local_preview_encoding_service.py +567 -0
backend/tests/test_main.py +87 -0
backend/tests/test_models.py +918 -0
backend/tests/test_packaging_service.py +382 -0
backend/tests/test_requests.py +201 -0
backend/tests/test_routes_jobs.py +282 -0
backend/tests/test_routes_review.py +337 -0
backend/tests/test_services.py +556 -0
backend/tests/test_services_extended.py +112 -0
backend/tests/test_spacy_preloader.py +119 -0
backend/tests/test_storage_service.py +448 -0
backend/tests/test_style_upload.py +261 -0
backend/tests/test_template_service.py +295 -0
backend/tests/test_theme_service.py +516 -0
backend/tests/test_unicode_sanitization.py +522 -0
backend/tests/test_upload_api.py +256 -0
backend/tests/test_validate.py +156 -0
backend/tests/test_video_worker_orchestrator.py +847 -0
backend/tests/test_worker_log_subcollection.py +509 -0
backend/tests/test_worker_logging.py +365 -0
backend/tests/test_workers.py +1116 -0
backend/tests/test_workers_extended.py +178 -0
backend/tests/test_youtube_service.py +247 -0
backend/tests/test_youtube_upload_service.py +568 -0
backend/utils/test_data.py +27 -0
backend/validate.py +173 -0
backend/version.py +27 -0
backend/workers/README.md +597 -0
backend/workers/__init__.py +11 -0
backend/workers/audio_worker.py +618 -0
backend/workers/lyrics_worker.py +683 -0
backend/workers/render_video_worker.py +483 -0
backend/workers/screens_worker.py +535 -0
backend/workers/style_helper.py +198 -0
backend/workers/video_worker.py +1277 -0
backend/workers/video_worker_orchestrator.py +701 -0
backend/workers/worker_logging.py +278 -0
karaoke_gen/instrumental_review/static/index.html +7 -4
karaoke_gen/karaoke_finalise/karaoke_finalise.py +6 -1
karaoke_gen/utils/__init__.py +163 -8
karaoke_gen/video_background_processor.py +9 -4
{karaoke_gen-0.90.1.dist-info → karaoke_gen-0.99.3.dist-info}/METADATA +1 -1
{karaoke_gen-0.90.1.dist-info → karaoke_gen-0.99.3.dist-info}/RECORD +196 -46
lyrics_transcriber/correction/agentic/agent.py +17 -6
lyrics_transcriber/correction/agentic/providers/config.py +9 -5
lyrics_transcriber/correction/agentic/providers/langchain_bridge.py +96 -93
lyrics_transcriber/correction/agentic/providers/model_factory.py +27 -6
lyrics_transcriber/correction/anchor_sequence.py +151 -37
lyrics_transcriber/correction/corrector.py +192 -130
lyrics_transcriber/correction/handlers/syllables_match.py +44 -2
lyrics_transcriber/correction/operations.py +24 -9
lyrics_transcriber/correction/phrase_analyzer.py +18 -0
lyrics_transcriber/frontend/package-lock.json +2 -2
lyrics_transcriber/frontend/package.json +1 -1
lyrics_transcriber/frontend/src/components/AIFeedbackModal.tsx +1 -1
lyrics_transcriber/frontend/src/components/CorrectedWordWithActions.tsx +11 -7
lyrics_transcriber/frontend/src/components/EditActionBar.tsx +31 -5
lyrics_transcriber/frontend/src/components/EditModal.tsx +28 -10
lyrics_transcriber/frontend/src/components/EditTimelineSection.tsx +123 -27
lyrics_transcriber/frontend/src/components/EditWordList.tsx +112 -60
lyrics_transcriber/frontend/src/components/Header.tsx +90 -76
lyrics_transcriber/frontend/src/components/LyricsAnalyzer.tsx +53 -31
lyrics_transcriber/frontend/src/components/LyricsSynchronizer/SyncControls.tsx +44 -13
lyrics_transcriber/frontend/src/components/LyricsSynchronizer/TimelineCanvas.tsx +66 -50
lyrics_transcriber/frontend/src/components/LyricsSynchronizer/index.tsx +124 -30
lyrics_transcriber/frontend/src/components/ReferenceView.tsx +1 -1
lyrics_transcriber/frontend/src/components/TimelineEditor.tsx +12 -5
lyrics_transcriber/frontend/src/components/TimingOffsetModal.tsx +3 -3
lyrics_transcriber/frontend/src/components/TranscriptionView.tsx +1 -1
lyrics_transcriber/frontend/src/components/WordDivider.tsx +11 -7
lyrics_transcriber/frontend/src/components/shared/components/Word.tsx +4 -2
lyrics_transcriber/frontend/src/hooks/useManualSync.ts +103 -1
lyrics_transcriber/frontend/src/theme.ts +42 -15
lyrics_transcriber/frontend/tsconfig.tsbuildinfo +1 -1
lyrics_transcriber/frontend/vite.config.js +5 -0
lyrics_transcriber/frontend/web_assets/assets/{index-BECn1o8Q.js → index-BSMgOq4Z.js} +6959 -5782
lyrics_transcriber/frontend/web_assets/assets/index-BSMgOq4Z.js.map +1 -0
lyrics_transcriber/frontend/web_assets/index.html +6 -2
lyrics_transcriber/frontend/web_assets/nomad-karaoke-logo.svg +5 -0
lyrics_transcriber/output/generator.py +17 -3
lyrics_transcriber/output/video.py +60 -95
lyrics_transcriber/frontend/web_assets/assets/index-BECn1o8Q.js.map +0 -1
{karaoke_gen-0.90.1.dist-info → karaoke_gen-0.99.3.dist-info}/WHEEL +0 -0
{karaoke_gen-0.90.1.dist-info → karaoke_gen-0.99.3.dist-info}/entry_points.txt +0 -0
{karaoke_gen-0.90.1.dist-info → karaoke_gen-0.99.3.dist-info}/licenses/LICENSE +0 -0

lyrics_transcriber/correction/corrector.py CHANGED Viewed

@@ -268,12 +268,26 @@ class LyricsCorrector:
         _adapt = None
         _ModelRouter = None
+        # Pre-initialized agentic corrector (created once, reused for all gaps)
+        _agentic_agent = None
         if use_agentic_env:
             try:
                 from lyrics_transcriber.correction.agentic.agent import AgenticCorrector as _AgenticCorrector
                 from lyrics_transcriber.correction.agentic.adapter import adapt_proposals_to_word_corrections as _adapt
                 from lyrics_transcriber.correction.agentic.router import ModelRouter as _ModelRouter
                 self.logger.info("🤖 Agentic modules imported successfully - running in AGENTIC-ONLY mode")
+                # Create agent ONCE and reuse for all gaps (avoids repeated model initialization)
+                _router = _ModelRouter()
+                model_id = _router.choose_model("gap", uncertainty=0.5)  # Use default uncertainty
+                self.logger.info(f"🤖 Creating single AgenticCorrector with model: {model_id}")
+                _agentic_agent = _AgenticCorrector.from_model(
+                    model=model_id,
+                    session_id=session_id,
+                    cache_dir=str(self._cache_dir)
+                )
+                self.logger.info("🤖 AgenticCorrector initialized and ready for all gaps")
             except Exception as e:
                 self.logger.error(f"🤖 Failed to import agentic modules but USE_AGENTIC_AI=1: {e}")
                 raise RuntimeError(f"Agentic AI correction is enabled but required modules could not be imported: {e}") from e
@@ -443,145 +457,193 @@ class LyricsCorrector:
             sys.exit(0)
         # === END TEMPORARY CODE ===
-        for i, gap in enumerate(gap_sequences, 1):
-            # Check deadline before processing each gap (agentic mode only)
-            # This allows us to abort early and return uncorrected results for human review
-            if deadline and use_agentic_env and time.time() > deadline:
-                self.logger.warning(
-                    f"⏰ AGENTIC TIMEOUT: Deadline exceeded after processing {i-1}/{len(gap_sequences)} gaps. "
-                    "Skipping remaining gaps - human review will correct any issues."
-                )
-                # Break out of loop - continue with whatever corrections we have (likely none)
-                break
+        # AGENTIC-ONLY MODE: Process all gaps in parallel for better performance
+        if use_agentic_env:
+            from concurrent.futures import ThreadPoolExecutor, as_completed
+            from lyrics_transcriber.correction.agentic.providers.config import ProviderConfig
-            self.logger.info(f"Processing gap {i}/{len(gap_sequences)} at position {gap.transcription_position}")
+            # Get parallel processing config
+            _config = ProviderConfig.from_env()
+            max_workers = _config.max_parallel_gaps
+            self.logger.info(f"🤖 Processing {len(gap_sequences)} gaps in parallel (max_workers={max_workers})")
-            # Get the actual words for logging
-            gap_words = [word_map[word_id] for word_id in gap.transcribed_word_ids]
-            self.logger.debug(f"Gap text: '{' '.join(w.text for w in gap_words)}'")
+            # Pre-compute shared data structures once (not per-gap)
+            all_transcribed_words = []
+            for seg in segments:
+                all_transcribed_words.extend(seg.words)
+            word_position = {w.id: idx for idx, w in enumerate(all_transcribed_words)}
-            # AGENTIC-ONLY MODE: Use agentic correction exclusively
-            if use_agentic_env:
-                self.logger.info(f"🤖 Attempting agentic correction for gap {i}/{len(gap_sequences)}")
+            # Build reference contexts once (same for all gaps)
+            reference_contexts = {}
+            for source, lyrics_data in self.reference_lyrics.items():
+                if lyrics_data and lyrics_data.segments:
+                    ref_words = []
+                    for seg in lyrics_data.segments:
+                        ref_words.extend([w.text for w in seg.words])
+                    reference_contexts[source] = " ".join(ref_words)
+            # Get artist and title once
+            artist = metadata.get("artist") if metadata else None
+            title = metadata.get("title") if metadata else None
+            # Prepare all gap inputs upfront
+            gap_inputs = []
+            for i, gap in enumerate(gap_sequences, 1):
+                # Prepare gap words data
+                gap_words_data = []
+                for word_id in gap.transcribed_word_ids:
+                    if word_id in word_map:
+                        word = word_map[word_id]
+                        gap_words_data.append({
+                            "id": word_id,
+                            "text": word.text,
+                            "start_time": getattr(word, 'start_time', 0),
+                            "end_time": getattr(word, 'end_time', 0)
+                        })
+                # Compute context words
+                gap_positions = [word_position[wid] for wid in gap.transcribed_word_ids if wid in word_position]
+                preceding_words = ""
+                following_words = ""
+                if gap_positions:
+                    first_gap_pos = min(gap_positions)
+                    last_gap_pos = max(gap_positions)
+                    # Get 10 words before
+                    start_pos = max(0, first_gap_pos - 10)
+                    preceding_list = [all_transcribed_words[idx].text for idx in range(start_pos, first_gap_pos) if idx < len(all_transcribed_words)]
+                    preceding_words = " ".join(preceding_list)
+                    # Get 10 words after
+                    end_pos = min(len(all_transcribed_words), last_gap_pos + 11)
+                    following_list = [all_transcribed_words[idx].text for idx in range(last_gap_pos + 1, end_pos) if idx < len(all_transcribed_words)]
+                    following_words = " ".join(following_list)
+                gap_inputs.append({
+                    'index': i,
+                    'gap': gap,
+                    'gap_id': f"gap_{i}",
+                    'gap_words': gap_words_data,
+                    'preceding_words': preceding_words,
+                    'following_words': following_words,
+                    'reference_contexts': reference_contexts,
+                    'artist': artist,
+                    'title': title
+                })
+            # Function to process a single gap (runs in thread pool)
+            def process_single_gap(gap_input):
+                """Process a single gap and return proposals. Thread-safe."""
+                idx = gap_input['index']
                 try:
-                    # Prepare gap data for classification-first workflow
-                    gap_words_data = []
-                    for word_id in gap.transcribed_word_ids:
-                        if word_id in word_map:
-                            word = word_map[word_id]
-                            gap_words_data.append({
-                                "id": word_id,
-                                "text": word.text,
-                                "start_time": getattr(word, 'start_time', 0),
-                                "end_time": getattr(word, 'end_time', 0)
-                            })
-                    # Get context words
-                    all_transcribed_words = []
-                    for seg in segments:
-                        all_transcribed_words.extend(seg.words)
-                    word_position = {w.id: idx for idx, w in enumerate(all_transcribed_words)}
-                    gap_positions = [word_position[wid] for wid in gap.transcribed_word_ids if wid in word_position]
-                    preceding_words = ""
-                    following_words = ""
-                    if gap_positions:
-                        first_gap_pos = min(gap_positions)
-                        last_gap_pos = max(gap_positions)
-                        # Get 10 words before
-                        start_pos = max(0, first_gap_pos - 10)
-                        preceding_list = [all_transcribed_words[idx].text for idx in range(start_pos, first_gap_pos) if idx < len(all_transcribed_words)]
-                        preceding_words = " ".join(preceding_list)
-                        # Get 10 words after
-                        end_pos = min(len(all_transcribed_words), last_gap_pos + 11)
-                        following_list = [all_transcribed_words[idx].text for idx in range(last_gap_pos + 1, end_pos) if idx < len(all_transcribed_words)]
-                        following_words = " ".join(following_list)
-                    # Get reference contexts from all sources
-                    reference_contexts = {}
-                    for source, lyrics_data in self.reference_lyrics.items():
-                        if lyrics_data and lyrics_data.segments:
-                            ref_words = []
-                            for seg in lyrics_data.segments:
-                                ref_words.extend([w.text for w in seg.words])
-                            # For now, use full text (handlers will extract relevant portions)
-                            reference_contexts[source] = " ".join(ref_words)
-                    # Get artist and title from metadata
-                    artist = metadata.get("artist") if metadata else None
-                    title = metadata.get("title") if metadata else None
-                    # Choose model via router
-                    _router = _ModelRouter()
-                    uncertainty = 0.3 if len(gap_words_data) <= 2 else 0.7
-                    model_id = _router.choose_model("gap", uncertainty)
-                    self.logger.debug(f"🤖 Router selected model: {model_id}")
-                    # Create agent and use new classification-first workflow
-                    self.logger.debug(f"🤖 Creating AgenticCorrector with model: {model_id}")
-                    _agent = _AgenticCorrector.from_model(
-                        model=model_id,
-                        session_id=session_id,
-                        cache_dir=str(self._cache_dir)
-                    )
-                    # Use new propose_for_gap method
-                    self.logger.debug(f"🤖 Calling agent.propose_for_gap() for gap {i}")
-                    _proposals = _agent.propose_for_gap(
-                        gap_id=f"gap_{i}",
-                        gap_words=gap_words_data,
-                        preceding_words=preceding_words,
-                        following_words=following_words,
-                        reference_contexts=reference_contexts,
-                        artist=artist,
-                        title=title
+                    proposals = _agentic_agent.propose_for_gap(
+                        gap_id=gap_input['gap_id'],
+                        gap_words=gap_input['gap_words'],
+                        preceding_words=gap_input['preceding_words'],
+                        following_words=gap_input['following_words'],
+                        reference_contexts=gap_input['reference_contexts'],
+                        artist=gap_input['artist'],
+                        title=gap_input['title']
                     )
-                    self.logger.debug(f"🤖 Agent returned {len(_proposals) if _proposals else 0} proposals")
-                    _agentic_corrections = _adapt(_proposals, word_map, linear_position_map) if _proposals else []
-                    self.logger.debug(f"🤖 Adapter returned {len(_agentic_corrections)} corrections")
-                    if _agentic_corrections:
-                        self.logger.info(f"🤖 Applying {len(_agentic_corrections)} agentic corrections for gap {i}")
-                        affected_word_ids = [w.id for w in self._get_affected_words(gap, segments)]
-                        affected_segment_ids = [s.id for s in self._get_affected_segments(gap, segments)]
-                        updated_segments = self._apply_corrections_to_segments(self._get_affected_segments(gap, segments), _agentic_corrections)
-                        for correction in _agentic_corrections:
-                            if correction.word_id and correction.corrected_word_id:
-                                word_id_map[correction.word_id] = correction.corrected_word_id
-                        for old_seg, new_seg in zip(self._get_affected_segments(gap, segments), updated_segments):
-                            segment_id_map[old_seg.id] = new_seg.id
-                        step = CorrectionStep(
-                            handler_name="AgenticCorrector",
-                            affected_word_ids=affected_word_ids,
-                            affected_segment_ids=affected_segment_ids,
-                            corrections=_agentic_corrections,
-                            segments_before=self._get_affected_segments(gap, segments),
-                            segments_after=updated_segments,
-                            created_word_ids=[w.id for w in self._get_new_words(updated_segments, affected_word_ids)],
-                            deleted_word_ids=[id for id in affected_word_ids if not self._word_exists(id, updated_segments)],
+                    return {'index': idx, 'gap': gap_input['gap'], 'proposals': proposals, 'error': None}
+                except Exception as e:
+                    return {'index': idx, 'gap': gap_input['gap'], 'proposals': None, 'error': str(e)}
+            # Process gaps in parallel
+            results = [None] * len(gap_inputs)
+            completed_count = 0
+            errors = []
+            with ThreadPoolExecutor(max_workers=max_workers) as executor:
+                # Submit all tasks
+                future_to_input = {executor.submit(process_single_gap, g): g for g in gap_inputs}
+                # Collect results as they complete
+                for future in as_completed(future_to_input):
+                    # Check deadline
+                    if deadline and time.time() > deadline:
+                        self.logger.warning(
+                            f"⏰ AGENTIC TIMEOUT: Deadline exceeded after processing {completed_count}/{len(gap_sequences)} gaps. "
+                            "Cancelling remaining gaps - human review will correct any issues."
                         )
-                        correction_steps.append(step)
-                        all_corrections.extend(_agentic_corrections)
-                        # Log corrections made
-                        for correction in _agentic_corrections:
-                            self.logger.info(
-                                f"Made correction: '{correction.original_word}' -> '{correction.corrected_word}' "
-                                f"(confidence: {correction.confidence:.2f}, reason: {correction.reason})"
-                            )
+                        # Cancel remaining futures (use list() to avoid mutating dict during iteration)
+                        for f in list(future_to_input.keys()):
+                            f.cancel()
+                        break
+                    result = future.result()
+                    idx = result['index'] - 1  # Convert 1-based to 0-based
+                    results[idx] = result
+                    completed_count += 1
+                    if result['error']:
+                        errors.append(f"Gap {result['index']}: {result['error']}")
+                        self.logger.error(f"🤖 Gap {result['index']} failed: {result['error']}")
                     else:
-                        self.logger.info(f"🤖 No agentic corrections needed for gap {i}")
-                except Exception as e:
-                    # In agentic-only mode, fail fast instead of falling back
-                    self.logger.error(f"🤖 Agentic correction failed for gap {i}: {e}", exc_info=True)
-                    raise RuntimeError(f"Agentic AI correction failed for gap {i}: {e}") from e
-                # Skip rule-based handlers completely in agentic mode
+                        proposal_count = len(result['proposals']) if result['proposals'] else 0
+                        self.logger.info(f"🤖 Gap {result['index']}/{len(gap_sequences)} completed ({proposal_count} proposals)")
+            self.logger.info(f"🤖 Parallel processing complete: {completed_count}/{len(gap_sequences)} gaps processed")
+            # If any errors occurred, fail fast
+            if errors:
+                raise RuntimeError(f"Agentic AI correction failed for {len(errors)} gaps: {'; '.join(errors)}")
+            # Apply corrections sequentially (must be in order due to segment modifications)
+            for result in results:
+                if result is None:
+                    continue  # Skipped due to deadline
+                i = result['index']
+                gap = result['gap']
+                _proposals = result['proposals']
+                _agentic_corrections = _adapt(_proposals, word_map, linear_position_map) if _proposals else []
+                if _agentic_corrections:
+                    self.logger.info(f"🤖 Applying {len(_agentic_corrections)} agentic corrections for gap {i}")
+                    affected_word_ids = [w.id for w in self._get_affected_words(gap, segments)]
+                    affected_segment_ids = [s.id for s in self._get_affected_segments(gap, segments)]
+                    updated_segments = self._apply_corrections_to_segments(self._get_affected_segments(gap, segments), _agentic_corrections)
+                    for correction in _agentic_corrections:
+                        if correction.word_id and correction.corrected_word_id:
+                            word_id_map[correction.word_id] = correction.corrected_word_id
+                    for old_seg, new_seg in zip(self._get_affected_segments(gap, segments), updated_segments):
+                        segment_id_map[old_seg.id] = new_seg.id
+                    step = CorrectionStep(
+                        handler_name="AgenticCorrector",
+                        affected_word_ids=affected_word_ids,
+                        affected_segment_ids=affected_segment_ids,
+                        corrections=_agentic_corrections,
+                        segments_before=self._get_affected_segments(gap, segments),
+                        segments_after=updated_segments,
+                        created_word_ids=[w.id for w in self._get_new_words(updated_segments, affected_word_ids)],
+                        deleted_word_ids=[id for id in affected_word_ids if not self._word_exists(id, updated_segments)],
+                    )
+                    correction_steps.append(step)
+                    all_corrections.extend(_agentic_corrections)
+                    # Log corrections made
+                    for correction in _agentic_corrections:
+                        self.logger.info(
+                            f"Made correction: '{correction.original_word}' -> '{correction.corrected_word}' "
+                            f"(confidence: {correction.confidence:.2f}, reason: {correction.reason})"
+                        )
+                else:
+                    self.logger.debug(f"🤖 No agentic corrections needed for gap {i}")
+        # RULE-BASED MODE: Process gaps sequentially
+        for i, gap in enumerate(gap_sequences, 1):
+            # Skip if we already processed in agentic mode
+            if use_agentic_env:
                 continue
+            self.logger.info(f"Processing gap {i}/{len(gap_sequences)} at position {gap.transcription_position}")
+            # Get the actual words for logging
+            gap_words = [word_map[word_id] for word_id in gap.transcribed_word_ids]
+            self.logger.debug(f"Gap text: '{' '.join(w.text for w in gap_words)}'")
             # RULE-BASED MODE: Try each handler in order
             for handler in self.handlers:
                 handler_name = handler.__class__.__name__

lyrics_transcriber/correction/handlers/syllables_match.py CHANGED Viewed

@@ -1,6 +1,7 @@
 from typing import List, Tuple, Dict, Any, Optional
 import spacy
 import logging
+import time
 import pyphen
 import nltk
 from nltk.corpus import cmudict
@@ -11,6 +12,15 @@ from lyrics_transcriber.types import GapSequence, WordCorrection
 from lyrics_transcriber.correction.handlers.base import GapCorrectionHandler
 from lyrics_transcriber.correction.handlers.word_operations import WordOperations
+# Try to import preloaders (may not exist in standalone library usage)
+try:
+    from backend.services.spacy_preloader import get_preloaded_model
+    from backend.services.nltk_preloader import get_preloaded_cmudict
+    _HAS_PRELOADER = True
+except ImportError:
+    _HAS_PRELOADER = False
 class SyllablesMatchHandler(GapCorrectionHandler):
     """Handles gaps where number of syllables in reference text matches number of syllables in transcription."""
@@ -18,11 +28,27 @@ class SyllablesMatchHandler(GapCorrectionHandler):
     def __init__(self, logger: Optional[logging.Logger] = None):
         super().__init__(logger)
         self.logger = logger or logging.getLogger(__name__)
+        init_start = time.time()
         # Marking SpacySyllables as used to prevent unused import warning
         _ = SpacySyllables
-        # Load spacy model with syllables pipeline
+        # Try to use preloaded model first (avoids 60+ second load on Cloud Run)
+        if _HAS_PRELOADER:
+            preloaded = get_preloaded_model("en_core_web_sm")
+            if preloaded is not None:
+                self.logger.info("Using preloaded SpaCy model for syllable analysis")
+                self.nlp = preloaded
+                # Add syllables component if not already present
+                if "syllables" not in self.nlp.pipe_names:
+                    self.nlp.add_pipe("syllables", after="tagger")
+                self._init_nltk_resources()
+                init_elapsed = time.time() - init_start
+                self.logger.info(f"Initialized SyllablesMatchHandler in {init_elapsed:.2f}s (preloaded)")
+                return
+        # Fall back to loading model directly
+        self.logger.info("Loading SpaCy model for syllable analysis (not preloaded)...")
         try:
             self.nlp = spacy.load("en_core_web_sm")
         except OSError:
@@ -43,10 +69,26 @@ class SyllablesMatchHandler(GapCorrectionHandler):
         if "syllables" not in self.nlp.pipe_names:
             self.nlp.add_pipe("syllables", after="tagger")
+        self._init_nltk_resources()
+        init_elapsed = time.time() - init_start
+        self.logger.info(f"Initialized SyllablesMatchHandler in {init_elapsed:.2f}s (lazy loaded)")
+    def _init_nltk_resources(self):
+        """Initialize NLTK resources (Pyphen and CMU dictionary)."""
         # Initialize Pyphen for English
         self.dic = pyphen.Pyphen(lang="en_US")
-        # Initialize NLTK's CMU dictionary
+        # Try to use preloaded cmudict first (avoids 50-100+ second download on Cloud Run)
+        if _HAS_PRELOADER:
+            preloaded_cmudict = get_preloaded_cmudict()
+            if preloaded_cmudict is not None:
+                self.logger.debug("Using preloaded NLTK cmudict")
+                self.cmudict = preloaded_cmudict
+                return
+        # Fall back to loading directly
+        self.logger.info("Loading NLTK cmudict (not preloaded)...")
         try:
             self.cmudict = cmudict.dict()
         except LookupError:

lyrics_transcriber/correction/operations.py CHANGED Viewed

@@ -274,11 +274,12 @@ class CorrectionOperations:
         audio_filepath: str,
         artist: Optional[str] = None,
         title: Optional[str] = None,
-        logger: Optional[logging.Logger] = None
+        logger: Optional[logging.Logger] = None,
+        ass_only: bool = False,
     ) -> Dict[str, Any]:
         """
         Generate a preview video with current corrections.
         Args:
             correction_result: Current correction result
             updated_data: Updated correction data for preview
@@ -287,10 +288,12 @@ class CorrectionOperations:
             artist: Optional artist name
             title: Optional title
             logger: Optional logger instance
+            ass_only: If True, generate only ASS subtitles without video encoding.
+                      Useful when video encoding is offloaded to external service.
         Returns:
-            Dict with status, preview_hash, and video_path
+            Dict with status, preview_hash, and video_path (or ass_path if ass_only)
         Raises:
             ValueError: If preview video generation fails
         """
@@ -338,15 +341,27 @@ class CorrectionOperations:
             audio_filepath=audio_filepath,
             artist=artist,
             title=title,
+            ass_only=ass_only,
         )
+        # When ass_only, we only need the ASS file (video encoding done externally)
+        if ass_only:
+            if not preview_outputs.ass:
+                raise ValueError("Preview ASS generation failed")
+            logger.info(f"Generated preview ASS: {preview_outputs.ass}")
+            return {
+                "status": "success",
+                "preview_hash": preview_hash,
+                "ass_path": preview_outputs.ass,
+            }
         if not preview_outputs.video:
             raise ValueError("Preview video generation failed")
         logger.info(f"Generated preview video: {preview_outputs.video}")
         return {
             "status": "success",
             "preview_hash": preview_hash,
-            "video_path": preview_outputs.video
+            "video_path": preview_outputs.video,
         }

lyrics_transcriber/correction/phrase_analyzer.py CHANGED Viewed

@@ -5,6 +5,14 @@ import logging
 from lyrics_transcriber.correction.text_utils import clean_text
 from lyrics_transcriber.types import PhraseType, PhraseScore
+# Try to import preloader (may not exist in standalone library usage)
+try:
+    from backend.services.spacy_preloader import get_preloaded_model
+    _HAS_PRELOADER = True
+except ImportError:
+    _HAS_PRELOADER = False
 class PhraseAnalyzer:
     """Language-agnostic phrase analyzer using spaCy"""
@@ -17,6 +25,16 @@ class PhraseAnalyzer:
             language_code: spaCy language model to use
         """
         self.logger = logger
+        # Try to use preloaded model first (avoids 60+ second load on Cloud Run)
+        if _HAS_PRELOADER:
+            preloaded = get_preloaded_model(language_code)
+            if preloaded is not None:
+                self.logger.info(f"Using preloaded SpaCy model: {language_code}")
+                self.nlp = preloaded
+                return
+        # Fall back to loading model directly
         self.logger.info(f"Initializing PhraseAnalyzer with language model: {language_code}")
         try:
             self.nlp = spacy.load(language_code)

lyrics_transcriber/frontend/package-lock.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
   "name": "lyrics-transcriber-frontend",
-  "version": "0.83.0",
+  "version": "0.84.0",
   "lockfileVersion": 3,
   "requires": true,
   "packages": {
     "": {
       "name": "lyrics-transcriber-frontend",
-      "version": "0.83.0",
+      "version": "0.84.0",
       "dependencies": {
         "@emotion/react": "^11.14.0",
         "@emotion/styled": "^11.14.0",

lyrics_transcriber/frontend/package.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "name": "lyrics-transcriber-frontend",
   "private": true,
   "homepage": "https://nomadkaraoke.github.io/lyrics-transcriber-frontend",
-  "version": "0.83.0",
+  "version": "0.86.0",
   "type": "module",
   "scripts": {
     "dev": "vite",

lyrics_transcriber/frontend/src/components/AIFeedbackModal.tsx CHANGED Viewed

@@ -98,7 +98,7 @@ export const AIFeedbackModal: React.FC<Props> = ({ isOpen, onClose, onSubmit, su
             onClick={() =>
               onSubmit({ reviewerAction, finalText: finalText || undefined, reasonCategory, reasonDetail: reasonDetail || undefined })
             }
-            style={{ background: '#f97316', color: '#fff', border: 'none', borderRadius: 4, padding: '6px 12px', cursor: 'pointer' }}
+            style={{ background: '#ff7acc', color: '#fff', border: 'none', borderRadius: 4, padding: '6px 12px', cursor: 'pointer' }}
           >
             Submit
           </button>

lyrics_transcriber/frontend/src/components/CorrectedWordWithActions.tsx CHANGED Viewed

@@ -43,21 +43,21 @@ const WordContainer = styled(Box, {
         '50%': { opacity: 0.5 }
     },
     '&:hover': {
-        backgroundColor: 'rgba(34, 197, 94, 0.35)' // green tint hover for dark mode
+        backgroundColor: 'rgba(34, 197, 94, 0.35)' // green tint hover - works for both modes
     }
 }))
-const OriginalWordLabel = styled(Box)({
+const OriginalWordLabel = styled(Box)(({ theme }) => ({
     position: 'absolute',
     top: '-14px',
     left: '0',
     fontSize: '0.6rem',
-    color: '#888888', // slate-400 for dark mode
+    color: theme.palette.text.secondary, // Theme-aware text color
     textDecoration: 'line-through',
     opacity: 0.7,
     whiteSpace: 'nowrap',
     pointerEvents: 'none'
-})
+}))
 const ActionsContainer = styled(Box)({
     display: 'inline-flex',
@@ -72,10 +72,14 @@ const ActionButton = styled(IconButton)(({ theme }) => ({
     minHeight: '20px',
     width: '20px',
     height: '20px',
-    backgroundColor: 'rgba(30, 41, 59, 0.9)', // slate-800 with opacity for dark mode
-    border: '1px solid rgba(248, 250, 252, 0.1)', // light border for dark mode
+    backgroundColor: theme.palette.mode === 'dark'
+        ? 'rgba(30, 41, 59, 0.9)'   // slate-800 with opacity for dark mode
+        : 'rgba(241, 245, 249, 0.9)', // slate-100 for light mode
+    border: `1px solid ${theme.palette.divider}`,
     '&:hover': {
-        backgroundColor: 'rgba(51, 65, 85, 1)', // slate-700 for dark mode
+        backgroundColor: theme.palette.mode === 'dark'
+            ? 'rgba(51, 65, 85, 1)'   // slate-700 for dark mode
+            : 'rgba(226, 232, 240, 1)', // slate-200 for light mode
         transform: 'scale(1.1)'
     },
     '& .MuiSvgIcon-root': {

karaoke-gen 0.90.1__py3-none-any.whl → 0.99.3__py3-none-any.whl

karaoke-gen 0.90.1py3-none-any.whl → 0.99.3py3-none-any.whl