PyPI - omni-captions-skills - Versions diffs - 0.1.0__tar.gz → 0.1.2__tar.gz - Mend

omni-captions-skills 0.1.0tar.gz → 0.1.2tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (34) hide show

{omni_captions_skills-0.1.0 → omni_captions_skills-0.1.2}/.github/workflows/test.yml RENAMED Viewed

@@ -33,14 +33,16 @@ jobs:
       - name: Install dependencies
         run: |
           pip install --upgrade pip
-          pip install -e ".[all]"
+          pip install -e ".[all]" --extra-index-url https://lattifai.github.io/pypi/simple
       - name: Test CLI entry point
+        env:
+          LATTIFAI_API_KEY: ${{ secrets.LATTIFAI_API_KEY }}
         run: |
           python -m omnicaptions --help
           omnicaptions --help
           # test LaiCut
-          lai alignment align tests/data/SA1.mp3 tests/data/SA1.vtt tests/data/SA1_LaiCut.vtt
+          lai alignment align -Y tests/data/SA1.mp3 tests/data/SA1.vtt tests/data/SA1_LaiCut.vtt
       - name: Run tests
         run: pytest tests/ -v

{omni_captions_skills-0.1.0 → omni_captions_skills-0.1.2}/.gitignore RENAMED Viewed

@@ -210,3 +210,4 @@ __marimo__/
 .worktrees/
 .DS_Store
+tests/data/SA1_LaiCut.vtt

{omni_captions_skills-0.1.0 → omni_captions_skills-0.1.2}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: omni-captions-skills
-Version: 0.1.0
+Version: 0.1.2
 Summary: AI-powered media transcription with Claude Code skills
 Author: LattifAI
 License-Expression: MIT
@@ -20,12 +20,14 @@ Requires-Dist: google-genai>=1.0.0
 Requires-Dist: lattifai-captions>=0.1.6
 Requires-Dist: yt-dlp>=2025.12.08
 Provides-Extra: all
-Requires-Dist: omnicaptions[dev,laicut]; extra == 'all'
+Requires-Dist: lattifai[diarization]>=1.3.4; extra == 'all'
+Requires-Dist: pytest>=8.0.0; extra == 'all'
+Requires-Dist: ruff>=0.4.0; extra == 'all'
 Provides-Extra: dev
 Requires-Dist: pytest>=8.0.0; extra == 'dev'
 Requires-Dist: ruff>=0.4.0; extra == 'dev'
 Provides-Extra: laicut
-Requires-Dist: lattifai[diarization]>=1.3.0; extra == 'laicut'
+Requires-Dist: lattifai[diarization]>=1.3.4; extra == 'laicut'
 Description-Content-Type: text/markdown
 # omni-captions-skills
@@ -94,6 +96,15 @@ Vibe coding 就是不用自己写代码的编程方式。
 Standard transcription gives "approximate" timestamps. LaiCut uses [LattifAI](https://lattifai.com/) Lattice-1 model to match text precisely to audio waveforms, achieving **word-level accuracy**.
+**Install LaiCut:**
+```bash
+# Using uv (recommended, auto-configures package index)
+uv pip install "omni-captions-skills[laicut]" --extra-index-url https://lattifai.github.io/pypi/simple/
+# Using pip
+pip install "omni-captions-skills[laicut]" --extra-index-url https://lattifai.github.io/pypi/simple/
+```
 **Supported languages:** English, Chinese, German, and mixed
 **Recommended workflow:** Align before translate (translated text doesn't match original audio)

{omni_captions_skills-0.1.0 → omni_captions_skills-0.1.2}/README.md RENAMED Viewed

@@ -64,6 +64,15 @@ Vibe coding 就是不用自己写代码的编程方式。
 Standard transcription gives "approximate" timestamps. LaiCut uses [LattifAI](https://lattifai.com/) Lattice-1 model to match text precisely to audio waveforms, achieving **word-level accuracy**.
+**Install LaiCut:**
+```bash
+# Using uv (recommended, auto-configures package index)
+uv pip install "omni-captions-skills[laicut]" --extra-index-url https://lattifai.github.io/pypi/simple/
+# Using pip
+pip install "omni-captions-skills[laicut]" --extra-index-url https://lattifai.github.io/pypi/simple/
+```
 **Supported languages:** English, Chinese, German, and mixed
 **Recommended workflow:** Align before translate (translated text doesn't match original audio)

{omni_captions_skills-0.1.0 → omni_captions_skills-0.1.2}/README_zh.md RENAMED Viewed

@@ -64,6 +64,15 @@ Vibe coding 就是不用自己写代码的编程方式。
 普通转录的时间戳只是"大概"，LaiCut 使用 [LattifAI](https://lattifai.com/) Lattice-1 模型将文本与音频波形精确匹配，实现**词级精度**。
+**安装 LaiCut：**
+```bash
+# 使用 uv（推荐，自动配置包索引）
+uv pip install "omni-captions-skills[laicut]"
+# 使用 pip
+pip install "omni-captions-skills[laicut]" --extra-index-url https://lattifai.github.io/pypi/simple/
+```
 **支持语言：** 英语、中文、德语及混合
 **推荐工作流：** 先对齐再翻译（翻译文本与原始音频不匹配，无法对齐）

{omni_captions_skills-0.1.0 → omni_captions_skills-0.1.2}/pyproject.toml RENAMED Viewed

@@ -4,7 +4,7 @@ build-backend = "hatchling.build"
 [project]
 name = "omni-captions-skills"
-version = "0.1.0"
+version = "0.1.2"
 description = "AI-powered media transcription with Claude Code skills"
 readme = "README.md"
 license = "MIT"
@@ -37,10 +37,10 @@ dev = [
     "ruff>=0.4.0",
 ]
 laicut = [
-    "lattifai[diarization]>=1.3.0",
+    "lattifai[diarization]>=1.3.4",
 ]
 all = [
-    "omnicaptions[dev,laicut]",
+    "omni-captions-skills[dev,laicut]",
 ]
 [project.scripts]
@@ -60,3 +60,6 @@ target-version = "py310"
 [tool.ruff.lint]
 select = ["E", "F", "I"]
 ignore = ["E501"]
+[tool.uv]
+extra-index-url = ["https://lattifai.github.io/pypi/simple/"]

{omni_captions_skills-0.1.0 → omni_captions_skills-0.1.2}/skills/omnicaptions-LaiCut/SKILL.md RENAMED Viewed

@@ -1,7 +1,7 @@
 ---
 name: omnicaptions-LaiCut
 description: Use when user needs accurate/precise caption timing, or aligning captions with audio/video using forced alignment. Corrects caption timing to match actual speech. Uses LattifAI Lattice-1 model.
-allowed-tools: Bash(omnicaptions:*)
+allowed-tools: Read, Bash(omnicaptions:*), Bash(lai:*)
 ---
 # LaiCut
@@ -27,10 +27,7 @@ LattifAI's audio-text processing toolkit. Currently supports forced alignment, w
 ## Setup
 ```bash
-pip install "lattifai-captions[splitting] @ https://github.com/lattifai/omni-captions-skills/raw/main/packages/lattifai_captions-0.1.0.tar.gz"
-pip install https://github.com/lattifai/omni-captions-skills/raw/main/packages/omnicaptions-0.1.0.tar.gz
-pip install https://github.com/lattifai/omni-captions-skills/raw/main/packages/lattifai_core-0.6.1.tar.gz
-pip install "lattifai[alignment] @ https://github.com/lattifai/omni-captions-skills/raw/main/packages/lattifai-1.2.2.tar.gz"
+pip install "omni-captions-skills[laicut]" --extra-index-url https://lattifai.github.io/pypi/simple/
 ```
 ## API Key

{omni_captions_skills-0.1.0 → omni_captions_skills-0.1.2}/skills/omnicaptions-convert/SKILL.md RENAMED Viewed

@@ -35,8 +35,7 @@ omnicaptions convert transcript.md -o output.vtt
 ## Setup
 ```bash
-pip install https://github.com/lattifai/omni-captions-skills/raw/main/packages/lattifai_captions-0.1.0.tar.gz
-pip install https://github.com/lattifai/omni-captions-skills/raw/main/packages/omnicaptions-0.1.0.tar.gz
+pip install omni-captions-skills
 ```
 ## Quick Reference

{omni_captions_skills-0.1.0 → omni_captions_skills-0.1.2}/skills/omnicaptions-download/SKILL.md RENAMED Viewed

@@ -43,8 +43,7 @@ Only proceed with the download command after user confirms.
 ## Setup
 ```bash
-pip install https://github.com/lattifai/omni-captions-skills/raw/main/packages/lattifai_captions-0.1.0.tar.gz
-pip install https://github.com/lattifai/omni-captions-skills/raw/main/packages/omnicaptions-0.1.0.tar.gz
+pip install omni-captions-skills
 ```
 ## CLI Usage
@@ -55,6 +54,9 @@ pip install https://github.com/lattifai/omni-captions-skills/raw/main/packages/o
 # Download audio only (default, saves to current directory)
 omnicaptions download "https://www.youtube.com/watch?v=VIDEO_ID"
+# Supports bare YouTube video ID (auto-validates via yt-dlp)
+omnicaptions download e882eXLtwkI
 # Download video (1080p recommended)
 omnicaptions download "https://youtube.com/watch?v=VIDEO_ID" -q 1080p

{omni_captions_skills-0.1.0 → omni_captions_skills-0.1.2}/skills/omnicaptions-transcribe/SKILL.md RENAMED Viewed

@@ -60,8 +60,7 @@ omnicaptions transcribe video.mp4
 ## Setup
 ```bash
-pip install https://github.com/lattifai/omni-captions-skills/raw/main/packages/lattifai_captions-0.1.0.tar.gz
-pip install https://github.com/lattifai/omni-captions-skills/raw/main/packages/omnicaptions-0.1.0.tar.gz
+pip install omni-captions-skills
 ```
 ## API Key

{omni_captions_skills-0.1.0 → omni_captions_skills-0.1.2}/skills/omnicaptions-translate/SKILL.md RENAMED Viewed

@@ -41,8 +41,7 @@ Output: `input_Gemini_zh.srt`
 ## Setup
 ```bash
-pip install https://github.com/lattifai/omni-captions-skills/raw/main/packages/lattifai_captions-0.1.0.tar.gz
-pip install https://github.com/lattifai/omni-captions-skills/raw/main/packages/omnicaptions-0.1.0.tar.gz
+pip install omni-captions-skills
 ```
 ## API Key

{omni_captions_skills-0.1.0 → omni_captions_skills-0.1.2}/src/omnicaptions/caption.py RENAMED Viewed

@@ -50,6 +50,45 @@ VIDEO_PLATFORM_PATTERNS = [
     r"x\.com/.*/status",
 ]
+# YouTube video ID pattern: 11 alphanumeric chars with hyphens and underscores
+YOUTUBE_VIDEO_ID_RE = re.compile(r"^[a-zA-Z0-9_-]{11}$")
+def is_youtube_video_id(value: str) -> bool:
+    """Check if a string looks like a bare YouTube video ID."""
+    return bool(YOUTUBE_VIDEO_ID_RE.match(value))
+def resolve_video_input(url_or_id: str) -> str:
+    """Resolve a video URL or bare YouTube video ID to a full URL.
+    If the input is a bare YouTube video ID, validates it via yt-dlp
+    extract_info and converts to a full URL. Otherwise returns as-is.
+    Raises:
+        ValueError: If the video ID does not exist or is unavailable.
+    """
+    if not is_youtube_video_id(url_or_id):
+        return url_or_id
+    import yt_dlp
+    full_url = f"https://www.youtube.com/watch?v={url_or_id}"
+    ydl_opts = {"quiet": True, "no_warnings": True, "skip_download": True}
+    with yt_dlp.YoutubeDL(ydl_opts) as ydl:
+        try:
+            info = ydl.extract_info(full_url, download=False)
+        except yt_dlp.utils.DownloadError as e:
+            raise ValueError(f"YouTube video '{url_or_id}' not found or unavailable: {e}") from e
+        if not info:
+            raise ValueError(f"YouTube video '{url_or_id}' not found or unavailable")
+    logging.info(
+        "Resolved video ID '%s' → %s (title: %s)", url_or_id, full_url, info.get("title", "")
+    )
+    return full_url
 LANGUAGE_NAMES = {
     "zh": "Chinese (Simplified)",
     "zh-TW": "Chinese (Traditional)",
@@ -313,9 +352,9 @@ class GeminiCaption:
         video_path = None
         caption_path = None
-        audio_exts = (".webm", ".m4a", ".mp3", ".opus", ".ogg", ".wav")
+        audio_exts = (".mp3", ".m4a", ".mp3", ".opus", ".ogg", ".wav")
         video_exts = (".mp4", ".mkv", ".avi", ".mov", ".flv")
-        caption_exts = (".vtt", ".srt", ".ass")
+        caption_exts = (".vtt", ".srt", ".ass", ".srv3")
         for f in output_dir.iterdir():
             # Check if filename starts with video_id
@@ -341,10 +380,11 @@ class GeminiCaption:
             if caption_path:
                 self.logger.info(f"Downloaded caption: {caption_path}")
-        # Save metadata to .meta.json for later use (e.g., ASS font scaling)
+        # Save metadata to .meta.json for later use (e.g., ASS font scaling, video_url tracking)
         meta_path = output_dir / f"{video_id}.meta.json"
         meta_data = {
             "video_id": video_id,
+            "video_url": url,
             "title": title,
             "width": video_width,
             "height": video_height,

{omni_captions_skills-0.1.0 → omni_captions_skills-0.1.2}/src/omnicaptions/cli.py RENAMED Viewed

@@ -6,6 +6,13 @@ import subprocess
 import sys
 from pathlib import Path
+try:
+    from dotenv import load_dotenv
+    load_dotenv()
+except ImportError:
+    pass
 from lattifai.caption import Caption, GeminiReader
 from .caption import GeminiCaption, GeminiCaptionConfig
@@ -343,8 +350,12 @@ def ensure_api_key(api_key: str | None = None) -> bool:
 def is_url(path: str) -> bool:
-    """Check if path is a URL."""
-    return path.startswith(("http://", "https://", "youtube.com", "youtu.be"))
+    """Check if path is a URL or a bare YouTube video ID."""
+    from .caption import is_youtube_video_id
+    return path.startswith(
+        ("http://", "https://", "youtube.com", "youtu.be")
+    ) or is_youtube_video_id(path)
 def get_default_output_dir(input_path: str) -> Path:
@@ -363,8 +374,13 @@ def get_stem_from_input(input_path: str) -> str:
     """Extract stem (filename without extension) from input.
     For URLs, extract video ID or use 'output'.
+    For bare YouTube video IDs, return the ID directly.
     For files, use the file stem.
     """
+    from .caption import is_youtube_video_id
+    if is_youtube_video_id(input_path):
+        return input_path
     if is_url(input_path):
         # Try to extract YouTube video ID
         import re
@@ -461,6 +477,8 @@ def cmd_transcribe(args):
 def cmd_download(args):
     """Download audio/video and captions from video platforms."""
+    from .caption import resolve_video_input
     config = GeminiCaptionConfig(verbose=args.verbose)
     gc = GeminiCaption(config=config)
@@ -469,8 +487,15 @@ def cmd_download(args):
     quality = getattr(args, "quality", "audio")
+    # Resolve bare video ID to full URL (validates via yt-dlp)
     try:
-        result = gc.download(args.url, output_dir, quality)
+        url = resolve_video_input(args.url)
+    except ValueError as e:
+        print(f"Error: {e}", file=sys.stderr)
+        sys.exit(1)
+    try:
+        result = gc.download(url, output_dir, quality)
         if result.video_path:
             print(f"Video: {result.video_path}")
         if result.audio_path:
@@ -691,6 +716,21 @@ def cmd_translate(args):
         sys.exit(1)
+def _detect_metadata(audio_path: Path) -> dict | None:
+    """Detect metadata from .meta.json in the same directory."""
+    import json
+    # Try to find meta.json based on audio filename (e.g., e882eXLtwkI.m4a -> e882eXLtwkI.meta.json)
+    stem = audio_path.stem
+    meta_path = audio_path.parent / f"{stem}.meta.json"
+    if meta_path.exists():
+        try:
+            return json.loads(meta_path.read_text())
+        except Exception:
+            pass
+    return None
 def cmd_laicut_align(args):
     """Align audio with caption using LattifAI forced alignment."""
     # Get API key
@@ -709,6 +749,9 @@ def cmd_laicut_align(args):
     audio_path = Path(args.audio)
     caption_path = Path(args.caption)
+    # Auto-detect metadata from .meta.json
+    metadata = _detect_metadata(audio_path)
     if not audio_path.exists():
         print(f"Error: Audio file not found: {audio_path}", file=sys.stderr)
         sys.exit(1)
@@ -718,7 +761,7 @@ def cmd_laicut_align(args):
         sys.exit(1)
     from lattifai.client import LattifAI
-    from lattifai.config import AlignmentConfig, CaptionConfig, ClientConfig
+    from lattifai.config import AlignmentConfig, CaptionConfig, ClientConfig, EventConfig
     # Determine output path and format
     if args.output:
@@ -746,12 +789,16 @@ def cmd_laicut_align(args):
                 split_sentence=getattr(args, "split_sentence", False),
                 word_level=word_level,
             ),
+            event_config=EventConfig(
+                enabled=True,
+            ),
         )
         client.alignment(
             input_media=str(audio_path),
             input_caption=str(caption_path),
             output_caption_path=str(output_path),
+            metadata=metadata,
         )
         print(f"LaiCut aligned: {output_path}")
     except Exception as e:
@@ -793,7 +840,7 @@ def main():
     p_download = subparsers.add_parser(
         "download", help="Download audio/video and captions from URL"
     )
-    p_download.add_argument("url", help="Video URL (YouTube, Bilibili, etc.)")
+    p_download.add_argument("url", help="Video URL or YouTube video ID (e.g. e882eXLtwkI)")
     p_download.add_argument("-o", "--output", help="Output directory (default: current)")
     p_download.add_argument(
         "-q",