npm - stock-weekly-report - Versions diffs - 0.2.1 → 0.2.2 - Mend

stock-weekly-report 0.2.1 → 0.2.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

package/fetch_episodes.py CHANGED Viewed

@@ -6,7 +6,10 @@ Fetches RSS feeds from Soundon, finds episodes published within the
 configured lookback window, and downloads the audio files.
 Output structure:
-  {parent_folder}/audio/{YYYYMMDD}-{YYYYMMDD}/{program_name}_{YYYYMMDD}.ext
+  {parent_folder}/audio/{program_name}/{program_name}_{YYYYMMDD}.ext
+Each speaker has a persistent folder. Downloads are skipped if the file
+already exists (checked by filename / date), so re-runs are safe.
 """
 import os
@@ -144,11 +147,10 @@ def fetch_and_download(config: dict, folder_name: str | None = None) -> None:
         end_date   = date(int(parts[1][:4]), int(parts[1][4:6]), int(parts[1][6:8]))
     parent_folder = Path(config["parent_folder"])
-    audio_dir = parent_folder / "audio" / run_folder
-    audio_dir.mkdir(parents=True, exist_ok=True)
+    audio_root = parent_folder / "audio"
     print(f"Date range  : {start_date} → {end_date}")
-    print(f"Audio folder: {audio_dir}")
+    print(f"Audio root  : {audio_root}")
     print()
     total_downloaded = 0
@@ -157,6 +159,9 @@ def fetch_and_download(config: dict, folder_name: str | None = None) -> None:
         program_name = feed_cfg["name"]
         feed_url = feed_cfg["url"]
+        speaker_dir = audio_root / program_name
+        speaker_dir.mkdir(parents=True, exist_ok=True)
         print(f"[{program_name}] Fetching feed …")
         parsed = feedparser.parse(feed_url)
@@ -180,7 +185,7 @@ def fetch_and_download(config: dict, folder_name: str | None = None) -> None:
             ext = url_extension(audio_url)
             date_str = pub_date.strftime("%Y%m%d")
             filename = f"{program_name}_{date_str}{ext}"
-            dest = audio_dir / filename
+            dest = speaker_dir / filename
             if dest.exists():
                 print(f"  SKIP (already downloaded): {filename}")
@@ -203,7 +208,7 @@ def fetch_and_download(config: dict, folder_name: str | None = None) -> None:
             print(f"  No new episodes in the past {lookback_days} days.")
         print()
-    print(f"Done. {total_downloaded} file(s) newly downloaded → {audio_dir}")
+    print(f"Done. {total_downloaded} file(s) newly downloaded → {audio_root}")
 def run(config_path: str = "config.yaml") -> None:

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "stock-weekly-report",
-  "version": "0.2.1",
+  "version": "0.2.2",
   "description": "Stock weekly podcast report pipeline — CLI and MCP server",
   "bin": {
     "swr": "bin/swr.js",

package/pipeline.py CHANGED Viewed

@@ -79,15 +79,24 @@ def validate_audio_files(config: dict, folder_name: str) -> bool:
       - Returns False (abort) only when zero usable audio files remain after cleanup.
     """
     banner("GUARD — Audio File Integrity")
-    audio_dir = Path(config["parent_folder"]) / "audio" / folder_name
+    audio_root = Path(config["parent_folder"]) / "audio"
+    parts = folder_name.split("-")
+    start_str, end_str = parts[0], parts[1]
     audio_files = []
-    for ext in SUPPORTED_AUDIO_EXTS:
-        audio_files.extend(audio_dir.glob(f"*{ext}"))
+    if audio_root.exists():
+        for speaker_dir in sorted(audio_root.iterdir()):
+            if not speaker_dir.is_dir():
+                continue
+            for ext in SUPPORTED_AUDIO_EXTS:
+                for f in speaker_dir.glob(f"*{ext}"):
+                    date_str = f.stem.split("_")[-1]
+                    if len(date_str) == 8 and start_str <= date_str <= end_str:
+                        audio_files.append(f)
     audio_files = sorted(audio_files)
     if not audio_files:
-        print(f"  ERROR: No audio files found in {audio_dir}")
+        print(f"  ERROR: No audio files found in {audio_root}")
         return False
     usable = 0
@@ -244,15 +253,51 @@ def _cleanup_data_dir(data_root: Path, label: str,
         print(f"\n  Cleaned up {removed_folders} folder(s).")
+def _cleanup_audio_by_speaker(audio_root: Path, months: int) -> None:
+    """Delete audio files older than `months` from per-speaker subdirectories."""
+    if months <= 0:
+        print(f"  Audio: retention = 0 (keep forever), skipping.")
+        return
+    banner(f"CLEANUP — Audio (keep {months} month{'s' if months != 1 else ''})")
+    if not audio_root.exists():
+        print(f"  Directory not found: {audio_root}")
+        return
+    cutoff = _cutoff_date(months)
+    print(f"  Cutoff date : {cutoff}  (deleting files published before this date)")
+    removed = 0
+    for speaker_dir in sorted(audio_root.iterdir()):
+        if not speaker_dir.is_dir():
+            continue
+        for ext in SUPPORTED_AUDIO_EXTS:
+            for f in speaker_dir.glob(f"*{ext}"):
+                date_str = f.stem.split("_")[-1]
+                try:
+                    file_date = datetime.strptime(date_str, "%Y%m%d").date()
+                except ValueError:
+                    continue
+                if file_date < cutoff:
+                    size_mb = f.stat().st_size / (1024 * 1024)
+                    print(f"  Deleting ({size_mb:.1f} MB): {speaker_dir.name}/{f.name}")
+                    f.unlink()
+                    removed += 1
+    if removed == 0:
+        print("  No old audio files to remove.")
+    else:
+        print(f"  Removed {removed} file(s).")
 def cleanup_old_data(config: dict) -> bool:
     """Clean up old audio, transcript, and report files per retention config."""
     retention = config.get("retention", {})
     parent    = Path(config["parent_folder"])
-    _cleanup_data_dir(
+    _cleanup_audio_by_speaker(
         parent / "audio",
-        "Audio",
-        SUPPORTED_AUDIO_EXTS,
         int(retention.get("audio_months", 3)),
     )
     _cleanup_data_dir(
@@ -340,7 +385,7 @@ def main() -> None:
         results["fetch"] = "skipped"
     # ── Guard: Audio integrity ───────────────────────────────────────
-    if not args.skip_fetch and not args.skip_transcribe:
+    if not args.skip_transcribe:
         ok = validate_audio_files(config, folder_name)
         results["audio_check"] = ok
         if not ok:

package/pyproject.toml CHANGED Viewed

@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 [project]
 name = "stock-weekly-report"
-version = "0.2.1"
+version = "0.2.2"
 requires-python = ">=3.10"
 authors = [
     { name = "Chang Yu Chuan", email = "changyuchuanmicron@gmail.com" },

package/send_report.py CHANGED Viewed

@@ -439,7 +439,7 @@ def save_report(config: dict, folder_name: str, body: str) -> Path:
     """Save the report text to disk and return the file path."""
     report_dir = Path(config["parent_folder"]) / "reports" / folder_name
     report_dir.mkdir(parents=True, exist_ok=True)
-    report_path = report_dir / "weekly_report.txt"
+    report_path = report_dir / f"weekly_report_{folder_name}.txt"
     report_path.write_text(body, encoding="utf-8")
     print(f"  Report saved to: {report_path}")
     return report_path

package/transcribe.py CHANGED Viewed

@@ -15,6 +15,9 @@ Usage:
   python transcribe.py --folder 20260218-20260225
   python transcribe.py --config my_config.yaml --folder 20260218-20260225
+Input structure:
+  {parent_folder}/audio/{program_name}/{program_name}_{YYYYMMDD}.ext
 Output structure:
   {parent_folder}/transcripts/{YYYYMMDD}-{YYYYMMDD}/{stem}.txt
 """
@@ -51,10 +54,26 @@ def default_folder_name(lookback_days: int) -> str:
     return f"{start.strftime('%Y%m%d')}-{today.strftime('%Y%m%d')}"
-def find_audio_files(audio_dir: Path) -> list[Path]:
+def find_audio_files_for_run(audio_root: Path, folder_name: str) -> list[Path]:
+    """Collect audio files across per-speaker subdirs whose date falls in the run window.
+    Expects filenames of the form {speaker}_{YYYYMMDD}.ext so the date can be
+    extracted from the stem suffix.
+    """
+    parts = folder_name.split("-")
+    start_str, end_str = parts[0], parts[1]
     files = []
-    for ext in SUPPORTED_AUDIO_EXTS:
-        files.extend(audio_dir.glob(f"*{ext}"))
+    if not audio_root.exists():
+        return files
+    for speaker_dir in sorted(audio_root.iterdir()):
+        if not speaker_dir.is_dir():
+            continue
+        for ext in SUPPORTED_AUDIO_EXTS:
+            for f in speaker_dir.glob(f"*{ext}"):
+                date_str = f.stem.split("_")[-1]
+                if len(date_str) == 8 and start_str <= date_str <= end_str:
+                    files.append(f)
     return sorted(files)
@@ -150,18 +169,14 @@ def transcribe_folder(config: dict, folder_name: str) -> None:
     from faster_whisper import WhisperModel
     parent_folder = Path(config["parent_folder"])
-    audio_dir = parent_folder / "audio" / folder_name
+    audio_root = parent_folder / "audio"
     transcript_dir = parent_folder / "transcripts" / folder_name
-    if not audio_dir.exists():
-        print(f"ERROR: Audio directory not found: {audio_dir}")
-        sys.exit(1)
     transcript_dir.mkdir(parents=True, exist_ok=True)
-    audio_files = find_audio_files(audio_dir)
+    audio_files = find_audio_files_for_run(audio_root, folder_name)
     if not audio_files:
-        print(f"No audio files found in {audio_dir}")
+        print(f"No audio files found in {audio_root} for run window {folder_name}")
         return
     model_name = config.get("whisper_model", "medium")
@@ -171,7 +186,7 @@ def transcribe_folder(config: dict, folder_name: str) -> None:
     print(f"Whisper model   : {model_name}  (faster-whisper / CTranslate2)")
     print(f"Compute type    : {compute_type}")
     print(f"Language hint   : {language}")
-    print(f"Audio folder    : {audio_dir}")
+    print(f"Audio root      : {audio_root}")
     print(f"Transcript dir  : {transcript_dir}")
     print(f"Files to process: {len(audio_files)}")
     print(f"Max retries     : {MAX_RETRIES}")