PyPI - speaker-detector - Versions diffs - 0.1.5__tar.gz → 0.1.6__tar.gz - Mend

speaker-detector 0.1.5tar.gz → 0.1.6tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (38) hide show

{speaker_detector-0.1.5 → speaker_detector-0.1.6}/PKG-INFO RENAMED Viewed

@@ -1,7 +1,7 @@
 Metadata-Version: 2.4
 Name: speaker-detector
-Version: 0.1.5
-Summary: A CLI tool for speaker enrollment and identification using SpeechBrain.
+Version: 0.1.6
+Summary: A CLI + Web tool for speaker enrollment and identification using SpeechBrain.
 Author-email: Lara Whybrow <lara.whybrow@gmail.com>
 License: MIT
 Project-URL: Homepage, https://github.com/P0llen/speaker-detector
@@ -22,7 +22,14 @@ Description-Content-Type: text/markdown
 Requires-Dist: torch
 Requires-Dist: torchaudio
 Requires-Dist: speechbrain
-Requires-Dist: onnx
+Requires-Dist: flask
+Requires-Dist: flask-cors
+Requires-Dist: numpy
+Requires-Dist: sounddevice
+Requires-Dist: soundfile
+Requires-Dist: pydub
+Note: Still in development, as I am configuring the system for the most performant approach. Feel free to jump on the project with me.
 # speaker-detector 🎙️
@@ -45,6 +52,12 @@ Install from [TestPyPI](https://test.pypi.org/):
 ```bash
 pip install --index-url https://test.pypi.org/simple/ speaker-detector
+When installing packages with a stale requirement file you might need to use:  pip install --break-system-packages soundfile to install on WSL Ubuntu
+Run this version with -m module flag if you are contributing and want to run server.py:
+python3 -m speaker_detector.server
 ```
 ## 🚀 Usage
@@ -99,3 +112,15 @@ onnxruntime
 NB: When pushing to Github, do not include any .identifier files.
+You can manually clean up stale embeddings that don’t match any existing speaker folder with a quick script:
+# Run inside your project root
+cd storage/embeddings
+for f in *.pt; do
+  speaker="${f%.pt}"
+  if [ ! -d "../speakers/$speaker" ]; then
+    echo "Deleting stale embedding: $f"
+    rm "$f"
+  fi
+done

{speaker_detector-0.1.5 → speaker_detector-0.1.6}/README.md RENAMED Viewed

@@ -1,3 +1,5 @@
+Note: Still in development, as I am configuring the system for the most performant approach. Feel free to jump on the project with me.
 # speaker-detector 🎙️
 A lightweight CLI tool for speaker enrollment and voice identification, powered by [SpeechBrain](https://speechbrain.readthedocs.io/).
@@ -19,6 +21,12 @@ Install from [TestPyPI](https://test.pypi.org/):
 ```bash
 pip install --index-url https://test.pypi.org/simple/ speaker-detector
+When installing packages with a stale requirement file you might need to use:  pip install --break-system-packages soundfile to install on WSL Ubuntu
+Run this version with -m module flag if you are contributing and want to run server.py:
+python3 -m speaker_detector.server
 ```
 ## 🚀 Usage
@@ -72,4 +80,16 @@ onnxruntime
-NB: When pushing to Github, do not include any .identifier files.
+NB: When pushing to Github, do not include any .identifier files.
+You can manually clean up stale embeddings that don’t match any existing speaker folder with a quick script:
+# Run inside your project root
+cd storage/embeddings
+for f in *.pt; do
+  speaker="${f%.pt}"
+  if [ ! -d "../speakers/$speaker" ]; then
+    echo "Deleting stale embedding: $f"
+    rm "$f"
+  fi
+done

{speaker_detector-0.1.5 → speaker_detector-0.1.6}/pyproject.toml RENAMED Viewed

@@ -4,8 +4,8 @@ build-backend = "setuptools.build_meta"
 [project]
 name = "speaker-detector"
-version = "0.1.5"
-description = "A CLI tool for speaker enrollment and identification using SpeechBrain."
+version = "0.1.6"
+description = "A CLI + Web tool for speaker enrollment and identification using SpeechBrain."
 readme = "README.md"
 requires-python = ">=3.8"
 license = { text = "MIT" }
@@ -31,7 +31,12 @@ dependencies = [
   "torch",
   "torchaudio",
   "speechbrain",
-  "onnx"
+  "flask",
+  "flask-cors",
+  "numpy",
+  "sounddevice",
+  "soundfile",
+  "pydub"
 ]
 [project.scripts]
@@ -47,4 +52,12 @@ Documentation = "https://github.com/P0llen/speaker-detector#readme"
 packages = ["speaker_detector"]
 [tool.setuptools.package-data]
-speaker_detector = ["*.onnx", "*.json", "*.yaml", "models/*"]
+speaker_detector = [
+  "*.json",
+  "*.yaml",
+  "model/*",
+  "web/static/*",
+  "web/static/scripts/*",
+  "web/static/templates/*",
+  "web/static/templates/components/*"
+]

{speaker_detector-0.1.5 → speaker_detector-0.1.6}/speaker_detector/cli.py RENAMED Viewed

@@ -21,20 +21,9 @@ def main():
     # ---- list-speakers ----
     subparsers.add_parser("list-speakers", help="List enrolled speakers")
-    # ---- export-model ----
-    model_parser = subparsers.add_parser("export-model", help="Export ECAPA model to ONNX")
-    model_parser.add_argument("--pt", required=True, help="Path to embedding_model.ckpt")
-    model_parser.add_argument("--out", default="speaker_embedding.onnx", help="Output ONNX file")
-    # ---- export-speaker-json ----
-    emb_parser = subparsers.add_parser("export-speaker-json", help="Convert enrolled .pt file to browser-friendly .json")
-    emb_parser.add_argument("--pt", required=True, help="Path to enrolled_speakers.pt")
-    emb_parser.add_argument("--out", default="speakers.json", help="Output .json file for browser")
-    # ---- combine ----
-    comb_parser = subparsers.add_parser("combine", help="Combine individual .pt files into enrolled_speakers.pt")
-    comb_parser.add_argument("--folder", required=True, help="Folder with individual .pt files")
-    comb_parser.add_argument("--out", required=True, help="Output .pt file path")
+    # ---- rebuild ----
+    rebuild_cmd = subparsers.add_parser("rebuild", help="Rebuild embeddings")
+    rebuild_cmd.add_argument("--name", help="Name of the speaker to rebuild (leave empty to rebuild all)", default=None)
     # ---- Parse arguments ----
     args = parser.parse_args()
@@ -46,10 +35,8 @@ def main():
         os.environ["PYTHONWARNINGS"] = "ignore"
     # ---- Import modules after filtering warnings ----
-    from .core import enroll_speaker, identify_speaker, list_speakers
-    from .export_model import export_model_to_onnx
-    from .export_embeddings import export_embeddings_to_json
-    from .combine import combine_embeddings_from_folder
+    from .core import enroll_speaker, identify_speaker, list_speakers, rebuild_embedding
+    from .utils.analyze import rebuild_all_embeddings
     # ---- Command Dispatch ----
     if args.command == "enroll":
@@ -69,14 +56,13 @@ def main():
         else:
             print("⚠️  No speakers enrolled yet.")
-    elif args.command == "export-model":
-        export_model_to_onnx(args.pt, args.out)
-    elif args.command == "export-speaker-json":
-        export_embeddings_to_json(args.pt, args.out)
-    elif args.command == "combine":
-        combine_embeddings_from_folder(args.folder, args.out)
+    elif args.command == "rebuild":
+        if args.name:
+            rebuild_embedding(args.name)
+            print(f"🔁 Rebuilt: {args.name}")
+        else:
+            rebuild_all_embeddings()
+            print("🔁 Rebuilt all embeddings.")
     else:
         parser.print_help()

speaker_detector-0.1.6/speaker_detector/core.py ADDED Viewed

@@ -0,0 +1,116 @@
+# core.py
+from pathlib import Path
+import torch
+import torchaudio
+from speechbrain.inference import SpeakerRecognition
+# ── DIRECTORIES ──────────────────────────────────────────────────────────────
+BASE_DIR = Path(__file__).resolve().parent.parent / "storage"
+SPEAKER_AUDIO_DIR = BASE_DIR / "speakers"
+EMBEDDINGS_DIR = BASE_DIR / "embeddings"
+NOISE_DIR = BASE_DIR / "background_noise"
+SPEAKER_AUDIO_DIR.mkdir(parents=True, exist_ok=True)
+EMBEDDINGS_DIR.mkdir(parents=True, exist_ok=True)
+NOISE_DIR.mkdir(parents=True, exist_ok=True)
+# ── MODEL LOADING ────────────────────────────────────────────────────────────
+MODEL = SpeakerRecognition.from_hparams(
+    source="speechbrain/spkrec-ecapa-voxceleb",
+    savedir="model"
+)
+# ── EMBEDDING HELPERS ────────────────────────────────────────────────────────
+def get_embedding(audio_path: str) -> torch.Tensor:
+    signal, fs = torchaudio.load(audio_path)
+    if signal.numel() == 0:
+        raise ValueError(f"{audio_path} is empty.")
+    return MODEL.encode_batch(signal).squeeze().detach().cpu()
+def average_embeddings(paths: list[str]) -> torch.Tensor:
+    embeddings = [get_embedding(p) for p in paths]
+    return torch.stack(embeddings).mean(dim=0)
+# ── ENROLL / IMPROVE ─────────────────────────────────────────────────────────
+def enroll_speaker(audio_path: str, speaker_id: str) -> None:
+    speaker_dir = SPEAKER_AUDIO_DIR / speaker_id
+    speaker_dir.mkdir(parents=True, exist_ok=True)
+    existing = list(speaker_dir.glob("*.wav"))
+    dest_path = speaker_dir / f"{len(existing)+1}.wav"
+    waveform, sr = torchaudio.load(audio_path)
+    if waveform.numel() == 0:
+        raise ValueError("Cannot enroll empty audio file.")
+    torchaudio.save(str(dest_path), waveform, sr)
+    emb = get_embedding(audio_path)
+    torch.save(emb, EMBEDDINGS_DIR / f"{speaker_id}.pt")
+def rebuild_embedding(speaker_id: str) -> None:
+    speaker_dir = SPEAKER_AUDIO_DIR / speaker_id
+    wavs = list(speaker_dir.glob("*.wav"))
+    if not wavs:
+        raise RuntimeError(f"No recordings for {speaker_id}.")
+    emb = average_embeddings([str(w) for w in wavs])
+    torch.save(emb, EMBEDDINGS_DIR / f"{speaker_id}.pt")
+# ── BACKGROUND NOISE MODELING ────────────────────────────────────────────────
+def compute_background_embedding() -> None:
+    paths = [str(p) for p in NOISE_DIR.glob("*.wav")]
+    if not paths:
+        raise RuntimeError("No background noise samples.")
+    emb = average_embeddings(paths)
+    torch.save(emb, EMBEDDINGS_DIR / "background_noise.pt")
+# ── IDENTIFICATION ───────────────────────────────────────────────────────────
+def identify_speaker(audio_path: str, threshold: float = 0.25) -> tuple[str, float]:
+    try:
+        test_emb = get_embedding(audio_path)
+    except Exception:
+        return "error", 0.0
+    scores = {}
+    for emb_path in EMBEDDINGS_DIR.glob("*.pt"):
+        name = emb_path.stem
+        try:
+            emb = torch.load(emb_path)
+            score = torch.nn.functional.cosine_similarity(emb, test_emb, dim=0).item()
+            scores[name] = score
+        except:
+            continue
+    if not scores:
+        return "unknown", 0.0
+    sorted_scores = sorted(scores.items(), key=lambda kv: kv[1], reverse=True)
+    best, best_score = sorted_scores[0]
+    second_score = sorted_scores[1][1] if len(sorted_scores) > 1 else 0.0
+    auto_thresh = (best_score - second_score) > 0.1
+    match = auto_thresh or best_score >= threshold
+    return (best, round(best_score, 3)) if match else ("unknown", round(best_score, 3))
+# ── REBUILD CHECKING ─────────────────────────────────────────────────────────
+def list_speakers() -> list[str]:
+    return [p.name for p in SPEAKER_AUDIO_DIR.iterdir() if p.is_dir()]
+def speaker_needs_rebuild(speaker_id: str) -> bool:
+    speaker_dir = SPEAKER_AUDIO_DIR / speaker_id
+    emb_path = EMBEDDINGS_DIR / f"{speaker_id}.pt"
+    if not emb_path.exists():
+        return True
+    emb_mtime = emb_path.stat().st_mtime
+    for wav in speaker_dir.glob("*.wav"):
+        if wav.stat().st_mtime > emb_mtime:
+            return True
+    return False
+def get_speakers_needing_rebuild() -> list[str]:
+    return [s for s in list_speakers() if speaker_needs_rebuild(s)]
+# ── ALIAS FOR COMPATIBILITY ──────────────────────────────────────────────────
+rebuild_embeddings_for_speaker = rebuild_embedding

speaker_detector-0.1.6/speaker_detector/model/classifier.ckpt ADDED Viewed

Binary file

speaker_detector-0.1.6/speaker_detector/model/embedding_model.ckpt ADDED Viewed

Binary file

speaker_detector-0.1.6/speaker_detector/model/hyperparams.yaml ADDED Viewed

@@ -0,0 +1,58 @@
+# ############################################################################
+# Model: ECAPA big for Speaker verification
+# ############################################################################
+# Feature parameters
+n_mels: 80
+# Pretrain folder (HuggingFace)
+pretrained_path: speechbrain/spkrec-ecapa-voxceleb
+# Output parameters
+out_n_neurons: 7205
+# Model params
+compute_features: !new:speechbrain.lobes.features.Fbank
+    n_mels: !ref <n_mels>
+mean_var_norm: !new:speechbrain.processing.features.InputNormalization
+    norm_type: sentence
+    std_norm: False
+embedding_model: !new:speechbrain.lobes.models.ECAPA_TDNN.ECAPA_TDNN
+    input_size: !ref <n_mels>
+    channels: [1024, 1024, 1024, 1024, 3072]
+    kernel_sizes: [5, 3, 3, 3, 1]
+    dilations: [1, 2, 3, 4, 1]
+    attention_channels: 128
+    lin_neurons: 192
+classifier: !new:speechbrain.lobes.models.ECAPA_TDNN.Classifier
+    input_size: 192
+    out_neurons: !ref <out_n_neurons>
+mean_var_norm_emb: !new:speechbrain.processing.features.InputNormalization
+    norm_type: global
+    std_norm: False
+modules:
+    compute_features: !ref <compute_features>
+    mean_var_norm: !ref <mean_var_norm>
+    embedding_model: !ref <embedding_model>
+    mean_var_norm_emb: !ref <mean_var_norm_emb>
+    classifier: !ref <classifier>
+label_encoder: !new:speechbrain.dataio.encoder.CategoricalEncoder
+pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer
+    loadables:
+        embedding_model: !ref <embedding_model>
+        mean_var_norm_emb: !ref <mean_var_norm_emb>
+        classifier: !ref <classifier>
+        label_encoder: !ref <label_encoder>
+    paths:
+        embedding_model: !ref <pretrained_path>/embedding_model.ckpt
+        mean_var_norm_emb: !ref <pretrained_path>/mean_var_norm_emb.ckpt
+        classifier: !ref <pretrained_path>/classifier.ckpt
+        label_encoder: !ref <pretrained_path>/label_encoder.txt

speaker-detector 0.1.5__tar.gz → 0.1.6__tar.gz

speaker-detector 0.1.5tar.gz → 0.1.6tar.gz