PyPI - codebeacon - Versions diffs - 0.3.2__tar.gz → 0.4.0__tar.gz - Mend

codebeacon 0.3.2tar.gz → 0.4.0tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (123) hide show

{codebeacon-0.3.2 → codebeacon-0.4.0}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: codebeacon
-Version: 0.3.2
+Version: 0.4.0
 Summary: Source code AST analysis tool for AI context generation — unified multi-framework knowledge graph
 Project-URL: Homepage, https://github.com/codebeacon/codebeacon
 Project-URL: Repository, https://github.com/codebeacon/codebeacon
@@ -97,6 +97,7 @@ Existing tools solve this partially. Route analyzers map your controllers but mi
 - **Zero configuration** — auto-detects frameworks and languages; generates `codebeacon.yaml` for repeat runs
 - **Deep-dive mode** — `--deep-dive` generates per-project `.codebeacon/` + `CLAUDE.md` for every sub-project; running `codebeacon scan . --update` from any sub-project folder automatically syncs all projects in the workspace
 - **Workspace auto-rediscovery** — on every `scan` / `sync`, codebeacon re-scans the workspace and appends any new project folders to `codebeacon.yaml` before extraction, so freshly added sub-projects are never silently skipped; pass `--no-rediscover` to opt out for hand-curated configs
+- **Graphify-style semantic enrichment** — after AST extraction, the skill dispatches one parallel subagent per chunk to emit `{nodes, edges, hyperedges}` with 8 relation types (`calls`/`implements`/`references`/`cites`/`conceptually_related_to`/`shares_data_with`/`semantically_similar_to`/`rationale_for`) and EXTRACTED/INFERRED/AMBIGUOUS confidence; on Claude Code the subagent runs one tier below the host model (Opus→Sonnet, Sonnet→Haiku) so spend stays proportional to corpus size. AST owns code nodes; LLM only contributes `concept`/`document`/`paper` nodes. Existing 0.3.x archives replay through the new schema unchanged.
 ---
@@ -185,11 +186,14 @@ project-root/
         components/<Name>.md
     obsidian/            ← Obsidian vault (one note per graph node)
     semantic/
-      original.jsonl     ← durable archive of every applied AI-semantic result
-                           (skipped on rescans, never re-emitted as a task)
-    semantic-tasks.jsonl     ← pending AI-semantic batch (present only between
-                               `semantic-prepare` and `semantic-apply`)
-    semantic-results.jsonl   ← agent-written results (same lifecycle as above)
+      pending/           ← prepare writes chunk_NNN.jsonl here (≤ --chunk-size tasks each)
+        chunk_001.jsonl
+        chunk_002.jsonl
+      results/           ← agent writes a matching chunk_NNN.jsonl per pending file
+        chunk_001.jsonl
+      original/          ← apply moves done chunks here (durable archive)
+        chunk_001.jsonl
+        chunk_002.jsonl  ← (older runs accumulate; chunk numbers are monotonic)
 ```
 ### Deep Dive Mode
@@ -259,10 +263,21 @@ This copies `SKILL.md` to `~/.claude/skills/codebeacon/` and registers the `/cod
 /codebeacon serve <path>          # start MCP server pointing at .codebeacon/
 /codebeacon query <term>          # search the graph
 /codebeacon path <src> <tgt>      # shortest path
+/codebeacon upgrade               # pip upgrade + refresh this skill (then restart Claude Code)
 ```
 By default `scan` and `sync` invocations automatically run the **AI-semantic** pipeline at the end (see the [AI-Semantic Enrichment](#ai-semantic-enrichment-via-the-codebeacon-skill) section). The agent uses whatever model your Claude Code session is currently running on — Opus, Sonnet, Haiku — codebeacon never hardcodes a model and never needs an API key.
+### Updating to a new version
+Run **one** command from anywhere:
+```bash
+codebeacon upgrade
+```
+This pip-upgrades the package, then re-runs `codebeacon install` so `~/.claude/skills/codebeacon/SKILL.md` is overwritten with the new release's copy. Restart your Claude Code session for the new SKILL.md to load. If codebeacon is installed in editable mode (`pip install -e .`), the pip step is skipped — pass `--force` to upgrade anyway.
 ### MCP Server
 Run codebeacon as a persistent MCP server so any MCP-compatible client can query your knowledge graph directly.
@@ -345,14 +360,21 @@ codebeacon sync --config <file>           # use a specific config file
 codebeacon sync --no-rediscover           # don't auto-append newly added projects (hand-curated yaml mode)
 # AI-semantic enrichment (the agent does the LLM work, codebeacon does the bookkeeping)
-codebeacon semantic-prepare [--dir .codebeacon] [--max-tasks N]
-                                          # rehydrate semantic archive onto beacon.json, emit fresh tasks
-                                          # for NEW candidates only (god-node folders + unresolved targets);
-                                          # writes .codebeacon/semantic-tasks.jsonl
+codebeacon semantic-prepare [--dir .codebeacon] [--max-tasks N] [--chunk-size N]
+                                          # rehydrate archive (.codebeacon/semantic/original/*.jsonl) onto
+                                          # the fresh graph, prune entries pointing at missing nodes,
+                                          # then emit every NEW candidate (god folders + hub files +
+                                          # unresolved targets) into .codebeacon/semantic/pending/
+                                          # chunk_NNN.jsonl (--chunk-size tasks per file, default 10).
+                                          # `--max-tasks` is an optional cap (0 = no cap = emit all).
+                                          # task_id includes a content hash, so a file whose semantic
+                                          # content changes between scans is automatically re-emitted.
 codebeacon semantic-apply   [--dir .codebeacon]
-                                          # read .codebeacon/semantic-results.jsonl, merge as INFERRED
-                                          # references edges, append to .codebeacon/semantic/original.jsonl
-                                          # archive, clear pending files, regenerate wiki/obsidian/context map
+                                          # for each .codebeacon/semantic/results/chunk_NNN.jsonl the
+                                          # agent has written, merge edges (INFERRED references) into
+                                          # beacon.json and MOVE the pending chunk into
+                                          # .codebeacon/semantic/original/chunk_NNN.jsonl (durable
+                                          # archive). Regenerates wiki/obsidian/context map.
 # Query the knowledge graph
 codebeacon query <term> [--dir .codebeacon] [--limit N]   # search nodes by label substring
@@ -365,6 +387,8 @@ codebeacon merge-driver <base> <cur> <other>  # invoked by git after `hook insta
 # Integrations
 codebeacon serve [--dir .codebeacon]      # start MCP server (stdio)
 codebeacon install                        # install Claude Code skill
+codebeacon upgrade                        # pip install --upgrade + refresh ~/.claude/skills/codebeacon/SKILL.md
+                                          # (`--force` to upgrade even when installed in editable mode)
 ```
 ---
@@ -385,22 +409,23 @@ The CLI itself never makes an LLM API call. The AI-semantic layer is intentional
 When you invoke `/codebeacon` in Claude Code:
 1. `scan` / `sync` builds `beacon.json` from the AST (no LLM).
-2. `codebeacon semantic-prepare` re-applies the prior archive to the fresh graph, then writes `.codebeacon/semantic-tasks.jsonl` containing **only new candidates** — files that score high (unresolved-target edges + god-node folders) and have never been processed before.
-3. The skill loops over the tasks file. For each line, the agent (using its current model) reads the `excerpt` field and returns inferred references inline. Results are written to `.codebeacon/semantic-results.jsonl`.
-4. `codebeacon semantic-apply` merges the results as `INFERRED references` edges into `beacon.json`, **appends them to `.codebeacon/semantic/original.jsonl`** (the durable archive), clears the pending tasks/results files, and regenerates wiki + obsidian + context map.
-5. Next scan: `semantic-prepare` rehydrates the archive onto the freshly built graph (so historical inferences don't disappear) and emits a tasks file with **only newly discovered candidates** since the last archive. Already-processed files are skipped via `task_id` (SHA1 of `file_path|node_id`).
+2. `codebeacon semantic-prepare` rehydrates the archive at `.codebeacon/semantic/original/*.jsonl` onto the fresh graph, **prunes** archive entries whose source node no longer exists, and writes new task chunks to `.codebeacon/semantic/pending/chunk_NNN.jsonl` (≤ `--chunk-size` tasks per file, default 10). Chunk numbers continue from where the durable archive left off, so they never collide.
+3. The skill iterates the pending chunks **one chunk at a time**. For each `pending/chunk_NNN.jsonl`, the agent (using its current model) reads each task's `excerpt` and writes a matching `semantic/results/chunk_NNN.jsonl`.
+4. `codebeacon semantic-apply` merges the results as `INFERRED references` edges into `beacon.json` and **moves** each finished `pending/chunk_NNN.jsonl` into `semantic/original/chunk_NNN.jsonl` (with the applied edges spliced in for auditability). Result files are deleted; wiki + obsidian + context map regenerated.
+5. Next scan: `semantic-prepare` reads every chunk under `original/`, applies their edges to the freshly built graph (so historical inferences don't disappear), and skips any task whose `task_id` is already on file. `task_id` is `SHA1(file_path | node_id | excerpt_hash[:8])` — a file whose semantic content changes earns a new id and gets re-analysed automatically.
-This gives you incremental, idempotent enrichment: the agent never re-analyzes the same file twice, and accumulated AI signal survives every rescan.
+This gives you incremental, idempotent enrichment: the agent never re-analyses the same `(file, content)` twice, accumulated AI signal survives every rescan, and chunked files keep the agent's working set small.
 ### Direct CLI usage
-If you're not running through the skill (e.g. CI), you can drive the same two commands manually and supply your own `semantic-results.jsonl`:
+If you're not running through the skill (e.g. CI), you can drive the same two commands manually and supply your own `results/chunk_NNN.jsonl` files:
 ```bash
 codebeacon scan .
-codebeacon semantic-prepare --dir .codebeacon --max-tasks 50
+codebeacon semantic-prepare --dir .codebeacon --max-tasks 50 --chunk-size 10
-# now write .codebeacon/semantic-results.jsonl yourself; each line is:
+# .codebeacon/semantic/pending/chunk_001.jsonl ... now exist.
+# For each pending chunk, write a matching results/chunk_NNN.jsonl. Each line:
 #   {"task_id":"...", "source_node_id":"...", "edges":[
 #     {"target_name":"UserService","relation":"references","confidence_score":0.7}
 #   ]}

{codebeacon-0.3.2 → codebeacon-0.4.0}/README.de.md RENAMED Viewed

@@ -56,6 +56,7 @@ Bestehende Tools lösen dieses Problem nur teilweise. Route-Analyzer erfassen Ih
 - **Keine Konfiguration notwendig** — erkennt Frameworks und Sprachen automatisch; generiert `codebeacon.yaml` für Folgeläufe
 - **Deep-Dive-Modus** — `--deep-dive` erzeugt für jedes Sub-Projekt eigene `.codebeacon/` + `CLAUDE.md`; ein Update-Aufruf aus **beliebigem** Sub-Projekt-Ordner synchronisiert automatisch alle Projekte im Workspace
 - **Automatische Workspace-Wiedererkennung** — bei jedem `scan`/`sync` scannt codebeacon den Workspace erneut und hängt vor der Extraktion automatisch neue Projekte an die `codebeacon.yaml` an, sodass frisch hinzugefügte Sub-Projekte nicht unbemerkt übersprungen werden; `--no-rediscover` deaktiviert dies für handgepflegte Konfigurationen
+- **Graphify-artige Semantik-Anreicherung** — nach der AST-Extraktion dispatcht der Skill einen parallelen Subagenten pro Chunk, der vollständige Knowledge-Graph-Fragmente `{nodes, edges, hyperedges}` mit 8 Relationstypen (`calls`/`implements`/`references`/`cites`/`conceptually_related_to`/`shares_data_with`/`semantically_similar_to`/`rationale_for`) und Konfidenz EXTRACTED/INFERRED/AMBIGUOUS erzeugt; auf Claude Code läuft der Subagent eine Stufe unter dem Host-Modell (Opus→Sonnet, Sonnet→Haiku), damit die Kosten proportional zur Korpus-Größe bleiben. Code-Knoten gehören dem AST; das LLM darf nur `concept`/`document`/`paper`-Knoten beisteuern. Bestehende 0.3.x-Archive werden unter dem neuen Schema unverändert wiedergegeben
 ---
@@ -378,19 +379,24 @@ codebeacon hook install [path]            # Merge-Driver + Post-Commit-Inkrement
 codebeacon merge-driver <base> <cur> <other>  # von git nach `hook install` aufgerufen; Union-Merge von beacon.json
 # AI-semantische Anreicherung (LLM macht der Agent, codebeacon nur die Buchführung)
-codebeacon semantic-prepare [--dir .codebeacon] [--max-tasks N]
-                                          # spielt vorhandenes Archiv wieder auf das frische
-                                          # beacon.json an und gibt Aufgaben nur für NEUE
-                                          # Kandidaten aus (god-node-Ordner + unaufgelöste Ziele)
+codebeacon semantic-prepare [--dir .codebeacon] [--max-tasks N] [--chunk-size N]
+                                          # rehydriert .codebeacon/semantic/original/*.jsonl auf das
+                                          # frische beacon.json + entfernt Einträge mit verschwundenen
+                                          # Knoten, schreibt dann neue Aufgaben nach
+                                          # .codebeacon/semantic/pending/chunk_NNN.jsonl
+                                          # (--chunk-size pro Chunk, Std. 10). task_id enthält einen
+                                          # Content-Hash – geänderte Dateien werden neu emittiert.
 codebeacon semantic-apply   [--dir .codebeacon]
-                                          # mergt .codebeacon/semantic-results.jsonl als
-                                          # INFERRED references-Kanten in beacon.json,
-                                          # hängt an .codebeacon/semantic/original.jsonl an,
-                                          # räumt Pending-Dateien auf und regeneriert
-                                          # wiki/obsidian/Kontextkarte
+                                          # für jede vom Agent geschriebene .codebeacon/semantic/
+                                          # results/chunk_NNN.jsonl: INFERRED references-Kanten in
+                                          # beacon.json mergen + den Pending-Chunk nach
+                                          # .codebeacon/semantic/original/chunk_NNN.jsonl VERSCHIEBEN
+                                          # (dauerhaftes Archiv). Results löschen, alles regenerieren.
 codebeacon serve [--dir .codebeacon]      # MCP-Server starten (stdio)
 codebeacon install                        # Claude-Code-Skill installieren
+codebeacon upgrade                        # pip-Upgrade + ~/.claude/skills/codebeacon/SKILL.md aktualisieren
+                                          # (`--force` falls editable-Installation)
 ```
 ---
@@ -411,22 +417,24 @@ Das CLI selbst **ruft niemals einen LLM-Anbieter auf**. Die AI-semantik-Schicht
 Wenn Sie `/codebeacon` in Claude Code aufrufen:
 1. `scan` / `sync` baut `beacon.json` aus dem AST (kein LLM-Aufruf).
-2. `codebeacon semantic-prepare` spielt das frühere Archiv wieder auf den frischen Graphen ein und schreibt dann `.codebeacon/semantic-tasks.jsonl` mit **nur neuen Kandidaten** — hochbewertete Dateien (Kanten zu nicht aufgelösten Zielen + god-node-Ordner), die noch nie verarbeitet wurden.
-3. Der Skill iteriert die Tasks-Datei. Für jede Zeile liest der Agent (mit dem Modell der aktuellen Sitzung) das `excerpt`-Feld und liefert inline gefolgerte References. Ergebnisse werden in `.codebeacon/semantic-results.jsonl` geschrieben.
-4. `codebeacon semantic-apply` mergt die Ergebnisse als `INFERRED references`-Kanten in `beacon.json`, **hängt sie an `.codebeacon/semantic/original.jsonl`** (das dauerhafte Archiv) an, räumt die Pending-Dateien auf und regeneriert Wiki + Obsidian + Kontextkarte.
-5. Beim nächsten Scan: `semantic-prepare` rehydriert das Archiv auf den frisch gebauten Graphen (damit historische Inferenzen nicht durch ein erneutes Scannen verschwinden) und gibt eine Tasks-Datei mit **nur den seit dem letzten Archiv neu entdeckten Kandidaten** aus. Bereits verarbeitete Dateien werden per `task_id` (SHA1 von `file_path|node_id`) übersprungen.
+2. `codebeacon semantic-prepare` rehydriert das Archiv unter `.codebeacon/semantic/original/*.jsonl` auf den frischen Graphen und **entfernt** Einträge, deren Quellknoten nicht mehr existiert. Anschließend schreibt es neue Aufgaben nach `.codebeacon/semantic/pending/chunk_NNN.jsonl` (≤ `--chunk-size` pro Datei, Std. 10). Chunk-Nummern setzen genau dort an, wo das dauerhafte Archiv aufhört — keine Kollisionen möglich.
+3. Der Skill verarbeitet Pending-Chunks **einzeln**. Für jedes `pending/chunk_NNN.jsonl` liest der Agent (mit dem Modell der laufenden Sitzung) den `excerpt` jeder Aufgabe und schreibt eine gleichnamige `semantic/results/chunk_NNN.jsonl`.
+4. `codebeacon semantic-apply` mergt die Ergebnisse als `INFERRED references`-Kanten in `beacon.json` und **verschiebt** jede abgeschlossene `pending/chunk_NNN.jsonl` nach **`semantic/original/chunk_NNN.jsonl`** (mit den angewandten Kanten zur Nachvollziehbarkeit). Die Result-Dateien werden gelöscht, Wiki + Obsidian + Kontextkarte regeneriert.
+5. Beim nächsten Scan: `semantic-prepare` liest jeden Chunk unter `original/`, wendet seine Kanten auf den frisch gebauten Graphen an (historische Inferenzen bleiben erhalten) und überspringt jede Aufgabe, deren `task_id` bereits archiviert ist. `task_id` = `SHA1(file_path | node_id | excerpt_hash[:8])` — ändert sich der semantische Inhalt einer Datei, bekommt sie eine neue id und wird neu analysiert.
-Das ergibt inkrementelle, idempotente Anreicherung: der Agent analysiert dieselbe Datei nie zweimal, und das angesammelte AI-Signal überlebt jeden Rescan.
+Inkrementelle, idempotente Anreicherung: der Agent analysiert dieselbe (Datei, Inhalt)-Kombination nie zweimal, das angesammelte AI-Signal überlebt jeden Rescan, und die Chunk-Aufteilung hält den Arbeitsumfang des Agenten klein.
 ### Direkte CLI-Nutzung
-Wenn Sie nicht über den Skill gehen (z. B. CI), können Sie dieselben zwei Befehle manuell ausführen und Ihr eigenes `semantic-results.jsonl` liefern:
+Wenn Sie nicht über den Skill gehen (z. B. CI), können Sie dieselben zwei Befehle manuell ausführen und Ihre eigenen `results/chunk_NNN.jsonl` liefern:
 ```bash
 codebeacon scan .
-codebeacon semantic-prepare --dir .codebeacon --max-tasks 50
+codebeacon semantic-prepare --dir .codebeacon --max-tasks 50 --chunk-size 10
-# jetzt selbst .codebeacon/semantic-results.jsonl schreiben; jede Zeile:
+# .codebeacon/semantic/pending/chunk_001.jsonl ... existieren jetzt.
+# Schreiben Sie für jeden Pending-Chunk eine gleichnamige results/chunk_NNN.jsonl.
+# Jede Zeile:
 #   {"task_id":"...", "source_node_id":"...", "edges":[
 #     {"target_name":"UserService","relation":"references","confidence_score":0.7}
 #   ]}

{codebeacon-0.3.2 → codebeacon-0.4.0}/README.es.md RENAMED Viewed

@@ -56,6 +56,7 @@ Las herramientas existentes resuelven esto de forma parcial. Los analizadores de
 - **Cero configuración** — detecta frameworks y lenguajes automáticamente; genera `codebeacon.yaml` para ejecuciones posteriores
 - **Modo Deep Dive** — `--deep-dive` genera `.codebeacon/` + `CLAUDE.md` propios para cada sub-proyecto; ejecutar el comando de actualización desde **cualquier** sub-proyecto sincroniza automáticamente todos los proyectos del workspace
 - **Auto-redescubrimiento del workspace** — en cada `scan`/`sync`, codebeacon re-escanea el workspace y añade automáticamente al `codebeacon.yaml` los nuevos proyectos antes de extraer, de modo que los sub-proyectos recién añadidos nunca se omitan silenciosamente; usa `--no-rediscover` para optar por el modo de configuración curada manualmente
+- **Enriquecimiento semántico estilo Graphify** — tras la extracción AST, el skill despacha un subagente paralelo por chunk para emitir fragmentos completos de grafo `{nodes, edges, hyperedges}` con 8 tipos de relación (`calls`/`implements`/`references`/`cites`/`conceptually_related_to`/`shares_data_with`/`semantically_similar_to`/`rationale_for`) y confianza EXTRACTED/INFERRED/AMBIGUOUS; en Claude Code el subagente se ejecuta un nivel por debajo del modelo host (Opus→Sonnet, Sonnet→Haiku) para mantener el gasto proporcional al tamaño del corpus. El AST posee los nodos de código; el LLM solo puede aportar nodos `concept`/`document`/`paper`. Los archivos 0.3.x existentes se replayean con el nuevo esquema sin cambios
 ---
@@ -376,19 +377,24 @@ codebeacon hook install [path]            # instala merge driver + hook post-com
 codebeacon merge-driver <base> <cur> <other>  # invocado por git tras `hook install`; union-merge de beacon.json
 # Enriquecimiento AI-semántico (el LLM lo ejecuta el agente, codebeacon lleva la contabilidad)
-codebeacon semantic-prepare [--dir .codebeacon] [--max-tasks N]
-                                          # rehidrata el archivo histórico sobre el nuevo beacon.json
-                                          # y emite tareas solo para candidatos NUEVOS
-                                          # (carpetas god-node + objetivos no resueltos)
+codebeacon semantic-prepare [--dir .codebeacon] [--max-tasks N] [--chunk-size N]
+                                          # rehidrata .codebeacon/semantic/original/*.jsonl sobre el
+                                          # nuevo beacon.json + poda entradas que apuntan a nodos
+                                          # desaparecidos, luego escribe tareas en
+                                          # .codebeacon/semantic/pending/chunk_NNN.jsonl
+                                          # (--chunk-size por chunk, predet. 10). El task_id incluye
+                                          # hash de contenido: si el archivo cambia, se reemite.
 codebeacon semantic-apply   [--dir .codebeacon]
-                                          # fusiona .codebeacon/semantic-results.jsonl como
-                                          # aristas INFERRED references en beacon.json,
-                                          # añade al archivo .codebeacon/semantic/original.jsonl,
-                                          # limpia los archivos pendientes y regenera
-                                          # wiki/obsidian/mapa de contexto
+                                          # por cada .codebeacon/semantic/results/chunk_NNN.jsonl que
+                                          # haya escrito el agente, fusiona las aristas INFERRED
+                                          # references en beacon.json y MUEVE el chunk pendiente a
+                                          # .codebeacon/semantic/original/chunk_NNN.jsonl (archivo
+                                          # durable). Borra los resultados y regenera todo.
 codebeacon serve [--dir .codebeacon]      # servidor MCP (stdio)
 codebeacon install                        # instalar skill de Claude Code
+codebeacon upgrade                        # pip upgrade + refrescar ~/.claude/skills/codebeacon/SKILL.md
+                                          # (use `--force` si está instalado en modo editable)
 ```
 ---
@@ -409,22 +415,24 @@ El CLI por sí mismo **nunca llama a un LLM**. La capa AI-semántica es propieda
 Cuando invocas `/codebeacon` en Claude Code:
 1. `scan` / `sync` construye `beacon.json` desde el AST (sin LLM).
-2. `codebeacon semantic-prepare` reaplica el archivo histórico sobre el grafo nuevo y luego escribe `.codebeacon/semantic-tasks.jsonl` con **sólo los candidatos nuevos** — archivos con puntuación alta (aristas a objetivos no resueltos + carpetas god-node) que nunca se han procesado.
-3. El skill itera sobre el archivo de tareas. Por cada línea, el agente (usando el modelo de su sesión actual) lee el campo `excerpt` y devuelve referencias inferidas en línea. Los resultados se escriben en `.codebeacon/semantic-results.jsonl`.
-4. `codebeacon semantic-apply` mezcla los resultados como aristas `INFERRED references` en `beacon.json`, **los anexa a `.codebeacon/semantic/original.jsonl`** (el archivo durable), limpia los ficheros pendientes y regenera wiki + obsidian + mapa de contexto.
-5. En la próxima ejecución: `semantic-prepare` rehidrata el archivo sobre el grafo recién construido (para que las inferencias históricas no desaparezcan en una nueva exploración) y emite un fichero de tareas con **sólo candidatos nuevos** desde la última actualización del archivo. Los archivos ya procesados se omiten vía `task_id` (SHA1 de `file_path|node_id`).
+2. `codebeacon semantic-prepare` rehidrata el archivo en `.codebeacon/semantic/original/*.jsonl` sobre el grafo nuevo y **poda** las entradas que apuntan a nodos ya desaparecidos. Después escribe los nuevos task chunks en `.codebeacon/semantic/pending/chunk_NNN.jsonl` (cada chunk ≤ `--chunk-size`, predet. 10). La numeración de chunks continúa donde dejó el archivo durable, así nunca colisiona.
+3. El skill itera los chunks pendientes **uno por uno**. Para cada `pending/chunk_NNN.jsonl`, el agente (con el modelo de su sesión actual) lee el `excerpt` de cada task y escribe un `semantic/results/chunk_NNN.jsonl` con el mismo nombre.
+4. `codebeacon semantic-apply` mezcla los resultados como aristas `INFERRED references` en `beacon.json` y **mueve** cada `pending/chunk_NNN.jsonl` terminado a **`semantic/original/chunk_NNN.jsonl`** (con las aristas aplicadas para auditoría). Los archivos de resultados se eliminan; wiki + obsidian + mapa de contexto se regeneran.
+5. En la siguiente ejecución: `semantic-prepare` lee cada chunk bajo `original/`, aplica sus aristas al grafo recién construido (las inferencias históricas no se pierden) y omite cualquier task cuyo `task_id` ya esté archivado. `task_id` = `SHA1(file_path | node_id | excerpt_hash[:8])`: si el contenido del archivo cambia, recibe un id nuevo y se reanaliza.
-Esto da enriquecimiento incremental e idempotente: el agente nunca reanaliza el mismo archivo dos veces, y la señal AI acumulada sobrevive a cada re-escaneo.
+Enriquecimiento incremental e idempotente: el agente nunca reanaliza la misma combinación (archivo, contenido) dos veces, la señal AI acumulada sobrevive a cada re-escaneo y los chunks mantienen pequeño el conjunto de trabajo del agente.
 ### Uso directo del CLI
-Si no usas el skill (p. ej. en CI), puedes ejecutar las mismas dos órdenes manualmente y suministrar tu propio `semantic-results.jsonl`:
+Si no usas el skill (p. ej. en CI), puedes ejecutar las mismas dos órdenes manualmente y proporcionar tus propios `results/chunk_NNN.jsonl`:
 ```bash
 codebeacon scan .
-codebeacon semantic-prepare --dir .codebeacon --max-tasks 50
+codebeacon semantic-prepare --dir .codebeacon --max-tasks 50 --chunk-size 10
-# ahora escribe tú mismo .codebeacon/semantic-results.jsonl; cada línea:
+# Existen .codebeacon/semantic/pending/chunk_001.jsonl ...
+# Para cada chunk pendiente, escribe un results/chunk_NNN.jsonl con el mismo
+# nombre. Cada línea:
 #   {"task_id":"...", "source_node_id":"...", "edges":[
 #     {"target_name":"UserService","relation":"references","confidence_score":0.7}
 #   ]}

{codebeacon-0.3.2 → codebeacon-0.4.0}/README.fr.md RENAMED Viewed

@@ -56,6 +56,7 @@ Les outils existants ne résolvent ce problème qu'en partie. Les analyseurs de
 - **Zéro configuration** — détecte automatiquement les frameworks et langages ; génère `codebeacon.yaml` pour les exécutions suivantes
 - **Mode Deep Dive** — `--deep-dive` génère un `.codebeacon/` + `CLAUDE.md` propre à chaque sous-projet ; une commande de mise à jour depuis **n'importe quel** sous-projet synchronise automatiquement tous les projets du workspace
 - **Redécouverte automatique du workspace** — à chaque `scan`/`sync`, codebeacon réanalyse le workspace et ajoute automatiquement les nouveaux projets au `codebeacon.yaml` avant l'extraction, de sorte que les sous-projets fraîchement ajoutés ne soient jamais oubliés en silence ; utilisez `--no-rediscover` pour conserver une configuration yaml gérée manuellement
+- **Enrichissement sémantique façon Graphify** — après l'extraction AST, le skill dispatche un sous-agent parallèle par chunk pour émettre des fragments complets de knowledge graph `{nodes, edges, hyperedges}` avec 8 types de relations (`calls`/`implements`/`references`/`cites`/`conceptually_related_to`/`shares_data_with`/`semantically_similar_to`/`rationale_for`) et confiance EXTRACTED/INFERRED/AMBIGUOUS ; sur Claude Code, le sous-agent s'exécute un cran sous le modèle hôte (Opus→Sonnet, Sonnet→Haiku) pour garder le coût proportionnel à la taille du corpus. L'AST possède les nœuds de code ; le LLM ne peut contribuer que des nœuds `concept`/`document`/`paper`. Les archives 0.3.x existantes sont rejouées sous le nouveau schéma sans modification
 ---
@@ -377,19 +378,24 @@ codebeacon hook install [path]            # installer merge driver + hook post-c
 codebeacon merge-driver <base> <cur> <other>  # invoqué par git après `hook install` ; union-merge de beacon.json
 # Enrichissement AI-sémantique (le LLM est exécuté par l'agent, codebeacon tient la comptabilité)
-codebeacon semantic-prepare [--dir .codebeacon] [--max-tasks N]
-                                          # réapplique l'archive existante au beacon.json frais
-                                          # puis n'émet de tâches que pour les candidats NEUFS
-                                          # (dossiers god-node + cibles non résolues)
+codebeacon semantic-prepare [--dir .codebeacon] [--max-tasks N] [--chunk-size N]
+                                          # réhydrate .codebeacon/semantic/original/*.jsonl sur le
+                                          # nouveau beacon.json + élague les entrées pointant vers
+                                          # des nœuds disparus, puis écrit les nouvelles tâches
+                                          # dans .codebeacon/semantic/pending/chunk_NNN.jsonl
+                                          # (--chunk-size par chunk, défaut 10). task_id inclut un
+                                          # hash de contenu : un fichier modifié est ré-émis.
 codebeacon semantic-apply   [--dir .codebeacon]
-                                          # fusionne .codebeacon/semantic-results.jsonl comme
-                                          # arêtes INFERRED references dans beacon.json,
-                                          # ajoute à l'archive .codebeacon/semantic/original.jsonl,
-                                          # nettoie les fichiers en attente et régénère
-                                          # wiki/obsidian/carte de contexte
+                                          # pour chaque .codebeacon/semantic/results/chunk_NNN.jsonl
+                                          # écrit par l'agent, fusionne les arêtes INFERRED references
+                                          # dans beacon.json et DÉPLACE le chunk pending vers
+                                          # .codebeacon/semantic/original/chunk_NNN.jsonl (archive
+                                          # durable). Supprime les résultats, régénère tout.
 codebeacon serve [--dir .codebeacon]      # serveur MCP (stdio)
 codebeacon install                        # installer le skill Claude Code
+codebeacon upgrade                        # pip upgrade + rafraîchir ~/.claude/skills/codebeacon/SKILL.md
+                                          # (`--force` si installé en mode éditable)
 ```
 ---
@@ -410,22 +416,24 @@ Le CLI lui-même **n'appelle jamais un LLM**. La couche AI-sémantique est inten
 Quand vous invoquez `/codebeacon` dans Claude Code :
 1. `scan` / `sync` construit `beacon.json` à partir de l'AST (aucun appel LLM).
-2. `codebeacon semantic-prepare` réapplique l'archive précédente au graphe frais puis écrit `.codebeacon/semantic-tasks.jsonl` contenant **uniquement les nouveaux candidats** — fichiers à score élevé (arêtes vers cibles non résolues + dossiers god-node) qui n'ont jamais été traités.
-3. Le skill itère sur le fichier de tâches. Pour chaque ligne, l'agent (en utilisant le modèle de sa session courante) lit le champ `excerpt` et renvoie inline les références inférées. Les résultats sont écrits dans `.codebeacon/semantic-results.jsonl`.
-4. `codebeacon semantic-apply` fusionne les résultats en arêtes `INFERRED references` dans `beacon.json`, **les ajoute à `.codebeacon/semantic/original.jsonl`** (l'archive durable), nettoie les fichiers en attente et régénère wiki + obsidian + carte de contexte.
-5. Au prochain scan : `semantic-prepare` réhydrate l'archive sur le graphe fraîchement construit (pour que les inférences historiques ne disparaissent pas lors d'un re-scan) et n'émet dans le fichier de tâches que **les candidats nouvellement découverts** depuis la dernière mise à jour de l'archive. Les fichiers déjà traités sont sautés via `task_id` (SHA1 de `file_path|node_id`).
+2. `codebeacon semantic-prepare` réhydrate l'archive sous `.codebeacon/semantic/original/*.jsonl` sur le graphe frais et **élague** les entrées dont le nœud source a disparu. Il écrit ensuite les nouvelles tâches dans `.codebeacon/semantic/pending/chunk_NNN.jsonl` (≤ `--chunk-size` par fichier, défaut 10). La numérotation des chunks reprend là où l'archive durable s'est arrêtée — pas de collision possible.
+3. Le skill itère les chunks pending **un par un**. Pour chaque `pending/chunk_NNN.jsonl`, l'agent (avec le modèle de sa session courante) lit l'`excerpt` de chaque tâche et écrit un `semantic/results/chunk_NNN.jsonl` du même nom.
+4. `codebeacon semantic-apply` fusionne les résultats en arêtes `INFERRED references` dans `beacon.json` et **déplace** chaque `pending/chunk_NNN.jsonl` terminé vers **`semantic/original/chunk_NNN.jsonl`** (les arêtes appliquées y sont incluses pour auditabilité). Les fichiers de résultats sont supprimés ; wiki + obsidian + carte de contexte sont régénérés.
+5. Au prochain scan : `semantic-prepare` lit chaque chunk sous `original/`, applique ses arêtes au graphe fraîchement construit (les inférences historiques sont conservées) et saute toute tâche dont le `task_id` est déjà archivé. `task_id` = `SHA1(file_path | node_id | excerpt_hash[:8])` — si le contenu sémantique d'un fichier change, il obtient un nouvel id et est ré-analysé.
-Vous obtenez ainsi un enrichissement incrémental et idempotent : l'agent ne réanalyse jamais deux fois le même fichier et le signal AI accumulé survit à chaque re-scan.
+Enrichissement incrémental et idempotent : l'agent ne ré-analyse jamais deux fois la même combinaison (fichier, contenu), le signal AI accumulé survit à chaque re-scan et les chunks gardent l'ensemble de travail de l'agent petit.
 ### Utilisation directe du CLI
-Si vous n'utilisez pas le skill (par ex. en CI), vous pouvez piloter les deux mêmes commandes manuellement et fournir votre propre `semantic-results.jsonl` :
+Si vous n'utilisez pas le skill (par ex. en CI), vous pouvez piloter les deux mêmes commandes manuellement et fournir vos propres `results/chunk_NNN.jsonl` :
 ```bash
 codebeacon scan .
-codebeacon semantic-prepare --dir .codebeacon --max-tasks 50
+codebeacon semantic-prepare --dir .codebeacon --max-tasks 50 --chunk-size 10
-# écrivez vous-même .codebeacon/semantic-results.jsonl ; chaque ligne :
+# .codebeacon/semantic/pending/chunk_001.jsonl ... existent.
+# Pour chaque chunk pending, écrivez un results/chunk_NNN.jsonl du même nom.
+# Chaque ligne :
 #   {"task_id":"...", "source_node_id":"...", "edges":[
 #     {"target_name":"UserService","relation":"references","confidence_score":0.7}
 #   ]}

{codebeacon-0.3.2 → codebeacon-0.4.0}/README.ja.md RENAMED Viewed

@@ -56,6 +56,7 @@ AI コーディングセッションを新しく開くたびに、アシスタ
 - **ゼロ設定** — フレームワークと言語を自動検出；繰り返し実行のために `codebeacon.yaml` を自動生成
 - **ディープダイブモード** — `--deep-dive` で各サブプロジェクトに専用の `.codebeacon/` + `CLAUDE.md` を生成；**どのサブプロジェクトからでも**更新コマンドを実行するだけでワークスペース全体が自動同期
 - **ワークスペース自動再検出** — `scan`/`sync` 実行のたびにワークスペースを再スキャンし、`codebeacon.yaml` に未登録の新規プロジェクトを自動追加してから抽出を開始するため、新しく追加されたサブプロジェクトが見落とされることがない；yaml を手動で管理している場合は `--no-rediscover` でオプトアウト可能
+- **Graphify 風のセマンティック強化** — AST 抽出後、スキルがチャンクごとに 1 つのサブエージェントを並列でディスパッチし、`{nodes, edges, hyperedges}` のフル知識グラフ断片を抽出。関係 8 種（`calls`/`implements`/`references`/`cites`/`conceptually_related_to`/`shares_data_with`/`semantically_similar_to`/`rationale_for`）+ 信頼度 3 段階（EXTRACTED/INFERRED/AMBIGUOUS）をサポート。Claude Code ではサブエージェントがホストモデルより 1 段階下（Opus→Sonnet、Sonnet→Haiku）に自動ダウングレードされ、コーパスサイズに比例したコストを維持。コードノードは AST が担当し、LLM は `concept`/`document`/`paper` ノードのみ寄与可能。既存の 0.3.x アーカイブは新スキーマで透過的にリプレイされる
 ---
@@ -285,21 +286,25 @@ codebeacon hook install [path]            # merge driver + post-commit インク
 codebeacon merge-driver <base> <cur> <other>  # `hook install` 後 git が呼び出す；beacon.json を union マージ
 # AI-セマンティック補強 (LLM はエージェント、整合性管理は codebeacon)
-codebeacon semantic-prepare [--dir .codebeacon] [--max-tasks N]
-                                          # 過去のアーカイブを fresh beacon.json に再適用後、
-                                          # 未処理の NEW 候補 (god-node フォルダ + unresolved
-                                          # ターゲット) のみを .codebeacon/semantic-tasks.jsonl
-                                          # に書き出す
+codebeacon semantic-prepare [--dir .codebeacon] [--max-tasks N] [--chunk-size N]
+                                          # .codebeacon/semantic/original/*.jsonl アーカイブを fresh
+                                          # beacon.json に再適用 + 失われたノードを指す stale エントリ
+                                          # を prune し、新規候補のみを .codebeacon/semantic/pending/
+                                          # chunk_NNN.jsonl に書き出す (chunk あたり --chunk-size 件、
+                                          # 既定 10)。task_id にコンテンツハッシュが入っているので、
+                                          # ファイル内容が変わると自動で再発行される。
 codebeacon semantic-apply   [--dir .codebeacon]
-                                          # .codebeacon/semantic-results.jsonl を INFERRED
-                                          # references エッジとして beacon.json に統合し、
-                                          # .codebeacon/semantic/original.jsonl アーカイブに
-                                          # 追記、pending ファイルを掃除し、
-                                          # wiki/obsidian/コンテキストマップを再生成
+                                          # エージェントが書いた .codebeacon/semantic/results/
+                                          # chunk_NNN.jsonl をそれぞれ INFERRED references エッジ
+                                          # として beacon.json にマージし、pending/chunk_NNN.jsonl
+                                          # を original/chunk_NNN.jsonl に移動 (永続アーカイブ)。
+                                          # results は削除、wiki/obsidian/コンテキストマップを再生成。
 # インテグレーション
 codebeacon serve [--dir .codebeacon]      # MCP サーバー起動 (stdio)
 codebeacon install                        # Claude Code スキルをインストール
+codebeacon upgrade                        # pip で更新 + ~/.claude/skills/codebeacon/SKILL.md を再生成
+                                          # (`--force` で editable インストール時も強制実行)
 ```
 ---
@@ -320,22 +325,23 @@ CLI 自体は LLM API 呼び出しを **行いません**。AI-セマンティ
 Claude Code で `/codebeacon` を呼び出すと：
 1. `scan` / `sync` が AST から `beacon.json` を構築（LLM 呼び出しなし）。
-2. `codebeacon semantic-prepare` が過去のアーカイブを新しいグラフに再適用後、**新しい候補のみ**を含む `.codebeacon/semantic-tasks.jsonl` を書き出します — スコアが高い（unresolved ターゲットエッジ + god-node フォルダ）かつ一度も処理されたことのないファイル。
-3. スキルが tasks ファイルを順次処理。各行についてエージェント（現在セッションのモデル）が `excerpt` フィールドを読み、推論された references をインラインで返します。結果は `.codebeacon/semantic-results.jsonl` に書き込まれます。
-4. `codebeacon semantic-apply` が結果を `INFERRED references` エッジとして `beacon.json` にマージし、**`.codebeacon/semantic/original.jsonl`**（永続アーカイブ）に追記、pending ファイルを掃除、wiki + obsidian + コンテキストマップを再生成します。
-5. 次回スキャン時：`semantic-prepare` がアーカイブを新グラフに再適用（再スキャンで過去の推論が失われないように）し、最後のアーカイブ以降の**新しく発見された候補のみ**を tasks ファイルに含めます。処理済みファイルは `task_id`（SHA1 of `file_path|node_id`）でスキップ。
+2. `codebeacon semantic-prepare` が `.codebeacon/semantic/original/*.jsonl` アーカイブを新グラフに再適用し、グラフから消えたノードを指す stale エントリを **prune**。続いて新規 task を `.codebeacon/semantic/pending/chunk_NNN.jsonl` に書き出す（`--chunk-size` 単位、既定 10）。chunk 番号は永続アーカイブの続きから始まるため衝突しません。
+3. スキルは pending chunk を**1 つずつ**処理。各 `pending/chunk_NNN.jsonl` について、エージェント（現在セッションのモデル）が task の `excerpt` を読み、同名の `semantic/results/chunk_NNN.jsonl` を書きます。
+4. `codebeacon semantic-apply` が結果を `INFERRED references` エッジとして `beacon.json` にマージし、完了済み `pending/chunk_NNN.jsonl` を **`semantic/original/chunk_NNN.jsonl`** に**移動**（適用済みエッジを一緒に記録）。results は削除、wiki + obsidian + コンテキストマップを再生成。
+5. 次回スキャン時：`semantic-prepare` が `original/` の全 chunk のエッジを新グラフに再適用（過去の推論を保全）し、既に処理済みの `task_id` はスキップ。`task_id` = `SHA1(file_path | node_id | excerpt_hash[:8])` — ファイルのセマンティック内容が変われば自動的に新しい id になり再解析されます。
-→ 増分かつ冪等の補強。同じファイルを二度分析せず、蓄積された AI シグナルは毎回の再スキャンを生き延びます。
+→ 増分かつ冪等の補強。同じ (ファイル, 内容) を二度分析せず、蓄積された AI シグナルは毎回の再スキャンを生き延び、chunk 分割でエージェントの作業セットも小さく保てます。
 ### 直接 CLI 使用
-スキルを介さず（例：CI）に同じ 2 コマンドで手動運用し、`semantic-results.jsonl` を自分で書くこともできます：
+スキルを介さず（例：CI）に同じ 2 コマンドで手動運用し、`results/chunk_NNN.jsonl` を自分で書くこともできます：
 ```bash
 codebeacon scan .
-codebeacon semantic-prepare --dir .codebeacon --max-tasks 50
+codebeacon semantic-prepare --dir .codebeacon --max-tasks 50 --chunk-size 10
-# 次に .codebeacon/semantic-results.jsonl を自分で書く；各行：
+# .codebeacon/semantic/pending/chunk_001.jsonl ... が生成される。
+# 各 pending chunk について同名の results/chunk_NNN.jsonl を書く。各行：
 #   {"task_id":"...", "source_node_id":"...", "edges":[
 #     {"target_name":"UserService","relation":"references","confidence_score":0.7}
 #   ]}

codebeacon 0.3.2__tar.gz → 0.4.0__tar.gz

codebeacon 0.3.2tar.gz → 0.4.0tar.gz