npm - kakaotalk-chat-analyzer - Versions diffs - 0.16.5 → 0.18.3 - Mend

kakaotalk-chat-analyzer 0.16.5 → 0.18.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (139) hide show

package/README.md +38 -1
package/data/korean-profanity.txt +33 -0
package/dist/src/aggregator.d.ts +27 -3
package/dist/src/aggregator.js +152 -68
package/dist/src/aggregator.js.map +1 -1
package/dist/src/analysis-budget.d.ts +11 -0
package/dist/src/analysis-budget.js +26 -0
package/dist/src/analysis-budget.js.map +1 -0
package/dist/src/analysis-capability.d.ts +19 -0
package/dist/src/analysis-capability.js +48 -0
package/dist/src/analysis-capability.js.map +1 -0
package/dist/src/analysis-phase-profile.d.ts +9 -0
package/dist/src/analysis-phase-profile.js +49 -0
package/dist/src/analysis-phase-profile.js.map +1 -0
package/dist/src/analysis-preset.d.ts +19 -0
package/dist/src/analysis-preset.js +73 -0
package/dist/src/analysis-preset.js.map +1 -0
package/dist/src/analysis-profile.js +4 -0
package/dist/src/analysis-profile.js.map +1 -1
package/dist/src/analysis-spool.d.ts +5 -0
package/dist/src/analysis-spool.js.map +1 -1
package/dist/src/analysis.d.ts +2 -5
package/dist/src/analysis.js +200 -57
package/dist/src/analysis.js.map +1 -1
package/dist/src/analyze-pool.d.ts +5 -0
package/dist/src/analyze-pool.js +5 -1
package/dist/src/analyze-pool.js.map +1 -1
package/dist/src/cli.js +59 -1
package/dist/src/cli.js.map +1 -1
package/dist/src/embedding-topics.d.ts +5 -2
package/dist/src/embedding-topics.js +11 -11
package/dist/src/embedding-topics.js.map +1 -1
package/dist/src/keyword-eligibility.d.ts +2 -0
package/dist/src/keyword-eligibility.js +36 -0
package/dist/src/keyword-eligibility.js.map +1 -0
package/dist/src/keyword-rank-dual.d.ts +20 -0
package/dist/src/keyword-rank-dual.js +126 -0
package/dist/src/keyword-rank-dual.js.map +1 -0
package/dist/src/keyword-record-tokens.d.ts +7 -0
package/dist/src/keyword-record-tokens.js +25 -0
package/dist/src/keyword-record-tokens.js.map +1 -0
package/dist/src/keyword-seed-topics.d.ts +5 -0
package/dist/src/keyword-seed-topics.js +67 -0
package/dist/src/keyword-seed-topics.js.map +1 -0
package/dist/src/kiwi-keyword-pool.d.ts +4 -0
package/dist/src/kiwi-keyword-pool.js +89 -0
package/dist/src/kiwi-keyword-pool.js.map +1 -0
package/dist/src/kiwi-runtime.d.ts +2 -0
package/dist/src/kiwi-runtime.js +22 -2
package/dist/src/kiwi-runtime.js.map +1 -1
package/dist/src/kiwi-tokenize-worker.d.ts +1 -0
package/dist/src/kiwi-tokenize-worker.js +19 -0
package/dist/src/kiwi-tokenize-worker.js.map +1 -0
package/dist/src/kiwi-worker-config.d.ts +3 -0
package/dist/src/kiwi-worker-config.js +23 -0
package/dist/src/kiwi-worker-config.js.map +1 -0
package/dist/src/llm-apply.d.ts +4 -0
package/dist/src/llm-apply.js +19 -0
package/dist/src/llm-apply.js.map +1 -0
package/dist/src/llm-cache.d.ts +9 -0
package/dist/src/llm-cache.js +31 -0
package/dist/src/llm-cache.js.map +1 -0
package/dist/src/llm-input.d.ts +4 -0
package/dist/src/llm-input.js +42 -0
package/dist/src/llm-input.js.map +1 -0
package/dist/src/llm-policy.d.ts +12 -0
package/dist/src/llm-policy.js +48 -0
package/dist/src/llm-policy.js.map +1 -0
package/dist/src/llm-pull.d.ts +3 -0
package/dist/src/llm-pull.js +48 -0
package/dist/src/llm-pull.js.map +1 -0
package/dist/src/llm-summarize.d.ts +17 -0
package/dist/src/llm-summarize.js +181 -0
package/dist/src/llm-summarize.js.map +1 -0
package/dist/src/message-reservoir.d.ts +3 -1
package/dist/src/message-reservoir.js +8 -0
package/dist/src/message-reservoir.js.map +1 -1
package/dist/src/ml-batch-size.d.ts +5 -0
package/dist/src/ml-batch-size.js +45 -0
package/dist/src/ml-batch-size.js.map +1 -0
package/dist/src/ml-runtime.d.ts +8 -0
package/dist/src/ml-runtime.js +54 -0
package/dist/src/ml-runtime.js.map +1 -0
package/dist/src/profanity.d.ts +16 -0
package/dist/src/profanity.js +101 -0
package/dist/src/profanity.js.map +1 -0
package/dist/src/report-charts.d.ts +17 -2
package/dist/src/report-charts.js +124 -13
package/dist/src/report-charts.js.map +1 -1
package/dist/src/report-config.d.ts +6 -0
package/dist/src/report-config.js +32 -0
package/dist/src/report-config.js.map +1 -0
package/dist/src/report-empty.js +8 -0
package/dist/src/report-empty.js.map +1 -1
package/dist/src/report-innovation.js +31 -3
package/dist/src/report-innovation.js.map +1 -1
package/dist/src/report-provenance.d.ts +8 -0
package/dist/src/report-provenance.js +31 -1
package/dist/src/report-provenance.js.map +1 -1
package/dist/src/report-section-visibility.js +1 -1
package/dist/src/report-section-visibility.js.map +1 -1
package/dist/src/report-styles.d.ts +1 -1
package/dist/src/report-styles.js +20 -0
package/dist/src/report-styles.js.map +1 -1
package/dist/src/report.js +79 -11
package/dist/src/report.js.map +1 -1
package/dist/src/semantic-keywords.d.ts +12 -0
package/dist/src/semantic-keywords.js +42 -22
package/dist/src/semantic-keywords.js.map +1 -1
package/dist/src/semantic-policy.d.ts +6 -2
package/dist/src/semantic-policy.js +18 -2
package/dist/src/semantic-policy.js.map +1 -1
package/dist/src/sender-message-reservoir.d.ts +15 -0
package/dist/src/sender-message-reservoir.js +37 -0
package/dist/src/sender-message-reservoir.js.map +1 -0
package/dist/src/sentiment-analyze.d.ts +20 -0
package/dist/src/sentiment-analyze.js +149 -0
package/dist/src/sentiment-analyze.js.map +1 -0
package/dist/src/sentiment-policy.d.ts +18 -0
package/dist/src/sentiment-policy.js +53 -0
package/dist/src/sentiment-policy.js.map +1 -0
package/dist/src/streaming-tfidf-keywords.d.ts +2 -0
package/dist/src/streaming-tfidf-keywords.js +7 -3
package/dist/src/streaming-tfidf-keywords.js.map +1 -1
package/dist/src/system-notices.js +13 -4
package/dist/src/system-notices.js.map +1 -1
package/dist/src/topic-generic.d.ts +4 -0
package/dist/src/topic-generic.js +43 -0
package/dist/src/topic-generic.js.map +1 -0
package/dist/src/topic-map.d.ts +4 -0
package/dist/src/topic-map.js +51 -18
package/dist/src/topic-map.js.map +1 -1
package/dist/src/topic-merge.d.ts +18 -0
package/dist/src/topic-merge.js +153 -0
package/dist/src/topic-merge.js.map +1 -0
package/dist/src/types.d.ts +67 -0
package/dist/src/version.d.ts +2 -2
package/dist/src/version.js +1 -1
package/package.json +8 -2

package/README.md CHANGED Viewed

@@ -186,6 +186,36 @@ kca --help
 </details>
+<details>
+<summary><strong>분석 preset·기능 (0.18+)</strong></summary>
+| preset | 용도 | 90k 메시지 목표 | 시맨틱 | 감정 | LLM |
+|--------|------|-----------------|--------|------|-----|
+| `speed` | RAM·시간 최소 | ~3분 | 끔 | 끔 | 끔 |
+| `balanced` | 기본 권장 | ~5분 | e5-small | 자동 | 끔 |
+| `quality` | 한국어·서사 최대 | ~6분 | ko-v2 | KLUE | 2B/4B |
+| `custom` | 기능 직접 지정 | — | env/플래그 | env | `KCA_LLM=1` |
+```bash
+kca capabilities                    # RAM·추천 preset
+kca ./chat.csv --preset balanced
+kca ./chat.csv --preset quality --local
+kca llm pull 2b                     # GGUF (optional node-llama-cpp)
+KCA_LLM_BACKEND=ollama KCA_LLM=1 kca ./chat.csv --preset custom
+```
+환경 변수: `KCA_PRESET`, `KCA_SEMANTIC_MODEL`, `KCA_SENTIMENT_MODEL`, `KCA_LLM`, `KCA_LLM_MOCK`, `KCA_ONNX_GPU`, `KCA_EMBED_BATCH`, `KCA_SENTIMENT_BATCH`, `KCA_KIWI_WORKERS`, `KCA_NO_KIWI_WORKERS`, `KCA_PROFILE_PHASES`, `KCA_BENCH_CSV`, `KCA_KEYWORD_SUMMARY_TOP`, `KCA_SHOP_SEARCH_TOP`.
+**속도(품질 유지):** 대용량 CSV는 Kiwi worker pool(`KCA_KIWI_WORKERS`, RAM≥8GB 기본 2–4)·시맨틱/감정을 키워드 패스와 겹쳐 실행. `KCA_PROFILE_PHASES=1`로 단계별 ms. quality에서 GPU 가속: `onnxruntime-node` 설치 후 `KCA_ONNX_GPU=metal`(macOS)·`cuda`(Linux)·`dml`(Windows).
+**키워드:** 요약은 `KCA_KEYWORD_SUMMARY_TOP`(기본 12)·**빈도 순**; ④ 차트에서 **빈도/특이어** 탭 전환. 전체 ~120개는 집계 상한.
+**주제 맵:** graph(공기 군집)·keyword(상위 키워드 시드)·semantic(임베딩 클러스터) 3레인 RRF 병합 — 대용량 방에서 의미 테마 최대 12장. `KCA_TOPIC_MAX`, `KCA_TOPIC_MIN_THEMES`.
+**LLM (`quality` / `KCA_LLM=1`):** 주제 제목·서사 + `topicProposals`(키워드 화이트리스트) + 인사이트 bullet·샵검색/상호작용 한 줄(원문 미전송).
+</details>
 <details>
 <summary><strong>성능·키워드·벤치 (개발·파워유저)</strong></summary>
@@ -197,11 +227,13 @@ kca --help
 ```bash
 npx kcachat@latest "./chat.csv" --profile --no-worker
 npm run bench:stream -- 100000   # 저장소 클론 후
+npm run bench:preset             # speed/balanced SLA 스모크
+KCA_BENCH_COMPARE=1 npm run bench:semantic
 ```
 </details>
-**버전 고정:** `npx kakaotalk-chat-analyzer@0.16.1` · 최신은 `kcachat@latest`가 매번 본체를 받습니다. 리포트 사이드 카드·`#kca-provenance`로 실제 생성 버전을 확인할 수 있습니다.
+**버전 고정:** `npx kakaotalk-chat-analyzer@0.18.2` · 최신은 `kcachat@latest`가 매번 본체를 받습니다. 리포트 사이드 카드·`#kca-provenance`로 실제 생성 버전을 확인할 수 있습니다.
 **로컬 개발:**
@@ -216,6 +248,11 @@ cd kakaotalk-chat-analyzer && npm install && npm run build && npm test
 | 버전 | 요약 |
 |------|------|
+| **0.18.2** | 주제 맵 3레인(graph·키워드·임베딩) 병합·테마 6~12·LLM `topicProposals` |
+| **0.18.1** | 키워드 빈도/특이어 dual-view·샵검색 통계·dyad 셀 숫자·LLM 인사이트 필드 |
+| **0.18.0** | preset(speed/balanced/quality)·5분 예산 skip·LLM 서사·KLUE 감정·dual-lane 툴팁·CI Playwright |
+| **0.17.2** | `kca llm pull`·provenance `llmUsed`·분석 예산 라우터 |
+| **0.16.6** | 글자 수 랭킹·비속어 패턴 통계·transformers 감정 분석(자동/선택) |
 | **0.16.5** | 상호작용 히트맵: 말 많은 사람 축 상단·지연 로드·로딩 스켈레톤 |
 | **0.16.4** | 대용량 방 키워드: minDf 스케일·메시지 수 우선 정렬·시맨틱은 BM25 후보만 보강 |
 | **0.16.3** | 기본 **품질 우선** 프로필(메인 스레드·시맨틱 샘플 확대·RRF 완화·임베딩 주제). 가속은 `--worker` / `--fast` |

package/data/korean-profanity.txt ADDED Viewed

@@ -0,0 +1,33 @@
+# 한국어 채팅 비속·욕설 패턴(부분 일치, normalize 후 검사). 줄 앞 # 은 주석.
+시발
+씨발
+씨팔
+좆
+지랄
+병신
+븅신
+미친
+미친놈
+개새
+개새끼
+개쉐
+개씨
+개같
+닥쳐
+꺼져
+엿먹
+엿먹어
+죽어
+죽을
+좆같
+좆만
+ㅅㅂ
+ㅆㅂ
+ㅄ
+ㅂㅅ
+ㅈㄹ
+ㅁㅊ
+ㅗㅗ
+fuck
+shit
+bitch

package/dist/src/aggregator.d.ts CHANGED Viewed

@@ -1,4 +1,5 @@
-import type { ChatRecord, EncodingName, PrivacyMode, ReportData } from "./types.js";
+import type { ChatRecord, EncodingName, PrivacyMode, ReportData, SentimentStats } from "./types.js";
+import type { BuildReportOptions } from "./analyze-pool.js";
 export interface FinalizeSourceMeta {
     filePath: string;
     encoding: EncodingName;
@@ -7,6 +8,7 @@ export interface FinalizeSourceMeta {
 }
 export interface FinalizeOptions {
     usedSemanticKeywords?: boolean;
+    usedSentimentAnalysis?: boolean;
     koreanPrimary?: boolean;
     useEmbeddingTopics?: boolean;
     semanticSupplementRrfWeight?: number;
@@ -16,7 +18,9 @@ export declare function semanticSupplementHitCap(corpusMessages: number): number
 export interface AggregatorOptions {
     /** 시맨틱 키워드용 메시지 샘플 수집 */
     semanticSamples?: boolean;
-    /** 시맨틱 리저보어 상한 추정(스트리밍 시 생략 가능) */
+    /** 감정 분석용 메시지 샘플 수집 */
+    sentimentSamples?: boolean;
+    /** 시맨틱·감정 리저보어 상한 추정(스트리밍 시 생략 가능) */
     estimatedMessages?: number;
 }
 export declare class ReportAggregator {
@@ -73,11 +77,18 @@ export declare class ReportAggregator {
     private roomSubManagerMessages;
     private roomManagerMessages;
     private roomShopSearchMessages;
+    private shopSearchUntaggedNotices;
+    private readonly shopSearchMissSamples;
     private roomPhotoBundleMessages;
     private pureLaughMessages;
     private openChatBoilerplateExcluded;
     private semanticThemeCandidates;
     private readonly semanticReservoir;
+    private readonly sentimentReservoir;
+    private readonly profanityCounter;
+    private sentimentStats;
+    /** stats pass에서 리저보어를 채웠으면 keyword pass 중복 push 방지 */
+    private samplesCollectedInStatsPass;
     private prevMs;
     private prevSender;
     private runSender;
@@ -85,9 +96,21 @@ export declare class ReportAggregator {
     private firstDate;
     private lastDate;
     constructor(filePath: string, privacy: PrivacyMode, top: number, options?: AggregatorOptions);
-    drainSemanticSamples(): string[];
+    /** 스트리밍 1패스 후 실제 건수로 리저보어 상한 보정(추정치 과소 시) */
+    ensureSampleCaps(messageCount: number): void;
+    drainSemanticSamples(buildOptions?: BuildReportOptions): string[];
+    drainSentimentSamples(): {
+        text: string;
+        sender: string;
+    }[];
+    applySentimentStats(stats: SentimentStats): void;
+    senderAliasMap(): Map<string, string>;
     messageCount(): number;
     resetKeywordPipeline(): void;
+    markSamplesCollectedInStatsPass(): void;
+    applyKeywordTokens(kwTokens: string[], monthKey: string): void;
+    private pushAnalysisSamples;
+    private pushSemanticSample;
     private consumeKeywords;
     applySemanticKeywordBoost(items: {
         label: string;
@@ -102,6 +125,7 @@ export declare class ReportAggregator {
     consume(record: ChatRecord, opts?: {
         keywordsOnly?: boolean;
         skipKeywords?: boolean;
+        collectSamples?: boolean;
     }): void;
     private bumpSystemNotice;
     finalize(meta: FinalizeSourceMeta, finalizeOpts?: FinalizeOptions): ReportData;

package/dist/src/aggregator.js CHANGED Viewed

@@ -1,6 +1,7 @@
 import { formatDate, formatDateTime, partsToUtcMs, weekdayIndex } from "./date.js";
 import { maskPartialDisplayName, parseChatRoomNameFromExportPath, safeInputName } from "./analysis-labels.js";
 import { GapStreamStats, SessionGapStats } from "./gap-stats.js";
+import { keywordTokensForRecord } from "./keyword-record-tokens.js";
 import { tokenizeForKeywords } from "./keyword-tokenize.js";
 import { adaptiveMinCount, StreamingTfidfKeywords } from "./streaming-tfidf-keywords.js";
 import { TopicMapAccumulator } from "./topic-map.js";
@@ -8,8 +9,13 @@ import { extractHashtagKeywords } from "./korean-hashtags.js";
 import { buildKeywordStopwords } from "./keyword-stopwords.js";
 import { buildTopicStopwords } from "./topic-stopwords.js";
 import { MessageReservoir } from "./message-reservoir.js";
-import { semanticReservoirCap, semanticSampleCap, subsampleSemanticMessages } from "./semantic-policy.js";
-import { mergeKeywordRankings } from "./keyword-merge.js";
+import { SenderMessageReservoir } from "./sender-message-reservoir.js";
+import { ProfanityCounter } from "./profanity.js";
+import { sentimentReservoirCap, sentimentSampleCap, subsampleSentimentRecords, } from "./sentiment-policy.js";
+import { effectiveSemanticSampleCap, semanticReservoirCap, subsampleSemanticMessages, } from "./semantic-policy.js";
+import { getAttachmentMarkers, shouldExtractKeywords } from "./keyword-eligibility.js";
+import { mergeDualLaneKeywords } from "./keyword-rank-dual.js";
+import { shopSearchDisplayTop } from "./report-config.js";
 import { isNoiseKeyword } from "./keyword-quality.js";
 import { formatCompactNumber, formatReplyGapMinutes } from "./report-util.js";
 import { KeywordCounter } from "./keyword-counter.js";
@@ -22,7 +28,9 @@ import { buildEventSpine } from "./event-spine.js";
 import { buildRoomNarrative } from "./room-narrative.js";
 import { buildPeriodCompare } from "./period-compare.js";
 import { buildBenchmarkBandsFromValues } from "./benchmark-bands.js";
-import { mergeEmbeddingThemes } from "./embedding-topics.js";
+import { semanticItemsToTopics } from "./embedding-topics.js";
+import { buildKeywordSeedTopics } from "./keyword-seed-topics.js";
+import { mergeTopicLanes } from "./topic-merge.js";
 const ATTACHMENT_MARKERS = [
     "사진",
     "동영상",
@@ -106,11 +114,18 @@ export class ReportAggregator {
     roomSubManagerMessages = 0;
     roomManagerMessages = 0;
     roomShopSearchMessages = 0;
+    shopSearchUntaggedNotices = 0;
+    shopSearchMissSamples = [];
     roomPhotoBundleMessages = 0;
     pureLaughMessages = 0;
     openChatBoilerplateExcluded = 0;
     semanticThemeCandidates = [];
     semanticReservoir;
+    sentimentReservoir;
+    profanityCounter;
+    sentimentStats = null;
+    /** stats pass에서 리저보어를 채웠으면 keyword pass 중복 push 방지 */
+    samplesCollectedInStatsPass = false;
     prevMs = null;
     prevSender = null;
     runSender = null;
@@ -125,14 +140,44 @@ export class ReportAggregator {
         this.semanticReservoir = options?.semanticSamples
             ? new MessageReservoir(semanticReservoirCap(options?.estimatedMessages))
             : null;
+        this.sentimentReservoir = options?.sentimentSamples
+            ? new SenderMessageReservoir(sentimentReservoirCap(options?.estimatedMessages))
+            : null;
+        this.profanityCounter = ProfanityCounter.create();
+    }
+    /** 스트리밍 1패스 후 실제 건수로 리저보어 상한 보정(추정치 과소 시) */
+    ensureSampleCaps(messageCount) {
+        if (messageCount <= 0)
+            return;
+        const semNeed = semanticReservoirCap(messageCount);
+        const sentNeed = sentimentReservoirCap(messageCount);
+        if (this.semanticReservoir && this.semanticReservoir.capacity() < semNeed) {
+            this.semanticReservoir.growTo(semNeed);
+        }
+        if (this.sentimentReservoir && this.sentimentReservoir.capacity() < sentNeed) {
+            this.sentimentReservoir.growTo(sentNeed);
+        }
     }
-    drainSemanticSamples() {
+    drainSemanticSamples(buildOptions) {
         const raw = this.semanticReservoir?.drain() ?? [];
         if (raw.length === 0)
             return raw;
-        const cap = semanticSampleCap(Math.max(this.total, raw.length));
+        const cap = effectiveSemanticSampleCap(Math.max(this.total, raw.length), buildOptions);
         return subsampleSemanticMessages(raw, cap);
     }
+    drainSentimentSamples() {
+        const raw = this.sentimentReservoir?.drain() ?? [];
+        if (raw.length === 0)
+            return raw;
+        const cap = sentimentSampleCap(Math.max(this.total, raw.length));
+        return subsampleSentimentRecords(raw, cap);
+    }
+    applySentimentStats(stats) {
+        this.sentimentStats = stats;
+    }
+    senderAliasMap() {
+        return buildSenderLabels([...this.senderStats.keys()], this.privacy);
+    }
     messageCount() {
         return this.total;
     }
@@ -140,27 +185,47 @@ export class ReportAggregator {
         this.keywordStream = new StreamingTfidfKeywords();
         this.topicMap = new TopicMapAccumulator();
     }
-    consumeKeywords(record) {
-        const split = splitMessageForAnalysis(record.message);
-        const msg = split.userText.length > 0 ? split.userText : record.message;
-        const messageLength = msg.length;
-        if (split.notices.length > 0 && split.userText.length === 0)
-            return;
-        const foundAttachments = getAttachmentMarkers(msg);
-        if (isOpenChatBoilerplate(msg)) {
-            this.openChatBoilerplateExcluded += 1;
-            return;
+    markSamplesCollectedInStatsPass() {
+        this.samplesCollectedInStatsPass = true;
+    }
+    applyKeywordTokens(kwTokens, monthKey) {
+        this.keywordStream.addDocumentTokens(kwTokens);
+        this.topicMap.addMessage(kwTokens, monthKey);
+        let monthBucket = this.monthlyKeywordBuckets.get(monthKey);
+        if (!monthBucket) {
+            monthBucket = new KeywordCounter();
+            this.monthlyKeywordBuckets.set(monthKey, monthBucket);
         }
-        if (messageLength < 2 || !HAS_TOKEN_CHAR_RE.test(msg) || !shouldExtractKeywords(msg, foundAttachments)) {
+        for (const t of kwTokens)
+            monthBucket.add(t);
+    }
+    pushAnalysisSamples(msg, sender, messageLength, isPureSystem) {
+        if (isPureSystem || isOpenChatBoilerplate(msg))
             return;
+        if (this.sentimentReservoir && messageLength >= 12) {
+            this.sentimentReservoir.push(msg, sender);
         }
-        const kwTokens = tokenizeForKeywords(msg);
-        this.keywordStream.addDocumentTokens(kwTokens);
-        const monthKey = `${record.date.year}-${pad2(record.date.month)}`;
-        this.topicMap.addMessage(kwTokens, monthKey);
+    }
+    pushSemanticSample(msg, messageLength) {
         if (this.semanticReservoir && messageLength >= 12)
             this.semanticReservoir.push(msg);
     }
+    consumeKeywords(record) {
+        const row = keywordTokensForRecord(record);
+        if (!row) {
+            const split = splitMessageForAnalysis(record.message);
+            const msg = split.userText.length > 0 ? split.userText : record.message;
+            if (isOpenChatBoilerplate(msg))
+                this.openChatBoilerplateExcluded += 1;
+            return;
+        }
+        this.applyKeywordTokens(row.tokens, row.monthKey);
+        if (!this.samplesCollectedInStatsPass) {
+            const split = splitMessageForAnalysis(record.message);
+            const msg = split.userText.length > 0 ? split.userText : record.message;
+            this.pushSemanticSample(msg, msg.length);
+        }
+    }
     applySemanticKeywordBoost(items) {
         const valid = items.filter((item) => !isNoiseKeyword(item.label));
         this.semanticThemeCandidates = valid.map((item) => ({
@@ -199,6 +264,14 @@ export class ReportAggregator {
             this.bumpSystemNotice(kind, dayKey);
         for (const tag of split.shopSearchTags)
             increment(this.shopSearchTopics, tag);
+        if (split.notices.includes("shopSearch") && split.shopSearchTags.length === 0) {
+            this.shopSearchUntaggedNotices += 1;
+            if (this.shopSearchMissSamples.length < 8) {
+                const sample = record.message.trim().slice(0, 120).replace(/\s+/g, " ");
+                if (sample)
+                    this.shopSearchMissSamples.push(sample);
+            }
+        }
         const msg = split.userText.length > 0 ? split.userText : record.message;
         const messageLength = msg.length;
         const isPureSystem = split.notices.length > 0 && split.userText.length === 0;
@@ -279,6 +352,15 @@ export class ReportAggregator {
                 for (const domain of foundDomains)
                     increment(this.domains, domain);
             }
+            if (!isPureSystem && !isOpenChatBoilerplate(msg)) {
+                this.profanityCounter.add(msg, record.sender);
+                if (opts?.collectSamples) {
+                    this.pushAnalysisSamples(msg, record.sender, messageLength, isPureSystem);
+                }
+                else if (this.sentimentReservoir && messageLength >= 12) {
+                    this.sentimentReservoir.push(msg, record.sender);
+                }
+            }
             if (isOpenChatBoilerplate(msg)) {
                 this.openChatBoilerplateExcluded += 1;
             }
@@ -287,16 +369,7 @@ export class ReportAggregator {
                 shouldExtractKeywords(msg, foundAttachments)) {
                 if (!opts?.skipKeywords) {
                     const kwTokens = tokenizeForKeywords(msg);
-                    this.keywordStream.addDocumentTokens(kwTokens);
-                    const monthKey = `${record.date.year}-${pad2(record.date.month)}`;
-                    this.topicMap.addMessage(kwTokens, monthKey);
-                    let monthBucket = this.monthlyKeywordBuckets.get(monthKey);
-                    if (!monthBucket) {
-                        monthBucket = new KeywordCounter();
-                        this.monthlyKeywordBuckets.set(monthKey, monthBucket);
-                    }
-                    for (const t of kwTokens)
-                        monthBucket.add(t);
+                    this.applyKeywordTokens(kwTokens, `${record.date.year}-${pad2(record.date.month)}`);
                 }
                 if (!opts?.keywordsOnly) {
                     const kwOpts = {
@@ -308,8 +381,15 @@ export class ReportAggregator {
                     }
                     if (messageLength >= 12)
                         this.repeatPhraseCounter.add(msg, dayKey);
-                    if (this.semanticReservoir && messageLength >= 12)
-                        this.semanticReservoir.push(msg);
+                    if (opts?.collectSamples) {
+                        this.pushSemanticSample(msg, messageLength);
+                    }
+                    else if (!this.samplesCollectedInStatsPass) {
+                        this.pushSemanticSample(msg, messageLength);
+                    }
+                }
+                else if (opts?.collectSamples) {
+                    this.pushSemanticSample(msg, messageLength);
                 }
             }
         }
@@ -375,10 +455,11 @@ export class ReportAggregator {
             prevStat.maxConsecutive = Math.max(prevStat.maxConsecutive, this.runLen);
         }
         const total = this.total;
+        const totalChars = this.totalCharacters;
         const aliases = buildSenderLabels([...this.senderStats.keys()], this.privacy);
-        const participantStats = [...this.senderStats.entries()]
-            .map(([raw, stat]) => {
+        const allParticipants = [...this.senderStats.entries()].map(([raw, stat]) => {
             const sharePercent = total > 0 ? round((stat.messages / total) * 100, 1) : 0;
+            const characterSharePercent = totalChars > 0 ? round((stat.characters / totalChars) * 100, 1) : 0;
             return {
                 alias: aliases.get(raw) ?? "???",
                 messages: stat.messages,
@@ -387,12 +468,17 @@ export class ReportAggregator {
                 attachmentMessages: stat.attachmentMessages,
                 linkMessages: stat.linkMessages,
                 sharePercent,
+                characterSharePercent,
                 nightMessages: stat.nightMessages,
                 maxConsecutive: stat.maxConsecutive,
             };
-        })
+        });
+        const participantStats = [...allParticipants]
             .sort((a, b) => b.messages - a.messages)
             .slice(0, this.top);
+        const participantsByCharacters = [...allParticipants]
+            .sort((a, b) => b.characters - a.characters || b.messages - a.messages)
+            .slice(0, this.top);
         const sortedDays = [...this.daily.keys()].sort();
         const longestStreak = longestDateStreak(sortedDays);
         let peakHour = null;
@@ -453,17 +539,24 @@ export class ReportAggregator {
         }
         const keywordStop = buildKeywordStopwords();
         const keywordLimit = Math.max(120, this.top * 3);
-        const wordRankItems = this.keywordStream.extractKeywordItems({
+        const minDocFreq = adaptiveMinCount(total, finalizeOpts?.koreanPrimary !== false);
+        const keywordCandidates = this.keywordStream.collectKeywordCandidates({
             stopwords: keywordStop,
-            limit: keywordLimit,
-            minDocFreq: adaptiveMinCount(total, finalizeOpts?.koreanPrimary !== false),
+            minDocFreq,
         });
-        this.applySemanticSupplementForRanked(wordRankItems);
-        const keywords = mergeKeywordRankings(wordRankItems, this.keywordSupplement, keywordLimit, finalizeOpts?.semanticSupplementRrfWeight ?? 0.5);
-        let topics = this.topicMap.buildTopics(total, buildTopicStopwords());
-        if (finalizeOpts?.useEmbeddingTopics && this.semanticThemeCandidates.length > 0) {
-            topics = mergeEmbeddingThemes(topics, this.semanticThemeCandidates, total);
-        }
+        const bm25LaneForSemantic = [...keywordCandidates]
+            .sort((a, b) => b.score - a.score || b.messageHits - a.messageHits)
+            .slice(0, Math.min(200, Math.floor(80 + Math.sqrt(Math.max(total, 1)))));
+        this.applySemanticSupplementForRanked(bm25LaneForSemantic);
+        const kwMerged = mergeDualLaneKeywords(keywordCandidates, this.keywordSupplement, total, keywordLimit, finalizeOpts?.semanticSupplementRrfWeight ?? 0.5);
+        const keywords = kwMerged.byFrequency;
+        const keywordsDistinctive = kwMerged.distinctive;
+        const graphTopics = this.topicMap.buildTopics(total, buildTopicStopwords());
+        const keywordTopics = buildKeywordSeedTopics(keywords, keywordsDistinctive, total, this.topicMap);
+        const semanticTopics = finalizeOpts?.useEmbeddingTopics && this.semanticThemeCandidates.length > 0
+            ? semanticItemsToTopics(this.semanticThemeCandidates, total)
+            : [];
+        let topics = mergeTopicLanes({ graph: graphTopics, keyword: keywordTopics, semantic: semanticTopics }, total);
         const burstDetectionMethod = resolveBurstDetectionMethod();
         const keywordTop1SharePercent = top1ShareFromCounts(keywords, total);
         let attachmentMarkerSum = 0;
@@ -661,9 +754,13 @@ export class ReportAggregator {
                 nightSharePercent,
                 emojiMessages: this.emojiMessages,
                 usedSemanticKeywords: finalizeOpts?.usedSemanticKeywords === true,
+                usedSentimentAnalysis: finalizeOpts?.usedSentimentAnalysis === true,
             },
             insights,
             participants: participantStats,
+            participantsByCharacters,
+            profanity: this.profanityCounter.buildProfanityStats(total, aliases),
+            sentiment: this.sentimentStats,
             daily: dailySorted,
             hourly: this.hourly,
             weekdays: this.weekdays.map((count, index) => ({
@@ -674,6 +771,7 @@ export class ReportAggregator {
             attachments: topCounts(this.attachments, this.top),
             domains: topCounts(this.domains, this.top),
             keywords,
+            keywordsDistinctive,
             topics,
             roomEvents: buildRoomEventStats(total, {
                 join: this.roomJoinMessages,
@@ -687,9 +785,14 @@ export class ReportAggregator {
                 manager: this.roomManagerMessages,
                 shopSearch: this.roomShopSearchMessages,
                 photoBundle: this.roomPhotoBundleMessages,
+            }, {
+                tagExtractions: [...this.shopSearchTopics.values()].reduce((a, n) => a + n, 0),
+                uniqueTags: this.shopSearchTopics.size,
+                untaggedNotices: this.shopSearchUntaggedNotices,
             }),
             repeatedPhrases: this.repeatPhraseCounter.top(8, 3),
-            shopSearchTopics: topCounts(this.shopSearchTopics, 10),
+            shopSearchTopics: topCounts(this.shopSearchTopics, shopSearchDisplayTop()),
+            shopSearchMissSamples: process.env.KCA_DEBUG_SHOP === "1" ? [...this.shopSearchMissSamples] : undefined,
             pureLaughMessages: this.pureLaughMessages,
             conversationPace,
             burstDays,
@@ -771,29 +874,7 @@ function getParticipantStat(stats, sender) {
     stats.set(sender, created);
     return created;
 }
-function shouldExtractKeywords(message, attachmentMarkers) {
-    const trimmed = message.trim();
-    if (trimmed.length === 0)
-        return false;
-    if (attachmentMarkers.length === 1 && trimmed === attachmentMarkers[0])
-        return false;
-    if (attachmentMarkers.length > 0 && trimmed.length <= 16) {
-        const onlyMarkers = attachmentMarkers.every((m) => trimmed === m || trimmed.includes(m));
-        if (onlyMarkers && !/[가-힣A-Za-z]{3,}/.test(trimmed.replace(/[^\p{L}\p{N}]/gu, ""))) {
-            return false;
-        }
-    }
-    return true;
-}
-function getAttachmentMarkers(message) {
-    const found = ATTACHMENT_MARKERS.filter((marker) => message.includes(marker));
-    const t = message.trim();
-    if (PHOTO_BUNDLE_RE.test(t) && !found.includes("사진")) {
-        found.push("사진");
-    }
-    return found;
-}
-function buildRoomEventStats(total, c) {
+function buildRoomEventStats(total, c, shopExtra) {
     const sum = c.join +
         c.leave +
         c.deleted +
@@ -817,6 +898,9 @@ function buildRoomEventStats(total, c) {
         subManagerCount: c.subManager,
         managerCount: c.manager,
         shopSearchCount: c.shopSearch,
+        shopSearchTagExtractions: shopExtra?.tagExtractions ?? 0,
+        shopSearchUniqueTags: shopExtra?.uniqueTags ?? 0,
+        shopSearchUntaggedNotices: shopExtra?.untaggedNotices ?? 0,
         photoBundleCount: c.photoBundle,
         total: sum,
         joinSharePercent: pct(c.join),