chattercatcher 0.1.14 → 0.1.15
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/README.md +51 -5
- package/package.json +2 -2
package/README.md
CHANGED
|
@@ -15,7 +15,7 @@
|
|
|
15
15
|
</p>
|
|
16
16
|
|
|
17
17
|
<p align="center">
|
|
18
|
-
|
|
18
|
+
静默保存家庭群里的重要消息、文件和碎片化上下文,被 @ 时用可追溯引用回答。
|
|
19
19
|
</p>
|
|
20
20
|
|
|
21
21
|
<p align="center">
|
|
@@ -53,7 +53,15 @@
|
|
|
53
53
|
|
|
54
54
|
## 项目状态
|
|
55
55
|
|
|
56
|
-
ChatterCatcher 是一个早期 MVP。它已经具备飞书长连接接入、本地消息存储、SQLite FTS、SQLite embedding
|
|
56
|
+
ChatterCatcher 是一个早期 MVP。它已经具备飞书长连接接入、本地消息存储、SQLite FTS、SQLite embedding 向量检索、会话记忆块、OpenAI-compatible LLM/Embedding、CLI、本地 Web UI 和带引用回答。
|
|
57
|
+
|
|
58
|
+
近期亮点:
|
|
59
|
+
|
|
60
|
+
- **无 native 向量库依赖**:语义向量写入 SQLite,避免 LanceDB 平台包在不同 macOS/CPU 架构上安装失败。
|
|
61
|
+
- **SQLite FTS + embedding 混合 RAG**:关键词和语义检索并行召回,回答前必须先找到本地证据。
|
|
62
|
+
- **自动识别飞书机器人身份**:可通过 App ID / App Secret 自动获取 `botOpenId`,减少手动配置错误。
|
|
63
|
+
- **会话记忆块**:把 10 分钟窗口、静默 2 分钟后的碎片聊天整理成 episode summary,让“我要发一个 API key”与后续短消息保持上下文关联。
|
|
64
|
+
- **敏感摘要保护**:会话摘要会脱敏疑似 token/API key;原始消息仍保留在本地,方便必要时追溯。
|
|
57
65
|
|
|
58
66
|
当前核心方向是:
|
|
59
67
|
|
|
@@ -109,15 +117,16 @@ ChatterCatcher 是一个早期 MVP。它已经具备飞书长连接接入、本
|
|
|
109
117
|
|
|
110
118
|
| 模块 | 能力 |
|
|
111
119
|
| --- | --- |
|
|
112
|
-
| 飞书 Gateway | 官方长连接、`im.message.receive_v1`
|
|
120
|
+
| 飞书 Gateway | 官方长连接、`im.message.receive_v1` 事件、自动 `botOpenId` 获取、重复投递保护、附件下载入口 |
|
|
113
121
|
| 消息入库 | 普通文本消息写入 SQLite;`@` 提问直接回答并跳过入库 |
|
|
114
|
-
|
|
|
122
|
+
| 会话记忆块 | 默认 10 分钟窗口 + 2 分钟静默期,把碎片聊天整理成可检索 episode summary,并关联原始消息 |
|
|
123
|
+
| RAG 检索 | SQLite FTS 关键词检索、SQLite embedding 向量检索、episode summary 检索、混合重排、证据来源保留 |
|
|
115
124
|
| 问答 | OpenAI-compatible chat completions、证据不足时说不知道、回答带引用 |
|
|
116
125
|
| 引用格式 | 展示“谁在什么时候说了什么”,避免暴露 `ou_` / `oc_` 等 opaque id |
|
|
117
126
|
| 文件知识源 | 支持 txt、md、json、csv、tsv、log、docx、pdf 导入和解析 |
|
|
118
127
|
| CLI | setup、settings、doctor、gateway、process、index、files、export、restore |
|
|
119
128
|
| Web UI | 本地状态看板、自动刷新、最近消息、群聊、文件库和解析任务 |
|
|
120
|
-
| 隐私 | 配置与密钥分离;导出不包含 API Key、App Secret 或 token |
|
|
129
|
+
| 隐私 | 配置与密钥分离;导出不包含 API Key、App Secret 或 token;会话摘要会脱敏疑似密钥 |
|
|
121
130
|
| 数据管理 | 本地导出/恢复、按消息/文件/群删除本地知识库数据 |
|
|
122
131
|
|
|
123
132
|
---
|
|
@@ -130,13 +139,16 @@ flowchart LR
|
|
|
130
139
|
Gateway --> Router["消息路由"]
|
|
131
140
|
|
|
132
141
|
Router -->|"普通消息"| SQLite["SQLite messages"]
|
|
142
|
+
SQLite --> Episode["Episode summaries"]
|
|
133
143
|
SQLite --> FTS["SQLite FTS5"]
|
|
144
|
+
Episode --> EpisodeFTS["Episode FTS5"]
|
|
134
145
|
SQLite --> Indexer["Embedding Indexer"]
|
|
135
146
|
Indexer --> Vectors["SQLite embedding vectors"]
|
|
136
147
|
|
|
137
148
|
Router -->|"@ 提问"| QA["Question Handler"]
|
|
138
149
|
QA --> Hybrid["Hybrid Retriever"]
|
|
139
150
|
FTS --> Hybrid
|
|
151
|
+
EpisodeFTS --> Hybrid
|
|
140
152
|
Vectors --> Hybrid
|
|
141
153
|
Hybrid --> LLM["OpenAI-compatible LLM"]
|
|
142
154
|
LLM --> Reply["带引用回复原消息"]
|
|
@@ -257,6 +269,7 @@ http://127.0.0.1:3878
|
|
|
257
269
|
| `chattercatcher gateway status` | 查看 Gateway 状态 |
|
|
258
270
|
| `chattercatcher gateway stop` | 停止 Gateway |
|
|
259
271
|
| `chattercatcher process messages` | 立即处理消息索引任务 |
|
|
272
|
+
| `chattercatcher process episodes` | 立即生成会话记忆块,把碎片聊天整理成可检索摘要 |
|
|
260
273
|
| `chattercatcher index rebuild` | 重建 SQLite embedding 向量索引 |
|
|
261
274
|
| `chattercatcher files add <path...>` | 导入本地文件知识源 |
|
|
262
275
|
| `chattercatcher files jobs` | 查看文件解析任务 |
|
|
@@ -265,6 +278,29 @@ http://127.0.0.1:3878
|
|
|
265
278
|
|
|
266
279
|
---
|
|
267
280
|
|
|
281
|
+
## 会话记忆块
|
|
282
|
+
|
|
283
|
+
家庭群聊天经常是碎片化的:前一句说明背景,后一句只发一个短词、链接或密钥。只检索单条原始消息时,RAG 很容易丢失上下文。
|
|
284
|
+
|
|
285
|
+
ChatterCatcher 会在普通消息入库后尝试生成 **会话记忆块(episode summary)**:
|
|
286
|
+
|
|
287
|
+
1. 按群聊读取尚未整理过的原始消息。
|
|
288
|
+
2. 默认以 10 分钟为窗口聚合相邻聊天。
|
|
289
|
+
3. 当窗口最后一条消息之后安静 2 分钟,认为这一小段对话可以整理。
|
|
290
|
+
4. 调用 LLM 把碎片聊天总结成可检索事实。
|
|
291
|
+
5. 将摘要写入本地 SQLite,并记录它关联的原始消息 ID。
|
|
292
|
+
6. 问答时同时检索原始消息、文件证据和会话记忆块。
|
|
293
|
+
|
|
294
|
+
会话摘要会脱敏疑似 API key、token、cookie、私钥和 URL 凭据;原始消息仍保存在本地数据库里,回答需要追溯时可以回到原始证据。
|
|
295
|
+
|
|
296
|
+
手动触发:
|
|
297
|
+
|
|
298
|
+
```bash
|
|
299
|
+
chattercatcher process episodes
|
|
300
|
+
```
|
|
301
|
+
|
|
302
|
+
---
|
|
303
|
+
|
|
268
304
|
## 本地数据目录
|
|
269
305
|
|
|
270
306
|
默认数据目录:
|
|
@@ -297,6 +333,8 @@ dist/
|
|
|
297
333
|
- 默认 Web UI 只监听 `127.0.0.1`。
|
|
298
334
|
- 聊天记录、文件内容、OCR 结果和语音转写都视为隐私数据。
|
|
299
335
|
- App Secret、API Key 和 token 与普通配置分开保存。
|
|
336
|
+
- 会话记忆块会脱敏疑似 API key、token、cookie、私钥和 URL 凭据,避免把敏感值扩散到摘要里。
|
|
337
|
+
- 原始消息仍保存在本地数据库,方便在必要时追溯上下文。
|
|
300
338
|
- 导出文件不包含密钥。
|
|
301
339
|
- 事实性回答必须基于检索证据。
|
|
302
340
|
- 检索不到证据时必须说不知道。
|
|
@@ -345,6 +383,14 @@ npm install -g chattercatcher@latest
|
|
|
345
383
|
|
|
346
384
|
家庭聊天是长期知识库,不应该靠把全部历史消息塞进上下文。RAG 可以控制证据范围、保留来源、降低幻觉,并让回答可追溯。
|
|
347
385
|
|
|
386
|
+
### 会话记忆块是什么?
|
|
387
|
+
|
|
388
|
+
会话记忆块是 ChatterCatcher 对一小段碎片聊天生成的本地摘要。它默认等待 10 分钟窗口结束并静默 2 分钟后生成,用来保留“上一句解释背景、下一句只发短内容”的上下文关系。可以运行 `chattercatcher process episodes` 手动触发。
|
|
389
|
+
|
|
390
|
+
### 会话摘要会不会泄露 API key?
|
|
391
|
+
|
|
392
|
+
摘要层会脱敏疑似 API key、token、cookie、私钥和 URL 凭据;原始消息仍然只保存在本地数据库,用于必要时追溯证据。
|
|
393
|
+
|
|
348
394
|
### Web UI 可以暴露到公网吗?
|
|
349
395
|
|
|
350
396
|
默认不建议。ChatterCatcher 面向家庭隐私数据,默认只监听 `127.0.0.1`。
|
package/package.json
CHANGED
|
@@ -1,6 +1,6 @@
|
|
|
1
1
|
{
|
|
2
2
|
"name": "chattercatcher",
|
|
3
|
-
"version": "0.1.
|
|
3
|
+
"version": "0.1.15",
|
|
4
4
|
"description": "本地优先的飞书/Lark 家庭群知识库机器人",
|
|
5
5
|
"type": "module",
|
|
6
6
|
"main": "dist/index.js",
|
|
@@ -44,7 +44,7 @@
|
|
|
44
44
|
"license": "MIT",
|
|
45
45
|
"dependencies": {
|
|
46
46
|
"@inquirer/prompts": "^8.4.2",
|
|
47
|
-
"@larksuiteoapi/node-sdk": "^1.62.
|
|
47
|
+
"@larksuiteoapi/node-sdk": "^1.62.1",
|
|
48
48
|
"better-sqlite3": "^12.9.0",
|
|
49
49
|
"commander": "^14.0.3",
|
|
50
50
|
"fastify": "^5.8.5",
|