@lorrylurui/code-intelligence-mcp 1.1.14 → 1.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
package/README.md CHANGED
@@ -1,614 +1,107 @@
1
- # Code Intelligence MCP (Minimal)
2
-
3
- 最小可用的 Node MCP Server 框架,包含:
1
+ # Code Intelligence MCP
4
2
 
5
3
  - MCP Server(stdio)
6
- - Tool: `search_symbols`(支持 `semantic=true` 语义检索,Phase 5)
4
+ - Tool: `search_symbols`
7
5
  - Tool: `get_symbol_detail`
8
6
  - Tool: `search_by_structure`
9
7
  - Tool: `reindex`
10
8
  - Tool: `recommend_component`
11
- - Prompt: `reusable-code-advisor`(与 Cursor Skill 同工作流,见 `src/prompts/reusableCodeAdvisorPrompt.ts`)
12
- - MySQL Repository(可选启用)
13
- - Cursor Skill:`reusable-code-advisor`(`.cursor/skills/reusable-code-advisor/`,未改动,与 MCP Prompt 并行维护)
14
-
15
- ## 1) 安装
16
-
17
- ```bash
18
- npm install
19
- ```
20
-
21
- ## 2) 环境变量
22
-
23
- 复制 `.env.example` 为 `.env`。
24
-
25
- 默认不强制连接 MySQL(未配置时走内存示例数据)。
26
-
27
- 如果你要连接 MySQL,请设置:
28
-
29
- ```env
30
- MYSQL_ENABLED=true
31
- MYSQL_HOST=127.0.0.1
32
- MYSQL_PORT=3306
33
- MYSQL_USER=root
34
- MYSQL_PASSWORD=devpassword
35
- MYSQL_DATABASE=code_intelligence
36
-
37
- # Phase 5(可选):句向量服务根 URL,与 `npm run embedding:dev` 默认端口一致
38
- # EMBEDDING_SERVICE_URL=http://127.0.0.1:8765
39
- ```
40
-
41
- 密码需与下方 Docker / 本机 MySQL 配置一致(文档示例里 `devpassword` 对应 Compose)。
42
-
43
- ### 用 Docker 启动 MySQL(推荐本地开发)
9
+ - Tool: `incUsage`
10
+ - Prompt: `reusable-code-advisor`
11
+ - Cursor Skill:`reusable-code-advisor`(`.cursor/skills/reusable-code-advisor/`,
44
12
 
45
- 1. 安装 [Docker Desktop](https://www.docker.com/products/docker-desktop/)(或 Docker Engine + Compose 插件)。
46
- 2. 在项目根目录执行:
13
+ ## 1) 配置mcp servers
47
14
 
48
- ```bash
49
- npm run docker:up
50
- # 或:docker compose up -d
51
15
  ```
52
-
53
- 3. 首次启动会自动挂载 `sql/schema.sql` 到 `docker-entrypoint-initdb.d`,**创建库表**(仅**空数据卷**时执行一次)。
54
- 4. 复制 `.env.example` 为 `.env`,设置 `MYSQL_ENABLED=true`,`MYSQL_PASSWORD` 与 `docker-compose.yml` 里 `MYSQL_ROOT_PASSWORD`(默认 `devpassword`)一致。
55
- 5. 等待容器健康(约数十秒):
56
-
57
- ```bash
58
- docker compose ps
59
- ```
60
-
61
- 6. 再执行 `npm run index` 或启动 MCP。
62
-
63
- 常用命令:
64
-
65
- | 命令 | 说明 |
66
- | ------------------------ | ------------------------------ |
67
- | `npm run docker:logs` | 查看 MySQL 日志 |
68
- | `npm run docker:down` | 停止容器(数据卷保留,库仍在) |
69
- | `docker compose down -v` | **删除卷**(清空库,慎用) |
70
-
71
- **端口冲突**:若本机已有服务占用 `3306`,把 `docker-compose.yml` 里 `ports` 改为 `"3307:3306"`,并在 `.env` 设 `MYSQL_PORT=3307`。
72
-
73
- ## 3) 初始化数据库(可选)
74
-
75
- - **已用上述 Docker 首次启动**:若卷为空,建表已由 `sql/schema.sql` 自动执行,一般无需再跑下面命令。
76
- - **本机 mysql 客户端 / 手动执行**:
77
-
78
- ```bash
79
- mysql -u root -p code_intelligence < sql/schema.sql
80
- ```
81
-
82
- ### 自定义表名(第三方项目集成)
83
-
84
- 若需使用不同的表名,可通过环境变量配置:
85
-
86
- ```bash
87
- # 设置自定义表名
88
- export MYSQL_SYMBOLS_TABLE=my_project_symbols
89
-
90
- # 然后server代码内部执行建表(表名会在代码中动态替换)
91
- mysql -u root -p code_intelligence -e "$(node -e \"import('./dist/db/schema.js').then(m => console.log(m.getSymbolsTableSQL()))\")"
92
- ```
93
-
94
- 或在 `.env` 中配置:
95
-
96
- ```env
97
- MYSQL_SYMBOLS_TABLE=my_project_symbols
98
- ```
99
-
100
- ## 4) 本地运行
101
-
102
- ### 普通开发(热更新)
103
-
104
- ```bash
105
- npm run dev
106
- ```
107
-
108
- 使用 `tsx watch`,改 `src/` 会自动重启;已关闭清屏(`--clear-screen=false`),并排除 `node_modules`、`dist`。
109
-
110
- ### 接 Cursor MCP(不污染 stdout)
111
-
112
- MCP 走 **stdio**,协议数据必须在子进程的 **stdout** 上;若用 `npm run dev` 接 MCP,`npm` 或部分工具可能往 stdout 打杂讯,导致握手异常。
113
-
114
- 推荐用 **专用脚本**:子进程只跑 `tsx src/index.ts`,**监听/重启日志只打到 stderr**。
115
-
116
- ```bash
117
- npm run dev:mcp
118
- ```
119
-
120
- **Cursor `mcp.json` 示例(推荐直接调 node,避免 npm):**
121
-
122
- ```json
123
- {
124
- "mcpServers": {
125
- "code-intelligence-mcp": {
126
- "command": "node",
127
- "args": ["/绝对路径/Intelligence-code/scripts/mcp-dev-watch.mjs"],
128
- "cwd": "/绝对路径/Intelligence-code"
129
- }
130
- }
131
- }
132
- ```
133
-
134
- 也可继续用 `"command": "npm"`, `"args": ["run", "dev:mcp"]`,但部分环境下 npm 仍可能产生额外输出;若 tools 不稳定,请改用上面的 `node .../mcp-dev-watch.mjs`。
135
-
136
- ### MCP Prompt(非 Cursor 客户端)
137
-
138
- 服务器注册 Prompt **`reusable-code-advisor`**:客户端执行 `prompts/list` 可见;`prompts/get` 时可传可选参数 **`userRequest`**(用户当前需求或关键词),返回的消息正文与 Cursor Skill 工作流一致。
139
- 文案与 `.cursor/skills/reusable-code-advisor/SKILL.md` 正文需**手动同步**(见 `src/prompts/reusableCodeAdvisorPrompt.ts` 顶部注释)。
140
-
141
- 在 **MCP Inspector** 中切换到 **Prompts** 面板即可选择并调试。
142
-
143
- ## 5) Phase 2:代码索引(ts-morph + fast-glob → MySQL)
144
-
145
- 1. **建表 / 迁移**
146
- - 新库:执行 `sql/schema.sql`(已含 `(path, name)` 唯一索引,便于重复执行 `npm run index` 时 upsert)。
147
- - 旧库若只有早期表结构:执行 `sql/migrations/002_symbols_unique_path_name.sql`(若已有重复 `path+name` 需先清理)。
148
-
149
- 2. **配置 MySQL**(`.env` 中 `MYSQL_ENABLED=true` 等)。
150
-
151
- 3. **跑索引**(日志在 stderr,不污染 MCP stdout):
152
-
153
- ```bash
154
- npm run index
155
- ```
156
-
157
- 可选环境变量(见 `.env.example`):
158
-
159
- | 变量 | 含义 |
160
- | -------------- | --------------------------------------- |
161
- | `INDEX_ROOT` | 工程根目录,默认当前工作目录 |
162
- | `INDEX_GLOB` | 空格分隔 glob,默认 `src/**/*.{ts,tsx}` |
163
- | `INDEX_IGNORE` | 额外忽略的 glob 片段(空格分隔) |
164
-
165
- **分类规则(首版启发式)**:`interface` / `type` → `type`;`.tsx` 且函数体含 JSX → `component`;路径或导出名含 `selector` → `selector`;其余导出函数 → `util`;`class` → `util`(可后续细化)。
166
-
167
- **常见错误 `ECONNREFUSED 127.0.0.1:3306`**:本机没有在该端口监听 MySQL。请先启动数据库服务(例如 macOS Homebrew:`brew services start mysql` / `mariadb`),或把 `.env` 里的 `MYSQL_HOST`、`MYSQL_PORT` 改成你实际使用的实例(含 Docker 映射端口)。索引脚本会先执行 `SELECT 1` 再扫描代码,避免库不可用时仍跑完解析。
168
-
169
- ## 6) 后续演进建议
170
-
171
- - 新增 Tool:`list_dependencies`、`get_usage_stats`
172
- - Indexer:更细的 selector 识别、`export default` 命名、类组件等
173
- - Phase 5 语义检索已落地(见下文);后续可换 pgvector / FAISS、更大模型
174
-
175
- ## 8) Phase 3(增强)
176
-
177
- - `search_symbols` 已支持 `ranked` 参数(默认 `true`),返回 `score` 和 `reason`。
178
- - 新增 `search_by_structure`,可按 `fields`(匹配 `meta.props/params/properties/hooks`)检索。
179
- - 两个搜索 tool 的 ranking 已升级:除可读 `reason` 外,还返回结构化 `reasonDetail`(含各维度得分、权重和匹配方式),方便前端/Agent解释。
180
-
181
- 示例:
182
-
183
- ```json
184
- {
185
- "fields": ["onChange", "value"],
186
- "type": "component",
187
- "limit": 10
188
- }
189
- ```
190
-
191
- `reindex` 示例(Inspector / Agent 可直接调用,不用回终端):
192
-
193
- ```json
194
- {
195
- "dryRun": false
196
- }
197
- ```
198
-
199
- 可选参数:
200
-
201
- - `projectRoot`: 指定索引根目录(默认 MCP 进程当前目录)
202
- - `globPatterns`: 自定义扫描 glob 列表
203
- - `ignore`: 额外忽略规则
204
- - `dryRun`: `true` 时只扫描,不写 MySQL
205
-
206
- ## 9) Phase 4(Skill)
207
-
208
- - 新增 Skill Tool:`recommend_component`
209
- - 流程已落地:关键词搜索 -> 结构过滤(可选 `props`)-> ranking -> detail 补全 -> 返回 reason
210
- - 新增 Prompt:`recommend-component`(用于在支持 MCP Prompt 的客户端快速触发该流程)
211
-
212
- 示例:
213
-
214
- ```json
215
- {
216
- "query": "带校验的表单组件",
217
- "props": ["value", "onChange"],
218
- "limit": 3
219
- }
220
- ```
221
-
222
- ## 10) Phase 5(语义检索,可选)
223
-
224
- 1. **迁移**:若库是在增加 `embedding` 列之前创建的,执行:
225
-
226
- ```bash
227
- mysql -u root -p code_intelligence < sql/migrations/003_add_embedding.sql
228
- ```
229
-
230
- 2. **Python 依赖**(建议虚拟环境;首次运行会下载模型权重,体积约数百 MB):
231
-
232
- ```bash
233
- cd embedding-service
234
- python3 -m venv .venv
235
- source .venv/bin/activate
236
- pip install -r requirements.txt
237
- ```
238
-
239
- 3. **启动嵌入服务**(默认 `127.0.0.1:8765`):
240
-
241
- ```bash
242
- npm run embedding:dev
243
- ```
244
-
245
- 4. **`.env`** 增加 `EMBEDDING_SERVICE_URL=http://127.0.0.1:8765`,再执行 **`npm run index`** 或 MCP **`reindex`**(`dryRun=false`)写入向量。未配置 URL 时与 Phase 2 行为一致,不写入 `embedding`。
246
-
247
- 5. **`search_symbols`**:传入 `semantic: true` 可做自然语言检索;可选 `limit`(默认 20)。返回中会含 `semanticSimilarity`(余弦相似度)。当前实现按 `usage_count` 取最多 3000 条有向量的候选再精排;超大规模仓库请改为 ANN。
248
-
249
- 环境变量 **`EMBEDDING_MODEL`**(仅 Python):覆盖默认的 `all-MiniLM-L6-v2`。
250
-
251
- ## 7) VS Code 迁移
252
-
253
- 迁移步骤见 `docs/vscode-mcp-migration.md`。
254
-
255
- # 使用说明
256
-
257
- Run with:
258
-
259
- ````bash
260
- - 脚本 cli 启动:npx code-intelligence-mcp(走mcp不执行)
261
- - 给项目做索引,运行:npx code-intelligence-index, 项目根目录取配置或者cwd(重要,首次以及后续需要时执行:新项目必须执行一次建表)
262
- ---
263
-
264
- ### MCP 配置(核心)
265
-
266
- ```md
267
- ## MCP Config
268
-
269
- ```json
270
16
  {
271
17
  "mcpServers": {
272
- "code-intelligence": {
18
+ "code-intelligence-mcp": {
273
19
  "command": "npx",
274
- "args": ["code-intelligence-mcp"]
20
+ "args": ["-y", "@lorrylurui/code-intelligence-mcp"]
275
21
  }
276
22
  }
277
23
  }
278
- ---
279
-
280
- ### 支持的 Tools Prompts
281
-
282
- ```md
283
- ## Tools
284
-
285
- - search_symbols
286
- - get_symbol_detail
287
- - search_by_structure
288
- - recommend_component
289
- - reindex
290
-
291
- ## Prompts
292
-
293
- - recommend-component
294
- - reusable-code-advisor
295
- ````
296
-
297
- ---
298
-
299
- Code Intelligence 功能完整总结
300
-
301
- 项目定位
302
-
303
- 智能代码推荐系统:解决日常团队开发中可复用逻辑(组件、样式、selectors、类型声明等)重复开发问题,提高代码复
304
- 用率。
305
-
306
- 一、系统架构
307
-
308
- ┌─────────────────────────────────────────────────────────────────┐
309
- │ MCP Client (Claude/Cursor) │
310
- │ 用户提问 → 模型分析 → 返回结果 │
311
- └─────────────────────────────────────────────────────────────────┘
312
-
313
-
314
- ┌─────────────────────────────────────────────────────────────────┐
315
- │ MCP Server (Node.js) │
316
- ├─────────────────────────────────────────────────────────────────┤
317
- │ Tools (4个) │ Prompts (1个) │ DB Layer │
318
- │ - search_symbols │ - reusable-code- │ - MySQL │
319
- │ - get_symbol_detail │ advisor │ - embedding │
320
- │ - search_by_struct │ │ │
321
- │ - reindex │ │ │
322
- └─────────────────────────────────────────────────────────────────┘
323
-
324
-
325
- ┌─────────────────────────────────────────────────────────────────┐
326
- │ Indexer (源码解析) │
327
- │ ts-ormorph (TS/TSX) + Babel (JS/JSX) │
328
- └─────────────────────────────────────────────────────────────────┘
329
-
330
-
331
- ┌─────────────────────────────────────────────────────────────────┐
332
- │ Embedding Service (Python FastAPI) │
333
- │ 向量化 + 语义检索 │
334
- └─────────────────────────────────────────────────────────────────┘
335
-
336
- 二、MCP Server Tools(4个)
337
-
338
- 1. search_symbols 通用检索
339
-
340
- 功能:根据 query 和 type 进行语义搜索,对结果进行权重排序
341
-
342
- 入参:
343
- {
344
- query: string, // 搜索关键词
345
- type?: 'component' | 'util' | 'selector' | 'type', // 可选
346
- semantic?: boolean, // 是否启用语义搜索(需 embedding 服务)
347
- ranked?: boolean, // 是否排序,默认 true
348
- limit?: number, // 返回数量,默认 20
349
- }
350
-
351
- 权重排序算法(RANK_WEIGHTS):
352
- const RANK_WEIGHTS = {
353
- textMatch: 0.4, // 文本匹配度
354
- usage: 0.3, // 使用频率
355
- recency: 0.15, // 最近更新时间
356
- commonPath: 0.15, // common 路径偏好
357
- }
358
-
359
- score = textScore _ 0.4 + usage _ 0.3 + recency _ 0.15 + commonPath _ 0.15
360
-
361
- 难点:
362
-
363
- - 多维度权重调优
364
- - 文本匹配算法(模糊匹配 + 语义匹配)
365
- - 冷启动时无 embedding 向量fallback 到文本匹配
366
-
367
- ---
368
-
369
- 2. get_symbol_detail 获取详情
370
-
371
- 功能:根据 name 获取代码块的完整信息
372
-
373
- 入参:
374
- {
375
- name: string, // 代码块名称
376
- }
377
-
378
- 返回:完整代码块信息包括 meta(props/params/properties/hooks)
379
-
380
- 难点:需要从 MySQL 解析 JSON 格式的 meta 字段
381
-
382
- ---
383
-
384
- 3. search_by_structure 结构化搜索
385
-
386
- 功能:通过结构化字段搜索代码块,适用于 API 形态查询
387
-
388
- 入参:
389
- {
390
- fields: string[], // 结构字段,如 ['onChange', 'value']
391
- type?: 'component' | 'util' | 'selector' | 'type',
392
- category?: string, // 业务分类
393
- limit?: number,
394
- }
395
-
396
- 匹配逻辑:匹配 symbol.meta 中的:
397
-
398
- - props - 组件 props
399
- - params - 函数参数
400
- - properties - 对象属性
401
- - hooks - React hooks
402
-
403
- 难点:
404
-
405
- - 不支持 LLM 向量检索,需全表扫描 + 内存过滤
406
- - 需要在 MySQL 中存储 JSON 格式的 meta
407
-
408
- ---
409
-
410
- 4. reindex 重建索引
411
-
412
- 功能:扫描源码目录,解析并写入 MySQL + 向量
413
-
414
- 入参:
415
- {
416
- projectRoot?: string, // 项目根目录,默认 cwd
417
- globPatterns?: string[], // glob 模式,默认 ['**/*.{ts,tsx}']
418
- ignore?: string[], // 忽略目录
419
- dryRun?: boolean, // 仅预览不写入
420
- }
421
-
422
- 处理流程:
423
-
424
- 1. 收集文件(fast-glob)
425
-
426
- 2. 分离 TS/TSX 和 JS/JSX
427
-
428
- 3. TS/TSX:ts-ormorph 解析
429
- JS/JSX:Babel 解析
430
-
431
- 4. 提取 meta(props/params/properties/hooks)
432
-
433
- 5. 写入 MySQL
434
-
435
- 6. 写入 embedding 向量(可选)
436
-
437
- 难点:
438
-
439
- - ts-ormorph:需要 tsconfig.json,不存在时用默认配置
440
- - Babel 解析:支持 JSX、TypeScript、装饰器等语法
441
- - meta 提取:
442
- - extractFunctionMeta:提取函数参数、返回值类型
443
- - extractHooksFromBody:提取 useState/useEffect 等
444
- - extractInterfaceOrTypeMeta:提取接口属性
445
- - 路径推断 category:从路径智能推断业务分类(如 src/components/form/\* → form)
446
- - 忽略规则:node_modules、dist、build、.git、coverage、.next、.nuxt、.venv 等
447
-
448
- ---
449
-
450
- 三、MCP Prompt(1个)
451
-
452
- reusable-code-advisor 多工具编排
453
-
454
- 功能:在实现需求时检索并推荐最合适的可复用代码
455
-
456
- 工作流:
457
-
458
- 1. 调用 search_symbols 检索候选,type 根据用户需求传(component/util/selector/type)
459
- 2. 如果用户指定了结构过滤条件(props/params/properties/hooks),额外调用 search_by_structure 做结构匹配
460
- 3. 先 search_symbols(limit=20) 拉候选,再对 Top 3 调用 get_symbol_detail 做深度判断
461
- 4. 若仅凭签名/摘要无法判断,调用 get_symbol_detail 获取详情
462
- 5. 从以下维度对比候选:
463
- - 功能匹配度
464
- - API 是否简单、入参是否合适
465
- - 依赖与副作用风险
466
- - 复用安全性(稳定性、耦合度、是否便于扩展)
467
- 6. 给出唯一首选推荐,并说明理由
468
-
469
- 返回格式:
470
-
471
- - 首选:<代码块名>
472
- - 理由:1~3 条要点
473
- - 其他候选:简要列出及取舍
474
- - 用法提示:结合用户场景的最小集成说明
475
-
476
- 难点:多工具组合调用逻辑、意图判断
477
-
478
- ---
479
-
480
- 四、GitHub Actions(CI/CD 检测评论)
481
-
482
- 1. duplicate-check 工作流
483
-
484
- 功能:检测代码重复实现,在 PR/Commit 上自动评论
485
-
486
- 触发条件:
487
-
488
- - push 到 main 分支
489
- - PR opened/synchronize/reopened
490
-
491
- 工作流:
492
-
493
- 1. 计算变更文件列表(git diff)
494
- 2. 运行 detect-duplicates 脚本
495
- 3. 生成报告(JSON + Markdown)
496
- 4. 上传 artifact
497
- 5. 评论到 PR 或 Commit
498
-
499
- 评论逻辑:
500
-
501
- - PR 事件:直接评论到 PR
502
- - Push 事件:查找关联 PR 并评论,无关联则评论到 Commit
503
-
504
- 发布为 GitHub Action:
505
-
506
- - 仓库:lorrylurui/code-intelligence-check
507
- - 第三方使用:
508
- - uses: lorrylurui/code-intelligence-check@v1
509
- with:
510
- is-mock-mode: 'true' # 无需 MySQL
511
-
512
- ---
513
-
514
- 五、Embedding Service(Python FastAPI)
515
-
516
- 功能
517
-
518
- - 文本向量化:将查询和代码块转为向量(384维 MiniLM)
519
- - 语义检索:余弦相似度计算
520
-
521
- API
522
-
523
- POST /embed
524
- Body: { "texts": ["查询文本"] }
525
- Response: { "embeddings": [[0.1, 0.2, ...]] }
526
-
527
- GET /health
528
-
529
- ---
530
-
531
- 六、数据库设计
532
-
533
- symbols 表
534
-
535
- CREATE TABLE symbols (
536
- id INT AUTO_INCREMENT PRIMARY KEY,
537
- name VARCHAR(255) NOT NULL COMMENT '代码块名称',
538
- type ENUM('component', 'util', 'selector', 'type') NOT NULL COMMENT '类型',
539
- category VARCHAR(100) COMMENT '业务分类',
540
- path VARCHAR(500) NOT NULL COMMENT '文件路径',
541
- description TEXT COMMENT '描述/文档',
542
- content LONGTEXT COMMENT '完整代码内容',
543
- meta JSON COMMENT '结构化元信息:props/params/properties/hooks',
544
- usage_count INT DEFAULT 0 COMMENT '使用频率',
545
- embedding JSON NULL COMMENT '向量',
546
- created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
547
- INDEX idx_type (type),
548
- INDEX idx_category (category),
549
- INDEX idx_usage (usage_count DESC)
550
- );
551
-
552
- ---
553
-
554
- 七、环境配置
555
-
556
- 环境变量
557
-
558
- ┌───────────────────────┬──────────────┬───────────────────┐
559
- │ 变量 │ 说明 │ 默认值 │
560
- ├───────────────────────┼──────────────┼───────────────────┤
561
- │ MYSQL_ENABLED │ 启用 MySQL │ false │
562
- ├───────────────────────┼──────────────┼───────────────────┤
563
- │ MYSQL_HOST │ MySQL 主机 │ - │
564
- ├───────────────────────┼──────────────┼───────────────────┤
565
- │ MYSQL_PORT │ MySQL 端口 │ 3306 │
566
- ├───────────────────────┼──────────────┼───────────────────┤
567
- │ MYSQL_USER │ MySQL 用户 │ - │
568
- ├───────────────────────┼──────────────┼───────────────────┤
569
- │ MYSQL_PASSWORD │ MySQL 密码 │ - │
570
- ├───────────────────────┼──────────────┼───────────────────┤
571
- │ MYSQL_DATABASE │ 数据库名 │ code_intelligence │
572
- ├───────────────────────┼──────────────┼───────────────────┤
573
- │ MYSQL_SYMBOLS_TABLE │ 表名 │ symbols │
574
- ├───────────────────────┼──────────────┼───────────────────┤
575
- │ EMBEDDING_SERVICE_URL │ 向量服务 URL │ - │
576
- └───────────────────────┴──────────────┴───────────────────┘
577
-
578
- 环境变量加载逻辑
579
-
580
- 1. 加载本地 .env
581
- 2. 加载第三方 .env(按变量维度覆盖,只覆盖第三方明确配置的变量)
582
- 3. 命令行参数 --KEY=VALUE 优先级最高
583
-
584
- ---
585
-
586
- 八、技术难点总结
587
-
588
- ┌────────────┬───────────────────────────────────────────────────┐
589
- │ 模块 │ 难点 │
590
- ├────────────┼───────────────────────────────────────────────────┤
591
- │ 权重排序 │ textMatch/usage/recency/commonPath 四维权重调优 │
592
- ├────────────┼───────────────────────────────────────────────────┤
593
- │ TS 解析 │ ts-ormorph 需要 tsconfig.json,不存在时用默认配置 │
594
- ├────────────┼───────────────────────────────────────────────────┤
595
- │ JS 解析 │ Babel 支持 JSX/TS/装饰器等复杂语法 │
596
- ├────────────┼───────────────────────────────────────────────────┤
597
- │ Meta 提取 │ 函数/接口/类/hooks 的参数、返回值、类型解析 │
598
- ├────────────┼───────────────────────────────────────────────────┤
599
- │ 路径推断 │ 从文件路径智能推断业务分类(category) │
600
- ├────────────┼───────────────────────────────────────────────────┤
601
- │ 结构搜索 │ meta 存储为 JSON,全表扫描 + 内存过滤 │
602
- ├────────────┼───────────────────────────────────────────────────┤
603
- │ 向量检索 │ 向量生成、存储、余弦相似度计算 │
604
- ├────────────┼───────────────────────────────────────────────────┤
605
- │ 多工具编排 │ Prompt 中多 Tool 组合调用逻辑 │
606
- ├────────────┼───────────────────────────────────────────────────┤
607
- │ 环境加载 │ 本地/第三方 .env 按变量维度合并 │
608
- ├────────────┼───────────────────────────────────────────────────┤
609
- │ CI 评论 │ PR/Commit 评论逻辑、关联 PR 查找 │
610
- └────────────┴───────────────────────────────────────────────────┘
611
-
612
- ---
24
+ ```
613
25
 
614
- 这就是完整详细的功能总结。如需补充其他细节请告诉我。
26
+ ## 2)配置流水线
27
+
28
+ ```
29
+ - uses: lorrylurui/code-intelligence-check@v1
30
+ ```
31
+
32
+ ## 3) 项目根目录环境变量
33
+
34
+ <!-- 最小配置 1.表名 2.需要检索的文件路径和类型 -->
35
+
36
+ MYSQL\*SYMBOLS_TABLE=frontend_collections_symbols
37
+ INDEX_GLOB=xxx/\*\*/\_.{js,jsx,ts,tsx}
38
+
39
+ # 待优化项
40
+
41
+ 修复优先级:
42
+ ✅8
43
+ ✅5
44
+ ✅134 done,但是第二层embedding需要优化,llm fallback太慢+漂移,也需要调整模型
45
+ ✅6
46
+ ✅27
47
+
48
+ 1. meta里面有多个信息,哪些做结构化过滤,哪些做向量检索?
49
+ 结论:ast normalizers后拼一个语义模板,用这个模板内容生成向量
50
+ ❓做法见qa-doc/semantic-phrase.md
51
+ 2. 对于 class类型,content字段保留关键方法或摘要,而不是完全为空
52
+ 最新修改:content赋值为语义模板
53
+ 3. category过于模糊,
54
+ 这三层怎么做:category 优先使用规则和 embedding 分类,
55
+ LLM 只作为 fallback,避免不稳定和成本问题
56
+ ❓做法见qa-doc/category.md
57
+ 4. type category meta.kind 字段是否多余了?type只有5个值,
58
+ type表达代码结构、category表达语义结构,kind?
59
+ type: function / component / hook / class / type / interface
60
+ category:最新的三层结构(还没实现,只有文档)
61
+ kind: 现在跟type重叠较多,建议弱化meta.kind → 只保留特殊情况:
62
+ ❓改造方法qa-doc/type-category-kind.md
63
+ 5. 在ci做增量索引时,把changed files,如果是1000+文件,性能爆炸,考虑用file hash 判断?embedding也没有优化缓存?
64
+ ❓见qa-doc/ci-hash-solution 方案:🥈 file hash + ast normalizer hash,新增semantic_hash
65
+ - CI 增量(git changed files 触发)
66
+ 只需要 semantic_hash
67
+ file_hash 可省,因为文件必然变了
68
+ - 每日全量扫描
69
+ file_hash 用来跳过 AST 解析(CPU 优化)
70
+ semantic_hash 用来跳过 embedding(费用优化)
71
+ content_hash 删掉,职责完全被 semantic_hash 覆盖
72
+ 6. 大仓问题:
73
+ ❓big-repo.md
74
+ - ci embedding解耦,新增embedding_status, ci时,全量写入status='pending'-> ci finish
75
+ - ci如果检测到文件删除,则对被删除的代码块标记delete(这里需要新增字段)
76
+ - node+redis 消费写embedding job
77
+ - 对语义模板semantic_hash做向量缓存,semantic_hash相同即功能未变
78
+ - 大仓分片并行
79
+ 7. content暂时用不到,但也不用删除,目前暴利截取4000字符需要优化:
80
+ content(降级为辅助字段):✔ 不参与 embedding✔ 不参与排序✔ 不参与过滤✔ 用于:1. LLM改造建议 2.debug 3.future rerank
81
+ 最简单:只存 signature
82
+ 最优:content = {
83
+ signature: "function fetchData(url, options)",
84
+ snippet: "核心逻辑代码(<=300行)",
85
+ keyCalls: ["fetch", "cache"]
86
+ }
87
+ 8. TopK???,首先去掉usage过滤,再做两次topk,1.根据余弦相似度选topk 2.对1的结果用现有的usage,updated_at等加权排序
88
+ ❓topK.md
89
+ 现在:SQL过滤(type) → ORDER BY usage_count DESC LIMIT 3000→ embedding 相似度排序→ 取 top20
90
+ 这个逻辑不对,导致query: "debounce function",debounce 使用少 ❌ fetch 很热门 ✅,结果Top3000里全是 fetch / request, debounce 被过滤掉 ❌
91
+
92
+ 👉 优点:
93
+ • 不阻塞 CI
94
+ • 可扩展
95
+
96
+ 6. 大仓问题呢?
97
+
98
+ # 简历里还没做的优化
99
+
100
+ 1. embedding基石 - 语义模板模板,使用ast数据拼装语义模板
101
+ 2. class的content为null
102
+ 3. category分层 1.规则 2.预设所有种类,使用embedding召回 3.llm兜底
103
+ 4. type meta.kind逻辑优化,现在太重叠了
104
+ 5. ci-hash-solution
105
+ 6. 大仓问题
106
+ 7. content优化
107
+ 8. ✅topk优化