079project 2.0.0 → 3.0.0
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/crawler/agent.cjs +97 -0
- package/crawler/index.cjs +515 -0
- package/crawler/storage.cjs +163 -0
- package/groupmanager.cjs +2 -1
- package/main_Serve.cjs +1136 -210
- package/main_Study.cjs +1584 -349
- package/package.json +2 -1
- package/robots/seeds.txt +2 -0
- package/schedule.cjs +745 -0
- package/todo-list.txt +0 -86
package/todo-list.txt
DELETED
|
@@ -1,86 +0,0 @@
|
|
|
1
|
-
GitHub Copilot
|
|
2
|
-
|
|
3
|
-
下面把你提出的 v2.0 需求整理成清晰的 TODO-list(每项附带子任务、优先级、复杂度估算、首要改动点与下一步行动建议)。便于逐步实现与分支/PR 管理。
|
|
4
|
-
|
|
5
|
-
------------------1) 记忆尺度:从“时间”切换为“对话”----------------
|
|
6
|
-
- 子任务:
|
|
7
|
-
- 定义“对话会话ID”与会话边界(消息计数或换话题检测)。
|
|
8
|
-
- 将 KVM/wordAccessLog/快照/遗忘策略改为按会话维度索引与过期。
|
|
9
|
-
- 修改 forgetWords、saveAll/loadAll 与 snapshot 逻辑以支持会话分片。
|
|
10
|
-
- 优先级:高;复杂度:中
|
|
11
|
-
- main_Study.cjs 中 KVM、forgetWords、SnapshotManager、save/load 函数。
|
|
12
|
-
- 下一步:设计会话ID格式并写出迁移方案(兼容老快照)。
|
|
13
|
-
|
|
14
|
-
2) .copy -> 基于 hash 的差量 copy(递归分区哈希)
|
|
15
|
-
- 子任务:
|
|
16
|
-
- 定义对象哈希(图节点、连接、KVM 值、词表段)规则。
|
|
17
|
-
- 实现递归分区哈希算法(分层哈希,按子图/词块分区)。
|
|
18
|
-
- 实现差量 copy/patch 接口(只拷贝不同分区)。
|
|
19
|
-
- 优先级:高;复杂度:大
|
|
20
|
-
- 首要改动:实现新模块 lib/deltaCopy.js,替换 cloneSystem、runtimeToPlain/plainObjToRuntime。
|
|
21
|
-
- 下一步:写单元测试验证哈希一致性与补丁正确性。
|
|
22
|
-
|
|
23
|
-
3) 增强轮换学习(减少用户等待)
|
|
24
|
-
- 子任务:
|
|
25
|
-
- 设计三副本轮换协议(leader/worker 与暂停/热替换流程)。
|
|
26
|
-
- 将 scheduleCrossLearning 改为更细粒度的 checkpoint/lock-free 切换(差量同步)。
|
|
27
|
-
- 添加短暂停机降级策略与快速回滚。
|
|
28
|
-
- 优先级:高;复杂度:中-大
|
|
29
|
-
- 首要改动:main_Study 中 scheduleCrossLearning、controller.updateRuntime、Redis 发布逻辑。
|
|
30
|
-
- 下一步:定义状态机与 API(swap、freeze、apply-delta)。
|
|
31
|
-
|
|
32
|
-
4) 强化 anti-trigger 与日志系统(崩溃连锁触发定位) ---------------------
|
|
33
|
-
- 子任务:
|
|
34
|
-
- 完善 antiTrigger:崩溃链路检测、重试与安全退出钩子。
|
|
35
|
-
- 引入结构化日志(文件+rotating)与异常追踪(stack + context)。
|
|
36
|
-
- 在关键路径增加崩溃快照(错误发生时自动 dump 最小快照)。
|
|
37
|
-
- 优先级:高;复杂度:中
|
|
38
|
-
- 首要改动:antiTrigger 函数、setupExitHandler、SnapshotManager.createSnapshot、新增 logger 模块(winston 或 pino)。
|
|
39
|
-
- 下一步:定义日志格式与最小 crash dump 方案。
|
|
40
|
-
|
|
41
|
-
5) 新增对抗学习网络(人机识别评分器)
|
|
42
|
-
- 子任务:
|
|
43
|
-
- 设计对抗模块接口:判别器(discriminator)输出拟人化评分与训练回路。
|
|
44
|
-
- 用现有 KVM/graph 生成“人类样本”与“机器样本”数据集。
|
|
45
|
-
- 将判别器输出作为主模型训练/奖励信号的一部分(强化学习回路)。
|
|
46
|
-
- 优先级:中;复杂度:大
|
|
47
|
-
- 首要改动:新增模块 lib/adversary.js + Runtime 中训练/评估接入点。
|
|
48
|
-
- 下一步:先实现轻量判别器(简单特征+小分类器)做 POC。
|
|
49
|
-
|
|
50
|
-
6) 实现真正的爬虫模块(抓取+清洗)
|
|
51
|
-
- 子任务:
|
|
52
|
-
- 新建爬虫模块(支持并发、robots、速率限制、去重、Pipeline 清洗)。
|
|
53
|
-
- 集成 HTML 解析、正文提取、语言检测、去噪与词形归一化。
|
|
54
|
-
- 将抓取结果发送到 spider.fetchArticles 的存储/队列。
|
|
55
|
-
- 优先级:中;复杂度:中-大
|
|
56
|
-
- 首要改动:新增目录 crawler/(fetcher、parser、cleaner、storage)。修改 Spider 以支持外部数据源。
|
|
57
|
-
- 下一步:先实现单域抓取与清洗流水线 POC。
|
|
58
|
-
|
|
59
|
-
7) 硬盘型数据库构型(部分图结构磁盘化、自动加载)
|
|
60
|
-
- 子任务:
|
|
61
|
-
- 研究 LMDB/LevelDB/rocksdb 方案,设计图分片策略(按节点度、热度、hash-range)。
|
|
62
|
-
- 实现图分片接口(swap-in/out)、接近边界时触发预加载侦测。
|
|
63
|
-
- 修改 GraphDB/KVM 支持异步加载与缓存回退策略。
|
|
64
|
-
- 优先级:高(随着图变大必须);复杂度:大
|
|
65
|
-
- 首要改动:KVM 类扩展、GraphDB 重构为内存+持久层混合(lib/storage-adapter.js)。
|
|
66
|
-
- 下一步:选定数据库(建议 LMDB 或 RocksDB),实现最小存储适配层。
|
|
67
|
-
|
|
68
|
-
8) 探索硬件加速(FPGA / 模拟运算)
|
|
69
|
-
- 子任务:
|
|
70
|
-
- 梳理热点(哪些计算最耗时:信号扩散、多源比对、距离计算)。
|
|
71
|
-
- 制定可被加速的计算接口(向量化、批处理、FPGA-friendly 格式)。
|
|
72
|
-
- 建立 POC:把最小工作负载移到 GPU/FPGA 模拟(或借助 SIMD/Native addon)。
|
|
73
|
-
- 优先级:低(研究/POC);复杂度:非常大(外部依赖)
|
|
74
|
-
- 首要改动:抽象计算层(lib/computeAdapter),便于未来替换为硬件实现。
|
|
75
|
-
- 下一步:先做性能分析与热点剖析,确定优先加速模块。
|
|
76
|
-
|
|
77
|
-
交付建议(短期优先级)
|
|
78
|
-
- 阶段 1(2–4 周):1、3、4(最小破坏性改造) + 日志模块 + 单元测试覆盖关键函数。
|
|
79
|
-
- 阶段 2(4–8 周):2(差量 copy 实现)+ 7(存储适配 POC)+ 6(爬虫基础)。
|
|
80
|
-
- 阶段 3(8–16 周):5(对抗学习)+ 8(硬件加速 POC)+ 全面整合与回归测试。
|
|
81
|
-
|
|
82
|
-
我可以马上开始:
|
|
83
|
-
- A) 生成分解后的 issue 列表与每项具体 code-change patch(推荐先做阶段1)。
|
|
84
|
-
- B) 直接在工作区创建 logger 模块并改造 antiTrigger + setupExitHandler(优先级高)。
|
|
85
|
-
|
|
86
|
-
请选择要我现在执行的下一步(A / B / 或 指定某个任务编号)。
|