@dogfood-lab/study-swarm 1.0.0 → 1.1.0
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/CHANGELOG.md +16 -0
- package/PROTOCOL.md +9 -2
- package/README.es.md +37 -33
- package/README.fr.md +35 -31
- package/README.hi.md +45 -41
- package/README.it.md +40 -36
- package/README.ja.md +44 -40
- package/README.md +6 -2
- package/README.pt-BR.md +44 -40
- package/README.zh.md +48 -44
- package/examples/study-swarm-v1_1.dispatch.md +89 -0
- package/package.json +1 -1
package/README.hi.md
CHANGED
|
@@ -13,55 +13,59 @@
|
|
|
13
13
|
<img src="https://img.shields.io/badge/cited%20research-verified-1f6feb" alt="Cited research, verified">
|
|
14
14
|
</p>
|
|
15
15
|
|
|
16
|
-
|
|
16
|
+
उद्धृत शोध के आधार पर डिज़ाइन संबंधी निर्णय लें—फिर किसी भी चीज़ को आधिकारिक बनाने से पहले, एक *अलग* मॉडल परिवार के साथ उन उद्धरणों की पुष्टि करें।
|
|
17
17
|
|
|
18
|
-
|
|
18
|
+
`स्टडी-स्वार्म` एक प्रोटोकॉल है, कोई उपकरण नहीं। जब आप किसी एलएलएम के साथ कोई महत्वपूर्ण डिज़ाइन निर्णय ले रहे हों—जैसे कि एक नया उत्पाद स्तर, आर्किटेक्चर का चुनाव, या यह तय करना कि “क्या हमें यहाँ मॉडल पर भरोसा करना चाहिए”—तो बुनियादी सिद्धांतों से हटकर तात्कालिक समाधान निकालने से ऐसे डिज़ाइन तैयार होंगे जो पुराने और अप्रभावी होंगे, और याददाश्त के आधार पर उद्धृत किए गए शोध पत्रों का उपयोग करने से ऐसे डिज़ाइन बनेंगे जो उन स्रोतों पर आधारित होंगे जो या तो मौजूद नहीं हैं या वे वह नहीं कहते जो आप सोचते हैं। स्टडी-स्वार्म इन दोनों को बदल देता है: यह समानांतर अनुसंधान एजेंटों को तैनात करता है, विशिष्ट उद्धृत निष्कर्षों की मांग करता है, और किसी भी उद्धरण को डिज़ाइन में शामिल करने से पहले उसे **एक अलग मॉडल परिवार के बाहरी सत्यापनकर्ता** से गुजारता है।
|
|
19
19
|
|
|
20
|
-
यह
|
|
20
|
+
यह स्वयं ही अपनी विधि का प्रयोग करता है। प्रोटोकॉल के अनुसार, जिन प्रणालियों को यह बनाने में मदद करता है, उनके लिए सत्यापन-सुरक्षित लिफाफे निर्धारित किए जाते हैं – इसलिए यह स्वयं पर भी इसका उपयोग करता है। **कोई भी मॉडल अपने द्वारा किए गए कार्य की स्वयं जांच नहीं करता, जिसमें वह मॉडल भी शामिल है जो इस प्रोटोकॉल को चलाता है।**
|
|
21
21
|
|
|
22
|
-
##
|
|
22
|
+
## पाँच चरणों में प्रोटोकॉल।
|
|
23
23
|
|
|
24
|
-
1. **पहचानें** 3
|
|
25
|
-
2.
|
|
26
|
-
3.
|
|
27
|
-
4. **बाह्य रूप से सत्यापित
|
|
28
|
-
5. **प्रत्येक वास्तुशिल्प विकल्प को संख्या
|
|
24
|
+
1. **पहचानें** 3–5 ऐसे डिज़ाइन संबंधी प्रश्न जिनमें भार वहन करने की क्षमता हो, और जिनके उत्तर अनुभवजन्य साक्ष्य के आधार पर बदले जा सकते हैं।
|
|
25
|
+
2. **प्रत्येक प्रश्न के लिए एक-एक शोधकर्ता को नियुक्त करें**, ताकि वे समानांतर रूप से काम कर सकें। प्रत्येक शोधकर्ता को निम्नलिखित जानकारी प्रदान करनी होगी: लेख का शीर्षक + लेखक + वर्ष + यूआरएल + एक वाक्य में निष्कर्ष – व्यापकता की तुलना में विशिष्टता पर ध्यान दें ("6–8 अच्छी तरह से संदर्भित निष्कर्ष, 20 अस्पष्ट विचारों से बेहतर हैं")।
|
|
26
|
+
3. **निष्कर्षों को संश्लेषित करें** और उन्हें *अनुसंधान आधार* नामक अनुभाग में प्रस्तुत करें: `N. <निष्कर्ष>. <लेखक> <वर्ष> (<arXiv/DOI>). <डिज़ाइन निहितार्थ>।`
|
|
27
|
+
4. **बाह्य रूप से सत्यापित करें** – एक *अलग मॉडल परिवार*, जिसमें तर्क को हटा दिया गया है, दो चरणों में प्रत्येक उद्धरण की जाँच करता है: एक **पुनर्प्राप्ति ओरेकल** पुष्टि करता है कि लेख मौजूद है (यह कभी भी मॉडल की स्मृति पर निर्भर नहीं करेगा), फिर एक **आधारभूतता लेंस** यह पुष्टि करता है कि निष्कर्ष स्रोत से मेल खाता है। यदि कोई जानकारी मनगढ़ंत या गलत तरीके से प्रस्तुत की गई है, तो प्रक्रिया को **रोकें**; यदि सत्यापनकर्ता या पुनर्प्राप्ति ओरेकल अनुपलब्ध है, तो प्रक्रिया को **रोकें और आगे बढ़ाएं** (कभी भी अनुपस्थिति को "उद्धरण ठीक हैं" के रूप में न मानें)।
|
|
28
|
+
5. **प्रत्येक वास्तुशिल्प विकल्प को संख्या के आधार पर किसी निष्कर्ष से जोड़ें।** बिना डिज़ाइन निहितार्थ वाले उद्धरण अनावश्यक हैं।
|
|
29
29
|
|
|
30
|
-
पूर्ण निष्पादन योग्य
|
|
30
|
+
पूर्ण निष्पादन योग्य विवरण – जिसमें रोक तालिका, स्रोत मानक और समग्र नियम शामिल हैं – यह **[PROTOCOL.md]** में उपलब्ध है।
|
|
31
31
|
|
|
32
|
-
## एक *अलग*
|
|
32
|
+
## एक *अलग* परिवार क्यों, और उसमें तर्क की कमी क्यों है?
|
|
33
33
|
|
|
34
|
-
क्योंकि विफलता के
|
|
34
|
+
क्योंकि इसमें विफलता के तरीकों का दस्तावेजीकरण किया गया है, न कि काल्पनिक रूप से बताया गया है।
|
|
35
35
|
|
|
36
|
-
-
|
|
37
|
-
-
|
|
38
|
-
-
|
|
39
|
-
- **जनरेटर के तर्क को छिपाएं।** खलीफा एट अल. 2026 ([arXiv:2601.14691](https://arxiv.org/abs/2601.14691), "द जज
|
|
40
|
-
- **विविधता संख्या से बेहतर है।** राजन 2025 ([arXiv:2511.16708](https://arxiv.org/abs/2511.16708))
|
|
36
|
+
- **एलएलएम अपने स्वयं के आउटपुट की विश्वसनीय रूप से पुष्टि नहीं कर सकते।** हुआंग एट अल. 2023 ([arXiv:2310.01798](https://arxiv.org/abs/2310.01798)); कंबाम्पाती एट अल. 2024 ([arXiv:2402.01817](https://arxiv.org/abs/2402.01817), एलएलएम-मॉड्यूलो); स्टेचली एट अल. 2024 ([arXiv:2402.08115](https://arxiv.org/abs/2402.08115)) — बाहरी सत्यापनकर्ता लाभ प्राप्त करता है; आत्म-आलोचनात्मक सामग्री निष्क्रिय होती है।
|
|
37
|
+
- **समान परिवार के न्यायाधीश स्वयं को प्राथमिकता देते हैं।** पैनिकसेरी, बोमन और फेंग 2024 ([arXiv:2404.13076](https://arxiv.org/abs/2404.13076)) — आत्म-पहचान *सीधे* आत्म-वरीयता से संबंधित है, इसलिए आंशिक रूप से जानकारी छिपाने से कोई मदद नहीं मिलती। वर्गा एट अल. 2024 ([arXiv:2404.18796](https://arxiv.org/abs/2404.18796), पोएल) — विभिन्न परिवारों में एक पैनल लगभग 7 गुना कम लागत पर कम पक्षपाती होता है।
|
|
38
|
+
- **एलएलएम वहीं झूठ बोलते हैं जहां उद्धरण दिए जाते हैं।** वाल्टर्स और वाइल्डर 2023 ([doi:10.1038/s41598-023-41032-5](https://doi.org/10.1038/s41598-023-41032-5)) — 55% जीपीटी-3.5 / 18% जीपीटी-4 उद्धरण मनगढ़ंत हैं। ऑनवेलेर एट अल. 2026 ([arXiv:2605.06635](https://arxiv.org/abs/2605.06635)) — लिंक लगभग 94% समय में सही होते हैं, फिर भी केवल 39-77% उद्धृत सामग्री वास्तव में दावे का समर्थन करती है। इसलिए अस्तित्व की जांच **पुनर्प्राप्ति द्वारा की जानी चाहिए, न कि स्मरण द्वारा**।
|
|
39
|
+
- **जनरेटर के तर्क को छिपाएं।** खलीफा एट अल. 2026 ([arXiv:2601.14691](https://arxiv.org/abs/2601.14691), "गेमिंग द जज") — केवल हेरफेर की गई विचार श्रृंखला एक न्यायाधीश के झूठे सकारात्मक परिणामों को 90% तक बढ़ा देती है, जबकि कार्यों को स्थिर रखा जाता है। टर्पिन एट अल. 2023 ([arXiv:2305.04388](https://arxiv.org/abs/2305.04388)) — सीओटी एक पश्च-तार्किक औचित्य है। सत्यापनकर्ता केवल उद्धरण दावे को देखता है, कभी नहीं कि "मैंने इसे क्यों शामिल किया।"
|
|
40
|
+
- **विविधता संख्या से बेहतर है।** राजन 2025 ([arXiv:2511.16708](https://arxiv.org/abs/2511.16708)) — जोड़ीदार सहसंबंध ρ ∈ [0.05, 0.25] पर चार सत्यापनकर्ता उपमॉड्यूलर कवरेज के माध्यम से किसी भी एकल सत्यापनकर्ता से बेहतर प्रदर्शन करते हैं। किम एट अल. 2025 ([arXiv:2506.07962](https://arxiv.org/abs/2506.07962)) — एलएलएम त्रुटियां *संबंधित* होती हैं, इसलिए भार वहन करने वाला चर कच्ची संख्या नहीं, बल्कि लेंस की विविधता है।
|
|
41
41
|
|
|
42
|
-
## क्या यह वास्तव में काम करता है? (
|
|
42
|
+
## क्या यह वास्तव में काम करता है? (सबूत)
|
|
43
43
|
|
|
44
|
-
एक परीक्षण के रूप में, प्रोटोकॉल को
|
|
44
|
+
एक परीक्षण के रूप में, इस प्रोटोकॉल को स्वयं के उद्धरणों के विरुद्ध चलाया गया। दो असंबंधित गैर-क्लाउड मॉडल – **मिस्ट्रल** (`mistral-small:24b`) और **आईबीएम ग्रेनाइट** (`granite4.1:30b`) – ने एक ऐसे उद्धरण सेट की जाँच की, जिसमें तर्क को हटा दिया गया था और जिसमें दो गुप्त जाल शामिल थे:
|
|
45
45
|
|
|
46
|
-
|
|
|
46
|
+
| छिपाकर रखा गया जाल। | मिस्त्रल | आईबीएम ग्रेनाइट | वास्तविक तथ्य/सत्य घटनाक्रम |
|
|
47
47
|
|---|---|---|---|
|
|
48
|
-
|
|
|
49
|
-
| एक
|
|
48
|
+
| “नकामुरा और ओल्सन” द्वारा विकसित ‘तार्किक अनुक्रम’ पर आधारित संकेत विधि। | चूक गए/गई, चूकना, याद आना, छूटना। | **गलत रूप से उद्धृत** (सही संदर्भ: वेई एट अल., 2022, एआरएक्सआइवी:2201.11903)। | गलत रूप से श्रेय दिया गया। |
|
|
49
|
+
| एक मनगढ़ंत लेख जिसमें दावा किया गया है कि “98% त्रुटियाँ दूर कर दी गई हैं और अब किसी विशेषज्ञ की आवश्यकता नहीं है”। | **caught** (fabricated) | **caught** (fabricated) | गढ़ा हुआ/बनाया हुआ/झूठा/गलत। |
|
|
50
50
|
|
|
51
|
-
दोनों परिवारों ने अकेले दोनों
|
|
51
|
+
दोनों परिवारों में से किसी ने भी अकेले ही दोनों जाल नहीं पकड़े – लेकिन उनके **एक साथ काम करने से 2/2 जाल पकड़े गए**। एक अकेला न्यायाधीश गलत जानकारी को ठीक कर देता। अलग-अलग तौर पर, हमारे अपने डिज़ाइन दस्तावेज़ों (गलत पहले लेखक के तहत उद्धृत किए गए लेख) में दो *वास्तविक* गलत जानकारियाँ पाई गईं, जिन्हें किसी भी पैरामीट्रिक एलएलएम द्वारा चिह्नित नहीं किया जा सकता था – और इसने सही ढंग से 2026 के वास्तविक लेखों की पुष्टि की, जिन्हें दोनों एलएलएम ने केवल इसलिए झूठा बताया क्योंकि वे लेख उनके प्रशिक्षण के बाद लिखे गए थे। अंतिम बिंदु ही वह संपूर्ण कारण है जिसके चलते चरण 4 में मौजूद जाँच को **निश्चित रूप से** एक पुनर्प्राप्ति प्रणाली होना चाहिए, न कि कोई एलएलएम।
|
|
52
52
|
|
|
53
|
-
|
|
53
|
+
वह अकेला रन एक संक्षिप्त रूप में प्रस्तुत मुख्य विचार है: **एक-दूसरे से असंबंधित लेंस और अस्तित्व के लिए एक पुनर्प्राप्ति प्रणाली, किसी भी एकल बुद्धिमान निर्णायक से बेहतर प्रदर्शन करती है।**
|
|
54
54
|
|
|
55
|
-
|
|
55
|
+
### ...और फिर से, संस्करण 1.1 को डिज़ाइन करना।
|
|
56
56
|
|
|
57
|
-
|
|
57
|
+
v1.1 में किए गए सुधारों को उसी तरह चुना गया था - अध्ययन-समूह को **अध्ययन-समूह पर** चलाकर। पहले संस्करण में चार प्रश्न "मुझे लगता है" के रूप में छोड़े गए थे (आधारित जांच को *यांत्रिक* कैसे बनाया जाए, क्या पीढ़ी के समय आधार प्रदान किया जाना चाहिए, लेंसों को कैसे *संयोजित* किया जाए, क्या कैलिब्रेटेड अनिश्चितता पर रोक लगाई जानी चाहिए)। इन प्रश्नों को समानांतर अनुसंधान एजेंटों को भेजा गया, और सभी **27 परिणामी उद्धरणों** को किसी भी सूचित डिजाइन से पहले चरण 4 के माध्यम से संसाधित किया गया। पुनर्प्राप्ति ओरेकल ने **27/27 मौजूद** होने की पुष्टि की - जिसमें छह 2025-2026 के पेपर शामिल हैं, जिन्हें एक पैरामीट्रिक मॉडल गलत तरीके से निर्मित बता सकता था - और पांच विशेषताओं को सही किया, जो एक मॉडल नहीं कर सकता था, जिनमें से एक वास्तविक प्रथम-लेखक का गलत उल्लेख था जिसे अनुसंधान एजेंट ने स्वयं चिह्नित किया। तर्क-मुक्त रूप से चलाएं, तो आधार लेंस हमारे प्रेषण पर अपनी दस्तावेजीकृत विफलता मोड को भी पुन: उत्पन्न करते हैं: एक ने आत्मविश्वास से एक वास्तविक पेपर को गलत तरीके से लेबल किया, और उनके *असहमत* होने से वृद्धि शुरू हो गई - ठीक उसी तरह जैसे कैस्केड निर्धारित करता है। काम करने वाला प्रेषण [`examples/study-swarm-v1_1.dispatch.md`](examples/study-swarm-v1_1.dispatch.md) के रूप में भेजा जाता है; इसमें किए गए सुधार - विघटित/त्रिक आधार, पीढ़ी-समय आधार, ओरेकल-गेटेड कैस्केड और कैलिब्रेटेड रोक - [PROTOCOL.md](PROTOCOL.md) में हैं।
|
|
58
58
|
|
|
59
|
-
|
|
60
|
-
- **[role-os](https://github.com/mcp-tool-shop-org/role-os)** - `roleos verify-citations <dispatch>` प्रदान करता है, जो एक रनर है जो किसी डिस्पैच की उद्धरणों को निकालता है और उन्हें प्रिज्म के माध्यम से संसाधित करता है।
|
|
59
|
+
## यह कैसे काम करता है
|
|
61
60
|
|
|
62
|
-
|
|
61
|
+
आप प्रोटोकॉल को मैन्युअल रूप से चला सकते हैं - कोई भी अलग परिवार का मॉडल, साथ ही arXiv/DOI को स्वयं हल करना, चरण 4 को पूरा करता है। दो संबंधित उपकरण इसे एक कमांड बनाते हैं:
|
|
63
62
|
|
|
64
|
-
|
|
63
|
+
- **[prism-verify](https://github.com/mcp-tool-shop-org/prism-verify)** - रनटाइम सत्यापनकर्ता: परिवार-विभिन्न रूटिंग, तर्क-मुक्त, बहु-लेंस मध्यस्थता, एक नियतात्मक पुनर्प्राप्ति अस्तित्व सीमा (arXiv → क्रॉसरेफ), और हस्ताक्षरित रसीदें।
|
|
64
|
+
- **[role-os](https://github.com/mcp-tool-shop-org/role-os)** - `roleos verify-citations <dispatch>` प्रदान करता है, जो एक रनर है जो प्रेषण के उद्धरणों को निकालता है और उन्हें प्रिज्म के माध्यम से संसाधित करता है।
|
|
65
|
+
|
|
66
|
+
हैंडऑफ़ स्वयं प्रेषण प्रारूप है: एक निष्कर्ष को `N. **निष्कर्ष.** लेखक वर्ष (arXiv|DOI). निहितार्थ.` के रूप में लिखा जाता है - जिसमें **प्रत्येक निष्कर्ष के लिए एक हल करने योग्य पहचानकर्ता** होता है - यह ठीक वही है जो `roleos verify-citations` उठाता और संसाधित करता है। एक `lint`-स्वच्छ प्रेषण साफ-सुथरा हैंडऑफ़ करता है; एक गलत उद्धरण वह है जिसे रनर अपार्स किए गए के रूप में चिह्नित करता है। यही अनुबंध है जिसकी `study-swarm lint` स्थानीय रूप से जांच करता है, इसलिए चरण 3 और चरण 4 इस बात पर सहमत हैं कि एक उद्धरण क्या है।
|
|
67
|
+
|
|
68
|
+
## CLI
|
|
65
69
|
|
|
66
70
|
```bash
|
|
67
71
|
npm i -g @dogfood-lab/study-swarm # or run ad-hoc: npx @dogfood-lab/study-swarm <command>
|
|
@@ -69,11 +73,11 @@ npm i -g @dogfood-lab/study-swarm # or run ad-hoc: npx @dogfood-lab/study-sw
|
|
|
69
73
|
|
|
70
74
|
| कमांड | यह क्या करता है |
|
|
71
75
|
|---|---|
|
|
72
|
-
| `study-swarm protocol` | पूरे प्रोटोकॉल को प्रिंट करें - पांच चरण,
|
|
76
|
+
| `study-swarm protocol` | पूरे प्रोटोकॉल को प्रिंट करें - पांच चरण, रोक तालिका, सोर्सिंग मानक। |
|
|
73
77
|
| `study-swarm new <slug>` | पांच-चरणीय ढांचे के साथ `<slug>.dispatch.md` बनाएं ताकि इसे भरा जा सके। |
|
|
74
|
-
| `study-swarm lint [--json] <path…>` |
|
|
78
|
+
| `study-swarm lint [--json] <path…>` | एक प्रेषण की *अनुसंधान आधार* की जांच सोर्सिंग मानक के विरुद्ध करें - प्रत्येक निष्कर्ष में एक लेखक, एक वर्ष और एक हल करने योग्य पहचानकर्ता (arXiv / DOI / URL) होना चाहिए; "अध्ययनों से पता चलता है..." जैसे अस्पष्ट कथन अस्वीकार कर दिए जाते हैं। उल्लंघन होने पर `1` से बाहर निकलें, इसलिए यह CI को संसाधित करता है। `<path>` एक फ़ाइल, एक निर्देशिका (जो `*.dispatch.md` के लिए पुनरावर्ती रूप से जांच की जाती है), या `-` stdin के लिए हो सकता है; `--json` मशीन-पठनीय रिपोर्ट उत्सर्जित करता है। |
|
|
75
79
|
|
|
76
|
-
`lint`
|
|
80
|
+
`lint` नियतात्मक है - शून्य मॉडल कॉल - इसलिए यह CI में सुरक्षित है। यह स्थानीय रूप से **चरण 3 के सोर्सिंग मानक** को लागू करता है; मॉडल-आधारित **चरण 4** सत्यापन अभी भी [`roleos verify-citations`](https://github.com/mcp-tool-shop-org/role-os) → प्रिज्म पर निर्भर करता है।
|
|
77
81
|
|
|
78
82
|
एक विशिष्ट लूप:
|
|
79
83
|
|
|
@@ -84,11 +88,11 @@ study-swarm lint my-decision.dispatch.md # enforce the sourcing standard
|
|
|
84
88
|
roleos verify-citations my-decision.dispatch.md # model-based Step 4 (different family, via prism)
|
|
85
89
|
```
|
|
86
90
|
|
|
87
|
-
|
|
91
|
+
दो पूर्ण, लिंट-स्वच्छ प्रेषण संदर्भ के रूप में भेजे जाते हैं: [`examples/study-swarm-self.dispatch.md`](examples/study-swarm-self.dispatch.md) (प्रोटोकॉल का केंद्रीय निर्णय, संक्षिप्त) और [`examples/study-swarm-v1_1.dispatch.md`](examples/study-swarm-v1_1.dispatch.md) (पूर्ण v1.1 डिज़ाइन पास - 27 उद्धरण, जिनमें से प्रत्येक को बाहरी रूप से सत्यापित किया गया है)।
|
|
88
92
|
|
|
89
|
-
### इसे
|
|
93
|
+
### इसे CI में संसाधित करें
|
|
90
94
|
|
|
91
|
-
`lint` एक फ़ाइल, एक निर्देशिका (जो `*.dispatch.md` के लिए पुनरावर्ती रूप से जांच की जाती है), या stdin
|
|
95
|
+
`lint` एक फ़ाइल, एक निर्देशिका (जो `*.dispatch.md` के लिए पुनरावर्ती रूप से जांच की जाती है), या `-` stdin लेता है, और `--json` मशीन-पठनीय रिपोर्ट उत्सर्जित करता है। इसे अपने रिपॉजिटरी में डालें ताकि प्रत्येक प्रेषण के सोर्सिंग को प्रत्येक PR पर संसाधित किया जा सके (एक कॉपी-पेस्ट नमूना [`examples/study-swarm-ci.yml`](examples/study-swarm-ci.yml) में भी मौजूद है):
|
|
92
96
|
|
|
93
97
|
```yaml
|
|
94
98
|
# .github/workflows/dispatches.yml
|
|
@@ -110,19 +114,19 @@ jobs:
|
|
|
110
114
|
- run: npx @dogfood-lab/study-swarm@latest lint dispatches/
|
|
111
115
|
```
|
|
112
116
|
|
|
113
|
-
## यह कैसे काम करता है, एक
|
|
117
|
+
## यह कैसे काम करता है, एक सांस में
|
|
114
118
|
|
|
115
|
-
**वर्तमान** - क्षेत्र तेजी से आगे बढ़ रहा है; विशिष्ट अध्ययनों के साथ
|
|
119
|
+
**वर्तमान** - क्षेत्र तेजी से आगे बढ़ रहा है; विशिष्ट अध्ययनों के साथ वर्षों की मांग करने से डिज़ाइन 18 महीने पीछे नहीं रहते हैं। **कार्यात्मक** - साक्ष्य दिखाते हैं कि क्या *असफल* होता है, न कि केवल यह कि क्या काम करता है (व्याख्याएँ *गलत* AI पर अत्यधिक निर्भरता बढ़ा सकती हैं - बंसल एट अल. 2021, [arXiv:2006.14779](https://arxiv.org/abs/2006.14779))। **सुरक्षित** - सत्यापनकर्ता-संरक्षित आवरण वह आर्किटेक्चर है जिसे साक्ष्य समर्थन देता है, और प्रोटोकॉल इसे अपने स्वयं के आउटपुट पर लागू करता है। सोर्सिंग अकादमिक नाटक नहीं है; यह साक्ष्य श्रृंखला है।
|
|
116
120
|
|
|
117
121
|
## सुरक्षा
|
|
118
122
|
|
|
119
|
-
`study-swarm` एक **पतली, शून्य-निर्भरता
|
|
123
|
+
`study-swarm` एक **पतली, शून्य-निर्भरता CLI** (`study-swarm`) को पद्धति के साथ भेजता है। यह **कोई नेटवर्क या मॉडल कॉल नहीं करता है** और **कोई टेलीमेट्री एकत्र नहीं करता है**; स्रोत में कोई गुप्त जानकारी या क्रेडेंशियल नहीं हैं। रनटाइम पर यह केवल उस फ़ाइल को पढ़ता है जिसे आप `lint` में पास करते हैं और वर्तमान निर्देशिका में एक एकल `<slug>.dispatch.md` लिखते हैं (ओवरराइट करने से इनकार करते हुए, और कभी भी कार्यशील निर्देशिका के बाहर नहीं)। पद्धति द्वारा वर्णित मॉडल-आधारित सत्यापन (चरण 4) इस पैकेज द्वारा नहीं, बल्कि संबंधित उपकरणों द्वारा किया जाता है। [SECURITY.md](SECURITY.md) देखें।
|
|
120
124
|
|
|
121
125
|
## स्थिति
|
|
122
126
|
|
|
123
|
-
एक कार्यशील प्रोटोकॉल, जिसे इसकी अपनी मशीनरी द्वारा बाहरी रूप से सत्यापित किया गया है - एक अलग मॉडल परिवार इसके उद्धरणों की जांच करता है (ऊपर प्रमाण देखें)। यह
|
|
127
|
+
एक कार्यशील प्रोटोकॉल, जिसे इसकी अपनी मशीनरी द्वारा बाहरी रूप से सत्यापित किया गया है - एक अलग मॉडल परिवार इसके उद्धरणों की जांच करता है (ऊपर प्रमाण देखें)। **v1.1** सत्यापनकर्ता को तेज करता है जहां पहला संस्करण मौन था: विघटित/त्रिक आधार, पीढ़ी-समय आधार, लेंसों को संयोजित करने के लिए ओरेकल-गेटेड कैस्केड और कैलिब्रेटेड रोक - प्रत्येक सत्यापित v1.1 प्रेषण में आधारित। यह रिपॉजिटरी सार्वजनिक संदर्भ है; [PROTOCOL.md](PROTOCOL.md) निष्पादन योग्य आकार है। [dogfood-lab](https://github.com/dogfood-lab) परिवार का हिस्सा - AI युग में निर्माण के लिए विधियाँ और प्रदर्शन।
|
|
124
128
|
|
|
125
|
-
|
|
129
|
+
MIT लाइसेंस प्राप्त।
|
|
126
130
|
|
|
127
131
|
---
|
|
128
132
|
|
package/README.it.md
CHANGED
|
@@ -13,55 +13,59 @@
|
|
|
13
13
|
<img src="https://img.shields.io/badge/cited%20research-verified-1f6feb" alt="Cited research, verified">
|
|
14
14
|
</p>
|
|
15
15
|
|
|
16
|
-
**
|
|
16
|
+
**Fondi le decisioni progettuali su ricerche citate — quindi verifica le citazioni con un *modello* diverso prima che diventino parte integrante del progetto.**
|
|
17
17
|
|
|
18
|
-
`study-swarm` è un protocollo, non uno strumento. Quando si prende una decisione
|
|
18
|
+
`study-swarm` è un protocollo, non uno strumento. Quando si prende una decisione progettuale importante con un LLM (un nuovo livello di prodotto, una scelta architettonica, una valutazione sul fatto se fidarsi o meno del modello), improvvisare partendo da principi generali porta a progetti obsoleti e citare articoli a memoria porta a progetti basati su fonti inesistenti o che non dicono ciò che si pensa. `study-swarm` sostituisce entrambi: attiva agenti di ricerca paralleli, richiede risultati specifici dalle ricerche citate e sottopone ogni citazione a un **verificatore esterno appartenente a una famiglia di modelli diversa** prima che influenzi il progetto.
|
|
19
19
|
|
|
20
|
-
Applica la propria
|
|
20
|
+
Applica la propria metodologia. Il protocollo prevede l'utilizzo di verificatori per proteggere le informazioni contenute nei sistemi che aiuta a progettare, quindi lo applica anche a se stesso. **Nessun modello valuta il proprio lavoro, incluso quello che esegue il protocollo.**
|
|
21
21
|
|
|
22
22
|
## Il protocollo in cinque passaggi:
|
|
23
23
|
|
|
24
|
-
1. **
|
|
25
|
-
2. **
|
|
26
|
-
3. **
|
|
27
|
-
4. **
|
|
28
|
-
5. **
|
|
24
|
+
1. **Identificare** 3-5 domande progettuali fondamentali a cui una prova empirica cambierebbe la risposta.
|
|
25
|
+
2. **Attivare** un agente di ricerca per ogni domanda, in parallelo. Ognuno deve restituire titoli degli articoli + autori + anni + URL + un risultato espresso in una frase (dare priorità alla specificità rispetto all'ampiezza: "6-8 risultati ben documentati sono meglio di 20 affermazioni vaghe").
|
|
26
|
+
3. **Sintetizzare** i risultati in una sezione intitolata *Fondamento della ricerca*: `N. **<risultato>.** <Autori> <anno> (<arXiv/DOI>). <implicazione progettuale>.`
|
|
27
|
+
4. **Verificare esternamente** — una *famiglia di modelli diversa*, priva di capacità di ragionamento, controlla ogni citazione in due fasi: un **oracolo di recupero** conferma l'esistenza dell'articolo (non si basa mai sulla memoria del modello), quindi una lente di **verifica della veridicità** conferma che il risultato corrisponda alla fonte. **Interrompere** se la citazione è fabbricata o attribuita in modo errato; **interrompere e segnalare** se il verificatore o l'oracolo di recupero non sono disponibili (non interpretare mai l'assenza come "le citazioni sono corrette").
|
|
28
|
+
5. **Collegare** ogni scelta architettonica a un risultato specifico, tramite numero. Le citazioni prive di implicazioni progettuali sono irrilevanti.
|
|
29
29
|
|
|
30
|
-
I dettagli completi e
|
|
30
|
+
I dettagli completi e implementabili — la tabella di interruzione, lo standard per le fonti, la regola dell'insieme — si trovano in **[PROTOCOL.md](PROTOCOL.md)**.
|
|
31
31
|
|
|
32
32
|
## Perché una *famiglia* diversa, priva di capacità di ragionamento?
|
|
33
33
|
|
|
34
|
-
Perché
|
|
34
|
+
Perché i modi di errore sono documentati, non ipotetici:
|
|
35
35
|
|
|
36
|
-
- **Gli LLM non possono verificare in modo affidabile i propri risultati.** Huang et al. 2023 ([arXiv:2310.01798](https://arxiv.org/abs/2310.01798)); Kambhampati et al. 2024 ([arXiv:2402.01817](https://arxiv.org/abs/2402.01817), LLM-Modulo); Stechly et al. 2024 ([arXiv:2402.08115](https://arxiv.org/abs/2402.08115)) — il verificatore esterno offre i vantaggi;
|
|
37
|
-
- **I giudici della stessa famiglia tendono
|
|
38
|
-
- **Le citazioni sono
|
|
39
|
-
- **
|
|
40
|
-
- **La diversità
|
|
36
|
+
- **Gli LLM non possono verificare in modo affidabile i propri risultati.** Huang et al. 2023 ([arXiv:2310.01798](https://arxiv.org/abs/2310.01798)); Kambhampati et al. 2024 ([arXiv:2402.01817](https://arxiv.org/abs/2402.01817), LLM-Modulo); Stechly et al. 2024 ([arXiv:2402.08115](https://arxiv.org/abs/2402.08115)) — il verificatore esterno offre i vantaggi; l'autovalutazione è inerte.
|
|
37
|
+
- **I giudici della stessa famiglia tendono a favorire se stessi.** Panickssery, Bowman & Feng 2024 ([arXiv:2404.13076](https://arxiv.org/abs/2404.13076)) — l'autoriconoscimento è correlato *linearmente* con la preferenza per sé stessi, quindi un'occlusione parziale non aiuta. Verga et al. 2024 ([arXiv:2404.18796](https://arxiv.org/abs/2404.18796), PoLL) — un gruppo composto da famiglie diverse è meno influenzato, con un costo inferiore di circa il 7 volte.
|
|
38
|
+
- **Le citazioni sono dove gli LLM mentono.** Walters & Wilder 2023 ([doi:10.1038/s41598-023-41032-5](https://doi.org/10.1038/s41598-023-41032-5)) — il 55% delle citazioni di GPT-3.5 / il 18% delle citazioni di GPT-4 sono fabbricate. Onweller et al. 2026 ([arXiv:2605.06635](https://arxiv.org/abs/2605.06635)) — i collegamenti risolvono il >94% delle volte, ma solo il 39-77% del contenuto citato supporta effettivamente l'affermazione. Pertanto, l'esistenza deve essere verificata tramite **recupero, non richiamo**.
|
|
39
|
+
- **Nascondere il ragionamento del generatore.** Khalifa et al. 2026 ([arXiv:2601.14691](https://arxiv.org/abs/2601.14691), "Gaming the Judge") — la sola manipolazione della catena di pensiero aumenta i falsi positivi del giudice fino al 90%, mantenendo le azioni fisse. Turpin et al. 2023 ([arXiv:2305.04388](https://arxiv.org/abs/2305.04388)) — la catena di pensiero è una razionalizzazione post-hoc. Il verificatore vede solo l'affermazione della citazione, mai il "perché ho incluso questo".
|
|
40
|
+
- **La diversità supera la quantità.** Rajan 2025 ([arXiv:2511.16708](https://arxiv.org/abs/2511.16708)) — quattro verificatori con una correlazione a coppie ρ ∈ [0,05, 0,25] superano qualsiasi singolo verificatore tramite copertura submodulare. Kim et al. 2025 ([arXiv:2506.07962](https://arxiv.org/abs/2506.07962)) — gli errori degli LLM sono *correlati*, quindi la variabile più importante è la diversità delle lenti, non la quantità assoluta.
|
|
41
41
|
|
|
42
42
|
## Funziona davvero? (prova)
|
|
43
43
|
|
|
44
|
-
Come test, il protocollo è stato applicato alle proprie citazioni. Due famiglie
|
|
44
|
+
Come test, il protocollo è stato applicato alle proprie citazioni. Due famiglie diverse da Claude e non correlate — **Mistral** (`mistral-small:24b`) e **IBM Granite** (`granite4.1:30b`) — hanno controllato un insieme di citazioni, senza capacità di ragionamento, con due trappole nascoste:
|
|
45
45
|
|
|
46
|
-
| Trappola
|
|
46
|
+
| Trappola inserita intenzionalmente | Mistral | IBM Granite | Verità oggettiva |
|
|
47
47
|
|---|---|---|---|
|
|
48
|
-
| Il ragionamento della catena di pensiero è attribuito a "Nakamura & Olsen" |
|
|
48
|
+
| Il ragionamento della catena di pensiero è attribuito a "Nakamura & Olsen" | non rilevata | **rilevata** (attribuzione errata → in realtà Wei et al. 2022, arXiv:2201.11903) | attribuzione errata |
|
|
49
49
|
| un articolo fabbricato con la frase "il 98% degli errori è stato eliminato, non è necessario alcun oracolo" | **caught** (fabricated) | **caught** (fabricated) | fabbricato |
|
|
50
50
|
|
|
51
|
-
Nessuna delle due famiglie ha rilevato entrambe le trappole da sola, ma la loro **unione ha rilevato 2/2**. Un singolo giudice avrebbe accettato l'attribuzione errata.
|
|
51
|
+
Nessuna delle due famiglie ha rilevato entrambe le trappole da sola, ma la loro **unione ha rilevato 2/2**. Un singolo giudice avrebbe accettato l'attribuzione errata. Separatamente, l'oracolo di recupero ha individuato due *vere* attribuzioni errate nei nostri documenti progettuali (articoli citati con il nome del primo autore sbagliato) che nessun LLM parametrico avrebbe potuto segnalare e ha confermato correttamente articoli genuini del 2026 che entrambi gli LLM hanno erroneamente contrassegnato come fabbricati semplicemente perché gli articoli sono successivi alla loro data di addestramento. Quest'ultimo punto è la ragione principale per cui il controllo dell'esistenza nel passaggio 4 **deve** essere effettuato da un oracolo di recupero, e non da un LLM.
|
|
52
52
|
|
|
53
|
-
Questa singola esecuzione rappresenta la tesi in miniatura: **lenti
|
|
53
|
+
Questa singola esecuzione rappresenta la tesi in miniatura: **lenti correlate + un oracolo di recupero per l'esistenza superano qualsiasi singolo giudice esperto.**
|
|
54
54
|
|
|
55
|
-
|
|
55
|
+
### ...e ancora, per progettare la versione 1.1
|
|
56
56
|
|
|
57
|
-
|
|
57
|
+
Le modifiche della versione 1.1 sono state scelte nello stesso modo: eseguendo `study-swarm` su `study-swarm`. Quattro domande a cui la prima versione lasciava spazio per un "a mio parere" (come *meccanizzare* il controllo di fondatezza, se effettuare la verifica al momento della generazione, come *combinare* le diverse fonti, se astenersi in caso di incertezza calibrata) sono state affidate ad agenti di ricerca paralleli e tutte le **27 citazioni risultanti** sono state verificate tramite il passaggio 4 prima che qualsiasi elemento influenzasse la progettazione. L'oracolo di verifica ha confermato l'esistenza di **tutte le 27 citazioni**, inclusi sei articoli del 2025-2026 che un modello parametrico avrebbe erroneamente classificato come fabbricati, e ha corretto cinque attribuzioni che il modello non sarebbe stato in grado di fare, tra cui una reale errata attribuzione dell'autore principale che l'agente di ricerca aveva individuato. Eseguendo l'analisi senza ragionamento, le diverse fonti hanno persino riprodotto i propri modi documentati di fallimento nel nostro esempio: un elemento ha identificato erroneamente un articolo reale e la loro *discrepanza* ha innescato un'escalation, esattamente come previsto dal processo. L'esempio funzionante è disponibile come [`examples/study-swarm-v1_1.dispatch.md`](examples/study-swarm-v1_1.dispatch.md); le modifiche che sono state verificate (fondatezza scomposta/ternaria, verifica al momento della generazione, cascata convalidata dall'oracolo e astensione calibrata) sono disponibili in [PROTOCOL.md](PROTOCOL.md).
|
|
58
58
|
|
|
59
|
-
|
|
60
|
-
- **[role-os](https://github.com/mcp-tool-shop-org/role-os)**: fornisce `roleos verify-citations <dispatch>`, lo strumento che estrae le citazioni di un documento e le elabora tramite prism.
|
|
59
|
+
## Come funziona
|
|
61
60
|
|
|
62
|
-
|
|
61
|
+
È possibile eseguire il protocollo manualmente: qualsiasi modello di famiglia diversa, purché risolva l'identificativo arXiv/DOI, soddisfa il passaggio 4. Due strumenti complementari lo rendono un unico comando:
|
|
63
62
|
|
|
64
|
-
|
|
63
|
+
- **[prism-verify](https://github.com/mcp-tool-shop-org/prism-verify)**: il verificatore in fase di esecuzione: instradamento per famiglie diverse, analisi senza ragionamento, arbitraggio multi-fonte, un limite minimo deterministico per la verifica dell'esistenza (arXiv → Crossref) e ricevute firmate.
|
|
64
|
+
- **[role-os](https://github.com/mcp-tool-shop-org/role-os)**: fornisce `roleos verify-citations <dispatch>`, lo strumento che estrae le citazioni da un esempio e le verifica tramite prism.
|
|
65
|
+
|
|
66
|
+
Il passaggio di consegne è il formato dell'esempio stesso: una scoperta scritta come `N. **scoperta.** Autori anno (arXiv|DOI). implicazione.` — con **un identificativo risolvibile per ogni scoperta** — è esattamente ciò che `roleos verify-citations` estrae e verifica. Un esempio "pulito" tramite `lint` viene gestito correttamente; una citazione malformata è ciò che lo strumento segnala come non analizzata. Questo contratto è ciò che `study-swarm lint` controlla a livello locale, in modo che il passaggio 3 e il passaggio 4 concordino su cosa sia una citazione.
|
|
67
|
+
|
|
68
|
+
## CLI (interfaccia a riga di comando)
|
|
65
69
|
|
|
66
70
|
```bash
|
|
67
71
|
npm i -g @dogfood-lab/study-swarm # or run ad-hoc: npx @dogfood-lab/study-swarm <command>
|
|
@@ -69,11 +73,11 @@ npm i -g @dogfood-lab/study-swarm # or run ad-hoc: npx @dogfood-lab/study-sw
|
|
|
69
73
|
|
|
70
74
|
| Comando | Cosa fa |
|
|
71
75
|
|---|---|
|
|
72
|
-
| `study-swarm protocol` | Stampa l'intero protocollo: i cinque passaggi, la tabella di arresto
|
|
76
|
+
| `study-swarm protocol` | Stampa l'intero protocollo: i cinque passaggi, la tabella di arresto e lo standard di riferimento. |
|
|
73
77
|
| `study-swarm new <slug>` | Crea uno scheletro `<slug>.dispatch.md` con i cinque passaggi da completare. |
|
|
74
|
-
| `study-swarm lint [--json] <path…>` | Verifica
|
|
78
|
+
| `study-swarm lint [--json] <path…>` | Verifica la *fondatezza della ricerca* di un esempio rispetto allo standard di riferimento: ogni scoperta deve avere un autore, un anno e un identificativo risolvibile (arXiv / DOI / URL); le affermazioni generiche del tipo "gli studi dimostrano..." vengono rifiutate. In caso di violazioni, viene restituito il codice `1`, in modo da bloccare l'integrazione continua. Un `<path>` può essere un file, una directory (analizzata ricorsivamente per i file `*.dispatch.md`) o `-` per l'input standard; `--json` emette un report leggibile dalla macchina. |
|
|
75
79
|
|
|
76
|
-
`lint` è deterministico: non effettua chiamate al modello, quindi è sicuro
|
|
80
|
+
`lint` è deterministico: non effettua chiamate al modello, quindi è sicuro nell'integrazione continua. Applica lo **standard di riferimento del passaggio 3** a livello locale; la verifica basata sul modello del **passaggio 4** si basa ancora su [`roleos verify-citations`](https://github.com/mcp-tool-shop-org/role-os) → prism.
|
|
77
81
|
|
|
78
82
|
Un ciclo tipico:
|
|
79
83
|
|
|
@@ -84,11 +88,11 @@ study-swarm lint my-decision.dispatch.md # enforce the sourcing standard
|
|
|
84
88
|
roleos verify-citations my-decision.dispatch.md # model-based Step 4 (different family, via prism)
|
|
85
89
|
```
|
|
86
90
|
|
|
87
|
-
|
|
91
|
+
Due esempi completi e "puliti" tramite `lint` sono disponibili come riferimento: [`examples/study-swarm-self.dispatch.md`](examples/study-swarm-self.dispatch.md) (la decisione centrale del protocollo, in forma compatta) e [`examples/study-swarm-v1_1.dispatch.md`](examples/study-swarm-v1_1.dispatch.md) (l'intera revisione della versione 1.1: 27 citazioni, tutte verificate esternamente).
|
|
88
92
|
|
|
89
|
-
###
|
|
93
|
+
### Integrare nell'integrazione continua
|
|
90
94
|
|
|
91
|
-
`lint` accetta un file, una directory (analizzata ricorsivamente per i file `*.dispatch.md`) o `-` per l'input standard e `--json` emette un report leggibile dalla macchina.
|
|
95
|
+
`lint` accetta un file, una directory (analizzata ricorsivamente per i file `*.dispatch.md`) o `-` per l'input standard e `--json` emette un report leggibile dalla macchina. È possibile aggiungere questo al repository per verificare la fondatezza di ogni esempio in ogni richiesta pull (un esempio di copia-incolla è disponibile anche in [`examples/study-swarm-ci.yml`](examples/study-swarm-ci.yml)):
|
|
92
96
|
|
|
93
97
|
```yaml
|
|
94
98
|
# .github/workflows/dispatches.yml
|
|
@@ -112,15 +116,15 @@ jobs:
|
|
|
112
116
|
|
|
113
117
|
## Perché funziona, in sintesi
|
|
114
118
|
|
|
115
|
-
**Attuale**: il settore si evolve rapidamente; richiedere studi specifici con
|
|
119
|
+
**Attuale**: il settore si evolve rapidamente; richiedere studi specifici con l'anno impedisce che le progettazioni siano obsolete di 18 mesi. **Funzionale**: i dati mostrano cosa *fallisce*, non solo cosa funziona (le spiegazioni possono aumentare la dipendenza da un'IA *errata* — Bansal et al. 2021, [arXiv:2006.14779](https://arxiv.org/abs/2006.14779)). **Sicuro**: l'ambito protetto dal verificatore è l'architettura supportata dai dati e il protocollo lo applica ai propri risultati. La verifica delle fonti non è un esercizio accademico; è la traccia dei dati.
|
|
116
120
|
|
|
117
121
|
## Sicurezza
|
|
118
122
|
|
|
119
|
-
`study-swarm` fornisce una **CLI
|
|
123
|
+
`study-swarm` fornisce una **CLI (interfaccia a riga di comando) leggera e con zero dipendenze** (`study-swarm`) insieme alla metodologia. Non effettua **chiamate di rete o al modello** e non raccoglie **dati di telemetria**: non ci sono segreti o credenziali nel codice sorgente. In fase di esecuzione, legge solo il file passato a `lint` e scrive un singolo file `<slug>.dispatch.md` nella directory corrente per l'operazione `new` (rifiutando di sovrascriverlo e mai al di fuori della directory di lavoro). La verifica basata sul modello descritta dalla metodologia (passaggio 4) viene eseguita dagli strumenti complementari, non da questo pacchetto. Consultare [SECURITY.md](SECURITY.md).
|
|
120
124
|
|
|
121
|
-
## Stato
|
|
125
|
+
## Stato attuale
|
|
122
126
|
|
|
123
|
-
Un protocollo funzionante, verificato esternamente dai propri meccanismi: una famiglia di modelli diversa
|
|
127
|
+
Un protocollo funzionante, verificato esternamente dai propri meccanismi: una famiglia di modelli diversa verifica le sue citazioni (vedere la prova sopra). La **versione 1.1** affina il verificatore dove la prima versione era silenziosa: fondatezza scomposta/ternaria, verifica al momento della generazione, cascata convalidata dall'oracolo per combinare le diverse fonti e astensione calibrata: ogni elemento è basato sull'esempio verificato della versione 1.1. Questo repository è il riferimento pubblico; [PROTOCOL.md](PROTOCOL.md) è la forma eseguibile. Fa parte della famiglia [dogfood-lab](https://github.com/dogfood-lab): metodi ed esempi per costruire nell'era dell'IA.
|
|
124
128
|
|
|
125
129
|
Con licenza MIT.
|
|
126
130
|
|