@nahisaho/satori 0.19.0 → 0.21.0
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/README.md +73 -39
- package/package.json +1 -1
- package/src/.github/skills/scientific-admet-pharmacokinetics/SKILL.md +4 -0
- package/src/.github/skills/scientific-biobank-cohort/SKILL.md +268 -0
- package/src/.github/skills/scientific-biothings-idmapping/SKILL.md +4 -0
- package/src/.github/skills/scientific-cancer-genomics/SKILL.md +7 -0
- package/src/.github/skills/scientific-cell-line-resources/SKILL.md +4 -0
- package/src/.github/skills/scientific-cellxgene-census/SKILL.md +257 -0
- package/src/.github/skills/scientific-chembl-assay-mining/SKILL.md +4 -0
- package/src/.github/skills/scientific-clingen-curation/SKILL.md +258 -0
- package/src/.github/skills/scientific-clinical-nlp/SKILL.md +250 -0
- package/src/.github/skills/scientific-drug-repurposing/SKILL.md +4 -0
- package/src/.github/skills/scientific-drug-target-profiling/SKILL.md +4 -0
- package/src/.github/skills/scientific-gdc-portal/SKILL.md +280 -0
- package/src/.github/skills/scientific-gtex-tissue-expression/SKILL.md +5 -2
- package/src/.github/skills/scientific-hgnc-nomenclature/SKILL.md +282 -0
- package/src/.github/skills/scientific-human-cell-atlas/SKILL.md +3 -0
- package/src/.github/skills/scientific-human-protein-atlas/SKILL.md +4 -0
- package/src/.github/skills/scientific-immunoinformatics/SKILL.md +4 -0
- package/src/.github/skills/scientific-metabolic-flux/SKILL.md +306 -0
- package/src/.github/skills/scientific-metabolic-modeling/SKILL.md +4 -0
- package/src/.github/skills/scientific-metabolomics/SKILL.md +4 -0
- package/src/.github/skills/scientific-metabolomics-network/SKILL.md +311 -0
- package/src/.github/skills/scientific-microbiome-metagenomics/SKILL.md +4 -0
- package/src/.github/skills/scientific-monarch-ontology/SKILL.md +260 -0
- package/src/.github/skills/scientific-pharmacogenomics/SKILL.md +4 -0
- package/src/.github/skills/scientific-pharmacology-targets/SKILL.md +10 -0
- package/src/.github/skills/scientific-pharos-targets/SKILL.md +276 -0
- package/src/.github/skills/scientific-precision-oncology/SKILL.md +4 -0
- package/src/.github/skills/scientific-protein-structure-analysis/SKILL.md +4 -0
- package/src/.github/skills/scientific-spatial-multiomics/SKILL.md +293 -0
- package/src/.github/skills/scientific-stitch-chemical-network/SKILL.md +318 -0
- package/src/.github/skills/scientific-string-network-api/SKILL.md +4 -0
- package/src/.github/skills/scientific-variant-effect-prediction/SKILL.md +7 -0
package/README.md
CHANGED
|
@@ -7,7 +7,7 @@
|
|
|
7
7
|
|
|
8
8
|
## Overview
|
|
9
9
|
|
|
10
|
-
このディレクトリには、Exp-01〜13 で蓄積した科学データ解析技法を Agent Skills として体系化した **
|
|
10
|
+
このディレクトリには、Exp-01〜13 で蓄積した科学データ解析技法を Agent Skills として体系化した **160 個**のスキルを格納しています。Copilot がプロンプトの文脈に応じて適切なスキルを自動ロードし、各実験で確立した解析パターンを再利用します。124 のスキルは [ToolUniverse](https://github.com/mims-harvard/ToolUniverse) SMCP 経由で 1,200 以上の外部科学データベースツールとも連携可能です。
|
|
11
11
|
|
|
12
12
|
### パイプラインフロー
|
|
13
13
|
|
|
@@ -208,7 +208,7 @@ symbolic-mathematics ──→ systems-biology ──→ admet-pharmacokinetics
|
|
|
208
208
|
|
|
209
209
|
### ToolUniverse MCP ツール連携
|
|
210
210
|
|
|
211
|
-
|
|
211
|
+
124 のスキル(HIGH 13 + MEDIUM 9 + Phase 3: 20 + Phase 4: 8 + Phase 5: 9 + Phase 6: 7 + Phase 7: 4 + Phase 8: 4 + Phase 9: 5 + Phase 10: 6 + Phase 11: 8 new + 6 existing + Phase 12: 3 new + 12 existing key additions + Phase 13: 3 new + 7 existing key additions)は、[ToolUniverse](https://github.com/mims-harvard/ToolUniverse) SMCP サーバー経由で 1,200 以上の外部科学ツールを利用可能です。各 SKILL.md 内の `### 利用可能ツール` セクションに対応ツールが記載されています。
|
|
212
212
|
|
|
213
213
|
```
|
|
214
214
|
SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・計算)
|
|
@@ -267,7 +267,17 @@ SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・
|
|
|
267
267
|
│ drugbank-resources │───MCP──│ DrugBank API │
|
|
268
268
|
│ civic-evidence │───MCP──│ CIViC REST API │
|
|
269
269
|
│ gnomad-variants │───MCP──│ gnomAD GraphQL API │
|
|
270
|
-
│
|
|
270
|
+
│ monarch-ontology │───MCP──│ Monarch Initiative API │
|
|
271
|
+
│ gdc-portal │───MCP──│ NCI GDC REST API │
|
|
272
|
+
│ stitch-chemical-net│───MCP──│ STITCH Chemical-Protein │
|
|
273
|
+
│ drug-repurposing │───MCP──│ Pharos IDG Targets │
|
|
274
|
+
│ pharmacogenomics │───MCP──│ FDA PGx Biomarkers │
|
|
275
|
+
│ gtex-tissue-expr │───MCP──│ GTEx v2 REST API │
|
|
276
|
+
│ protein-structure │───MCP──│ ProteinsPlus Binding Sites │
|
|
277
|
+
│ cellxgene-census │───MCP──│ CELLxGENE Census API │
|
|
278
|
+
│ pharos-targets │───MCP──│ Pharos GraphQL API │
|
|
279
|
+
│ clingen-curation │───MCP──│ ClinGen Validity/Dosage │
|
|
280
|
+
│ ... (124 skills total)│ │ ... (1,200+ tools) │
|
|
271
281
|
└──────────────────────┘ └─────────────────────────────┘
|
|
272
282
|
```
|
|
273
283
|
|
|
@@ -280,27 +290,27 @@ SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・
|
|
|
280
290
|
| C. 機械学習・モデリング | 3 | 回帰・分類・特徴量重要度 |
|
|
281
291
|
| D. 実験計画・プロセス最適化 | 2 | DOE・応答曲面法・ベイズ最適化 |
|
|
282
292
|
| E. 信号・スペクトル・時系列 | 4 | スペクトル解析・生体信号・時系列分解・神経電気生理学 |
|
|
283
|
-
| F. 生命科学・オミクス |
|
|
284
|
-
| G. 化学・材料・イメージング |
|
|
285
|
-
| H. 臨床・疫学・メタ科学 |
|
|
293
|
+
| F. 生命科学・オミクス | 26 | バイオインフォ・メタボロ・ゲノム配列・マルチオミクス・ネットワーク・プロテオミクス・トランスクリプトミクス・パスウェイ濃縮・代謝物 DB・HPA・ゲノム配列ツール・非コード RNA・オントロジー・EBI DB 群・Ensembl ゲノミクス・STRING/BioGRID PPI・発現比較・モデル生物 DB・GEO 発現プロファイル・寄生虫ゲノミクス・ArrayExpress 発現アーカイブ・GTEx 組織発現・UniProt プロテオーム・Reactome パスウェイ・HGNC 命名法・代謝ネットワーク |
|
|
294
|
+
| G. 化学・材料・イメージング | 9 | ケモインフォ・材料特性評価・画像形態解析・計算材料科学・ChEMBL アッセイマイニング・MD シミュレーション・高度イメージング・深層化学・STITCH 化学-タンパク質ネットワーク |
|
|
295
|
+
| H. 臨床・疫学・メタ科学 | 6 | 生存解析・因果推論・メタアナリシス・臨床試験解析・臨床レポート・バイオバンク大規模コホート |
|
|
286
296
|
| I. Deep Research・文献検索 | 4 | 科学文献深層リサーチ・エビデンス階層評価・マルチ DB 文献検索・引用ネットワーク・プレプリント横断検索・Semantic Scholar 学術グラフ |
|
|
287
|
-
| J. 創薬・ファーマコロジー |
|
|
297
|
+
| J. 創薬・ファーマコロジー | 9 | 標的プロファイリング・ADMET/PK・ドラッグリポジショニング・分子ドッキング・薬理学的ターゲット・化合物スクリーニング・NCI-60 スクリーニング・DrugBank リソース・Pharos ターゲット |
|
|
288
298
|
| K. 構造生物学・タンパク質工学 | 7 | PDB/AlphaFold 構造解析・de novo タンパク質設計・PPI ネットワーク・ドメイン/ファミリー・構造プロテオミクス・AlphaFold DB 構造予測・RCSB PDB 構造検索 |
|
|
289
|
-
| L. 精密医療・臨床意思決定 |
|
|
299
|
+
| L. 精密医療・臨床意思決定 | 6 | 変異解釈 (ACMG/AMP)・エビデンスベース臨床意思決定・バリアント効果予測・CIViC 臨床エビデンス・gnomAD バリアント・ClinGen キュレーション |
|
|
290
300
|
| M. 実験室自動化・データ管理 | 2 | 液体ハンドリング・プロトコル管理・ELN/LIMS 連携・ラボデータ管理 |
|
|
291
301
|
| N. 科学プレゼンテーション・図式 | 2 | 科学スライド・ポスター・ワークフロー図・科学図式 |
|
|
292
302
|
| O. 研究計画・グラント・規制 | 3 | 助成金申請書・研究方法論・倫理審査・規制科学 |
|
|
293
303
|
| P. ファーマコビジランス・薬理ゲノミクス | 3 | FAERS 不均衡分析・MedDRA 階層・安全性シグナル検出・PGx 代謝型・PharmGKB 臨床アノテーション |
|
|
294
|
-
| Q. 腫瘍学・疾患研究 |
|
|
304
|
+
| Q. 腫瘍学・疾患研究 | 10 | 精密腫瘍学 (CIViC/OncoKB)・疾患-遺伝子関連 (GWAS/Orphanet)・がんゲノミクス (COSMIC/DepMap)・希少疾患遺伝学・細胞株リソース・ICGC がんゲノムデータ・Open Targets 遺伝学・DepMap 依存性・Monarch オントロジー・GDC ポータル |
|
|
295
305
|
| R. 量子・先端計算 | 7 | 量子計算・GNN・ベイズ統計・説明可能 AI・深層学習・ヘルスケア AI・強化学習 |
|
|
296
306
|
| S. 医用イメージング | 1 | DICOM/NIfTI・WSI 病理画像・Radiomics・MONAI |
|
|
297
|
-
| T. シングルセル・空間・エピゲノミクス |
|
|
307
|
+
| T. シングルセル・空間・エピゲノミクス | 13 | scRNA-seq・Visium・MERFISH・CELLxGENE・RNA velocity・エピゲノミクス・レギュラトリーゲノミクス・摂動解析・scVI 統合・scATAC-seq/Signac・GPU シングルセル・ENCODE/SCREEN・Human Cell Atlas・高度 Squidpy 空間解析・空間マルチオミクス・CELLxGENE Census |
|
|
298
308
|
| U. 免疫・感染症 | 2 | 免疫情報学・MHC 結合予測・病原体ゲノミクス・AMR・IEDB |
|
|
299
309
|
| V. マイクロバイオーム・環境 | 8 | 16S/メタゲノム・α/β 多様性・SDM・OBIS・GBIF・系統解析・rRNA 分類学・植物バイオロジー・海洋生態学・環境地理空間データ・古生物学 |
|
|
300
|
-
| W. システム生物学 |
|
|
310
|
+
| W. システム生物学 | 4 | SBML シミュレーション・FBA・GRN 推定・BioModels・代謝モデリング・Metabolic Atlas・代謝フラックス解析 |
|
|
301
311
|
| X. 疫学・公衆衛生 | 3 | リスク指標 (RR/OR)・年齢標準化・空間疫学・WHO・CDC・公衆衛生データ・環境毒性学 |
|
|
302
312
|
| Y. 集団遺伝学 | 2 | HWE・PCA/ADMIXTURE・Fst・選択スキャン・gnomAD・GWAS・GWAS Catalog |
|
|
303
|
-
| Z. 科学テキストマイニング |
|
|
313
|
+
| Z. 科学テキストマイニング | 3 | NER・関係抽出・知識グラフ・BERTopic・PubTator バイオアノテーション・臨床 NLP |
|
|
304
314
|
|
|
305
315
|
---
|
|
306
316
|
|
|
@@ -371,9 +381,9 @@ SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・
|
|
|
371
381
|
| 24 | [scientific-time-series](scientific-time-series/SKILL.md) | STL 分解・SARIMA 予測・変化点検出・FFT 周期解析・Granger 因果 | 汎用 |
|
|
372
382
|
| 67 | [scientific-neuroscience-electrophysiology](scientific-neuroscience-electrophysiology/SKILL.md) | SpikeInterface/Kilosort4 スパイクソート・MNE EEG/ERP・NeuroKit2 HRV/EDA・脳機能結合 | 汎用 |
|
|
373
383
|
|
|
374
|
-
### F. 生命科学・オミクス(
|
|
384
|
+
### F. 生命科学・オミクス(26 種)
|
|
375
385
|
|
|
376
|
-
バイオ・オミクス・ネットワーク解析・オントロジー・EBI データベース・ゲノミクス・PPI・発現比較・モデル生物 DB・GEO 発現プロファイル・寄生虫ゲノミクス・ArrayExpress 発現アーカイブ・GTEx 組織発現・UniProt プロテオーム・Reactome
|
|
386
|
+
バイオ・オミクス・ネットワーク解析・オントロジー・EBI データベース・ゲノミクス・PPI・発現比較・モデル生物 DB・GEO 発現プロファイル・寄生虫ゲノミクス・ArrayExpress 発現アーカイブ・GTEx 組織発現・UniProt プロテオーム・Reactome パスウェイ・HGNC 命名法・代謝ネットワークを担うスキル群。
|
|
377
387
|
|
|
378
388
|
| # | Skill | 説明 | 参照 Exp |
|
|
379
389
|
|---|---|---|---|
|
|
@@ -401,10 +411,12 @@ SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・
|
|
|
401
411
|
| 137 | [scientific-gtex-tissue-expression](scientific-gtex-tissue-expression/SKILL.md) | GTEx Portal REST API v2 組織特異的発現・eQTL・多組織比較 | 汎用 |
|
|
402
412
|
| 141 | [scientific-uniprot-proteome](scientific-uniprot-proteome/SKILL.md) | UniProt REST API プロテオーム検索・ID マッピング・ドメイン/特徴抽出 | 汎用 |
|
|
403
413
|
| 144 | [scientific-reactome-pathways](scientific-reactome-pathways/SKILL.md) | Reactome Content Service パスウェイ検索・UniProt マッピング・参加者取得 | 汎用 |
|
|
414
|
+
| 159 | [scientific-hgnc-nomenclature](scientific-hgnc-nomenclature/SKILL.md) | HGNC REST API 遺伝子命名法・公式シンボル検索・エイリアス解決・遺伝子ファミリー | 汎用 |
|
|
415
|
+
| 160 | [scientific-metabolomics-network](scientific-metabolomics-network/SKILL.md) | 代謝物相関ネットワーク構築・KEGG パスウェイグラフ・ハブ代謝物・エンリッチメント | 汎用 |
|
|
404
416
|
|
|
405
|
-
### G. 化学・材料・イメージング(
|
|
417
|
+
### G. 化学・材料・イメージング(9 種)
|
|
406
418
|
|
|
407
|
-
化学構造・材料特性評価・画像形態解析・計算材料科学・ChEMBL アッセイマイニング・MD
|
|
419
|
+
化学構造・材料特性評価・画像形態解析・計算材料科学・ChEMBL アッセイマイニング・MD シミュレーション・高度イメージング・深層化学・STITCH 化学-タンパク質ネットワークを担うスキル群。
|
|
408
420
|
|
|
409
421
|
| # | Skill | 説明 | 参照 Exp |
|
|
410
422
|
|---|---|---|---|
|
|
@@ -416,10 +428,11 @@ SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・
|
|
|
416
428
|
| 112 | [scientific-md-simulation](scientific-md-simulation/SKILL.md) | MDAnalysis/OpenFF 分子動力学シミュレーション・RMSD/RMSF/SASA/水素結合解析 | 汎用 |
|
|
417
429
|
| 114 | [scientific-advanced-imaging](scientific-advanced-imaging/SKILL.md) | Cellpose セグメンテーション・CellProfiler 形態プロファイリング・napari 3D 可視化 | 汎用 |
|
|
418
430
|
| 115 | [scientific-deep-chemistry](scientific-deep-chemistry/SKILL.md) | DeepChem GCN/MPNN/AttentiveFP 分子特性予測・MoleculeNet・ChemBERTa | 汎用 |
|
|
431
|
+
| 154 | [scientific-stitch-chemical-network](scientific-stitch-chemical-network/SKILL.md) | STITCH 化学物質-タンパク質相互作用ネットワーク・ネットワーク薬理学・ポリファーマコロジー | 汎用 |
|
|
419
432
|
|
|
420
|
-
### H. 臨床・疫学・メタ科学(
|
|
433
|
+
### H. 臨床・疫学・メタ科学(6 種)
|
|
421
434
|
|
|
422
|
-
|
|
435
|
+
臨床試験・因果推論・メタアナリシス・臨床試験解析・バイオバンク大規模コホートを担うスキル群。
|
|
423
436
|
|
|
424
437
|
| # | Skill | 説明 | 参照 Exp |
|
|
425
438
|
|---|---|---|---|
|
|
@@ -428,6 +441,7 @@ SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・
|
|
|
428
441
|
| 35 | [scientific-meta-analysis](scientific-meta-analysis/SKILL.md) | 固定/ランダム効果モデル・Forest/Funnel プロット・Egger 検定・サブグループ | 汎用 |
|
|
429
442
|
| 71 | [scientific-clinical-trials-analytics](scientific-clinical-trials-analytics/SKILL.md) | ClinicalTrials.gov API v2 検索・競合ランドスケープ・AE/アウトカム抽出 | 汎用 |
|
|
430
443
|
| 85 | [scientific-clinical-reporting](scientific-clinical-reporting/SKILL.md) | SOAP ノート・バイオマーカーレポート・ファーマコゲノミクス・FHIR JSON | 汎用 |
|
|
444
|
+
| 151 | [scientific-biobank-cohort](scientific-biobank-cohort/SKILL.md) | UK Biobank/BBJ/All of Us 大規模コホート・GWAS サマリー統計・PheWAS | 汎用 |
|
|
431
445
|
|
|
432
446
|
### I. Deep Research・文献検索(4 種)
|
|
433
447
|
|
|
@@ -440,9 +454,9 @@ SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・
|
|
|
440
454
|
| 97 | [scientific-preprint-archive](scientific-preprint-archive/SKILL.md) | bioRxiv/medRxiv/arXiv/PMC/CORE/Zenodo/OpenAIRE/Unpaywall プレプリント・OA 横断検索 | 汎用 |
|
|
441
455
|
| 136 | [scientific-semantic-scholar](scientific-semantic-scholar/SKILL.md) | Semantic Scholar Academic Graph API 論文検索・引用グラフ・著者プロファイル・TLDR | 汎用 |
|
|
442
456
|
|
|
443
|
-
### J. 創薬・ファーマコロジー(
|
|
457
|
+
### J. 創薬・ファーマコロジー(9 種)
|
|
444
458
|
|
|
445
|
-
ドラッグディスカバリーの標的評価・薬物動態・リポジショニング・薬理学的ターゲット・化合物スクリーニング・NCI-60 スクリーニング・DrugBank
|
|
459
|
+
ドラッグディスカバリーの標的評価・薬物動態・リポジショニング・薬理学的ターゲット・化合物スクリーニング・NCI-60 スクリーニング・DrugBank リソース・Pharos ターゲットを担うスキル群。
|
|
446
460
|
|
|
447
461
|
| # | Skill | 説明 | 参照 Exp |
|
|
448
462
|
|---|---|---|---|
|
|
@@ -454,6 +468,7 @@ SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・
|
|
|
454
468
|
| 94 | [scientific-compound-screening](scientific-compound-screening/SKILL.md) | ZINC 化合物ライブラリ検索・バーチャルスクリーニング前処理 | 汎用 |
|
|
455
469
|
| 120 | [scientific-nci60-screening](scientific-nci60-screening/SKILL.md) | NCI-60/CellMiner/DepMap がん細胞株薬剤応答スクリーニング | 汎用 |
|
|
456
470
|
| 146 | [scientific-drugbank-resources](scientific-drugbank-resources/SKILL.md) | DrugBank API 薬剤情報・薬理 MOA・標的タンパク質・薬物相互作用 | 汎用 |
|
|
471
|
+
| 156 | [scientific-pharos-targets](scientific-pharos-targets/SKILL.md) | Pharos/TCRD IDG ターゲット TDL 分類・疾患関連・リガンド検索 | 汎用 |
|
|
457
472
|
|
|
458
473
|
### K. 構造生物学・タンパク質工学(7 種)
|
|
459
474
|
|
|
@@ -469,9 +484,9 @@ SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・
|
|
|
469
484
|
| 134 | [scientific-alphafold-structures](scientific-alphafold-structures/SKILL.md) | AlphaFold DB REST API 構造予測取得・pLDDT 信頼度・PAE 解析 | 汎用 |
|
|
470
485
|
| 142 | [scientific-rcsb-pdb-search](scientific-rcsb-pdb-search/SKILL.md) | RCSB PDB Search/Data API 構造検索・メタデータ・リガンド情報 | 汎用 |
|
|
471
486
|
|
|
472
|
-
### L. 精密医療・臨床意思決定(
|
|
487
|
+
### L. 精密医療・臨床意思決定(6 種)
|
|
473
488
|
|
|
474
|
-
バリアント解釈とエビデンスベース臨床判断・CIViC 臨床エビデンス・gnomAD
|
|
489
|
+
バリアント解釈とエビデンスベース臨床判断・CIViC 臨床エビデンス・gnomAD バリアント・ClinGen キュレーションを担うスキル群。
|
|
475
490
|
|
|
476
491
|
| # | Skill | 説明 | 参照 Exp |
|
|
477
492
|
|---|---|---|---|
|
|
@@ -479,6 +494,7 @@ SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・
|
|
|
479
494
|
| 43 | [scientific-clinical-decision-support](scientific-clinical-decision-support/SKILL.md) | GRADE エビデンス枠組・精密腫瘍学ワークフロー・臨床試験マッチング | 汎用 || 80 | [scientific-variant-effect-prediction](scientific-variant-effect-prediction/SKILL.md) | AlphaMissense/CADD/SpliceAI バリアント効果予測・コンセンサス病原性判定 | 汎用 |
|
|
480
495
|
| 147 | [scientific-civic-evidence](scientific-civic-evidence/SKILL.md) | CIViC REST API がんバリアント臨床解釈・エビデンス・アサーション | 汎用 |
|
|
481
496
|
| 148 | [scientific-gnomad-variants](scientific-gnomad-variants/SKILL.md) | gnomAD GraphQL 集団アレル頻度・遺伝子制約 (pLI/LOEUF)・リージョンクエリ | 汎用 |
|
|
497
|
+
| 157 | [scientific-clingen-curation](scientific-clingen-curation/SKILL.md) | ClinGen 遺伝子-疾患バリディティ・投与量感受性・臨床アクショナビリティ | 汎用 |
|
|
482
498
|
|
|
483
499
|
### M. 実験室自動化・データ管理(2 種)
|
|
484
500
|
|
|
@@ -518,9 +534,9 @@ SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・
|
|
|
518
534
|
| 75 | [scientific-pharmacogenomics](scientific-pharmacogenomics/SKILL.md) | PharmGKB/CPIC ガイドライン・Star アレル・代謝型・FDA PGx バイオマーカー | 汎用 |
|
|
519
535
|
| 138 | [scientific-pharmgkb-pgx](scientific-pharmgkb-pgx/SKILL.md) | PharmGKB REST API 臨床アノテーション・薬物遺伝子関連・投与量ガイドライン | 汎用 |
|
|
520
536
|
|
|
521
|
-
### Q. 腫瘍学・疾患研究(
|
|
537
|
+
### Q. 腫瘍学・疾患研究(10 種)
|
|
522
538
|
|
|
523
|
-
精密腫瘍学・疾患-遺伝子関連研究・がんゲノミクス・希少疾患遺伝学・細胞株リソース・ICGC がんゲノムデータ・Open Targets 遺伝学・DepMap
|
|
539
|
+
精密腫瘍学・疾患-遺伝子関連研究・がんゲノミクス・希少疾患遺伝学・細胞株リソース・ICGC がんゲノムデータ・Open Targets 遺伝学・DepMap 依存性・Monarch オントロジー・GDC ポータルを担うスキル群。
|
|
524
540
|
|
|
525
541
|
| # | Skill | 説明 | 参照 Exp |
|
|
526
542
|
|---|---|---|---|
|
|
@@ -532,6 +548,8 @@ SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・
|
|
|
532
548
|
| 140 | [scientific-icgc-cancer-data](scientific-icgc-cancer-data/SKILL.md) | ICGC DCC API 国際がんゲノムデータ・体細胞変異・がん種統計 | 汎用 |
|
|
533
549
|
| 143 | [scientific-opentargets-genetics](scientific-opentargets-genetics/SKILL.md) | Open Targets Platform GraphQL 標的-疾患アソシエーション・薬剤エビデンス・L2G | 汎用 |
|
|
534
550
|
| 145 | [scientific-depmap-dependencies](scientific-depmap-dependencies/SKILL.md) | DepMap Portal CRISPR/RNAi 遺伝子依存性・薬剤感受性 | 汎用 |
|
|
551
|
+
| 149 | [scientific-monarch-ontology](scientific-monarch-ontology/SKILL.md) | Monarch Initiative 疾患-遺伝子-表現型オントロジー・HPO・エンティティ検索 | 汎用 |
|
|
552
|
+
| 150 | [scientific-gdc-portal](scientific-gdc-portal/SKILL.md) | NCI Genomic Data Commons REST API・プロジェクト/ケース/SSM 検索 | 汎用 |
|
|
535
553
|
|
|
536
554
|
### R. 量子・先端計算(7 種)
|
|
537
555
|
|
|
@@ -555,9 +573,9 @@ DICOM・WSI 等の医用画像の解析・セグメンテーションを担う
|
|
|
555
573
|
|---|---|---|---|
|
|
556
574
|
| 56 | [scientific-medical-imaging](scientific-medical-imaging/SKILL.md) | DICOM/NIfTI 処理・MONAI U-Net/SwinUNETR・WSI パッチ抽出・Radiomics・3D 可視化 | 汎用 |
|
|
557
575
|
|
|
558
|
-
### T. シングルセル・空間・エピゲノミクス(
|
|
576
|
+
### T. シングルセル・空間・エピゲノミクス(13 種)
|
|
559
577
|
|
|
560
|
-
scRNA-seq・空間トランスクリプトミクス・エピゲノミクス・制御ゲノミクス・摂動解析・scVI 統合・scATAC-seq・GPU シングルセル・ENCODE/SCREEN・Human Cell Atlas・高度 Squidpy
|
|
578
|
+
scRNA-seq・空間トランスクリプトミクス・エピゲノミクス・制御ゲノミクス・摂動解析・scVI 統合・scATAC-seq・GPU シングルセル・ENCODE/SCREEN・Human Cell Atlas・高度 Squidpy 空間解析・空間マルチオミクス・CELLxGENE Census の解析パイプラインを担うスキル群。
|
|
561
579
|
|
|
562
580
|
| # | Skill | 説明 | 参照 Exp |
|
|
563
581
|
|---|---|---|---|
|
|
@@ -572,6 +590,8 @@ scRNA-seq・空間トランスクリプトミクス・エピゲノミクス・
|
|
|
572
590
|
| 125 | [scientific-encode-screen](scientific-encode-screen/SKILL.md) | ENCODE REST API 実験/ファイル検索・SCREEN cCRE・ChIP-Atlas エンリッチメント | 汎用 |
|
|
573
591
|
| 126 | [scientific-human-cell-atlas](scientific-human-cell-atlas/SKILL.md) | HCA Data Portal プロジェクト/ファイル・CELLxGENE Census 大規模アトラス | 汎用 |
|
|
574
592
|
| 131 | [scientific-squidpy-advanced](scientific-squidpy-advanced/SKILL.md) | Squidpy 空間自己相関・共起解析・近傍エンリッチメント・ニッチ同定 | 汎用 |
|
|
593
|
+
| 152 | [scientific-spatial-multiomics](scientific-spatial-multiomics/SKILL.md) | MERFISH/CODEX 空間マルチオミクス統合・共検出解析・空間コミュニティ検出 | 汎用 |
|
|
594
|
+
| 155 | [scientific-cellxgene-census](scientific-cellxgene-census/SKILL.md) | CELLxGENE Census API 大規模シングルセルアトラス・細胞型分布・遺伝子発現 | 汎用 |
|
|
575
595
|
|
|
576
596
|
### U. 免疫・感染症(2 種)
|
|
577
597
|
|
|
@@ -597,15 +617,16 @@ scRNA-seq・空間トランスクリプトミクス・エピゲノミクス・
|
|
|
597
617
|
| 128 | [scientific-environmental-geodata](scientific-environmental-geodata/SKILL.md) | SoilGrids/WorldClim 環境地理空間データ・種分布モデル環境変数 | 汎用 |
|
|
598
618
|
| 129 | [scientific-paleobiology](scientific-paleobiology/SKILL.md) | PBDB 化石産出記録・分類群検索・地質年代多様性曲線 | 汎用 |
|
|
599
619
|
|
|
600
|
-
### W. システム生物学(
|
|
620
|
+
### W. システム生物学(4 種)
|
|
601
621
|
|
|
602
|
-
SBML
|
|
622
|
+
SBML 動的シミュレーション・代謝フラックス解析・遺伝子制御ネットワーク推定・代謝モデリングを担うスキル群。
|
|
603
623
|
|
|
604
624
|
| # | Skill | 説明 | 参照 Exp |
|
|
605
625
|
|---|---|---|---|
|
|
606
626
|
| 63 | [scientific-systems-biology](scientific-systems-biology/SKILL.md) | SBML/RoadRunner シミュレーション・FBA/pFBA (cobrapy)・GRN 推定 (GENIE3)・Sobol 感度解析 | 汎用 |
|
|
607
627
|
| 95 | [scientific-metabolic-modeling](scientific-metabolic-modeling/SKILL.md) | BiGG Models/BioModels ゲノムスケール代謝モデル・反応・代謝物検索 | 汎用 |
|
|
608
628
|
| 130 | [scientific-metabolic-atlas](scientific-metabolic-atlas/SKILL.md) | Metabolic Atlas/Human-GEM 代謝反応・代謝産物検索・ネットワーク解析 | 汎用 |
|
|
629
|
+
| 153 | [scientific-metabolic-flux](scientific-metabolic-flux/SKILL.md) | 13C/15N 安定同位体代謝フラックス解析・EMU モデリング・MID フィッティング | 汎用 |
|
|
609
630
|
|
|
610
631
|
### X. 疫学・公衆衛生(3 種)
|
|
611
632
|
|
|
@@ -626,14 +647,15 @@ SBML 動的シミュレーション・代謝フラックス・遺伝子制御ネ
|
|
|
626
647
|
| 65 | [scientific-population-genetics](scientific-population-genetics/SKILL.md) | PLINK2 QC・HWE 検定・PCA/ADMIXTURE・Weir-Cockerham Fst・iHS/Tajima's D 選択スキャン | 汎用 |
|
|
627
648
|
| 133 | [scientific-gwas-catalog](scientific-gwas-catalog/SKILL.md) | NHGRI-EBI GWAS Catalog REST API 関連解析・研究検索・PheWAS | 汎用 |
|
|
628
649
|
|
|
629
|
-
### Z. 科学テキストマイニング(
|
|
650
|
+
### Z. 科学テキストマイニング(3 種)
|
|
630
651
|
|
|
631
|
-
科学文献からの情報抽出・知識グラフ構築・トピックモデリング・バイオメディカル NER を担うスキル群。
|
|
652
|
+
科学文献からの情報抽出・知識グラフ構築・トピックモデリング・バイオメディカル NER・臨床 NLP を担うスキル群。
|
|
632
653
|
|
|
633
654
|
| # | Skill | 説明 | 参照 Exp |
|
|
634
655
|
|---|---|---|---|
|
|
635
656
|
| 66 | [scientific-text-mining-nlp](scientific-text-mining-nlp/SKILL.md) | BioBERT/SciSpaCy NER・関係抽出・知識グラフ構築 (Louvain)・BERTopic トピックモデリング・引用ネットワーク分析 | 汎用 |
|
|
636
657
|
| 106 | [scientific-biomedical-pubtator](scientific-biomedical-pubtator/SKILL.md) | PubTator3 バイオメディカル NER・エンティティ関係抽出・知識グラフ構築 | 汎用 |
|
|
658
|
+
| 158 | [scientific-clinical-nlp](scientific-clinical-nlp/SKILL.md) | MedSpaCy/scispaCy 臨床テキスト NER・否定検出・セクション分類・UMLS リンキング | 汎用 |
|
|
637
659
|
|
|
638
660
|
---
|
|
639
661
|
|
|
@@ -744,7 +766,9 @@ Skills は `.github/skills/` に配置されているため、Copilot が自動
|
|
|
744
766
|
│ ├── scientific-arrayexpress-expression/
|
|
745
767
|
│ ├── scientific-gtex-tissue-expression/
|
|
746
768
|
│ ├── scientific-uniprot-proteome/
|
|
747
|
-
│
|
|
769
|
+
│ ├── scientific-reactome-pathways/
|
|
770
|
+
│ ├── scientific-hgnc-nomenclature/
|
|
771
|
+
│ └── scientific-metabolomics-network/
|
|
748
772
|
│
|
|
749
773
|
│── [G] 化学・材料・イメージング
|
|
750
774
|
│ ├── scientific-cheminformatics/
|
|
@@ -754,14 +778,16 @@ Skills は `.github/skills/` に配置されているため、Copilot が自動
|
|
|
754
778
|
│ ├── scientific-chembl-assay-mining/
|
|
755
779
|
│ ├── scientific-md-simulation/
|
|
756
780
|
│ ├── scientific-advanced-imaging/
|
|
757
|
-
│
|
|
781
|
+
│ ├── scientific-deep-chemistry/
|
|
782
|
+
│ └── scientific-stitch-chemical-network/
|
|
758
783
|
│
|
|
759
784
|
├── [H] 臨床・疫学・メタ科学
|
|
760
785
|
│ ├── scientific-survival-clinical/
|
|
761
786
|
│ ├── scientific-causal-inference/
|
|
762
787
|
│ ├── scientific-meta-analysis/
|
|
763
788
|
│ ├── scientific-clinical-trials-analytics/
|
|
764
|
-
│
|
|
789
|
+
│ ├── scientific-clinical-reporting/
|
|
790
|
+
│ └── scientific-biobank-cohort/
|
|
765
791
|
│
|
|
766
792
|
├── [I] Deep Research・文献検索
|
|
767
793
|
│ ├── scientific-deep-research/
|
|
@@ -777,7 +803,8 @@ Skills は `.github/skills/` に配置されているため、Copilot が自動
|
|
|
777
803
|
│ ├── scientific-pharmacology-targets/
|
|
778
804
|
│ ├── scientific-compound-screening/
|
|
779
805
|
│ ├── scientific-nci60-screening/
|
|
780
|
-
│
|
|
806
|
+
│ ├── scientific-drugbank-resources/
|
|
807
|
+
│ └── scientific-pharos-targets/
|
|
781
808
|
│
|
|
782
809
|
├── [K] 構造生物学・タンパク質工学
|
|
783
810
|
│ ├── scientific-protein-structure-analysis/
|
|
@@ -793,7 +820,8 @@ Skills は `.github/skills/` に配置されているため、Copilot が自動
|
|
|
793
820
|
│ ├── scientific-clinical-decision-support/
|
|
794
821
|
│ ├── scientific-variant-effect-prediction/
|
|
795
822
|
│ ├── scientific-civic-evidence/
|
|
796
|
-
│
|
|
823
|
+
│ ├── scientific-gnomad-variants/
|
|
824
|
+
│ └── scientific-clingen-curation/
|
|
797
825
|
│
|
|
798
826
|
├── [M] 実験室自動化・データ管理
|
|
799
827
|
│ ├── scientific-lab-automation/
|
|
@@ -821,7 +849,9 @@ Skills は `.github/skills/` に配置されているため、Copilot が自動
|
|
|
821
849
|
│ ├── scientific-cell-line-resources/
|
|
822
850
|
│ ├── scientific-icgc-cancer-data/
|
|
823
851
|
│ ├── scientific-opentargets-genetics/
|
|
824
|
-
│
|
|
852
|
+
│ ├── scientific-depmap-dependencies/
|
|
853
|
+
│ ├── scientific-monarch-ontology/
|
|
854
|
+
│ └── scientific-gdc-portal/
|
|
825
855
|
│
|
|
826
856
|
├── [R] 量子・先端計算
|
|
827
857
|
│ ├── scientific-quantum-computing/
|
|
@@ -846,7 +876,9 @@ Skills は `.github/skills/` に配置されているため、Copilot が自動
|
|
|
846
876
|
│ ├── scientific-gpu-singlecell/
|
|
847
877
|
│ ├── scientific-encode-screen/
|
|
848
878
|
│ ├── scientific-human-cell-atlas/
|
|
849
|
-
│
|
|
879
|
+
│ ├── scientific-squidpy-advanced/
|
|
880
|
+
│ ├── scientific-spatial-multiomics/
|
|
881
|
+
│ └── scientific-cellxgene-census/
|
|
850
882
|
│
|
|
851
883
|
│── [U] 免疫・感染症
|
|
852
884
|
│ ├── scientific-immunoinformatics/
|
|
@@ -865,7 +897,8 @@ Skills は `.github/skills/` に配置されているため、Copilot が自動
|
|
|
865
897
|
│── [W] システム生物学
|
|
866
898
|
│ ├── scientific-systems-biology/
|
|
867
899
|
│ ├── scientific-metabolic-modeling/
|
|
868
|
-
│
|
|
900
|
+
│ ├── scientific-metabolic-atlas/
|
|
901
|
+
│ └── scientific-metabolic-flux/
|
|
869
902
|
│
|
|
870
903
|
│── [X] 疫学・公衆衛生
|
|
871
904
|
│ ├── scientific-epidemiology-public-health/
|
|
@@ -878,7 +911,8 @@ Skills は `.github/skills/` に配置されているため、Copilot が自動
|
|
|
878
911
|
│
|
|
879
912
|
└── [Z] 科学テキストマイニング
|
|
880
913
|
├── scientific-text-mining-nlp/
|
|
881
|
-
|
|
914
|
+
├── scientific-biomedical-pubtator/
|
|
915
|
+
└── scientific-clinical-nlp/
|
|
882
916
|
```
|
|
883
917
|
|
|
884
918
|
> 注: 実際のファイルシステム上ではすべてのスキルディレクトリは `.github/skills/` 直下にフラットに配置されています。上記の中区分グルーピングは論理的な分類です。
|
package/package.json
CHANGED
|
@@ -5,6 +5,10 @@ description: |
|
|
|
5
5
|
包括的予測パイプライン。DeepChem/ADMET-AI/PyTDC を活用した分子特性予測、
|
|
6
6
|
PK/PD モデリング、ドラッグライクネス最適化、リード最適化戦略を提供。
|
|
7
7
|
「ADMET 予測して」「薬物動態を評価して」「lead optimization して」で発火。
|
|
8
|
+
tu_tools:
|
|
9
|
+
- key: pubchem
|
|
10
|
+
name: PubChem
|
|
11
|
+
description: 化合物・物質・生理活性アッセイデータベース
|
|
8
12
|
---
|
|
9
13
|
|
|
10
14
|
# Scientific ADMET & Pharmacokinetics
|
|
@@ -0,0 +1,268 @@
|
|
|
1
|
+
---
|
|
2
|
+
name: scientific-biobank-cohort
|
|
3
|
+
description: |
|
|
4
|
+
バイオバンク・大規模コホートデータ解析スキル。UK Biobank /
|
|
5
|
+
BBJ / All of Us 等の大規模コホートデータに対するフェノタイプ
|
|
6
|
+
辞書検索・GWAS サマリー統計処理・PheWAS パイプライン。
|
|
7
|
+
---
|
|
8
|
+
|
|
9
|
+
# Scientific Biobank Cohort
|
|
10
|
+
|
|
11
|
+
UK Biobank・バイオバンクジャパン (BBJ)・All of Us 等の大規模
|
|
12
|
+
コホートデータを活用したフェノタイプ辞書検索・GWAS サマリー
|
|
13
|
+
統計処理・PheWAS 解析パイプラインを提供する。
|
|
14
|
+
|
|
15
|
+
## When to Use
|
|
16
|
+
|
|
17
|
+
- バイオバンクのフェノタイプ辞書を検索するとき
|
|
18
|
+
- GWAS サマリー統計データを処理・可視化するとき
|
|
19
|
+
- PheWAS (Phenome-Wide Association Study) を実施するとき
|
|
20
|
+
- コホートの基本統計・人口統計特性を集計するとき
|
|
21
|
+
- バリアント-フェノタイプ関連を網羅的に検索するとき
|
|
22
|
+
|
|
23
|
+
---
|
|
24
|
+
|
|
25
|
+
## Quick Start
|
|
26
|
+
|
|
27
|
+
## 1. フェノタイプ辞書検索
|
|
28
|
+
|
|
29
|
+
```python
|
|
30
|
+
import pandas as pd
|
|
31
|
+
import numpy as np
|
|
32
|
+
|
|
33
|
+
|
|
34
|
+
def phenotype_dictionary(pheno_file, category=None,
|
|
35
|
+
keyword=None):
|
|
36
|
+
"""
|
|
37
|
+
バイオバンク — フェノタイプ辞書検索。
|
|
38
|
+
|
|
39
|
+
Parameters:
|
|
40
|
+
pheno_file: str — フェノタイプ辞書 CSV パス
|
|
41
|
+
(UK Biobank Data-Field listing 等)
|
|
42
|
+
category: str — カテゴリフィルタ
|
|
43
|
+
keyword: str — キーワードフィルタ
|
|
44
|
+
"""
|
|
45
|
+
df = pd.read_csv(pheno_file)
|
|
46
|
+
|
|
47
|
+
if category:
|
|
48
|
+
df = df[df["Category"].str.contains(
|
|
49
|
+
category, case=False, na=False)]
|
|
50
|
+
if keyword:
|
|
51
|
+
mask = (
|
|
52
|
+
df["Field"].str.contains(
|
|
53
|
+
keyword, case=False, na=False)
|
|
54
|
+
| df["Description"].str.contains(
|
|
55
|
+
keyword, case=False, na=False)
|
|
56
|
+
)
|
|
57
|
+
df = df[mask]
|
|
58
|
+
|
|
59
|
+
print(f"Phenotype dict: {len(df)} fields matched")
|
|
60
|
+
return df
|
|
61
|
+
|
|
62
|
+
|
|
63
|
+
def cohort_demographics(pheno_df, age_col="age",
|
|
64
|
+
sex_col="sex"):
|
|
65
|
+
"""
|
|
66
|
+
バイオバンク — コホート人口統計サマリー。
|
|
67
|
+
|
|
68
|
+
Parameters:
|
|
69
|
+
pheno_df: DataFrame — 参加者フェノタイプデータ
|
|
70
|
+
age_col: str — 年齢列名
|
|
71
|
+
sex_col: str — 性別列名
|
|
72
|
+
"""
|
|
73
|
+
summary = {
|
|
74
|
+
"n_participants": len(pheno_df),
|
|
75
|
+
"age_mean": pheno_df[age_col].mean(),
|
|
76
|
+
"age_std": pheno_df[age_col].std(),
|
|
77
|
+
"sex_distribution": (
|
|
78
|
+
pheno_df[sex_col]
|
|
79
|
+
.value_counts(normalize=True)
|
|
80
|
+
.to_dict()
|
|
81
|
+
),
|
|
82
|
+
}
|
|
83
|
+
print(f"Cohort: n={summary['n_participants']}, "
|
|
84
|
+
f"age={summary['age_mean']:.1f}±"
|
|
85
|
+
f"{summary['age_std']:.1f}")
|
|
86
|
+
return summary
|
|
87
|
+
```
|
|
88
|
+
|
|
89
|
+
## 2. GWAS サマリー統計処理
|
|
90
|
+
|
|
91
|
+
```python
|
|
92
|
+
def load_gwas_summary(sumstat_file, p_threshold=5e-8,
|
|
93
|
+
sep="\t"):
|
|
94
|
+
"""
|
|
95
|
+
GWAS サマリー統計ファイル読み込み・フィルタリング。
|
|
96
|
+
|
|
97
|
+
Parameters:
|
|
98
|
+
sumstat_file: str — サマリー統計ファイルパス
|
|
99
|
+
(TSV: CHR, POS, SNP, A1, A2, BETA, SE, P)
|
|
100
|
+
p_threshold: float — P 値閾値
|
|
101
|
+
sep: str — 区切り文字
|
|
102
|
+
"""
|
|
103
|
+
df = pd.read_csv(sumstat_file, sep=sep)
|
|
104
|
+
|
|
105
|
+
# 標準カラム名正規化
|
|
106
|
+
col_map = {
|
|
107
|
+
"chromosome": "CHR", "chr": "CHR",
|
|
108
|
+
"position": "POS", "pos": "POS", "bp": "POS",
|
|
109
|
+
"rsid": "SNP", "snp": "SNP", "variant_id": "SNP",
|
|
110
|
+
"effect_allele": "A1", "a1": "A1",
|
|
111
|
+
"other_allele": "A2", "a2": "A2",
|
|
112
|
+
"beta": "BETA", "effect_size": "BETA",
|
|
113
|
+
"se": "SE", "standard_error": "SE",
|
|
114
|
+
"pval": "P", "p_value": "P", "pvalue": "P",
|
|
115
|
+
}
|
|
116
|
+
df.columns = [col_map.get(c.lower(), c)
|
|
117
|
+
for c in df.columns]
|
|
118
|
+
|
|
119
|
+
# フィルタ
|
|
120
|
+
sig = df[df["P"] < p_threshold].copy()
|
|
121
|
+
sig.sort_values("P", inplace=True)
|
|
122
|
+
|
|
123
|
+
print(f"GWAS summary: {len(df)} total, "
|
|
124
|
+
f"{len(sig)} significant (P<{p_threshold})")
|
|
125
|
+
return sig
|
|
126
|
+
|
|
127
|
+
|
|
128
|
+
def manhattan_data(gwas_df, chr_col="CHR",
|
|
129
|
+
pos_col="POS", p_col="P"):
|
|
130
|
+
"""
|
|
131
|
+
Manhattan プロット用データ変換。
|
|
132
|
+
|
|
133
|
+
Parameters:
|
|
134
|
+
gwas_df: DataFrame — GWAS サマリー統計
|
|
135
|
+
chr_col: str — 染色体列
|
|
136
|
+
pos_col: str — 位置列
|
|
137
|
+
p_col: str — P 値列
|
|
138
|
+
"""
|
|
139
|
+
df = gwas_df.copy()
|
|
140
|
+
df["-log10P"] = -np.log10(df[p_col])
|
|
141
|
+
|
|
142
|
+
# 累積位置計算
|
|
143
|
+
chr_lengths = (
|
|
144
|
+
df.groupby(chr_col)[pos_col].max()
|
|
145
|
+
.sort_index()
|
|
146
|
+
)
|
|
147
|
+
chr_offsets = chr_lengths.cumsum().shift(1).fillna(0)
|
|
148
|
+
df["cumpos"] = df.apply(
|
|
149
|
+
lambda r: r[pos_col] + chr_offsets.get(
|
|
150
|
+
r[chr_col], 0),
|
|
151
|
+
axis=1)
|
|
152
|
+
|
|
153
|
+
print(f"Manhattan data: {len(df)} variants, "
|
|
154
|
+
f"max -log10P={df['-log10P'].max():.1f}")
|
|
155
|
+
return df
|
|
156
|
+
```
|
|
157
|
+
|
|
158
|
+
## 3. PheWAS (Phenome-Wide Association Study)
|
|
159
|
+
|
|
160
|
+
```python
|
|
161
|
+
def phewas_analysis(genotype_series, pheno_df,
|
|
162
|
+
pheno_cols=None,
|
|
163
|
+
p_threshold=0.05):
|
|
164
|
+
"""
|
|
165
|
+
PheWAS — 1バリアントに対する多表現型アソシエーション。
|
|
166
|
+
|
|
167
|
+
Parameters:
|
|
168
|
+
genotype_series: Series — バリアント遺伝子型
|
|
169
|
+
(0/1/2 コーディング)
|
|
170
|
+
pheno_df: DataFrame — フェノタイプデータ
|
|
171
|
+
pheno_cols: list — テスト対象表現型列
|
|
172
|
+
p_threshold: float — Bonferroni 前閾値
|
|
173
|
+
"""
|
|
174
|
+
from scipy import stats
|
|
175
|
+
|
|
176
|
+
if pheno_cols is None:
|
|
177
|
+
pheno_cols = [c for c in pheno_df.columns
|
|
178
|
+
if pheno_df[c].dtype in
|
|
179
|
+
[np.float64, np.int64]]
|
|
180
|
+
|
|
181
|
+
results = []
|
|
182
|
+
for col in pheno_cols:
|
|
183
|
+
mask = pheno_df[col].notna()
|
|
184
|
+
if mask.sum() < 50:
|
|
185
|
+
continue
|
|
186
|
+
geno = genotype_series[mask]
|
|
187
|
+
pheno = pheno_df.loc[mask, col]
|
|
188
|
+
|
|
189
|
+
# 数値 → 線形回帰 (簡易)
|
|
190
|
+
slope, intercept, r, p, se = stats.linregress(
|
|
191
|
+
geno, pheno)
|
|
192
|
+
results.append({
|
|
193
|
+
"phenotype": col,
|
|
194
|
+
"beta": slope,
|
|
195
|
+
"se": se,
|
|
196
|
+
"p_value": p,
|
|
197
|
+
"n": mask.sum(),
|
|
198
|
+
})
|
|
199
|
+
|
|
200
|
+
df = pd.DataFrame(results)
|
|
201
|
+
n_tests = len(df)
|
|
202
|
+
bonf = p_threshold / n_tests if n_tests > 0 else 0.05
|
|
203
|
+
df["significant"] = df["p_value"] < bonf
|
|
204
|
+
df.sort_values("p_value", inplace=True)
|
|
205
|
+
|
|
206
|
+
n_sig = df["significant"].sum()
|
|
207
|
+
print(f"PheWAS: {n_tests} phenotypes tested, "
|
|
208
|
+
f"{n_sig} significant (Bonferroni)")
|
|
209
|
+
return df
|
|
210
|
+
```
|
|
211
|
+
|
|
212
|
+
## 4. バイオバンク統合パイプライン
|
|
213
|
+
|
|
214
|
+
```python
|
|
215
|
+
def biobank_pipeline(sumstat_file, pheno_file=None,
|
|
216
|
+
output_dir="results"):
|
|
217
|
+
"""
|
|
218
|
+
バイオバンク統合パイプライン。
|
|
219
|
+
|
|
220
|
+
Parameters:
|
|
221
|
+
sumstat_file: str — GWAS サマリー統計ファイル
|
|
222
|
+
pheno_file: str — フェノタイプ辞書ファイル
|
|
223
|
+
output_dir: str — 出力ディレクトリ
|
|
224
|
+
"""
|
|
225
|
+
from pathlib import Path
|
|
226
|
+
output_dir = Path(output_dir)
|
|
227
|
+
output_dir.mkdir(parents=True, exist_ok=True)
|
|
228
|
+
|
|
229
|
+
# 1) GWAS サマリー統計読み込み
|
|
230
|
+
gwas = load_gwas_summary(sumstat_file)
|
|
231
|
+
gwas.to_csv(output_dir / "gwas_significant.csv",
|
|
232
|
+
index=False)
|
|
233
|
+
|
|
234
|
+
# 2) Manhattan プロットデータ
|
|
235
|
+
manhattan = manhattan_data(gwas)
|
|
236
|
+
manhattan.to_csv(
|
|
237
|
+
output_dir / "manhattan_data.csv", index=False)
|
|
238
|
+
|
|
239
|
+
# 3) フェノタイプ辞書検索 (利用可能な場合)
|
|
240
|
+
if pheno_file:
|
|
241
|
+
pheno_dict = phenotype_dictionary(pheno_file)
|
|
242
|
+
pheno_dict.to_csv(
|
|
243
|
+
output_dir / "phenotype_dict.csv",
|
|
244
|
+
index=False)
|
|
245
|
+
|
|
246
|
+
print(f"Biobank pipeline → {output_dir}")
|
|
247
|
+
return {"gwas": gwas, "manhattan": manhattan}
|
|
248
|
+
```
|
|
249
|
+
|
|
250
|
+
---
|
|
251
|
+
|
|
252
|
+
## パイプライン統合
|
|
253
|
+
|
|
254
|
+
```
|
|
255
|
+
epidemiology-public-health → biobank-cohort → population-genetics
|
|
256
|
+
(疫学デザイン) (GWAS/PheWAS) (集団遺伝解析)
|
|
257
|
+
│ │ ↓
|
|
258
|
+
mendelian-randomization ───────┘ rare-disease-genetics
|
|
259
|
+
(因果推論) (Mendelian 解析)
|
|
260
|
+
```
|
|
261
|
+
|
|
262
|
+
## パイプライン出力
|
|
263
|
+
|
|
264
|
+
| ファイル | 説明 | 次スキル |
|
|
265
|
+
|---------|------|---------|
|
|
266
|
+
| `results/gwas_significant.csv` | Genome-wide significant SNP | → population-genetics |
|
|
267
|
+
| `results/manhattan_data.csv` | Manhattan プロットデータ | → GWAS 可視化 |
|
|
268
|
+
| `results/phenotype_dict.csv` | フェノタイプ辞書 | → PheWAS |
|
|
@@ -3,6 +3,10 @@ name: scientific-biothings-idmapping
|
|
|
3
3
|
description: |
|
|
4
4
|
BioThings API (MyGene.info, MyVariant.info, MyChem.info) を活用した
|
|
5
5
|
遺伝子・変異・化合物の横断的 ID マッピングおよびアノテーション統合スキル。
|
|
6
|
+
tu_tools:
|
|
7
|
+
- key: biothings
|
|
8
|
+
name: BioThings
|
|
9
|
+
description: MyGene/MyVariant/MyChem 統合アノテーション API
|
|
6
10
|
---
|
|
7
11
|
|
|
8
12
|
# Scientific BioThings ID Mapping
|
|
@@ -7,6 +7,13 @@ description: |
|
|
|
7
7
|
変異シグネチャー解析、遺伝子依存性 (essentiality) 評価、
|
|
8
8
|
コピー数変化・がん種横断解析パイプライン。
|
|
9
9
|
13 の ToolUniverse SMCP ツールと連携。
|
|
10
|
+
tu_tools:
|
|
11
|
+
- key: cosmic
|
|
12
|
+
name: COSMIC
|
|
13
|
+
description: がん体細胞変異カタログ
|
|
14
|
+
- key: cbioportal
|
|
15
|
+
name: cBioPortal
|
|
16
|
+
description: がんゲノミクスポータル
|
|
10
17
|
---
|
|
11
18
|
|
|
12
19
|
# Scientific Cancer Genomics
|