@nahisaho/satori 0.19.0 → 0.20.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
package/README.md CHANGED
@@ -7,7 +7,7 @@
7
7
 
8
8
  ## Overview
9
9
 
10
- このディレクトリには、Exp-01〜13 で蓄積した科学データ解析技法を Agent Skills として体系化した **148 個**のスキルを格納しています。Copilot がプロンプトの文脈に応じて適切なスキルを自動ロードし、各実験で確立した解析パターンを再利用します。99 のスキルは [ToolUniverse](https://github.com/mims-harvard/ToolUniverse) SMCP 経由で 1,200 以上の外部科学データベースツールとも連携可能です。
10
+ このディレクトリには、Exp-01〜13 で蓄積した科学データ解析技法を Agent Skills として体系化した **154 個**のスキルを格納しています。Copilot がプロンプトの文脈に応じて適切なスキルを自動ロードし、各実験で確立した解析パターンを再利用します。114 のスキルは [ToolUniverse](https://github.com/mims-harvard/ToolUniverse) SMCP 経由で 1,200 以上の外部科学データベースツールとも連携可能です。
11
11
 
12
12
  ### パイプラインフロー
13
13
 
@@ -208,7 +208,7 @@ symbolic-mathematics ──→ systems-biology ──→ admet-pharmacokinetics
208
208
 
209
209
  ### ToolUniverse MCP ツール連携
210
210
 
211
- 99 のスキル(HIGH 13 + MEDIUM 9 + Phase 3: 20 + Phase 4: 8 + Phase 5: 9 + Phase 6: 7 + Phase 7: 4 + Phase 8: 4 + Phase 9: 5 + Phase 10: 6 + Phase 11: 8 new + 6 existing key additions)は、[ToolUniverse](https://github.com/mims-harvard/ToolUniverse) SMCP サーバー経由で 1,200 以上の外部科学ツールを利用可能です。各 SKILL.md 内の `### 利用可能ツール` セクションに対応ツールが記載されています。
211
+ 114 のスキル(HIGH 13 + MEDIUM 9 + Phase 3: 20 + Phase 4: 8 + Phase 5: 9 + Phase 6: 7 + Phase 7: 4 + Phase 8: 4 + Phase 9: 5 + Phase 10: 6 + Phase 11: 8 new + 6 existing + Phase 12: 3 new + 12 existing key additions)は、[ToolUniverse](https://github.com/mims-harvard/ToolUniverse) SMCP サーバー経由で 1,200 以上の外部科学ツールを利用可能です。各 SKILL.md 内の `### 利用可能ツール` セクションに対応ツールが記載されています。
212
212
 
213
213
  ```
214
214
  SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・計算)
@@ -267,7 +267,10 @@ SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・
267
267
  │ drugbank-resources │───MCP──│ DrugBank API │
268
268
  │ civic-evidence │───MCP──│ CIViC REST API │
269
269
  │ gnomad-variants │───MCP──│ gnomAD GraphQL API │
270
- ... (99 skills total) │ ... (1,200+ tools) │
270
+ monarch-ontology │───MCP──│ Monarch Initiative API
271
+ │ gdc-portal │───MCP──│ NCI GDC REST API │
272
+ │ stitch-chemical-net│───MCP──│ STITCH Chemical-Protein │
273
+ │ ... (114 skills total)│ │ ... (1,200+ tools) │
271
274
  └──────────────────────┘ └─────────────────────────────┘
272
275
  ```
273
276
 
@@ -281,8 +284,8 @@ SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・
281
284
  | D. 実験計画・プロセス最適化 | 2 | DOE・応答曲面法・ベイズ最適化 |
282
285
  | E. 信号・スペクトル・時系列 | 4 | スペクトル解析・生体信号・時系列分解・神経電気生理学 |
283
286
  | F. 生命科学・オミクス | 24 | バイオインフォ・メタボロ・ゲノム配列・マルチオミクス・ネットワーク・プロテオミクス・トランスクリプトミクス・パスウェイ濃縮・代謝物 DB・HPA・ゲノム配列ツール・非コード RNA・オントロジー・EBI DB 群・Ensembl ゲノミクス・STRING/BioGRID PPI・発現比較・モデル生物 DB・GEO 発現プロファイル・寄生虫ゲノミクス・ArrayExpress 発現アーカイブ・GTEx 組織発現・UniProt プロテオーム・Reactome パスウェイ |
284
- | G. 化学・材料・イメージング | 8 | ケモインフォ・材料特性評価・画像形態解析・計算材料科学・ChEMBL アッセイマイニング・MD シミュレーション・高度イメージング・深層化学 |
285
- | H. 臨床・疫学・メタ科学 | 5 | 生存解析・因果推論・メタアナリシス・臨床試験解析・臨床レポート |
287
+ | G. 化学・材料・イメージング | 9 | ケモインフォ・材料特性評価・画像形態解析・計算材料科学・ChEMBL アッセイマイニング・MD シミュレーション・高度イメージング・深層化学・STITCH 化学-タンパク質ネットワーク |
288
+ | H. 臨床・疫学・メタ科学 | 6 | 生存解析・因果推論・メタアナリシス・臨床試験解析・臨床レポート・バイオバンク大規模コホート |
286
289
  | I. Deep Research・文献検索 | 4 | 科学文献深層リサーチ・エビデンス階層評価・マルチ DB 文献検索・引用ネットワーク・プレプリント横断検索・Semantic Scholar 学術グラフ |
287
290
  | J. 創薬・ファーマコロジー | 8 | 標的プロファイリング・ADMET/PK・ドラッグリポジショニング・分子ドッキング・薬理学的ターゲット・化合物スクリーニング・NCI-60 スクリーニング・DrugBank リソース |
288
291
  | K. 構造生物学・タンパク質工学 | 7 | PDB/AlphaFold 構造解析・de novo タンパク質設計・PPI ネットワーク・ドメイン/ファミリー・構造プロテオミクス・AlphaFold DB 構造予測・RCSB PDB 構造検索 |
@@ -291,13 +294,13 @@ SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・
291
294
  | N. 科学プレゼンテーション・図式 | 2 | 科学スライド・ポスター・ワークフロー図・科学図式 |
292
295
  | O. 研究計画・グラント・規制 | 3 | 助成金申請書・研究方法論・倫理審査・規制科学 |
293
296
  | P. ファーマコビジランス・薬理ゲノミクス | 3 | FAERS 不均衡分析・MedDRA 階層・安全性シグナル検出・PGx 代謝型・PharmGKB 臨床アノテーション |
294
- | Q. 腫瘍学・疾患研究 | 8 | 精密腫瘍学 (CIViC/OncoKB)・疾患-遺伝子関連 (GWAS/Orphanet)・がんゲノミクス (COSMIC/DepMap)・希少疾患遺伝学・細胞株リソース・ICGC がんゲノムデータ・Open Targets 遺伝学・DepMap 依存性 |
297
+ | Q. 腫瘍学・疾患研究 | 10 | 精密腫瘍学 (CIViC/OncoKB)・疾患-遺伝子関連 (GWAS/Orphanet)・がんゲノミクス (COSMIC/DepMap)・希少疾患遺伝学・細胞株リソース・ICGC がんゲノムデータ・Open Targets 遺伝学・DepMap 依存性・Monarch オントロジー・GDC ポータル |
295
298
  | R. 量子・先端計算 | 7 | 量子計算・GNN・ベイズ統計・説明可能 AI・深層学習・ヘルスケア AI・強化学習 |
296
299
  | S. 医用イメージング | 1 | DICOM/NIfTI・WSI 病理画像・Radiomics・MONAI |
297
- | T. シングルセル・空間・エピゲノミクス | 11 | scRNA-seq・Visium・MERFISH・CELLxGENE・RNA velocity・エピゲノミクス・レギュラトリーゲノミクス・摂動解析・scVI 統合・scATAC-seq/Signac・GPU シングルセル・ENCODE/SCREEN・Human Cell Atlas・高度 Squidpy 空間解析 |
300
+ | T. シングルセル・空間・エピゲノミクス | 12 | scRNA-seq・Visium・MERFISH・CELLxGENE・RNA velocity・エピゲノミクス・レギュラトリーゲノミクス・摂動解析・scVI 統合・scATAC-seq/Signac・GPU シングルセル・ENCODE/SCREEN・Human Cell Atlas・高度 Squidpy 空間解析・空間マルチオミクス |
298
301
  | U. 免疫・感染症 | 2 | 免疫情報学・MHC 結合予測・病原体ゲノミクス・AMR・IEDB |
299
302
  | V. マイクロバイオーム・環境 | 8 | 16S/メタゲノム・α/β 多様性・SDM・OBIS・GBIF・系統解析・rRNA 分類学・植物バイオロジー・海洋生態学・環境地理空間データ・古生物学 |
300
- | W. システム生物学 | 3 | SBML シミュレーション・FBA・GRN 推定・BioModels・代謝モデリング・Metabolic Atlas |
303
+ | W. システム生物学 | 4 | SBML シミュレーション・FBA・GRN 推定・BioModels・代謝モデリング・Metabolic Atlas・代謝フラックス解析 |
301
304
  | X. 疫学・公衆衛生 | 3 | リスク指標 (RR/OR)・年齢標準化・空間疫学・WHO・CDC・公衆衛生データ・環境毒性学 |
302
305
  | Y. 集団遺伝学 | 2 | HWE・PCA/ADMIXTURE・Fst・選択スキャン・gnomAD・GWAS・GWAS Catalog |
303
306
  | Z. 科学テキストマイニング | 2 | NER・関係抽出・知識グラフ・BERTopic・PubTator バイオアノテーション |
@@ -402,9 +405,9 @@ SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・
402
405
  | 141 | [scientific-uniprot-proteome](scientific-uniprot-proteome/SKILL.md) | UniProt REST API プロテオーム検索・ID マッピング・ドメイン/特徴抽出 | 汎用 |
403
406
  | 144 | [scientific-reactome-pathways](scientific-reactome-pathways/SKILL.md) | Reactome Content Service パスウェイ検索・UniProt マッピング・参加者取得 | 汎用 |
404
407
 
405
- ### G. 化学・材料・イメージング(8 種)
408
+ ### G. 化学・材料・イメージング(9 種)
406
409
 
407
- 化学構造・材料特性評価・画像形態解析・計算材料科学・ChEMBL アッセイマイニング・MD シミュレーション・高度イメージング・深層化学を担うスキル群。
410
+ 化学構造・材料特性評価・画像形態解析・計算材料科学・ChEMBL アッセイマイニング・MD シミュレーション・高度イメージング・深層化学・STITCH 化学-タンパク質ネットワークを担うスキル群。
408
411
 
409
412
  | # | Skill | 説明 | 参照 Exp |
410
413
  |---|---|---|---|
@@ -416,10 +419,11 @@ SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・
416
419
  | 112 | [scientific-md-simulation](scientific-md-simulation/SKILL.md) | MDAnalysis/OpenFF 分子動力学シミュレーション・RMSD/RMSF/SASA/水素結合解析 | 汎用 |
417
420
  | 114 | [scientific-advanced-imaging](scientific-advanced-imaging/SKILL.md) | Cellpose セグメンテーション・CellProfiler 形態プロファイリング・napari 3D 可視化 | 汎用 |
418
421
  | 115 | [scientific-deep-chemistry](scientific-deep-chemistry/SKILL.md) | DeepChem GCN/MPNN/AttentiveFP 分子特性予測・MoleculeNet・ChemBERTa | 汎用 |
422
+ | 154 | [scientific-stitch-chemical-network](scientific-stitch-chemical-network/SKILL.md) | STITCH 化学物質-タンパク質相互作用ネットワーク・ネットワーク薬理学・ポリファーマコロジー | 汎用 |
419
423
 
420
- ### H. 臨床・疫学・メタ科学(5 種)
424
+ ### H. 臨床・疫学・メタ科学(6 種)
421
425
 
422
- 臨床試験・因果推論・メタアナリシス・臨床試験解析を担うスキル群。
426
+ 臨床試験・因果推論・メタアナリシス・臨床試験解析・バイオバンク大規模コホートを担うスキル群。
423
427
 
424
428
  | # | Skill | 説明 | 参照 Exp |
425
429
  |---|---|---|---|
@@ -428,6 +432,7 @@ SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・
428
432
  | 35 | [scientific-meta-analysis](scientific-meta-analysis/SKILL.md) | 固定/ランダム効果モデル・Forest/Funnel プロット・Egger 検定・サブグループ | 汎用 |
429
433
  | 71 | [scientific-clinical-trials-analytics](scientific-clinical-trials-analytics/SKILL.md) | ClinicalTrials.gov API v2 検索・競合ランドスケープ・AE/アウトカム抽出 | 汎用 |
430
434
  | 85 | [scientific-clinical-reporting](scientific-clinical-reporting/SKILL.md) | SOAP ノート・バイオマーカーレポート・ファーマコゲノミクス・FHIR JSON | 汎用 |
435
+ | 151 | [scientific-biobank-cohort](scientific-biobank-cohort/SKILL.md) | UK Biobank/BBJ/All of Us 大規模コホート・GWAS サマリー統計・PheWAS | 汎用 |
431
436
 
432
437
  ### I. Deep Research・文献検索(4 種)
433
438
 
@@ -518,9 +523,9 @@ SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・
518
523
  | 75 | [scientific-pharmacogenomics](scientific-pharmacogenomics/SKILL.md) | PharmGKB/CPIC ガイドライン・Star アレル・代謝型・FDA PGx バイオマーカー | 汎用 |
519
524
  | 138 | [scientific-pharmgkb-pgx](scientific-pharmgkb-pgx/SKILL.md) | PharmGKB REST API 臨床アノテーション・薬物遺伝子関連・投与量ガイドライン | 汎用 |
520
525
 
521
- ### Q. 腫瘍学・疾患研究(8 種)
526
+ ### Q. 腫瘍学・疾患研究(10 種)
522
527
 
523
- 精密腫瘍学・疾患-遺伝子関連研究・がんゲノミクス・希少疾患遺伝学・細胞株リソース・ICGC がんゲノムデータ・Open Targets 遺伝学・DepMap 依存性を担うスキル群。
528
+ 精密腫瘍学・疾患-遺伝子関連研究・がんゲノミクス・希少疾患遺伝学・細胞株リソース・ICGC がんゲノムデータ・Open Targets 遺伝学・DepMap 依存性・Monarch オントロジー・GDC ポータルを担うスキル群。
524
529
 
525
530
  | # | Skill | 説明 | 参照 Exp |
526
531
  |---|---|---|---|
@@ -532,6 +537,8 @@ SATORI Skill (方法論・判断) ToolUniverse SMCP (データ取得・
532
537
  | 140 | [scientific-icgc-cancer-data](scientific-icgc-cancer-data/SKILL.md) | ICGC DCC API 国際がんゲノムデータ・体細胞変異・がん種統計 | 汎用 |
533
538
  | 143 | [scientific-opentargets-genetics](scientific-opentargets-genetics/SKILL.md) | Open Targets Platform GraphQL 標的-疾患アソシエーション・薬剤エビデンス・L2G | 汎用 |
534
539
  | 145 | [scientific-depmap-dependencies](scientific-depmap-dependencies/SKILL.md) | DepMap Portal CRISPR/RNAi 遺伝子依存性・薬剤感受性 | 汎用 |
540
+ | 149 | [scientific-monarch-ontology](scientific-monarch-ontology/SKILL.md) | Monarch Initiative 疾患-遺伝子-表現型オントロジー・HPO・エンティティ検索 | 汎用 |
541
+ | 150 | [scientific-gdc-portal](scientific-gdc-portal/SKILL.md) | NCI Genomic Data Commons REST API・プロジェクト/ケース/SSM 検索 | 汎用 |
535
542
 
536
543
  ### R. 量子・先端計算(7 種)
537
544
 
@@ -555,9 +562,9 @@ DICOM・WSI 等の医用画像の解析・セグメンテーションを担う
555
562
  |---|---|---|---|
556
563
  | 56 | [scientific-medical-imaging](scientific-medical-imaging/SKILL.md) | DICOM/NIfTI 処理・MONAI U-Net/SwinUNETR・WSI パッチ抽出・Radiomics・3D 可視化 | 汎用 |
557
564
 
558
- ### T. シングルセル・空間・エピゲノミクス(11 種)
565
+ ### T. シングルセル・空間・エピゲノミクス(12 種)
559
566
 
560
- scRNA-seq・空間トランスクリプトミクス・エピゲノミクス・制御ゲノミクス・摂動解析・scVI 統合・scATAC-seq・GPU シングルセル・ENCODE/SCREEN・Human Cell Atlas・高度 Squidpy 空間解析の解析パイプラインを担うスキル群。
567
+ scRNA-seq・空間トランスクリプトミクス・エピゲノミクス・制御ゲノミクス・摂動解析・scVI 統合・scATAC-seq・GPU シングルセル・ENCODE/SCREEN・Human Cell Atlas・高度 Squidpy 空間解析・空間マルチオミクスの解析パイプラインを担うスキル群。
561
568
 
562
569
  | # | Skill | 説明 | 参照 Exp |
563
570
  |---|---|---|---|
@@ -572,6 +579,7 @@ scRNA-seq・空間トランスクリプトミクス・エピゲノミクス・
572
579
  | 125 | [scientific-encode-screen](scientific-encode-screen/SKILL.md) | ENCODE REST API 実験/ファイル検索・SCREEN cCRE・ChIP-Atlas エンリッチメント | 汎用 |
573
580
  | 126 | [scientific-human-cell-atlas](scientific-human-cell-atlas/SKILL.md) | HCA Data Portal プロジェクト/ファイル・CELLxGENE Census 大規模アトラス | 汎用 |
574
581
  | 131 | [scientific-squidpy-advanced](scientific-squidpy-advanced/SKILL.md) | Squidpy 空間自己相関・共起解析・近傍エンリッチメント・ニッチ同定 | 汎用 |
582
+ | 152 | [scientific-spatial-multiomics](scientific-spatial-multiomics/SKILL.md) | MERFISH/CODEX 空間マルチオミクス統合・共検出解析・空間コミュニティ検出 | 汎用 |
575
583
 
576
584
  ### U. 免疫・感染症(2 種)
577
585
 
@@ -597,15 +605,16 @@ scRNA-seq・空間トランスクリプトミクス・エピゲノミクス・
597
605
  | 128 | [scientific-environmental-geodata](scientific-environmental-geodata/SKILL.md) | SoilGrids/WorldClim 環境地理空間データ・種分布モデル環境変数 | 汎用 |
598
606
  | 129 | [scientific-paleobiology](scientific-paleobiology/SKILL.md) | PBDB 化石産出記録・分類群検索・地質年代多様性曲線 | 汎用 |
599
607
 
600
- ### W. システム生物学(3 種)
608
+ ### W. システム生物学(4 種)
601
609
 
602
- SBML 動的シミュレーション・代謝フラックス・遺伝子制御ネットワーク推定・代謝モデリングを担うスキル群。
610
+ SBML 動的シミュレーション・代謝フラックス解析・遺伝子制御ネットワーク推定・代謝モデリングを担うスキル群。
603
611
 
604
612
  | # | Skill | 説明 | 参照 Exp |
605
613
  |---|---|---|---|
606
614
  | 63 | [scientific-systems-biology](scientific-systems-biology/SKILL.md) | SBML/RoadRunner シミュレーション・FBA/pFBA (cobrapy)・GRN 推定 (GENIE3)・Sobol 感度解析 | 汎用 |
607
615
  | 95 | [scientific-metabolic-modeling](scientific-metabolic-modeling/SKILL.md) | BiGG Models/BioModels ゲノムスケール代謝モデル・反応・代謝物検索 | 汎用 |
608
616
  | 130 | [scientific-metabolic-atlas](scientific-metabolic-atlas/SKILL.md) | Metabolic Atlas/Human-GEM 代謝反応・代謝産物検索・ネットワーク解析 | 汎用 |
617
+ | 153 | [scientific-metabolic-flux](scientific-metabolic-flux/SKILL.md) | 13C/15N 安定同位体代謝フラックス解析・EMU モデリング・MID フィッティング | 汎用 |
609
618
 
610
619
  ### X. 疫学・公衆衛生(3 種)
611
620
 
@@ -754,14 +763,16 @@ Skills は `.github/skills/` に配置されているため、Copilot が自動
754
763
  │ ├── scientific-chembl-assay-mining/
755
764
  │ ├── scientific-md-simulation/
756
765
  │ ├── scientific-advanced-imaging/
757
- └── scientific-deep-chemistry/
766
+ ├── scientific-deep-chemistry/
767
+ │ └── scientific-stitch-chemical-network/
758
768
 
759
769
  ├── [H] 臨床・疫学・メタ科学
760
770
  │ ├── scientific-survival-clinical/
761
771
  │ ├── scientific-causal-inference/
762
772
  │ ├── scientific-meta-analysis/
763
773
  │ ├── scientific-clinical-trials-analytics/
764
- └── scientific-clinical-reporting/
774
+ ├── scientific-clinical-reporting/
775
+ │ └── scientific-biobank-cohort/
765
776
 
766
777
  ├── [I] Deep Research・文献検索
767
778
  │ ├── scientific-deep-research/
@@ -821,7 +832,9 @@ Skills は `.github/skills/` に配置されているため、Copilot が自動
821
832
  │ ├── scientific-cell-line-resources/
822
833
  │ ├── scientific-icgc-cancer-data/
823
834
  │ ├── scientific-opentargets-genetics/
824
- └── scientific-depmap-dependencies/
835
+ ├── scientific-depmap-dependencies/
836
+ │ ├── scientific-monarch-ontology/
837
+ │ └── scientific-gdc-portal/
825
838
 
826
839
  ├── [R] 量子・先端計算
827
840
  │ ├── scientific-quantum-computing/
@@ -846,7 +859,8 @@ Skills は `.github/skills/` に配置されているため、Copilot が自動
846
859
  │ ├── scientific-gpu-singlecell/
847
860
  │ ├── scientific-encode-screen/
848
861
  │ ├── scientific-human-cell-atlas/
849
- └── scientific-squidpy-advanced/
862
+ ├── scientific-squidpy-advanced/
863
+ │ └── scientific-spatial-multiomics/
850
864
 
851
865
  │── [U] 免疫・感染症
852
866
  │ ├── scientific-immunoinformatics/
@@ -865,7 +879,8 @@ Skills は `.github/skills/` に配置されているため、Copilot が自動
865
879
  │── [W] システム生物学
866
880
  │ ├── scientific-systems-biology/
867
881
  │ ├── scientific-metabolic-modeling/
868
- └── scientific-metabolic-atlas/
882
+ ├── scientific-metabolic-atlas/
883
+ │ └── scientific-metabolic-flux/
869
884
 
870
885
  │── [X] 疫学・公衆衛生
871
886
  │ ├── scientific-epidemiology-public-health/
package/package.json CHANGED
@@ -1,6 +1,6 @@
1
1
  {
2
2
  "name": "@nahisaho/satori",
3
- "version": "0.19.0",
3
+ "version": "0.20.0",
4
4
  "description": "SATORI — Agent Skills for Science. GitHub Copilot Agent Skills collection for scientific data analysis.",
5
5
  "main": "index.js",
6
6
  "bin": {
@@ -5,6 +5,10 @@ description: |
5
5
  包括的予測パイプライン。DeepChem/ADMET-AI/PyTDC を活用した分子特性予測、
6
6
  PK/PD モデリング、ドラッグライクネス最適化、リード最適化戦略を提供。
7
7
  「ADMET 予測して」「薬物動態を評価して」「lead optimization して」で発火。
8
+ tu_tools:
9
+ - key: pubchem
10
+ name: PubChem
11
+ description: 化合物・物質・生理活性アッセイデータベース
8
12
  ---
9
13
 
10
14
  # Scientific ADMET & Pharmacokinetics
@@ -0,0 +1,268 @@
1
+ ---
2
+ name: scientific-biobank-cohort
3
+ description: |
4
+ バイオバンク・大規模コホートデータ解析スキル。UK Biobank /
5
+ BBJ / All of Us 等の大規模コホートデータに対するフェノタイプ
6
+ 辞書検索・GWAS サマリー統計処理・PheWAS パイプライン。
7
+ ---
8
+
9
+ # Scientific Biobank Cohort
10
+
11
+ UK Biobank・バイオバンクジャパン (BBJ)・All of Us 等の大規模
12
+ コホートデータを活用したフェノタイプ辞書検索・GWAS サマリー
13
+ 統計処理・PheWAS 解析パイプラインを提供する。
14
+
15
+ ## When to Use
16
+
17
+ - バイオバンクのフェノタイプ辞書を検索するとき
18
+ - GWAS サマリー統計データを処理・可視化するとき
19
+ - PheWAS (Phenome-Wide Association Study) を実施するとき
20
+ - コホートの基本統計・人口統計特性を集計するとき
21
+ - バリアント-フェノタイプ関連を網羅的に検索するとき
22
+
23
+ ---
24
+
25
+ ## Quick Start
26
+
27
+ ## 1. フェノタイプ辞書検索
28
+
29
+ ```python
30
+ import pandas as pd
31
+ import numpy as np
32
+
33
+
34
+ def phenotype_dictionary(pheno_file, category=None,
35
+ keyword=None):
36
+ """
37
+ バイオバンク — フェノタイプ辞書検索。
38
+
39
+ Parameters:
40
+ pheno_file: str — フェノタイプ辞書 CSV パス
41
+ (UK Biobank Data-Field listing 等)
42
+ category: str — カテゴリフィルタ
43
+ keyword: str — キーワードフィルタ
44
+ """
45
+ df = pd.read_csv(pheno_file)
46
+
47
+ if category:
48
+ df = df[df["Category"].str.contains(
49
+ category, case=False, na=False)]
50
+ if keyword:
51
+ mask = (
52
+ df["Field"].str.contains(
53
+ keyword, case=False, na=False)
54
+ | df["Description"].str.contains(
55
+ keyword, case=False, na=False)
56
+ )
57
+ df = df[mask]
58
+
59
+ print(f"Phenotype dict: {len(df)} fields matched")
60
+ return df
61
+
62
+
63
+ def cohort_demographics(pheno_df, age_col="age",
64
+ sex_col="sex"):
65
+ """
66
+ バイオバンク — コホート人口統計サマリー。
67
+
68
+ Parameters:
69
+ pheno_df: DataFrame — 参加者フェノタイプデータ
70
+ age_col: str — 年齢列名
71
+ sex_col: str — 性別列名
72
+ """
73
+ summary = {
74
+ "n_participants": len(pheno_df),
75
+ "age_mean": pheno_df[age_col].mean(),
76
+ "age_std": pheno_df[age_col].std(),
77
+ "sex_distribution": (
78
+ pheno_df[sex_col]
79
+ .value_counts(normalize=True)
80
+ .to_dict()
81
+ ),
82
+ }
83
+ print(f"Cohort: n={summary['n_participants']}, "
84
+ f"age={summary['age_mean']:.1f}±"
85
+ f"{summary['age_std']:.1f}")
86
+ return summary
87
+ ```
88
+
89
+ ## 2. GWAS サマリー統計処理
90
+
91
+ ```python
92
+ def load_gwas_summary(sumstat_file, p_threshold=5e-8,
93
+ sep="\t"):
94
+ """
95
+ GWAS サマリー統計ファイル読み込み・フィルタリング。
96
+
97
+ Parameters:
98
+ sumstat_file: str — サマリー統計ファイルパス
99
+ (TSV: CHR, POS, SNP, A1, A2, BETA, SE, P)
100
+ p_threshold: float — P 値閾値
101
+ sep: str — 区切り文字
102
+ """
103
+ df = pd.read_csv(sumstat_file, sep=sep)
104
+
105
+ # 標準カラム名正規化
106
+ col_map = {
107
+ "chromosome": "CHR", "chr": "CHR",
108
+ "position": "POS", "pos": "POS", "bp": "POS",
109
+ "rsid": "SNP", "snp": "SNP", "variant_id": "SNP",
110
+ "effect_allele": "A1", "a1": "A1",
111
+ "other_allele": "A2", "a2": "A2",
112
+ "beta": "BETA", "effect_size": "BETA",
113
+ "se": "SE", "standard_error": "SE",
114
+ "pval": "P", "p_value": "P", "pvalue": "P",
115
+ }
116
+ df.columns = [col_map.get(c.lower(), c)
117
+ for c in df.columns]
118
+
119
+ # フィルタ
120
+ sig = df[df["P"] < p_threshold].copy()
121
+ sig.sort_values("P", inplace=True)
122
+
123
+ print(f"GWAS summary: {len(df)} total, "
124
+ f"{len(sig)} significant (P<{p_threshold})")
125
+ return sig
126
+
127
+
128
+ def manhattan_data(gwas_df, chr_col="CHR",
129
+ pos_col="POS", p_col="P"):
130
+ """
131
+ Manhattan プロット用データ変換。
132
+
133
+ Parameters:
134
+ gwas_df: DataFrame — GWAS サマリー統計
135
+ chr_col: str — 染色体列
136
+ pos_col: str — 位置列
137
+ p_col: str — P 値列
138
+ """
139
+ df = gwas_df.copy()
140
+ df["-log10P"] = -np.log10(df[p_col])
141
+
142
+ # 累積位置計算
143
+ chr_lengths = (
144
+ df.groupby(chr_col)[pos_col].max()
145
+ .sort_index()
146
+ )
147
+ chr_offsets = chr_lengths.cumsum().shift(1).fillna(0)
148
+ df["cumpos"] = df.apply(
149
+ lambda r: r[pos_col] + chr_offsets.get(
150
+ r[chr_col], 0),
151
+ axis=1)
152
+
153
+ print(f"Manhattan data: {len(df)} variants, "
154
+ f"max -log10P={df['-log10P'].max():.1f}")
155
+ return df
156
+ ```
157
+
158
+ ## 3. PheWAS (Phenome-Wide Association Study)
159
+
160
+ ```python
161
+ def phewas_analysis(genotype_series, pheno_df,
162
+ pheno_cols=None,
163
+ p_threshold=0.05):
164
+ """
165
+ PheWAS — 1バリアントに対する多表現型アソシエーション。
166
+
167
+ Parameters:
168
+ genotype_series: Series — バリアント遺伝子型
169
+ (0/1/2 コーディング)
170
+ pheno_df: DataFrame — フェノタイプデータ
171
+ pheno_cols: list — テスト対象表現型列
172
+ p_threshold: float — Bonferroni 前閾値
173
+ """
174
+ from scipy import stats
175
+
176
+ if pheno_cols is None:
177
+ pheno_cols = [c for c in pheno_df.columns
178
+ if pheno_df[c].dtype in
179
+ [np.float64, np.int64]]
180
+
181
+ results = []
182
+ for col in pheno_cols:
183
+ mask = pheno_df[col].notna()
184
+ if mask.sum() < 50:
185
+ continue
186
+ geno = genotype_series[mask]
187
+ pheno = pheno_df.loc[mask, col]
188
+
189
+ # 数値 → 線形回帰 (簡易)
190
+ slope, intercept, r, p, se = stats.linregress(
191
+ geno, pheno)
192
+ results.append({
193
+ "phenotype": col,
194
+ "beta": slope,
195
+ "se": se,
196
+ "p_value": p,
197
+ "n": mask.sum(),
198
+ })
199
+
200
+ df = pd.DataFrame(results)
201
+ n_tests = len(df)
202
+ bonf = p_threshold / n_tests if n_tests > 0 else 0.05
203
+ df["significant"] = df["p_value"] < bonf
204
+ df.sort_values("p_value", inplace=True)
205
+
206
+ n_sig = df["significant"].sum()
207
+ print(f"PheWAS: {n_tests} phenotypes tested, "
208
+ f"{n_sig} significant (Bonferroni)")
209
+ return df
210
+ ```
211
+
212
+ ## 4. バイオバンク統合パイプライン
213
+
214
+ ```python
215
+ def biobank_pipeline(sumstat_file, pheno_file=None,
216
+ output_dir="results"):
217
+ """
218
+ バイオバンク統合パイプライン。
219
+
220
+ Parameters:
221
+ sumstat_file: str — GWAS サマリー統計ファイル
222
+ pheno_file: str — フェノタイプ辞書ファイル
223
+ output_dir: str — 出力ディレクトリ
224
+ """
225
+ from pathlib import Path
226
+ output_dir = Path(output_dir)
227
+ output_dir.mkdir(parents=True, exist_ok=True)
228
+
229
+ # 1) GWAS サマリー統計読み込み
230
+ gwas = load_gwas_summary(sumstat_file)
231
+ gwas.to_csv(output_dir / "gwas_significant.csv",
232
+ index=False)
233
+
234
+ # 2) Manhattan プロットデータ
235
+ manhattan = manhattan_data(gwas)
236
+ manhattan.to_csv(
237
+ output_dir / "manhattan_data.csv", index=False)
238
+
239
+ # 3) フェノタイプ辞書検索 (利用可能な場合)
240
+ if pheno_file:
241
+ pheno_dict = phenotype_dictionary(pheno_file)
242
+ pheno_dict.to_csv(
243
+ output_dir / "phenotype_dict.csv",
244
+ index=False)
245
+
246
+ print(f"Biobank pipeline → {output_dir}")
247
+ return {"gwas": gwas, "manhattan": manhattan}
248
+ ```
249
+
250
+ ---
251
+
252
+ ## パイプライン統合
253
+
254
+ ```
255
+ epidemiology-public-health → biobank-cohort → population-genetics
256
+ (疫学デザイン) (GWAS/PheWAS) (集団遺伝解析)
257
+ │ │ ↓
258
+ mendelian-randomization ───────┘ rare-disease-genetics
259
+ (因果推論) (Mendelian 解析)
260
+ ```
261
+
262
+ ## パイプライン出力
263
+
264
+ | ファイル | 説明 | 次スキル |
265
+ |---------|------|---------|
266
+ | `results/gwas_significant.csv` | Genome-wide significant SNP | → population-genetics |
267
+ | `results/manhattan_data.csv` | Manhattan プロットデータ | → GWAS 可視化 |
268
+ | `results/phenotype_dict.csv` | フェノタイプ辞書 | → PheWAS |
@@ -7,6 +7,13 @@ description: |
7
7
  変異シグネチャー解析、遺伝子依存性 (essentiality) 評価、
8
8
  コピー数変化・がん種横断解析パイプライン。
9
9
  13 の ToolUniverse SMCP ツールと連携。
10
+ tu_tools:
11
+ - key: cosmic
12
+ name: COSMIC
13
+ description: がん体細胞変異カタログ
14
+ - key: cbioportal
15
+ name: cBioPortal
16
+ description: がんゲノミクスポータル
10
17
  ---
11
18
 
12
19
  # Scientific Cancer Genomics
@@ -4,6 +4,10 @@ description: |
4
4
  細胞株リソーススキル。Cellosaurus 細胞株データベース検索、
5
5
  STR プロファイルマッチング、コンタミネーション検出、
6
6
  細胞株メタデータ (由来組織・疾患・種) 取得パイプライン。
7
+ tu_tools:
8
+ - key: cellosaurus
9
+ name: Cellosaurus
10
+ description: 細胞株データベース (ExPASy)
7
11
  ---
8
12
 
9
13
  # Scientific Cell Line Resources
@@ -5,6 +5,10 @@ description: |
5
5
  アッセイ検索・バイオアクティビティデータ取得・IC50/Ki/EC50 SAR 解析・
6
6
  ターゲット-化合物マッピング・選択性プロファイリング・ATC 分類検索・
7
7
  構造アラート検出パイプライン。
8
+ tu_tools:
9
+ - key: chembl
10
+ name: ChEMBL
11
+ description: 創薬生理活性データベース (EBI)
8
12
  ---
9
13
 
10
14
  # Scientific ChEMBL Assay Mining
@@ -5,6 +5,10 @@ description: |
5
5
  を活用したドラッグターゲットインテリジェンス。ドラッガビリティ評価、安全性プロファイリング、
6
6
  ターゲット-疾患アソシエーション、競合パイプライン分析を統合的に実行。
7
7
  「ターゲット評価して」「druggability 分析して」「標的タンパク質を調べて」で発火。
8
+ tu_tools:
9
+ - key: dgidb
10
+ name: DGIdb
11
+ description: 薬物-遺伝子相互作用データベース
8
12
  ---
9
13
 
10
14
  # Scientific Drug Target Profiling