bio 1.4.3.0001 → 1.5.0
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- checksums.yaml +7 -0
- data/.travis.yml +39 -33
- data/BSDL +22 -0
- data/COPYING +2 -2
- data/COPYING.ja +36 -36
- data/ChangeLog +2404 -1025
- data/KNOWN_ISSUES.rdoc +15 -55
- data/README.rdoc +17 -23
- data/RELEASE_NOTES.rdoc +246 -183
- data/Rakefile +3 -2
- data/bin/br_biofetch.rb +29 -5
- data/bioruby.gemspec +15 -32
- data/bioruby.gemspec.erb +10 -20
- data/doc/ChangeLog-1.4.3 +1478 -0
- data/doc/RELEASE_NOTES-1.4.3.rdoc +204 -0
- data/doc/Tutorial.rd +0 -6
- data/doc/Tutorial.rd.html +7 -12
- data/doc/Tutorial.rd.ja +960 -1064
- data/doc/Tutorial.rd.ja.html +977 -1067
- data/gemfiles/Gemfile.travis-jruby1.8 +2 -1
- data/gemfiles/Gemfile.travis-jruby1.9 +2 -4
- data/gemfiles/Gemfile.travis-rbx +13 -0
- data/gemfiles/Gemfile.travis-ruby1.8 +2 -1
- data/gemfiles/Gemfile.travis-ruby1.9 +2 -4
- data/gemfiles/Gemfile.travis-ruby2.2 +9 -0
- data/lib/bio.rb +10 -43
- data/lib/bio/alignment.rb +8 -14
- data/lib/bio/appl/blast.rb +1 -2
- data/lib/bio/appl/blast/format0.rb +18 -7
- data/lib/bio/appl/blast/remote.rb +0 -9
- data/lib/bio/appl/blast/report.rb +1 -1
- data/lib/bio/appl/clustalw/report.rb +3 -1
- data/lib/bio/appl/genscan/report.rb +1 -2
- data/lib/bio/appl/iprscan/report.rb +1 -2
- data/lib/bio/appl/meme/mast.rb +4 -4
- data/lib/bio/appl/meme/mast/report.rb +1 -1
- data/lib/bio/appl/paml/codeml.rb +2 -2
- data/lib/bio/appl/paml/codeml/report.rb +1 -0
- data/lib/bio/appl/paml/common.rb +1 -1
- data/lib/bio/appl/sosui/report.rb +1 -2
- data/lib/bio/command.rb +62 -2
- data/lib/bio/data/aa.rb +13 -31
- data/lib/bio/data/codontable.rb +1 -2
- data/lib/bio/db/biosql/biosql_to_biosequence.rb +1 -0
- data/lib/bio/db/biosql/sequence.rb +1 -1
- data/lib/bio/db/embl/common.rb +1 -1
- data/lib/bio/db/embl/embl.rb +5 -4
- data/lib/bio/db/embl/format_embl.rb +3 -3
- data/lib/bio/db/embl/sptr.rb +9 -1444
- data/lib/bio/db/embl/swissprot.rb +12 -29
- data/lib/bio/db/embl/trembl.rb +13 -30
- data/lib/bio/db/embl/uniprot.rb +12 -29
- data/lib/bio/db/embl/uniprotkb.rb +1455 -0
- data/lib/bio/db/fasta.rb +17 -0
- data/lib/bio/db/fasta/defline.rb +1 -3
- data/lib/bio/db/fastq.rb +1 -1
- data/lib/bio/db/genbank/ddbj.rb +9 -5
- data/lib/bio/db/genbank/refseq.rb +11 -3
- data/lib/bio/db/gff.rb +3 -4
- data/lib/bio/db/go.rb +5 -6
- data/lib/bio/db/kegg/module.rb +4 -5
- data/lib/bio/db/kegg/pathway.rb +4 -5
- data/lib/bio/db/kegg/reaction.rb +1 -1
- data/lib/bio/db/nexus.rb +3 -2
- data/lib/bio/db/pdb/pdb.rb +2 -2
- data/lib/bio/db/phyloxml/phyloxml_elements.rb +82 -59
- data/lib/bio/db/phyloxml/phyloxml_parser.rb +2 -2
- data/lib/bio/db/phyloxml/phyloxml_writer.rb +1 -2
- data/lib/bio/db/sanger_chromatogram/chromatogram.rb +1 -2
- data/lib/bio/db/transfac.rb +1 -1
- data/lib/bio/io/das.rb +40 -41
- data/lib/bio/io/fastacmd.rb +0 -16
- data/lib/bio/io/fetch.rb +111 -55
- data/lib/bio/io/flatfile/buffer.rb +4 -5
- data/lib/bio/io/hinv.rb +2 -3
- data/lib/bio/io/ncbirest.rb +43 -6
- data/lib/bio/io/pubmed.rb +76 -81
- data/lib/bio/io/togows.rb +33 -10
- data/lib/bio/map.rb +1 -1
- data/lib/bio/pathway.rb +1 -1
- data/lib/bio/sequence/compat.rb +1 -1
- data/lib/bio/sequence/na.rb +63 -12
- data/lib/bio/shell.rb +0 -2
- data/lib/bio/shell/core.rb +5 -6
- data/lib/bio/shell/interface.rb +3 -4
- data/lib/bio/shell/irb.rb +1 -2
- data/lib/bio/shell/plugin/entry.rb +2 -3
- data/lib/bio/shell/plugin/seq.rb +7 -6
- data/lib/bio/shell/setup.rb +1 -2
- data/lib/bio/tree.rb +2 -2
- data/lib/bio/util/contingency_table.rb +0 -2
- data/lib/bio/util/restriction_enzyme/range/sequence_range.rb +2 -2
- data/lib/bio/util/sirna.rb +76 -16
- data/lib/bio/version.rb +8 -9
- data/sample/benchmark_clustalw_report.rb +47 -0
- data/sample/biofetch.rb +248 -151
- data/setup.rb +6 -7
- data/test/data/clustalw/example1-seqnos.aln +58 -0
- data/test/network/bio/appl/blast/test_remote.rb +1 -15
- data/test/network/bio/appl/test_blast.rb +0 -12
- data/test/network/bio/io/test_pubmed.rb +49 -0
- data/test/network/bio/io/test_togows.rb +0 -1
- data/test/network/bio/test_command.rb +65 -2
- data/test/unit/bio/appl/bl2seq/test_report.rb +0 -1
- data/test/unit/bio/appl/blast/test_report.rb +110 -48
- data/test/unit/bio/appl/clustalw/test_report.rb +67 -51
- data/test/unit/bio/appl/sim4/test_report.rb +46 -17
- data/test/unit/bio/appl/test_blast.rb +2 -2
- data/test/unit/bio/db/embl/test_embl.rb +0 -1
- data/test/unit/bio/db/embl/test_embl_rel89.rb +0 -1
- data/test/unit/bio/db/embl/{test_sptr.rb → test_uniprotkb.rb} +111 -115
- data/test/unit/bio/db/embl/{test_uniprot_new_part.rb → test_uniprotkb_new_part.rb} +11 -11
- data/test/unit/bio/db/genbank/test_genbank.rb +10 -4
- data/test/unit/bio/db/pdb/test_pdb.rb +14 -8
- data/test/unit/bio/db/test_fasta.rb +41 -1
- data/test/unit/bio/db/test_fastq.rb +14 -4
- data/test/unit/bio/db/test_gff.rb +2 -2
- data/test/unit/bio/db/test_phyloxml.rb +30 -30
- data/test/unit/bio/db/test_phyloxml_writer.rb +2 -2
- data/test/unit/bio/io/flatfile/test_autodetection.rb +1 -2
- data/test/unit/bio/io/flatfile/test_buffer.rb +7 -1
- data/test/unit/bio/io/flatfile/test_splitter.rb +1 -1
- data/test/unit/bio/io/test_togows.rb +3 -2
- data/test/unit/bio/sequence/test_dblink.rb +1 -1
- data/test/unit/bio/sequence/test_na.rb +3 -1
- data/test/unit/bio/test_alignment.rb +1 -2
- data/test/unit/bio/test_command.rb +5 -4
- data/test/unit/bio/test_db.rb +4 -2
- data/test/unit/bio/test_pathway.rb +25 -10
- data/test/unit/bio/util/test_sirna.rb +22 -22
- metadata +656 -1430
- data/doc/KEGG_API.rd +0 -1843
- data/doc/KEGG_API.rd.ja +0 -1834
- data/extconf.rb +0 -2
- data/lib/bio/appl/blast/ddbj.rb +0 -131
- data/lib/bio/db/kegg/taxonomy.rb +0 -280
- data/lib/bio/io/dbget.rb +0 -194
- data/lib/bio/io/ddbjrest.rb +0 -344
- data/lib/bio/io/ddbjxml.rb +0 -458
- data/lib/bio/io/ebisoap.rb +0 -158
- data/lib/bio/io/ensembl.rb +0 -229
- data/lib/bio/io/higet.rb +0 -73
- data/lib/bio/io/keggapi.rb +0 -363
- data/lib/bio/io/ncbisoap.rb +0 -156
- data/lib/bio/io/soapwsdl.rb +0 -119
- data/lib/bio/shell/plugin/keggapi.rb +0 -181
- data/lib/bio/shell/plugin/soap.rb +0 -87
- data/sample/dbget +0 -37
- data/sample/demo_ddbjxml.rb +0 -212
- data/sample/demo_kegg_taxonomy.rb +0 -92
- data/sample/demo_keggapi.rb +0 -502
- data/sample/psortplot_html.rb +0 -214
- data/test/network/bio/io/test_ddbjrest.rb +0 -47
- data/test/network/bio/io/test_ensembl.rb +0 -230
- data/test/network/bio/io/test_soapwsdl.rb +0 -53
- data/test/unit/bio/io/test_ddbjxml.rb +0 -81
- data/test/unit/bio/io/test_ensembl.rb +0 -111
- data/test/unit/bio/io/test_soapwsdl.rb +0 -33
data/doc/Tutorial.rd.ja.html
CHANGED
@@ -4,161 +4,161 @@
|
|
4
4
|
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
|
5
5
|
<html xmlns="http://www.w3.org/1999/xhtml">
|
6
6
|
<head>
|
7
|
-
<title>
|
7
|
+
<title>Tutorial.rd.ja</title>
|
8
8
|
<link href="bioruby.css" type="text/css" rel="stylesheet" />
|
9
9
|
</head>
|
10
10
|
<body>
|
11
11
|
<pre>Copyright (C) 2001-2003, 2005, 2006 Toshiaki Katayama <k@bioruby.org>
|
12
12
|
Copyright (C) 2005, 2006 Naohisa Goto <ng@bioruby.org></pre>
|
13
|
-
<h1><a name="label-0" id="label-0">BioRuby
|
14
|
-
<p>BioRuby
|
15
|
-
|
16
|
-
<p>Ruby
|
17
|
-
|
18
|
-
|
19
|
-
<a href="http://www.ruby-lang.org/"><URL:http://www.ruby-lang.org/></a>
|
20
|
-
<h2><a name="label-1" id="label-1"
|
21
|
-
<p>BioRuby
|
22
|
-
<h3><a name="label-2" id="label-2">Ruby
|
23
|
-
<p>Ruby
|
24
|
-
Windows
|
25
|
-
|
13
|
+
<h1><a name="label-0" id="label-0">BioRuby の使い方</a></h1><!-- RDLabel: "BioRuby の使い方" -->
|
14
|
+
<p>BioRuby は国産の高機能オブジェクト指向スクリプト言語 Ruby のための
|
15
|
+
オープンソースなバイオインフォマティクス用ライブラリです。</p>
|
16
|
+
<p>Ruby 言語は Perl 言語ゆずりの強力なテキスト処理と、
|
17
|
+
シンプルで分かりやすい文法、クリアなオブジェクト指向機能により、
|
18
|
+
広く使われるようになりました。Ruby について詳しくは、ウェブサイト
|
19
|
+
<a href="http://www.ruby-lang.org/"><URL:http://www.ruby-lang.org/></a> や市販の書籍等を参照してください。</p>
|
20
|
+
<h2><a name="label-1" id="label-1">はじめに</a></h2><!-- RDLabel: "はじめに" -->
|
21
|
+
<p>BioRuby を使用するには Ruby と BioRuby をインストールする必要があります。</p>
|
22
|
+
<h3><a name="label-2" id="label-2">Ruby のインストール</a></h3><!-- RDLabel: "Ruby のインストール" -->
|
23
|
+
<p>Ruby は Mac OS X や最近の UNIX には通常インストールされています。
|
24
|
+
Windows の場合も1クリックインストーラや ActiveScriptRuby などが
|
25
|
+
用意されています。まだインストールされていない場合は</p>
|
26
26
|
<ul>
|
27
27
|
<li><a href="http://jp.rubyist.net/magazine/?0002-FirstProgramming"><URL:http://jp.rubyist.net/magazine/?0002-FirstProgramming></a></li>
|
28
28
|
<li><a href="http://jp.rubyist.net/magazine/?FirstStepRuby"><URL:http://jp.rubyist.net/magazine/?FirstStepRuby></a></li>
|
29
29
|
</ul>
|
30
|
-
<p
|
31
|
-
<p
|
32
|
-
|
30
|
+
<p>などを参考にしてインストールしましょう。</p>
|
31
|
+
<p>あなたのコンピュータにどのバージョンの Ruby がインストールされているかを
|
32
|
+
チェックするには</p>
|
33
33
|
<pre>% ruby -v</pre>
|
34
|
-
<p
|
34
|
+
<p>とコマンドを入力してください。すると、たとえば</p>
|
35
35
|
<pre>ruby 1.8.2 (2004-12-25) [powerpc-darwin7.7.0]</pre>
|
36
|
-
<p
|
37
|
-
<p>Ruby
|
38
|
-
|
36
|
+
<p>のような感じでバージョンが表示されます。バージョン 1.8.5 以降をお勧めします。</p>
|
37
|
+
<p>Ruby 標準装備のクラスやメソッドについては、Ruby のリファレンスマニュアルを
|
38
|
+
参照してください。</p>
|
39
39
|
<ul>
|
40
40
|
<li><a href="http://www.ruby-lang.org/ja/man/"><URL:http://www.ruby-lang.org/ja/man/></a></li>
|
41
41
|
<li><a href="http://doc.okkez.net/"><URL:http://doc.okkez.net/></a></li>
|
42
42
|
</ul>
|
43
|
-
<p
|
44
|
-
|
43
|
+
<p>コマンドラインでヘルプを参照するには、Ruby 標準添付の ri コマンドや、
|
44
|
+
日本語版の refe コマンドが便利です。</p>
|
45
45
|
<ul>
|
46
46
|
<li><a href="http://i.loveruby.net/ja/prog/refe.html"><URL:http://i.loveruby.net/ja/prog/refe.html></a></li>
|
47
47
|
</ul>
|
48
|
-
<h3><a name="label-3" id="label-3">RubyGems
|
49
|
-
<p>RubyGems
|
48
|
+
<h3><a name="label-3" id="label-3">RubyGems のインストール</a></h3><!-- RDLabel: "RubyGems のインストール" -->
|
49
|
+
<p>RubyGems のページから最新版をダウンロードします。</p>
|
50
50
|
<ul>
|
51
51
|
<li><a href="http://rubyforge.org/projects/rubygems/"><URL:http://rubyforge.org/projects/rubygems/></a></li>
|
52
52
|
</ul>
|
53
|
-
<p
|
53
|
+
<p>展開してインストールします。</p>
|
54
54
|
<pre>% tar zxvf rubygems-x.x.x.tar.gz
|
55
55
|
% cd rubygems-x.x.x
|
56
56
|
% ruby setup.rb</pre>
|
57
|
-
<h3><a name="label-4" id="label-4">BioRuby
|
58
|
-
<p>BioRuby
|
59
|
-
|
60
|
-
|
61
|
-
BioRuby
|
57
|
+
<h3><a name="label-4" id="label-4">BioRuby のインストール</a></h3><!-- RDLabel: "BioRuby のインストール" -->
|
58
|
+
<p>BioRuby のインストール方法は <a href="http://bioruby.org/archive/"><URL:http://bioruby.org/archive/></a> から
|
59
|
+
最新版を取得して以下のように行います(※1)。同梱されている README ファイルにも
|
60
|
+
目を通して頂きたいのですが、慣れないと1日がかりになる BioPerl と比べて
|
61
|
+
BioRuby のインストールはすぐに終わるはずです。</p>
|
62
62
|
<pre>% wget http://bioruby.org/archive/bioruby-x.x.x.tar.gz
|
63
63
|
% tar zxvf bioruby-x.x.x.tar.gz
|
64
64
|
% cd bioruby-x.x.x
|
65
65
|
% su
|
66
66
|
# ruby setup.rb</pre>
|
67
|
-
<p>RubyGems
|
67
|
+
<p>RubyGems が使える環境であれば</p>
|
68
68
|
<pre>% gem install bio</pre>
|
69
|
-
<p
|
69
|
+
<p>だけでインストールできます。このあと README ファイルに書かれているように</p>
|
70
70
|
<pre>bioruby-x.x.x/etc/bioinformatics/seqdatabase.ini</pre>
|
71
|
-
<p
|
72
|
-
|
71
|
+
<p>というファイルをホームディレクトリの ~/.bioinformatics にコピーして
|
72
|
+
おくとよいでしょう。RubyGems の場合は</p>
|
73
73
|
<pre>/usr/local/lib/ruby/gems/1.8/gems/bio-x.x.x/</pre>
|
74
|
-
<p
|
74
|
+
<p>などにあるはずです。</p>
|
75
75
|
<pre>% mkdir ~/.bioinformatics
|
76
76
|
% cp bioruby-x.x.x/etc/bioinformatics/seqdatabase.ini ~/.bioinformatics</pre>
|
77
|
-
<p
|
78
|
-
misc/ruby-mode.el
|
77
|
+
<p>また、Emacs エディタを使う人は Ruby のソースに同梱されている
|
78
|
+
misc/ruby-mode.el をインストールしておくとよいでしょう。</p>
|
79
79
|
<pre>% mkdir -p ~/lib/lisp/ruby
|
80
80
|
% cp ruby-x.x.x/misc/ruby-mode.el ~/lib/lisp/ruby</pre>
|
81
|
-
<p
|
82
|
-
<pre>; subdirs
|
81
|
+
<p>などとしておいて、~/.emacs に以下の設定を書き足します。</p>
|
82
|
+
<pre>; subdirs の設定
|
83
83
|
(let ((default-directory "~/lib/lisp"))
|
84
84
|
(normal-top-level-add-subdirs-to-load-path)
|
85
85
|
|
86
|
-
; ruby-mode
|
86
|
+
; ruby-mode の設定
|
87
87
|
(autoload 'ruby-mode "ruby-mode" "Mode for editing ruby source files")
|
88
88
|
(add-to-list 'auto-mode-alist '("\\.rb$" . rd-mode))
|
89
89
|
(add-to-list 'interpeter-mode-alist '("ruby" . ruby-mode))</pre>
|
90
|
-
<h2><a name="label-5" id="label-5">BioRuby
|
91
|
-
<p>BioRuby
|
92
|
-
bioruby
|
93
|
-
|
94
|
-
|
90
|
+
<h2><a name="label-5" id="label-5">BioRuby シェル</a></h2><!-- RDLabel: "BioRuby シェル" -->
|
91
|
+
<p>BioRuby バージョン 0.7 以降では、簡単な操作は BioRuby と共にインストールされる
|
92
|
+
bioruby コマンドで行うことができます。bioruby コマンドは Ruby に内蔵されている
|
93
|
+
インタラクティブシェル irb を利用しており、Ruby と BioRuby にできることは全て
|
94
|
+
自由に実行することができます。</p>
|
95
95
|
<pre>% bioruby project1</pre>
|
96
|
-
<p
|
97
|
-
|
98
|
-
|
99
|
-
<pre>data/
|
100
|
-
plugin/
|
101
|
-
session/
|
102
|
-
session/config
|
103
|
-
session/history
|
104
|
-
session/object
|
105
|
-
<p
|
106
|
-
|
107
|
-
|
108
|
-
<p
|
96
|
+
<p>引数で指定した名前のディレクトリが作成され、その中で解析を行います。
|
97
|
+
上記の例の場合 project1 というディレクトリが作成され、さらに以下の
|
98
|
+
サブディレクトリやファイルが作られます。</p>
|
99
|
+
<pre>data/ ユーザの解析ファイルを置く場所
|
100
|
+
plugin/ 必要に応じて追加のプラグインを置く場所
|
101
|
+
session/ 設定やオブジェクト、ヒストリなどが保存される場所
|
102
|
+
session/config ユーザの設定を保存したファイル
|
103
|
+
session/history ユーザの入力したコマンドのヒストリを保存したファイル
|
104
|
+
session/object 永続化されたオブジェクトの格納ファイル</pre>
|
105
|
+
<p>このうち、data ディレクトリはユーザが自由に書き換えて構いません。
|
106
|
+
また、session/history ファイルを見ると、いつどのような操作を行ったかを
|
107
|
+
確認することができます。</p>
|
108
|
+
<p>2回目以降は、初回と同様に</p>
|
109
109
|
<pre>% bioruby project1</pre>
|
110
|
-
<p
|
110
|
+
<p>として起動しても構いませんし、作成されたディレクトリに移動して</p>
|
111
111
|
<pre>% cd project1
|
112
112
|
% bioruby</pre>
|
113
|
-
<p
|
114
|
-
<p
|
115
|
-
web
|
116
|
-
|
117
|
-
<p>BioRuby
|
118
|
-
|
119
|
-
|
120
|
-
<h3><a name="label-6" id="label-6"
|
113
|
+
<p>のように引数なしで起動することもできます。</p>
|
114
|
+
<p>この他、script コマンドで作成されるスクリプトファイルや、
|
115
|
+
web コマンドで作成される Rails のための設定ファイルなどがありますが、
|
116
|
+
それらについては必要に応じて後述します。</p>
|
117
|
+
<p>BioRuby シェルではデフォルトでいくつかの便利なライブラリを読み込んでいます。
|
118
|
+
例えば readline ライブラリが使える環境では Tab キーでメソッド名や変数名が
|
119
|
+
補完されるはずです。open-uri, pp, yaml なども最初から読み込まれています。</p>
|
120
|
+
<h3><a name="label-6" id="label-6">塩基, アミノ酸の配列を作る</a></h3><!-- RDLabel: "塩基, アミノ酸の配列を作る" -->
|
121
121
|
<dl>
|
122
122
|
<dt><a name="label-7" id="label-7"><code>getseq(<var>str</var>)</code></a></dt><!-- RDLabel: "getseq" -->
|
123
123
|
</dl>
|
124
|
-
<p>getseq
|
125
|
-
|
126
|
-
|
124
|
+
<p>getseq コマンド(※2)を使って文字列から塩基配列やアミノ酸配列を作ることが
|
125
|
+
できます。塩基とアミノ酸は ATGC の含量が 90% 以上かどうかで自動判定されます。
|
126
|
+
ここでは、できた塩基配列を dna という変数に代入します。</p>
|
127
127
|
<pre>bioruby> dna = getseq("atgcatgcaaaa")</pre>
|
128
|
-
<p
|
128
|
+
<p>変数の中身を確認するには Ruby の puts メソッドを使います。</p>
|
129
129
|
<pre>bioruby> puts dna
|
130
130
|
atgcatgcaaaa</pre>
|
131
|
-
<p
|
132
|
-
GenBank, EMBL, UniProt, FASTA
|
133
|
-
|
134
|
-
|
135
|
-
|
131
|
+
<p>ファイル名を引数に与えると手元にあるファイルから配列を得ることもできます。
|
132
|
+
GenBank, EMBL, UniProt, FASTA など主要な配列フォーマットは自動判別されます
|
133
|
+
(拡張子などのファイル名ではなくエントリの中身で判定します)。
|
134
|
+
以下は UniProt フォーマットのエントリをファイルから読み込んでいます。
|
135
|
+
この方法では、複数のエントリがある場合最初のエントリだけが読み込まれます。</p>
|
136
136
|
<pre>bioruby> cdc2 = getseq("p04551.sp")
|
137
137
|
bioruby> puts cdc2
|
138
|
-
MENYQKVEKIGEGTYGVVYKARHKLSGRIVAMKKIRLEDESEGVPSTAIREISLLKEVNDENNRSN...(
|
139
|
-
<p
|
140
|
-
|
138
|
+
MENYQKVEKIGEGTYGVVYKARHKLSGRIVAMKKIRLEDESEGVPSTAIREISLLKEVNDENNRSN...(略)</pre>
|
139
|
+
<p>データベース名とエントリ名が分かっていれば、インターネットを通じて
|
140
|
+
配列を自動的に取得することができます。</p>
|
141
141
|
<pre>bioruby> psaB = getseq("genbank:AB044425")
|
142
142
|
bioruby> puts psaB
|
143
|
-
actgaccctgttcatattcgtcctattgctcacgcgatttgggatccgcactttggccaaccagca...(
|
144
|
-
<p
|
145
|
-
|
146
|
-
|
147
|
-
|
148
|
-
EMBOSS
|
149
|
-
~/.embossrc
|
150
|
-
<p
|
151
|
-
|
152
|
-
<p
|
153
|
-
moltype
|
143
|
+
actgaccctgttcatattcgtcctattgctcacgcgatttgggatccgcactttggccaaccagca...(略)</pre>
|
144
|
+
<p>どこのデータベースからどのような方法でエントリを取得するかは、BioPerl
|
145
|
+
などと共通の OBDA 設定ファイル ~/.bioinformatics/seqdatabase.ini
|
146
|
+
を用いてデータベースごとに指定することができます(後述)。
|
147
|
+
また、EMBOSS の seqret コマンドによる配列取得にも対応していますので、
|
148
|
+
EMBOSS の USA 表記でもエントリを取得できます。EMBOSS のマニュアルを参照し
|
149
|
+
~/.embossrc を適切に設定してください。</p>
|
150
|
+
<p>どの方法で取得した場合も、getseq コマンドによって返される配列は、
|
151
|
+
汎用の配列クラス Bio::Sequence になります(※3)。</p>
|
152
|
+
<p>配列が塩基配列とアミノ酸配列のどちらと判定されているのかは、
|
153
|
+
moltype メソッドを用いて</p>
|
154
154
|
<pre>bioruby> p cdc2.moltype
|
155
155
|
Bio::Sequence::AA
|
156
156
|
|
157
157
|
bioruby> p psaB.moltype
|
158
158
|
Bio::Sequence::NA</pre>
|
159
|
-
<p
|
160
|
-
na, aa
|
161
|
-
|
159
|
+
<p>のように調べることができます。自動判定が間違っている場合などには
|
160
|
+
na, aa メソッドで強制的に変換できます。なお、これらのメソッドは
|
161
|
+
元のオブジェクトを強制的に書き換えます。</p>
|
162
162
|
<pre>bioruby> dna.aa
|
163
163
|
bioruby> p dna.moltype
|
164
164
|
Bio::Sequence::AA
|
@@ -166,30 +166,30 @@ Bio::Sequence::AA
|
|
166
166
|
bioruby> dna.na
|
167
167
|
bioruby> p dna.moltype
|
168
168
|
Bio::Sequence::NA</pre>
|
169
|
-
<p
|
169
|
+
<p>または、to_naseq, to_aaseq メソッドで強制的に変換することもできます。</p>
|
170
170
|
<pre>bioruby> pep = dna.to_aaseq</pre>
|
171
|
-
<p>to_naseq, to_aaseq
|
172
|
-
DNA
|
173
|
-
Bio::Sequence::AA
|
174
|
-
|
171
|
+
<p>to_naseq, to_aaseq メソッドの返すオブジェクトは、それぞれ、
|
172
|
+
DNA 配列のための Bio::Sequence::NA クラス、アミノ酸配列のための
|
173
|
+
Bio::Sequence::AA クラスのオブジェクトになります。
|
174
|
+
配列がどちらのクラスに属するかは Ruby の class メソッドを用いて</p>
|
175
175
|
<pre>bioruby> p pep.class
|
176
176
|
Bio::Sequence::AA</pre>
|
177
|
-
<p
|
178
|
-
<p
|
179
|
-
|
177
|
+
<p>のように調べることができます。</p>
|
178
|
+
<p>強制的に変換せずに、Bio::Sequence::NA クラスまたは Bio::sequence::AA クラス
|
179
|
+
のどちらかのオブジェクトを得たい場合には seq メソッドを使います(※4)。</p>
|
180
180
|
<pre>bioruby> pep2 = cdc2.seq
|
181
181
|
bioruby> p pep2.class
|
182
182
|
Bio::Sequence::AA</pre>
|
183
|
-
<p
|
184
|
-
|
185
|
-
|
186
|
-
|
187
|
-
<p
|
188
|
-
|
189
|
-
|
190
|
-
length
|
191
|
-
Ruby
|
192
|
-
|
183
|
+
<p>また、以下で解説する complement や translate などのメソッドの結果は、
|
184
|
+
塩基配列を返すことが期待されるメソッドは Bio::Sequence::NA クラス、
|
185
|
+
アミノ酸配列を返すことが期待されるメソッドは Bio::sequence::AA クラス
|
186
|
+
のオブジェクトになります。</p>
|
187
|
+
<p>塩基配列やアミノ酸配列のクラスは Ruby の文字列クラスである String を
|
188
|
+
継承しています。また、Bio::Sequence クラスのオブジェクトは String の
|
189
|
+
オブジェクトと見かけ上同様に働くように工夫されています。このため、
|
190
|
+
length で長さを調べたり、+ で足し合わせたり、* で繰り返したりなど、
|
191
|
+
Ruby の文字列に対して行える操作は全て利用可能です。
|
192
|
+
このような特徴はオブジェクト指向の強力な側面の一つと言えるでしょう。</p>
|
193
193
|
<pre>bioruby> puts dna.length
|
194
194
|
12
|
195
195
|
|
@@ -201,27 +201,27 @@ atgcatgcaaaaatgcatgcaaaaatgcatgcaaaaatgcatgcaaaaatgcatgcaaaa</pre>
|
|
201
201
|
<dl>
|
202
202
|
<dt><a name="label-8" id="label-8">complement</a></dt><!-- RDLabel: "complement" -->
|
203
203
|
</dl>
|
204
|
-
<p
|
204
|
+
<p>塩基配列の相補鎖配列を得るには塩基配列の complement メソッドを呼びます。</p>
|
205
205
|
<pre>bioruby> puts dna.complement
|
206
206
|
ttttgcatgcat</pre>
|
207
207
|
<dl>
|
208
208
|
<dt><a name="label-9" id="label-9">translate</a></dt><!-- RDLabel: "translate" -->
|
209
209
|
</dl>
|
210
|
-
<p
|
211
|
-
|
210
|
+
<p>塩基配列をアミノ酸配列に翻訳するには translate メソッドを使います。
|
211
|
+
翻訳されたアミノ酸配列を pep という変数に代入してみます。</p>
|
212
212
|
<pre>bioruby> pep = dna.translate
|
213
213
|
bioruby> puts pep
|
214
214
|
MHAK</pre>
|
215
|
-
<p
|
215
|
+
<p>フレームを変えて翻訳するには</p>
|
216
216
|
<pre>bioruby> puts dna.translate(2)
|
217
217
|
CMQ
|
218
218
|
bioruby> puts dna.translate(3)
|
219
219
|
ACK</pre>
|
220
|
-
<p
|
220
|
+
<p>などとします。</p>
|
221
221
|
<dl>
|
222
222
|
<dt><a name="label-10" id="label-10">molecular_weight</a></dt><!-- RDLabel: "molecular_weight" -->
|
223
223
|
</dl>
|
224
|
-
<p
|
224
|
+
<p>分子量は molecular_weight メソッドで表示されます。</p>
|
225
225
|
<pre>bioruby> puts dna.molecular_weight
|
226
226
|
3718.66444
|
227
227
|
|
@@ -230,7 +230,7 @@ bioruby> puts pep.molecular_weight
|
|
230
230
|
<dl>
|
231
231
|
<dt><a name="label-11" id="label-11"><code>seqstat(<var>seq</var>)</code></a></dt><!-- RDLabel: "seqstat" -->
|
232
232
|
</dl>
|
233
|
-
<p>seqstat
|
233
|
+
<p>seqstat コマンドを使うと、組成などの情報も一度に表示されます。</p>
|
234
234
|
<pre>bioruby> seqstat(dna)
|
235
235
|
|
236
236
|
* * * Sequence statistics * * *
|
@@ -280,7 +280,7 @@ Codon usage :
|
|
280
280
|
Molecular weight : 3718.66444
|
281
281
|
Protein weight : 485.605
|
282
282
|
//</pre>
|
283
|
-
<p
|
283
|
+
<p>アミノ酸配列の場合は以下のようになります。</p>
|
284
284
|
<pre>bioruby> seqstat(pep)
|
285
285
|
|
286
286
|
* * * Sequence statistics * * *
|
@@ -296,31 +296,31 @@ Protein weight : 485.605
|
|
296
296
|
<dl>
|
297
297
|
<dt><a name="label-12" id="label-12">composition</a></dt><!-- RDLabel: "composition" -->
|
298
298
|
</dl>
|
299
|
-
<p>seqstat
|
300
|
-
|
301
|
-
puts
|
299
|
+
<p>seqstat の中で表示されている組成は composition メソッドで得ることができます。
|
300
|
+
結果が文字列ではなく Hash で返されるので、とりあえず表示してみる場合には
|
301
|
+
puts の代わりに p コマンドを使うと良いでしょう。</p>
|
302
302
|
<pre>bioruby> p dna.composition
|
303
303
|
{"a"=>6, "c"=>2, "g"=>2, "t"=>2}</pre>
|
304
|
-
<h4><a name="label-13" id="label-13"
|
305
|
-
<p
|
304
|
+
<h4><a name="label-13" id="label-13">塩基配列、アミノ酸配列のその他のメソッド</a></h4><!-- RDLabel: "塩基配列、アミノ酸配列のその他のメソッド" -->
|
305
|
+
<p>他にも塩基配列、アミノ酸配列に対して行える操作は色々とあります。</p>
|
306
306
|
<dl>
|
307
307
|
<dt><a name="label-14" id="label-14">subseq(from, to)</a></dt><!-- RDLabel: "subseq(from, to)" -->
|
308
308
|
</dl>
|
309
|
-
<p
|
309
|
+
<p>部分配列を取り出すには subseq メソッドを使います。</p>
|
310
310
|
<pre>bioruby> puts dna.subseq(1, 3)
|
311
311
|
atg</pre>
|
312
|
-
<p>Ruby
|
313
|
-
subseq
|
312
|
+
<p>Ruby など多くのプログラミング言語の文字列は 1 文字目を 0 から数えますが、
|
313
|
+
subseq メソッドは 1 から数えて切り出せるようになっています。</p>
|
314
314
|
<pre>bioruby> puts dna[0, 3]
|
315
315
|
atg</pre>
|
316
|
-
<p>Ruby
|
317
|
-
|
316
|
+
<p>Ruby の String クラスが持つ slice メソッド str[] と適宜使い分けると
|
317
|
+
よいでしょう。</p>
|
318
318
|
<dl>
|
319
319
|
<dt><a name="label-15" id="label-15">window_search(len, step)</a></dt><!-- RDLabel: "window_search(len, step)" -->
|
320
320
|
</dl>
|
321
|
-
<p>window_search
|
322
|
-
|
323
|
-
|
321
|
+
<p>window_search メソッドを使うと長い配列の部分配列毎の繰り返しを
|
322
|
+
簡単に行うことができます。DNA 配列をコドン毎に処理する場合、
|
323
|
+
3文字ずつずらしながら3文字を切り出せばよいので以下のようになります。</p>
|
324
324
|
<pre>bioruby> dna.window_search(3, 3) do |codon|
|
325
325
|
bioruby+ puts "#{codon}\t#{codon.translate}"
|
326
326
|
bioruby+ end
|
@@ -328,13 +328,13 @@ atg M
|
|
328
328
|
cat H
|
329
329
|
gca A
|
330
330
|
aaa K</pre>
|
331
|
-
<p
|
332
|
-
|
331
|
+
<p>ゲノム配列を、末端 1000bp をオーバーラップさせながら 11000bp ごとに
|
332
|
+
ブツ切りにし FASTA フォーマットに整形する場合は以下のようになります。</p>
|
333
333
|
<pre>bioruby> seq.window_search(11000, 10000) do |subseq|
|
334
334
|
bioruby+ puts subseq.to_fasta
|
335
335
|
bioruby+ end</pre>
|
336
|
-
<p
|
337
|
-
|
336
|
+
<p>最後の 10000bp に満たない 3' 端の余り配列は返り値として得られるので、
|
337
|
+
必要な場合は別途受け取って表示します。</p>
|
338
338
|
<pre>bioruby> i = 1
|
339
339
|
bioruby> remainder = seq.window_search(11000, 10000) do |subseq|
|
340
340
|
bioruby+ puts subseq.to_fasta("segment #{i*10000}", 60)
|
@@ -344,8 +344,8 @@ bioruby> puts remainder.to_fasta("segment #{i*10000}", 60)</pre>
|
|
344
344
|
<dl>
|
345
345
|
<dt><a name="label-16" id="label-16">splicing(position)</a></dt><!-- RDLabel: "splicing(position)" -->
|
346
346
|
</dl>
|
347
|
-
<p
|
348
|
-
|
347
|
+
<p>塩基配列の GenBank 等の position 文字列による切り出しは splicing
|
348
|
+
メソッドで行います。</p>
|
349
349
|
<pre>bioruby> puts dna
|
350
350
|
atgcatgcaaaa
|
351
351
|
bioruby> puts dna.splicing("join(1..3,7..9)")
|
@@ -353,14 +353,14 @@ atggca</pre>
|
|
353
353
|
<dl>
|
354
354
|
<dt><a name="label-17" id="label-17">randomize</a></dt><!-- RDLabel: "randomize" -->
|
355
355
|
</dl>
|
356
|
-
<p>randomize
|
356
|
+
<p>randomize メソッドは、配列の組成を保存したままランダム配列を生成します。</p>
|
357
357
|
<pre>bioruby> puts dna.randomize
|
358
358
|
agcaatagatac</pre>
|
359
359
|
<dl>
|
360
360
|
<dt><a name="label-18" id="label-18">to_re</a></dt><!-- RDLabel: "to_re" -->
|
361
361
|
</dl>
|
362
|
-
<p>to_re
|
363
|
-
|
362
|
+
<p>to_re メソッドは、曖昧な塩基の表記を含む塩基配列を atgc だけの
|
363
|
+
パターンからなる正規表現に変換します。</p>
|
364
364
|
<pre>bioruby> ambiguous = getseq("atgcyatgcatgcatgc")
|
365
365
|
|
366
366
|
bioruby> p ambiguous.to_re
|
@@ -368,9 +368,9 @@ bioruby> p ambiguous.to_re
|
|
368
368
|
|
369
369
|
bioruby> puts ambiguous.to_re
|
370
370
|
(?-mix:atgc[tc]atgcatgcatgc)</pre>
|
371
|
-
<p>seq
|
372
|
-
|
373
|
-
|
371
|
+
<p>seq メソッドは ATGC の含有量が 90% 以下だとアミノ酸配列とみなすので、
|
372
|
+
曖昧な塩基が多く含まれる配列の場合は to_naseq メソッドを使って
|
373
|
+
明示的に Bio::Sequence::NA オブジェクトに変換する必要があります。</p>
|
374
374
|
<pre>bioruby> s = getseq("atgcrywskmbvhdn").to_naseq
|
375
375
|
bioruby> p s.to_re
|
376
376
|
/atgc[ag][tc][at][gc][tg][ac][tgc][agc][atc][atg][atgc]/
|
@@ -380,8 +380,8 @@ bioruby> puts s.to_re
|
|
380
380
|
<dl>
|
381
381
|
<dt><a name="label-19" id="label-19">names</a></dt><!-- RDLabel: "names" -->
|
382
382
|
</dl>
|
383
|
-
<p
|
384
|
-
|
383
|
+
<p>あまり使うことはありませんが、配列を塩基名やアミノ酸名に変換する
|
384
|
+
メソッドです。</p>
|
385
385
|
<pre>bioruby> p dna.names
|
386
386
|
["adenine", "thymine", "guanine", "cytosine", "adenine", "thymine",
|
387
387
|
"guanine", "cytosine", "adenine", "adenine", "adenine", "adenine"]
|
@@ -391,29 +391,29 @@ bioruby> p pep.names
|
|
391
391
|
<dl>
|
392
392
|
<dt><a name="label-20" id="label-20">codes</a></dt><!-- RDLabel: "codes" -->
|
393
393
|
</dl>
|
394
|
-
<p
|
394
|
+
<p>アミノ酸配列を3文字コードに変換する names と似たメソッドです。</p>
|
395
395
|
<pre>bioruby> p pep.codes
|
396
396
|
["Met", "His", "Ala", "Lys"]</pre>
|
397
397
|
<dl>
|
398
398
|
<dt><a name="label-21" id="label-21">gc_percent</a></dt><!-- RDLabel: "gc_percent" -->
|
399
399
|
</dl>
|
400
|
-
<p
|
400
|
+
<p>塩基配列の GC 含量は gc_percent メソッドで得られます。</p>
|
401
401
|
<pre>bioruby> p dna.gc_percent
|
402
402
|
33</pre>
|
403
403
|
<dl>
|
404
404
|
<dt><a name="label-22" id="label-22">to_fasta</a></dt><!-- RDLabel: "to_fasta" -->
|
405
405
|
</dl>
|
406
|
-
<p>FASTA
|
406
|
+
<p>FASTA フォーマットに変換するには to_fasta メソッドを使います。</p>
|
407
407
|
<pre>bioruby> puts dna.to_fasta("dna sequence")
|
408
408
|
>dna sequence
|
409
409
|
aaccggttacgt</pre>
|
410
|
-
<h3><a name="label-23" id="label-23"
|
411
|
-
<p
|
412
|
-
codontables, codontable
|
410
|
+
<h3><a name="label-23" id="label-23">塩基やアミノ酸のコード、コドン表をあつかう</a></h3><!-- RDLabel: "塩基やアミノ酸のコード、コドン表をあつかう" -->
|
411
|
+
<p>アミノ酸、塩基、コドンテーブルを得るための aminoacids, nucleicacids,
|
412
|
+
codontables, codontable コマンドを紹介します。</p>
|
413
413
|
<dl>
|
414
414
|
<dt><a name="label-24" id="label-24"><code>aminoacids</code></a></dt><!-- RDLabel: "aminoacids" -->
|
415
415
|
</dl>
|
416
|
-
<p
|
416
|
+
<p>アミノ酸の一覧は aminoacids コマンドで表示できます。</p>
|
417
417
|
<pre>bioruby> aminoacids
|
418
418
|
? Pyl pyrrolysine
|
419
419
|
A Ala alanine
|
@@ -439,7 +439,7 @@ V Val valine
|
|
439
439
|
W Trp tryptophan
|
440
440
|
Y Tyr tyrosine
|
441
441
|
Z Glx glutamine/glutamic acid</pre>
|
442
|
-
<p
|
442
|
+
<p>返り値は短い表記と対応する長い表記のハッシュになっています。</p>
|
443
443
|
<pre>bioruby> aa = aminoacids
|
444
444
|
bioruby> puts aa["G"]
|
445
445
|
Gly
|
@@ -448,7 +448,7 @@ glycine</pre>
|
|
448
448
|
<dl>
|
449
449
|
<dt><a name="label-25" id="label-25"><code>nucleicacids</code></a></dt><!-- RDLabel: "nucleicacids" -->
|
450
450
|
</dl>
|
451
|
-
<p
|
451
|
+
<p>塩基の一覧は nucleicacids コマンドで表示できます。</p>
|
452
452
|
<pre>bioruby> nucleicacids
|
453
453
|
a a Adenine
|
454
454
|
t t Thymine
|
@@ -466,14 +466,14 @@ v [agc] not T
|
|
466
466
|
h [atc] not G
|
467
467
|
d [atg] not C
|
468
468
|
n [atgc] </pre>
|
469
|
-
<p
|
469
|
+
<p>返り値は塩基の1文字表記と該当する塩基のハッシュになっています。</p>
|
470
470
|
<pre>bioruby> na = nucleicacids
|
471
471
|
bioruby> puts na["r"]
|
472
472
|
[ag]</pre>
|
473
473
|
<dl>
|
474
474
|
<dt><a name="label-26" id="label-26"><code>codontables</code></a></dt><!-- RDLabel: "codontables" -->
|
475
475
|
</dl>
|
476
|
-
<p
|
476
|
+
<p>コドンテーブルの一覧は codontables コマンドで表示できます。</p>
|
477
477
|
<pre>bioruby> codontables
|
478
478
|
1 Standard (Eukaryote)
|
479
479
|
2 Vertebrate Mitochondrial
|
@@ -492,14 +492,14 @@ bioruby> puts na["r"]
|
|
492
492
|
21 Trematode Mitochondrial
|
493
493
|
22 Scenedesmus obliquus mitochondrial
|
494
494
|
23 Thraustochytrium Mitochondrial</pre>
|
495
|
-
<p
|
495
|
+
<p>返り値はテーブル番号と名前のハッシュになっています。</p>
|
496
496
|
<pre>bioruby> ct = codontables
|
497
497
|
bioruby> puts ct[3]
|
498
498
|
Yeast Mitochondorial</pre>
|
499
499
|
<dl>
|
500
500
|
<dt><a name="label-27" id="label-27"><code>codontable(<var>num</var>)</code></a></dt><!-- RDLabel: "codontable" -->
|
501
501
|
</dl>
|
502
|
-
<p
|
502
|
+
<p>コドン表自体は codontable コマンドで表示できます。</p>
|
503
503
|
<pre>bioruby> codontable(11)
|
504
504
|
|
505
505
|
= Codon table 11 : Bacteria
|
@@ -532,63 +532,63 @@ Yeast Mitochondorial</pre>
|
|
532
532
|
| G GGG | Val V | Ala A | Glu E | Gly G | a |
|
533
533
|
| GG G | Val V | Ala A | Glu E | Gly G | g |
|
534
534
|
*---------------------------------------------*</pre>
|
535
|
-
<p
|
536
|
-
|
535
|
+
<p>返り値は Bio::CodonTable クラスのオブジェクトで、コドンとアミノ酸の
|
536
|
+
変換ができるだけでなく、以下のようなデータも得ることができます。</p>
|
537
537
|
<pre>bioruby> ct = codontable(2)
|
538
538
|
bioruby> p ct["atg"]
|
539
539
|
"M"</pre>
|
540
540
|
<dl>
|
541
541
|
<dt><a name="label-28" id="label-28">definition</a></dt><!-- RDLabel: "definition" -->
|
542
542
|
</dl>
|
543
|
-
<p
|
543
|
+
<p>コドン表の定義の説明</p>
|
544
544
|
<pre>bioruby> puts ct.definition
|
545
545
|
Vertebrate Mitochondrial</pre>
|
546
546
|
<dl>
|
547
547
|
<dt><a name="label-29" id="label-29">start</a></dt><!-- RDLabel: "start" -->
|
548
548
|
</dl>
|
549
|
-
<p
|
549
|
+
<p>開始コドン一覧</p>
|
550
550
|
<pre>bioruby> p ct.start
|
551
551
|
["att", "atc", "ata", "atg", "gtg"]</pre>
|
552
552
|
<dl>
|
553
553
|
<dt><a name="label-30" id="label-30">stop</a></dt><!-- RDLabel: "stop" -->
|
554
554
|
</dl>
|
555
|
-
<p
|
555
|
+
<p>終止コドン一覧</p>
|
556
556
|
<pre>bioruby> p ct.stop
|
557
557
|
["taa", "tag", "aga", "agg"]</pre>
|
558
558
|
<dl>
|
559
559
|
<dt><a name="label-31" id="label-31">revtrans</a></dt><!-- RDLabel: "revtrans" -->
|
560
560
|
</dl>
|
561
|
-
<p
|
561
|
+
<p>アミノ酸をコードするコドンを調べる</p>
|
562
562
|
<pre>bioruby> p ct.revtrans("V")
|
563
563
|
["gtc", "gtg", "gtt", "gta"]</pre>
|
564
|
-
<h3><a name="label-32" id="label-32"
|
565
|
-
<p
|
566
|
-
GenBank
|
567
|
-
|
564
|
+
<h3><a name="label-32" id="label-32">フラットファイルのエントリ</a></h3><!-- RDLabel: "フラットファイルのエントリ" -->
|
565
|
+
<p>データベースのエントリと、フラットファイルそのものを扱う方法を紹介します。
|
566
|
+
GenBank データベースの中では、ファージのエントリが含まれる gbphg.seq の
|
567
|
+
ファイルサイズが小さいので、このファイルを例として使います。</p>
|
568
568
|
<pre>% wget ftp://ftp.hgc.jp/pub/mirror/ncbi/genbank/gbphg.seq.gz
|
569
569
|
% gunzip gbphg.seq.gz</pre>
|
570
570
|
<dl>
|
571
571
|
<dt><a name="label-33" id="label-33"><code>getent(<var>str</var>)</code></a></dt><!-- RDLabel: "getent" -->
|
572
572
|
</dl>
|
573
|
-
<p>getseq
|
574
|
-
|
575
|
-
OBDA, EMBOSS, NCBI, EBI, TogoWS
|
576
|
-
|
573
|
+
<p>getseq コマンドは配列を取得しましたが、配列だけでなくエントリ全体を取得する
|
574
|
+
には getent コマンド(※2)を使います。getseq コマンド同様、getent コマンドでも
|
575
|
+
OBDA, EMBOSS, NCBI, EBI, TogoWS のデータベースが利用可能です(※5)。
|
576
|
+
設定については getseq コマンドの説明を参照してください。</p>
|
577
577
|
<pre>bioruby> entry = getent("genbank:AB044425")
|
578
578
|
bioruby> puts entry
|
579
579
|
LOCUS AB044425 1494 bp DNA linear PLN 28-APR-2001
|
580
580
|
DEFINITION Volvox carteri f. kawasakiensis chloroplast psaB gene for
|
581
581
|
photosystem I P700 chlorophyll a apoprotein A2,
|
582
582
|
strain:NIES-732.
|
583
|
-
(
|
584
|
-
<p>getent
|
585
|
-
|
586
|
-
|
583
|
+
(略)</pre>
|
584
|
+
<p>getent コマンドの引数には db:entry_id 形式の文字列、EMBOSS の USA、
|
585
|
+
ファイル、IO が与えられ、データベースの1エントリ分の文字列が返されます。
|
586
|
+
配列データベースに限らず、数多くのデータベースエントリに対応しています。</p>
|
587
587
|
<dl>
|
588
588
|
<dt><a name="label-34" id="label-34"><code>flatparse(<var>str</var>)</code></a></dt><!-- RDLabel: "flatparse" -->
|
589
589
|
</dl>
|
590
|
-
<p
|
591
|
-
|
590
|
+
<p>取得したエントリをパースして欲しいデータをとりだすには flatparse
|
591
|
+
コマンドを使います。</p>
|
592
592
|
<pre>bioruby> entry = getent("gbphg.seq")
|
593
593
|
bioruby> gb = flatparse(entry)
|
594
594
|
bioruby> puts gb.entry_id
|
@@ -597,198 +597,108 @@ bioruby> puts gb.definition
|
|
597
597
|
Bacteriophage Mu DNA for ORF1, sheath protein gpL, ORF2, ORF3, complete cds.
|
598
598
|
bioruby> puts psaB.naseq
|
599
599
|
acggtcagacgtttggcccgaccaccgggatgaggctgacgcaggtcagaaatctttgtgacgacaaccgtatcaat
|
600
|
-
(
|
600
|
+
(略)</pre>
|
601
601
|
<dl>
|
602
602
|
<dt><a name="label-35" id="label-35"><code>getobj(<var>str</var>)</code></a></dt><!-- RDLabel: "getobj" -->
|
603
603
|
</dl>
|
604
|
-
<p>getobj
|
605
|
-
|
606
|
-
|
607
|
-
|
604
|
+
<p>getobj コマンド(※2)は、getent でエントリを文字列として取得し flatparse で
|
605
|
+
パースしたオブジェクトに変換するのと同じです。getent コマンドと同じ引数を
|
606
|
+
受け付けます。配列を取得する時は getseq、エントリを取得する時は getent、
|
607
|
+
パースしたオブジェクトを取得する時は getobj を使うことになります。</p>
|
608
608
|
<pre>bioruby> gb = getobj("gbphg.seq")
|
609
609
|
bioruby> puts gb.entry_id
|
610
610
|
AB000833</pre>
|
611
611
|
<dl>
|
612
612
|
<dt><a name="label-36" id="label-36"><code>flatfile(<var>file</var>)</code></a></dt><!-- RDLabel: "flatfile" -->
|
613
613
|
</dl>
|
614
|
-
<p>getent
|
615
|
-
|
614
|
+
<p>getent コマンドは1エントリしか扱えないため、ローカルのファイルを開いて
|
615
|
+
各エントリ毎に処理を行うには flatfile コマンドを使います。</p>
|
616
616
|
<pre>bioruby> flatfile("gbphg.seq") do |entry|
|
617
617
|
bioruby+ # do something on entry
|
618
618
|
bioruby+ end</pre>
|
619
|
-
<p
|
619
|
+
<p>ブロックを指定しない場合は、ファイル中の最初のエントリを取得します。</p>
|
620
620
|
<pre>bioruby> entry = flatfile("gbphg.seq")
|
621
621
|
bioruby> gb = flatparse(entry)
|
622
622
|
bioruby> puts gb.entry_id</pre>
|
623
623
|
<dl>
|
624
624
|
<dt><a name="label-37" id="label-37"><code>flatauto(<var>file</var>)</code></a></dt><!-- RDLabel: "flatauto" -->
|
625
625
|
</dl>
|
626
|
-
<p
|
627
|
-
flatfile
|
626
|
+
<p>各エントリを flatparse と同様にパースした状態で順番に処理するためには、
|
627
|
+
flatfile コマンドの代わりに flatauto コマンドを使います。</p>
|
628
628
|
<pre>bioruby> flatauto("gbphg.seq") do |entry|
|
629
629
|
bioruby+ print entry.entry_id
|
630
630
|
bioruby+ puts entry.definition
|
631
631
|
bioruby+ end</pre>
|
632
|
-
<p>flatfile
|
633
|
-
|
632
|
+
<p>flatfile 同様、ブロックを指定しない場合は、ファイル中の最初のエントリを
|
633
|
+
取得し、パースしたオブジェクトを返します。</p>
|
634
634
|
<pre>bioruby> gb = flatfile("gbphg.seq")
|
635
635
|
bioruby> puts gb.entry_id</pre>
|
636
|
-
<h3><a name="label-38" id="label-38"
|
637
|
-
<p>EMBOSS
|
638
|
-
|
639
|
-
|
640
|
-
|
636
|
+
<h3><a name="label-38" id="label-38">フラットファイルのインデクシング</a></h3><!-- RDLabel: "フラットファイルのインデクシング" -->
|
637
|
+
<p>EMBOSS の dbiflat に似た機能として、BioRuby, BioPerl などに共通の BioFlat
|
638
|
+
というインデックスを作成する仕組みがあります。一度インデックスを
|
639
|
+
作成しておくとエントリの取り出しが高速かつ容易に行えます。
|
640
|
+
これにより自分専用のデータベースを手軽に作ることができます。</p>
|
641
641
|
<dl>
|
642
642
|
<dt><a name="label-39" id="label-39"><code>flatindex(<var>db_name</var>, *<var>source_file_list</var>)</code></a></dt><!-- RDLabel: "flatindex" -->
|
643
643
|
</dl>
|
644
|
-
<p>GenBank
|
645
|
-
mydb
|
644
|
+
<p>GenBank のファージの配列ファイル gbphg.seq に入っているエントリに対して
|
645
|
+
mydb というデータベース名でインデックスを作成します。</p>
|
646
646
|
<pre>bioruby> flatindex("mydb", "gbphg.seq")
|
647
647
|
Creating BioFlat index (.bioruby/bioflat/mydb) ... done</pre>
|
648
648
|
<dl>
|
649
649
|
<dt><a name="label-40" id="label-40"><code>flatsearch(<var>db_name</var>, <var>entry_id</var>)</code></a></dt><!-- RDLabel: "flatsearch" -->
|
650
650
|
</dl>
|
651
|
-
<p
|
652
|
-
|
651
|
+
<p>作成した mydb データベースからエントリをとり出すには flatsearch コマンドを
|
652
|
+
使います。</p>
|
653
653
|
<pre>bioruby> entry = flatsearch("mydb", "AB004561")
|
654
654
|
bioruby> puts entry
|
655
655
|
LOCUS AB004561 2878 bp DNA linear PHG 20-MAY-1998
|
656
656
|
DEFINITION Bacteriophage phiU gene for integrase, complete cds, integration
|
657
657
|
site.
|
658
658
|
ACCESSION AB004561
|
659
|
-
(
|
660
|
-
<h3><a name="label-41" id="label-41"
|
661
|
-
<p>FASTA
|
662
|
-
|
663
|
-
|
659
|
+
(略)</pre>
|
660
|
+
<h3><a name="label-41" id="label-41">様々な DB の配列を FASTA フォーマットに変換して保存</a></h3><!-- RDLabel: "様々な DB の配列を FASTA フォーマットに変換して保存" -->
|
661
|
+
<p>FASTA フォーマットは配列データで標準的に用いられているフォーマットです。
|
662
|
+
「>」記号ではじまる1行目に配列の説明があり、2行目以降に配列がつづきます。
|
663
|
+
配列中の空白文字は無視されます。</p>
|
664
664
|
<pre>>entry_id definition ...
|
665
665
|
ACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGT
|
666
666
|
ACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGT</pre>
|
667
|
-
<p
|
668
|
-
NCBI
|
667
|
+
<p>配列の説明行は、最初の単語が配列の ID になっていることが多いのですが、
|
668
|
+
NCBI の BLAST 用データベースではさらに高度な構造化がおこなわれています。</p>
|
669
669
|
<ul>
|
670
670
|
<li><a href="ftp://ftp.ncbi.nih.gov/blast/documents/README.formatdb"><URL:ftp://ftp.ncbi.nih.gov/blast/documents/README.formatdb></a></li>
|
671
671
|
<li><a href="http://blast.wustl.edu/doc/FAQ-Indexing.html#Identifiers"><URL:http://blast.wustl.edu/doc/FAQ-Indexing.html#Identifiers></a></li>
|
672
672
|
<li>FASTA format (Wikipedia)
|
673
673
|
<a href="http://en.wikipedia.org/wiki/Fasta_format"><URL:http://en.wikipedia.org/wiki/Fasta_format></a></li>
|
674
674
|
</ul>
|
675
|
-
<p>BioRuby
|
676
|
-
|
675
|
+
<p>BioRuby のデータベースエントリのクラスにはエントリID、配列、定義について
|
676
|
+
共通のメソッドが用意されています。</p>
|
677
677
|
<ul>
|
678
|
-
<li>entry_id -
|
679
|
-
<li>definition -
|
680
|
-
<li>seq -
|
678
|
+
<li>entry_id - エントリ ID を取得</li>
|
679
|
+
<li>definition - 定義文を取得</li>
|
680
|
+
<li>seq - 配列を取得</li>
|
681
681
|
</ul>
|
682
|
-
<p
|
683
|
-
FASTA
|
682
|
+
<p>これらの共通メソッドを使うと、どんな配列データベースエントリでも
|
683
|
+
FASTA フォーマットに変換できるプログラムが簡単に作れます。</p>
|
684
684
|
<pre>entry.seq.to_fasta("#{entry.entry_id} #{entry.definition}", 60)</pre>
|
685
|
-
<p
|
686
|
-
GenBank, UniProt
|
687
|
-
|
685
|
+
<p>さらに、BioRuby では入力データベースの形式を自動判別できますので、
|
686
|
+
GenBank, UniProt など多くの主要な配列データベースでは
|
687
|
+
ファイル名を指定するだけで FASTA フォーマットに変換できます。</p>
|
688
688
|
<dl>
|
689
689
|
<dt><a name="label-42" id="label-42"><code>flatfasta(<var>fasta_file</var>, *<var>source_file_list</var>)</code></a></dt><!-- RDLabel: "flatfasta" -->
|
690
690
|
</dl>
|
691
|
-
<p
|
692
|
-
|
693
|
-
FASTA
|
691
|
+
<p>入力データベースのファイル名のリストから、指定した FASTA フォーマットの
|
692
|
+
ファイルを生成するコマンドです。ここではいくつかの GenBank のファイルを
|
693
|
+
FASTA フォーマットに変換し、myfasta.fa というファイルに保存しています。</p>
|
694
694
|
<pre>bioruby> flatfasta("myfasta.fa", "gbphg.seq", "gbvrl1.seq", "gbvrl2.seq")
|
695
695
|
Saving fasta file (myfasta.fa) ...
|
696
696
|
converting -- gbphg.gbk
|
697
697
|
converting -- gbvrl1.gbk
|
698
698
|
converting -- gbvrl2.gbk
|
699
699
|
done</pre>
|
700
|
-
<h3><a name="label-43" id="label-43"
|
701
|
-
<p
|
702
|
-
<dl>
|
703
|
-
<dt><a name="label-44" id="label-44"><code>keggdbs</code></a></dt><!-- RDLabel: "keggdbs" -->
|
704
|
-
</dl>
|
705
|
-
<p>���Υ�ͥåȤ� KEGG API ���̤������Ѳ�ǽ�ʥǡ����١����Υꥹ�Ȥ�ɽ�����ޤ���</p>
|
706
|
-
<pre>bioruby> keggdbs
|
707
|
-
nt: Non-redundant nucleic acid sequence database
|
708
|
-
aa: Non-redundant protein sequence database
|
709
|
-
gb: GenBank nucleic acid sequence database
|
710
|
-
(ά)</pre>
|
711
|
-
<dl>
|
712
|
-
<dt><a name="label-45" id="label-45"><code>keggorgs</code></a></dt><!-- RDLabel: "keggorgs" -->
|
713
|
-
</dl>
|
714
|
-
<p>KEGG �˼�Ͽ����Ƥ�������ʪ��Υꥹ�Ȥ�ɽ�����ޤ���</p>
|
715
|
-
<pre>bioruby> keggorgs
|
716
|
-
aae: Aquifex aeolicus
|
717
|
-
aci: Acinetobacter sp. ADP1
|
718
|
-
afu: Archaeoglobus fulgidus
|
719
|
-
(ά)</pre>
|
720
|
-
<dl>
|
721
|
-
<dt><a name="label-46" id="label-46"><code>keggpathways</code></a></dt><!-- RDLabel: "keggpathways" -->
|
722
|
-
</dl>
|
723
|
-
<p>KEGG �˼�Ͽ����Ƥ������ѥ��������Υꥹ�Ȥ�ɽ�����ޤ���</p>
|
724
|
-
<pre>bioruby> keggpathways
|
725
|
-
path:map00010: Glycolysis / Gluconeogenesis - Reference pathway
|
726
|
-
path:map00020: Citrate cycle (TCA cycle) - Reference pathway
|
727
|
-
path:map00030: Pentose phosphate pathway - Reference pathway
|
728
|
-
(ά)</pre>
|
729
|
-
<p>�����ˣ�ʸ���� KEGG ��ʪ�ﵭ�������ȡ�������ʪ�����ѤǤ���
|
730
|
-
�ѥ������������ΰ������֤��ޤ�����IJ�� eco �ξ��ʲ��Τ褦�ˤʤ�ޤ���</p>
|
731
|
-
<pre>bioruby> keggpathways("eco")
|
732
|
-
path:eco00010: Glycolysis / Gluconeogenesis - Escherichia coli K-12 MG1655
|
733
|
-
path:eco00020: Citrate cycle (TCA cycle) - Escherichia coli K-12 MG1655
|
734
|
-
path:eco00030: Pentose phosphate pathway - Escherichia coli K-12 MG1655
|
735
|
-
(ά)</pre>
|
736
|
-
<dl>
|
737
|
-
<dt><a name="label-47" id="label-47"><code>keggapi</code></a></dt><!-- RDLabel: "keggapi" -->
|
738
|
-
</dl>
|
739
|
-
<p>�����ʳ��� KEGG API �Υ�åɤϡ�keggapi ��³���ƸƤӽФ����Ȥ�
|
740
|
-
���ѤǤ��ޤ���</p>
|
741
|
-
<pre>bioruby> p keggapi.get_genes_by_pathway("path:eco00010")
|
742
|
-
["eco:b0114", "eco:b0115", "eco:b0116", "eco:b0356", "eco:b0688", (ά)</pre>
|
743
|
-
<p>���Ѳ�ǽ�ʥ�åɤΰ����� KEGG API �Υޥ˥奢��Ȥ��Ƥ���������</p>
|
744
|
-
<ul>
|
745
|
-
<li><a href="http://www.genome.jp/kegg/soap/doc/keggapi_manual_ja.html"><URL:http://www.genome.jp/kegg/soap/doc/keggapi_manual_ja.html></a></li>
|
746
|
-
</ul>
|
747
|
-
<h3><a name="label-48" id="label-48">DBGET</a></h3><!-- RDLabel: "DBGET" -->
|
748
|
-
<p>���Υ�ͥåȤ� DBGET �Υ��ޥ�ɤǤ��� binfo, bfind, bget, btit, bconv ��
|
749
|
-
KEGG API �����Ѥ��Ƥ��Τޤ¹ԤǤ���褦�ˤʤäƤ��ޤ���</p>
|
750
|
-
<dl>
|
751
|
-
<dt><a name="label-49" id="label-49"><code>binfo</code></a></dt><!-- RDLabel: "binfo" -->
|
752
|
-
</dl>
|
753
|
-
<pre>bioruby> binfo
|
754
|
-
*** Last database updates ***
|
755
|
-
Date Database Release #Entries #Residues</pre>
|
756
|
-
<pre>-------- ------------- ------------------------ ------------ ----------------
|
757
|
-
05/12/06 nr-nt 05-12-04 (Dec 05) 63,078,043 111,609,773,616
|
758
|
-
05/12/06 nr-aa 05-12-05 (Dec 05) 2,682,790 890,953,839
|
759
|
-
05/10/25 genbank 150.0 (Oct 05) 49,152,445 53,655,236,500
|
760
|
-
05/12/06 genbank-upd 150.0+/12-04 (Dec 05) 7,470,976 6,357,888,366
|
761
|
-
(ά)</pre>
|
762
|
-
<p>binfo ���ޥ�ɤ�³���ƥǡ����١���̾����ꤹ�뤳�ȤǤ��ܺ٤ʾ���
|
763
|
-
ɽ������ޤ���</p>
|
764
|
-
<pre>bioruby> binfo "genbank"
|
765
|
-
genbank GenBank nucleic acid sequence database
|
766
|
-
gb Release 150.0, Oct 05
|
767
|
-
National Center for Biotechnology Information
|
768
|
-
49,152,445 entries, 53,655,236,500 bases
|
769
|
-
Last update: 05/10/25
|
770
|
-
<dbget> <fasta> <blast></pre>
|
771
|
-
<dl>
|
772
|
-
<dt><a name="label-50" id="label-50"><code>bfind(<var>keyword</var>)</code></a></dt><!-- RDLabel: "bfind" -->
|
773
|
-
</dl>
|
774
|
-
<p>bfind ���ޥ�ɤǥǡ����١������Ф��륭����ɥ�������Ԥ����Ȥ��Ǥ��ޤ���
|
775
|
-
�ǡ����١���̾�ȸ���������������ɤ�ʸ������Ϥ��ޤ���</p>
|
776
|
-
<pre>bioruby> list = bfind "genbank ebola human"
|
777
|
-
bioruby> puts list
|
778
|
-
gb:BD177378 [BD177378] A monoclonal antibody recognizing ebola virus.
|
779
|
-
gb:BD177379 [BD177379] A monoclonal antibody recognizing ebola virus.
|
780
|
-
(ά)</pre>
|
781
|
-
<dl>
|
782
|
-
<dt><a name="label-51" id="label-51"><code>bget(<var>entry_id</var>)</code></a></dt><!-- RDLabel: "bget" -->
|
783
|
-
</dl>
|
784
|
-
<p>bget ���ޥ�ɤǻ��ꤷ�� db:entry_id �Υǡ����١�������ȥ������Ǥ��ޤ���</p>
|
785
|
-
<pre>bioruby> entry = bget "gb:BD177378"
|
786
|
-
bioruby> puts entry
|
787
|
-
LOCUS BD177378 24 bp DNA linear PAT 16-APR-2003
|
788
|
-
DEFINITION A monoclonal antibody recognizing ebola virus.
|
789
|
-
(ά)</pre>
|
790
|
-
<h3><a name="label-52" id="label-52">������ץ�����</a></h3><!-- RDLabel: "������ץ�����" -->
|
791
|
-
<p>��ȼ�����ץȲ�������¸���Ƥ������Ȥ�Ǥ��ޤ���</p>
|
700
|
+
<h3><a name="label-43" id="label-43">スクリプト生成</a></h3><!-- RDLabel: "スクリプト生成" -->
|
701
|
+
<p>作業手順をスクリプト化して保存しておくこともできます。</p>
|
792
702
|
<pre>bioruby> script
|
793
703
|
-- 8< -- 8< -- 8< -- Script -- 8< -- 8< -- 8< --
|
794
704
|
bioruby> seq = getseq("gbphg.seq")
|
@@ -797,50 +707,50 @@ bioruby> p seq.translate
|
|
797
707
|
bioruby> script
|
798
708
|
-- >8 -- >8 -- >8 -- Script -- >8 -- >8 -- >8 --
|
799
709
|
Saving script (script.rb) ... done</pre>
|
800
|
-
<p
|
710
|
+
<p>生成された script.rb は以下のようになります。</p>
|
801
711
|
<pre>#!/usr/bin/env bioruby
|
802
712
|
|
803
713
|
seq = getseq("gbphg.seq")
|
804
714
|
p seq
|
805
715
|
p seq.translate</pre>
|
806
|
-
<p
|
716
|
+
<p>このスクリプトは bioruby コマンドで実行することができます。</p>
|
807
717
|
<pre>% bioruby script.rb</pre>
|
808
|
-
<h3><a name="label-
|
718
|
+
<h3><a name="label-44" id="label-44">簡易シェル機能</a></h3><!-- RDLabel: "簡易シェル機能" -->
|
809
719
|
<dl>
|
810
|
-
<dt><a name="label-
|
720
|
+
<dt><a name="label-45" id="label-45"><code>cd(<var>dir</var>)</code></a></dt><!-- RDLabel: "cd" -->
|
811
721
|
</dl>
|
812
|
-
<p
|
722
|
+
<p>カレントディレクトリを変更します。</p>
|
813
723
|
<pre>bioruby> cd "/tmp"
|
814
724
|
"/tmp"</pre>
|
815
|
-
<p
|
725
|
+
<p>ホームディレクトリに戻るには引数をつけずに cd を実行します。</p>
|
816
726
|
<pre>bioruby> cd
|
817
727
|
"/home/k"</pre>
|
818
728
|
<dl>
|
819
|
-
<dt><a name="label-
|
729
|
+
<dt><a name="label-46" id="label-46"><code>pwd</code></a></dt><!-- RDLabel: "pwd" -->
|
820
730
|
</dl>
|
821
|
-
<p
|
731
|
+
<p>カレントディレクトリを表示します。</p>
|
822
732
|
<pre>bioruby> pwd
|
823
733
|
"/home/k"</pre>
|
824
734
|
<dl>
|
825
|
-
<dt><a name="label-
|
735
|
+
<dt><a name="label-47" id="label-47"><code>dir</code></a></dt><!-- RDLabel: "dir" -->
|
826
736
|
</dl>
|
827
|
-
<p
|
737
|
+
<p>カレントディレクトリのファイルを一覧表示します。</p>
|
828
738
|
<pre>bioruby> dir
|
829
739
|
UGO Date Byte File
|
830
740
|
------ ---------------------------- ----------- ------------
|
831
741
|
40700 Tue Dec 06 07:07:35 JST 2005 1768 "Desktop"
|
832
742
|
40755 Tue Nov 29 16:55:20 JST 2005 2176 "bin"
|
833
743
|
100644 Sat Oct 15 03:01:00 JST 2005 42599518 "gbphg.seq"
|
834
|
-
(
|
744
|
+
(略)
|
835
745
|
|
836
746
|
bioruby> dir "gbphg.seq"
|
837
747
|
UGO Date Byte File
|
838
748
|
------ ---------------------------- ----------- ------------
|
839
749
|
100644 Sat Oct 15 03:01:00 JST 2005 42599518 "gbphg.seq"</pre>
|
840
750
|
<dl>
|
841
|
-
<dt><a name="label-
|
751
|
+
<dt><a name="label-48" id="label-48"><code>head(<var>file</var>, <var>lines</var> = <var>10</var>)</code></a></dt><!-- RDLabel: "head" -->
|
842
752
|
</dl>
|
843
|
-
<p
|
753
|
+
<p>テキストファイルやオブジェクトの先頭 10 行を表示します。</p>
|
844
754
|
<pre>bioruby> head "gbphg.seq"
|
845
755
|
GBPHG.SEQ Genetic Sequence Data Bank
|
846
756
|
October 15 2005
|
@@ -850,119 +760,119 @@ GBPHG.SEQ Genetic Sequence Data Bank
|
|
850
760
|
Phage Sequences
|
851
761
|
|
852
762
|
2713 loci, 16892737 bases, from 2713 reported sequences</pre>
|
853
|
-
<p
|
763
|
+
<p>表示する行数を指定することもできます。</p>
|
854
764
|
<pre>bioruby> head "gbphg.seq", 2
|
855
765
|
GBPHG.SEQ Genetic Sequence Data Bank
|
856
766
|
October 15 2005</pre>
|
857
|
-
<p
|
767
|
+
<p>テキストの入っている変数の先頭を見ることもできます。</p>
|
858
768
|
<pre>bioruby> entry = getent("gbphg.seq")
|
859
769
|
bioruby> head entry, 2
|
860
770
|
GBPHG.SEQ Genetic Sequence Data Bank
|
861
771
|
October 15 2005</pre>
|
862
772
|
<dl>
|
863
|
-
<dt><a name="label-
|
773
|
+
<dt><a name="label-49" id="label-49"><code>disp(<var>obj</var>)</code></a></dt><!-- RDLabel: "disp" -->
|
864
774
|
</dl>
|
865
|
-
<p
|
866
|
-
|
775
|
+
<p>テキストファイルやオブジェクトの中身をページャーで表示します。
|
776
|
+
ここで使用するページャーは pager コマンドで変更することができます(後述)。</p>
|
867
777
|
<pre>bioruby> disp "gbphg.seq"
|
868
778
|
bioruby> disp entry
|
869
779
|
bioruby> disp [1, 2, 3] * 4</pre>
|
870
|
-
<h3><a name="label-
|
780
|
+
<h3><a name="label-50" id="label-50">変数</a></h3><!-- RDLabel: "変数" -->
|
871
781
|
<dl>
|
872
|
-
<dt><a name="label-
|
782
|
+
<dt><a name="label-51" id="label-51"><code>ls</code></a></dt><!-- RDLabel: "ls" -->
|
873
783
|
</dl>
|
874
|
-
<p
|
784
|
+
<p>セッション中に作成した変数(オブジェクト)の一覧を表示します。</p>
|
875
785
|
<pre>bioruby> ls
|
876
786
|
["entry", "seq"]
|
877
787
|
|
878
788
|
bioruby> a = 123
|
879
789
|
["a", "entry", "seq"]</pre>
|
880
790
|
<dl>
|
881
|
-
<dt><a name="label-
|
791
|
+
<dt><a name="label-52" id="label-52"><code>rm(<var>symbol</var>)</code></a></dt><!-- RDLabel: "rm" -->
|
882
792
|
</dl>
|
883
|
-
<p
|
793
|
+
<p>変数を消去します。</p>
|
884
794
|
<pre>bioruby> rm "a"
|
885
795
|
|
886
796
|
bioruby> ls
|
887
797
|
["entry", "seq"]</pre>
|
888
798
|
<dl>
|
889
|
-
<dt><a name="label-
|
799
|
+
<dt><a name="label-53" id="label-53"><code>savefile(<var>filename</var>, <var>object</var>)</code></a></dt><!-- RDLabel: "savefile" -->
|
890
800
|
</dl>
|
891
|
-
<p
|
801
|
+
<p>変数に保存されている内容をテキストファイルに保存します。</p>
|
892
802
|
<pre>bioruby> savefile "testfile.txt", entry
|
893
803
|
Saving data (testfile.txt) ... done
|
894
804
|
|
895
805
|
bioruby> disp "testfile.txt"</pre>
|
896
|
-
<h3><a name="label-
|
897
|
-
<p
|
898
|
-
|
899
|
-
|
806
|
+
<h3><a name="label-54" id="label-54">各種設定</a></h3><!-- RDLabel: "各種設定" -->
|
807
|
+
<p>永続化の仕組みとして BioRuby シェル終了時に session ディレクトリ内に
|
808
|
+
ヒストリ、オブジェクト、個人の設定が保存され、次回起動時に自動的に
|
809
|
+
読み込まれます。</p>
|
900
810
|
<dl>
|
901
|
-
<dt><a name="label-
|
811
|
+
<dt><a name="label-55" id="label-55"><code>config</code></a></dt><!-- RDLabel: "config" -->
|
902
812
|
</dl>
|
903
|
-
<p>BioRuby
|
813
|
+
<p>BioRuby シェルの各種設定を表示します。</p>
|
904
814
|
<pre>bioruby> config
|
905
815
|
message = "...BioRuby in the shell..."
|
906
816
|
marshal = [4, 8]
|
907
817
|
color = false
|
908
818
|
pager = nil
|
909
819
|
echo = false</pre>
|
910
|
-
<p>echo
|
911
|
-
|
912
|
-
irb
|
913
|
-
|
914
|
-
off
|
820
|
+
<p>echo 表示するかどうかを切り替えます。on の場合は、puts や p などを
|
821
|
+
つけなくても評価した値が画面に表示されます。
|
822
|
+
irb コマンドの場合は初期設定が on になっていますが、bioruby コマンドでは
|
823
|
+
長い配列やエントリなど長大な文字列を扱うことが多いため、初期設定では
|
824
|
+
off にしています。</p>
|
915
825
|
<pre>bioruby> config :echo
|
916
826
|
Echo on
|
917
827
|
==> nil
|
918
828
|
|
919
829
|
bioruby> config :echo
|
920
830
|
Echo off</pre>
|
921
|
-
<p
|
922
|
-
|
831
|
+
<p>コドン表など、可能な場合にカラー表示するかどうかを切り替えます。
|
832
|
+
カラー表示の場合、プロンプトにも色がつきますので判別できます。</p>
|
923
833
|
<pre>bioruby> config :color
|
924
834
|
bioruby> codontable
|
925
|
-
(
|
926
|
-
<p
|
835
|
+
(色付き)</pre>
|
836
|
+
<p>実行するたびに設定が切り替わります。</p>
|
927
837
|
<pre>bioruby> config :color
|
928
838
|
bioruby> codontable
|
929
|
-
(
|
930
|
-
<p>BioRuby
|
931
|
-
|
932
|
-
|
839
|
+
(色なし)</pre>
|
840
|
+
<p>BioRuby シェル起動時に表示されるスプラッシュメッセージを違う文字列に
|
841
|
+
変更します。何の解析プロジェクト用のディレクトリかを指定しておくのも
|
842
|
+
よいでしょう。</p>
|
933
843
|
<pre>bioruby> config :message, "Kumamushi genome project"
|
934
844
|
|
935
845
|
K u m a m u s h i g e n o m e p r o j e c t
|
936
846
|
|
937
847
|
Version : BioRuby 0.8.0 / Ruby 1.8.4</pre>
|
938
|
-
<p
|
848
|
+
<p>デフォルトの文字列に戻すには、引数なしで実行します。</p>
|
939
849
|
<pre>bioruby> config :message</pre>
|
940
|
-
<p>BioRuby
|
941
|
-
|
942
|
-
|
850
|
+
<p>BioRuby シェル起動時に表示されるスプラッシュメッセ−ジを
|
851
|
+
アニメーション表示するかどうかを切り替えます。
|
852
|
+
こちらも実行するたびに設定が切り替わります。</p>
|
943
853
|
<pre>bioruby> config :splash
|
944
854
|
Splash on</pre>
|
945
855
|
<dl>
|
946
|
-
<dt><a name="label-
|
856
|
+
<dt><a name="label-56" id="label-56"><code>pager(<var>command</var>)</code></a></dt><!-- RDLabel: "pager" -->
|
947
857
|
</dl>
|
948
|
-
<p>disp
|
858
|
+
<p>disp コマンドで実際に利用するページャーを切り替えます。</p>
|
949
859
|
<pre>bioruby> pager "lv"
|
950
860
|
Pager is set to 'lv'
|
951
861
|
|
952
862
|
bioruby> pager "less -S"
|
953
863
|
Pager is set to 'less -S'</pre>
|
954
|
-
<p
|
864
|
+
<p>ページャーを使用しない設定にする場合は引数なしで実行します。</p>
|
955
865
|
<pre>bioruby> pager
|
956
866
|
Pager is set to 'off'</pre>
|
957
|
-
<p
|
867
|
+
<p>ページャーが off の時に引数なしで実行すると環境変数 PAGER の値を利用します。</p>
|
958
868
|
<pre>bioruby> pager
|
959
869
|
Pager is set to 'less'</pre>
|
960
|
-
<h3><a name="label-
|
870
|
+
<h3><a name="label-57" id="label-57">遺伝子アスキーアート</a></h3><!-- RDLabel: "遺伝子アスキーアート" -->
|
961
871
|
<dl>
|
962
|
-
<dt><a name="label-
|
872
|
+
<dt><a name="label-58" id="label-58"><code>doublehelix(<var>sequence</var>)</code></a></dt><!-- RDLabel: "doublehelix" -->
|
963
873
|
</dl>
|
964
|
-
<p>DNA
|
965
|
-
|
874
|
+
<p>DNA 配列をアスキーアートで表示するオマケ機能があります。
|
875
|
+
適当な塩基配列 seq を二重螺旋っぽく表示してみましょう。</p>
|
966
876
|
<pre>bioruby> dna = getseq("atgc" * 10).randomize
|
967
877
|
bioruby> doublehelix dna
|
968
878
|
ta
|
@@ -978,146 +888,146 @@ a--t
|
|
978
888
|
g---c
|
979
889
|
c----g
|
980
890
|
c----g
|
981
|
-
(
|
982
|
-
<h3><a name="label-
|
891
|
+
(略)</pre>
|
892
|
+
<h3><a name="label-59" id="label-59">遺伝子音楽</a></h3><!-- RDLabel: "遺伝子音楽" -->
|
983
893
|
<dl>
|
984
|
-
<dt><a name="label-
|
894
|
+
<dt><a name="label-60" id="label-60"><code>midifile(<var>midifile</var>, <var>sequence</var>)</code></a></dt><!-- RDLabel: "midifile" -->
|
985
895
|
</dl>
|
986
|
-
<p>DNA
|
987
|
-
|
988
|
-
MIDI
|
896
|
+
<p>DNA 配列を MIDI ファイルに変換するオマケ機能があります。
|
897
|
+
適当な塩基配列 seq を使って生成した midifile.mid を
|
898
|
+
MIDI プレイヤーで演奏してみましょう。</p>
|
989
899
|
<pre>bioruby> midifile("midifile.mid", seq)
|
990
900
|
Saving MIDI file (midifile.mid) ... done</pre>
|
991
|
-
<p
|
992
|
-
|
993
|
-
<h2><a name="label-
|
994
|
-
<p>Bio::Sequence
|
995
|
-
|
996
|
-
|
997
|
-
|
998
|
-
|
999
|
-
|
1000
|
-
|
1001
|
-
|
901
|
+
<p>以上で BioRuby シェルの解説を終わり、以下では BioRuby ライブラリ自体の
|
902
|
+
解説を行います。</p>
|
903
|
+
<h2><a name="label-61" id="label-61">塩基・アミノ酸配列を処理する (Bio::Sequence クラス)</a></h2><!-- RDLabel: "塩基・アミノ酸配列を処理する (Bio::Sequence クラス)" -->
|
904
|
+
<p>Bio::Sequence クラスは、配列に対する様々な操作を行うことができます。
|
905
|
+
簡単な例として、短い塩基配列 atgcatgcaaaa を使って、相補配列への変換、
|
906
|
+
部分配列の切り出し、塩基組成の計算、アミノ酸への翻訳、分子量計算などを
|
907
|
+
行なってみます。アミノ酸への翻訳では、必要に応じて何塩基目から翻訳を開
|
908
|
+
始するかフレームを指定したり、codontable.rb で定義されているコドンテー
|
909
|
+
ブルの中から使用するものを指定したりする事ができます(コドンテーブルの
|
910
|
+
番号は <a href="http://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi"><URL:http://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi></a>
|
911
|
+
を参照)。</p>
|
1002
912
|
<pre>#!/usr/bin/env ruby
|
1003
913
|
|
1004
914
|
require 'bio'
|
1005
915
|
|
1006
916
|
seq = Bio::Sequence::NA.new("atgcatgcaaaa")
|
1007
917
|
|
1008
|
-
puts seq #
|
1009
|
-
puts seq.complement #
|
1010
|
-
puts seq.subseq(3,8) # 3
|
918
|
+
puts seq # 元の配列
|
919
|
+
puts seq.complement # 相補配列 (Bio::Sequence::NA)
|
920
|
+
puts seq.subseq(3,8) # 3 塩基目から 8 塩基目まで
|
1011
921
|
|
1012
|
-
p seq.gc_percent # GC
|
1013
|
-
p seq.composition #
|
922
|
+
p seq.gc_percent # GC 塩基の割合 (Integer)
|
923
|
+
p seq.composition # 全塩基組成 (Hash)
|
1014
924
|
|
1015
|
-
puts seq.translate #
|
1016
|
-
puts seq.translate(2) #
|
1017
|
-
puts seq.translate(1,9) #
|
925
|
+
puts seq.translate # 翻訳配列 (Bio::Sequence::AA)
|
926
|
+
puts seq.translate(2) # 2文字目から翻訳(普通は1から)
|
927
|
+
puts seq.translate(1,9) # 9番のコドンテーブルを使用
|
1018
928
|
|
1019
|
-
p seq.translate.codes #
|
1020
|
-
p seq.translate.names #
|
1021
|
-
p seq.translate.composition #
|
1022
|
-
p seq.translate.molecular_weight #
|
929
|
+
p seq.translate.codes # アミノ酸を3文字コードで表示 (Array)
|
930
|
+
p seq.translate.names # アミノ酸を名前で表示 (Array)
|
931
|
+
p seq.translate.composition # アミノ酸組成 (Hash)
|
932
|
+
p seq.translate.molecular_weight # 分子量を計算 (Float)
|
1023
933
|
|
1024
|
-
puts seq.complement.translate #
|
1025
|
-
<p>print, puts, p
|
1026
|
-
|
1027
|
-
p
|
1028
|
-
|
934
|
+
puts seq.complement.translate # 相補配列の翻訳</pre>
|
935
|
+
<p>print, puts, p は内容を画面に表示するための Ruby 標準メソッドです。
|
936
|
+
基本となる print と比べて、puts は改行を自動でつけてくれる、
|
937
|
+
p は文字列や数字以外のオブジェクトも人間が見やすいように表示してくれる、
|
938
|
+
という特徴がありますので適宜使い分けます。さらに、</p>
|
1029
939
|
<pre>require 'pp'</pre>
|
1030
|
-
<p
|
1031
|
-
<p
|
1032
|
-
|
1033
|
-
|
1034
|
-
<p
|
1035
|
-
String
|
1036
|
-
Bio::Sequence
|
1037
|
-
[]
|
1038
|
-
<p>Ruby
|
940
|
+
<p>とすれば使えるようになる pp メソッドは、p よりも表示が見やすくなります。</p>
|
941
|
+
<p>塩基配列は Bio::Sequence::NA クラスの、アミノ酸配列は Bio::Sequence::AA
|
942
|
+
クラスのオブジェクトになります。それぞれ Bio::Sequence クラスを継承し
|
943
|
+
ているため、多くのメソッドは共通です。</p>
|
944
|
+
<p>さらに Bio::Sequence::NA, AA クラスは Ruby の String クラスを継承しているので
|
945
|
+
String クラスが持つメソッドも使う事ができます。例えば部分配列を切り出すには
|
946
|
+
Bio::Sequence クラスの subseq(from,to) メソッドの他に、String クラスの
|
947
|
+
[] メソッドを使うこともできます。</p>
|
948
|
+
<p>Ruby の文字列は 1 文字目を 0 番目として数える点には注意が必要です。たとえば、</p>
|
1039
949
|
<pre>puts seq.subseq(1, 3)
|
1040
950
|
puts seq[0, 3]</pre>
|
1041
|
-
<p
|
1042
|
-
<p
|
1043
|
-
1
|
1044
|
-
|
1045
|
-
|
1046
|
-
<p
|
1047
|
-
<pre>#
|
951
|
+
<p>はどちらも seq の最初の3文字 atg を表示します。</p>
|
952
|
+
<p>このように、String のメソッドを使う場合は、生物学で普通使用される 1 文字目を
|
953
|
+
1 番目として数えた数字からは 1 を引く必要があります(subseq メソッドは
|
954
|
+
これを内部でやっています。また、from, to のどちらかでも 0 以下の場合は
|
955
|
+
例外が発生するようになっています)。</p>
|
956
|
+
<p>ここまでの処理を BioRuby シェルで試すと以下のようになります。</p>
|
957
|
+
<pre># 次の行は seq = seq("atgcatgcaaaa") でもよい
|
1048
958
|
bioruby> seq = Bio::Sequence::NA.new("atgcatgcaaaa")
|
1049
|
-
#
|
959
|
+
# 生成した配列を表示
|
1050
960
|
bioruby> puts seq
|
1051
961
|
atgcatgcaaaa
|
1052
|
-
#
|
962
|
+
# 相補配列を表示
|
1053
963
|
bioruby> puts seq.complement
|
1054
964
|
ttttgcatgcat
|
1055
|
-
#
|
965
|
+
# 部分配列を表示(3塩基目から8塩基目まで)
|
1056
966
|
bioruby> puts seq.subseq(3,8)
|
1057
967
|
gcatgc
|
1058
|
-
#
|
968
|
+
# 配列の GC% を表示
|
1059
969
|
bioruby> p seq.gc_percent
|
1060
970
|
33
|
1061
|
-
#
|
971
|
+
# 配列の組成を表示
|
1062
972
|
bioruby> p seq.composition
|
1063
973
|
{"a"=>6, "c"=>2, "g"=>2, "t"=>2}
|
1064
|
-
#
|
974
|
+
# アミノ酸配列への翻訳
|
1065
975
|
bioruby> puts seq.translate
|
1066
976
|
MHAK
|
1067
|
-
#
|
977
|
+
# 2塩基を開始塩基として翻訳
|
1068
978
|
bioruby> puts seq.translate(2)
|
1069
979
|
CMQ
|
1070
|
-
#
|
980
|
+
# 9番のコドンテーブルを使用して翻訳
|
1071
981
|
bioruby> puts seq.translate(1,9)
|
1072
982
|
MHAN
|
1073
|
-
#
|
983
|
+
# 翻訳されたアミノ酸配列を3文字コードで表示
|
1074
984
|
bioruby> p seq.translate.codes
|
1075
985
|
["Met", "His", "Ala", "Lys"]
|
1076
|
-
#
|
986
|
+
# 翻訳されたアミノ酸配列をアミノ酸の名前で表示
|
1077
987
|
bioruby> p seq.translate.names
|
1078
988
|
["methionine", "histidine", "alanine", "lysine"]
|
1079
|
-
#
|
989
|
+
# 翻訳されたアミノ酸配列の組成を表示
|
1080
990
|
bioruby> p seq.translate.composition
|
1081
991
|
{"K"=>1, "A"=>1, "M"=>1, "H"=>1}
|
1082
|
-
#
|
992
|
+
# 翻訳されたアミノ酸配列の分子量を表示
|
1083
993
|
bioruby> p seq.translate.molecular_weight
|
1084
994
|
485.605
|
1085
|
-
#
|
995
|
+
# 相補配列を翻訳
|
1086
996
|
bioruby> puts seq.complement.translate
|
1087
997
|
FCMH
|
1088
|
-
#
|
998
|
+
# 部分配列(1塩基目から3塩基目まで)
|
1089
999
|
bioruby> puts seq.subseq(1, 3)
|
1090
1000
|
atg
|
1091
|
-
#
|
1001
|
+
# 部分配列(1塩基目から3塩基目まで)
|
1092
1002
|
bioruby> puts seq[0, 3]
|
1093
1003
|
atg</pre>
|
1094
|
-
<p>window_search(window_size, step_size)
|
1095
|
-
|
1096
|
-
Ruby
|
1097
|
-
|
1098
|
-
|
1004
|
+
<p>window_search(window_size, step_size) メソッドを使うと、配列に対してウィ
|
1005
|
+
ンドウをずらしながらそれぞれの部分配列に対する処理を行うことができます。
|
1006
|
+
Ruby の特長のひとつである「ブロック」によって、「それぞれに対する処理」を
|
1007
|
+
簡潔かつ明瞭に書くことが可能です。以下の例では、subseq という変数にそれぞれ
|
1008
|
+
部分配列を代入しながらブロックを繰り返し実行することになります。</p>
|
1099
1009
|
<ul>
|
1100
|
-
<li><p>100
|
1010
|
+
<li><p>100 塩基ごとに(1塩基ずつずらしながら)平均 GC% を計算して表示する</p>
|
1101
1011
|
<pre>seq.window_search(100) do |subseq|
|
1102
1012
|
puts subseq.gc_percent
|
1103
1013
|
end</pre></li>
|
1104
1014
|
</ul>
|
1105
|
-
<p
|
1106
|
-
Bio::Sequence::AA
|
1107
|
-
|
1108
|
-
<p
|
1015
|
+
<p>ブロックの中で受け取る部分配列も、元と同じ Bio::Sequence::NA または
|
1016
|
+
Bio::Sequence::AA クラスのオブジェクトなので、配列クラスの持つ全てのメ
|
1017
|
+
ソッドを実行することができます。</p>
|
1018
|
+
<p>また、2番目の引数に移動幅を指定することが出来るようになっているので、</p>
|
1109
1019
|
<ul>
|
1110
|
-
<li><p
|
1020
|
+
<li><p>コドン単位でずらしながら 15 塩基を 5 残基のペプチドに翻訳して表示する</p>
|
1111
1021
|
<pre>seq.window_search(15, 3) do |subseq|
|
1112
1022
|
puts subseq.translate
|
1113
1023
|
end</pre></li>
|
1114
1024
|
</ul>
|
1115
|
-
<p
|
1116
|
-
|
1025
|
+
<p>といったことができます。さらに移動幅に満たない右端の部分配列をメソッド
|
1026
|
+
自体の返り値として戻すようになっているので、</p>
|
1117
1027
|
<ul>
|
1118
|
-
<li><p
|
1119
|
-
|
1120
|
-
|
1028
|
+
<li><p>ゲノム配列を 10000bp ごとにブツ切りにして FASTA フォーマットに整形、
|
1029
|
+
このとき末端 1000bp はオーバーラップさせ、10000bp に満たない 3' 端は
|
1030
|
+
別途受け取って表示する</p>
|
1121
1031
|
<pre>i = 1
|
1122
1032
|
remainder = seq.window_search(10000, 9000) do |subseq|
|
1123
1033
|
puts subseq.to_fasta("segment #{i}", 60)
|
@@ -1125,68 +1035,68 @@ remainder = seq.window_search(10000, 9000) do |subseq|
|
|
1125
1035
|
end
|
1126
1036
|
puts remainder.to_fasta("segment #{i}", 60)</pre></li>
|
1127
1037
|
</ul>
|
1128
|
-
<p
|
1129
|
-
<p
|
1130
|
-
|
1038
|
+
<p>のような事もわりと簡単にできます。</p>
|
1039
|
+
<p>ウィンドウの幅と移動幅を同じにするとオーバーラップしないウィンドウサー
|
1040
|
+
チができるので、</p>
|
1131
1041
|
<ul>
|
1132
|
-
<li><p
|
1042
|
+
<li><p>コドン頻度を数える</p>
|
1133
1043
|
<pre>codon_usage = Hash.new(0)
|
1134
1044
|
seq.window_search(3, 3) do |subseq|
|
1135
1045
|
codon_usage[subseq] += 1
|
1136
1046
|
end</pre></li>
|
1137
|
-
<li><p>10
|
1047
|
+
<li><p>10 残基ずつ分子量を計算</p>
|
1138
1048
|
<pre>seq.window_search(10, 10) do |subseq|
|
1139
1049
|
puts subseq.molecular_weight
|
1140
1050
|
end</pre></li>
|
1141
1051
|
</ul>
|
1142
|
-
<p
|
1143
|
-
<p
|
1144
|
-
|
1052
|
+
<p>といった応用も考えられます。</p>
|
1053
|
+
<p>実際には Bio::Sequence::NA オブジェクトはファイルから読み込んだ文字列か
|
1054
|
+
ら生成したり、データベースから取得したものを使ったりします。たとえば、</p>
|
1145
1055
|
<pre>#!/usr/bin/env ruby
|
1146
1056
|
|
1147
1057
|
require 'bio'
|
1148
1058
|
|
1149
|
-
input_seq = ARGF.read #
|
1059
|
+
input_seq = ARGF.read # 引数で与えられたファイルの全行を読み込む
|
1150
1060
|
|
1151
1061
|
my_naseq = Bio::Sequence::NA.new(input_seq)
|
1152
1062
|
my_aaseq = my_naseq.translate
|
1153
1063
|
|
1154
1064
|
puts my_aaseq</pre>
|
1155
|
-
<p
|
1065
|
+
<p>このプログラムを na2aa.rb として、以下の塩基配列</p>
|
1156
1066
|
<pre>gtggcgatctttccgaaagcgatgactggagcgaagaaccaaagcagtgacatttgtctg
|
1157
1067
|
atgccgcacgtaggcctgataagacgcggacagcgtcgcatcaggcatcttgtgcaaatg
|
1158
1068
|
tcggatgcggcgtga</pre>
|
1159
|
-
<p
|
1069
|
+
<p>を書いたファイル my_naseq.txt を読み込んで翻訳すると</p>
|
1160
1070
|
<pre>% ./na2aa.rb my_naseq.txt
|
1161
1071
|
VAIFPKAMTGAKNQSSDICLMPHVGLIRRGQRRIRHLVQMSDAA*</pre>
|
1162
|
-
<p
|
1072
|
+
<p>のようになります。ちなみに、このくらいの例なら短くすると1行で書けます。</p>
|
1163
1073
|
<pre>% ruby -r bio -e 'p Bio::Sequence::NA.new($<.read).translate' my_naseq.txt</pre>
|
1164
|
-
<p
|
1165
|
-
|
1166
|
-
<h2><a name="label-
|
1167
|
-
<p>GenBank
|
1168
|
-
ftp://ftp.ncbi.nih.gov/genbank/
|
1074
|
+
<p>しかし、いちいちファイルを作るのも面倒なので、次はデータベースから必要な
|
1075
|
+
情報を取得してみます。</p>
|
1076
|
+
<h2><a name="label-62" id="label-62">GenBank のパース (Bio::GenBank クラス)</a></h2><!-- RDLabel: "GenBank のパース (Bio::GenBank クラス)" -->
|
1077
|
+
<p>GenBank 形式のファイルを用意してください(手元にない場合は、
|
1078
|
+
ftp://ftp.ncbi.nih.gov/genbank/ から .seq ファイルをダウンロードします)。</p>
|
1169
1079
|
<pre>% wget ftp://ftp.hgc.jp/pub/mirror/ncbi/genbank/gbphg.seq.gz
|
1170
1080
|
% gunzip gbphg.seq.gz</pre>
|
1171
|
-
<p
|
1172
|
-
|
1173
|
-
<p>Bio::GenBank::DELIMITER
|
1174
|
-
|
1175
|
-
|
1081
|
+
<p>まずは、各エントリから ID と説明文、配列を取り出して FASTA 形式に変換して
|
1082
|
+
みましょう。</p>
|
1083
|
+
<p>Bio::GenBank::DELIMITER は GenBank クラスで定義されている定数で、
|
1084
|
+
データベースごとに異なるエントリの区切り文字(たとえば GenBank の場合は //)
|
1085
|
+
を覚えていなくても良いようになっています。</p>
|
1176
1086
|
<pre>#!/usr/bin/env ruby
|
1177
1087
|
|
1178
1088
|
require 'bio'
|
1179
1089
|
|
1180
1090
|
while entry = gets(Bio::GenBank::DELIMITER)
|
1181
|
-
gb = Bio::GenBank.new(entry) # GenBank
|
1091
|
+
gb = Bio::GenBank.new(entry) # GenBank オブジェクト
|
1182
1092
|
|
1183
|
-
print ">#{gb.accession} " # ACCESSION
|
1184
|
-
puts gb.definition # DEFINITION
|
1185
|
-
puts gb.naseq #
|
1093
|
+
print ">#{gb.accession} " # ACCESSION 番号
|
1094
|
+
puts gb.definition # DEFINITION 行
|
1095
|
+
puts gb.naseq # 塩基配列(Sequence::NA オブジェクト)
|
1186
1096
|
end</pre>
|
1187
|
-
<p
|
1188
|
-
|
1189
|
-
|
1097
|
+
<p>しかし、この書き方では GenBank ファイルのデータ構造に依存しています。
|
1098
|
+
ファイルからのデータ入力を扱うクラス Bio::FlatFile を使用することで、
|
1099
|
+
以下のように区切り文字などを気にせず書くことができます。</p>
|
1190
1100
|
<pre>#!/usr/bin/env ruby
|
1191
1101
|
|
1192
1102
|
require 'bio'
|
@@ -1196,7 +1106,7 @@ ff.each_entry do |gb|
|
|
1196
1106
|
definition = "#{gb.accession} #{gb.definition}"
|
1197
1107
|
puts gb.naseq.to_fasta(definition, 60)
|
1198
1108
|
end</pre>
|
1199
|
-
<p
|
1109
|
+
<p>形式の違うデータ、たとえばFASTAフォーマットのファイルを読み込むときでも、</p>
|
1200
1110
|
<pre>#!/usr/bin/env ruby
|
1201
1111
|
|
1202
1112
|
require 'bio'
|
@@ -1207,8 +1117,8 @@ ff.each_entry do |f|
|
|
1207
1117
|
puts "nalen : " + f.nalen.to_s
|
1208
1118
|
puts "naseq : " + f.naseq
|
1209
1119
|
end</pre>
|
1210
|
-
<p
|
1211
|
-
<p
|
1120
|
+
<p>のように、同じような書き方で済ませられます。</p>
|
1121
|
+
<p>さらに、各 Bio::DB クラスの open メソッドで同様のことができます。たとえば、</p>
|
1212
1122
|
<pre>#!/usr/bin/env ruby
|
1213
1123
|
|
1214
1124
|
require 'bio'
|
@@ -1218,117 +1128,117 @@ ff.each_entry do |gb|
|
|
1218
1128
|
definition = "#{gb.accession} #{gb.definition}"
|
1219
1129
|
puts gb.naseq.to_fasta(definition, 60)
|
1220
1130
|
end</pre>
|
1221
|
-
<p
|
1222
|
-
<p
|
1223
|
-
|
1224
|
-
|
1131
|
+
<p>などと書くことができます(ただし、この書き方はあまり使われていません)。</p>
|
1132
|
+
<p>次に、GenBank の複雑な FEATURES の中をパースして必要な情報を取り出します。
|
1133
|
+
まずは /tranlation="アミノ酸配列" という Qualifier がある場合だけ
|
1134
|
+
アミノ酸配列を抽出して表示してみます。</p>
|
1225
1135
|
<pre>#!/usr/bin/env ruby
|
1226
1136
|
|
1227
1137
|
require 'bio'
|
1228
1138
|
|
1229
1139
|
ff = Bio::FlatFile.new(Bio::GenBank, ARGF)
|
1230
1140
|
|
1231
|
-
# GenBank
|
1141
|
+
# GenBank の1エントリごとに
|
1232
1142
|
ff.each_entry do |gb|
|
1233
1143
|
|
1234
|
-
# FEATURES
|
1144
|
+
# FEATURES の要素を一つずつ処理
|
1235
1145
|
gb.features.each do |feature|
|
1236
1146
|
|
1237
|
-
# Feature
|
1147
|
+
# Feature に含まれる Qualifier を全てハッシュに変換
|
1238
1148
|
hash = feature.to_hash
|
1239
1149
|
|
1240
|
-
# Qualifier
|
1150
|
+
# Qualifier に translation がある場合だけ
|
1241
1151
|
if hash['translation']
|
1242
|
-
#
|
1152
|
+
# エントリのアクセッション番号と翻訳配列を表示
|
1243
1153
|
puts ">#{gb.accession}
|
1244
1154
|
puts hash['translation']
|
1245
1155
|
end
|
1246
1156
|
end
|
1247
1157
|
end</pre>
|
1248
|
-
<p
|
1249
|
-
|
1250
|
-
|
1158
|
+
<p>さらに、Feature のポジションに書かれている情報からエントリの塩基配列を
|
1159
|
+
スプライシングし、それを翻訳したものと /translation= に書かれていた配列を
|
1160
|
+
両方表示して比べてみましょう。</p>
|
1251
1161
|
<pre>#!/usr/bin/env ruby
|
1252
1162
|
|
1253
1163
|
require 'bio'
|
1254
1164
|
|
1255
1165
|
ff = Bio::FlatFile.new(Bio::GenBank, ARGF)
|
1256
1166
|
|
1257
|
-
# GenBank
|
1167
|
+
# GenBank の1エントリごとに
|
1258
1168
|
ff.each_entry do |gb|
|
1259
1169
|
|
1260
|
-
# ACCESSION
|
1170
|
+
# ACCESSION 番号と生物種名を表示
|
1261
1171
|
puts "### #{gb.accession} - #{gb.organism}"
|
1262
1172
|
|
1263
|
-
# FEATURES
|
1173
|
+
# FEATURES の要素を一つずつ処理
|
1264
1174
|
gb.features.each do |feature|
|
1265
1175
|
|
1266
|
-
# Feature
|
1176
|
+
# Feature の position (join ...など) を取り出す
|
1267
1177
|
position = feature.position
|
1268
1178
|
|
1269
|
-
# Feature
|
1179
|
+
# Feature に含まれる Qualifier を全てハッシュに変換
|
1270
1180
|
hash = feature.to_hash
|
1271
1181
|
|
1272
|
-
# /translation=
|
1182
|
+
# /translation= がなければスキップ
|
1273
1183
|
next unless hash['translation']
|
1274
1184
|
|
1275
|
-
# /gene=, /product=
|
1185
|
+
# /gene=, /product= などの Qualifier から遺伝子名などの情報を集める
|
1276
1186
|
gene_info = [
|
1277
1187
|
hash['gene'], hash['product'], hash['note'], hash['function']
|
1278
1188
|
].compact.join(', ')
|
1279
1189
|
puts "## #{gene_info}"
|
1280
1190
|
|
1281
|
-
#
|
1191
|
+
# 塩基配列(position の情報によってスプライシング)
|
1282
1192
|
puts ">NA splicing('#{position}')"
|
1283
1193
|
puts gb.naseq.splicing(position)
|
1284
1194
|
|
1285
|
-
#
|
1195
|
+
# アミノ酸配列(スプライシングした塩基配列から翻訳)
|
1286
1196
|
puts ">AA translated by splicing('#{position}').translate"
|
1287
1197
|
puts gb.naseq.splicing(position).translate
|
1288
1198
|
|
1289
|
-
#
|
1199
|
+
# アミノ酸配列(/translation= に書かれていたのもの)
|
1290
1200
|
puts ">AA original translation"
|
1291
1201
|
puts hash['translation']
|
1292
1202
|
end
|
1293
1203
|
end</pre>
|
1294
|
-
<p
|
1295
|
-
|
1296
|
-
|
1297
|
-
|
1298
|
-
<p
|
1299
|
-
DDBJ
|
1300
|
-
|
1301
|
-
<p
|
1302
|
-
BioRuby
|
1303
|
-
|
1304
|
-
Location
|
1305
|
-
BioRuby
|
1204
|
+
<p>もし、使用されているコドンテーブルがデフォルト (universal) と違ったり、
|
1205
|
+
最初のコドンが "atg" 以外だったり、セレノシステインが含まれていたり、
|
1206
|
+
あるいは BioRuby にバグがあれば、上の例で表示される2つのアミノ酸配列は
|
1207
|
+
異なる事になります。</p>
|
1208
|
+
<p>この例で使用されている Bio::Sequence#splicing メソッドは、GenBank, EMBL,
|
1209
|
+
DDBJ フォーマットで使われている Location の表記を元に、塩基配列から
|
1210
|
+
部分配列を切り出す強力なメソッドです。</p>
|
1211
|
+
<p>この splicing メソッドの引数には GenBank 等の Location の文字列以外に
|
1212
|
+
BioRuby の Bio::Locations オブジェクトを渡すことも可能ですが、
|
1213
|
+
通常は見慣れている Location 文字列の方が分かりやすいかも知れません。
|
1214
|
+
Location 文字列のフォーマットや Bio::Locations について詳しく知りたい場合は
|
1215
|
+
BioRuby の bio/location.rb を見てください。</p>
|
1306
1216
|
<ul>
|
1307
|
-
<li><p>GenBank
|
1217
|
+
<li><p>GenBank 形式のデータの Feature で使われていた Location 文字列の例</p>
|
1308
1218
|
<pre>naseq.splicing('join(2035..2050,complement(1775..1818),13..345')</pre></li>
|
1309
|
-
<li><p
|
1219
|
+
<li><p>あらかじめ Locations オブジェクトに変換してから渡してもよい</p>
|
1310
1220
|
<pre>locs = Bio::Locations.new('join((8298.8300)..10206,1..855)')
|
1311
1221
|
naseq.splicing(locs)</pre></li>
|
1312
1222
|
</ul>
|
1313
|
-
<p
|
1314
|
-
|
1223
|
+
<p>ちなみに、アミノ酸配列 (Bio::Sequence::AA) についても splicing メソッド
|
1224
|
+
を使用して部分配列を取り出すことが可能です。</p>
|
1315
1225
|
<ul>
|
1316
|
-
<li><p
|
1226
|
+
<li><p>アミノ酸配列の部分配列を切り出す(シグナルペプチドなど)</p>
|
1317
1227
|
<pre>aaseq.splicing('21..119')</pre></li>
|
1318
1228
|
</ul>
|
1319
|
-
<h3><a name="label-
|
1320
|
-
<p>BioRuby
|
1321
|
-
|
1322
|
-
|
1323
|
-
<p
|
1324
|
-
|
1325
|
-
Bio::FlatFile.new
|
1326
|
-
|
1327
|
-
<pre>ff = Bio::FlatFile.new(Bio
|
1328
|
-
<p
|
1329
|
-
|
1229
|
+
<h3><a name="label-63" id="label-63">GenBank 以外のデータベース</a></h3><!-- RDLabel: "GenBank 以外のデータベース" -->
|
1230
|
+
<p>BioRuby では、GenBank 以外のデータベースについても基本的な扱い方は同じで、
|
1231
|
+
データベースの1エントリ分の文字列を対応するデータベースのクラスに渡せば、
|
1232
|
+
パースされた結果がオブジェクトになって返ってきます。</p>
|
1233
|
+
<p>データベースのフラットファイルから1エントリずつ取り出してパースされた
|
1234
|
+
オブジェクトを取り出すには、先にも出てきた Bio::FlatFile を使います。
|
1235
|
+
Bio::FlatFile.new の引数にはデータベースに対応する BioRuby でのクラス
|
1236
|
+
名 (Bio::GenBank や Bio::KEGG::GENES など) を指定します。</p>
|
1237
|
+
<pre>ff = Bio::FlatFile.new(Bio::データベースクラス名, ARGF)</pre>
|
1238
|
+
<p>しかし、すばらしいことに、実は FlatFile クラスはデータベースの自動認識が
|
1239
|
+
できますので、</p>
|
1330
1240
|
<pre>ff = Bio::FlatFile.auto(ARGF)</pre>
|
1331
|
-
<p
|
1241
|
+
<p>を使うのが一番簡単です。</p>
|
1332
1242
|
<pre>#!/usr/bin/env ruby
|
1333
1243
|
|
1334
1244
|
require 'bio'
|
@@ -1336,237 +1246,237 @@ require 'bio'
|
|
1336
1246
|
ff = Bio::FlatFile.auto(ARGF)
|
1337
1247
|
|
1338
1248
|
ff.each_entry do |entry|
|
1339
|
-
p entry.entry_id #
|
1340
|
-
p entry.definition #
|
1341
|
-
p entry.seq #
|
1249
|
+
p entry.entry_id # エントリの ID
|
1250
|
+
p entry.definition # エントリの説明文
|
1251
|
+
p entry.seq # 配列データベースの場合
|
1342
1252
|
end
|
1343
1253
|
|
1344
1254
|
ff.close</pre>
|
1345
|
-
<p
|
1346
|
-
|
1255
|
+
<p>さらに、開いたデータベースの閉じ忘れをなくすためには Ruby のブロックを
|
1256
|
+
活用して以下のように書くのがよいでしょう。</p>
|
1347
1257
|
<pre>#!/usr/bin/env ruby
|
1348
1258
|
|
1349
1259
|
require 'bio'
|
1350
1260
|
|
1351
1261
|
Bio::FlatFile.auto(ARGF) do |ff|
|
1352
1262
|
ff.each_entry do |entry|
|
1353
|
-
p entry.entry_id #
|
1354
|
-
p entry.definition #
|
1355
|
-
p entry.seq #
|
1263
|
+
p entry.entry_id # エントリの ID
|
1264
|
+
p entry.definition # エントリの説明文
|
1265
|
+
p entry.seq # 配列データベースの場合
|
1356
1266
|
end
|
1357
1267
|
end</pre>
|
1358
|
-
<p
|
1359
|
-
|
1268
|
+
<p>パースされたオブジェクトから、エントリ中のそれぞれの部分を取り出すための
|
1269
|
+
メソッドはデータベース毎に異なります。よくある項目については</p>
|
1360
1270
|
<ul>
|
1361
|
-
<li>entry_id
|
1362
|
-
<li>definition
|
1363
|
-
<li>reference
|
1364
|
-
<li>organism
|
1365
|
-
<li>seq
|
1271
|
+
<li>entry_id メソッド → エントリの ID 番号が返る</li>
|
1272
|
+
<li>definition メソッド → エントリの定義行が返る</li>
|
1273
|
+
<li>reference メソッド → リファレンスオブジェクトが返る</li>
|
1274
|
+
<li>organism メソッド → 生物種名</li>
|
1275
|
+
<li>seq や naseq や aaseq メソッド → 対応する配列オブジェクトが返る</li>
|
1366
1276
|
</ul>
|
1367
|
-
<p
|
1368
|
-
|
1369
|
-
|
1370
|
-
<p
|
1371
|
-
|
1372
|
-
|
1373
|
-
|
1374
|
-
<h2><a name="label-
|
1375
|
-
<p>Bio::PDB
|
1376
|
-
PDB, mmCIF, XML (PDBML)
|
1377
|
-
|
1378
|
-
<p>PDB
|
1379
|
-
|
1277
|
+
<p>などのように共通化しようとしていますが、全てのメソッドが実装されているわ
|
1278
|
+
けではありません(共通化の指針は bio/db.rb 参照)。また、細かい部分は各
|
1279
|
+
データベースパーザ毎に異なるので、それぞれのドキュメントに従います。</p>
|
1280
|
+
<p>原則として、メソッド名が複数形の場合は、オブジェクトが配列として返ります。
|
1281
|
+
たとえば references メソッドを持つクラスは複数の Bio::Reference オブジェ
|
1282
|
+
クトを Array にして返しますが、別のクラスでは単数形の reference メソッド
|
1283
|
+
しかなく、1つの Bio::Reference オブジェクトだけを返す、といった感じです。</p>
|
1284
|
+
<h2><a name="label-64" id="label-64">PDB のパース (Bio::PDB クラス)</a></h2><!-- RDLabel: "PDB のパース (Bio::PDB クラス)" -->
|
1285
|
+
<p>Bio::PDB は、PDB 形式を読み込むためのクラスです。PDB データベースは
|
1286
|
+
PDB, mmCIF, XML (PDBML) の3種類のフォーマットで提供されていますが、
|
1287
|
+
これらのうち BioRuby で対応しているのは PDB フォーマットです。</p>
|
1288
|
+
<p>PDB フォーマットの仕様は、以下の Protein Data Bank Contents Guide を
|
1289
|
+
参照してください。</p>
|
1380
1290
|
<ul>
|
1381
1291
|
<li><a href="http://www.rcsb.org/pdb/file_formats/pdb/pdbguide2.2/guide2.2_frame.html"><URL:http://www.rcsb.org/pdb/file_formats/pdb/pdbguide2.2/guide2.2_frame.html></a></li>
|
1382
1292
|
</ul>
|
1383
|
-
<h3><a name="label-
|
1384
|
-
<p>PDB
|
1385
|
-
Ruby
|
1293
|
+
<h3><a name="label-65" id="label-65">PDB データの読み込み</a></h3><!-- RDLabel: "PDB データの読み込み" -->
|
1294
|
+
<p>PDB の1エントリが 1bl8.pdb というファイルに格納されている場合は、
|
1295
|
+
Ruby のファイル読み込み機能を使って</p>
|
1386
1296
|
<pre>entry = File.read("1bl8.pdb")</pre>
|
1387
|
-
<p
|
1388
|
-
|
1297
|
+
<p>のようにすることで、エントリの内容を文字列として entry という変数に
|
1298
|
+
代入することができます。エントリの内容をパースするには</p>
|
1389
1299
|
<pre>pdb = Bio::PDB.new(entry)</pre>
|
1390
|
-
<p
|
1391
|
-
|
1392
|
-
<p>PDB
|
1393
|
-
|
1394
|
-
Bio::FlatFile
|
1300
|
+
<p>とします。これでエントリが Bio::PDB オブジェクトとなり、任意のデータを
|
1301
|
+
取り出せるようになります。</p>
|
1302
|
+
<p>PDB フォーマットは Bio::FlatFile による自動認識も可能ですが、現在は
|
1303
|
+
1ファイルに複数エントリを含む場合には対応していません。
|
1304
|
+
Bio::FlatFile を使って1エントリ分だけ読み込むには、</p>
|
1395
1305
|
<pre>pdb = Bio::FlatFile.auto("1bl8.pdb") { |ff| ff.next_entry }</pre>
|
1396
|
-
<p
|
1397
|
-
<h3><a name="label-
|
1398
|
-
<p
|
1399
|
-
Bio::PDB
|
1306
|
+
<p>とします。どちらの方法でも変数 pdb には同じ結果が得られます。</p>
|
1307
|
+
<h3><a name="label-66" id="label-66">オブジェクトの階層構造</a></h3><!-- RDLabel: "オブジェクトの階層構造" -->
|
1308
|
+
<p>各 PDB エントリは、英数字4文字からなる ID が付けられています。
|
1309
|
+
Bio::PDB オブジェクトから ID を取リ出すには entry_id メソッドを使います。</p>
|
1400
1310
|
<pre>p pdb.entry_id # => "1BL8"</pre>
|
1401
|
-
<p
|
1311
|
+
<p>エントリの概要に関する情報も対応するメソッドで取り出すことができます。</p>
|
1402
1312
|
<pre>p pdb.definition # => "POTASSIUM CHANNEL (KCSA) FROM STREPTOMYCES LIVIDANS"
|
1403
1313
|
p pdb.keywords # => ["POTASSIUM CHANNEL", "INTEGRAL MEMBRANE PROTEIN"]</pre>
|
1404
|
-
<p
|
1405
|
-
authors, jrnl, method
|
1406
|
-
<p>PDB
|
1407
|
-
|
1408
|
-
|
1409
|
-
<p
|
1410
|
-
BioRuby
|
1411
|
-
TITLE
|
1412
|
-
|
1413
|
-
|
1414
|
-
|
1415
|
-
<p
|
1314
|
+
<p>他に、登録者や文献、実験方法などの情報も取得できます(それぞれ
|
1315
|
+
authors, jrnl, method メソッド)。</p>
|
1316
|
+
<p>PDB データは、基本的には1行が1つのレコードを形成しています。
|
1317
|
+
1行に入りきらないデータを複数行に格納する continuation という
|
1318
|
+
仕組みも用意されていますが、基本は1行1レコードです。</p>
|
1319
|
+
<p>各行の先頭6文字がその行のデータの種類を示す名前(レコード)になります。
|
1320
|
+
BioRuby では、HEADER レコードに対しては Bio::PDB::Record::HEADER クラス、
|
1321
|
+
TITLE レコードに対しては Bio::PDB::Record::TITLE クラス、というように
|
1322
|
+
基本的には各レコードに対応するクラスを1つ用意しています。
|
1323
|
+
ただし、REMARK と JRNL レコードに関しては、それぞれ複数のフォーマットが
|
1324
|
+
存在するため、複数のクラスを用意しています。</p>
|
1325
|
+
<p>各レコードにアクセスするもっとも単純な方法は record メソッドです。</p>
|
1416
1326
|
<pre>pdb.record("HELIX")</pre>
|
1417
|
-
<p
|
1418
|
-
Bio::PDB::Record::HELIX
|
1419
|
-
<p
|
1420
|
-
|
1421
|
-
<h4><a name="label-
|
1422
|
-
<p>PDB
|
1423
|
-
|
1424
|
-
<p
|
1425
|
-
|
1426
|
-
<p
|
1427
|
-
|
1428
|
-
<p>HETATM
|
1429
|
-
|
1430
|
-
<h4><a name="label-
|
1431
|
-
<p
|
1432
|
-
Bio::PDB::Residue
|
1433
|
-
|
1434
|
-
<h4><a name="label-
|
1435
|
-
<p
|
1436
|
-
Bio::PDB::Heterogen
|
1437
|
-
Bio::PDB::Heterogen
|
1438
|
-
Bio::PDB::Record::HETATM
|
1439
|
-
<h4><a name="label-
|
1440
|
-
<p>Bio::PDB::Chain
|
1441
|
-
|
1442
|
-
|
1443
|
-
<p
|
1444
|
-
|
1445
|
-
Chain
|
1446
|
-
<p
|
1447
|
-
|
1448
|
-
<h4><a name="label-
|
1449
|
-
<p
|
1450
|
-
|
1451
|
-
|
1452
|
-
|
1453
|
-
<p
|
1454
|
-
<h3><a name="label-
|
1455
|
-
<p>Bio::PDB#each_atom
|
1327
|
+
<p>のようにすると、その PDB エントリに含まれる全ての HELIX レコードを
|
1328
|
+
Bio::PDB::Record::HELIX クラスのオブジェクトの配列として取得できます。</p>
|
1329
|
+
<p>このことをふまえ、以下では、PDB エントリのメインな内容である立体構造に
|
1330
|
+
関するデータ構造の扱い方を見ていきます。</p>
|
1331
|
+
<h4><a name="label-67" id="label-67">原子: Bio::PDB::Record::ATOM, Bio::PDB::Record::HETATM クラス</a></h4><!-- RDLabel: "原子: Bio::PDB::Record::ATOM, Bio::PDB::Record::HETATM クラス" -->
|
1332
|
+
<p>PDB エントリは、タンパク質、核酸(DNA,RNA)やその他の分子の立体構造、
|
1333
|
+
具体的には原子の3次元座標を含んでいます。</p>
|
1334
|
+
<p>タンパク質または核酸の原子の座標は、ATOM レコードに格納されています。
|
1335
|
+
対応するクラスは、Bio::PDB::Record::ATOM クラスです。</p>
|
1336
|
+
<p>タンパク質・核酸以外の原子の座標は、HETATM レコードに格納されています。
|
1337
|
+
対応するクラスは、Bio::PDB::Record::HETATM クラスです。</p>
|
1338
|
+
<p>HETATM クラスは ATOM クラスを継承しているため、ATOM と HETATM の
|
1339
|
+
メソッドの使い方はまったく同じです。</p>
|
1340
|
+
<h4><a name="label-68" id="label-68">アミノ酸残基(または塩基): Bio::PDB::Residue クラス</a></h4><!-- RDLabel: "アミノ酸残基(または塩基): Bio::PDB::Residue クラス" -->
|
1341
|
+
<p>1アミノ酸または1塩基単位で原子をまとめたのが Bio::PDB::Residue です。
|
1342
|
+
Bio::PDB::Residue オブジェクトは、1個以上の Bio::PDB::Record::ATOM
|
1343
|
+
オブジェクトを含みます。</p>
|
1344
|
+
<h4><a name="label-69" id="label-69">化合物: Bio::PDB::Heterogen クラス</a></h4><!-- RDLabel: "化合物: Bio::PDB::Heterogen クラス" -->
|
1345
|
+
<p>タンパク質・核酸以外の分子の原子は、基本的には分子単位で
|
1346
|
+
Bio::PDB::Heterogen にまとめられています。
|
1347
|
+
Bio::PDB::Heterogen オブジェクトは、1個以上の
|
1348
|
+
Bio::PDB::Record::HETATM オブジェクトを含みます。</p>
|
1349
|
+
<h4><a name="label-70" id="label-70">鎖(チェイン): Bio::PDB::Chain クラス</a></h4><!-- RDLabel: "鎖(チェイン): Bio::PDB::Chain クラス" -->
|
1350
|
+
<p>Bio::PDB::Chain は、複数の Bio::PDB::Residue オブジェクトからなる
|
1351
|
+
1個のタンパク質または核酸と、複数の Bio::PDB::Heterogen オブジェクト
|
1352
|
+
からなる1個以上のそれ以外の分子を格納するデータ構造です。</p>
|
1353
|
+
<p>なお、大半の場合は、タンパク質・核酸(Bio::PDB::Residue)か、
|
1354
|
+
それ以外の分子(Bio::PDB::Heterogen)のどちらか一種類しか持ちません。
|
1355
|
+
Chain をひとつしか含まない PDB エントリでは両方持つ場合があるようです。</p>
|
1356
|
+
<p>各 Chain には、英数字1文字の ID が付いています(Chain をひとつしか
|
1357
|
+
含まない PDB エントリの場合は空白文字のときもあります)。</p>
|
1358
|
+
<h4><a name="label-71" id="label-71">モデル: Bio::PDB::Model</a></h4><!-- RDLabel: "モデル: Bio::PDB::Model" -->
|
1359
|
+
<p>1個以上の Bio::PDB::Chain が集まったものが Bio::PDB::Model です。
|
1360
|
+
X線結晶構造の場合、Model は通常1個だけですが、NMR 構造の場合、
|
1361
|
+
複数の Model が存在することがあります。
|
1362
|
+
複数の Model が存在する場合、各 Model にはシリアル番号が付きます。</p>
|
1363
|
+
<p>そして、1個以上の Model が集まったものが、Bio::PDB オブジェクトになります。</p>
|
1364
|
+
<h3><a name="label-72" id="label-72">原子にアクセスするメソッド</a></h3><!-- RDLabel: "原子にアクセスするメソッド" -->
|
1365
|
+
<p>Bio::PDB#each_atom は全ての ATOM を順番に1個ずつ辿るイテレータです。</p>
|
1456
1366
|
<pre>pdb.each_atom do |atom|
|
1457
1367
|
p atom.xyz
|
1458
1368
|
end</pre>
|
1459
|
-
<p
|
1460
|
-
|
1461
|
-
ATOM
|
1462
|
-
<p>Bio::PDB#atoms
|
1463
|
-
<pre>p pdb.atoms.size # => 2820
|
1464
|
-
<p>each_atom
|
1465
|
-
|
1369
|
+
<p>この each_atom メソッドは Model, Chain, Residue オブジェクトに対しても
|
1370
|
+
使用することができ、それぞれ、その Model, Chain, Residue 内部のすべての
|
1371
|
+
ATOM をたどるイテレータとして働きます。</p>
|
1372
|
+
<p>Bio::PDB#atoms は全ての ATOM を配列として返すメソッドです。</p>
|
1373
|
+
<pre>p pdb.atoms.size # => 2820 個の ATOM が含まれることがわかる</pre>
|
1374
|
+
<p>each_atom と同様に atoms メソッドも Model, Chain, Residue オブジェクト
|
1375
|
+
に対して使用可能です。</p>
|
1466
1376
|
<pre>pdb.chains.each do |chain|
|
1467
|
-
p chain.atoms.size # =>
|
1377
|
+
p chain.atoms.size # => 各 Chain 毎の ATOM 数が表示される
|
1468
1378
|
end</pre>
|
1469
|
-
<p>Bio::PDB#each_hetatm
|
1379
|
+
<p>Bio::PDB#each_hetatm は、全ての HETATM を順番に1個ずつ辿るイテレータです。</p>
|
1470
1380
|
<pre>pdb.each_hetatm do |hetatm|
|
1471
1381
|
p hetatm.xyz
|
1472
1382
|
end</pre>
|
1473
|
-
<p>Bio::PDB#hetatms
|
1383
|
+
<p>Bio::PDB#hetatms 全ての HETATM を配列として返すのは hetatms メソッドです。</p>
|
1474
1384
|
<pre>p pdb.hetatms.size</pre>
|
1475
|
-
<p
|
1476
|
-
|
1477
|
-
<h4><a name="label-
|
1478
|
-
<p>ATOM
|
1479
|
-
|
1480
|
-
|
1481
|
-
<pre>p atom.serial #
|
1482
|
-
p atom.name #
|
1385
|
+
<p>これらも atoms の場合と同様に、Model, Chain, Heterogen オブジェクトに
|
1386
|
+
対して使用可能です。</p>
|
1387
|
+
<h4><a name="label-73" id="label-73">Bio::PDB::Record::ATOM, Bio::PDB::Record::HETATM クラスの使い方</a></h4><!-- RDLabel: "Bio::PDB::Record::ATOM, Bio::PDB::Record::HETATM クラスの使い方" -->
|
1388
|
+
<p>ATOM はタンパク質・核酸(DNA・RNA)を構成する原子、HETATM はそれ以外の
|
1389
|
+
原子を格納するためのクラスですが、HETATM が ATOM クラスを継承しているため
|
1390
|
+
これらのクラスでメソッドの使い方はまったく同じです。</p>
|
1391
|
+
<pre>p atom.serial # シリアル番号
|
1392
|
+
p atom.name # 名前
|
1483
1393
|
p atom.altLoc # Alternate location indicator
|
1484
|
-
p atom.resName #
|
1485
|
-
p atom.chainID # Chain
|
1486
|
-
p atom.resSeq #
|
1394
|
+
p atom.resName # アミノ酸・塩基名または化合物名
|
1395
|
+
p atom.chainID # Chain の ID
|
1396
|
+
p atom.resSeq # アミノ酸残基のシーケンス番号
|
1487
1397
|
p atom.iCode # Code for insertion of residues
|
1488
|
-
p atom.x # X
|
1489
|
-
p atom.y # Y
|
1490
|
-
p atom.z # Z
|
1398
|
+
p atom.x # X 座標
|
1399
|
+
p atom.y # Y 座標
|
1400
|
+
p atom.z # Z 座標
|
1491
1401
|
p atom.occupancy # Occupancy
|
1492
1402
|
p atom.tempFactor # Temperature factor
|
1493
1403
|
p atom.segID # Segment identifier
|
1494
1404
|
p atom.element # Element symbol
|
1495
1405
|
p atom.charge # Charge on the atom</pre>
|
1496
|
-
<p
|
1497
|
-
|
1498
|
-
|
1499
|
-
|
1500
|
-
<p
|
1501
|
-
xyz
|
1502
|
-
|
1503
|
-
|
1504
|
-
|
1505
|
-
|
1406
|
+
<p>これらのメソッド名は、原則として Protein Data Bank Contents Guide の
|
1407
|
+
記載に合わせています。メソッド名に resName や resSeq といった記名法
|
1408
|
+
(CamelCase)を採用しているのはこのためです。
|
1409
|
+
それぞれのメソッドの返すデータの意味は、仕様書を参考にしてください。</p>
|
1410
|
+
<p>この他にも、いくつかの便利なメソッドを用意しています。
|
1411
|
+
xyz メソッドは、座標を3次元のベクトルとして返すメソッドです。
|
1412
|
+
このメソッドは、Ruby の Vector クラスを継承して3次元のベクトルに
|
1413
|
+
特化させた Bio::PDB::Coordinate クラスのオブジェクトを返します
|
1414
|
+
(注: Vectorを継承したクラスを作成するのはあまり推奨されないようなので、
|
1415
|
+
将来、Vectorクラスのオブジェクトを返すよう仕様変更するかもしれません)。</p>
|
1506
1416
|
<pre>p atom.xyz</pre>
|
1507
|
-
<p
|
1508
|
-
<pre>#
|
1509
|
-
p (atom1.xyz - atom2.xyz).r # r
|
1417
|
+
<p>ベクトルなので、足し算、引き算、内積などを求めることができます。</p>
|
1418
|
+
<pre># 原子間の距離を求める
|
1419
|
+
p (atom1.xyz - atom2.xyz).r # r はベクトルの絶対値を求めるメソッド
|
1510
1420
|
|
1511
|
-
#
|
1421
|
+
# 内積を求める
|
1512
1422
|
p atom1.xyz.inner_product(atom2.xyz)</pre>
|
1513
|
-
<p
|
1514
|
-
ter, sigatm, anisou
|
1515
|
-
<h3><a name="label-
|
1516
|
-
<p>Bio::PDB#each_residue
|
1517
|
-
each_residue
|
1518
|
-
|
1519
|
-
Residue
|
1423
|
+
<p>他には、その原子に対応する TER, SIGATM, ANISOU レコードを取得する
|
1424
|
+
ter, sigatm, anisou メソッドも用意されています。</p>
|
1425
|
+
<h3><a name="label-74" id="label-74">アミノ酸残基 (Residue) にアクセスするメソッド</a></h3><!-- RDLabel: "アミノ酸残基 (Residue) にアクセスするメソッド" -->
|
1426
|
+
<p>Bio::PDB#each_residue は、全ての Residue を順番に辿るイテレータです。
|
1427
|
+
each_residue メソッドは、Model, Chain オブジェクトに対しても
|
1428
|
+
使用することができ、それぞれの Model, Chain に含まれる全ての
|
1429
|
+
Residue を辿るイテレータとして働きます。</p>
|
1520
1430
|
<pre>pdb.each_residue do |residue|
|
1521
1431
|
p residue.resName
|
1522
1432
|
end</pre>
|
1523
|
-
<p>Bio::PDB#residues
|
1524
|
-
each_residue
|
1433
|
+
<p>Bio::PDB#residues は、全ての Residue を配列として返すメソッドです。
|
1434
|
+
each_residue と同様に、Model, Chain オブジェクトに対しても使用可能です。</p>
|
1525
1435
|
<pre>p pdb.residues.size</pre>
|
1526
|
-
<h3><a name="label-
|
1527
|
-
<p>Bio::PDB#each_heterogen
|
1528
|
-
Bio::PDB#heterogens
|
1436
|
+
<h3><a name="label-75" id="label-75">化合物 (Heterogen) にアクセスするメソッド</a></h3><!-- RDLabel: "化合物 (Heterogen) にアクセスするメソッド" -->
|
1437
|
+
<p>Bio::PDB#each_heterogen は全ての Heterogen を順番にたどるイテレータ、
|
1438
|
+
Bio::PDB#heterogens は全ての Heterogen を配列として返すメソッドです。</p>
|
1529
1439
|
<pre>pdb.each_heterogen do |heterogeon|
|
1530
1440
|
p heterogen.resName
|
1531
1441
|
end
|
1532
1442
|
|
1533
1443
|
p pdb.heterogens.size</pre>
|
1534
|
-
<p
|
1535
|
-
|
1536
|
-
<h3><a name="label-
|
1537
|
-
<p
|
1538
|
-
Bio::PDB#chains
|
1539
|
-
|
1540
|
-
<p>Bio::PDB#each_model
|
1541
|
-
Bio::PDB#models
|
1542
|
-
<h3><a name="label-
|
1543
|
-
<p>Bio::PDB::ChemicalComponent
|
1544
|
-
|
1545
|
-
<p>PDB Chemical Component Dictionary
|
1444
|
+
<p>これらのメソッドも Residue と同様に Model, Chain オブジェクトに対しても
|
1445
|
+
使用可能です。</p>
|
1446
|
+
<h3><a name="label-76" id="label-76">Chain, Model にアクセスするメソッド</a></h3><!-- RDLabel: "Chain, Model にアクセスするメソッド" -->
|
1447
|
+
<p>同様に、Bio::PDB#each_chain は全ての Chain を順番にたどるイテレータ、
|
1448
|
+
Bio::PDB#chains は全ての Chain を配列として返すメソッドです。
|
1449
|
+
これらのメソッドは Model オブジェクトに対しても使用可能です。</p>
|
1450
|
+
<p>Bio::PDB#each_model は全ての Model を順番にたどるイテレータ、
|
1451
|
+
Bio::PDB#models は全ての Model を配列として返すメソッドです。</p>
|
1452
|
+
<h3><a name="label-77" id="label-77">PDB Chemical Component Dictionary のデータの読み込み</a></h3><!-- RDLabel: "PDB Chemical Component Dictionary のデータの読み込み" -->
|
1453
|
+
<p>Bio::PDB::ChemicalComponent クラスは、PDB Chemical Component Dictionary
|
1454
|
+
(旧名称 HET Group Dictionary)のパーサです。</p>
|
1455
|
+
<p>PDB Chemical Component Dictionary については以下のページを参照してください。</p>
|
1546
1456
|
<ul>
|
1547
1457
|
<li><a href="http://deposit.pdb.org/cc_dict_tut.html"><URL:http://deposit.pdb.org/cc_dict_tut.html></a></li>
|
1548
1458
|
</ul>
|
1549
|
-
<p
|
1459
|
+
<p>データは以下でダウンロードできます。</p>
|
1550
1460
|
<ul>
|
1551
1461
|
<li><a href="http://deposit.pdb.org/het_dictionary.txt"><URL:http://deposit.pdb.org/het_dictionary.txt></a></li>
|
1552
1462
|
</ul>
|
1553
|
-
<p
|
1554
|
-
|
1555
|
-
<p>Bio::FlatFile
|
1556
|
-
|
1557
|
-
br_bioflat.rb
|
1558
|
-
|
1463
|
+
<p>このクラスは、RESIDUE から始まって空行で終わる1エントリをパースします
|
1464
|
+
(PDB フォーマットにのみ対応しています)。</p>
|
1465
|
+
<p>Bio::FlatFile によるファイル形式自動判別に対応しています。
|
1466
|
+
このクラス自体は ID から化合物を検索したりする機能は持っていません。
|
1467
|
+
br_bioflat.rb によるインデックス作成には対応していますので、
|
1468
|
+
必要ならそちらを使用してください。</p>
|
1559
1469
|
<pre>Bio::FlatFile.auto("het_dictionary.txt") |ff|
|
1560
1470
|
ff.each do |het|
|
1561
1471
|
p het.entry_id # ID
|
1562
|
-
p het.hetnam # HETNAM
|
1563
|
-
p het.hetsyn # HETSYM
|
1564
|
-
p het.formul # FORMUL
|
1565
|
-
p het.conect # CONECT
|
1472
|
+
p het.hetnam # HETNAM レコード(化合物の名称)
|
1473
|
+
p het.hetsyn # HETSYM レコード(化合物の別名の配列)
|
1474
|
+
p het.formul # FORMUL レコード(化合物の組成式)
|
1475
|
+
p het.conect # CONECT レコード
|
1566
1476
|
end
|
1567
1477
|
end</pre>
|
1568
|
-
<p
|
1569
|
-
|
1478
|
+
<p>最後の conect メソッドは、化合物の結合を Hash として返します。
|
1479
|
+
たとえば、エタノールのエントリは次のようになりますが、</p>
|
1570
1480
|
<pre>RESIDUE EOH 9
|
1571
1481
|
CONECT C1 4 C2 O 1H1 2H1
|
1572
1482
|
CONECT C2 4 C1 1H2 2H2 3H2
|
@@ -1581,7 +1491,7 @@ END
|
|
1581
1491
|
HET EOH 9
|
1582
1492
|
HETNAM EOH ETHANOL
|
1583
1493
|
FORMUL EOH C2 H6 O1</pre>
|
1584
|
-
<p
|
1494
|
+
<p>このエントリに対して conect メソッドを呼ぶと</p>
|
1585
1495
|
<pre>{ "C1" => [ "C2", "O", "1H1", "2H1" ],
|
1586
1496
|
"C2" => [ "C1", "1H2", "2H2", "3H2" ],
|
1587
1497
|
"O" => [ "C1", "HO" ],
|
@@ -1591,61 +1501,61 @@ FORMUL EOH C2 H6 O1</pre>
|
|
1591
1501
|
"2H2" => [ "C2" ],
|
1592
1502
|
"3H2" => [ "C2" ],
|
1593
1503
|
"HO" => [ "O" ] }</pre>
|
1594
|
-
<p
|
1595
|
-
<p
|
1596
|
-
<pre># PDB
|
1504
|
+
<p>という Hash を返します。</p>
|
1505
|
+
<p>ここまでの処理を BioRuby シェルで試すと以下のようになります。</p>
|
1506
|
+
<pre># PDB エントリ 1bl8 をネットワーク経由で取得
|
1597
1507
|
bioruby> ent_1bl8 = getent("pdb:1bl8")
|
1598
|
-
#
|
1508
|
+
# エントリの中身を確認
|
1599
1509
|
bioruby> head ent_1bl8
|
1600
|
-
#
|
1510
|
+
# エントリをファイルに保存
|
1601
1511
|
bioruby> savefile("1bl8.pdb", ent_1bl8)
|
1602
|
-
#
|
1512
|
+
# 保存されたファイルの中身を確認
|
1603
1513
|
bioruby> disp "data/1bl8.pdb"
|
1604
|
-
# PDB
|
1514
|
+
# PDB エントリをパース
|
1605
1515
|
bioruby> pdb_1bl8 = flatparse(ent_1bl8)
|
1606
|
-
# PDB
|
1516
|
+
# PDB のエントリ ID を表示
|
1607
1517
|
bioruby> pdb_1bl8.entry_id
|
1608
|
-
# getent("pdb:1bl8")
|
1518
|
+
# getent("pdb:1bl8") して flatparse する代わりに、以下でもOK
|
1609
1519
|
bioruby> obj_1bl8 = getobj("pdb:1bl8")
|
1610
1520
|
bioruby> obj_1bl8.entry_id
|
1611
|
-
#
|
1521
|
+
# 各 HETEROGEN ごとに残基名を表示
|
1612
1522
|
bioruby> pdb_1bl8.each_heterogen { |heterogen| p heterogen.resName }
|
1613
1523
|
|
1614
|
-
# PDB Chemical Component Dictionary
|
1524
|
+
# PDB Chemical Component Dictionary を取得
|
1615
1525
|
bioruby> het_dic = open("http://deposit.pdb.org/het_dictionary.txt").read
|
1616
|
-
#
|
1526
|
+
# 取得したファイルのバイト数を確認
|
1617
1527
|
bioruby> het_dic.size
|
1618
|
-
#
|
1528
|
+
# 取得したファイルを保存
|
1619
1529
|
bioruby> savefile("data/het_dictionary.txt", het_dic)
|
1620
|
-
#
|
1530
|
+
# ファイルの中身を確認
|
1621
1531
|
bioruby> disp "data/het_dictionary.txt"
|
1622
|
-
#
|
1532
|
+
# 検索のためにインデックス化し het_dic というデータベースを作成
|
1623
1533
|
bioruby> flatindex("het_dic", "data/het_dictionary.txt")
|
1624
|
-
# ID
|
1534
|
+
# ID が EOH のエタノールのエントリを検索
|
1625
1535
|
bioruby> ethanol = flatsearch("het_dic", "EOH")
|
1626
|
-
#
|
1536
|
+
# 取得したエントリをパース
|
1627
1537
|
bioruby> osake = flatparse(ethanol)
|
1628
|
-
#
|
1538
|
+
# 原子間の結合テーブルを表示
|
1629
1539
|
bioruby> sake.conect</pre>
|
1630
|
-
<h2><a name="label-
|
1631
|
-
<p>Bio::Alignment
|
1632
|
-
Ruby
|
1633
|
-
|
1540
|
+
<h2><a name="label-78" id="label-78">アライメント (Bio::Alignment クラス)</a></h2><!-- RDLabel: "アライメント (Bio::Alignment クラス)" -->
|
1541
|
+
<p>Bio::Alignment クラスは配列のアライメントを格納するためのコンテナです。
|
1542
|
+
Ruby の Hash や Array に似た操作が可能で、BioPerl の Bio::SimpleAlign に
|
1543
|
+
似た感じになっています。以下に簡単な使い方を示します。</p>
|
1634
1544
|
<pre>require 'bio'
|
1635
1545
|
|
1636
1546
|
seqs = [ 'atgca', 'aagca', 'acgca', 'acgcg' ]
|
1637
1547
|
seqs = seqs.collect{ |x| Bio::Sequence::NA.new(x) }
|
1638
1548
|
|
1639
|
-
#
|
1549
|
+
# アライメントオブジェクトを作成
|
1640
1550
|
a = Bio::Alignment.new(seqs)
|
1641
1551
|
|
1642
|
-
#
|
1552
|
+
# コンセンサス配列を表示
|
1643
1553
|
p a.consensus # ==> "a?gc?"
|
1644
1554
|
|
1645
|
-
# IUPAC
|
1555
|
+
# IUPAC 標準の曖昧な塩基を使用したコンセンサス配列を表示
|
1646
1556
|
p a.consensus_iupac # ==> "ahgcr"
|
1647
1557
|
|
1648
|
-
#
|
1558
|
+
# 各配列について繰り返す
|
1649
1559
|
a.each { |x| p x }
|
1650
1560
|
# ==>
|
1651
1561
|
# "atgca"
|
@@ -1653,7 +1563,7 @@ a.each { |x| p x }
|
|
1653
1563
|
# "acgca"
|
1654
1564
|
# "acgcg"
|
1655
1565
|
|
1656
|
-
#
|
1566
|
+
# 各サイトについて繰り返す
|
1657
1567
|
a.each_site { |x| p x }
|
1658
1568
|
# ==>
|
1659
1569
|
# ["a", "a", "a", "a"]
|
@@ -1662,296 +1572,296 @@ a.each_site { |x| p x }
|
|
1662
1572
|
# ["c", "c", "c", "c"]
|
1663
1573
|
# ["a", "a", "a", "g"]
|
1664
1574
|
|
1665
|
-
# Clustal W
|
1666
|
-
# 'clustalw'
|
1575
|
+
# Clustal W を使用してアライメントを行う。
|
1576
|
+
# 'clustalw' コマンドがシステムにインストールされている必要がある。
|
1667
1577
|
factory = Bio::ClustalW.new
|
1668
1578
|
a2 = a.do_align(factory)</pre>
|
1669
|
-
<h2><a name="label-
|
1670
|
-
<p>FASTA
|
1671
|
-
|
1672
|
-
|
1673
|
-
<h3><a name="label-
|
1674
|
-
<p>FASTA
|
1675
|
-
|
1676
|
-
|
1579
|
+
<h2><a name="label-79" id="label-79">FASTA による相同性検索を行う(Bio::Fasta クラス)</a></h2><!-- RDLabel: "FASTA による相同性検索を行う(Bio::Fasta クラス)" -->
|
1580
|
+
<p>FASTA 形式の配列ファイル query.pep に対して、自分のマシン(ローカル)あるいは
|
1581
|
+
インターネット上のサーバ(リモート)で FASTA による相同性検索を行う方法です。
|
1582
|
+
ローカルの場合は SSEARCH なども同様に使うことができます。</p>
|
1583
|
+
<h3><a name="label-80" id="label-80">ローカルの場合</a></h3><!-- RDLabel: "ローカルの場合" -->
|
1584
|
+
<p>FASTA がインストールされていることを確認してください。以下の例では、
|
1585
|
+
コマンド名が fasta34 でパスが通ったディレクトリにインストール
|
1586
|
+
されている状況を仮定しています。</p>
|
1677
1587
|
<ul>
|
1678
1588
|
<li><a href="ftp://ftp.virginia.edu/pub/fasta/"><URL:ftp://ftp.virginia.edu/pub/fasta/></a></li>
|
1679
1589
|
</ul>
|
1680
|
-
<p
|
1681
|
-
|
1682
|
-
<p
|
1683
|
-
evalue
|
1590
|
+
<p>検索対象とする FASTA 形式のデータベースファイル target.pep と、FASTA
|
1591
|
+
形式の問い合わせ配列がいくつか入ったファイル query.pep を準備します。</p>
|
1592
|
+
<p>この例では、各問い合わせ配列ごとに FASTA 検索を実行し、ヒットした配列の
|
1593
|
+
evalue が 0.0001 以下のものだけを表示します。</p>
|
1684
1594
|
<pre>#!/usr/bin/env ruby
|
1685
1595
|
|
1686
1596
|
require 'bio'
|
1687
1597
|
|
1688
|
-
# FASTA
|
1598
|
+
# FASTA を実行する環境オブジェクトを作る(ssearch などでも良い)
|
1689
1599
|
factory = Bio::Fasta.local('fasta34', ARGV.pop)
|
1690
1600
|
|
1691
|
-
#
|
1601
|
+
# フラットファイルを読み込み、FastaFormat オブジェクトのリストにする
|
1692
1602
|
ff = Bio::FlatFile.new(Bio::FastaFormat, ARGF)
|
1693
1603
|
|
1694
|
-
#
|
1604
|
+
# 1エントリずつの FastaFormat オブジェクトに対し
|
1695
1605
|
ff.each do |entry|
|
1696
|
-
# '>'
|
1606
|
+
# '>' で始まるコメント行の内容を進行状況がわりに標準エラー出力に表示
|
1697
1607
|
$stderr.puts "Searching ... " + entry.definition
|
1698
1608
|
|
1699
|
-
# FASTA
|
1609
|
+
# FASTA による相同性検索を実行、結果は Fasta::Report オブジェクト
|
1700
1610
|
report = factory.query(entry)
|
1701
1611
|
|
1702
|
-
#
|
1612
|
+
# ヒットしたものそれぞれに対し
|
1703
1613
|
report.each do |hit|
|
1704
|
-
# evalue
|
1614
|
+
# evalue が 0.0001 以下の場合
|
1705
1615
|
if hit.evalue < 0.0001
|
1706
|
-
#
|
1616
|
+
# その evalue と、名前、オーバーラップ領域を表示
|
1707
1617
|
print "#{hit.query_id} : evalue #{hit.evalue}\t#{hit.target_id} at "
|
1708
1618
|
p hit.lap_at
|
1709
1619
|
end
|
1710
1620
|
end
|
1711
1621
|
end</pre>
|
1712
|
-
<p
|
1713
|
-
|
1714
|
-
<p
|
1715
|
-
|
1622
|
+
<p>ここで factory は繰り返し FASTA を実行するために、あらかじめ作っておく
|
1623
|
+
実行環境です。</p>
|
1624
|
+
<p>上記のスクリプトを search.rb とすると、問い合わせ配列とデータベース配列の
|
1625
|
+
ファイル名を引数にして、以下のように実行します。</p>
|
1716
1626
|
<pre>% ruby search.rb query.pep target.pep > search.out</pre>
|
1717
|
-
<p>FASTA
|
1718
|
-
|
1719
|
-
|
1720
|
-
|
1721
|
-
|
1627
|
+
<p>FASTA コマンドにオプションを与えたい場合、3番目の引数に FASTA の
|
1628
|
+
コマンドラインオプションを書いて渡します。ただし、ktup 値だけは
|
1629
|
+
メソッドを使って指定することになっています。
|
1630
|
+
たとえば ktup 値を 1 にして、トップ 10 位以内のヒットを得る場合の
|
1631
|
+
オプションは、以下のようになります。</p>
|
1722
1632
|
<pre>factory = Bio::Fasta.local('fasta34', 'target.pep', '-b 10')
|
1723
1633
|
factory.ktup = 1</pre>
|
1724
|
-
<p>Bio::Fasta#query
|
1725
|
-
|
1726
|
-
|
1727
|
-
|
1634
|
+
<p>Bio::Fasta#query メソッドなどの返り値は Bio::Fasta::Report オブジェクト
|
1635
|
+
です。この Report オブジェクトから、様々なメソッドで FASTA の出力結果の
|
1636
|
+
ほぼ全てを自由に取り出せるようになっています。たとえば、ヒットに関する
|
1637
|
+
スコアなどの主な情報は、</p>
|
1728
1638
|
<pre>report.each do |hit|
|
1729
1639
|
puts hit.evalue # E-value
|
1730
|
-
puts hit.sw # Smith-Waterman
|
1640
|
+
puts hit.sw # Smith-Waterman スコア (*)
|
1731
1641
|
puts hit.identity # % identity
|
1732
|
-
puts hit.overlap #
|
1733
|
-
puts hit.query_id #
|
1734
|
-
puts hit.query_def #
|
1735
|
-
puts hit.query_len #
|
1736
|
-
puts hit.query_seq #
|
1737
|
-
puts hit.target_id #
|
1738
|
-
puts hit.target_def #
|
1739
|
-
puts hit.target_len #
|
1740
|
-
puts hit.target_seq #
|
1741
|
-
puts hit.query_start #
|
1742
|
-
puts hit.query_end #
|
1743
|
-
puts hit.target_start #
|
1744
|
-
puts hit.target_end #
|
1745
|
-
puts hit.lap_at #
|
1642
|
+
puts hit.overlap # オーバーラップしている領域の長さ
|
1643
|
+
puts hit.query_id # 問い合わせ配列の ID
|
1644
|
+
puts hit.query_def # 問い合わせ配列のコメント
|
1645
|
+
puts hit.query_len # 問い合わせ配列の長さ
|
1646
|
+
puts hit.query_seq # 問い合わせ配列
|
1647
|
+
puts hit.target_id # ヒットした配列の ID
|
1648
|
+
puts hit.target_def # ヒットした配列のコメント
|
1649
|
+
puts hit.target_len # ヒットした配列の長さ
|
1650
|
+
puts hit.target_seq # ヒットした配列
|
1651
|
+
puts hit.query_start # 相同領域の問い合わせ配列での開始残基位置
|
1652
|
+
puts hit.query_end # 相同領域の問い合わせ配列での終了残基位置
|
1653
|
+
puts hit.target_start # 相同領域のターゲット配列での開始残基位置
|
1654
|
+
puts hit.target_end # 相同領域のターゲット配列での終了残基位置
|
1655
|
+
puts hit.lap_at # 上記4位置の数値の配列
|
1746
1656
|
end</pre>
|
1747
|
-
<p
|
1748
|
-
Bio::Blast::Report
|
1749
|
-
FASTA
|
1750
|
-
|
1751
|
-
<p
|
1752
|
-
|
1657
|
+
<p>などのメソッドで呼び出せます。これらのメソッドの多くは後で説明する
|
1658
|
+
Bio::Blast::Report クラスと共通にしてあります。上記以外のメソッドや
|
1659
|
+
FASTA 特有の値を取り出すメソッドが必要な場合は、Bio::Fasta::Report
|
1660
|
+
クラスのドキュメントを参照してください。</p>
|
1661
|
+
<p>もし、パースする前の手を加えていない fasta コマンドの実行結果が必要な
|
1662
|
+
場合には、</p>
|
1753
1663
|
<pre>report = factory.query(entry)
|
1754
1664
|
puts factory.output</pre>
|
1755
|
-
<p
|
1756
|
-
|
1757
|
-
<h3><a name="label-
|
1758
|
-
<p
|
1759
|
-
|
1760
|
-
|
1761
|
-
|
1762
|
-
<p>GenomeNet
|
1665
|
+
<p>のように、query メソッドを実行した後で factory オブジェクトの output
|
1666
|
+
メソッドを使って取り出すことができます。</p>
|
1667
|
+
<h3><a name="label-81" id="label-81">リモートの場合</a></h3><!-- RDLabel: "リモートの場合" -->
|
1668
|
+
<p>今のところ GenomeNet (fasta.genome.jp) での検索のみサポートしています。
|
1669
|
+
リモートの場合は使用可能な検索対象データベースが決まっていますが、それ以
|
1670
|
+
外の点については Bio::Fasta.remote と Bio::Fasta.local は同じように使う
|
1671
|
+
ことができます。</p>
|
1672
|
+
<p>GenomeNet で使用可能な検索対象データベース:</p>
|
1763
1673
|
<ul>
|
1764
|
-
<li
|
1674
|
+
<li>アミノ酸配列データベース
|
1765
1675
|
<ul>
|
1766
1676
|
<li>nr-aa, genes, vgenes.pep, swissprot, swissprot-upd, pir, prf, pdbstr</li>
|
1767
1677
|
</ul></li>
|
1768
|
-
<li
|
1678
|
+
<li>塩基配列データベース
|
1769
1679
|
<ul>
|
1770
1680
|
<li>nr-nt, genbank-nonst, gbnonst-upd, dbest, dbgss, htgs, dbsts,
|
1771
1681
|
embl-nonst, embnonst-upd, genes-nt, genome, vgenes.nuc</li>
|
1772
1682
|
</ul></li>
|
1773
1683
|
</ul>
|
1774
|
-
<p
|
1775
|
-
|
1684
|
+
<p>まず、この中から検索したいデータベースを選択します。問い合わせ配列の種類
|
1685
|
+
と検索するデータベースの種類によってプログラムは決まります。</p>
|
1776
1686
|
<ul>
|
1777
|
-
<li
|
1687
|
+
<li>問い合わせ配列がアミノ酸のとき
|
1778
1688
|
<ul>
|
1779
|
-
<li
|
1780
|
-
<li
|
1689
|
+
<li>対象データベースがアミノ酸配列データベースの場合、program は 'fasta'</li>
|
1690
|
+
<li>対象データベースが核酸配列データベースの場合、program は 'tfasta'</li>
|
1781
1691
|
</ul></li>
|
1782
|
-
<li
|
1692
|
+
<li>問い合わせ配列が核酸配列のとき
|
1783
1693
|
<ul>
|
1784
|
-
<li
|
1785
|
-
<li>(
|
1694
|
+
<li>対象データベースが核酸配列データベースの場合、program は 'fasta'</li>
|
1695
|
+
<li>(対象データベースがアミノ酸配列データベースの場合は検索不能?)</li>
|
1786
1696
|
</ul></li>
|
1787
1697
|
</ul>
|
1788
|
-
<p
|
1698
|
+
<p>プログラムとデータベースの組み合せが決まったら</p>
|
1789
1699
|
<pre>program = 'fasta'
|
1790
1700
|
database = 'genes'
|
1791
1701
|
|
1792
1702
|
factory = Bio::Fasta.remote(program, database)</pre>
|
1793
|
-
<p
|
1794
|
-
|
1795
|
-
<h2><a name="label-
|
1796
|
-
<p>BLAST
|
1797
|
-
|
1798
|
-
Bio::Blast
|
1799
|
-
<p
|
1800
|
-
<pre># BLAST
|
1703
|
+
<p>としてファクトリーを作り、ローカルの場合と同じように factory.query など
|
1704
|
+
のメソッドで検索を実行します。</p>
|
1705
|
+
<h2><a name="label-82" id="label-82">BLAST による相同性検索を行う(Bio::Blast クラス)</a></h2><!-- RDLabel: "BLAST による相同性検索を行う(Bio::Blast クラス)" -->
|
1706
|
+
<p>BLAST もローカルと GenomeNet (blast.genome.jp) での検索をサポートして
|
1707
|
+
います。できるだけ Bio::Fasta と API を共通にしていますので、上記の例を
|
1708
|
+
Bio::Blast と書き換えただけでも大丈夫な場合が多いです。</p>
|
1709
|
+
<p>たとえば、先の f_search.rb は</p>
|
1710
|
+
<pre># BLAST を実行する環境オブジェクトを作る
|
1801
1711
|
factory = Bio::Blast.local('blastp', ARGV.pop) </pre>
|
1802
|
-
<p
|
1803
|
-
<p
|
1804
|
-
|
1712
|
+
<p>と変更するだけで同じように実行できます。</p>
|
1713
|
+
<p>同様に、GenomeNet を使用してBLASTを行う場合には Bio::Blast.remote を使います。
|
1714
|
+
この場合、programの指定内容が FASTA と異なります。</p>
|
1805
1715
|
<ul>
|
1806
|
-
<li
|
1716
|
+
<li>問い合わせ配列がアミノ酸のとき
|
1807
1717
|
<ul>
|
1808
|
-
<li
|
1809
|
-
<li
|
1718
|
+
<li>対象データベースがアミノ酸配列データベースの場合、program は 'blastp'</li>
|
1719
|
+
<li>対象データベースが核酸配列データベースの場合、program は 'tblastn'</li>
|
1810
1720
|
</ul></li>
|
1811
|
-
<li
|
1721
|
+
<li>問い合わせ配列が塩基配列のとき
|
1812
1722
|
<ul>
|
1813
|
-
<li
|
1814
|
-
<li
|
1815
|
-
<li>(
|
1723
|
+
<li>対象データベースがアミノ酸配列データベースの場合、program は 'blastx'</li>
|
1724
|
+
<li>対象データベースが塩基配列データベースの場合、program は 'blastn'</li>
|
1725
|
+
<li>(問い合わせ・データベース共に6フレーム翻訳を行う場合は 'tblastx')</li>
|
1816
1726
|
</ul></li>
|
1817
1727
|
</ul>
|
1818
|
-
<p
|
1819
|
-
<p
|
1820
|
-
|
1821
|
-
XMLParser
|
1822
|
-
|
1823
|
-
|
1824
|
-
|
1825
|
-
|
1826
|
-
|
1827
|
-
<p
|
1828
|
-
|
1829
|
-
|
1728
|
+
<p>をそれぞれ指定します。</p>
|
1729
|
+
<p>ところで、BLAST では "-m 7" オプションによる XML 出力フォーマッットの方が
|
1730
|
+
得られる情報が豊富なため、Bio::Blast は Ruby 用の XML ライブラリである
|
1731
|
+
XMLParser または REXML が使用可能な場合は、XML 出力を利用します。
|
1732
|
+
両方使用可能な場合、XMLParser のほうが高速なので優先的に使用されます。
|
1733
|
+
なお、Ruby 1.8.0 以降では REXML は Ruby 本体に標準添付されています。
|
1734
|
+
もし XML ライブラリがインストールされていない場合は "-m 8" のタブ区切りの
|
1735
|
+
出力形式を扱うようにしています。しかし、このフォーマットでは得られる
|
1736
|
+
データが限られるので、"-m 7" の XML 形式の出力を使うことをお勧めします。</p>
|
1737
|
+
<p>すでに見たように Bio::Fasta::Report と Bio::Blast::Report の Hit オブジェ
|
1738
|
+
クトはいくつか共通のメソッドを持っています。BLAST 固有のメソッドで良く使
|
1739
|
+
いそうなものには bit_score や midline などがあります。</p>
|
1830
1740
|
<pre>report.each do |hit|
|
1831
|
-
puts hit.bit_score # bit
|
1832
|
-
puts hit.query_seq #
|
1833
|
-
puts hit.midline #
|
1834
|
-
puts hit.target_seq #
|
1741
|
+
puts hit.bit_score # bit スコア (*)
|
1742
|
+
puts hit.query_seq # 問い合わせ配列
|
1743
|
+
puts hit.midline # アライメントの midline 文字列 (*)
|
1744
|
+
puts hit.target_seq # ヒットした配列
|
1835
1745
|
|
1836
1746
|
puts hit.evalue # E-value
|
1837
1747
|
puts hit.identity # % identity
|
1838
|
-
puts hit.overlap #
|
1839
|
-
puts hit.query_id #
|
1840
|
-
puts hit.query_def #
|
1841
|
-
puts hit.query_len #
|
1842
|
-
puts hit.target_id #
|
1843
|
-
puts hit.target_def #
|
1844
|
-
puts hit.target_len #
|
1845
|
-
puts hit.query_start #
|
1846
|
-
puts hit.query_end #
|
1847
|
-
puts hit.target_start #
|
1848
|
-
puts hit.target_end #
|
1849
|
-
puts hit.lap_at #
|
1748
|
+
puts hit.overlap # オーバーラップしている領域の長さ
|
1749
|
+
puts hit.query_id # 問い合わせ配列の ID
|
1750
|
+
puts hit.query_def # 問い合わせ配列のコメント
|
1751
|
+
puts hit.query_len # 問い合わせ配列の長さ
|
1752
|
+
puts hit.target_id # ヒットした配列の ID
|
1753
|
+
puts hit.target_def # ヒットした配列のコメント
|
1754
|
+
puts hit.target_len # ヒットした配列の長さ
|
1755
|
+
puts hit.query_start # 相同領域の問い合わせ配列での開始残基位置
|
1756
|
+
puts hit.query_end # 相同領域の問い合わせ配列での終了残基位置
|
1757
|
+
puts hit.target_start # 相同領域のターゲット配列での開始残基位置
|
1758
|
+
puts hit.target_end # 相同領域のターゲット配列での終了残基位置
|
1759
|
+
puts hit.lap_at # 上記4位置の数値の配列
|
1850
1760
|
end</pre>
|
1851
|
-
<p>FASTA
|
1852
|
-
Hsp (High-scoring segment pair)
|
1853
|
-
<p>Bio::Blast::Report
|
1854
|
-
|
1761
|
+
<p>FASTAとのAPI共通化のためと簡便のため、スコアなどいくつかの情報は1番目の
|
1762
|
+
Hsp (High-scoring segment pair) の値をHitで返すようにしています。</p>
|
1763
|
+
<p>Bio::Blast::Report オブジェクトは、以下に示すような、BLASTの結果出力の
|
1764
|
+
データ構造をそのまま反映した階層的なデータ構造を持っています。具体的には</p>
|
1855
1765
|
<ul>
|
1856
|
-
<li>Bio::Blast::Report
|
1766
|
+
<li>Bio::Blast::Report オブジェクトの @iteratinos に
|
1857
1767
|
<ul>
|
1858
|
-
<li>Bio::Blast::Report::Iteration
|
1859
|
-
Bio::Blast::Report::Iteration
|
1768
|
+
<li>Bio::Blast::Report::Iteration オブジェクトの Array が入っており
|
1769
|
+
Bio::Blast::Report::Iteration オブジェクトの @hits に
|
1860
1770
|
<ul>
|
1861
|
-
<li>Bio::Blast::Report::Hits
|
1862
|
-
Bio::Blast::Report::Hits
|
1771
|
+
<li>Bio::Blast::Report::Hits オブジェクトの Array が入っており
|
1772
|
+
Bio::Blast::Report::Hits オブジェクトの @hsps に
|
1863
1773
|
<ul>
|
1864
|
-
<li>Bio::Blast::Report::Hsp
|
1774
|
+
<li>Bio::Blast::Report::Hsp オブジェクトの Array が入っている</li>
|
1865
1775
|
</ul></li>
|
1866
1776
|
</ul></li>
|
1867
1777
|
</ul></li>
|
1868
1778
|
</ul>
|
1869
|
-
<p
|
1870
|
-
|
1871
|
-
|
1872
|
-
|
1873
|
-
<h3><a name="label-
|
1874
|
-
<p>BLAST
|
1875
|
-
|
1876
|
-
|
1877
|
-
|
1878
|
-
"-m 7"
|
1779
|
+
<p>という階層構造になっており、それぞれが内部の値を取り出すためのメソッドを
|
1780
|
+
持っています。これらのメソッドの詳細や、BLAST 実行の統計情報などの値が
|
1781
|
+
必要な場合には、 bio/appl/blast/*.rb 内のドキュメントやテストコードを
|
1782
|
+
参照してください。</p>
|
1783
|
+
<h3><a name="label-83" id="label-83">既存の BLAST 出力ファイルをパースする</a></h3><!-- RDLabel: "既存の BLAST 出力ファイルをパースする" -->
|
1784
|
+
<p>BLAST を実行した結果ファイルがすでに保存してあって、これを解析したい場合
|
1785
|
+
には(Bio::Blast オブジェクトを作らずに) Bio::Blast::Report オブジェク
|
1786
|
+
トを作りたい、ということになります。これには Bio::Blast.reports メソッド
|
1787
|
+
を使います。対応しているのは デフォルト出力フォーマット("-m 0") または
|
1788
|
+
"-m 7" オプションの XML フォーマット出力です。</p>
|
1879
1789
|
<pre>#!/usr/bin/env ruby
|
1880
1790
|
|
1881
1791
|
require 'bio'
|
1882
1792
|
|
1883
|
-
# BLAST
|
1793
|
+
# BLAST出力を順にパースして Bio::Blast::Report オブジェクトを返す
|
1884
1794
|
Bio::Blast.reports(ARGF) do |report|
|
1885
1795
|
puts "Hits for " + report.query_def + " against " + report.db
|
1886
1796
|
report.each do |hit|
|
1887
1797
|
print hit.target_id, "\t", hit.evalue, "\n" if hit.evalue < 0.001
|
1888
1798
|
end
|
1889
1799
|
end</pre>
|
1890
|
-
<p
|
1800
|
+
<p>のようなスクリプト hits_under_0.001.rb を書いて、</p>
|
1891
1801
|
<pre>% ./hits_under_0.001.rb *.xml</pre>
|
1892
|
-
<p
|
1893
|
-
|
1894
|
-
<p>Blast
|
1895
|
-
|
1896
|
-
Blast 2.2.5
|
1897
|
-
|
1898
|
-
<h3><a name="label-
|
1899
|
-
<p
|
1900
|
-
|
1901
|
-
<p>Blast
|
1902
|
-
|
1802
|
+
<p>などと実行すれば、引数に与えた BLAST の結果ファイル *.xml を順番に処理で
|
1803
|
+
きます。</p>
|
1804
|
+
<p>Blast のバージョンや OS などによって出力される XML の形式が異なる可能性
|
1805
|
+
があり、時々 XML のパーザがうまく使えないことがあるようです。その場合は
|
1806
|
+
Blast 2.2.5 以降のバージョンをインストールするか -D や -m などのオプショ
|
1807
|
+
ンの組み合せを変えて試してみてください。</p>
|
1808
|
+
<h3><a name="label-84" id="label-84">リモート検索サイトを追加するには</a></h3><!-- RDLabel: "リモート検索サイトを追加するには" -->
|
1809
|
+
<p>注: このセクションは上級ユーザ向けです。可能であれば SOAP などによる
|
1810
|
+
ウェブサービスを利用する方がよいでしょう。</p>
|
1811
|
+
<p>Blast 検索は NCBI をはじめ様々なサイトでサービスされていますが、今のとこ
|
1812
|
+
ろ BioRuby では GenomeNet 以外には対応していません。これらのサイトは、</p>
|
1903
1813
|
<ul>
|
1904
|
-
<li>CGI
|
1905
|
-
<li>-m 8
|
1906
|
-
|
1814
|
+
<li>CGI を呼び出す(コマンドラインオプションはそのサイト用に処理する)</li>
|
1815
|
+
<li>-m 8 など BioRuby がパーザを持っている出力フォーマットで blast の
|
1816
|
+
出力を取り出す</li>
|
1907
1817
|
</ul>
|
1908
|
-
<p
|
1909
|
-
|
1910
|
-
|
1911
|
-
|
1912
|
-
<pre>factory = Bio::Blast.remote(program, db, option, '
|
1913
|
-
<p
|
1914
|
-
|
1915
|
-
<h2><a name="label-
|
1916
|
-
<p
|
1818
|
+
<p>ことさえできれば、query を受け取って検索結果を Bio::Blast::Report.new に
|
1819
|
+
渡すようなメソッドを定義するだけで使えるようになります。具体的には、この
|
1820
|
+
メソッドを「exec_サイト名」のような名前で Bio::Blast の private メソッド
|
1821
|
+
として登録すると、4番目の引数に「サイト名」を指定して</p>
|
1822
|
+
<pre>factory = Bio::Blast.remote(program, db, option, 'サイト名')</pre>
|
1823
|
+
<p>のように呼び出せるようになっています。完成したら BioRuby プロジェクトま
|
1824
|
+
で送ってもらえれば取り込ませて頂きます。</p>
|
1825
|
+
<h2><a name="label-85" id="label-85">PubMed を引いて引用文献リストを作る (Bio::PubMed クラス)</a></h2><!-- RDLabel: "PubMed を引いて引用文献リストを作る (Bio::PubMed クラス)" -->
|
1826
|
+
<p>次は、NCBI の文献データベース PubMed を検索して引用文献リストを作成する例です。</p>
|
1917
1827
|
<pre>#!/usr/bin/env ruby
|
1918
1828
|
|
1919
1829
|
require 'bio'
|
1920
1830
|
|
1921
1831
|
ARGV.each do |id|
|
1922
|
-
entry = Bio::PubMed.query(id) # PubMed
|
1923
|
-
medline = Bio::MEDLINE.new(entry) # Bio::MEDLINE
|
1924
|
-
reference = medline.reference # Bio::Reference
|
1925
|
-
puts reference.bibtex # BibTeX
|
1832
|
+
entry = Bio::PubMed.query(id) # PubMed を取得するクラスメソッド
|
1833
|
+
medline = Bio::MEDLINE.new(entry) # Bio::MEDLINE オブジェクト
|
1834
|
+
reference = medline.reference # Bio::Reference オブジェクト
|
1835
|
+
puts reference.bibtex # BibTeX フォーマットで出力
|
1926
1836
|
end</pre>
|
1927
|
-
<p
|
1837
|
+
<p>このスクリプトを pmfetch.rb など好きな名前で保存し、</p>
|
1928
1838
|
<pre>% ./pmfetch.rb 11024183 10592278 10592173</pre>
|
1929
|
-
<p
|
1930
|
-
|
1931
|
-
|
1932
|
-
<p
|
1839
|
+
<p>など引用したい論文の PubMed ID (PMID) を引数に並べると NCBI にアクセスし
|
1840
|
+
て MEDLINE フォーマットをパースし BibTeX フォーマットに変換して出力して
|
1841
|
+
くれるはずです。</p>
|
1842
|
+
<p>他に、キーワードで検索する機能もあります。</p>
|
1933
1843
|
<pre>#!/usr/bin/env ruby
|
1934
1844
|
|
1935
1845
|
require 'bio'
|
1936
1846
|
|
1937
|
-
#
|
1847
|
+
# コマンドラインで与えたキーワードのリストを1つの文字列にする
|
1938
1848
|
keywords = ARGV.join(' ')
|
1939
1849
|
|
1940
|
-
# PubMed
|
1850
|
+
# PubMed をキーワードで検索
|
1941
1851
|
entries = Bio::PubMed.search(keywords)
|
1942
1852
|
|
1943
1853
|
entries.each do |entry|
|
1944
|
-
medline = Bio::MEDLINE.new(entry) # Bio::MEDLINE
|
1945
|
-
reference = medline.reference # Bio::Reference
|
1946
|
-
puts reference.bibtex # BibTeX
|
1854
|
+
medline = Bio::MEDLINE.new(entry) # Bio::MEDLINE オブジェクト
|
1855
|
+
reference = medline.reference # Bio::Reference オブジェクト
|
1856
|
+
puts reference.bibtex # BibTeX フォーマットで出力
|
1947
1857
|
end</pre>
|
1948
|
-
<p
|
1858
|
+
<p>このスクリプトを pmsearch.rb など好きな名前で保存し</p>
|
1949
1859
|
<pre>% ./pmsearch.rb genome bioinformatics</pre>
|
1950
|
-
<p
|
1951
|
-
|
1952
|
-
<p
|
1953
|
-
|
1954
|
-
Bio::PubMed.efetch
|
1860
|
+
<p>など検索したいキーワードを引数に並べて実行すると、PubMed をキーワード
|
1861
|
+
検索してヒットした論文のリストを BibTeX フォーマットで出力します。</p>
|
1862
|
+
<p>最近では、NCBI は E-Utils というウェブアプリケーションを使うことが
|
1863
|
+
推奨されているので、今後は Bio::PubMed.esearch メソッドおよび
|
1864
|
+
Bio::PubMed.efetch メソッドを使う方が良いでしょう。</p>
|
1955
1865
|
<pre>#!/usr/bin/env ruby
|
1956
1866
|
|
1957
1867
|
require 'bio'
|
@@ -1970,42 +1880,42 @@ Bio::PubMed.efetch(entries).each do |entry|
|
|
1970
1880
|
reference = medline.reference
|
1971
1881
|
puts reference.bibtex
|
1972
1882
|
end</pre>
|
1973
|
-
<p
|
1974
|
-
NCBI E-Utils
|
1975
|
-
|
1976
|
-
|
1977
|
-
<p
|
1978
|
-
|
1979
|
-
|
1980
|
-
|
1981
|
-
<h3><a name="label-
|
1982
|
-
<p
|
1983
|
-
|
1883
|
+
<p>このスクリプトでは、上記の pmsearch.rb とほぼ同じように動きます。さらに、
|
1884
|
+
NCBI E-Utils を活用することにより、検索対象の日付や最大ヒット件数などを
|
1885
|
+
指定できるようになっているので、より高機能です。オプションに与えられる
|
1886
|
+
引数については <a href="http://eutils.ncbi.nlm.nih.gov/entrez/query/static/eutils_help.html">E-Utils のヘルプページ</a> を参照してください。</p>
|
1887
|
+
<p>ちなみに、ここでは bibtex メソッドで BibTeX フォーマットに変換しています
|
1888
|
+
が、後述のように bibitem メソッドも使える他、(強調やイタリックなど
|
1889
|
+
文字の修飾はできませんが)nature メソッドや nar など、いくつかの雑誌の
|
1890
|
+
フォーマットにも対応しています。</p>
|
1891
|
+
<h3><a name="label-86" id="label-86">BibTeX の使い方のメモ</a></h3><!-- RDLabel: "BibTeX の使い方のメモ" -->
|
1892
|
+
<p>上記の例で集めた BibTeX フォーマットのリストを TeX で使う方法を簡単にま
|
1893
|
+
とめておきます。引用しそうな文献を</p>
|
1984
1894
|
<pre>% ./pmfetch.rb 10592173 >> genoinfo.bib
|
1985
1895
|
% ./pmsearch.rb genome bioinformatics >> genoinfo.bib</pre>
|
1986
|
-
<p
|
1896
|
+
<p>などとして genoinfo.bib ファイルに集めて保存しておき、</p>
|
1987
1897
|
<pre>\documentclass{jarticle}
|
1988
1898
|
\begin{document}
|
1989
1899
|
\bibliographystyle{plain}
|
1990
|
-
|
1900
|
+
ほにゃらら KEGG データベース~\cite{PMID:10592173}はふがほげである。
|
1991
1901
|
\bibliography{genoinfo}
|
1992
1902
|
\end{document}</pre>
|
1993
|
-
<p
|
1903
|
+
<p>というファイル hoge.tex を書いて、</p>
|
1994
1904
|
<pre>% platex hoge
|
1995
|
-
% bibtex hoge #
|
1996
|
-
% platex hoge #
|
1997
|
-
% platex hoge #
|
1998
|
-
<p
|
1999
|
-
<h3><a name="label-
|
2000
|
-
<p
|
2001
|
-
|
1905
|
+
% bibtex hoge # → genoinfo.bib の処理
|
1906
|
+
% platex hoge # → 文献リストの作成
|
1907
|
+
% platex hoge # → 文献番号</pre>
|
1908
|
+
<p>とすると無事 hoge.dvi ができあがります。</p>
|
1909
|
+
<h3><a name="label-87" id="label-87">bibitem の使い方のメモ</a></h3><!-- RDLabel: "bibitem の使い方のメモ" -->
|
1910
|
+
<p>文献用に別の .bib ファイルを作りたくない場合は Reference#bibitem メソッ
|
1911
|
+
ドの出力を使います。上記の pmfetch.rb や pmsearch.rb の</p>
|
2002
1912
|
<pre>puts reference.bibtex</pre>
|
2003
|
-
<p
|
1913
|
+
<p>の行を</p>
|
2004
1914
|
<pre>puts reference.bibitem</pre>
|
2005
|
-
<p
|
1915
|
+
<p>に書き換えるなどして、出力結果を</p>
|
2006
1916
|
<pre>\documentclass{jarticle}
|
2007
1917
|
\begin{document}
|
2008
|
-
|
1918
|
+
ほにゃらら KEGG データベース~\cite{PMID:10592173}はふがほげである。
|
2009
1919
|
|
2010
1920
|
\begin{thebibliography}{00}
|
2011
1921
|
|
@@ -2016,70 +1926,70 @@ KEGG: kyoto encyclopedia of genes and genomes.,
|
|
2016
1926
|
|
2017
1927
|
\end{thebibliography}
|
2018
1928
|
\end{document}</pre>
|
2019
|
-
<p
|
2020
|
-
<pre>% platex hoge #
|
2021
|
-
% platex hoge #
|
2022
|
-
<p
|
2023
|
-
<h1><a name="label-
|
2024
|
-
<p>OBDA (Open Bio Database Access)
|
2025
|
-
|
2026
|
-
2002
|
2027
|
-
|
2028
|
-
|
1929
|
+
<p>のように \begin{thebibliography} で囲みます。これを hoge.tex とすると</p>
|
1930
|
+
<pre>% platex hoge # → 文献リストの作成
|
1931
|
+
% platex hoge # → 文献番号</pre>
|
1932
|
+
<p>と2回処理すればできあがりです。</p>
|
1933
|
+
<h1><a name="label-88" id="label-88">OBDA</a></h1><!-- RDLabel: "OBDA" -->
|
1934
|
+
<p>OBDA (Open Bio Database Access) とは、Open Bioinformatics Foundation
|
1935
|
+
によって制定された、配列データベースへの共通アクセス方法です。これは、
|
1936
|
+
2002 年の1月と2月に Arizona と Cape Town にて開催された BioHackathon
|
1937
|
+
において、BioPerl, BioJava, BioPython, BioRuby などの各プロジェクトの
|
1938
|
+
メンバーが参加して作成されました。</p>
|
2029
1939
|
<ul>
|
2030
1940
|
<li>BioRegistry (Directory)
|
2031
1941
|
<ul>
|
2032
|
-
<li
|
1942
|
+
<li>データベース毎に配列をどこにどのように取りに行くかを指定する仕組み</li>
|
2033
1943
|
</ul></li>
|
2034
1944
|
<li>BioFlat
|
2035
1945
|
<ul>
|
2036
|
-
<li
|
1946
|
+
<li>フラットファイルの 2 分木または BDB を使ったインデックス作成</li>
|
2037
1947
|
</ul></li>
|
2038
1948
|
<li>BioFetch
|
2039
1949
|
<ul>
|
2040
|
-
<li>HTTP
|
1950
|
+
<li>HTTP 経由でデータベースからエントリを取得するサーバとクライアント</li>
|
2041
1951
|
</ul></li>
|
2042
1952
|
<li>BioSQL
|
2043
1953
|
<ul>
|
2044
|
-
<li>MySQL
|
2045
|
-
|
1954
|
+
<li>MySQL や PostgreSQL などの関係データベースに配列データを格納する
|
1955
|
+
ための schema と、エントリを取り出すためのメソッド</li>
|
2046
1956
|
</ul></li>
|
2047
1957
|
</ul>
|
2048
|
-
<p
|
2049
|
-
|
2050
|
-
|
2051
|
-
<h2><a name="label-
|
2052
|
-
<p>BioRegistry
|
2053
|
-
|
2054
|
-
|
2055
|
-
|
1958
|
+
<p>詳細は <a href="http://obda.open-bio.org/"><URL:http://obda.open-bio.org/></a> を参照してください。
|
1959
|
+
それぞれの仕様書は cvs.open-bio.org の CVSレポジトリに置いてあります。
|
1960
|
+
または、<a href="http://cvs.open-bio.org/cgi-bin/viewcvs/viewcvs.cgi/obda-specs/?cvsroot=obf-common"><URL:http://cvs.open-bio.org/cgi-bin/viewcvs/viewcvs.cgi/obda-specs/?cvsroot=obf-common></a> から参照できます。</p>
|
1961
|
+
<h2><a name="label-89" id="label-89">BioRegistry</a></h2><!-- RDLabel: "BioRegistry" -->
|
1962
|
+
<p>BioRegistryとは、設定ファイルによって各データベースのエントリ取得方法を
|
1963
|
+
指定することにより、どんな方法を使っているかをほとんど意識せずデータを
|
1964
|
+
取得することを可能とするための仕組みです。
|
1965
|
+
設定ファイルの優先順位は</p>
|
2056
1966
|
<ul>
|
2057
|
-
<li>(
|
1967
|
+
<li>(メソッドのパラメータで)指定したファイル</li>
|
2058
1968
|
<li>~/.bioinformatics/seqdatabase.ini</li>
|
2059
1969
|
<li>/etc/bioinformatics/seqdatabase.ini</li>
|
2060
1970
|
<li>http://www.open-bio.org/registry/seqdatabase.ini</li>
|
2061
1971
|
</ul>
|
2062
|
-
<p
|
2063
|
-
|
2064
|
-
<p>BioRuby
|
2065
|
-
|
2066
|
-
|
2067
|
-
|
2068
|
-
|
2069
|
-
|
2070
|
-
<p
|
2071
|
-
<pre>[
|
2072
|
-
protocol
|
2073
|
-
location
|
2074
|
-
<p
|
2075
|
-
|
2076
|
-
|
2077
|
-
|
2078
|
-
|
2079
|
-
|
2080
|
-
<p
|
2081
|
-
|
2082
|
-
|
1972
|
+
<p>最後の open-bio.org の設定は、ローカルな設定ファイルが見つからない場合に
|
1973
|
+
だけ参照します。</p>
|
1974
|
+
<p>BioRuby の現在の実装では、すべてのローカルな設定ファイルを読み込み、
|
1975
|
+
同じ名前の設定が複数存在した場合は、最初に見つかった設定だけが使用されます。
|
1976
|
+
これを利用すると、たとえば、システム管理者が /etc/bioinformatics/ に置いた
|
1977
|
+
設定のうち個人的に変更したいものだけ ~/.bioinformatics/ で上書きすることが
|
1978
|
+
できます。サンプルの seqdatabase.ini ファイルが bioruby のソースに含まれて
|
1979
|
+
いますので参照してください。</p>
|
1980
|
+
<p>設定ファイルの中身は stanza フォーマットと呼ばれる書式で記述します。</p>
|
1981
|
+
<pre>[データベース名]
|
1982
|
+
protocol=プロトコル名
|
1983
|
+
location=サーバ名</pre>
|
1984
|
+
<p>このようなエントリを各データベースについて記述することになります。
|
1985
|
+
データベース名は、自分が使用するためのラベルなので分かりやすいものを
|
1986
|
+
つければ良く、実際のデータベースの名前と異なっていても構わないようです。
|
1987
|
+
同じ名前のデータベースが複数あるときは最初に書かれているものから順に
|
1988
|
+
接続を試すように仕様書では提案されていますが、今のところ BioRuby では
|
1989
|
+
それには対応していません。</p>
|
1990
|
+
<p>また、プロトコルの種類によっては location 以外にも(MySQL のユーザ名など)
|
1991
|
+
追加のオプションを記述する必要があります。現在のところ、仕様書で規定され
|
1992
|
+
ている protocol としては以下のものがあります。</p>
|
2083
1993
|
<ul>
|
2084
1994
|
<li>index-flat</li>
|
2085
1995
|
<li>index-berkeleydb</li>
|
@@ -2088,80 +1998,80 @@ location=
|
|
2088
1998
|
<li>bsane-corba</li>
|
2089
1999
|
<li>xembl</li>
|
2090
2000
|
</ul>
|
2091
|
-
<p
|
2092
|
-
|
2093
|
-
|
2094
|
-
<p>BioRegistry
|
2095
|
-
|
2001
|
+
<p>今のところ BioRuby で使用可能なのは index-flat, index-berkleydb, biofetch
|
2002
|
+
と biosql だけです。また、BioRegistryや各プロトコルの仕様は変更されること
|
2003
|
+
がありますが、BioRubyはそれに追従できていないかもしれません。</p>
|
2004
|
+
<p>BioRegistry を使うには、まず Bio::Registryオブジェクトを作成します。
|
2005
|
+
すると、設定ファイルが読み込まれます。</p>
|
2096
2006
|
<pre>reg = Bio::Registry.new
|
2097
2007
|
|
2098
|
-
#
|
2008
|
+
# 設定ファイルに書いたデータベース名でサーバへ接続
|
2099
2009
|
serv = reg.get_database('genbank')
|
2100
2010
|
|
2101
|
-
# ID
|
2011
|
+
# ID を指定してエントリを取得
|
2102
2012
|
entry = serv.get_by_id('AA2CG')</pre>
|
2103
|
-
<p
|
2104
|
-
|
2105
|
-
|
2106
|
-
<p
|
2107
|
-
|
2108
|
-
BioSQL
|
2109
|
-
<h2><a name="label-
|
2110
|
-
<p>BioFlat
|
2111
|
-
|
2112
|
-
index-flat
|
2113
|
-
|
2114
|
-
|
2115
|
-
bioruby
|
2116
|
-
<pre>% br_bioflat.rb --makeindex
|
2117
|
-
<p
|
2118
|
-
|
2119
|
-
BioRuby
|
2120
|
-
<pre>% bioflat
|
2121
|
-
<p
|
2122
|
-
|
2013
|
+
<p>ここで serv は設定ファイルの [genbank] の欄で指定した protocol プロトコ
|
2014
|
+
ルに対応するサーバオブジェクトで、Bio::SQL や Bio::Fetch などのインスタ
|
2015
|
+
ンスが返っているはずです(データベース名が見つからなかった場合は nil)。</p>
|
2016
|
+
<p>あとは OBDA 共通のエントリ取得メソッド get_by_id を呼んだり、サーバオ
|
2017
|
+
ブジェクト毎に固有のメソッドを呼ぶことになりますので、以下の BioFetch や
|
2018
|
+
BioSQL の解説を参照してください。</p>
|
2019
|
+
<h2><a name="label-90" id="label-90">BioFlat</a></h2><!-- RDLabel: "BioFlat" -->
|
2020
|
+
<p>BioFlat はフラットファイルに対してインデックスを作成し、エントリを高速に
|
2021
|
+
取り出す仕組みです。インデックスの種類は、RUbyの拡張ライブラリに依存しない
|
2022
|
+
index-flat と Berkeley DB (bdb) を使った index-berkeleydb の2種類が存在
|
2023
|
+
します。なお、index-berkeleydb を使用するには、BDB という Ruby の拡張
|
2024
|
+
ライブラリを別途インストールする必要があります。インデックスの作成には
|
2025
|
+
bioruby パッケージに付属する br_bioflat.rb コマンドを使って、</p>
|
2026
|
+
<pre>% br_bioflat.rb --makeindex データベース名 [--format クラス名] ファイル名</pre>
|
2027
|
+
<p>のようにします。BioRubyはデータフォーマットの自動認識機能を搭載している
|
2028
|
+
ので --format オプションは省略可能ですが、万一うまく認識しなかった場合は
|
2029
|
+
BioRuby の各データベースのクラス名を指定してください。検索は、</p>
|
2030
|
+
<pre>% bioflat データベース名 エントリID</pre>
|
2031
|
+
<p>とします。具体的に GenBank の gbbct*.seq ファイルにインデックスを作成し
|
2032
|
+
て検索する場合、</p>
|
2123
2033
|
<pre>% bioflat --makeindex my_bctdb --format GenBank gbbct*.seq
|
2124
2034
|
% bioflat my_bctdb A16STM262</pre>
|
2125
|
-
<p
|
2126
|
-
<p>Ruby
|
2127
|
-
|
2128
|
-
|
2129
|
-
<pre>% bioflat --makeindex-bdb
|
2130
|
-
<p
|
2131
|
-
<h2><a name="label-
|
2132
|
-
<p>BioFetch
|
2133
|
-
|
2134
|
-
|
2135
|
-
|
2136
|
-
<p>BioRuby
|
2137
|
-
BioFetch
|
2138
|
-
|
2139
|
-
BioFetch
|
2140
|
-
<p>BioFetch
|
2035
|
+
<p>のような感じになります。</p>
|
2036
|
+
<p>Ruby の bdb 拡張モジュール(詳細は http://raa.ruby-lang.org/project/bdb/ 参照)
|
2037
|
+
がインストールされている場合は Berkeley DB を利用してインデックスを作成する
|
2038
|
+
ことができます。この場合、</p>
|
2039
|
+
<pre>% bioflat --makeindex-bdb データベース名 [--format クラス名] ファイル名</pre>
|
2040
|
+
<p>のように "--makeindex" のかわりに "--makeindex-bdb" を指定します。</p>
|
2041
|
+
<h2><a name="label-91" id="label-91">BioFetch</a></h2><!-- RDLabel: "BioFetch" -->
|
2042
|
+
<p>BioFetch は CGI を経由してサーバからデータベースのエントリを取得する仕様
|
2043
|
+
で、サーバが受け取る CGI のオプション名、エラーコードなどが決められてい
|
2044
|
+
ます。クライアントは HTTP を使ってデータベース、ID、フォーマットなどを指
|
2045
|
+
定し、エントリを取得します。</p>
|
2046
|
+
<p>BioRuby プロジェクトでは GenomeNet の DBGET システムをバックエンドとした
|
2047
|
+
BioFetch サーバを実装しており、bioruby.org で運用しています。このサーバの
|
2048
|
+
ソースコードは BioRuby の sample/ ディレクトリに入っています。現在のところ
|
2049
|
+
BioFetch サーバはこの bioruby.org のものと EBI の二か所しかありません。</p>
|
2050
|
+
<p>BioFetch を使ってエントリを取得するには、いくつかの方法があります。</p>
|
2141
2051
|
<ol>
|
2142
|
-
<li><p
|
2052
|
+
<li><p>ウェブブラウザから検索する方法(以下のページを開く)</p>
|
2143
2053
|
<pre>http://bioruby.org/cgi-bin/biofetch.rb</pre></li>
|
2144
|
-
<li><p>BioRuby
|
2054
|
+
<li><p>BioRuby付属の br_biofetch.rb コマンドを用いる方法</p>
|
2145
2055
|
<pre>% br_biofetch.rb db_name entry_id</pre></li>
|
2146
|
-
<li><p
|
2056
|
+
<li><p>スクリプトの中から Bio::Fetch クラスを直接使う方法</p>
|
2147
2057
|
<pre>serv = Bio::Fetch.new(server_url)
|
2148
2058
|
entry = serv.fetch(db_name, entry_id)</pre></li>
|
2149
|
-
<li><p
|
2059
|
+
<li><p>スクリプトの中で BioRegistry 経由で Bio::Fetch クラスを間接的に使う方法</p>
|
2150
2060
|
<pre>reg = Bio::Registry.new
|
2151
2061
|
serv = reg.get_database('genbank')
|
2152
2062
|
entry = serv.get_by_id('AA2CG')</pre></li>
|
2153
2063
|
</ol>
|
2154
|
-
<p
|
2064
|
+
<p>もし (4) を使いたい場合は seqdatabase.ini で</p>
|
2155
2065
|
<pre>[genbank]
|
2156
2066
|
protocol=biofetch
|
2157
2067
|
location=http://bioruby.org/cgi-bin/biofetch.rb
|
2158
2068
|
biodbname=genbank</pre>
|
2159
|
-
<p
|
2160
|
-
<h3><a name="label-
|
2161
|
-
<p
|
2162
|
-
Halobacterium
|
2163
|
-
|
2164
|
-
|
2069
|
+
<p>などと指定しておく必要があります。</p>
|
2070
|
+
<h3><a name="label-92" id="label-92">BioFetch と Bio::KEGG::GENES, Bio::AAindex1 を組み合わせた例</a></h3><!-- RDLabel: "BioFetch と Bio::KEGG::GENES, Bio::AAindex1 を組み合わせた例" -->
|
2071
|
+
<p>次のプログラムは、BioFetch を使って KEGG の GENES データベースから古細菌
|
2072
|
+
Halobacterium のバクテリアロドプシン遺伝子 (VNG1467G) を取ってきて、同じ
|
2073
|
+
ようにアミノ酸指標データベースである AAindex から取得したαヘリックスの
|
2074
|
+
指標 (BURA740101) を使って、幅 15 残基のウィンドウサーチをする例です。</p>
|
2165
2075
|
<pre>#!/usr/bin/env ruby
|
2166
2076
|
|
2167
2077
|
require 'bio'
|
@@ -2180,45 +2090,45 @@ aaseq.window_search(win_size) do |subseq|
|
|
2180
2090
|
puts [ position, score ].join("\t")
|
2181
2091
|
position += 1
|
2182
2092
|
end</pre>
|
2183
|
-
<p
|
2184
|
-
BioFetch
|
2185
|
-
|
2186
|
-
AAindex
|
2187
|
-
|
2188
|
-
<h2><a name="label-
|
2093
|
+
<p>ここで使っているクラスメソッド Bio::Fetch.query は暗黙に bioruby.org の
|
2094
|
+
BioFetch サーバを使う専用のショートカットです。(このサーバは内部的には
|
2095
|
+
ゲノムネットからデータを取得しています。KEGG/GENES データベースの hal や
|
2096
|
+
AAindex データベース aax1 のエントリは、他の BioFetch サーバでは取得でき
|
2097
|
+
ないこともあって、あえて query メソッドを使っています。)</p>
|
2098
|
+
<h2><a name="label-93" id="label-93">BioSQL</a></h2><!-- RDLabel: "BioSQL" -->
|
2189
2099
|
<p>to be written...</p>
|
2190
|
-
<h2><a name="label-
|
2191
|
-
<p>BioRuby
|
2192
|
-
|
2193
|
-
|
2100
|
+
<h2><a name="label-94" id="label-94">BioRuby のサンプルプログラムの使い方</a></h2><!-- RDLabel: "BioRuby のサンプルプログラムの使い方" -->
|
2101
|
+
<p>BioRuby のパッケージには samples/ ディレクトリ以下にいくつかのサンプルプ
|
2102
|
+
ログラムが含まれています。古いものも混じっていますし、量もとても十分とは
|
2103
|
+
言えないので、実用的で面白いサンプルの提供は歓迎です。</p>
|
2194
2104
|
<p>to be written...</p>
|
2195
|
-
<h2><a name="label-
|
2196
|
-
<p
|
2197
|
-
BioRuby in Anger
|
2198
|
-
<h2><a name="label-
|
2105
|
+
<h2><a name="label-95" id="label-95">さらなる情報</a></h2><!-- RDLabel: "さらなる情報" -->
|
2106
|
+
<p>他のチュートリアル的なドキュメントとしては、BioRuby Wikiに置いてある
|
2107
|
+
BioRuby in Anger があります。</p>
|
2108
|
+
<h2><a name="label-96" id="label-96">脚注</a></h2><!-- RDLabel: "脚注" -->
|
2199
2109
|
<ul>
|
2200
|
-
<li><p>(
|
2201
|
-
|
2110
|
+
<li><p>(※1) BioRuby 1.2.1 以前のバージョンでは、setup.rb のかわりに install.rb
|
2111
|
+
を使用します。また、以下のように3段階を踏む必要があります。</p>
|
2202
2112
|
<pre>% ruby install.rb config
|
2203
2113
|
% ruby install.rb setup
|
2204
2114
|
# ruby install.rb install</pre></li>
|
2205
|
-
<li>(
|
2206
|
-
|
2207
|
-
<li><p>(
|
2208
|
-
Bio::sequence::AA
|
2209
|
-
|
2115
|
+
<li>(※2) BioRuby 1.0.0 以前のバージョンでは、getseq, getent, getobj
|
2116
|
+
の各コマンドのかわりに、seq, ent, obj の各コマンドを使用してください。</li>
|
2117
|
+
<li><p>(※3) BioRuby 0.7.1 以前のバージョンでは、Bio::Sequence::NA クラスか、
|
2118
|
+
Bio::sequence::AA クラスのどちらかのオブジェクトになります。
|
2119
|
+
配列がどちらのクラスに属するかは Ruby の class メソッドを用いて</p>
|
2210
2120
|
<pre>bioruby> p cdc2.class
|
2211
2121
|
Bio::Sequence::AA
|
2212
2122
|
|
2213
2123
|
bioruby> p psaB.class
|
2214
2124
|
Bio::Sequence::NA</pre>
|
2215
|
-
<p
|
2216
|
-
to_naseq, to_aaseq
|
2217
|
-
<li>(
|
2218
|
-
|
2219
|
-
String
|
2220
|
-
<li>(
|
2221
|
-
|
2125
|
+
<p>のように調べることができます。自動判定が間違っている場合などには
|
2126
|
+
to_naseq, to_aaseq メソッドで強制的に変換できます。</p></li>
|
2127
|
+
<li>(※4) seq メソッドは、読み込んだデータの種類によっては、塩基・アミノ酸の
|
2128
|
+
どちらにも当てはまらない配列のための Bio::Sequence::Generic クラスや
|
2129
|
+
String クラスのオブジェクトを返す場合があるかもしれません。</li>
|
2130
|
+
<li>(※5) NCBI, EBI, TogoWS が特別な設定無しに getseq, getent, getobj コマンド
|
2131
|
+
から利用可能となったのは BioRuby 1.3.0 以降です。</li>
|
2222
2132
|
</ul>
|
2223
2133
|
|
2224
2134
|
</body>
|