yacan 0.1.0 → 0.1.1
Sign up to get free protection for your applications and to get access to all the features.
- data/README.rdoc +69 -1
- data/VERSION +1 -1
- data/lib/yacan/morphem.rb +1 -1
- data/yacan.gemspec +1 -1
- metadata +2 -2
data/README.rdoc
CHANGED
@@ -1,7 +1,75 @@
|
|
1
1
|
= yacan
|
2
|
+
Yahoo!テキスト解析APIをラップするgem
|
2
3
|
|
3
|
-
|
4
|
+
http://developer.yahoo.co.jp/webapi/jlp/
|
4
5
|
|
6
|
+
== Example
|
7
|
+
=== 準備
|
8
|
+
# アプリケーションIDを渡す
|
9
|
+
YaCan.appid = '*****'
|
10
|
+
|
11
|
+
=== 係り受け解析
|
12
|
+
http://developer.yahoo.co.jp/webapi/jlp/da/v1/parse.html
|
13
|
+
|
14
|
+
1文ずつ渡さないと変な結果になる
|
15
|
+
|
16
|
+
# 解析
|
17
|
+
d = YaCan::Dependency.parse('DVDが終わるまで私はお二人の足台にさせられました。')
|
18
|
+
d.chunks #=> [0 1 DVDが, 1 5 終わるまで, 2 5 私は, 3 4 お二人の, 4 5 足台に, 5 -1 させられました。]
|
19
|
+
# 文中に含まれるChunk(文節)インスタンスの配列
|
20
|
+
d.morphems #=> [DVD: 名詞,名詞,*,DVD,でぃーぶいでぃー,DVD, が: 助詞,格助詞,*,が,が,が, 終わる: 動詞,ラ五,基本形,終わる,おわ,終わ, まで: 助詞,副助詞,*,まで,まで,まで, 私: 名詞,名詞人,*,私,わたし,私, は: 助詞,係助詞,*,は,は,は, お: 接頭辞,接頭お,*,お,お,お, 二人: 名詞,名詞人,*,二人,ふたり,二人, の: 助詞,助詞連体化,*,の,の,の, 足: 名詞,名詞,*,足,あし,足, 台: 接尾辞,接尾地名,*,台,だい,台, に: 助詞,助詞副詞化,*,に,に,に, させ: 動詞,サ五,連用テ接続,させ,さ,さ, られ: 助動詞,助動詞一段,未然ウ接続,られ,られ,られ, まし: 助動詞,助動詞ます,未然ウ接続,まし,ま,ま, た: 助動詞,助動詞た,基本形,た,た,た, 。: 特殊,句点,*,。,。,。]
|
21
|
+
# 文中に含まれるMorphem(形態素)のインスタンスの配列
|
22
|
+
|
23
|
+
# Chunk
|
24
|
+
chunk = d.chunks[3]
|
25
|
+
chunk.to_s #=> "3 4 お二人の"
|
26
|
+
chunk.id #=> 3 ; 文節ID
|
27
|
+
chunk.dependency #=> 4 ; 係り先のID、なければ-1
|
28
|
+
chunk.morphems #=> [お: 接頭辞,接頭お,*,お,お,お, 二人: 名詞,名詞人,*,二人,ふたり,二人, の: 助,助詞連体化,*,の,の,の]
|
29
|
+
# Morphem(形態素)インスタンスの配列
|
30
|
+
chunk.depends_on #=> 4 5 足台に ; 係り先のChunk、なければnil
|
31
|
+
chunk.depends_from #=> [] ; 係り元のChunkの配列
|
32
|
+
|
33
|
+
# Morphem
|
34
|
+
morphem = chunk.morphems[1]
|
35
|
+
morphem.to_s #=> 二人: 名詞,名詞人,*,二人,ふたり,二人
|
36
|
+
morphem.surface #=> "二人" ; 表記
|
37
|
+
morphem.reading #=> "ふたり" ; 読み
|
38
|
+
morphem.baseform #=> "二人" ; 基本形
|
39
|
+
morphem.pos #=> "名詞" ; 品詞
|
40
|
+
morphem.feature #=> ["名詞", "名詞人", "*", "二人", "ふたり", "二人"] ; 形態素の全情報
|
41
|
+
|
42
|
+
|
43
|
+
=== キーフレーズ抽出
|
44
|
+
http://developer.yahoo.co.jp/webapi/jlp/keyphrase/v1/extract.html
|
45
|
+
|
46
|
+
# 抽出
|
47
|
+
k = YaCan::Keyphrase.extract('DVDが終わるまで私はお二人の足台にさせられました。')
|
48
|
+
|
49
|
+
k.results #=> [["足台", 100], ["お二人", 85], ["DVD", 65], ["私", 35]]
|
50
|
+
# キーフレーズとスコアのペアの配列
|
51
|
+
k.phrases #=> ["足台", "お二人", "DVD", "私"]
|
52
|
+
k.scores #=> [100, 85, 65, 35]
|
53
|
+
|
54
|
+
|
55
|
+
=== 形態素解析
|
56
|
+
http://developer.yahoo.co.jp/webapi/jlp/ma/v1/parse.html
|
57
|
+
|
58
|
+
作ったけど係り受け解析使えば用は済みそう
|
59
|
+
|
60
|
+
# 解析
|
61
|
+
m = YaCan::Morphem.parse('DVDが終わるまで私はお二人の足台にさせられました。', {'filter' => '9' })
|
62
|
+
# 抽出対象品詞のフィルタとか渡せる、APIのページ見れば分かる感じ
|
63
|
+
m.ma_result.morphems.map(&:surface) #=> ["DVD", "私", "二人", "足", "台"]
|
64
|
+
|
65
|
+
あとはコード見てほしい
|
66
|
+
|
67
|
+
https://github.com/pokutuna/yacan/blob/master/lib/yacan/morphem.rb
|
68
|
+
|
69
|
+
== その他
|
70
|
+
* テストは環境変数のYAHOO_API_APPIDをみにいってる
|
71
|
+
* 環境変数のhttp_proxyを見て通信してる。YaCan.proxy_host=, YaCan.proxy_port= で設定もできる
|
72
|
+
|
5
73
|
== Contributing to yacan
|
6
74
|
|
7
75
|
* Check out the latest master to make sure the feature hasn't been implemented or the bug hasn't been fixed yet
|
data/VERSION
CHANGED
@@ -1 +1 @@
|
|
1
|
-
0.1.
|
1
|
+
0.1.1
|
data/lib/yacan/morphem.rb
CHANGED
data/yacan.gemspec
CHANGED
metadata
CHANGED
@@ -2,7 +2,7 @@
|
|
2
2
|
name: yacan
|
3
3
|
version: !ruby/object:Gem::Version
|
4
4
|
prerelease:
|
5
|
-
version: 0.1.
|
5
|
+
version: 0.1.1
|
6
6
|
platform: ruby
|
7
7
|
authors:
|
8
8
|
- pokutuna
|
@@ -123,7 +123,7 @@ required_ruby_version: !ruby/object:Gem::Requirement
|
|
123
123
|
requirements:
|
124
124
|
- - ">="
|
125
125
|
- !ruby/object:Gem::Version
|
126
|
-
hash: -
|
126
|
+
hash: -1295100136529720042
|
127
127
|
segments:
|
128
128
|
- 0
|
129
129
|
version: "0"
|