yacan 0.1.0 → 0.1.1
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- data/README.rdoc +69 -1
- data/VERSION +1 -1
- data/lib/yacan/morphem.rb +1 -1
- data/yacan.gemspec +1 -1
- metadata +2 -2
data/README.rdoc
CHANGED
@@ -1,7 +1,75 @@
|
|
1
1
|
= yacan
|
2
|
+
Yahoo!テキスト解析APIをラップするgem
|
2
3
|
|
3
|
-
|
4
|
+
http://developer.yahoo.co.jp/webapi/jlp/
|
4
5
|
|
6
|
+
== Example
|
7
|
+
=== 準備
|
8
|
+
# アプリケーションIDを渡す
|
9
|
+
YaCan.appid = '*****'
|
10
|
+
|
11
|
+
=== 係り受け解析
|
12
|
+
http://developer.yahoo.co.jp/webapi/jlp/da/v1/parse.html
|
13
|
+
|
14
|
+
1文ずつ渡さないと変な結果になる
|
15
|
+
|
16
|
+
# 解析
|
17
|
+
d = YaCan::Dependency.parse('DVDが終わるまで私はお二人の足台にさせられました。')
|
18
|
+
d.chunks #=> [0 1 DVDが, 1 5 終わるまで, 2 5 私は, 3 4 お二人の, 4 5 足台に, 5 -1 させられました。]
|
19
|
+
# 文中に含まれるChunk(文節)インスタンスの配列
|
20
|
+
d.morphems #=> [DVD: 名詞,名詞,*,DVD,でぃーぶいでぃー,DVD, が: 助詞,格助詞,*,が,が,が, 終わる: 動詞,ラ五,基本形,終わる,おわ,終わ, まで: 助詞,副助詞,*,まで,まで,まで, 私: 名詞,名詞人,*,私,わたし,私, は: 助詞,係助詞,*,は,は,は, お: 接頭辞,接頭お,*,お,お,お, 二人: 名詞,名詞人,*,二人,ふたり,二人, の: 助詞,助詞連体化,*,の,の,の, 足: 名詞,名詞,*,足,あし,足, 台: 接尾辞,接尾地名,*,台,だい,台, に: 助詞,助詞副詞化,*,に,に,に, させ: 動詞,サ五,連用テ接続,させ,さ,さ, られ: 助動詞,助動詞一段,未然ウ接続,られ,られ,られ, まし: 助動詞,助動詞ます,未然ウ接続,まし,ま,ま, た: 助動詞,助動詞た,基本形,た,た,た, 。: 特殊,句点,*,。,。,。]
|
21
|
+
# 文中に含まれるMorphem(形態素)のインスタンスの配列
|
22
|
+
|
23
|
+
# Chunk
|
24
|
+
chunk = d.chunks[3]
|
25
|
+
chunk.to_s #=> "3 4 お二人の"
|
26
|
+
chunk.id #=> 3 ; 文節ID
|
27
|
+
chunk.dependency #=> 4 ; 係り先のID、なければ-1
|
28
|
+
chunk.morphems #=> [お: 接頭辞,接頭お,*,お,お,お, 二人: 名詞,名詞人,*,二人,ふたり,二人, の: 助,助詞連体化,*,の,の,の]
|
29
|
+
# Morphem(形態素)インスタンスの配列
|
30
|
+
chunk.depends_on #=> 4 5 足台に ; 係り先のChunk、なければnil
|
31
|
+
chunk.depends_from #=> [] ; 係り元のChunkの配列
|
32
|
+
|
33
|
+
# Morphem
|
34
|
+
morphem = chunk.morphems[1]
|
35
|
+
morphem.to_s #=> 二人: 名詞,名詞人,*,二人,ふたり,二人
|
36
|
+
morphem.surface #=> "二人" ; 表記
|
37
|
+
morphem.reading #=> "ふたり" ; 読み
|
38
|
+
morphem.baseform #=> "二人" ; 基本形
|
39
|
+
morphem.pos #=> "名詞" ; 品詞
|
40
|
+
morphem.feature #=> ["名詞", "名詞人", "*", "二人", "ふたり", "二人"] ; 形態素の全情報
|
41
|
+
|
42
|
+
|
43
|
+
=== キーフレーズ抽出
|
44
|
+
http://developer.yahoo.co.jp/webapi/jlp/keyphrase/v1/extract.html
|
45
|
+
|
46
|
+
# 抽出
|
47
|
+
k = YaCan::Keyphrase.extract('DVDが終わるまで私はお二人の足台にさせられました。')
|
48
|
+
|
49
|
+
k.results #=> [["足台", 100], ["お二人", 85], ["DVD", 65], ["私", 35]]
|
50
|
+
# キーフレーズとスコアのペアの配列
|
51
|
+
k.phrases #=> ["足台", "お二人", "DVD", "私"]
|
52
|
+
k.scores #=> [100, 85, 65, 35]
|
53
|
+
|
54
|
+
|
55
|
+
=== 形態素解析
|
56
|
+
http://developer.yahoo.co.jp/webapi/jlp/ma/v1/parse.html
|
57
|
+
|
58
|
+
作ったけど係り受け解析使えば用は済みそう
|
59
|
+
|
60
|
+
# 解析
|
61
|
+
m = YaCan::Morphem.parse('DVDが終わるまで私はお二人の足台にさせられました。', {'filter' => '9' })
|
62
|
+
# 抽出対象品詞のフィルタとか渡せる、APIのページ見れば分かる感じ
|
63
|
+
m.ma_result.morphems.map(&:surface) #=> ["DVD", "私", "二人", "足", "台"]
|
64
|
+
|
65
|
+
あとはコード見てほしい
|
66
|
+
|
67
|
+
https://github.com/pokutuna/yacan/blob/master/lib/yacan/morphem.rb
|
68
|
+
|
69
|
+
== その他
|
70
|
+
* テストは環境変数のYAHOO_API_APPIDをみにいってる
|
71
|
+
* 環境変数のhttp_proxyを見て通信してる。YaCan.proxy_host=, YaCan.proxy_port= で設定もできる
|
72
|
+
|
5
73
|
== Contributing to yacan
|
6
74
|
|
7
75
|
* Check out the latest master to make sure the feature hasn't been implemented or the bug hasn't been fixed yet
|
data/VERSION
CHANGED
@@ -1 +1 @@
|
|
1
|
-
0.1.
|
1
|
+
0.1.1
|
data/lib/yacan/morphem.rb
CHANGED
data/yacan.gemspec
CHANGED
metadata
CHANGED
@@ -2,7 +2,7 @@
|
|
2
2
|
name: yacan
|
3
3
|
version: !ruby/object:Gem::Version
|
4
4
|
prerelease:
|
5
|
-
version: 0.1.
|
5
|
+
version: 0.1.1
|
6
6
|
platform: ruby
|
7
7
|
authors:
|
8
8
|
- pokutuna
|
@@ -123,7 +123,7 @@ required_ruby_version: !ruby/object:Gem::Requirement
|
|
123
123
|
requirements:
|
124
124
|
- - ">="
|
125
125
|
- !ruby/object:Gem::Version
|
126
|
-
hash: -
|
126
|
+
hash: -1295100136529720042
|
127
127
|
segments:
|
128
128
|
- 0
|
129
129
|
version: "0"
|