nysol-take 3.0.0
Sign up to get free protection for your applications and to get access to all the features.
- checksums.yaml +7 -0
- data/bin/mbiclique.rb +317 -0
- data/bin/mbipolish.rb +362 -0
- data/bin/mccomp.rb +235 -0
- data/bin/mclique.rb +295 -0
- data/bin/mclique2g.rb +105 -0
- data/bin/mcliqueInfo.rb +203 -0
- data/bin/mfriends.rb +202 -0
- data/bin/mgdiff.rb +252 -0
- data/bin/mhifriend.rb +456 -0
- data/bin/mhipolish.rb +465 -0
- data/bin/mitemset.rb +168 -0
- data/bin/mpal.rb +410 -0
- data/bin/mpolishing.rb +399 -0
- data/bin/msequence.rb +165 -0
- data/bin/mtra2g.rb +476 -0
- data/bin/mtra2gc.rb +360 -0
- data/ext/grhfilrun/extconf.rb +12 -0
- data/ext/grhfilrun/grhfilrun.c +85 -0
- data/ext/grhfilrun/src/_sspc.c +358 -0
- data/ext/grhfilrun/src/aheap.c +545 -0
- data/ext/grhfilrun/src/aheap.h +251 -0
- data/ext/grhfilrun/src/base.c +92 -0
- data/ext/grhfilrun/src/base.h +59 -0
- data/ext/grhfilrun/src/fstar.c +497 -0
- data/ext/grhfilrun/src/fstar.h +80 -0
- data/ext/grhfilrun/src/grhfil.c +214 -0
- data/ext/grhfilrun/src/itemset.c +713 -0
- data/ext/grhfilrun/src/itemset.h +170 -0
- data/ext/grhfilrun/src/problem.c +415 -0
- data/ext/grhfilrun/src/problem.h +179 -0
- data/ext/grhfilrun/src/queue.c +533 -0
- data/ext/grhfilrun/src/queue.h +182 -0
- data/ext/grhfilrun/src/sample.c +19 -0
- data/ext/grhfilrun/src/sspc.c +597 -0
- data/ext/grhfilrun/src/sspc2.c +491 -0
- data/ext/grhfilrun/src/stdlib2.c +1482 -0
- data/ext/grhfilrun/src/stdlib2.h +892 -0
- data/ext/grhfilrun/src/trsact.c +817 -0
- data/ext/grhfilrun/src/trsact.h +160 -0
- data/ext/grhfilrun/src/vec.c +745 -0
- data/ext/grhfilrun/src/vec.h +172 -0
- data/ext/lcmrun/extconf.rb +20 -0
- data/ext/lcmrun/lcmrun.cpp +99 -0
- data/ext/lcmrun/src/aheap.c +216 -0
- data/ext/lcmrun/src/aheap.h +111 -0
- data/ext/lcmrun/src/base.c +92 -0
- data/ext/lcmrun/src/base.h +59 -0
- data/ext/lcmrun/src/itemset.c +496 -0
- data/ext/lcmrun/src/itemset.h +157 -0
- data/ext/lcmrun/src/lcm.c +427 -0
- data/ext/lcmrun/src/problem.c +349 -0
- data/ext/lcmrun/src/problem.h +177 -0
- data/ext/lcmrun/src/queue.c +528 -0
- data/ext/lcmrun/src/queue.h +176 -0
- data/ext/lcmrun/src/sgraph.c +359 -0
- data/ext/lcmrun/src/sgraph.h +173 -0
- data/ext/lcmrun/src/stdlib2.c +1282 -0
- data/ext/lcmrun/src/stdlib2.h +823 -0
- data/ext/lcmrun/src/trsact.c +747 -0
- data/ext/lcmrun/src/trsact.h +159 -0
- data/ext/lcmrun/src/vec.c +731 -0
- data/ext/lcmrun/src/vec.h +171 -0
- data/ext/lcmseq0run/extconf.rb +20 -0
- data/ext/lcmseq0run/lcmseq0run.cpp +59 -0
- data/ext/lcmseq0run/src/aheap.c +216 -0
- data/ext/lcmseq0run/src/aheap.h +111 -0
- data/ext/lcmseq0run/src/base.c +92 -0
- data/ext/lcmseq0run/src/base.h +59 -0
- data/ext/lcmseq0run/src/itemset.c +518 -0
- data/ext/lcmseq0run/src/itemset.h +157 -0
- data/ext/lcmseq0run/src/itemset_zero.c +522 -0
- data/ext/lcmseq0run/src/lcm_seq.c +446 -0
- data/ext/lcmseq0run/src/lcm_seq_zero.c +446 -0
- data/ext/lcmseq0run/src/problem.c +439 -0
- data/ext/lcmseq0run/src/problem.h +179 -0
- data/ext/lcmseq0run/src/problem_zero.c +439 -0
- data/ext/lcmseq0run/src/queue.c +533 -0
- data/ext/lcmseq0run/src/queue.h +182 -0
- data/ext/lcmseq0run/src/stdlib2.c +1350 -0
- data/ext/lcmseq0run/src/stdlib2.h +864 -0
- data/ext/lcmseq0run/src/trsact.c +747 -0
- data/ext/lcmseq0run/src/trsact.h +159 -0
- data/ext/lcmseq0run/src/vec.c +779 -0
- data/ext/lcmseq0run/src/vec.h +172 -0
- data/ext/lcmseqrun/extconf.rb +20 -0
- data/ext/lcmseqrun/lcmseqrun.cpp +101 -0
- data/ext/lcmseqrun/src/aheap.c +216 -0
- data/ext/lcmseqrun/src/aheap.h +111 -0
- data/ext/lcmseqrun/src/base.c +92 -0
- data/ext/lcmseqrun/src/base.h +59 -0
- data/ext/lcmseqrun/src/itemset.c +518 -0
- data/ext/lcmseqrun/src/itemset.h +157 -0
- data/ext/lcmseqrun/src/itemset_zero.c +522 -0
- data/ext/lcmseqrun/src/lcm_seq.c +447 -0
- data/ext/lcmseqrun/src/lcm_seq_zero.c +446 -0
- data/ext/lcmseqrun/src/problem.c +439 -0
- data/ext/lcmseqrun/src/problem.h +179 -0
- data/ext/lcmseqrun/src/problem_zero.c +439 -0
- data/ext/lcmseqrun/src/queue.c +533 -0
- data/ext/lcmseqrun/src/queue.h +182 -0
- data/ext/lcmseqrun/src/stdlib2.c +1350 -0
- data/ext/lcmseqrun/src/stdlib2.h +864 -0
- data/ext/lcmseqrun/src/trsact.c +747 -0
- data/ext/lcmseqrun/src/trsact.h +159 -0
- data/ext/lcmseqrun/src/vec.c +779 -0
- data/ext/lcmseqrun/src/vec.h +172 -0
- data/ext/lcmtransrun/extconf.rb +18 -0
- data/ext/lcmtransrun/lcmtransrun.cpp +264 -0
- data/ext/macerun/extconf.rb +20 -0
- data/ext/macerun/macerun.cpp +57 -0
- data/ext/macerun/src/aheap.c +217 -0
- data/ext/macerun/src/aheap.h +112 -0
- data/ext/macerun/src/itemset.c +491 -0
- data/ext/macerun/src/itemset.h +158 -0
- data/ext/macerun/src/mace.c +503 -0
- data/ext/macerun/src/problem.c +346 -0
- data/ext/macerun/src/problem.h +174 -0
- data/ext/macerun/src/queue.c +529 -0
- data/ext/macerun/src/queue.h +177 -0
- data/ext/macerun/src/sgraph.c +360 -0
- data/ext/macerun/src/sgraph.h +174 -0
- data/ext/macerun/src/stdlib2.c +993 -0
- data/ext/macerun/src/stdlib2.h +811 -0
- data/ext/macerun/src/vec.c +634 -0
- data/ext/macerun/src/vec.h +170 -0
- data/ext/sspcrun/extconf.rb +20 -0
- data/ext/sspcrun/src/_sspc.c +358 -0
- data/ext/sspcrun/src/aheap.c +545 -0
- data/ext/sspcrun/src/aheap.h +251 -0
- data/ext/sspcrun/src/base.c +92 -0
- data/ext/sspcrun/src/base.h +59 -0
- data/ext/sspcrun/src/fstar.c +496 -0
- data/ext/sspcrun/src/fstar.h +80 -0
- data/ext/sspcrun/src/grhfil.c +213 -0
- data/ext/sspcrun/src/itemset.c +713 -0
- data/ext/sspcrun/src/itemset.h +170 -0
- data/ext/sspcrun/src/problem.c +415 -0
- data/ext/sspcrun/src/problem.h +179 -0
- data/ext/sspcrun/src/queue.c +533 -0
- data/ext/sspcrun/src/queue.h +182 -0
- data/ext/sspcrun/src/sample.c +19 -0
- data/ext/sspcrun/src/sspc.c +598 -0
- data/ext/sspcrun/src/sspc2.c +491 -0
- data/ext/sspcrun/src/stdlib2.c +1482 -0
- data/ext/sspcrun/src/stdlib2.h +892 -0
- data/ext/sspcrun/src/trsact.c +817 -0
- data/ext/sspcrun/src/trsact.h +160 -0
- data/ext/sspcrun/src/vec.c +745 -0
- data/ext/sspcrun/src/vec.h +172 -0
- data/ext/sspcrun/sspcrun.cpp +54 -0
- data/lib/nysol/enumLcmEp.rb +338 -0
- data/lib/nysol/enumLcmEsp.rb +284 -0
- data/lib/nysol/enumLcmIs.rb +275 -0
- data/lib/nysol/enumLcmSeq.rb +143 -0
- data/lib/nysol/items.rb +201 -0
- data/lib/nysol/seqDB.rb +256 -0
- data/lib/nysol/take.rb +39 -0
- data/lib/nysol/taxonomy.rb +113 -0
- data/lib/nysol/traDB.rb +257 -0
- metadata +239 -0
data/bin/mtra2g.rb
ADDED
@@ -0,0 +1,476 @@
|
|
1
|
+
#!/usr/bin/env ruby
|
2
|
+
# encoding: utf-8
|
3
|
+
|
4
|
+
require "rubygems"
|
5
|
+
require "nysol/traDB.rb"
|
6
|
+
require "nysol/taxonomy.rb"
|
7
|
+
require "nysol/enumLcmEp"
|
8
|
+
require "nysol/enumLcmIs"
|
9
|
+
|
10
|
+
# ver="1.0" # 初期リリース 2014/2/20
|
11
|
+
# ver="1.1" # 出力ファイルにfrequency追加 2016/8/11
|
12
|
+
# ver="1.2" # mtra2g.rbを大幅改良 2016/9/28
|
13
|
+
# クラスファイル対応,edgeに各種類似度追加,節点名順ソート
|
14
|
+
$cmd=$0.sub(/.*\//,"")
|
15
|
+
$version="1.2"
|
16
|
+
|
17
|
+
def help
|
18
|
+
STDERR.puts <<EOF
|
19
|
+
----------------------------
|
20
|
+
#{$cmd} version #{$version}
|
21
|
+
----------------------------
|
22
|
+
概要) トランザクションデータからアイテム類似グラフを構築する。
|
23
|
+
内容) 2アイテムの共起情報によって類似度を定義し、ある閾値より高い類似度を持つアイテム間に枝を張る。
|
24
|
+
書式) #{$cmd} i= tid= item= [class=] [no=] eo= s=|S= [sim=] [th=] [log=] [T=] [--help]
|
25
|
+
|
26
|
+
ファイル名指定
|
27
|
+
i= : トランザクションデータファイル【必須】
|
28
|
+
tid= : トランザクションID項目名【必須】
|
29
|
+
item= : アイテム項目名【必須】
|
30
|
+
classs=: クラス項目名
|
31
|
+
no= : 出力ファイル(節点)
|
32
|
+
eo= : 出力ファイル(辺:節点ペア)
|
33
|
+
log= : パラメータの設定値をkey-value形式のCSVで保存するファイル名
|
34
|
+
|
35
|
+
【枝を張る条件1:省略時はs=0.01】
|
36
|
+
s= : 最小支持度(全トランザクション数に対する割合による指定): 0以上1以下の実数
|
37
|
+
S= : 最小支持度(トランザクション数による指定): 1以上の整数
|
38
|
+
: s=,S=のいずれかが条件として採用される。
|
39
|
+
: s=,S=共に指定しなければ、s=0.01が指定されたとして動作する。
|
40
|
+
: s=,S=共に指定されればS=優先される。
|
41
|
+
: クラスを指定した場合、各クラス別に最小支持度を変更することもできる。
|
42
|
+
: クラスがc1,c2の二つで、それぞれに0.01,0.02を指定したい場合は以下の通り指定する。
|
43
|
+
: s=c1:0.01,c2:0.02
|
44
|
+
|
45
|
+
【枝を張る条件2:省略可】
|
46
|
+
sim= : 枝を張る条件2: 枝を張るために用いる類似度を指定する。
|
47
|
+
指定できる類似度は以下の4つのいずれか一つ。
|
48
|
+
R (Resemblance) : |A ∩ B|/|A ∪ B|
|
49
|
+
P (normalized PMI) : log(|A ∩ B|*T / (|A|*|B|)) / log(|A ∩ B|/T)
|
50
|
+
liftを-1〜+1に基準化したもの。
|
51
|
+
-1:a(b)出現時b(a)出現なし、0:a,b独立、+1:a(b)出現時必ずb(a)出現
|
52
|
+
G (Growth rate) : (|A_p ∩ B_p|/T_p)/(|A_n ∩ B_n|/T_n)
|
53
|
+
T (Posterior probability): Gの確率表現(アイテムA,Bを観測した時のそれが対象クラスである事後確率)
|
54
|
+
A :アイテムaを含むトランザクション集合
|
55
|
+
T : 全トランザクション数。
|
56
|
+
A_p:対象クラスでアイテムaを含むトランザクション集合
|
57
|
+
A_n:対象クラス以外でアイテムaを含むトランザクション集合
|
58
|
+
T_p:対象クラスのトランザクション数
|
59
|
+
th= : sim=で指定された類似度について、ここで指定された値以上のアイテム間に枝を張る。
|
60
|
+
|
61
|
+
【節点条件】
|
62
|
+
-node_support : 節点にもs=,S=の条件を適用する。指定しなければ全てのitemを節点として出力する。
|
63
|
+
class=を指定した場合、節点のsupportはクラスを考慮せず、
|
64
|
+
全体のトランザクション数に対する割合として計算される。
|
65
|
+
|
66
|
+
その他
|
67
|
+
T= : ワークディレクトリ(default:/tmp)
|
68
|
+
--help : ヘルプの表示
|
69
|
+
|
70
|
+
入力ファイル形式)
|
71
|
+
トランザクションIDとアイテムの2項目によるトランザクションデータ。
|
72
|
+
class=を指定する場合は、さらにクラス項目が必要となる。
|
73
|
+
使用例を参照のこと。
|
74
|
+
|
75
|
+
出力形式)
|
76
|
+
a) 節点ファイル(no=)
|
77
|
+
例:
|
78
|
+
node%0,support,frequency,total
|
79
|
+
a,0.6,3,5
|
80
|
+
b,0.8,4,5
|
81
|
+
c,0.2,1,5
|
82
|
+
d,0.8,4,5
|
83
|
+
e,0.4,2,5
|
84
|
+
f,0.8,4,5
|
85
|
+
項目の説明:
|
86
|
+
node:アイテム
|
87
|
+
support:frequency/total
|
88
|
+
frequency:アイテムの出現頻度
|
89
|
+
total:全トランザクション数
|
90
|
+
|
91
|
+
b) 枝ファイル(eo=)
|
92
|
+
例:
|
93
|
+
node1%0,node2%1,support,frequency,frequency1,frequency2,total,lift,resemblance,PMI
|
94
|
+
a,b,0.6,3,3,4,5,1.25,0.75,0.4368292054
|
95
|
+
a,c,0.2,1,3,1,5,1.6667,0.3333333333,0.3173938055
|
96
|
+
項目の説明:
|
97
|
+
node1,node2:アイテム
|
98
|
+
support:frequency/total
|
99
|
+
frequency:2つのアイテム(node1,node2)の共起頻度
|
100
|
+
frequency1:node1の出現頻度
|
101
|
+
frequency2:node2の出現頻度
|
102
|
+
total:全トランザクション数
|
103
|
+
lift: (total*frequency)/(frequency1*frequency2)
|
104
|
+
resemblance,PMI:上述の「枝を張る条件2」を参照
|
105
|
+
|
106
|
+
|
107
|
+
c) class指定のある場合の枝ファイル(eo=)
|
108
|
+
例:
|
109
|
+
class%0,node1%1,node2%2,support,frequency,frequency1,frequency2,total,lift,resemblance,PMI,growthRate,postProbability
|
110
|
+
c1,b,f,0.6666666667,2,2,3,5,1.666666667,0.6666666667,0.5574929507,1.333333333,0.6666666667
|
111
|
+
c1,d,f,0.6666666667,2,2,3,5,1.666666667,0.6666666667,0.5574929507,1.333333333,0.6666666667
|
112
|
+
c2,a,b,1,2,2,2,5,2.5,1,1,3,0.6666666667
|
113
|
+
c2,a,f,0.5,1,2,3,5,0.8333333333,0.25,-0.1132827526,1.5,0.5
|
114
|
+
項目の説明:
|
115
|
+
class: クラス名
|
116
|
+
node1〜PMI: b)に同じ
|
117
|
+
growthRate,postProbability:上述の「枝を張る条件2」を参照
|
118
|
+
注意点:
|
119
|
+
異なるクラスの枝情報が一つのファイルに出力されるので、クラス別のグラフとして扱いたい場合は、
|
120
|
+
クラス別にファイルを分割する必要がある。
|
121
|
+
|
122
|
+
基本的な使用例)
|
123
|
+
$ cat tra1.csv
|
124
|
+
id,item
|
125
|
+
1,a
|
126
|
+
1,b
|
127
|
+
1,c
|
128
|
+
1,f
|
129
|
+
2,d
|
130
|
+
2,e
|
131
|
+
2,f
|
132
|
+
3,a
|
133
|
+
3,b
|
134
|
+
3,d
|
135
|
+
3,f
|
136
|
+
4,b
|
137
|
+
4,d
|
138
|
+
4,f
|
139
|
+
5,a
|
140
|
+
5,b
|
141
|
+
5,d
|
142
|
+
5,e
|
143
|
+
$ #{$cmd} i=tra.csv tid=id item=item th=0.5 sim=R no=node.csv eo=edge.csv
|
144
|
+
##END# #{$cmd} i=tra.csv tid=id item=item th=0.5 sim=R no=node.csv eo=edge.csv; 2013/10/12 13:54:36
|
145
|
+
$ cat node.csv
|
146
|
+
node,support
|
147
|
+
a,0.6
|
148
|
+
b,0.8
|
149
|
+
c,0.2
|
150
|
+
d,0.8
|
151
|
+
e,0.4
|
152
|
+
f,0.8
|
153
|
+
$ cat edge.csv
|
154
|
+
node1,node2,support,resemblance
|
155
|
+
a,b,0.6,0.75
|
156
|
+
d,b,0.6,0.6
|
157
|
+
e,d,0.4,0.5
|
158
|
+
f,b,0.6,0.6
|
159
|
+
f,d,0.6,0.6
|
160
|
+
|
161
|
+
クラス指定を伴う例)
|
162
|
+
$ cat tra2.csv
|
163
|
+
id,item,class
|
164
|
+
1,a,c1
|
165
|
+
1,b,c1
|
166
|
+
1,c,c1
|
167
|
+
1,f,c1
|
168
|
+
2,d,c1
|
169
|
+
2,e,c1
|
170
|
+
2,f,c1
|
171
|
+
3,a,c2
|
172
|
+
3,b,c2
|
173
|
+
3,d,c2
|
174
|
+
3,f,c2
|
175
|
+
4,b,c1
|
176
|
+
4,d,c1
|
177
|
+
4,f,c1
|
178
|
+
5,a,c2
|
179
|
+
5,b,c2
|
180
|
+
5,d,c2
|
181
|
+
5,e,c2
|
182
|
+
$ m2tra2g.rb i=tra2.csv no=node.csv eo=edge.csv tid=id item=item th=1.5 sim=G class=class
|
183
|
+
#END# m2tra2g.rb i=tra2.csv no=node.csv eo=edge.csv tid=id item=item th=1.5 sim=G class=class; 2016/09/27 07:58:50
|
184
|
+
$ cat node.csv
|
185
|
+
node%0,support,frequency,total
|
186
|
+
a,0.6,3,5
|
187
|
+
b,0.8,4,5
|
188
|
+
c,0.2,1,5
|
189
|
+
d,0.8,4,5
|
190
|
+
e,0.4,2,5
|
191
|
+
f,0.8,4,5
|
192
|
+
$ cat edge.csv
|
193
|
+
class%0,node1%1,node2%2,support,frequency,frequency1,frequency2,total,lift,resemblance,PMI,growthRate,postProbability
|
194
|
+
c2,a,b,1,2,2,2,5,2.5,1,1,3,0.6666666667
|
195
|
+
c2,a,f,0.5,1,2,3,5,0.8333333333,0.25,-0.1132827526,1.5,0.5
|
196
|
+
c2,b,d,1,2,2,2,5,2.5,1,1,3,0.6666666667
|
197
|
+
c2,d,e,0.5,1,2,1,5,2.5,0.5,0.5693234419,1.5,0.5
|
198
|
+
|
199
|
+
# Copyright(c) NYSOL 2012- All Rights Reserved.
|
200
|
+
EOF
|
201
|
+
exit
|
202
|
+
end
|
203
|
+
|
204
|
+
def ver()
|
205
|
+
STDERR.puts "version #{$version}"
|
206
|
+
exit
|
207
|
+
end
|
208
|
+
|
209
|
+
help() if ARGV.size <= 0 or ARGV[0]=="--help"
|
210
|
+
ver() if ARGV[0]=="--version"
|
211
|
+
|
212
|
+
# コマンド実行可能確認
|
213
|
+
#exit(1) unless(MCMD::chkCmdExe(TAKE::LcmIs::CMD , "executable"))
|
214
|
+
#exit(1) unless(MCMD::chkCmdExe(TAKE::LcmIs::CMD_ZERO , "executable"))
|
215
|
+
#exit(1) unless(MCMD::chkCmdExe(TAKE::LcmIs::CMD_TRANS, "-v", "lcm_trans 1.0"))
|
216
|
+
|
217
|
+
args=MCMD::Margs.new(ARGV,"i=,x=,no=,eo=,log=,tid=,item=,class=,taxo=,s=,S=,sim=,th=,-node_support,top=,T=","i=,tid=,item=,eo=")
|
218
|
+
|
219
|
+
# mcmdのメッセージは警告とエラーのみ
|
220
|
+
ENV["KG_VerboseLevel"]="2" unless args.bool("-mcmdenv")
|
221
|
+
|
222
|
+
#ワークファイルパス
|
223
|
+
if args.str("T=")!=nil then
|
224
|
+
ENV["KG_TmpPath"] = args.str("T=").sub(/\/$/,"")
|
225
|
+
end
|
226
|
+
|
227
|
+
iFile = args.file("i=","r")
|
228
|
+
xFile = args.file("x=","r")
|
229
|
+
|
230
|
+
t=Time.now
|
231
|
+
onFile = args. file("no=", "w")
|
232
|
+
oeFile = args. file("eo=", "w")
|
233
|
+
logFile = args. file("log=", "w")
|
234
|
+
|
235
|
+
idFN = args.field("tid=", iFile, "tid" )
|
236
|
+
itemFN = args.field("item=", iFile, "item" )
|
237
|
+
clsFN = args.field("class=",iFile, nil )
|
238
|
+
taxoFN = args.field("taxo=", xFile, "taxo" )
|
239
|
+
idFN = idFN["names"].join(",") if idFN
|
240
|
+
itemFN = itemFN["names"].join(",") if itemFN
|
241
|
+
clsFN = clsFN["names"].join(",") if clsFN
|
242
|
+
taxoFN = taxoFN["names"].join(",") if taxoFN
|
243
|
+
|
244
|
+
sim = args. str("sim=")
|
245
|
+
th = args.float("th=") # 類似度measure
|
246
|
+
node_support=args.bool("-node_support")
|
247
|
+
|
248
|
+
# 最小サポート確率
|
249
|
+
minSup=nil
|
250
|
+
sp=args.str("s=")
|
251
|
+
if sp==nil ### s=指定なし
|
252
|
+
minSup=nil
|
253
|
+
|
254
|
+
elsif sp.index(",") and sp.index(":") ### s=c1:0.1,c2:0.2,...
|
255
|
+
minSup = {}
|
256
|
+
sp=sp.split(",")
|
257
|
+
(0...sp.size).each{|i|
|
258
|
+
raise "bad format of s=" unless sp[i]
|
259
|
+
kv=sp[i].split(":")
|
260
|
+
raise "bad format of s=" unless kv[0] and kv[1]
|
261
|
+
minSup[kv[0]]=kv[1].to_f
|
262
|
+
}
|
263
|
+
|
264
|
+
else ### s=0.1
|
265
|
+
minSup=sp.to_f
|
266
|
+
end
|
267
|
+
|
268
|
+
# 最小サポート件数
|
269
|
+
sp=args.str("S=")
|
270
|
+
if sp==nil ### s=指定なし
|
271
|
+
minCnt=nil
|
272
|
+
|
273
|
+
elsif sp.index(",") and sp.index(":") ### S=c1:10,c2:10,...
|
274
|
+
minCnt = {}
|
275
|
+
sp=sp.split(",")
|
276
|
+
(0...sp.size).each{|i|
|
277
|
+
raise "bad format of s=" unless sp[i]
|
278
|
+
kv=sp[i].split(":")
|
279
|
+
raise "bad format of s=" unless kv[0] and kv[1]
|
280
|
+
minCnt[kv[0]]=kv[1].to_f
|
281
|
+
}
|
282
|
+
|
283
|
+
else ### S=10
|
284
|
+
minCnt=sp.to_f
|
285
|
+
end
|
286
|
+
|
287
|
+
# s=,S=両者指定ないときのデフォルト
|
288
|
+
if minSup==nil and minCnt==nil
|
289
|
+
minSup=0.01
|
290
|
+
end
|
291
|
+
|
292
|
+
#top = args.int("top=" ,nil,0) # 今は使ってないがコメントを外せば機能するはず
|
293
|
+
uniform=args.bool("-uniform") # クラス事前確率を一様と考えるかどうか
|
294
|
+
|
295
|
+
if (sim and not th) or (not sim and th) then
|
296
|
+
raise "th=(sim=) is mandatory when sim=(th=) is specified"
|
297
|
+
end
|
298
|
+
|
299
|
+
if sim and "RPGT".index(sim)==nil
|
300
|
+
raise "sim= takes one of 'R','P','G','T'"
|
301
|
+
end
|
302
|
+
|
303
|
+
if sim=="G" and not clsFN
|
304
|
+
raise "sim=G can be used with class="
|
305
|
+
end
|
306
|
+
|
307
|
+
if sim and "RP".index(sim) and clsFN
|
308
|
+
raise "sim=R,P can not be specified with class="
|
309
|
+
end
|
310
|
+
|
311
|
+
# V型DBの読み込み
|
312
|
+
db=TAKE::TraDB.new(iFile,idFN,itemFN,clsFN)
|
313
|
+
|
314
|
+
=begin
|
315
|
+
# taxonomyのセット(今は未使用)
|
316
|
+
taxo=nil
|
317
|
+
if xFile!=nil then
|
318
|
+
taxo=TAKE::Taxonomy.new(xFile,itemFN,taxoFN)
|
319
|
+
if args.bool("-replaceTaxo") then
|
320
|
+
db.repTaxo(taxo) # taxonomyの置換
|
321
|
+
else
|
322
|
+
db.addTaxo(taxo) # taxonomyの追加
|
323
|
+
end
|
324
|
+
end
|
325
|
+
=end
|
326
|
+
|
327
|
+
simSel=""
|
328
|
+
simSel="mselnum f=resemblance c='[#{th},]' |" if sim=="R"
|
329
|
+
simSel="mselnum f=PMI c='[#{th},]' |" if sim=="P"
|
330
|
+
simSel="mselnum f=growthRate c='[#{th},]' |" if sim=="G"
|
331
|
+
simSel="mselnum f=postProbability c='[#{th},]' |" if sim=="T"
|
332
|
+
|
333
|
+
t=Time.now
|
334
|
+
eArgs=Hash.new
|
335
|
+
eArgs["type"] = "F"
|
336
|
+
eArgs["maxSup"]=1.0
|
337
|
+
eArgs["uniform"] = uniform
|
338
|
+
eArgs["nomodel"] = true
|
339
|
+
|
340
|
+
# クラスありパターン列挙
|
341
|
+
if clsFN then
|
342
|
+
# ノードはクラス関係なく全体でfrequentな2アイテムセットを求める
|
343
|
+
lcm=TAKE::LcmIs.new(db);
|
344
|
+
eArgs["minLen"] = 1
|
345
|
+
eArgs["maxLen"] = 1
|
346
|
+
if node_support
|
347
|
+
eArgs["minSup"] = minSup
|
348
|
+
eArgs["minCnt"] = minCnt
|
349
|
+
else
|
350
|
+
eArgs["minSup"] = 0
|
351
|
+
end
|
352
|
+
lcm.enumerate(eArgs)
|
353
|
+
# pid,size,count,total,support%0nr,lift,pattern
|
354
|
+
# 0,1,4,5,0.8,1,b
|
355
|
+
# 1,1,4,5,0.8,1,d
|
356
|
+
f=""
|
357
|
+
f << "mcut f=pattern:node,support,count:frequency,total i=#{lcm.pFile} | msortf f=node o=#{onFile}"
|
358
|
+
system(f)
|
359
|
+
|
360
|
+
# エッジはGRにて求めるの
|
361
|
+
# 1 itemset
|
362
|
+
temp=MCMD::Mtemp.new
|
363
|
+
xx1itemset=temp.file
|
364
|
+
if sim=="G"
|
365
|
+
eArgs["minGR" ] = th # 最小GR
|
366
|
+
elsif sim=="T"
|
367
|
+
eArgs["minProb"] = th # 最小事後確率
|
368
|
+
end
|
369
|
+
eArgs["minLen"] = 1
|
370
|
+
eArgs["maxLen"] = 1
|
371
|
+
eArgs["minSup"] = minSup
|
372
|
+
eArgs["minCnt"] = minCnt
|
373
|
+
|
374
|
+
lcm=TAKE::LcmEp.new(db);
|
375
|
+
lcm.enumerate(eArgs)
|
376
|
+
# system "head #{lcm.pFile}"
|
377
|
+
# class%0nr,pid,pattern,size,pos%2nr,neg,posTotal,negTotal,total,support,growthRate,postProb%1nr
|
378
|
+
# c1,4,c,1,1,0,3,2,5,0.3333333333,inf,1
|
379
|
+
# c1,0,f,1,3,1,3,2,5,1,2,0.75
|
380
|
+
f=""
|
381
|
+
f << "mcut f=pattern:node,support,pos:frequency,posTotal:total i=#{lcm.pFile} | msortf f=node o=#{xx1itemset}"
|
382
|
+
system(f)
|
383
|
+
# system "head #{onFile}"
|
384
|
+
# class%0,node%1,frequency,total,support,negFrequency,negTotal
|
385
|
+
# c1,b,2,3,0.6666666667,2,2
|
386
|
+
# c1,c,1,3,0.3333333333,0,2
|
387
|
+
|
388
|
+
# 2 itemset
|
389
|
+
eArgs["minLen" ] = 2
|
390
|
+
eArgs["maxLen" ] = 2
|
391
|
+
eArgs["minSup"] = minSup
|
392
|
+
eArgs["minCnt"] = minCnt
|
393
|
+
lcm.enumerate(eArgs)
|
394
|
+
# system "head #{lcm.pFile}"
|
395
|
+
# class%0nr,pid,pattern,size,pos%2nr,neg,posTotal,negTotal,total,support,growthRate,postProb%1nr
|
396
|
+
# c2,11,a d,2,2,0,2,3,5,1,inf,1
|
397
|
+
# c1,9,e f,2,1,0,3,2,5,0.3333333333,inf,1
|
398
|
+
f=""
|
399
|
+
f << "msplit a=node1,node2 f=pattern i=#{lcm.pFile} |"
|
400
|
+
f << "mfsort f=node1,node2 |"
|
401
|
+
f << "mjoin k=node1 K=node m=#{xx1itemset} f=frequency:frequency1 |"
|
402
|
+
f << "mjoin k=node2 K=node m=#{xx1itemset} f=frequency:frequency2 |"
|
403
|
+
f << "mcal c='${pos}/(${frequency1}+${frequency2}-${pos})' a=resemblance |"
|
404
|
+
f << "mcal c='if(${pos}!=0,(ln(${pos})+ln(${total})-ln(${frequency1})-ln(${frequency2}))/(ln(${total})-ln(${pos})),-1)' a=PMI |"
|
405
|
+
f << "mcal c='(${pos}*${total})/((${frequency1}*${frequency2}))' a=lift |"
|
406
|
+
f << "msortf f=class,node1,node2 |"
|
407
|
+
f << simSel
|
408
|
+
f << "mcut f=class,node1,node2,support,pos:frequency,frequency1,frequency2,total,lift,resemblance,PMI,growthRate,postProb:postProbability o=#{oeFile}"
|
409
|
+
system(f)
|
410
|
+
|
411
|
+
# クラスなしパターン列挙
|
412
|
+
else
|
413
|
+
lcm=TAKE::LcmIs.new(db);
|
414
|
+
# 1 itemset
|
415
|
+
eArgs["minLen" ] = 1
|
416
|
+
eArgs["maxLen" ] = 1
|
417
|
+
if node_support
|
418
|
+
eArgs["minSup"] = minSup
|
419
|
+
eArgs["minCnt"] = minCnt
|
420
|
+
else
|
421
|
+
eArgs["minSup"] = 0
|
422
|
+
end
|
423
|
+
lcm.enumerate(eArgs)
|
424
|
+
# #{lcm.pFile}
|
425
|
+
# pid,size,count,total,support%0nr,lift,pattern
|
426
|
+
# 0,1,4,5,0.8,1,b
|
427
|
+
# 1,1,4,5,0.8,1,d
|
428
|
+
f=""
|
429
|
+
f << "mcut f=pattern:node,support,count:frequency,total i=#{lcm.pFile} | msortf f=node o=#{onFile}"
|
430
|
+
system(f)
|
431
|
+
# node%0,support,frequency
|
432
|
+
# a,0.6,3
|
433
|
+
# b,0.8,4
|
434
|
+
|
435
|
+
# 2 itemset
|
436
|
+
eArgs["minLen" ] = 2
|
437
|
+
eArgs["maxLen" ] = 2
|
438
|
+
eArgs["minSup"] = minSup
|
439
|
+
eArgs["minCnt"] = minCnt
|
440
|
+
lcm.enumerate(eArgs)
|
441
|
+
# #{lcm.pFile}
|
442
|
+
# pid,size,count,total,support%0nr,lift,pattern
|
443
|
+
# 0,2,3,5,0.6,0.9375,b d
|
444
|
+
# 1,2,3,5,0.6,0.9375,b f
|
445
|
+
f=""
|
446
|
+
f << "msplit a=node1,node2 f=pattern i=#{lcm.pFile} |"
|
447
|
+
f << "mfsort f=node1,node2 |"
|
448
|
+
f << "mjoin k=node1 K=node m=#{onFile} f=frequency:frequency1 |"
|
449
|
+
f << "mjoin k=node2 K=node m=#{onFile} f=frequency:frequency2 |"
|
450
|
+
f << "mcal c='${count}/(${frequency1}+${frequency2}-${count})' a=resemblance |"
|
451
|
+
f << "mcal c='(ln(${count})+ln(${total})-ln(${frequency1})-ln(${frequency2}))/(ln(${total})-ln(${count}))' a=PMI |"
|
452
|
+
f << "msortf f=node1,node2 |"
|
453
|
+
f << simSel
|
454
|
+
f << "mcut f=node1,node2,support,count:frequency,frequency1,frequency2,total,lift,resemblance,PMI o=#{oeFile}"
|
455
|
+
system(f)
|
456
|
+
# node1%0,node2%1,support,frequency,frequency1,frequency2,total,lift,resemblance,PMI
|
457
|
+
# a,b,0.6,3,3,4,5,1.25,0.75,0.4368292054
|
458
|
+
# a,c,0.2,1,3,1,5,1.6667,0.3333333333,0.3173938055
|
459
|
+
end
|
460
|
+
|
461
|
+
procTime=Time.now-t
|
462
|
+
|
463
|
+
# ログファイル出力
|
464
|
+
if logFile
|
465
|
+
kv=args.getKeyValue()
|
466
|
+
kv << ["time",procTime]
|
467
|
+
MCMD::Mcsvout.new("o=#{logFile} f=key,value"){|csv|
|
468
|
+
kv.each{|line|
|
469
|
+
csv.write(line)
|
470
|
+
}
|
471
|
+
}
|
472
|
+
end
|
473
|
+
|
474
|
+
# 終了メッセージ
|
475
|
+
MCMD::endLog(args.cmdline)
|
476
|
+
|