nysol-take 3.0.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (161) hide show
  1. checksums.yaml +7 -0
  2. data/bin/mbiclique.rb +317 -0
  3. data/bin/mbipolish.rb +362 -0
  4. data/bin/mccomp.rb +235 -0
  5. data/bin/mclique.rb +295 -0
  6. data/bin/mclique2g.rb +105 -0
  7. data/bin/mcliqueInfo.rb +203 -0
  8. data/bin/mfriends.rb +202 -0
  9. data/bin/mgdiff.rb +252 -0
  10. data/bin/mhifriend.rb +456 -0
  11. data/bin/mhipolish.rb +465 -0
  12. data/bin/mitemset.rb +168 -0
  13. data/bin/mpal.rb +410 -0
  14. data/bin/mpolishing.rb +399 -0
  15. data/bin/msequence.rb +165 -0
  16. data/bin/mtra2g.rb +476 -0
  17. data/bin/mtra2gc.rb +360 -0
  18. data/ext/grhfilrun/extconf.rb +12 -0
  19. data/ext/grhfilrun/grhfilrun.c +85 -0
  20. data/ext/grhfilrun/src/_sspc.c +358 -0
  21. data/ext/grhfilrun/src/aheap.c +545 -0
  22. data/ext/grhfilrun/src/aheap.h +251 -0
  23. data/ext/grhfilrun/src/base.c +92 -0
  24. data/ext/grhfilrun/src/base.h +59 -0
  25. data/ext/grhfilrun/src/fstar.c +497 -0
  26. data/ext/grhfilrun/src/fstar.h +80 -0
  27. data/ext/grhfilrun/src/grhfil.c +214 -0
  28. data/ext/grhfilrun/src/itemset.c +713 -0
  29. data/ext/grhfilrun/src/itemset.h +170 -0
  30. data/ext/grhfilrun/src/problem.c +415 -0
  31. data/ext/grhfilrun/src/problem.h +179 -0
  32. data/ext/grhfilrun/src/queue.c +533 -0
  33. data/ext/grhfilrun/src/queue.h +182 -0
  34. data/ext/grhfilrun/src/sample.c +19 -0
  35. data/ext/grhfilrun/src/sspc.c +597 -0
  36. data/ext/grhfilrun/src/sspc2.c +491 -0
  37. data/ext/grhfilrun/src/stdlib2.c +1482 -0
  38. data/ext/grhfilrun/src/stdlib2.h +892 -0
  39. data/ext/grhfilrun/src/trsact.c +817 -0
  40. data/ext/grhfilrun/src/trsact.h +160 -0
  41. data/ext/grhfilrun/src/vec.c +745 -0
  42. data/ext/grhfilrun/src/vec.h +172 -0
  43. data/ext/lcmrun/extconf.rb +20 -0
  44. data/ext/lcmrun/lcmrun.cpp +99 -0
  45. data/ext/lcmrun/src/aheap.c +216 -0
  46. data/ext/lcmrun/src/aheap.h +111 -0
  47. data/ext/lcmrun/src/base.c +92 -0
  48. data/ext/lcmrun/src/base.h +59 -0
  49. data/ext/lcmrun/src/itemset.c +496 -0
  50. data/ext/lcmrun/src/itemset.h +157 -0
  51. data/ext/lcmrun/src/lcm.c +427 -0
  52. data/ext/lcmrun/src/problem.c +349 -0
  53. data/ext/lcmrun/src/problem.h +177 -0
  54. data/ext/lcmrun/src/queue.c +528 -0
  55. data/ext/lcmrun/src/queue.h +176 -0
  56. data/ext/lcmrun/src/sgraph.c +359 -0
  57. data/ext/lcmrun/src/sgraph.h +173 -0
  58. data/ext/lcmrun/src/stdlib2.c +1282 -0
  59. data/ext/lcmrun/src/stdlib2.h +823 -0
  60. data/ext/lcmrun/src/trsact.c +747 -0
  61. data/ext/lcmrun/src/trsact.h +159 -0
  62. data/ext/lcmrun/src/vec.c +731 -0
  63. data/ext/lcmrun/src/vec.h +171 -0
  64. data/ext/lcmseq0run/extconf.rb +20 -0
  65. data/ext/lcmseq0run/lcmseq0run.cpp +59 -0
  66. data/ext/lcmseq0run/src/aheap.c +216 -0
  67. data/ext/lcmseq0run/src/aheap.h +111 -0
  68. data/ext/lcmseq0run/src/base.c +92 -0
  69. data/ext/lcmseq0run/src/base.h +59 -0
  70. data/ext/lcmseq0run/src/itemset.c +518 -0
  71. data/ext/lcmseq0run/src/itemset.h +157 -0
  72. data/ext/lcmseq0run/src/itemset_zero.c +522 -0
  73. data/ext/lcmseq0run/src/lcm_seq.c +446 -0
  74. data/ext/lcmseq0run/src/lcm_seq_zero.c +446 -0
  75. data/ext/lcmseq0run/src/problem.c +439 -0
  76. data/ext/lcmseq0run/src/problem.h +179 -0
  77. data/ext/lcmseq0run/src/problem_zero.c +439 -0
  78. data/ext/lcmseq0run/src/queue.c +533 -0
  79. data/ext/lcmseq0run/src/queue.h +182 -0
  80. data/ext/lcmseq0run/src/stdlib2.c +1350 -0
  81. data/ext/lcmseq0run/src/stdlib2.h +864 -0
  82. data/ext/lcmseq0run/src/trsact.c +747 -0
  83. data/ext/lcmseq0run/src/trsact.h +159 -0
  84. data/ext/lcmseq0run/src/vec.c +779 -0
  85. data/ext/lcmseq0run/src/vec.h +172 -0
  86. data/ext/lcmseqrun/extconf.rb +20 -0
  87. data/ext/lcmseqrun/lcmseqrun.cpp +101 -0
  88. data/ext/lcmseqrun/src/aheap.c +216 -0
  89. data/ext/lcmseqrun/src/aheap.h +111 -0
  90. data/ext/lcmseqrun/src/base.c +92 -0
  91. data/ext/lcmseqrun/src/base.h +59 -0
  92. data/ext/lcmseqrun/src/itemset.c +518 -0
  93. data/ext/lcmseqrun/src/itemset.h +157 -0
  94. data/ext/lcmseqrun/src/itemset_zero.c +522 -0
  95. data/ext/lcmseqrun/src/lcm_seq.c +447 -0
  96. data/ext/lcmseqrun/src/lcm_seq_zero.c +446 -0
  97. data/ext/lcmseqrun/src/problem.c +439 -0
  98. data/ext/lcmseqrun/src/problem.h +179 -0
  99. data/ext/lcmseqrun/src/problem_zero.c +439 -0
  100. data/ext/lcmseqrun/src/queue.c +533 -0
  101. data/ext/lcmseqrun/src/queue.h +182 -0
  102. data/ext/lcmseqrun/src/stdlib2.c +1350 -0
  103. data/ext/lcmseqrun/src/stdlib2.h +864 -0
  104. data/ext/lcmseqrun/src/trsact.c +747 -0
  105. data/ext/lcmseqrun/src/trsact.h +159 -0
  106. data/ext/lcmseqrun/src/vec.c +779 -0
  107. data/ext/lcmseqrun/src/vec.h +172 -0
  108. data/ext/lcmtransrun/extconf.rb +18 -0
  109. data/ext/lcmtransrun/lcmtransrun.cpp +264 -0
  110. data/ext/macerun/extconf.rb +20 -0
  111. data/ext/macerun/macerun.cpp +57 -0
  112. data/ext/macerun/src/aheap.c +217 -0
  113. data/ext/macerun/src/aheap.h +112 -0
  114. data/ext/macerun/src/itemset.c +491 -0
  115. data/ext/macerun/src/itemset.h +158 -0
  116. data/ext/macerun/src/mace.c +503 -0
  117. data/ext/macerun/src/problem.c +346 -0
  118. data/ext/macerun/src/problem.h +174 -0
  119. data/ext/macerun/src/queue.c +529 -0
  120. data/ext/macerun/src/queue.h +177 -0
  121. data/ext/macerun/src/sgraph.c +360 -0
  122. data/ext/macerun/src/sgraph.h +174 -0
  123. data/ext/macerun/src/stdlib2.c +993 -0
  124. data/ext/macerun/src/stdlib2.h +811 -0
  125. data/ext/macerun/src/vec.c +634 -0
  126. data/ext/macerun/src/vec.h +170 -0
  127. data/ext/sspcrun/extconf.rb +20 -0
  128. data/ext/sspcrun/src/_sspc.c +358 -0
  129. data/ext/sspcrun/src/aheap.c +545 -0
  130. data/ext/sspcrun/src/aheap.h +251 -0
  131. data/ext/sspcrun/src/base.c +92 -0
  132. data/ext/sspcrun/src/base.h +59 -0
  133. data/ext/sspcrun/src/fstar.c +496 -0
  134. data/ext/sspcrun/src/fstar.h +80 -0
  135. data/ext/sspcrun/src/grhfil.c +213 -0
  136. data/ext/sspcrun/src/itemset.c +713 -0
  137. data/ext/sspcrun/src/itemset.h +170 -0
  138. data/ext/sspcrun/src/problem.c +415 -0
  139. data/ext/sspcrun/src/problem.h +179 -0
  140. data/ext/sspcrun/src/queue.c +533 -0
  141. data/ext/sspcrun/src/queue.h +182 -0
  142. data/ext/sspcrun/src/sample.c +19 -0
  143. data/ext/sspcrun/src/sspc.c +598 -0
  144. data/ext/sspcrun/src/sspc2.c +491 -0
  145. data/ext/sspcrun/src/stdlib2.c +1482 -0
  146. data/ext/sspcrun/src/stdlib2.h +892 -0
  147. data/ext/sspcrun/src/trsact.c +817 -0
  148. data/ext/sspcrun/src/trsact.h +160 -0
  149. data/ext/sspcrun/src/vec.c +745 -0
  150. data/ext/sspcrun/src/vec.h +172 -0
  151. data/ext/sspcrun/sspcrun.cpp +54 -0
  152. data/lib/nysol/enumLcmEp.rb +338 -0
  153. data/lib/nysol/enumLcmEsp.rb +284 -0
  154. data/lib/nysol/enumLcmIs.rb +275 -0
  155. data/lib/nysol/enumLcmSeq.rb +143 -0
  156. data/lib/nysol/items.rb +201 -0
  157. data/lib/nysol/seqDB.rb +256 -0
  158. data/lib/nysol/take.rb +39 -0
  159. data/lib/nysol/taxonomy.rb +113 -0
  160. data/lib/nysol/traDB.rb +257 -0
  161. metadata +239 -0
data/bin/mtra2g.rb ADDED
@@ -0,0 +1,476 @@
1
+ #!/usr/bin/env ruby
2
+ # encoding: utf-8
3
+
4
+ require "rubygems"
5
+ require "nysol/traDB.rb"
6
+ require "nysol/taxonomy.rb"
7
+ require "nysol/enumLcmEp"
8
+ require "nysol/enumLcmIs"
9
+
10
+ # ver="1.0" # 初期リリース 2014/2/20
11
+ # ver="1.1" # 出力ファイルにfrequency追加 2016/8/11
12
+ # ver="1.2" # mtra2g.rbを大幅改良 2016/9/28
13
+ # クラスファイル対応,edgeに各種類似度追加,節点名順ソート
14
+ $cmd=$0.sub(/.*\//,"")
15
+ $version="1.2"
16
+
17
+ def help
18
+ STDERR.puts <<EOF
19
+ ----------------------------
20
+ #{$cmd} version #{$version}
21
+ ----------------------------
22
+ 概要) トランザクションデータからアイテム類似グラフを構築する。
23
+ 内容) 2アイテムの共起情報によって類似度を定義し、ある閾値より高い類似度を持つアイテム間に枝を張る。
24
+ 書式) #{$cmd} i= tid= item= [class=] [no=] eo= s=|S= [sim=] [th=] [log=] [T=] [--help]
25
+
26
+ ファイル名指定
27
+ i= : トランザクションデータファイル【必須】
28
+ tid= : トランザクションID項目名【必須】
29
+ item= : アイテム項目名【必須】
30
+ classs=: クラス項目名
31
+ no= : 出力ファイル(節点)
32
+ eo= : 出力ファイル(辺:節点ペア)
33
+ log= : パラメータの設定値をkey-value形式のCSVで保存するファイル名
34
+
35
+ 【枝を張る条件1:省略時はs=0.01】
36
+ s= : 最小支持度(全トランザクション数に対する割合による指定): 0以上1以下の実数
37
+ S= : 最小支持度(トランザクション数による指定): 1以上の整数
38
+ : s=,S=のいずれかが条件として採用される。
39
+ : s=,S=共に指定しなければ、s=0.01が指定されたとして動作する。
40
+ : s=,S=共に指定されればS=優先される。
41
+ : クラスを指定した場合、各クラス別に最小支持度を変更することもできる。
42
+ : クラスがc1,c2の二つで、それぞれに0.01,0.02を指定したい場合は以下の通り指定する。
43
+ : s=c1:0.01,c2:0.02
44
+
45
+ 【枝を張る条件2:省略可】
46
+ sim= : 枝を張る条件2: 枝を張るために用いる類似度を指定する。
47
+ 指定できる類似度は以下の4つのいずれか一つ。
48
+ R (Resemblance) : |A ∩ B|/|A ∪ B|
49
+ P (normalized PMI) : log(|A ∩ B|*T / (|A|*|B|)) / log(|A ∩ B|/T)
50
+ liftを-1〜+1に基準化したもの。
51
+ -1:a(b)出現時b(a)出現なし、0:a,b独立、+1:a(b)出現時必ずb(a)出現
52
+ G (Growth rate) : (|A_p ∩ B_p|/T_p)/(|A_n ∩ B_n|/T_n)
53
+ T (Posterior probability): Gの確率表現(アイテムA,Bを観測した時のそれが対象クラスである事後確率)
54
+ A :アイテムaを含むトランザクション集合
55
+ T : 全トランザクション数。
56
+ A_p:対象クラスでアイテムaを含むトランザクション集合
57
+ A_n:対象クラス以外でアイテムaを含むトランザクション集合
58
+ T_p:対象クラスのトランザクション数
59
+ th= : sim=で指定された類似度について、ここで指定された値以上のアイテム間に枝を張る。
60
+
61
+ 【節点条件】
62
+ -node_support : 節点にもs=,S=の条件を適用する。指定しなければ全てのitemを節点として出力する。
63
+ class=を指定した場合、節点のsupportはクラスを考慮せず、
64
+ 全体のトランザクション数に対する割合として計算される。
65
+
66
+ その他
67
+ T= : ワークディレクトリ(default:/tmp)
68
+ --help : ヘルプの表示
69
+
70
+ 入力ファイル形式)
71
+ トランザクションIDとアイテムの2項目によるトランザクションデータ。
72
+ class=を指定する場合は、さらにクラス項目が必要となる。
73
+ 使用例を参照のこと。
74
+
75
+ 出力形式)
76
+ a) 節点ファイル(no=)
77
+ 例:
78
+ node%0,support,frequency,total
79
+ a,0.6,3,5
80
+ b,0.8,4,5
81
+ c,0.2,1,5
82
+ d,0.8,4,5
83
+ e,0.4,2,5
84
+ f,0.8,4,5
85
+ 項目の説明:
86
+ node:アイテム
87
+ support:frequency/total
88
+ frequency:アイテムの出現頻度
89
+ total:全トランザクション数
90
+
91
+ b) 枝ファイル(eo=)
92
+ 例:
93
+ node1%0,node2%1,support,frequency,frequency1,frequency2,total,lift,resemblance,PMI
94
+ a,b,0.6,3,3,4,5,1.25,0.75,0.4368292054
95
+ a,c,0.2,1,3,1,5,1.6667,0.3333333333,0.3173938055
96
+ 項目の説明:
97
+ node1,node2:アイテム
98
+ support:frequency/total
99
+ frequency:2つのアイテム(node1,node2)の共起頻度
100
+ frequency1:node1の出現頻度
101
+ frequency2:node2の出現頻度
102
+ total:全トランザクション数
103
+ lift: (total*frequency)/(frequency1*frequency2)
104
+ resemblance,PMI:上述の「枝を張る条件2」を参照
105
+
106
+
107
+ c) class指定のある場合の枝ファイル(eo=)
108
+ 例:
109
+ class%0,node1%1,node2%2,support,frequency,frequency1,frequency2,total,lift,resemblance,PMI,growthRate,postProbability
110
+ c1,b,f,0.6666666667,2,2,3,5,1.666666667,0.6666666667,0.5574929507,1.333333333,0.6666666667
111
+ c1,d,f,0.6666666667,2,2,3,5,1.666666667,0.6666666667,0.5574929507,1.333333333,0.6666666667
112
+ c2,a,b,1,2,2,2,5,2.5,1,1,3,0.6666666667
113
+ c2,a,f,0.5,1,2,3,5,0.8333333333,0.25,-0.1132827526,1.5,0.5
114
+ 項目の説明:
115
+ class: クラス名
116
+ node1〜PMI: b)に同じ
117
+ growthRate,postProbability:上述の「枝を張る条件2」を参照
118
+ 注意点:
119
+ 異なるクラスの枝情報が一つのファイルに出力されるので、クラス別のグラフとして扱いたい場合は、
120
+ クラス別にファイルを分割する必要がある。
121
+
122
+ 基本的な使用例)
123
+ $ cat tra1.csv
124
+ id,item
125
+ 1,a
126
+ 1,b
127
+ 1,c
128
+ 1,f
129
+ 2,d
130
+ 2,e
131
+ 2,f
132
+ 3,a
133
+ 3,b
134
+ 3,d
135
+ 3,f
136
+ 4,b
137
+ 4,d
138
+ 4,f
139
+ 5,a
140
+ 5,b
141
+ 5,d
142
+ 5,e
143
+ $ #{$cmd} i=tra.csv tid=id item=item th=0.5 sim=R no=node.csv eo=edge.csv
144
+ ##END# #{$cmd} i=tra.csv tid=id item=item th=0.5 sim=R no=node.csv eo=edge.csv; 2013/10/12 13:54:36
145
+ $ cat node.csv
146
+ node,support
147
+ a,0.6
148
+ b,0.8
149
+ c,0.2
150
+ d,0.8
151
+ e,0.4
152
+ f,0.8
153
+ $ cat edge.csv
154
+ node1,node2,support,resemblance
155
+ a,b,0.6,0.75
156
+ d,b,0.6,0.6
157
+ e,d,0.4,0.5
158
+ f,b,0.6,0.6
159
+ f,d,0.6,0.6
160
+
161
+ クラス指定を伴う例)
162
+ $ cat tra2.csv
163
+ id,item,class
164
+ 1,a,c1
165
+ 1,b,c1
166
+ 1,c,c1
167
+ 1,f,c1
168
+ 2,d,c1
169
+ 2,e,c1
170
+ 2,f,c1
171
+ 3,a,c2
172
+ 3,b,c2
173
+ 3,d,c2
174
+ 3,f,c2
175
+ 4,b,c1
176
+ 4,d,c1
177
+ 4,f,c1
178
+ 5,a,c2
179
+ 5,b,c2
180
+ 5,d,c2
181
+ 5,e,c2
182
+ $ m2tra2g.rb i=tra2.csv no=node.csv eo=edge.csv tid=id item=item th=1.5 sim=G class=class
183
+ #END# m2tra2g.rb i=tra2.csv no=node.csv eo=edge.csv tid=id item=item th=1.5 sim=G class=class; 2016/09/27 07:58:50
184
+ $ cat node.csv
185
+ node%0,support,frequency,total
186
+ a,0.6,3,5
187
+ b,0.8,4,5
188
+ c,0.2,1,5
189
+ d,0.8,4,5
190
+ e,0.4,2,5
191
+ f,0.8,4,5
192
+ $ cat edge.csv
193
+ class%0,node1%1,node2%2,support,frequency,frequency1,frequency2,total,lift,resemblance,PMI,growthRate,postProbability
194
+ c2,a,b,1,2,2,2,5,2.5,1,1,3,0.6666666667
195
+ c2,a,f,0.5,1,2,3,5,0.8333333333,0.25,-0.1132827526,1.5,0.5
196
+ c2,b,d,1,2,2,2,5,2.5,1,1,3,0.6666666667
197
+ c2,d,e,0.5,1,2,1,5,2.5,0.5,0.5693234419,1.5,0.5
198
+
199
+ # Copyright(c) NYSOL 2012- All Rights Reserved.
200
+ EOF
201
+ exit
202
+ end
203
+
204
+ def ver()
205
+ STDERR.puts "version #{$version}"
206
+ exit
207
+ end
208
+
209
+ help() if ARGV.size <= 0 or ARGV[0]=="--help"
210
+ ver() if ARGV[0]=="--version"
211
+
212
+ # コマンド実行可能確認
213
+ #exit(1) unless(MCMD::chkCmdExe(TAKE::LcmIs::CMD , "executable"))
214
+ #exit(1) unless(MCMD::chkCmdExe(TAKE::LcmIs::CMD_ZERO , "executable"))
215
+ #exit(1) unless(MCMD::chkCmdExe(TAKE::LcmIs::CMD_TRANS, "-v", "lcm_trans 1.0"))
216
+
217
+ args=MCMD::Margs.new(ARGV,"i=,x=,no=,eo=,log=,tid=,item=,class=,taxo=,s=,S=,sim=,th=,-node_support,top=,T=","i=,tid=,item=,eo=")
218
+
219
+ # mcmdのメッセージは警告とエラーのみ
220
+ ENV["KG_VerboseLevel"]="2" unless args.bool("-mcmdenv")
221
+
222
+ #ワークファイルパス
223
+ if args.str("T=")!=nil then
224
+ ENV["KG_TmpPath"] = args.str("T=").sub(/\/$/,"")
225
+ end
226
+
227
+ iFile = args.file("i=","r")
228
+ xFile = args.file("x=","r")
229
+
230
+ t=Time.now
231
+ onFile = args. file("no=", "w")
232
+ oeFile = args. file("eo=", "w")
233
+ logFile = args. file("log=", "w")
234
+
235
+ idFN = args.field("tid=", iFile, "tid" )
236
+ itemFN = args.field("item=", iFile, "item" )
237
+ clsFN = args.field("class=",iFile, nil )
238
+ taxoFN = args.field("taxo=", xFile, "taxo" )
239
+ idFN = idFN["names"].join(",") if idFN
240
+ itemFN = itemFN["names"].join(",") if itemFN
241
+ clsFN = clsFN["names"].join(",") if clsFN
242
+ taxoFN = taxoFN["names"].join(",") if taxoFN
243
+
244
+ sim = args. str("sim=")
245
+ th = args.float("th=") # 類似度measure
246
+ node_support=args.bool("-node_support")
247
+
248
+ # 最小サポート確率
249
+ minSup=nil
250
+ sp=args.str("s=")
251
+ if sp==nil ### s=指定なし
252
+ minSup=nil
253
+
254
+ elsif sp.index(",") and sp.index(":") ### s=c1:0.1,c2:0.2,...
255
+ minSup = {}
256
+ sp=sp.split(",")
257
+ (0...sp.size).each{|i|
258
+ raise "bad format of s=" unless sp[i]
259
+ kv=sp[i].split(":")
260
+ raise "bad format of s=" unless kv[0] and kv[1]
261
+ minSup[kv[0]]=kv[1].to_f
262
+ }
263
+
264
+ else ### s=0.1
265
+ minSup=sp.to_f
266
+ end
267
+
268
+ # 最小サポート件数
269
+ sp=args.str("S=")
270
+ if sp==nil ### s=指定なし
271
+ minCnt=nil
272
+
273
+ elsif sp.index(",") and sp.index(":") ### S=c1:10,c2:10,...
274
+ minCnt = {}
275
+ sp=sp.split(",")
276
+ (0...sp.size).each{|i|
277
+ raise "bad format of s=" unless sp[i]
278
+ kv=sp[i].split(":")
279
+ raise "bad format of s=" unless kv[0] and kv[1]
280
+ minCnt[kv[0]]=kv[1].to_f
281
+ }
282
+
283
+ else ### S=10
284
+ minCnt=sp.to_f
285
+ end
286
+
287
+ # s=,S=両者指定ないときのデフォルト
288
+ if minSup==nil and minCnt==nil
289
+ minSup=0.01
290
+ end
291
+
292
+ #top = args.int("top=" ,nil,0) # 今は使ってないがコメントを外せば機能するはず
293
+ uniform=args.bool("-uniform") # クラス事前確率を一様と考えるかどうか
294
+
295
+ if (sim and not th) or (not sim and th) then
296
+ raise "th=(sim=) is mandatory when sim=(th=) is specified"
297
+ end
298
+
299
+ if sim and "RPGT".index(sim)==nil
300
+ raise "sim= takes one of 'R','P','G','T'"
301
+ end
302
+
303
+ if sim=="G" and not clsFN
304
+ raise "sim=G can be used with class="
305
+ end
306
+
307
+ if sim and "RP".index(sim) and clsFN
308
+ raise "sim=R,P can not be specified with class="
309
+ end
310
+
311
+ # V型DBの読み込み
312
+ db=TAKE::TraDB.new(iFile,idFN,itemFN,clsFN)
313
+
314
+ =begin
315
+ # taxonomyのセット(今は未使用)
316
+ taxo=nil
317
+ if xFile!=nil then
318
+ taxo=TAKE::Taxonomy.new(xFile,itemFN,taxoFN)
319
+ if args.bool("-replaceTaxo") then
320
+ db.repTaxo(taxo) # taxonomyの置換
321
+ else
322
+ db.addTaxo(taxo) # taxonomyの追加
323
+ end
324
+ end
325
+ =end
326
+
327
+ simSel=""
328
+ simSel="mselnum f=resemblance c='[#{th},]' |" if sim=="R"
329
+ simSel="mselnum f=PMI c='[#{th},]' |" if sim=="P"
330
+ simSel="mselnum f=growthRate c='[#{th},]' |" if sim=="G"
331
+ simSel="mselnum f=postProbability c='[#{th},]' |" if sim=="T"
332
+
333
+ t=Time.now
334
+ eArgs=Hash.new
335
+ eArgs["type"] = "F"
336
+ eArgs["maxSup"]=1.0
337
+ eArgs["uniform"] = uniform
338
+ eArgs["nomodel"] = true
339
+
340
+ # クラスありパターン列挙
341
+ if clsFN then
342
+ # ノードはクラス関係なく全体でfrequentな2アイテムセットを求める
343
+ lcm=TAKE::LcmIs.new(db);
344
+ eArgs["minLen"] = 1
345
+ eArgs["maxLen"] = 1
346
+ if node_support
347
+ eArgs["minSup"] = minSup
348
+ eArgs["minCnt"] = minCnt
349
+ else
350
+ eArgs["minSup"] = 0
351
+ end
352
+ lcm.enumerate(eArgs)
353
+ # pid,size,count,total,support%0nr,lift,pattern
354
+ # 0,1,4,5,0.8,1,b
355
+ # 1,1,4,5,0.8,1,d
356
+ f=""
357
+ f << "mcut f=pattern:node,support,count:frequency,total i=#{lcm.pFile} | msortf f=node o=#{onFile}"
358
+ system(f)
359
+
360
+ # エッジはGRにて求めるの
361
+ # 1 itemset
362
+ temp=MCMD::Mtemp.new
363
+ xx1itemset=temp.file
364
+ if sim=="G"
365
+ eArgs["minGR" ] = th # 最小GR
366
+ elsif sim=="T"
367
+ eArgs["minProb"] = th # 最小事後確率
368
+ end
369
+ eArgs["minLen"] = 1
370
+ eArgs["maxLen"] = 1
371
+ eArgs["minSup"] = minSup
372
+ eArgs["minCnt"] = minCnt
373
+
374
+ lcm=TAKE::LcmEp.new(db);
375
+ lcm.enumerate(eArgs)
376
+ # system "head #{lcm.pFile}"
377
+ # class%0nr,pid,pattern,size,pos%2nr,neg,posTotal,negTotal,total,support,growthRate,postProb%1nr
378
+ # c1,4,c,1,1,0,3,2,5,0.3333333333,inf,1
379
+ # c1,0,f,1,3,1,3,2,5,1,2,0.75
380
+ f=""
381
+ f << "mcut f=pattern:node,support,pos:frequency,posTotal:total i=#{lcm.pFile} | msortf f=node o=#{xx1itemset}"
382
+ system(f)
383
+ # system "head #{onFile}"
384
+ # class%0,node%1,frequency,total,support,negFrequency,negTotal
385
+ # c1,b,2,3,0.6666666667,2,2
386
+ # c1,c,1,3,0.3333333333,0,2
387
+
388
+ # 2 itemset
389
+ eArgs["minLen" ] = 2
390
+ eArgs["maxLen" ] = 2
391
+ eArgs["minSup"] = minSup
392
+ eArgs["minCnt"] = minCnt
393
+ lcm.enumerate(eArgs)
394
+ # system "head #{lcm.pFile}"
395
+ # class%0nr,pid,pattern,size,pos%2nr,neg,posTotal,negTotal,total,support,growthRate,postProb%1nr
396
+ # c2,11,a d,2,2,0,2,3,5,1,inf,1
397
+ # c1,9,e f,2,1,0,3,2,5,0.3333333333,inf,1
398
+ f=""
399
+ f << "msplit a=node1,node2 f=pattern i=#{lcm.pFile} |"
400
+ f << "mfsort f=node1,node2 |"
401
+ f << "mjoin k=node1 K=node m=#{xx1itemset} f=frequency:frequency1 |"
402
+ f << "mjoin k=node2 K=node m=#{xx1itemset} f=frequency:frequency2 |"
403
+ f << "mcal c='${pos}/(${frequency1}+${frequency2}-${pos})' a=resemblance |"
404
+ f << "mcal c='if(${pos}!=0,(ln(${pos})+ln(${total})-ln(${frequency1})-ln(${frequency2}))/(ln(${total})-ln(${pos})),-1)' a=PMI |"
405
+ f << "mcal c='(${pos}*${total})/((${frequency1}*${frequency2}))' a=lift |"
406
+ f << "msortf f=class,node1,node2 |"
407
+ f << simSel
408
+ f << "mcut f=class,node1,node2,support,pos:frequency,frequency1,frequency2,total,lift,resemblance,PMI,growthRate,postProb:postProbability o=#{oeFile}"
409
+ system(f)
410
+
411
+ # クラスなしパターン列挙
412
+ else
413
+ lcm=TAKE::LcmIs.new(db);
414
+ # 1 itemset
415
+ eArgs["minLen" ] = 1
416
+ eArgs["maxLen" ] = 1
417
+ if node_support
418
+ eArgs["minSup"] = minSup
419
+ eArgs["minCnt"] = minCnt
420
+ else
421
+ eArgs["minSup"] = 0
422
+ end
423
+ lcm.enumerate(eArgs)
424
+ # #{lcm.pFile}
425
+ # pid,size,count,total,support%0nr,lift,pattern
426
+ # 0,1,4,5,0.8,1,b
427
+ # 1,1,4,5,0.8,1,d
428
+ f=""
429
+ f << "mcut f=pattern:node,support,count:frequency,total i=#{lcm.pFile} | msortf f=node o=#{onFile}"
430
+ system(f)
431
+ # node%0,support,frequency
432
+ # a,0.6,3
433
+ # b,0.8,4
434
+
435
+ # 2 itemset
436
+ eArgs["minLen" ] = 2
437
+ eArgs["maxLen" ] = 2
438
+ eArgs["minSup"] = minSup
439
+ eArgs["minCnt"] = minCnt
440
+ lcm.enumerate(eArgs)
441
+ # #{lcm.pFile}
442
+ # pid,size,count,total,support%0nr,lift,pattern
443
+ # 0,2,3,5,0.6,0.9375,b d
444
+ # 1,2,3,5,0.6,0.9375,b f
445
+ f=""
446
+ f << "msplit a=node1,node2 f=pattern i=#{lcm.pFile} |"
447
+ f << "mfsort f=node1,node2 |"
448
+ f << "mjoin k=node1 K=node m=#{onFile} f=frequency:frequency1 |"
449
+ f << "mjoin k=node2 K=node m=#{onFile} f=frequency:frequency2 |"
450
+ f << "mcal c='${count}/(${frequency1}+${frequency2}-${count})' a=resemblance |"
451
+ f << "mcal c='(ln(${count})+ln(${total})-ln(${frequency1})-ln(${frequency2}))/(ln(${total})-ln(${count}))' a=PMI |"
452
+ f << "msortf f=node1,node2 |"
453
+ f << simSel
454
+ f << "mcut f=node1,node2,support,count:frequency,frequency1,frequency2,total,lift,resemblance,PMI o=#{oeFile}"
455
+ system(f)
456
+ # node1%0,node2%1,support,frequency,frequency1,frequency2,total,lift,resemblance,PMI
457
+ # a,b,0.6,3,3,4,5,1.25,0.75,0.4368292054
458
+ # a,c,0.2,1,3,1,5,1.6667,0.3333333333,0.3173938055
459
+ end
460
+
461
+ procTime=Time.now-t
462
+
463
+ # ログファイル出力
464
+ if logFile
465
+ kv=args.getKeyValue()
466
+ kv << ["time",procTime]
467
+ MCMD::Mcsvout.new("o=#{logFile} f=key,value"){|csv|
468
+ kv.each{|line|
469
+ csv.write(line)
470
+ }
471
+ }
472
+ end
473
+
474
+ # 終了メッセージ
475
+ MCMD::endLog(args.cmdline)
476
+