nysol-take 3.0.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (161) hide show
  1. checksums.yaml +7 -0
  2. data/bin/mbiclique.rb +317 -0
  3. data/bin/mbipolish.rb +362 -0
  4. data/bin/mccomp.rb +235 -0
  5. data/bin/mclique.rb +295 -0
  6. data/bin/mclique2g.rb +105 -0
  7. data/bin/mcliqueInfo.rb +203 -0
  8. data/bin/mfriends.rb +202 -0
  9. data/bin/mgdiff.rb +252 -0
  10. data/bin/mhifriend.rb +456 -0
  11. data/bin/mhipolish.rb +465 -0
  12. data/bin/mitemset.rb +168 -0
  13. data/bin/mpal.rb +410 -0
  14. data/bin/mpolishing.rb +399 -0
  15. data/bin/msequence.rb +165 -0
  16. data/bin/mtra2g.rb +476 -0
  17. data/bin/mtra2gc.rb +360 -0
  18. data/ext/grhfilrun/extconf.rb +12 -0
  19. data/ext/grhfilrun/grhfilrun.c +85 -0
  20. data/ext/grhfilrun/src/_sspc.c +358 -0
  21. data/ext/grhfilrun/src/aheap.c +545 -0
  22. data/ext/grhfilrun/src/aheap.h +251 -0
  23. data/ext/grhfilrun/src/base.c +92 -0
  24. data/ext/grhfilrun/src/base.h +59 -0
  25. data/ext/grhfilrun/src/fstar.c +497 -0
  26. data/ext/grhfilrun/src/fstar.h +80 -0
  27. data/ext/grhfilrun/src/grhfil.c +214 -0
  28. data/ext/grhfilrun/src/itemset.c +713 -0
  29. data/ext/grhfilrun/src/itemset.h +170 -0
  30. data/ext/grhfilrun/src/problem.c +415 -0
  31. data/ext/grhfilrun/src/problem.h +179 -0
  32. data/ext/grhfilrun/src/queue.c +533 -0
  33. data/ext/grhfilrun/src/queue.h +182 -0
  34. data/ext/grhfilrun/src/sample.c +19 -0
  35. data/ext/grhfilrun/src/sspc.c +597 -0
  36. data/ext/grhfilrun/src/sspc2.c +491 -0
  37. data/ext/grhfilrun/src/stdlib2.c +1482 -0
  38. data/ext/grhfilrun/src/stdlib2.h +892 -0
  39. data/ext/grhfilrun/src/trsact.c +817 -0
  40. data/ext/grhfilrun/src/trsact.h +160 -0
  41. data/ext/grhfilrun/src/vec.c +745 -0
  42. data/ext/grhfilrun/src/vec.h +172 -0
  43. data/ext/lcmrun/extconf.rb +20 -0
  44. data/ext/lcmrun/lcmrun.cpp +99 -0
  45. data/ext/lcmrun/src/aheap.c +216 -0
  46. data/ext/lcmrun/src/aheap.h +111 -0
  47. data/ext/lcmrun/src/base.c +92 -0
  48. data/ext/lcmrun/src/base.h +59 -0
  49. data/ext/lcmrun/src/itemset.c +496 -0
  50. data/ext/lcmrun/src/itemset.h +157 -0
  51. data/ext/lcmrun/src/lcm.c +427 -0
  52. data/ext/lcmrun/src/problem.c +349 -0
  53. data/ext/lcmrun/src/problem.h +177 -0
  54. data/ext/lcmrun/src/queue.c +528 -0
  55. data/ext/lcmrun/src/queue.h +176 -0
  56. data/ext/lcmrun/src/sgraph.c +359 -0
  57. data/ext/lcmrun/src/sgraph.h +173 -0
  58. data/ext/lcmrun/src/stdlib2.c +1282 -0
  59. data/ext/lcmrun/src/stdlib2.h +823 -0
  60. data/ext/lcmrun/src/trsact.c +747 -0
  61. data/ext/lcmrun/src/trsact.h +159 -0
  62. data/ext/lcmrun/src/vec.c +731 -0
  63. data/ext/lcmrun/src/vec.h +171 -0
  64. data/ext/lcmseq0run/extconf.rb +20 -0
  65. data/ext/lcmseq0run/lcmseq0run.cpp +59 -0
  66. data/ext/lcmseq0run/src/aheap.c +216 -0
  67. data/ext/lcmseq0run/src/aheap.h +111 -0
  68. data/ext/lcmseq0run/src/base.c +92 -0
  69. data/ext/lcmseq0run/src/base.h +59 -0
  70. data/ext/lcmseq0run/src/itemset.c +518 -0
  71. data/ext/lcmseq0run/src/itemset.h +157 -0
  72. data/ext/lcmseq0run/src/itemset_zero.c +522 -0
  73. data/ext/lcmseq0run/src/lcm_seq.c +446 -0
  74. data/ext/lcmseq0run/src/lcm_seq_zero.c +446 -0
  75. data/ext/lcmseq0run/src/problem.c +439 -0
  76. data/ext/lcmseq0run/src/problem.h +179 -0
  77. data/ext/lcmseq0run/src/problem_zero.c +439 -0
  78. data/ext/lcmseq0run/src/queue.c +533 -0
  79. data/ext/lcmseq0run/src/queue.h +182 -0
  80. data/ext/lcmseq0run/src/stdlib2.c +1350 -0
  81. data/ext/lcmseq0run/src/stdlib2.h +864 -0
  82. data/ext/lcmseq0run/src/trsact.c +747 -0
  83. data/ext/lcmseq0run/src/trsact.h +159 -0
  84. data/ext/lcmseq0run/src/vec.c +779 -0
  85. data/ext/lcmseq0run/src/vec.h +172 -0
  86. data/ext/lcmseqrun/extconf.rb +20 -0
  87. data/ext/lcmseqrun/lcmseqrun.cpp +101 -0
  88. data/ext/lcmseqrun/src/aheap.c +216 -0
  89. data/ext/lcmseqrun/src/aheap.h +111 -0
  90. data/ext/lcmseqrun/src/base.c +92 -0
  91. data/ext/lcmseqrun/src/base.h +59 -0
  92. data/ext/lcmseqrun/src/itemset.c +518 -0
  93. data/ext/lcmseqrun/src/itemset.h +157 -0
  94. data/ext/lcmseqrun/src/itemset_zero.c +522 -0
  95. data/ext/lcmseqrun/src/lcm_seq.c +447 -0
  96. data/ext/lcmseqrun/src/lcm_seq_zero.c +446 -0
  97. data/ext/lcmseqrun/src/problem.c +439 -0
  98. data/ext/lcmseqrun/src/problem.h +179 -0
  99. data/ext/lcmseqrun/src/problem_zero.c +439 -0
  100. data/ext/lcmseqrun/src/queue.c +533 -0
  101. data/ext/lcmseqrun/src/queue.h +182 -0
  102. data/ext/lcmseqrun/src/stdlib2.c +1350 -0
  103. data/ext/lcmseqrun/src/stdlib2.h +864 -0
  104. data/ext/lcmseqrun/src/trsact.c +747 -0
  105. data/ext/lcmseqrun/src/trsact.h +159 -0
  106. data/ext/lcmseqrun/src/vec.c +779 -0
  107. data/ext/lcmseqrun/src/vec.h +172 -0
  108. data/ext/lcmtransrun/extconf.rb +18 -0
  109. data/ext/lcmtransrun/lcmtransrun.cpp +264 -0
  110. data/ext/macerun/extconf.rb +20 -0
  111. data/ext/macerun/macerun.cpp +57 -0
  112. data/ext/macerun/src/aheap.c +217 -0
  113. data/ext/macerun/src/aheap.h +112 -0
  114. data/ext/macerun/src/itemset.c +491 -0
  115. data/ext/macerun/src/itemset.h +158 -0
  116. data/ext/macerun/src/mace.c +503 -0
  117. data/ext/macerun/src/problem.c +346 -0
  118. data/ext/macerun/src/problem.h +174 -0
  119. data/ext/macerun/src/queue.c +529 -0
  120. data/ext/macerun/src/queue.h +177 -0
  121. data/ext/macerun/src/sgraph.c +360 -0
  122. data/ext/macerun/src/sgraph.h +174 -0
  123. data/ext/macerun/src/stdlib2.c +993 -0
  124. data/ext/macerun/src/stdlib2.h +811 -0
  125. data/ext/macerun/src/vec.c +634 -0
  126. data/ext/macerun/src/vec.h +170 -0
  127. data/ext/sspcrun/extconf.rb +20 -0
  128. data/ext/sspcrun/src/_sspc.c +358 -0
  129. data/ext/sspcrun/src/aheap.c +545 -0
  130. data/ext/sspcrun/src/aheap.h +251 -0
  131. data/ext/sspcrun/src/base.c +92 -0
  132. data/ext/sspcrun/src/base.h +59 -0
  133. data/ext/sspcrun/src/fstar.c +496 -0
  134. data/ext/sspcrun/src/fstar.h +80 -0
  135. data/ext/sspcrun/src/grhfil.c +213 -0
  136. data/ext/sspcrun/src/itemset.c +713 -0
  137. data/ext/sspcrun/src/itemset.h +170 -0
  138. data/ext/sspcrun/src/problem.c +415 -0
  139. data/ext/sspcrun/src/problem.h +179 -0
  140. data/ext/sspcrun/src/queue.c +533 -0
  141. data/ext/sspcrun/src/queue.h +182 -0
  142. data/ext/sspcrun/src/sample.c +19 -0
  143. data/ext/sspcrun/src/sspc.c +598 -0
  144. data/ext/sspcrun/src/sspc2.c +491 -0
  145. data/ext/sspcrun/src/stdlib2.c +1482 -0
  146. data/ext/sspcrun/src/stdlib2.h +892 -0
  147. data/ext/sspcrun/src/trsact.c +817 -0
  148. data/ext/sspcrun/src/trsact.h +160 -0
  149. data/ext/sspcrun/src/vec.c +745 -0
  150. data/ext/sspcrun/src/vec.h +172 -0
  151. data/ext/sspcrun/sspcrun.cpp +54 -0
  152. data/lib/nysol/enumLcmEp.rb +338 -0
  153. data/lib/nysol/enumLcmEsp.rb +284 -0
  154. data/lib/nysol/enumLcmIs.rb +275 -0
  155. data/lib/nysol/enumLcmSeq.rb +143 -0
  156. data/lib/nysol/items.rb +201 -0
  157. data/lib/nysol/seqDB.rb +256 -0
  158. data/lib/nysol/take.rb +39 -0
  159. data/lib/nysol/taxonomy.rb +113 -0
  160. data/lib/nysol/traDB.rb +257 -0
  161. metadata +239 -0
data/bin/mtra2gc.rb ADDED
@@ -0,0 +1,360 @@
1
+ #!/usr/bin/env ruby
2
+ # encoding: utf-8
3
+
4
+ require "rubygems"
5
+ require "nysol/mcmd"
6
+ require "nysol/take"
7
+
8
+ # ver="1.0" # 初期リリース 2016/11/20
9
+ # ver="1.1" # resemblanceをjaccardに変更 2016/12/13
10
+ # ver="1.2" # sim=の値を変更 2016/12/13
11
+ $cmd=$0.sub(/.*\//,"")
12
+ $version="1.1"
13
+
14
+ def help
15
+ STDERR.puts <<EOF
16
+ ----------------------------
17
+ #{$cmd} version #{$version}
18
+ ----------------------------
19
+ 概要) トランザクションデータからアイテム類似グラフを構築する。
20
+ 内容) 2アイテムの共起情報によって類似度を定義し、ある閾値より高い類似度を持つアイテム間に枝を張る。
21
+ mtra2g.rbで可能なclassやtaxonomyの指定は出来ないが、より高速に動作する。
22
+ また類似度の定義にconfidenceを指定可能。
23
+ 書式) #{$cmd} i= tid= item= [class=] [no=] eo= [s=|S=] [sim=] [th=] [-node_support] [-num] [log=] [T=] [--help]
24
+
25
+ ファイル名指定
26
+ i= : トランザクションデータファイル【必須】
27
+ tid= : トランザクションID項目名【必須】
28
+ item= : アイテム項目名【必須】
29
+ no= : 出力ファイル(節点)
30
+ eo= : 出力ファイル(辺:節点ペア)
31
+ log= : パラメータの設定値をkey-value形式のCSVで保存するファイル名
32
+
33
+ 【枝を張る条件1】
34
+ s= : 最小支持度(全トランザクション数に対する割合による指定): 0以上1以下の実数
35
+ S= : 最小支持度(トランザクション数による指定): 1以上の整数
36
+ S=,s=両方共省略時はs=0.01をデフォルトとする
37
+
38
+ 【枝を張る条件2:省略可】
39
+ sim= : アイテムa,bに枝を張る条件として用いる類似度を指定する。
40
+ 省略した場合は、最小支持度の条件でのみ枝を張ることになる。
41
+ 指定できる類似度は以下の3つのいずれか一つ。
42
+ 省略した場合はs=もしくはS=の条件のみで実行される。
43
+ J (jaccard) : |A ∩ B|/|A ∪ B|
44
+ P (normalized PMI) : log(|A ∩ B|*|T| / (|A|*|B|)) / log(|A ∩ B|/|T|)
45
+ liftを-1〜+1に基準化したもの。
46
+ -1:a(b)出現時b(a)出現なし、0:a,b独立、+1:a(b)出現時必ずb(a)出現
47
+ C (Confidence(A=>B)) : |A ∩ B|/|B|
48
+ A,B: アイテムa(b)を含むトランザクション集合
49
+ T: 全トランザクション集合
50
+ th= : sim=で指定された類似度について、ここで指定された値以上のアイテム間に枝を張る。
51
+
52
+ 【節点条件】
53
+ -node_support : 節点にもS=の条件を適用する。指定しなければ全てのitemを節点として出力する。
54
+
55
+ その他
56
+ -num : アイテム項目が正の整数値である場合に指定可能で、処理が高速化される。
57
+ T= : ワークディレクトリ(default:/tmp)
58
+ --help : ヘルプの表示
59
+
60
+ 入力ファイル形式)
61
+ トランザクションIDとアイテムの2項目によるトランザクションデータ。
62
+ class=を指定する場合は、さらにクラス項目が必要となる。
63
+ 使用例を参照のこと。
64
+
65
+ 出力形式)
66
+ a) 節点ファイル(no=)
67
+ 例:
68
+ node%0,support,frequency,total
69
+ a,0.6,3,5
70
+ b,0.8,4,5
71
+ c,0.2,1,5
72
+ d,0.8,4,5
73
+ e,0.4,2,5
74
+ f,0.8,4,5
75
+ 項目の説明:
76
+ node:アイテム
77
+ support:frequency/total
78
+ frequency:アイテムの出現頻度
79
+ total:全トランザクション数
80
+
81
+ b) 枝ファイル(eo=)
82
+ 例:
83
+ node1%0,node2%1,frequency,frequency1,frequency2,total,support,confidence,lift,jaccard,PMI
84
+ a,b,3,3,4,5,0.6,1,1.25,0.75,0.4368292054
85
+ a,c,1,1,3,5,0.2,1,1.666666667,0.3333333333,0.3173938055
86
+ 項目の説明:
87
+ node1,node2:アイテム
88
+ support:frequency/total
89
+ frequency:2つのアイテム(node1,node2)の共起頻度
90
+ frequency1:node1の出現頻度
91
+ frequency2:node2の出現頻度
92
+ total:全トランザクション数
93
+ confidence: frequency/frequency1
94
+ lift: (total*frequency)/(frequency1*frequency2)
95
+ jaccard,PMI:上述の「枝を張る条件2」を参照
96
+
97
+ 基本的な使用例)
98
+ $ cat tra1.csv
99
+ id,item
100
+ 1,a
101
+ 1,b
102
+ 1,c
103
+ 1,f
104
+ 2,d
105
+ 2,e
106
+ 2,f
107
+ 3,a
108
+ 3,b
109
+ 3,d
110
+ 3,f
111
+ 4,b
112
+ 4,d
113
+ 4,f
114
+ 5,a
115
+ 5,b
116
+ 5,d
117
+ 5,e
118
+ $ #{$cmd} i=tra.csv tid=id item=item S=1 sim=C th=0.7 no=node.csv eo=edge.csv
119
+ $ cat node.csv
120
+ node%0,support,frequency,total
121
+ a,0.6,3,5
122
+ b,0.8,4,5
123
+ c,0.2,1,5
124
+ d,0.8,4,5
125
+ e,0.4,2,5
126
+ f,0.8,4,5
127
+ $ cat edge.csv
128
+ node1%0,node2%1,frequency,frequency1,frequency2,total,support,confidence,lift,jaccard,PMI
129
+ a,b,3,3,4,5,0.6,1,1.25,0.75,0.4368292054
130
+ b,a,3,4,3,5,0.6,0.75,1.25,0.75,0.4368292054
131
+ b,d,3,4,4,5,0.6,0.75,0.9375,0.6,-0.1263415893
132
+ b,f,3,4,4,5,0.6,0.75,0.9375,0.6,-0.1263415893
133
+ c,a,1,1,3,5,0.2,1,1.666666667,0.3333333333,0.3173938055
134
+ c,b,1,1,4,5,0.2,1,1.25,0.25,0.1386468839
135
+ c,f,1,1,4,5,0.2,1,1.25,0.25,0.1386468839
136
+ d,b,3,4,4,5,0.6,0.75,0.9375,0.6,-0.1263415893
137
+ d,f,3,4,4,5,0.6,0.75,0.9375,0.6,-0.1263415893
138
+ e,d,2,2,4,5,0.4,1,1.25,0.5,0.2435292026
139
+ f,b,3,4,4,5,0.6,0.75,0.9375,0.6,-0.1263415893
140
+ f,d,3,4,4,5,0.6,0.75,0.9375,0.6,-0.1263415893
141
+
142
+ # Copyright(c) NYSOL 2012- All Rights Reserved.
143
+ EOF
144
+ exit
145
+ end
146
+
147
+ def ver()
148
+ STDERR.puts "version #{$version}"
149
+ exit
150
+ end
151
+
152
+ help() if ARGV.size <= 0 or ARGV[0]=="--help"
153
+ ver() if ARGV[0]=="--version"
154
+
155
+ # コマンド実行可能確認
156
+ #CMD_sspc="sspc_20161209"
157
+ #exit(1) unless(MCMD::chkCmdExe(CMD_sspc , "executable"))
158
+
159
+ def conv(iFile,idFN,itemFN,oFile,mapFile)
160
+ temp=MCMD::Mtemp.new
161
+ xxtra=temp.file
162
+
163
+ # 入力ファイルのidがnilの場合は連番を生成して新たなid項目を作成する。
164
+ f=""
165
+ f << "mcut f=#{itemFN}:##item i=#{iFile} |"
166
+ f << "mcount k=##item a=##freq |"
167
+ f << "mnumber s=##freq%nr a=##num o=#{mapFile}"
168
+ system(f)
169
+ #system "head #{mapFile}"
170
+ # ##item,##freq%0nr,##num
171
+ # b,4,0
172
+ # d,4,1
173
+
174
+ f=""
175
+ f << "mjoin k=#{itemFN} K=##item m=#{mapFile} f=##num i=#{iFile} |"
176
+ f << "mtra k=#{idFN} f=##num |"
177
+ f << "mnumber -q a=##traID |"
178
+ f << "mcut f=##num -nfno o=#{oFile}"
179
+ system(f)
180
+ size=MCMD::mrecount("i=#{oFile} -nfn")
181
+ return size
182
+ end
183
+
184
+ def convNum(iFile,idFN,itemFN,oFile,mapFile)
185
+ temp=MCMD::Mtemp.new
186
+ xxtra=temp.file
187
+
188
+ # 入力ファイルのidがnilの場合は連番を生成して新たなid項目を作成する。
189
+ f=""
190
+ f << "mcut f=#{itemFN}:##item i=#{iFile} |"
191
+ f << "mcount k=##item a=##freq o=#{mapFile}"
192
+ system(f)
193
+ #system "head #{mapFile}"
194
+ # ##item,##freq%0nr,##num
195
+ # b,4,0
196
+ # d,4,1
197
+ f=""
198
+ f << "mtra k=#{idFN} f=#{itemFN}:##num i=#{iFile} |"
199
+ f << "mcut f=##num -nfno o=#{oFile}"
200
+ system(f)
201
+ size=MCMD::mrecount("i=#{oFile} -nfn")
202
+ return size
203
+ end
204
+
205
+
206
+ args=MCMD::Margs.new(ARGV,"i=,no=,eo=,log=,tid=,item=,s=,S=,sim=,th=,-node_support,T=,-num","i=,tid=,item=,eo=")
207
+
208
+ # mcmdのメッセージは警告とエラーのみ
209
+ ENV["KG_VerboseLevel"]="2" unless args.bool("-mcmdenv")
210
+
211
+ #ワークファイルパス
212
+ if args.str("T=")!=nil then
213
+ ENV["KG_TmpPath"] = args.str("T=").sub(/\/$/,"")
214
+ end
215
+
216
+ iFile = args.file("i=","r")
217
+
218
+ t=Time.now
219
+ onFile = args. file("no=", "w")
220
+ oeFile = args. file("eo=", "w")
221
+ logFile = args. file("log=", "w")
222
+
223
+ idFN = args.field("tid=", iFile, "tid" )
224
+ itemFN = args.field("item=", iFile, "item" )
225
+ idFN = idFN["names"].join(",") if idFN
226
+ itemFN = itemFN["names"].join(",") if itemFN
227
+
228
+ sim = args. str("sim=")
229
+ th = args.float("th=") # 類似度measure
230
+ node_support=args.bool("-node_support")
231
+ num=args.bool("-num")
232
+
233
+ # 最小サポート件数
234
+ minSupPrb=args.str("s=")
235
+ minSupCnt=args.str("S=")
236
+ minSupPrb=0.01 if minSupPrb==nil and minSupCnt==nil
237
+
238
+ if sim and "JPC".index(sim)==nil
239
+ raise "sim= takes one of 'J','P','C'"
240
+ end
241
+
242
+ t=Time.now
243
+ temp=MCMD::Mtemp.new
244
+ xxsspcin=temp.file
245
+ xxsspcout=temp.file
246
+
247
+ xxmap=temp.file
248
+ xxminSim=temp.file
249
+ xxminSup=temp.file
250
+ xxsup=temp.file
251
+ xxsup2=temp.file
252
+ xxsup3=temp.file
253
+
254
+ # traファイルの変換とマップファイルの作成
255
+ if num then
256
+ total=convNum(iFile,idFN,itemFN,xxsspcin,xxmap)
257
+ else
258
+ total=conv(iFile,idFN,itemFN,xxsspcin,xxmap)
259
+ end
260
+ # system "head xxsspcin"
261
+ # 3 5 0 2
262
+ # 4 1 2
263
+ # 0 2 3 1
264
+ # 1 0 2
265
+ # 3 4 0 1
266
+ # system "head xxmap"
267
+ # ##item,##freq%0nr,##num
268
+ # b,4,0
269
+ # d,4,1
270
+ # f,4,2
271
+
272
+ minSupp=nil
273
+ if minSupPrb
274
+ minSupp=(total*minSupPrb.to_f).to_i
275
+ else
276
+ minSupp=minSupCnt.to_i
277
+ end
278
+
279
+ # sspc用simの文字列
280
+ sspcSim=nil
281
+ if sim
282
+ if sim=="J"
283
+ sspcSim="R"
284
+ elsif sim=="P"
285
+ sspcSim="P"
286
+ elsif sim=="C"
287
+ sspcSim="i"
288
+ end
289
+
290
+ # sim=省略時はRでth=0とする(sim制約なし)
291
+ else
292
+ sspcSim="R"
293
+ th=0
294
+ end
295
+
296
+ ############ 列挙本体 ############
297
+ #system "#{CMD_sspc} #{sspcSim}ft -TT #{minSupp} #{xxsspcin} #{th} #{xxsspcout}"
298
+ TAKE::run_sspc("#{sspcSim}ft -TT #{minSupp} #{xxsspcin} #{th} #{xxsspcout}")
299
+
300
+ ##################################
301
+ # $ xxminSup
302
+ # 1 0 (3)
303
+ # 2 0 (3)
304
+ f=""
305
+ f << "tr ' ()' ',' < #{xxsspcout} |"
306
+ f << "mcut -nfni f=1:i1,2:i2,0:frequency,4:sim |"
307
+ if num then
308
+ f << "mfldname f=i1:node1,i2:node2 |"
309
+ f << "mfsort f=node1,node2 |" unless sim=="C"
310
+ f << "mjoin k=node1 K=##item m=#{xxmap} f=##freq:frequency1 |"
311
+ f << "mjoin k=node2 K=##item m=#{xxmap} f=##freq:frequency2 |"
312
+ else
313
+ f << "mjoin k=i1 K=##num m=#{xxmap} f=##item:node1,##freq:frequency1 |"
314
+ f << "mjoin k=i2 K=##num m=#{xxmap} f=##item:node2,##freq:frequency2 |"
315
+ unless sim=="C" then
316
+ f << "mcut f=i1,i2,frequency,sim,node1,node2,frequency1,frequency2,node1:node1x,node2:node2x |"
317
+ f << "mfsort f=node1x,node2x |"
318
+ f << "mcal c='if($s{node1}==$s{node1x},$s{frequency1},$s{frequency2})' a=freq1|"
319
+ f << "mcal c='if($s{node2}==$s{node2x},$s{frequency2},$s{frequency1})' a=freq2|"
320
+ f << "mcut f=i1,i2,frequency,sim,node1x:node1,node2x:node2,freq1:frequency1,freq2:frequency2|"
321
+ end
322
+ end
323
+ f << "msetstr v=#{total} a=total |"
324
+ f << "mcal c='${frequency}/${frequency1}' a=confidence |"
325
+ f << "mcal c='${frequency}/${total}' a=support |"
326
+ f << "mcal c='${frequency}/(${frequency1}+${frequency2}-${frequency})' a=jaccard |"
327
+ f << "mcal c='(${frequency}*${total})/((${frequency1}*${frequency2}))' a=lift |"
328
+ f << "mcal c='(ln(${frequency})+ln(${total})-ln(${frequency1})-ln(${frequency2}))/(ln(${total})-ln(${frequency}))' a=PMI |"
329
+ f << "mcut f=node1,node2,frequency,frequency1,frequency2,total,support,confidence,lift,jaccard,PMI |"
330
+ f << "msortf f=node1,node2 o=#{oeFile}"
331
+ system(f)
332
+
333
+
334
+ if onFile
335
+ f=""
336
+ f << "mcut f=#{itemFN}:node i=#{iFile} |"
337
+ f << "mcount k=node a=frequency |"
338
+ f << "mselnum f=frequency c='[#{minSupp},]' |" if node_support
339
+ f << "msetstr v=#{total} a=total |"
340
+ f << "mcal c='${frequency}/${total}' a=support |"
341
+ f << "mcut f=node,support,frequency,total o=#{onFile}"
342
+ system(f)
343
+ end
344
+
345
+ procTime=Time.now-t
346
+
347
+ # ログファイル出力
348
+ if logFile
349
+ kv=args.getKeyValue()
350
+ kv << ["time",procTime]
351
+ MCMD::Mcsvout.new("o=#{logFile} f=key,value"){|csv|
352
+ kv.each{|line|
353
+ csv.write(line)
354
+ }
355
+ }
356
+ end
357
+
358
+ # 終了メッセージ
359
+ MCMD::endLog(args.cmdline)
360
+
@@ -0,0 +1,12 @@
1
+ require "rubygems"
2
+ require "mkmf"
3
+
4
+
5
+ cp = "$(srcdir)"
6
+ $CFLAGS = " -O3 -Os -s -w -I. -I#{cp}/src -DB_STATIC -D_NO_MAIN_ -DLINE -fPIC -Wno-error=format-security"
7
+ $CPPFLAGS = " -O3 -Os -s -w -I. -I#{cp}/src -DB_STATIC -D_NO_MAIN_ -DLINE -fPIC -Wno-error=format-security"
8
+ $CXXFLAGS = " -O3 -Os -s -w -I. -I#{cp}/src -DB_STATIC -D_NO_MAIN_ -DLINE -fPIC -Wno-error=format-security"
9
+
10
+
11
+ create_makefile("nysol/grhfilrun")
12
+
@@ -0,0 +1,85 @@
1
+ #include <stdio.h>
2
+ #include <stdlib.h>
3
+ #include <unistd.h>
4
+ #include <fcntl.h>
5
+ #include <ruby.h>
6
+ #include <sys/stat.h>
7
+
8
+
9
+ //#include "src/sspc.c"
10
+ #include "src/grhfil.c"
11
+
12
+
13
+
14
+
15
+ VALUE grhfilrun(VALUE self,VALUE argvV){
16
+ char *p,*q,*st,**pp=NULL,**tmpp=NULL;
17
+ unsigned int cnt =1;
18
+ char* argstr=RSTRING_PTR(argvV);
19
+ long len = RSTRING_LEN(argvV);
20
+
21
+ p = (char*)malloc( sizeof(char)*(len+1) );
22
+ if(p == NULL){
23
+ fprintf(stderr,"memory alloc error\n");
24
+ return Qfalse;
25
+ }
26
+ strncpy(p,argstr,len);
27
+ *(p+len)='\0';
28
+ // スペーススキップ
29
+ q=p ;
30
+ while(*q==' ') { *q='\0'; q++; }
31
+ st=q;
32
+
33
+ pp = (char**)malloc(sizeof(char*)*(cnt));
34
+ if(pp == NULL){
35
+ fprintf(stderr,"memory alloc error\n");
36
+ return Qfalse;
37
+ }
38
+ pp[0] = "grhfil";
39
+
40
+ while(*q){
41
+ if(*q==' '){
42
+ while(*q==' ') { *q='\0'; q++; }
43
+ tmpp = (char**)realloc(pp,sizeof(char*)*(cnt+1));
44
+ if(tmpp==NULL){
45
+ fprintf(stderr,"memory alloc error\n");
46
+ free(pp);
47
+ return Qfalse;
48
+ }
49
+ pp = tmpp;
50
+ pp[cnt]= st;
51
+ cnt++;
52
+ st = q;
53
+ }
54
+ else{
55
+ q++;
56
+ }
57
+ }
58
+ if(strlen(st)!=0){
59
+ tmpp = (char**)realloc(pp,sizeof(char*)*(cnt+1));
60
+ if(tmpp==NULL){
61
+ free(pp);
62
+ return Qfalse;
63
+ }
64
+ pp = tmpp;
65
+ pp[cnt]= st;
66
+ cnt++;
67
+ }
68
+ GRHFIL_main(cnt,pp);
69
+ if(pp){ free(pp);}
70
+ if(p){ free(p);}
71
+ return Qtrue;
72
+ }
73
+
74
+ // -----------------------------------------------------------------------------
75
+ // ruby Mcsvin クラス init
76
+ // -----------------------------------------------------------------------------
77
+ void Init_grhfilrun(void)
78
+ {
79
+ // モジュール定義:MCMD::xxxxの部分
80
+ VALUE mtake=rb_define_module("TAKE");
81
+ // rb_define_module_function(mtake,"sspc" , (VALUE (*)(...))sspcrun,1);
82
+ rb_define_module_function(mtake,"run_grhfil" , grhfilrun,1);
83
+ }
84
+
85
+