nysol-take 3.0.0
Sign up to get free protection for your applications and to get access to all the features.
- checksums.yaml +7 -0
- data/bin/mbiclique.rb +317 -0
- data/bin/mbipolish.rb +362 -0
- data/bin/mccomp.rb +235 -0
- data/bin/mclique.rb +295 -0
- data/bin/mclique2g.rb +105 -0
- data/bin/mcliqueInfo.rb +203 -0
- data/bin/mfriends.rb +202 -0
- data/bin/mgdiff.rb +252 -0
- data/bin/mhifriend.rb +456 -0
- data/bin/mhipolish.rb +465 -0
- data/bin/mitemset.rb +168 -0
- data/bin/mpal.rb +410 -0
- data/bin/mpolishing.rb +399 -0
- data/bin/msequence.rb +165 -0
- data/bin/mtra2g.rb +476 -0
- data/bin/mtra2gc.rb +360 -0
- data/ext/grhfilrun/extconf.rb +12 -0
- data/ext/grhfilrun/grhfilrun.c +85 -0
- data/ext/grhfilrun/src/_sspc.c +358 -0
- data/ext/grhfilrun/src/aheap.c +545 -0
- data/ext/grhfilrun/src/aheap.h +251 -0
- data/ext/grhfilrun/src/base.c +92 -0
- data/ext/grhfilrun/src/base.h +59 -0
- data/ext/grhfilrun/src/fstar.c +497 -0
- data/ext/grhfilrun/src/fstar.h +80 -0
- data/ext/grhfilrun/src/grhfil.c +214 -0
- data/ext/grhfilrun/src/itemset.c +713 -0
- data/ext/grhfilrun/src/itemset.h +170 -0
- data/ext/grhfilrun/src/problem.c +415 -0
- data/ext/grhfilrun/src/problem.h +179 -0
- data/ext/grhfilrun/src/queue.c +533 -0
- data/ext/grhfilrun/src/queue.h +182 -0
- data/ext/grhfilrun/src/sample.c +19 -0
- data/ext/grhfilrun/src/sspc.c +597 -0
- data/ext/grhfilrun/src/sspc2.c +491 -0
- data/ext/grhfilrun/src/stdlib2.c +1482 -0
- data/ext/grhfilrun/src/stdlib2.h +892 -0
- data/ext/grhfilrun/src/trsact.c +817 -0
- data/ext/grhfilrun/src/trsact.h +160 -0
- data/ext/grhfilrun/src/vec.c +745 -0
- data/ext/grhfilrun/src/vec.h +172 -0
- data/ext/lcmrun/extconf.rb +20 -0
- data/ext/lcmrun/lcmrun.cpp +99 -0
- data/ext/lcmrun/src/aheap.c +216 -0
- data/ext/lcmrun/src/aheap.h +111 -0
- data/ext/lcmrun/src/base.c +92 -0
- data/ext/lcmrun/src/base.h +59 -0
- data/ext/lcmrun/src/itemset.c +496 -0
- data/ext/lcmrun/src/itemset.h +157 -0
- data/ext/lcmrun/src/lcm.c +427 -0
- data/ext/lcmrun/src/problem.c +349 -0
- data/ext/lcmrun/src/problem.h +177 -0
- data/ext/lcmrun/src/queue.c +528 -0
- data/ext/lcmrun/src/queue.h +176 -0
- data/ext/lcmrun/src/sgraph.c +359 -0
- data/ext/lcmrun/src/sgraph.h +173 -0
- data/ext/lcmrun/src/stdlib2.c +1282 -0
- data/ext/lcmrun/src/stdlib2.h +823 -0
- data/ext/lcmrun/src/trsact.c +747 -0
- data/ext/lcmrun/src/trsact.h +159 -0
- data/ext/lcmrun/src/vec.c +731 -0
- data/ext/lcmrun/src/vec.h +171 -0
- data/ext/lcmseq0run/extconf.rb +20 -0
- data/ext/lcmseq0run/lcmseq0run.cpp +59 -0
- data/ext/lcmseq0run/src/aheap.c +216 -0
- data/ext/lcmseq0run/src/aheap.h +111 -0
- data/ext/lcmseq0run/src/base.c +92 -0
- data/ext/lcmseq0run/src/base.h +59 -0
- data/ext/lcmseq0run/src/itemset.c +518 -0
- data/ext/lcmseq0run/src/itemset.h +157 -0
- data/ext/lcmseq0run/src/itemset_zero.c +522 -0
- data/ext/lcmseq0run/src/lcm_seq.c +446 -0
- data/ext/lcmseq0run/src/lcm_seq_zero.c +446 -0
- data/ext/lcmseq0run/src/problem.c +439 -0
- data/ext/lcmseq0run/src/problem.h +179 -0
- data/ext/lcmseq0run/src/problem_zero.c +439 -0
- data/ext/lcmseq0run/src/queue.c +533 -0
- data/ext/lcmseq0run/src/queue.h +182 -0
- data/ext/lcmseq0run/src/stdlib2.c +1350 -0
- data/ext/lcmseq0run/src/stdlib2.h +864 -0
- data/ext/lcmseq0run/src/trsact.c +747 -0
- data/ext/lcmseq0run/src/trsact.h +159 -0
- data/ext/lcmseq0run/src/vec.c +779 -0
- data/ext/lcmseq0run/src/vec.h +172 -0
- data/ext/lcmseqrun/extconf.rb +20 -0
- data/ext/lcmseqrun/lcmseqrun.cpp +101 -0
- data/ext/lcmseqrun/src/aheap.c +216 -0
- data/ext/lcmseqrun/src/aheap.h +111 -0
- data/ext/lcmseqrun/src/base.c +92 -0
- data/ext/lcmseqrun/src/base.h +59 -0
- data/ext/lcmseqrun/src/itemset.c +518 -0
- data/ext/lcmseqrun/src/itemset.h +157 -0
- data/ext/lcmseqrun/src/itemset_zero.c +522 -0
- data/ext/lcmseqrun/src/lcm_seq.c +447 -0
- data/ext/lcmseqrun/src/lcm_seq_zero.c +446 -0
- data/ext/lcmseqrun/src/problem.c +439 -0
- data/ext/lcmseqrun/src/problem.h +179 -0
- data/ext/lcmseqrun/src/problem_zero.c +439 -0
- data/ext/lcmseqrun/src/queue.c +533 -0
- data/ext/lcmseqrun/src/queue.h +182 -0
- data/ext/lcmseqrun/src/stdlib2.c +1350 -0
- data/ext/lcmseqrun/src/stdlib2.h +864 -0
- data/ext/lcmseqrun/src/trsact.c +747 -0
- data/ext/lcmseqrun/src/trsact.h +159 -0
- data/ext/lcmseqrun/src/vec.c +779 -0
- data/ext/lcmseqrun/src/vec.h +172 -0
- data/ext/lcmtransrun/extconf.rb +18 -0
- data/ext/lcmtransrun/lcmtransrun.cpp +264 -0
- data/ext/macerun/extconf.rb +20 -0
- data/ext/macerun/macerun.cpp +57 -0
- data/ext/macerun/src/aheap.c +217 -0
- data/ext/macerun/src/aheap.h +112 -0
- data/ext/macerun/src/itemset.c +491 -0
- data/ext/macerun/src/itemset.h +158 -0
- data/ext/macerun/src/mace.c +503 -0
- data/ext/macerun/src/problem.c +346 -0
- data/ext/macerun/src/problem.h +174 -0
- data/ext/macerun/src/queue.c +529 -0
- data/ext/macerun/src/queue.h +177 -0
- data/ext/macerun/src/sgraph.c +360 -0
- data/ext/macerun/src/sgraph.h +174 -0
- data/ext/macerun/src/stdlib2.c +993 -0
- data/ext/macerun/src/stdlib2.h +811 -0
- data/ext/macerun/src/vec.c +634 -0
- data/ext/macerun/src/vec.h +170 -0
- data/ext/sspcrun/extconf.rb +20 -0
- data/ext/sspcrun/src/_sspc.c +358 -0
- data/ext/sspcrun/src/aheap.c +545 -0
- data/ext/sspcrun/src/aheap.h +251 -0
- data/ext/sspcrun/src/base.c +92 -0
- data/ext/sspcrun/src/base.h +59 -0
- data/ext/sspcrun/src/fstar.c +496 -0
- data/ext/sspcrun/src/fstar.h +80 -0
- data/ext/sspcrun/src/grhfil.c +213 -0
- data/ext/sspcrun/src/itemset.c +713 -0
- data/ext/sspcrun/src/itemset.h +170 -0
- data/ext/sspcrun/src/problem.c +415 -0
- data/ext/sspcrun/src/problem.h +179 -0
- data/ext/sspcrun/src/queue.c +533 -0
- data/ext/sspcrun/src/queue.h +182 -0
- data/ext/sspcrun/src/sample.c +19 -0
- data/ext/sspcrun/src/sspc.c +598 -0
- data/ext/sspcrun/src/sspc2.c +491 -0
- data/ext/sspcrun/src/stdlib2.c +1482 -0
- data/ext/sspcrun/src/stdlib2.h +892 -0
- data/ext/sspcrun/src/trsact.c +817 -0
- data/ext/sspcrun/src/trsact.h +160 -0
- data/ext/sspcrun/src/vec.c +745 -0
- data/ext/sspcrun/src/vec.h +172 -0
- data/ext/sspcrun/sspcrun.cpp +54 -0
- data/lib/nysol/enumLcmEp.rb +338 -0
- data/lib/nysol/enumLcmEsp.rb +284 -0
- data/lib/nysol/enumLcmIs.rb +275 -0
- data/lib/nysol/enumLcmSeq.rb +143 -0
- data/lib/nysol/items.rb +201 -0
- data/lib/nysol/seqDB.rb +256 -0
- data/lib/nysol/take.rb +39 -0
- data/lib/nysol/taxonomy.rb +113 -0
- data/lib/nysol/traDB.rb +257 -0
- metadata +239 -0
data/bin/mtra2gc.rb
ADDED
@@ -0,0 +1,360 @@
|
|
1
|
+
#!/usr/bin/env ruby
|
2
|
+
# encoding: utf-8
|
3
|
+
|
4
|
+
require "rubygems"
|
5
|
+
require "nysol/mcmd"
|
6
|
+
require "nysol/take"
|
7
|
+
|
8
|
+
# ver="1.0" # 初期リリース 2016/11/20
|
9
|
+
# ver="1.1" # resemblanceをjaccardに変更 2016/12/13
|
10
|
+
# ver="1.2" # sim=の値を変更 2016/12/13
|
11
|
+
$cmd=$0.sub(/.*\//,"")
|
12
|
+
$version="1.1"
|
13
|
+
|
14
|
+
def help
|
15
|
+
STDERR.puts <<EOF
|
16
|
+
----------------------------
|
17
|
+
#{$cmd} version #{$version}
|
18
|
+
----------------------------
|
19
|
+
概要) トランザクションデータからアイテム類似グラフを構築する。
|
20
|
+
内容) 2アイテムの共起情報によって類似度を定義し、ある閾値より高い類似度を持つアイテム間に枝を張る。
|
21
|
+
mtra2g.rbで可能なclassやtaxonomyの指定は出来ないが、より高速に動作する。
|
22
|
+
また類似度の定義にconfidenceを指定可能。
|
23
|
+
書式) #{$cmd} i= tid= item= [class=] [no=] eo= [s=|S=] [sim=] [th=] [-node_support] [-num] [log=] [T=] [--help]
|
24
|
+
|
25
|
+
ファイル名指定
|
26
|
+
i= : トランザクションデータファイル【必須】
|
27
|
+
tid= : トランザクションID項目名【必須】
|
28
|
+
item= : アイテム項目名【必須】
|
29
|
+
no= : 出力ファイル(節点)
|
30
|
+
eo= : 出力ファイル(辺:節点ペア)
|
31
|
+
log= : パラメータの設定値をkey-value形式のCSVで保存するファイル名
|
32
|
+
|
33
|
+
【枝を張る条件1】
|
34
|
+
s= : 最小支持度(全トランザクション数に対する割合による指定): 0以上1以下の実数
|
35
|
+
S= : 最小支持度(トランザクション数による指定): 1以上の整数
|
36
|
+
S=,s=両方共省略時はs=0.01をデフォルトとする
|
37
|
+
|
38
|
+
【枝を張る条件2:省略可】
|
39
|
+
sim= : アイテムa,bに枝を張る条件として用いる類似度を指定する。
|
40
|
+
省略した場合は、最小支持度の条件でのみ枝を張ることになる。
|
41
|
+
指定できる類似度は以下の3つのいずれか一つ。
|
42
|
+
省略した場合はs=もしくはS=の条件のみで実行される。
|
43
|
+
J (jaccard) : |A ∩ B|/|A ∪ B|
|
44
|
+
P (normalized PMI) : log(|A ∩ B|*|T| / (|A|*|B|)) / log(|A ∩ B|/|T|)
|
45
|
+
liftを-1〜+1に基準化したもの。
|
46
|
+
-1:a(b)出現時b(a)出現なし、0:a,b独立、+1:a(b)出現時必ずb(a)出現
|
47
|
+
C (Confidence(A=>B)) : |A ∩ B|/|B|
|
48
|
+
A,B: アイテムa(b)を含むトランザクション集合
|
49
|
+
T: 全トランザクション集合
|
50
|
+
th= : sim=で指定された類似度について、ここで指定された値以上のアイテム間に枝を張る。
|
51
|
+
|
52
|
+
【節点条件】
|
53
|
+
-node_support : 節点にもS=の条件を適用する。指定しなければ全てのitemを節点として出力する。
|
54
|
+
|
55
|
+
その他
|
56
|
+
-num : アイテム項目が正の整数値である場合に指定可能で、処理が高速化される。
|
57
|
+
T= : ワークディレクトリ(default:/tmp)
|
58
|
+
--help : ヘルプの表示
|
59
|
+
|
60
|
+
入力ファイル形式)
|
61
|
+
トランザクションIDとアイテムの2項目によるトランザクションデータ。
|
62
|
+
class=を指定する場合は、さらにクラス項目が必要となる。
|
63
|
+
使用例を参照のこと。
|
64
|
+
|
65
|
+
出力形式)
|
66
|
+
a) 節点ファイル(no=)
|
67
|
+
例:
|
68
|
+
node%0,support,frequency,total
|
69
|
+
a,0.6,3,5
|
70
|
+
b,0.8,4,5
|
71
|
+
c,0.2,1,5
|
72
|
+
d,0.8,4,5
|
73
|
+
e,0.4,2,5
|
74
|
+
f,0.8,4,5
|
75
|
+
項目の説明:
|
76
|
+
node:アイテム
|
77
|
+
support:frequency/total
|
78
|
+
frequency:アイテムの出現頻度
|
79
|
+
total:全トランザクション数
|
80
|
+
|
81
|
+
b) 枝ファイル(eo=)
|
82
|
+
例:
|
83
|
+
node1%0,node2%1,frequency,frequency1,frequency2,total,support,confidence,lift,jaccard,PMI
|
84
|
+
a,b,3,3,4,5,0.6,1,1.25,0.75,0.4368292054
|
85
|
+
a,c,1,1,3,5,0.2,1,1.666666667,0.3333333333,0.3173938055
|
86
|
+
項目の説明:
|
87
|
+
node1,node2:アイテム
|
88
|
+
support:frequency/total
|
89
|
+
frequency:2つのアイテム(node1,node2)の共起頻度
|
90
|
+
frequency1:node1の出現頻度
|
91
|
+
frequency2:node2の出現頻度
|
92
|
+
total:全トランザクション数
|
93
|
+
confidence: frequency/frequency1
|
94
|
+
lift: (total*frequency)/(frequency1*frequency2)
|
95
|
+
jaccard,PMI:上述の「枝を張る条件2」を参照
|
96
|
+
|
97
|
+
基本的な使用例)
|
98
|
+
$ cat tra1.csv
|
99
|
+
id,item
|
100
|
+
1,a
|
101
|
+
1,b
|
102
|
+
1,c
|
103
|
+
1,f
|
104
|
+
2,d
|
105
|
+
2,e
|
106
|
+
2,f
|
107
|
+
3,a
|
108
|
+
3,b
|
109
|
+
3,d
|
110
|
+
3,f
|
111
|
+
4,b
|
112
|
+
4,d
|
113
|
+
4,f
|
114
|
+
5,a
|
115
|
+
5,b
|
116
|
+
5,d
|
117
|
+
5,e
|
118
|
+
$ #{$cmd} i=tra.csv tid=id item=item S=1 sim=C th=0.7 no=node.csv eo=edge.csv
|
119
|
+
$ cat node.csv
|
120
|
+
node%0,support,frequency,total
|
121
|
+
a,0.6,3,5
|
122
|
+
b,0.8,4,5
|
123
|
+
c,0.2,1,5
|
124
|
+
d,0.8,4,5
|
125
|
+
e,0.4,2,5
|
126
|
+
f,0.8,4,5
|
127
|
+
$ cat edge.csv
|
128
|
+
node1%0,node2%1,frequency,frequency1,frequency2,total,support,confidence,lift,jaccard,PMI
|
129
|
+
a,b,3,3,4,5,0.6,1,1.25,0.75,0.4368292054
|
130
|
+
b,a,3,4,3,5,0.6,0.75,1.25,0.75,0.4368292054
|
131
|
+
b,d,3,4,4,5,0.6,0.75,0.9375,0.6,-0.1263415893
|
132
|
+
b,f,3,4,4,5,0.6,0.75,0.9375,0.6,-0.1263415893
|
133
|
+
c,a,1,1,3,5,0.2,1,1.666666667,0.3333333333,0.3173938055
|
134
|
+
c,b,1,1,4,5,0.2,1,1.25,0.25,0.1386468839
|
135
|
+
c,f,1,1,4,5,0.2,1,1.25,0.25,0.1386468839
|
136
|
+
d,b,3,4,4,5,0.6,0.75,0.9375,0.6,-0.1263415893
|
137
|
+
d,f,3,4,4,5,0.6,0.75,0.9375,0.6,-0.1263415893
|
138
|
+
e,d,2,2,4,5,0.4,1,1.25,0.5,0.2435292026
|
139
|
+
f,b,3,4,4,5,0.6,0.75,0.9375,0.6,-0.1263415893
|
140
|
+
f,d,3,4,4,5,0.6,0.75,0.9375,0.6,-0.1263415893
|
141
|
+
|
142
|
+
# Copyright(c) NYSOL 2012- All Rights Reserved.
|
143
|
+
EOF
|
144
|
+
exit
|
145
|
+
end
|
146
|
+
|
147
|
+
def ver()
|
148
|
+
STDERR.puts "version #{$version}"
|
149
|
+
exit
|
150
|
+
end
|
151
|
+
|
152
|
+
help() if ARGV.size <= 0 or ARGV[0]=="--help"
|
153
|
+
ver() if ARGV[0]=="--version"
|
154
|
+
|
155
|
+
# コマンド実行可能確認
|
156
|
+
#CMD_sspc="sspc_20161209"
|
157
|
+
#exit(1) unless(MCMD::chkCmdExe(CMD_sspc , "executable"))
|
158
|
+
|
159
|
+
def conv(iFile,idFN,itemFN,oFile,mapFile)
|
160
|
+
temp=MCMD::Mtemp.new
|
161
|
+
xxtra=temp.file
|
162
|
+
|
163
|
+
# 入力ファイルのidがnilの場合は連番を生成して新たなid項目を作成する。
|
164
|
+
f=""
|
165
|
+
f << "mcut f=#{itemFN}:##item i=#{iFile} |"
|
166
|
+
f << "mcount k=##item a=##freq |"
|
167
|
+
f << "mnumber s=##freq%nr a=##num o=#{mapFile}"
|
168
|
+
system(f)
|
169
|
+
#system "head #{mapFile}"
|
170
|
+
# ##item,##freq%0nr,##num
|
171
|
+
# b,4,0
|
172
|
+
# d,4,1
|
173
|
+
|
174
|
+
f=""
|
175
|
+
f << "mjoin k=#{itemFN} K=##item m=#{mapFile} f=##num i=#{iFile} |"
|
176
|
+
f << "mtra k=#{idFN} f=##num |"
|
177
|
+
f << "mnumber -q a=##traID |"
|
178
|
+
f << "mcut f=##num -nfno o=#{oFile}"
|
179
|
+
system(f)
|
180
|
+
size=MCMD::mrecount("i=#{oFile} -nfn")
|
181
|
+
return size
|
182
|
+
end
|
183
|
+
|
184
|
+
def convNum(iFile,idFN,itemFN,oFile,mapFile)
|
185
|
+
temp=MCMD::Mtemp.new
|
186
|
+
xxtra=temp.file
|
187
|
+
|
188
|
+
# 入力ファイルのidがnilの場合は連番を生成して新たなid項目を作成する。
|
189
|
+
f=""
|
190
|
+
f << "mcut f=#{itemFN}:##item i=#{iFile} |"
|
191
|
+
f << "mcount k=##item a=##freq o=#{mapFile}"
|
192
|
+
system(f)
|
193
|
+
#system "head #{mapFile}"
|
194
|
+
# ##item,##freq%0nr,##num
|
195
|
+
# b,4,0
|
196
|
+
# d,4,1
|
197
|
+
f=""
|
198
|
+
f << "mtra k=#{idFN} f=#{itemFN}:##num i=#{iFile} |"
|
199
|
+
f << "mcut f=##num -nfno o=#{oFile}"
|
200
|
+
system(f)
|
201
|
+
size=MCMD::mrecount("i=#{oFile} -nfn")
|
202
|
+
return size
|
203
|
+
end
|
204
|
+
|
205
|
+
|
206
|
+
args=MCMD::Margs.new(ARGV,"i=,no=,eo=,log=,tid=,item=,s=,S=,sim=,th=,-node_support,T=,-num","i=,tid=,item=,eo=")
|
207
|
+
|
208
|
+
# mcmdのメッセージは警告とエラーのみ
|
209
|
+
ENV["KG_VerboseLevel"]="2" unless args.bool("-mcmdenv")
|
210
|
+
|
211
|
+
#ワークファイルパス
|
212
|
+
if args.str("T=")!=nil then
|
213
|
+
ENV["KG_TmpPath"] = args.str("T=").sub(/\/$/,"")
|
214
|
+
end
|
215
|
+
|
216
|
+
iFile = args.file("i=","r")
|
217
|
+
|
218
|
+
t=Time.now
|
219
|
+
onFile = args. file("no=", "w")
|
220
|
+
oeFile = args. file("eo=", "w")
|
221
|
+
logFile = args. file("log=", "w")
|
222
|
+
|
223
|
+
idFN = args.field("tid=", iFile, "tid" )
|
224
|
+
itemFN = args.field("item=", iFile, "item" )
|
225
|
+
idFN = idFN["names"].join(",") if idFN
|
226
|
+
itemFN = itemFN["names"].join(",") if itemFN
|
227
|
+
|
228
|
+
sim = args. str("sim=")
|
229
|
+
th = args.float("th=") # 類似度measure
|
230
|
+
node_support=args.bool("-node_support")
|
231
|
+
num=args.bool("-num")
|
232
|
+
|
233
|
+
# 最小サポート件数
|
234
|
+
minSupPrb=args.str("s=")
|
235
|
+
minSupCnt=args.str("S=")
|
236
|
+
minSupPrb=0.01 if minSupPrb==nil and minSupCnt==nil
|
237
|
+
|
238
|
+
if sim and "JPC".index(sim)==nil
|
239
|
+
raise "sim= takes one of 'J','P','C'"
|
240
|
+
end
|
241
|
+
|
242
|
+
t=Time.now
|
243
|
+
temp=MCMD::Mtemp.new
|
244
|
+
xxsspcin=temp.file
|
245
|
+
xxsspcout=temp.file
|
246
|
+
|
247
|
+
xxmap=temp.file
|
248
|
+
xxminSim=temp.file
|
249
|
+
xxminSup=temp.file
|
250
|
+
xxsup=temp.file
|
251
|
+
xxsup2=temp.file
|
252
|
+
xxsup3=temp.file
|
253
|
+
|
254
|
+
# traファイルの変換とマップファイルの作成
|
255
|
+
if num then
|
256
|
+
total=convNum(iFile,idFN,itemFN,xxsspcin,xxmap)
|
257
|
+
else
|
258
|
+
total=conv(iFile,idFN,itemFN,xxsspcin,xxmap)
|
259
|
+
end
|
260
|
+
# system "head xxsspcin"
|
261
|
+
# 3 5 0 2
|
262
|
+
# 4 1 2
|
263
|
+
# 0 2 3 1
|
264
|
+
# 1 0 2
|
265
|
+
# 3 4 0 1
|
266
|
+
# system "head xxmap"
|
267
|
+
# ##item,##freq%0nr,##num
|
268
|
+
# b,4,0
|
269
|
+
# d,4,1
|
270
|
+
# f,4,2
|
271
|
+
|
272
|
+
minSupp=nil
|
273
|
+
if minSupPrb
|
274
|
+
minSupp=(total*minSupPrb.to_f).to_i
|
275
|
+
else
|
276
|
+
minSupp=minSupCnt.to_i
|
277
|
+
end
|
278
|
+
|
279
|
+
# sspc用simの文字列
|
280
|
+
sspcSim=nil
|
281
|
+
if sim
|
282
|
+
if sim=="J"
|
283
|
+
sspcSim="R"
|
284
|
+
elsif sim=="P"
|
285
|
+
sspcSim="P"
|
286
|
+
elsif sim=="C"
|
287
|
+
sspcSim="i"
|
288
|
+
end
|
289
|
+
|
290
|
+
# sim=省略時はRでth=0とする(sim制約なし)
|
291
|
+
else
|
292
|
+
sspcSim="R"
|
293
|
+
th=0
|
294
|
+
end
|
295
|
+
|
296
|
+
############ 列挙本体 ############
|
297
|
+
#system "#{CMD_sspc} #{sspcSim}ft -TT #{minSupp} #{xxsspcin} #{th} #{xxsspcout}"
|
298
|
+
TAKE::run_sspc("#{sspcSim}ft -TT #{minSupp} #{xxsspcin} #{th} #{xxsspcout}")
|
299
|
+
|
300
|
+
##################################
|
301
|
+
# $ xxminSup
|
302
|
+
# 1 0 (3)
|
303
|
+
# 2 0 (3)
|
304
|
+
f=""
|
305
|
+
f << "tr ' ()' ',' < #{xxsspcout} |"
|
306
|
+
f << "mcut -nfni f=1:i1,2:i2,0:frequency,4:sim |"
|
307
|
+
if num then
|
308
|
+
f << "mfldname f=i1:node1,i2:node2 |"
|
309
|
+
f << "mfsort f=node1,node2 |" unless sim=="C"
|
310
|
+
f << "mjoin k=node1 K=##item m=#{xxmap} f=##freq:frequency1 |"
|
311
|
+
f << "mjoin k=node2 K=##item m=#{xxmap} f=##freq:frequency2 |"
|
312
|
+
else
|
313
|
+
f << "mjoin k=i1 K=##num m=#{xxmap} f=##item:node1,##freq:frequency1 |"
|
314
|
+
f << "mjoin k=i2 K=##num m=#{xxmap} f=##item:node2,##freq:frequency2 |"
|
315
|
+
unless sim=="C" then
|
316
|
+
f << "mcut f=i1,i2,frequency,sim,node1,node2,frequency1,frequency2,node1:node1x,node2:node2x |"
|
317
|
+
f << "mfsort f=node1x,node2x |"
|
318
|
+
f << "mcal c='if($s{node1}==$s{node1x},$s{frequency1},$s{frequency2})' a=freq1|"
|
319
|
+
f << "mcal c='if($s{node2}==$s{node2x},$s{frequency2},$s{frequency1})' a=freq2|"
|
320
|
+
f << "mcut f=i1,i2,frequency,sim,node1x:node1,node2x:node2,freq1:frequency1,freq2:frequency2|"
|
321
|
+
end
|
322
|
+
end
|
323
|
+
f << "msetstr v=#{total} a=total |"
|
324
|
+
f << "mcal c='${frequency}/${frequency1}' a=confidence |"
|
325
|
+
f << "mcal c='${frequency}/${total}' a=support |"
|
326
|
+
f << "mcal c='${frequency}/(${frequency1}+${frequency2}-${frequency})' a=jaccard |"
|
327
|
+
f << "mcal c='(${frequency}*${total})/((${frequency1}*${frequency2}))' a=lift |"
|
328
|
+
f << "mcal c='(ln(${frequency})+ln(${total})-ln(${frequency1})-ln(${frequency2}))/(ln(${total})-ln(${frequency}))' a=PMI |"
|
329
|
+
f << "mcut f=node1,node2,frequency,frequency1,frequency2,total,support,confidence,lift,jaccard,PMI |"
|
330
|
+
f << "msortf f=node1,node2 o=#{oeFile}"
|
331
|
+
system(f)
|
332
|
+
|
333
|
+
|
334
|
+
if onFile
|
335
|
+
f=""
|
336
|
+
f << "mcut f=#{itemFN}:node i=#{iFile} |"
|
337
|
+
f << "mcount k=node a=frequency |"
|
338
|
+
f << "mselnum f=frequency c='[#{minSupp},]' |" if node_support
|
339
|
+
f << "msetstr v=#{total} a=total |"
|
340
|
+
f << "mcal c='${frequency}/${total}' a=support |"
|
341
|
+
f << "mcut f=node,support,frequency,total o=#{onFile}"
|
342
|
+
system(f)
|
343
|
+
end
|
344
|
+
|
345
|
+
procTime=Time.now-t
|
346
|
+
|
347
|
+
# ログファイル出力
|
348
|
+
if logFile
|
349
|
+
kv=args.getKeyValue()
|
350
|
+
kv << ["time",procTime]
|
351
|
+
MCMD::Mcsvout.new("o=#{logFile} f=key,value"){|csv|
|
352
|
+
kv.each{|line|
|
353
|
+
csv.write(line)
|
354
|
+
}
|
355
|
+
}
|
356
|
+
end
|
357
|
+
|
358
|
+
# 終了メッセージ
|
359
|
+
MCMD::endLog(args.cmdline)
|
360
|
+
|
@@ -0,0 +1,12 @@
|
|
1
|
+
require "rubygems"
|
2
|
+
require "mkmf"
|
3
|
+
|
4
|
+
|
5
|
+
cp = "$(srcdir)"
|
6
|
+
$CFLAGS = " -O3 -Os -s -w -I. -I#{cp}/src -DB_STATIC -D_NO_MAIN_ -DLINE -fPIC -Wno-error=format-security"
|
7
|
+
$CPPFLAGS = " -O3 -Os -s -w -I. -I#{cp}/src -DB_STATIC -D_NO_MAIN_ -DLINE -fPIC -Wno-error=format-security"
|
8
|
+
$CXXFLAGS = " -O3 -Os -s -w -I. -I#{cp}/src -DB_STATIC -D_NO_MAIN_ -DLINE -fPIC -Wno-error=format-security"
|
9
|
+
|
10
|
+
|
11
|
+
create_makefile("nysol/grhfilrun")
|
12
|
+
|
@@ -0,0 +1,85 @@
|
|
1
|
+
#include <stdio.h>
|
2
|
+
#include <stdlib.h>
|
3
|
+
#include <unistd.h>
|
4
|
+
#include <fcntl.h>
|
5
|
+
#include <ruby.h>
|
6
|
+
#include <sys/stat.h>
|
7
|
+
|
8
|
+
|
9
|
+
//#include "src/sspc.c"
|
10
|
+
#include "src/grhfil.c"
|
11
|
+
|
12
|
+
|
13
|
+
|
14
|
+
|
15
|
+
VALUE grhfilrun(VALUE self,VALUE argvV){
|
16
|
+
char *p,*q,*st,**pp=NULL,**tmpp=NULL;
|
17
|
+
unsigned int cnt =1;
|
18
|
+
char* argstr=RSTRING_PTR(argvV);
|
19
|
+
long len = RSTRING_LEN(argvV);
|
20
|
+
|
21
|
+
p = (char*)malloc( sizeof(char)*(len+1) );
|
22
|
+
if(p == NULL){
|
23
|
+
fprintf(stderr,"memory alloc error\n");
|
24
|
+
return Qfalse;
|
25
|
+
}
|
26
|
+
strncpy(p,argstr,len);
|
27
|
+
*(p+len)='\0';
|
28
|
+
// スペーススキップ
|
29
|
+
q=p ;
|
30
|
+
while(*q==' ') { *q='\0'; q++; }
|
31
|
+
st=q;
|
32
|
+
|
33
|
+
pp = (char**)malloc(sizeof(char*)*(cnt));
|
34
|
+
if(pp == NULL){
|
35
|
+
fprintf(stderr,"memory alloc error\n");
|
36
|
+
return Qfalse;
|
37
|
+
}
|
38
|
+
pp[0] = "grhfil";
|
39
|
+
|
40
|
+
while(*q){
|
41
|
+
if(*q==' '){
|
42
|
+
while(*q==' ') { *q='\0'; q++; }
|
43
|
+
tmpp = (char**)realloc(pp,sizeof(char*)*(cnt+1));
|
44
|
+
if(tmpp==NULL){
|
45
|
+
fprintf(stderr,"memory alloc error\n");
|
46
|
+
free(pp);
|
47
|
+
return Qfalse;
|
48
|
+
}
|
49
|
+
pp = tmpp;
|
50
|
+
pp[cnt]= st;
|
51
|
+
cnt++;
|
52
|
+
st = q;
|
53
|
+
}
|
54
|
+
else{
|
55
|
+
q++;
|
56
|
+
}
|
57
|
+
}
|
58
|
+
if(strlen(st)!=0){
|
59
|
+
tmpp = (char**)realloc(pp,sizeof(char*)*(cnt+1));
|
60
|
+
if(tmpp==NULL){
|
61
|
+
free(pp);
|
62
|
+
return Qfalse;
|
63
|
+
}
|
64
|
+
pp = tmpp;
|
65
|
+
pp[cnt]= st;
|
66
|
+
cnt++;
|
67
|
+
}
|
68
|
+
GRHFIL_main(cnt,pp);
|
69
|
+
if(pp){ free(pp);}
|
70
|
+
if(p){ free(p);}
|
71
|
+
return Qtrue;
|
72
|
+
}
|
73
|
+
|
74
|
+
// -----------------------------------------------------------------------------
|
75
|
+
// ruby Mcsvin クラス init
|
76
|
+
// -----------------------------------------------------------------------------
|
77
|
+
void Init_grhfilrun(void)
|
78
|
+
{
|
79
|
+
// モジュール定義:MCMD::xxxxの部分
|
80
|
+
VALUE mtake=rb_define_module("TAKE");
|
81
|
+
// rb_define_module_function(mtake,"sspc" , (VALUE (*)(...))sspcrun,1);
|
82
|
+
rb_define_module_function(mtake,"run_grhfil" , grhfilrun,1);
|
83
|
+
}
|
84
|
+
|
85
|
+
|