nlpir 0.0.4-x86-mingw32

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (92) hide show
  1. checksums.yaml +7 -0
  2. data/.gitignore +17 -0
  3. data/LICENSE.txt +22 -0
  4. data/README.md +195 -0
  5. data/Rakefile +11 -0
  6. data/bin/NLPIR.dll +0 -0
  7. data/lib/Data/BIG2GBK.map +0 -0
  8. data/lib/Data/BIG5.pdat +0 -0
  9. data/lib/Data/BIG5.wordlist +0 -0
  10. data/lib/Data/BiWord.big +0 -0
  11. data/lib/Data/Configure.xml +15 -0
  12. data/lib/Data/CoreDict.pdat +0 -0
  13. data/lib/Data/CoreDict.pos +0 -0
  14. data/lib/Data/CoreDict.unig +0 -0
  15. data/lib/Data/FieldDict.pdat +0 -0
  16. data/lib/Data/FieldDict.pos +0 -0
  17. data/lib/Data/GBK.pdat +0 -0
  18. data/lib/Data/GBK.wordlist +0 -0
  19. data/lib/Data/GBK2BIG.map +0 -0
  20. data/lib/Data/GBK2GBKC.map +0 -0
  21. data/lib/Data/GBK2UTF.map +0 -0
  22. data/lib/Data/GBKA.pdat +0 -0
  23. data/lib/Data/GBKA.wordlist +0 -0
  24. data/lib/Data/GBKA2UTF.map +0 -0
  25. data/lib/Data/GBKC.pdat +0 -0
  26. data/lib/Data/GBKC.wordlist +0 -0
  27. data/lib/Data/GBKC2GBK.map +0 -0
  28. data/lib/Data/GranDict.pdat +3369 -8
  29. data/lib/Data/GranDict.pos +0 -0
  30. data/lib/Data/ICTPOS.map +96 -0
  31. data/lib/Data/NLPIR.ctx +0 -0
  32. data/lib/Data/NLPIR.user +0 -0
  33. data/lib/Data/NLPIR_First.map +96 -0
  34. data/lib/Data/NewWord.lst +25 -0
  35. data/lib/Data/PKU.map +96 -0
  36. data/lib/Data/PKU_First.map +96 -0
  37. data/lib/Data/UTF2GBK.map +0 -0
  38. data/lib/Data/UTF2GBKA.map +0 -0
  39. data/lib/Data/UTF8.pdat +0 -0
  40. data/lib/Data/UTF8.wordlist +0 -0
  41. data/lib/Data/UserDict.pdat +0 -0
  42. data/lib/Data/charset.type +0 -0
  43. data/lib/Data/nr.ctx +0 -0
  44. data/lib/Data/nr.fsa +0 -0
  45. data/lib/Data/nr.role +0 -0
  46. data/lib/nlpir/version.rb +3 -0
  47. data/lib/nlpir.rb +275 -0
  48. data/nlpir.gemspec +25 -0
  49. data/test/Data/BIG2GBK.map +0 -0
  50. data/test/Data/BIG5.pdat +0 -0
  51. data/test/Data/BIG5.wordlist +0 -0
  52. data/test/Data/BiWord.big +0 -0
  53. data/test/Data/Configure.xml +15 -0
  54. data/test/Data/CoreDict.pdat +0 -0
  55. data/test/Data/CoreDict.pos +0 -0
  56. data/test/Data/CoreDict.unig +0 -0
  57. data/test/Data/FieldDict.pdat +0 -0
  58. data/test/Data/FieldDict.pos +0 -0
  59. data/test/Data/GBK.pdat +0 -0
  60. data/test/Data/GBK.wordlist +0 -0
  61. data/test/Data/GBK2BIG.map +0 -0
  62. data/test/Data/GBK2GBKC.map +0 -0
  63. data/test/Data/GBK2UTF.map +0 -0
  64. data/test/Data/GBKA.pdat +0 -0
  65. data/test/Data/GBKA.wordlist +0 -0
  66. data/test/Data/GBKA2UTF.map +0 -0
  67. data/test/Data/GBKC.pdat +0 -0
  68. data/test/Data/GBKC.wordlist +0 -0
  69. data/test/Data/GBKC2GBK.map +0 -0
  70. data/test/Data/GranDict.pdat +3369 -8
  71. data/test/Data/GranDict.pos +0 -0
  72. data/test/Data/ICTPOS.map +96 -0
  73. data/test/Data/NLPIR.ctx +0 -0
  74. data/test/Data/NLPIR.user +0 -0
  75. data/test/Data/NLPIR_First.map +96 -0
  76. data/test/Data/NewWord.lst +73 -0
  77. data/test/Data/PKU.map +96 -0
  78. data/test/Data/PKU_First.map +96 -0
  79. data/test/Data/UTF2GBK.map +0 -0
  80. data/test/Data/UTF2GBKA.map +0 -0
  81. data/test/Data/UTF8.pdat +0 -0
  82. data/test/Data/UTF8.wordlist +0 -0
  83. data/test/Data/UserDict.pdat +0 -0
  84. data/test/Data/charset.type +0 -0
  85. data/test/Data/nr.ctx +0 -0
  86. data/test/Data/nr.fsa +0 -0
  87. data/test/Data/nr.role +0 -0
  88. data/test/test.txt +52 -0
  89. data/test/test_nlpir.rb +158 -0
  90. data/test/test_result.txt +87 -0
  91. data/test/userdict.txt +5 -0
  92. metadata +206 -0
Binary file
@@ -0,0 +1,96 @@
1
+ 1
2
+ 4
3
+ a
4
+ ad
5
+ ag
6
+ al
7
+ an
8
+ b
9
+ bl
10
+ c
11
+ cc
12
+ d
13
+ dg
14
+ dl
15
+ e
16
+ f
17
+ h
18
+ k
19
+ m
20
+ Mg
21
+ mq
22
+ n
23
+ ng
24
+ nl
25
+ nr
26
+ nr1
27
+ nr2
28
+ nrf
29
+ nrj
30
+ ns
31
+ nsf
32
+ nt
33
+ nz
34
+ o
35
+ p
36
+ pba
37
+ pbei
38
+ q
39
+ qt
40
+ qv
41
+ r
42
+ Rg
43
+ rr
44
+ ry
45
+ rys
46
+ ryt
47
+ ryv
48
+ rz
49
+ rzs
50
+ rzt
51
+ rzv
52
+ s
53
+ t
54
+ tg
55
+ u
56
+ ude1
57
+ ude2
58
+ ude3
59
+ udeng
60
+ udh
61
+ uguo
62
+ ule
63
+ ulian
64
+ uls
65
+ usuo
66
+ uyy
67
+ uzhe
68
+ uzhi
69
+ v
70
+ vd
71
+ vf
72
+ vg
73
+ vi
74
+ vl
75
+ vn
76
+ vshi
77
+ vx
78
+ vyou
79
+ w
80
+ wb
81
+ wd
82
+ wf
83
+ wj
84
+ wky
85
+ wkz
86
+ wm
87
+ wn
88
+ wp
89
+ ws
90
+ wt
91
+ ww
92
+ wyy
93
+ wyz
94
+ x
95
+ y
96
+ z
Binary file
Binary file
@@ -0,0 +1,96 @@
1
+ 1
2
+ 4
3
+ a
4
+ a
5
+ a
6
+ a
7
+ a
8
+ b
9
+ b
10
+ c
11
+ c
12
+ d
13
+ d
14
+ d
15
+ e
16
+ f
17
+ h
18
+ k
19
+ m
20
+ m
21
+ m
22
+ n
23
+ n
24
+ n
25
+ n
26
+ n
27
+ n
28
+ n
29
+ n
30
+ n
31
+ n
32
+ n
33
+ n
34
+ o
35
+ p
36
+ p
37
+ p
38
+ q
39
+ q
40
+ q
41
+ r
42
+ R
43
+ r
44
+ r
45
+ r
46
+ r
47
+ r
48
+ r
49
+ r
50
+ r
51
+ r
52
+ s
53
+ t
54
+ t
55
+ u
56
+ u
57
+ u
58
+ u
59
+ u
60
+ u
61
+ u
62
+ u
63
+ u
64
+ u
65
+ u
66
+ u
67
+ u
68
+ u
69
+ v
70
+ v
71
+ v
72
+ v
73
+ v
74
+ v
75
+ v
76
+ v
77
+ v
78
+ v
79
+ w
80
+ w
81
+ w
82
+ w
83
+ w
84
+ w
85
+ w
86
+ w
87
+ w
88
+ w
89
+ w
90
+ w
91
+ w
92
+ w
93
+ w
94
+ x
95
+ y
96
+ z
@@ -0,0 +1,73 @@
1
+ ��˿ ���� �⹹ ��Q �������Ļ� ���� Ⱥ���Գ� ���ݱ�΢
2
+ ��˿ ���� �⹹ ��Q �������Ļ� ���� Ⱥ���Գ� ���ݱ�΢
3
+
4
+
5
+
6
+
7
+
8
+
9
+
10
+
11
+
12
+
13
+
14
+
15
+
16
+
17
+
18
+
19
+
20
+
21
+
22
+
23
+
24
+
25
+
26
+
27
+ 屌丝/n_new/10.19
28
+ 屌丝/n_new/10.19
29
+ 屌丝/n_new/10.19
30
+ 屌丝/n_new/10.19
31
+ 屌丝/n_new/10.19
32
+ 屌丝/n_new/10.19
33
+ 屌丝/n_new/10.19
34
+ 屌丝/n_new/10.19
35
+ 屌丝/n_new/10.19
36
+ 屌丝/n_new/10.19
37
+ 屌丝/n_new/10.19
38
+ 屌丝/n_new/10.19
39
+ 屌丝/n_new/10.19
40
+ 屌丝/n_new/10.19
41
+ 屌丝/n_new/10.19
42
+ 屌丝/n_new/10.19
43
+ 屌丝/n_new/10.19
44
+ 屌丝/n_new/10.19
45
+ 屌丝/n_new/10.19
46
+ 屌丝/n_new/10.19
47
+ 屌丝/n_new/10.19
48
+ 屌丝/n_new/10.19
49
+ 屌丝/n_new/10.19
50
+ 屌丝/n_new/10.19
51
+ 屌丝/n_new/10.19
52
+ 屌丝/n_new/10.19
53
+ 屌丝/n_new/10.19
54
+ 屌丝/n_new/10.19
55
+ 屌丝/n_new/10.19
56
+ 屌丝/n_new/10.19
57
+ 屌丝/n_new/10.19
58
+ 屌丝/n_new/10.19
59
+ 屌丝/n_new/10.19
60
+ 屌丝/n_new/10.19
61
+ 屌丝/n_new/10.19
62
+ 屌丝/n_new/10.19
63
+ 屌丝/n_new/10.19
64
+ 屌丝/n_new/10.19
65
+ 屌丝/n_new/10.19
66
+ 屌丝/n_new/10.19
67
+ 屌丝/n_new/10.19
68
+ 屌丝/n_new/10.19
69
+ 屌丝/n_new/10.19
70
+ 屌丝/n_new/10.19
71
+ 屌丝/n_new/10.19
72
+ 屌丝/n_new/10.19
73
+ 屌丝/n_new/10.19
data/test/Data/PKU.map ADDED
@@ -0,0 +1,96 @@
1
+ 1
2
+ 4
3
+ a
4
+ ad
5
+ g
6
+ l
7
+ an
8
+ b
9
+ l
10
+ c
11
+ cc
12
+ d
13
+ g
14
+ l
15
+ e
16
+ f
17
+ h
18
+ k
19
+ m
20
+ Mg
21
+ mq
22
+ n
23
+ g
24
+ l
25
+ nr
26
+ nr
27
+ nr
28
+ nr
29
+ nr
30
+ ns
31
+ ns
32
+ nt
33
+ nz
34
+ o
35
+ p
36
+ p
37
+ p
38
+ q
39
+ qt
40
+ qv
41
+ r
42
+ Rg
43
+ r
44
+ r
45
+ r
46
+ r
47
+ r
48
+ r
49
+ r
50
+ r
51
+ r
52
+ s
53
+ t
54
+ tg
55
+ u
56
+ u
57
+ u
58
+ u
59
+ u
60
+ u
61
+ u
62
+ u
63
+ u
64
+ u
65
+ u
66
+ u
67
+ u
68
+ u
69
+ v
70
+ v
71
+ v
72
+ g
73
+ v
74
+ v
75
+ vn
76
+ v
77
+ v
78
+ v
79
+ w
80
+ w
81
+ w
82
+ w
83
+ w
84
+ w
85
+ w
86
+ w
87
+ w
88
+ w
89
+ w
90
+ w
91
+ w
92
+ w
93
+ w
94
+ x
95
+ y
96
+ z
@@ -0,0 +1,96 @@
1
+ 1
2
+ 4
3
+ a
4
+ a
5
+ g
6
+ l
7
+ a
8
+ b
9
+ l
10
+ c
11
+ c
12
+ d
13
+ g
14
+ l
15
+ e
16
+ f
17
+ h
18
+ k
19
+ m
20
+ m
21
+ m
22
+ n
23
+ g
24
+ l
25
+ n
26
+ n
27
+ n
28
+ n
29
+ n
30
+ n
31
+ n
32
+ n
33
+ n
34
+ o
35
+ p
36
+ p
37
+ p
38
+ q
39
+ q
40
+ q
41
+ r
42
+ R
43
+ r
44
+ r
45
+ r
46
+ r
47
+ r
48
+ r
49
+ r
50
+ r
51
+ r
52
+ s
53
+ t
54
+ t
55
+ u
56
+ u
57
+ u
58
+ u
59
+ u
60
+ u
61
+ u
62
+ u
63
+ u
64
+ u
65
+ u
66
+ u
67
+ u
68
+ u
69
+ v
70
+ v
71
+ v
72
+ g
73
+ v
74
+ v
75
+ v
76
+ v
77
+ v
78
+ v
79
+ w
80
+ w
81
+ w
82
+ w
83
+ w
84
+ w
85
+ w
86
+ w
87
+ w
88
+ w
89
+ w
90
+ w
91
+ w
92
+ w
93
+ w
94
+ x
95
+ y
96
+ z
Binary file
Binary file
Binary file
Binary file
Binary file
Binary file
data/test/Data/nr.ctx ADDED
Binary file
data/test/Data/nr.fsa ADDED
Binary file
data/test/Data/nr.role ADDED
Binary file
data/test/test.txt ADDED
@@ -0,0 +1,52 @@
1
+ 屌丝,一个字头的诞生
2
+
3
+ 去年开始,打开百度李毅吧,满屏的帖子大多含有“屌丝”二字,一般网友不仅不懂这词什么意思,更难理解这个词为什么会这么火。然而从下半年开始,“屌丝”已经覆盖网络各个角落,人人争说屌丝,人人争当屌丝。
4
+ 从遭遇恶搞到群体自嘲,“屌丝”名号横空出世
5
+ “屌丝”一词最早的来源是百度“三巨头吧”对“李毅吧”球迷的恶搞称谓,有嘲讽之意,但却被李毅吧的球迷就此领受下来。“屌丝”二字蕴含着无奈和自嘲的意味,但是李毅吧球迷“不以为耻、反以为荣”,从此以“屌丝”自称,并开始一路爆红网络。
6
+
7
+ 提到“屌丝”就不能不提百度“李毅吧”,也称“D8”。其会员自称为“毅丝不挂”,取自“李毅的粉丝”。因著名足球运动员李毅当年的一句无心之言:我的护球像亨利。而亨利在国外被称作亨利大帝。因而李毅从此也被冠上“李毅大帝”的名号。至于最初是谁开始这么叫的,众说纷纭。
8
+
9
+ 而“李毅吧”亦有“百度贴吧卢浮宫”之称,因为很多在网络流传甚广的内涵文都出自“李毅吧”,包括那篇红极一时的《李毅大帝本纪》。而这一次,“屌丝”爆红网络,则是又一次体现出“李毅吧”对网络文化的影响。
10
+ 丑穷无能但善良:“屌丝”代表了最广大年轻人的面貌
11
+ “屌丝”多指年轻男性,他们出身卑微,他们称自己的工作为“搬砖”,他们爱网游、爱贴吧、爱“女神”也爱幻想,却缺乏行动力,想做而不敢做;他们内心虚荣,却又不屑“高富帅”而故作清高;他们自卑、自贱却也自以为是;他们是善良的,他们也是懦弱的。
12
+
13
+ 总之,“屌丝”就是这么一类人,他们身份卑微、生活平庸、未来渺茫、感情空虚,不被社会认同。他们也渴望获得社会的高度认可,但又不知道该怎么去做,生活没有目标,缺乏热情,不满于无聊的生活但又不知道该做点什么。而这样的心态又普遍存在于我们周围,存在于每一个人心中,也就造成了网络上“屌丝”的爆红。
14
+ 在对“女神”的终极竞争面前,“屌丝”的悲苦“高富帅”永远不懂
15
+ “呵呵”一词是“屌丝”心中永远的痛,当他们在网上鼓足勇气和“女神”(女神是“屌丝”对自己心仪女生的专称)搭讪时,却往往只得到“呵呵”,“睡了”,“洗澡去了”这样的回复,这一句“呵呵”甚至成了屌丝身份的判别式。
16
+
17
+ “屌丝”大多出身贫寒之家,没有更多的背景,他们有的很早辍学打工,有的寒窗十二载考上大学,毕业后才发现与理想相去甚远……他们从事着苦与累的工作,拿着并不丰厚甚至是微薄的报酬,在繁华的城市里勉强分得一杯羹。
18
+
19
+ 而与“屌丝”相对的专有词汇则是“高富帅”,它形容男人在身高、财富、相貌上的完美无缺。这样的男人往往会博得众多女性的青睐,在恋爱,婚姻中获得成功。但是对于“屌丝”来说,“高富帅”则是个心酸的词,因为无论外形、财富还是学历,“屌丝”都难望“高富帅”项背。屌丝只能收获“呵呵”,“高富帅”收获“女神”却从来不费工夫。
20
+ “屌丝”称自己的工作为搬砖,他们从事着苦累收入微薄的工作,在繁华的城市里分取一杯羹。
21
+ 屌丝能得到女神的青睐,最后还得依赖电影这门造梦的艺术。
22
+ “屌丝”这个嘲讽意味的代词迅速爆红,迎合了大众的心理和趣味。因为你会发现从表面符合屌丝定义的人,到和屌丝属性八竿子打不着的人,都在争相认领这一名号。当人人都在忙着确认自己的屌丝身份,并乐此不疲时,屌丝一词一定与时代的什么特征实现了合拍。
23
+ “屌丝”不是阿Q,他们公然比惨并乐在其中
24
+ 有评论认为,“屌丝”是新时代的阿Q,两者并不完全相同。首先,阿Q是文学巨匠鲁迅一己之力创造的,而“屌丝”则是网络群体狂欢的结果,它是真正由网民集体创作的形象;另外,阿Q最重要的特征是“精神胜利法”,梦想的是“银盔银甲”,意淫的是“我手持钢鞭将你打”。
25
+
26
+ 而“屌丝”不仅看起来认命了,甚至在大多数时候是在堂而皇之“比惨”,在高富帅面前,他们直说“跪了”,在别人夸耀成就时,他们嬉皮笑脸“求别说”。哪怕是屌丝用于励志的话,也是让人哭笑不得的“屌丝不哭,站起来撸”。
27
+
28
+ 比惨,是一大中国特色。中国人好像历来就都是在苦水中泡大似的,大凡见面就要比惨。几个学生见面,一个说功课累,另一个绝对不会说学习轻松。成人见面,这个说他家的房子天天漏水,那个马上接道他那点儿工资真是不够养家呀。
29
+
30
+ 比惨是一种自我保护的方式。它的心理基础是不患寡而患不均的传统社会认识。人们不仅物质上要追求平均,心理上也是如此,如果不能和人一起富,就希望大家一起穷。凡人遇到伤心之事,这时候有一个人对他或她说,我比你更惨,这样心理也就平衡了,也不那么伤心了。而“屌丝”在网络上的自嘲,则亦有比惨之意,而本质则是一种发泄和寻求心理的慰藉。“屌丝”更似乎是在宣称,反正我就是这么副屌样,再怎么差都无所谓了。
31
+ 现实沉默网上自嘲,“屌丝”是小人物的集体自我认同
32
+ “屌丝”的比惨,就像小人物之间的日常寒暄,“屌丝”已是这个时代小人物的形象代表。
33
+
34
+ 冯小刚的电影里曾经对中国社会的小人物有着经典的诠释:中国的很多小人物的梦想和趣味与他本身的身份有着天壤之别,他们往往身份卑微却又梦想统治世界。因为在这个国家,在长达几十年的时间里,一个普通人想要一举成为一个威震寰宇、万人拥戴的英雄,从来都不会被视为是荒唐变态,而恰恰会被视为一个值得鼓励和学习的有志青年。
35
+
36
+ 然而崇高的理想和残酷的现实之间存在深深的断层,小人物的身份和不切实际的梦想在一个人身上纠结,在个人自由大大获得解放的今天,却又凸显了小人物的迷茫和无助。而正是这种迷茫和无助加速了“屌丝”文化的产生和蔓延。相比较于冯小刚电影里的小人物,“屌丝”拥有相同甚至更加卑微的身份,却未必拥有多么宏大、崇高的理想,他们安于现状却又不满于现实,他们渴望成功,却又无法克服成功路上的种种困难。于是,他们选择了现实中的沉默,网络中的自嘲。
37
+ 群体自嘲是解构现实的武器 也是争取诠释自己生活的权利
38
+ 自嘲是一种调节心理的天平,心理学家认为:“一个人的身体状态是受其心理和精神状态所影响的,大约有一半以上的疾病都是由心理和精神方面引起的。”所以,任何一个在现实生活中并不那么如意的人,对自己进行自嘲都是很正常的,“屌丝”这个词语无疑更是自嘲文化发展到一定程度的产物。
39
+
40
+ 然后,与普通的自嘲不同,“屌丝”的自嘲是一次自发的、群体性的自嘲,如此大规模的自嘲定然是拜网络所赐,而在别人嘲讽自己之前抢先把自己嘲讽完毕,基本上是一种自我保护。究其根本,其实与当年王朔的“我是流氓我怕谁”类似。对方尚未发作,且先笑脸相迎——“我有病,您别跟我一般见识……”
41
+
42
+ 其实,归根结底,“屌丝”文化不过是又一种网络亚文化的崛起,它意味着中国人更多的获得了自己诠释生活的角度与权利。一切政治、经济与社会的话题,在法律允许的范围内都可以纳入自己的价值体系,通过自己的经验与学识,作出自己的判断。他们用一种新的语言方式,结构着完全灌输式的教育与宣传。
43
+
44
+ 解构的这种积极意义还在于,每个公民都有自己观察生活、认识真理的眼睛与心灵,没有谁再可以强加给他们任何他们不再相信的东西。而那些貌似强大的说教,同样失去了动员的能力,反而被人们置之一笑。就如同“屌丝”对待“高富帅”的态度,有嘲讽、有跪拜,但本质上都是一种解构,并且也是网民的一种自娱自乐。
45
+ 网络亚文化需要包容 屌丝们需要的是爱
46
+ “屌丝”爆红,也引来了反弹。有文化学者在微博上批判说,“屌丝文化”是一种对社会拜金风潮的无奈掺杂的产物,亦充满了格调不高的低俗气。
47
+
48
+ 当然,对于这点,网民是不买账的。其实网民只是用于自嘲,不过跟“咆哮体”和“伤不起”是一个性质。动不动上升至道德层面,是小题大做得有点凶猛——作为一种网络亚文化,跟同性恋和朋克摇滚一样不属于主流社会罢了,更远远称不上有害。
49
+
50
+ 一个社会的道德水准和价值观会因为某个网络词语发生了大倒退?那是不是对整个社会太没信心了。当然,“屌丝”文化中不是毫无问题,其中对于女性的态度以及对女性有侮辱的词汇在网络上流行就不妥当。
51
+
52
+ 屌丝亚文化下,看起来嬉皮笑脸满不在乎面孔的背后,其实和这个社会中其他所有人一样,他们所需要的,是爱。
@@ -0,0 +1,158 @@
1
+ require 'rubygems'
2
+ require 'rake'
3
+ require 'rake/testtask'
4
+ require 'test/unit'
5
+ require File.expand_path('../../lib/nlpir.rb', __FILE__)
6
+
7
+ include Nlpir
8
+
9
+ $s = "坚定不移沿着中国特色社会主义道路前进,为全面建成小康社会而奋斗"
10
+ $text = "去年开始,打开百度李毅吧,满屏的帖子大多含有“屌丝”二字,一般网友不仅不懂这词什么意思,更难理解这个词为什么会这么火。然而从下半年开始,“屌丝”已经覆盖网络各个角落,人人争说屌丝,人人争当屌丝。
11
+ 从遭遇恶搞到群体自嘲,“屌丝”名号横空出世“屌丝”一词最早的来源是百度“三巨头吧”对“李毅吧”球迷的恶搞称谓,有嘲讽之意,但却被李毅吧的球迷就此领受下来。“屌丝”二字蕴含着无奈和自嘲的意味,但是李毅吧球迷“不以为耻、反以为荣”,从此以“屌丝”自称,并开始一路爆红网络。"
12
+
13
+ class NlpirTest < Test::Unit::TestCase
14
+ def test_init
15
+ assert_equal NLPIR_TRUE,
16
+ NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
17
+ end
18
+
19
+ def test_exit
20
+ NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
21
+
22
+ assert_equal NLPIR_TRUE,
23
+ NLPIR_Exit()
24
+ end
25
+
26
+ def test_process_paragraph
27
+ NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
28
+
29
+ assert_equal "坚定不移/vl 沿着/p 中国/ns 特色/n 社会主义/n 道路/n 前进/vi ,/wd 为/v 全面/ad 建成/v 小康/n 社会/n 而/cc 奋斗/vi ",
30
+ NLPIR_ParagraphProcess($s).force_encoding('utf-8')
31
+ assert_equal "坚定不移 沿着 中国 特色 社会主义 道路 前进 , 为 全面 建成 小康 社会 而 奋斗 ",
32
+ NLPIR_ParagraphProcess($s,NLPIR_FALSE).force_encoding('utf-8')
33
+
34
+ NLPIR_Exit()
35
+
36
+ end
37
+
38
+ def test_process_paragraph_with_PKU_POS_MAP_SECOND
39
+ NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
40
+
41
+ NLPIR_SetPOSmap(PKU_POS_MAP_FIRST)
42
+ assert_equal "坚定不移/v 沿着/p 中国/n 特色/n 社会主义/n 道路/n 前进/v ,/w 为/v 全面/a 建成/v 小康/n 社会/n 而/c 奋斗/v ",
43
+ NLPIR_ParagraphProcess($s).force_encoding('utf-8')
44
+
45
+ NLPIR_Exit()
46
+
47
+ end
48
+
49
+ def test_process_paragraphA
50
+ NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
51
+
52
+ assert_equal 15,
53
+ NLPIR_ParagraphProcessA($s).size
54
+
55
+ NLPIR_Exit()
56
+ end
57
+
58
+ def test_process_paragraphAW
59
+ NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
60
+
61
+ assert_equal 15,
62
+ NLPIR_ParagraphProcessAW($s).size
63
+
64
+ NLPIR_Exit()
65
+ end
66
+
67
+ def test_userDict
68
+ NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
69
+
70
+ NLPIR_AddUserWord("1989年春夏之交的政治风波 n")
71
+
72
+ s = NLPIR_ParagraphProcess("1989年春夏之交的政治风波1989年政治风波24小时降雪量24小时降雨量863计划ABC防护训练APEC会议BB机BP机C2系统C3I系统C3系统C4ISR系统C4I系统CCITT建议")
73
+ s.force_encoding('utf-8')
74
+ assert_match "1989年春夏之交的政治风波\/n", s
75
+
76
+ NLPIR_DelUsrWord("1989年春夏之交的政治风波")
77
+
78
+ NLPIR_Exit()
79
+ end
80
+
81
+ def test_ImportUserDict
82
+ NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
83
+
84
+ assert_equal 5,
85
+ NLPIR_ImportUserDict("./userdict.txt")
86
+
87
+ s = NLPIR_ParagraphProcess("1989年春夏之交的政治风波1989年政治风波24小时降雪量24小时降雨量863计划ABC防护训练APEC会议BB机BP机C2系统C3I系统C3系统C4ISR系统C4I系统CCITT建议")
88
+ s.force_encoding('utf-8')
89
+ assert_match "C2系统\/n", s
90
+
91
+ NLPIR_Exit()
92
+ end
93
+
94
+ def test_process_file
95
+ NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
96
+
97
+ NLPIR_FileProcess("./test.txt", "./test_result.txt", NLPIR_TRUE)
98
+ assert_equal 18482,
99
+ File.open("./test_result.txt").size
100
+
101
+ NLPIR_Exit()
102
+ end
103
+
104
+ def test_words_count
105
+ NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
106
+
107
+ assert_equal 15,
108
+ NLPIR_GetParagraphProcessAWordCount($s)
109
+
110
+ NLPIR_Exit()
111
+ end
112
+
113
+ def test_GetKeyWords
114
+ NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
115
+
116
+ assert_equal "屌丝/n_new/10.19 球迷/n/2.43 开始/v/1.74 百度/nz/1.73 网络/n/1.39 自嘲/vi/1.39 ",
117
+ NLPIR_GetKeyWords($text, 50,NLPIR_TRUE).force_encoding('utf-8')
118
+
119
+ NLPIR_Exit()
120
+ end
121
+
122
+ def test_GetKeyWords_form_file
123
+ NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
124
+
125
+ assert_equal "屌丝/n_new/15.12 网民/n_new/6.66 解构/n_new/5.27 ",
126
+ NLPIR_GetFileKeyWords("./test.txt",2, NLPIR_TRUE).force_encoding('utf-8')
127
+
128
+ NLPIR_Exit()
129
+ end
130
+
131
+ def test_find_NewWords
132
+ NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
133
+
134
+ assert_equal "屌丝/n_new/10.19 ",
135
+ NLPIR_GetNewWords($text, 50, NLPIR_TRUE).force_encoding('utf-8')
136
+
137
+ NLPIR_Exit()
138
+ end
139
+
140
+ def test_fin_NewWords_from_file
141
+ NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
142
+
143
+ assert_equal "屌丝/n_new/15.12 网民/n_new/6.66 解构/n_new/5.27 阿Q/n_new/4.99 网络亚文化/n_new/4.16 贴吧/n_new/3.33 群体自嘲/n_new/3.33 身份卑微/n_new/3.33 ",
144
+ NLPIR_GetFileNewWords("./test.txt", 50, NLPIR_TRUE).force_encoding('utf-8')
145
+
146
+ NLPIR_Exit()
147
+ end
148
+
149
+ def test_get_finger_print
150
+ NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
151
+
152
+ assert_equal 499666667,
153
+ NLPIR_FingerPrint($text)
154
+
155
+ NLPIR_Exit()
156
+ end
157
+
158
+ end