nlpir 0.0.4-x86-mingw32 → 1.0.0-x86-mingw32
Sign up to get free protection for your applications and to get access to all the features.
- checksums.yaml +4 -4
- data/README.md +146 -8
- data/bin/NLPIR.dll +0 -0
- data/lib/Data/Configure.xml +16 -15
- data/lib/Data/DocExtractor.user +2 -0
- data/lib/Data/English/English.pdat +0 -0
- data/lib/Data/English/English.pos +0 -0
- data/lib/Data/English/English.ung +0 -0
- data/lib/Data/English/English.wordlist +0 -0
- data/lib/Data/English/Irrel2regular.map +0 -0
- data/lib/Data/English/ne.pdat +0 -0
- data/lib/Data/English/ne.pos +0 -0
- data/lib/Data/English/ne.wordlist +0 -0
- data/lib/Data/FTU8.pdat +0 -0
- data/lib/Data/FTU8.wordlist +0 -0
- data/lib/Data/FTU82GBK.map +0 -0
- data/lib/Data/FieldDict.pdat +0 -0
- data/lib/Data/FieldDict.pos +0 -0
- data/lib/Data/GBK2FTU8.map +0 -0
- data/lib/Data/ICTPOS.map +4 -0
- data/lib/Data/NLPIR.user +0 -0
- data/lib/Data/NewWord.lst +18 -15
- data/lib/Data/PKU.map +4 -0
- data/lib/Data/PKU_First.map +4 -0
- data/lib/Data/UserDict.pdat +0 -0
- data/lib/Data/location.map +0 -0
- data/lib/Data/location.pdat +0 -0
- data/lib/Data/location.wordlist +0 -0
- data/lib/Data/sentiment.pdat +0 -0
- data/lib/Data/sentiment.ung +0 -0
- data/lib/nlpir.rb +187 -163
- data/lib/nlpir/version.rb +1 -1
- data/test/Data/Configure.xml +16 -15
- data/test/Data/DocExtractor.user +2 -0
- data/test/Data/English/English.pdat +0 -0
- data/test/Data/English/English.pos +0 -0
- data/test/Data/English/English.ung +0 -0
- data/test/Data/English/English.wordlist +0 -0
- data/test/Data/English/Irrel2regular.map +0 -0
- data/test/Data/English/ne.pdat +0 -0
- data/test/Data/English/ne.pos +0 -0
- data/test/Data/English/ne.wordlist +0 -0
- data/test/Data/FTU8.pdat +0 -0
- data/test/Data/FTU8.wordlist +0 -0
- data/test/Data/FTU82GBK.map +0 -0
- data/test/Data/GBK2FTU8.map +0 -0
- data/test/Data/ICTPOS.map +4 -0
- data/test/Data/NLPIR.user +0 -0
- data/test/Data/NewWord.lst +18 -63
- data/test/Data/PKU.map +4 -0
- data/test/Data/PKU_First.map +4 -0
- data/test/Data/UserDict.pdat +0 -0
- data/test/Data/location.map +0 -0
- data/test/Data/location.pdat +0 -0
- data/test/Data/location.wordlist +0 -0
- data/test/Data/sentiment.pdat +0 -0
- data/test/Data/sentiment.ung +0 -0
- data/test/findnewword.txt +103 -0
- data/test/test_nlpir.rb +137 -140
- data/test/test_result.txt +52 -35
- data/test/userdict.txt +5 -5
- metadata +59 -3
data/lib/nlpir/version.rb
CHANGED
data/test/Data/Configure.xml
CHANGED
@@ -1,15 +1,16 @@
|
|
1
|
-
<?xmlversion="1.0"encoding="GB2312"?>
|
2
|
-
<NLPIR>
|
3
|
-
<TagSet>ICTPOS.map</TagSet>//���Ա�ע��ӳ���ļ�
|
4
|
-
<UserDict>on</UserDict>//On��UserDictionaryapplied;Off:notapplied��
|
5
|
-
<UserDictPrior>
|
6
|
-
<FieldDict>
|
7
|
-
<GranularityContorl>off</GranularityContorl>
|
8
|
-
<Log>
|
9
|
-
<version>2013</version>//ϵͳ�汾��
|
10
|
-
<Modify>2012-11-14</Modify>//ϵͳ�����ʱ��
|
11
|
-
<Lexicon>2012-11-14</Lexicon>//�ʵ������ʱ��
|
12
|
-
<
|
13
|
-
<
|
14
|
-
<
|
15
|
-
</
|
1
|
+
<?xmlversion="1.0"encoding="GB2312"?>
|
2
|
+
<NLPIR>
|
3
|
+
<TagSet>ICTPOS.map</TagSet>//���Ա�ע��ӳ���ļ�
|
4
|
+
<UserDict>on</UserDict>//On��UserDictionaryapplied;Off:notapplied��
|
5
|
+
<UserDictPrior>Off</UserDictPrior>//�û��ʵ�����,Addedin2006-03-16,requiredbyNECOn���û��ʵ�ͺ��Ĵʵ���ͬʱ�еĴʻ㣬�û��ʵ����ȣ������ܲ�Ҫ���ã���������Ĵʵ��еĴʶ�����Ϊ�û��ʵ䣬��Ч���ʵ��䷴
|
6
|
+
<FieldDict>on</FieldDict>//On��FieldDictionaryapplied;Off:notapplied��
|
7
|
+
<GranularityContorl>off</GranularityContorl>
|
8
|
+
<Log>Off</Log>//On,Off�����磺Off:�ر���־���ܣ�On:����־����
|
9
|
+
<version>2013</version>//ϵͳ�汾��
|
10
|
+
<Modify>2012-11-14</Modify>//ϵͳ�����ʱ��
|
11
|
+
<Lexicon>2012-11-14</Lexicon>//�ʵ������ʱ��
|
12
|
+
<Sentiment>On</Sentiment>//On,Off�����磺Off:�ر���з������ܣ�On:����з�������
|
13
|
+
<adaptive>true</adaptive>//����Ӧ�ִʣ�Ĭ��Ϊfalse������Ӧ�ִʵ�Ч�ʻ�ϵ�
|
14
|
+
<author>�Ż�ƽ��ʿ</author>//����
|
15
|
+
<Contact>pipy_zhang@msn.com</Contact>//������ϵ��ʽ
|
16
|
+
</NLPIR>
|
@@ -0,0 +1,2 @@
|
|
1
|
+
���ť��ݸܸ��������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�ábQBw6u|V
|
2
|
+
-rt�����������I+g���蟋�����'"&t#''������̣ռ�܃�����רע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ���������˛��̷���ޜ��̍�Ӟ�����������ā���و����ҁ��䂜�˃�������ᔆ���Oww.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��עЮ������. /=-++<���ɩв�ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿ����������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����Fww.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������ϓ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ����������������順�ӧ����������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ�������Ϣ��������Ϣ��ȫ���������������ھ��ѧ���������ҵӦ�á�������Դ��ӭ����www.nlpir.org.��ע������@ICTCLAS�Ż�ƽ��ʿ�Ż�ƽ��ʿרע�������㡢��Ȼ���Դ���
|
Binary file
|
Binary file
|
Binary file
|
Binary file
|
Binary file
|
Binary file
|
Binary file
|
Binary file
|
data/test/Data/FTU8.pdat
ADDED
Binary file
|
Binary file
|
Binary file
|
Binary file
|
data/test/Data/ICTPOS.map
CHANGED
data/test/Data/NLPIR.user
CHANGED
Binary file
|
data/test/Data/NewWord.lst
CHANGED
@@ -1,73 +1,28 @@
|
|
1
|
+
|
1
2
|
��˿ ���� � ��Q �������Ļ� ���� Ⱥ���Գ� ���ݱ�
|
3
|
+
����ɽ �ΰ������� ���������� �������� ��Ʒ���� ��������
|
4
|
+
�й���ɫ������� ������������ ��ѧ��չ�� ��̬���� ��ṫƽ���� �������� �л�����ΰ���� ���幦���� �����ռ俪�� ��������� ���緢չһ�廯 С����� �������� ��������Ļ�ǿ�� ��ҵ��λ ���� ����ѡ�� �������� ���� ��������г��������� ��������� �������� ȫ������ ��Ҫս�Ի��� ȡ���ش��չ ��̬ϵͳ �Ȳ��ƽ� ���� �ӿ�ת�� ���ʽ���Σ�� ���¶����� ������������ ��������Ƚ��Ļ� ũҵ�ۺ��������� ʳƷҩƷ��ȫ ��۵�����ϵ ����ͬԸ�� �������� ˾������ �������ϱ��� ȫ���л���Ů ս�������˲�ҵ ����Ϸ�Ȩ�� ȫ������ͬ ������������ ��ǰ����ƽ�� �Ļ���ʵ�� ��֤�������� ��������ϵ ȫ��ҽ�� ����ֿ� ����������չ �����Ч �����ƶȸĸ� �������� ����δ�� ʵ�徭�� ��ѧ��ˮƽ ���㵳�� ���Ȼ� ȫ�潨��С����� �������� ��ʳ��ȫ ����ʵ�� ����ɲ� �������� �������� ���ر��� ����ڵ� ��ѧ�ش� �������� ���������� ��������� ��ȫ��в ��������� �����Ļ� ������� ����Ӱ���� �Ծ����� �Ͷ����� �ִ�����ҵ �������� ���˹�ͬ�� ��ʵ�ƽ� �Ҹ����� ���ļ�ֵ�� ���η��� ����������� ������ ƽ�Ȼ��� ������ҡ��� ����� ��Ҫս�Ի����� ת�侭�÷�չ��ʽ �ӿ�ת�侭�÷�չ��ʽ ���������ļ�ֵ��ϵ ����ȡ���ش��չ ʵ���л�����ΰ���� �����ں�ʽ��չ ��������������Ȼ� �ĸ↑�� ά����ṫƽ����
|
2
5
|
��˿ ���� � ��Q �������Ļ� ���� Ⱥ���Գ� ���ݱ�
|
6
|
+
��˿ ���� � ��˿�Ļ� ��Q �������Ļ� Ⱥ���Գ� ���ݱ� ��˧
|
7
|
+
��˿#����#�#��˿�Ļ�#��Q#�������Ļ�#Ⱥ���Գ�#���ݱ�#��˧#
|
3
8
|
|
4
9
|
|
5
10
|
|
6
11
|
|
7
12
|
|
8
13
|
|
14
|
+
������������#��Ӫ�Թ�Ĺ#�������Թ�Ĺ#�����������#�������#�����Թ�Ĺ����#��������#�����Թ�Ĺ#���й�Ĺ#��������г�#������������#������������#���ᱩ��#�����г�#��������#������Ĺ#��չˮƽ#�����ƶ�#������ҵ#�ʽ�Ͷ��#������������#���ڱ���#������#�ؼ�����#��Ĺ�۸�#�������#���Ƿ���#����Ĺ��#���ⲹ��#ɥ����Ʒ#������Ʒ#�ǻҼĴ�#�������Թ�Ĺ����#
|
15
|
+
������������#��Ӫ�Թ�Ĺ#�������Թ�Ĺ#�����������#�������#�����Թ�Ĺ����#��������#�����Թ�Ĺ#���й�Ĺ#��������г�#������������#������������#���ᱩ��#�����г�#��������#������Ĺ#��չˮƽ#�����ƶ�#������ҵ#�ʽ�Ͷ��#������������#���ڱ���#������#�ؼ�����#��Ĺ�۸�#�������#���Ƿ���#����Ĺ��#���ⲹ��#ɥ����Ʒ#������Ʒ#�ǻҼĴ�#�������Թ�Ĺ����#
|
9
16
|
|
10
17
|
|
11
|
-
|
12
|
-
|
13
|
-
|
14
|
-
|
15
|
-
|
16
|
-
|
17
|
-
|
18
|
-
|
19
|
-
|
20
|
-
|
21
|
-
|
22
|
-
|
23
|
-
|
24
|
-
|
25
|
-
|
26
|
-
|
27
|
-
屌丝/n_new/10.19
|
28
|
-
屌丝/n_new/10.19
|
29
|
-
屌丝/n_new/10.19
|
30
|
-
屌丝/n_new/10.19
|
31
|
-
屌丝/n_new/10.19
|
32
|
-
屌丝/n_new/10.19
|
33
|
-
屌丝/n_new/10.19
|
34
|
-
屌丝/n_new/10.19
|
35
|
-
屌丝/n_new/10.19
|
36
|
-
屌丝/n_new/10.19
|
37
|
-
屌丝/n_new/10.19
|
38
|
-
屌丝/n_new/10.19
|
39
|
-
屌丝/n_new/10.19
|
40
|
-
屌丝/n_new/10.19
|
41
|
-
屌丝/n_new/10.19
|
42
|
-
屌丝/n_new/10.19
|
43
|
-
屌丝/n_new/10.19
|
44
|
-
屌丝/n_new/10.19
|
45
|
-
屌丝/n_new/10.19
|
46
|
-
屌丝/n_new/10.19
|
47
|
-
屌丝/n_new/10.19
|
48
|
-
屌丝/n_new/10.19
|
49
|
-
屌丝/n_new/10.19
|
50
|
-
屌丝/n_new/10.19
|
51
|
-
屌丝/n_new/10.19
|
52
|
-
屌丝/n_new/10.19
|
53
|
-
屌丝/n_new/10.19
|
54
|
-
屌丝/n_new/10.19
|
55
|
-
屌丝/n_new/10.19
|
56
|
-
屌丝/n_new/10.19
|
57
|
-
屌丝/n_new/10.19
|
58
|
-
屌丝/n_new/10.19
|
59
|
-
屌丝/n_new/10.19
|
60
|
-
屌丝/n_new/10.19
|
61
|
-
屌丝/n_new/10.19
|
62
|
-
屌丝/n_new/10.19
|
63
|
-
屌丝/n_new/10.19
|
64
|
-
屌丝/n_new/10.19
|
65
|
-
屌丝/n_new/10.19
|
66
|
-
屌丝/n_new/10.19
|
67
|
-
屌丝/n_new/10.19
|
68
|
-
屌丝/n_new/10.19
|
69
|
-
屌丝/n_new/10.19
|
70
|
-
屌丝/n_new/10.19
|
71
|
-
屌丝/n_new/10.19
|
72
|
-
屌丝/n_new/10.19
|
73
|
-
屌丝/n_new/10.19
|
18
|
+
��˿#����#�#��˿�Ļ�#��Q#�������Ļ�#Ⱥ���Գ�#���ݱ�#
|
19
|
+
������������#��Ӫ�Թ�Ĺ#�������Թ�Ĺ#�����������#�������#�����Թ�Ĺ����#��������#�����Թ�Ĺ#���й�Ĺ#��������г�#������������#������������#���ᱩ��#�����г�#��������#������Ĺ#��չˮƽ#�����ƶ�#������ҵ#�ʽ�Ͷ��#������������#���ڱ���#������#�ؼ�����#��Ĺ�۸�#�������#���Ƿ���#����Ĺ��#���ⲹ��#ɥ����Ʒ#������Ʒ#�ǻҼĴ�#�������Թ�Ĺ����#
|
20
|
+
��˿#����#�#��˿�Ļ�#��Q#�������Ļ�#Ⱥ���Գ�#���ݱ�#
|
21
|
+
������������#��Ӫ�Թ�Ĺ#�������Թ�Ĺ#�����������#�������#�����Թ�Ĺ����#��������#�����Թ�Ĺ#���й�Ĺ#��������г�#������������#������������#���ᱩ��#�����г�#��������#������Ĺ#��չˮƽ#�����ƶ�#������ҵ#�ʽ�Ͷ��#������������#���ڱ���#������#�ؼ�����#��Ĺ�۸�#�������#���Ƿ���#����Ĺ��#���ⲹ��#ɥ����Ʒ#������Ʒ#�ǻҼĴ�#�������Թ�Ĺ����#
|
22
|
+
��˿#����#�#��˿�Ļ�#��Q#�������Ļ�#Ⱥ���Գ�#���ݱ�#
|
23
|
+
������������#��Ӫ�Թ�Ĺ#�������Թ�Ĺ#�����������#�������#�����Թ�Ĺ����#��������#�����Թ�Ĺ#���й�Ĺ#��������г�#������������#������������#���ᱩ��#�����г�#��������#������Ĺ#��չˮƽ#�����ƶ�#������ҵ#�ʽ�Ͷ��#������������#���ڱ���#������#�ؼ�����#��Ĺ�۸�#�������#���Ƿ���#����Ĺ��#���ⲹ��#ɥ����Ʒ#������Ʒ#�ǻҼĴ�#�������Թ�Ĺ����#
|
24
|
+
������������#��Ӫ�Թ�Ĺ#�������Թ�Ĺ#�����������#�������#�����Թ�Ĺ����#��������#�����Թ�Ĺ#���й�Ĺ#��������г�#������������#������������#���ᱩ��#�����г�#��������#������Ĺ#��չˮƽ#�����ƶ�#������ҵ#�ʽ�Ͷ��#������������#���ڱ���#������#�ؼ�����#��Ĺ�۸�#�������#���Ƿ���#����Ĺ��#���ⲹ��#ɥ����Ʒ#������Ʒ#�ǻҼĴ�#�������Թ�Ĺ����#
|
25
|
+
������������#��Ӫ�Թ�Ĺ#�������Թ�Ĺ#�����������#�������#�����Թ�Ĺ����#��������#�����Թ�Ĺ#���й�Ĺ#��������г�#������������#������������#���ᱩ��#�����г�#��������#������Ĺ#��չˮƽ#�����ƶ�#������ҵ#�ʽ�Ͷ��#������������#���ڱ���#������#�ؼ�����#��Ĺ�۸�#�������#���Ƿ���#����Ĺ��#���ⲹ��#ɥ����Ʒ#������Ʒ#�ǻҼĴ�#�������Թ�Ĺ����#
|
26
|
+
������������#��Ӫ�Թ�Ĺ#�������Թ�Ĺ#�����������#�������#�����Թ�Ĺ����#��������#�����Թ�Ĺ#���й�Ĺ#��������г�#������������#������������#���ᱩ��#�����г�#��������#������Ĺ#��չˮƽ#�����ƶ�#������ҵ#�ʽ�Ͷ��#������������#���ڱ���#������#�ؼ�����#��Ĺ�۸�#�������#���Ƿ���#����Ĺ��#���ⲹ��#ɥ����Ʒ#������Ʒ#�ǻҼĴ�#�������Թ�Ĺ����#
|
27
|
+
��˿#����#�#��˿�Ļ�#��Q#�������Ļ�#Ⱥ���Գ�#���ݱ�#
|
28
|
+
��˿#����#�#��˿�Ļ�#��Q#�������Ļ�#Ⱥ���Գ�#���ݱ�#
|
data/test/Data/PKU.map
CHANGED
data/test/Data/PKU_First.map
CHANGED
data/test/Data/UserDict.pdat
CHANGED
Binary file
|
Binary file
|
Binary file
|
Binary file
|
Binary file
|
Binary file
|
@@ -0,0 +1,103 @@
|
|
1
|
+
分享日志热门日志 淋语教学大纲【不学就会被吸惹】
|
2
|
+
分享
|
3
|
+
淋语教学大纲【不学就会被吸惹】
|
4
|
+
来源: 电阴农妇泰勒十万伏特的日志
|
5
|
+
前言:
|
6
|
+
|
7
|
+
淋语(Linglish),是冥王星的官方语言,是宇宙天后淋淋(蔡依林)的专用语言,在地球上约有130亿人使用。学好淋语很重要,欢迎购买《淋语教学大纲》!让我们一起学习淋语吧!
|
8
|
+
|
9
|
+
|
10
|
+
|
11
|
+
必会淋词篇:
|
12
|
+
|
13
|
+
1.淋淋/00/蔡10/地才/蓝吊带:指蔡依林(Jolin Tsai)。
|
14
|
+
|
15
|
+
2.宇宙天后:指淋淋。
|
16
|
+
|
17
|
+
3.公主:指淋淋。
|
18
|
+
|
19
|
+
4.三木木:指淋淋
|
20
|
+
|
21
|
+
5.骑士:指淋淋的粉丝
|
22
|
+
|
23
|
+
6.淋B/淋逼/013/淋13:指淋淋的阴部,一个光明温暖的地方。
|
24
|
+
|
25
|
+
7.吸/被吸/开吸/吸入/进b:淋B会吸入宇宙万物,小心哦。
|
26
|
+
|
27
|
+
|
28
|
+
|
29
|
+
语气助词篇:
|
30
|
+
|
31
|
+
1.噜
|
32
|
+
|
33
|
+
a.语气助词,一般意为“了”,常用于肯定句句末,用于陈述事实。
|
34
|
+
|
35
|
+
例:①天亮噜。②淋淋要发新专辑噜。
|
36
|
+
|
37
|
+
b.固定短语“天了噜”,表示惊讶。
|
38
|
+
|
39
|
+
例:天了噜,嘎老逼被吸噜。
|
40
|
+
|
41
|
+
|
42
|
+
|
43
|
+
2.惹
|
44
|
+
|
45
|
+
a.语气助词,带有傲娇语气,多数情况下可与“噜”换用,陈述某种事实。
|
46
|
+
|
47
|
+
例:①我可是直男惹。②我可是万年骄傲受惹。③淋淋会吸人的惹。
|
48
|
+
|
49
|
+
b.叹词,用于陈述句或疑问句句首,也可以单独使用,表示惊讶。
|
50
|
+
|
51
|
+
例:①惹!酵母新单居然上榜!②惹?酵母代言的冰红茶这么好卖?③惹!
|
52
|
+
|
53
|
+
|
54
|
+
|
55
|
+
3.奴
|
56
|
+
|
57
|
+
a.语气助词,多用于肯定句句末,带有较强的感情色彩,一般情况下可与“噜”互换。在表达强烈的兴奋、悲伤的语气时,“奴”为专用助词。
|
58
|
+
|
59
|
+
例:①真是气cry我奴!②嘎老逼还有130年就发新专辑,珍是开熏死了奴!
|
60
|
+
|
61
|
+
|
62
|
+
|
63
|
+
4.厚
|
64
|
+
|
65
|
+
a.叹词,多用于句首,带有较强的感情色彩。和“奴”相比,“厚”多用于抒发兴奋、激动等较为正面的情绪。
|
66
|
+
|
67
|
+
例:①厚!霉霉又有写歌灵感噜!②厚!擦妈瘦噜!
|
68
|
+
|
69
|
+
b.固定短语“厚厚厚”,表达激动、兴奋,用于句首。
|
70
|
+
|
71
|
+
例:厚厚厚,我要被吸噜!
|
72
|
+
|
73
|
+
|
74
|
+
|
75
|
+
5.轰
|
76
|
+
|
77
|
+
a.语气助词,多用于疑问句、反问句句末。
|
78
|
+
|
79
|
+
例:①新专辑MUSE好听轰?②难道你不想被吸轰?
|
80
|
+
|
81
|
+
b.相当于东北话的“嚎”,表达赞叹、同意。
|
82
|
+
|
83
|
+
例:①没错轰。②也是轰。③太好了轰。
|
84
|
+
|
85
|
+
c.通假字,通“疯”。
|
86
|
+
|
87
|
+
例:①你这个轰子。②你轰了吗?
|
88
|
+
|
89
|
+
|
90
|
+
|
91
|
+
6.嘻嘻/吸吸
|
92
|
+
|
93
|
+
a.语气词,多用于恐吓、威胁时的冷笑。
|
94
|
+
|
95
|
+
例:①嘻嘻,你要被吸噜!②吸吸,开!
|
96
|
+
|
97
|
+
|
98
|
+
|
99
|
+
7.揪咪
|
100
|
+
|
101
|
+
a.语气词,装可爱专用。
|
102
|
+
|
103
|
+
例:揪咪!小灰灰珍可爱惹!
|
data/test/test_nlpir.rb
CHANGED
@@ -9,150 +9,147 @@ include Nlpir
|
|
9
9
|
$s = "坚定不移沿着中国特色社会主义道路前进,为全面建成小康社会而奋斗"
|
10
10
|
$text = "去年开始,打开百度李毅吧,满屏的帖子大多含有“屌丝”二字,一般网友不仅不懂这词什么意思,更难理解这个词为什么会这么火。然而从下半年开始,“屌丝”已经覆盖网络各个角落,人人争说屌丝,人人争当屌丝。
|
11
11
|
从遭遇恶搞到群体自嘲,“屌丝”名号横空出世“屌丝”一词最早的来源是百度“三巨头吧”对“李毅吧”球迷的恶搞称谓,有嘲讽之意,但却被李毅吧的球迷就此领受下来。“屌丝”二字蕴含着无奈和自嘲的意味,但是李毅吧球迷“不以为耻、反以为荣”,从此以“屌丝”自称,并开始一路爆红网络。"
|
12
|
+
$text2 = "淋语(linguage),简称淋语、淋文,是一种主要为淋王星所使用的语言,是淋王星的官方语言。淋语属于黏着语、通过在词语上粘贴语法成分来构成句子,称为活用,其间的结合并不紧密、不改变原来词汇的含义只表语法功能。淋语博大精深自宇宙大爆炸以来已有数亿人民使用自成一个体系。"
|
12
13
|
|
13
14
|
class NlpirTest < Test::Unit::TestCase
|
14
|
-
def test_init
|
15
|
-
assert_equal NLPIR_TRUE,
|
16
|
-
NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
|
17
|
-
end
|
18
|
-
|
19
|
-
def test_exit
|
20
|
-
NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
|
21
|
-
|
22
|
-
assert_equal NLPIR_TRUE,
|
23
|
-
NLPIR_Exit()
|
24
|
-
end
|
25
15
|
|
26
|
-
def
|
27
|
-
|
28
|
-
|
29
|
-
|
30
|
-
|
31
|
-
|
32
|
-
|
33
|
-
|
34
|
-
|
35
|
-
|
36
|
-
|
37
|
-
|
38
|
-
|
39
|
-
|
40
|
-
|
41
|
-
|
42
|
-
|
43
|
-
|
44
|
-
|
45
|
-
|
46
|
-
|
47
|
-
|
48
|
-
|
49
|
-
|
50
|
-
|
51
|
-
|
52
|
-
|
53
|
-
|
54
|
-
|
55
|
-
|
56
|
-
|
57
|
-
|
58
|
-
|
59
|
-
|
60
|
-
|
61
|
-
|
62
|
-
|
63
|
-
|
64
|
-
|
65
|
-
|
16
|
+
def test_process_alias
|
17
|
+
nlpir_init(File.expand_path("../", __FILE__), UTF8_CODE)
|
18
|
+
|
19
|
+
assert_equal "坚定不移/vl 沿着/p 中国/ns 特色/n 社会主义/n 道路/n 前进/vi ,/wd 为/v 全面/ad 建成/v 小康/n 社会/n 而/cc 奋斗/vi ",
|
20
|
+
text_proc($s)
|
21
|
+
assert_equal "坚定不移 沿着 中国 特色 社会主义 道路 前进 , 为 全面 建成 小康 社会 而 奋斗 ",
|
22
|
+
text_proc($s,NLPIR_FALSE)
|
23
|
+
|
24
|
+
setPOSmap(PKU_POS_MAP_FIRST)
|
25
|
+
assert_equal "坚定不移/v 沿着/p 中国/n 特色/n 社会主义/n 道路/n 前进/v ,/w 为/v 全面/a 建成/v 小康/n 社会/n 而/c 奋斗/v ",
|
26
|
+
text_proc($s)
|
27
|
+
|
28
|
+
assert_equal 15,
|
29
|
+
text_procA($s).size
|
30
|
+
assert_equal 15,
|
31
|
+
text_procAW($s).size
|
32
|
+
|
33
|
+
result=""
|
34
|
+
words_list = text_procA($s)
|
35
|
+
i=1
|
36
|
+
words_list.each do |a|
|
37
|
+
sWhichDic=""
|
38
|
+
case a.word_type
|
39
|
+
when 0
|
40
|
+
sWhichDic = "核心词典"
|
41
|
+
when 1
|
42
|
+
sWhichDic = "用户词典"
|
43
|
+
when 2
|
44
|
+
sWhichDic = "专业词典"
|
45
|
+
end
|
46
|
+
result << "No.#{i}:start:#{a.start}, length:#{a.length}, POS_ID:#{a.sPOS},word_ID:#{a.word_ID},word_type:#{a.word_type} , UserDefine:#{sWhichDic}, Word:#{$s.byteslice(a.start,a.length)}, Weight:#{a.weight}\n"
|
47
|
+
i += 1
|
48
|
+
end
|
49
|
+
assert_equal "No.1:start:0, length:12, POS_ID:[118, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:17262,word_type:0 , UserDefine:核心词典, Word:坚定不移, Weight:10520\nNo.2:start:12, length:6, POS_ID:[112, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:28059,word_type:0 , UserDefine:核心词典, Word:沿着, Weight:10798\nNo.3:start:18, length:6, POS_ID:[110, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:32696,word_type:0 , UserDefine:核心词典, Word:中国, Weight:6097\nNo.4:start:24, length:6, POS_ID:[110, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:12288,word_type:0 , UserDefine:核心词典, Word:特色, Weight:8469\nNo.5:start:30, length:12, POS_ID:[110, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:48646,word_type:0 , UserDefine:核心词典, Word:社会主义, Weight:7442\nNo.6:start:42, length:6, POS_ID:[110, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:75518,word_type:0 , UserDefine:核心词典, Word:道路, Weight:8859\nNo.7:start:48, length:6, POS_ID:[118, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:35004,word_type:0 , UserDefine:核心词典, Word:前进, Weight:9350\nNo.8:start:54, length:1, POS_ID:[119, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:49,word_type:0 , UserDefine:核心词典, Word:,, Weight:2703\nNo.9:start:55, length:3, POS_ID:[118, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:66615,word_type:0 , UserDefine:核心词典, Word:为, Weight:5539\nNo.10:start:58, length:6, POS_ID:[97, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:40698,word_type:0 , UserDefine:核心词典, Word:全面, Weight:7844\nNo.11:start:64, length:6, POS_ID:[118, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:84698,word_type:0 , UserDefine:核心词典, Word:建成, Weight:9027\nNo.12:start:70, length:6, POS_ID:[110, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:81502,word_type:0 , UserDefine:核心词典, Word:小康, Weight:10000\nNo.13:start:76, length:6, POS_ID:[110, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:48622,word_type:0 , UserDefine:核心词典, Word:社会, Weight:6646\nNo.14:start:82, length:3, POS_ID:[99, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:32081,word_type:0 , UserDefine:核心词典, Word:而, Weight:6610\nNo.15:start:85, length:6, POS_ID:[118, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:27256,word_type:0 , UserDefine:核心词典, Word:奋斗, Weight:9364\n",
|
50
|
+
result
|
51
|
+
|
52
|
+
add_userword("1989年春夏之交的政治风波 n")
|
53
|
+
assert_equal "1989年春夏之交的政治风波/n 1989年政治风波/n 24小时降雪量/n 24/m 小时/q 降雨量/n 863/m 计划/n ABC/n 防护/v 训练/v APEC/n 会议/n BB/n 机/n BP机/n C2系统/n C3I/n 系统/n C3/n 系统/n C4ISR/n 系统/n C4I/n 系统/n CCITT/n 建议/n ",
|
54
|
+
text_proc("1989年春夏之交的政治风波1989年政治风波24小时降雪量24小时降雨量863计划ABC防护训练APEC会议BB机BP机C2系统C3I系统C3系统C4ISR系统C4I系统CCITT建议")
|
55
|
+
del_userword("1989年春夏之交的政治风波")
|
56
|
+
|
57
|
+
assert_equal 5,
|
58
|
+
import_userdict("./userdict.txt")
|
59
|
+
save_userdict()
|
60
|
+
assert_equal "1989年春夏之交的政治风波/n 1989年政治风波/n 24小时降雪量/n 24/m 小时/q 降雨量/n 863/m 计划/n ABC/n 防护/v 训练/v APEC/n 会议/n BB/n 机/n BP机/n C2系统/n C3I/n 系统/n C3/n 系统/n C4ISR/n 系统/n C4I/n 系统/n CCITT/n 建议/n ",
|
61
|
+
text_proc("1989年春夏之交的政治风波1989年政治风波24小时降雪量24小时降雨量863计划ABC防护训练APEC会议BB机BP机C2系统C3I系统C3系统C4ISR系统C4I系统CCITT建议")
|
62
|
+
|
63
|
+
file_proc("./test.txt", "./test_result.txt", NLPIR_TRUE)
|
64
|
+
assert_equal 17036,
|
65
|
+
File.open("./test_result.txt").size
|
66
|
+
|
67
|
+
assert_equal 15,
|
68
|
+
text_wordcount($s)
|
69
|
+
|
70
|
+
assert_equal "李毅/n/4.57#球迷/n/2.20#屌丝/n_newword/1.77#开始/v/1.74#百度/n/1.39#",
|
71
|
+
text_keywords($text, 50,NLPIR_TRUE)
|
72
|
+
assert_equal "李毅/n/8.90#社会/n/4.06#",
|
73
|
+
file_keywords("./test.txt",2, NLPIR_TRUE)
|
74
|
+
|
75
|
+
assert_equal "淋语/n_new/4.99#",
|
76
|
+
text_newwords($text2, 50, NLPIR_TRUE)
|
77
|
+
assert_equal "淋语/n_new/5.96#指淋淋/n_new/5.60#",
|
78
|
+
file_newwords("./findnewword.txt", 50, NLPIR_TRUE)
|
79
|
+
|
80
|
+
assert_equal 1644572591,
|
81
|
+
text_fingerprint($text)
|
82
|
+
nlpir_exit()
|
66
83
|
|
67
|
-
def test_userDict
|
68
|
-
NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
|
69
|
-
|
70
|
-
NLPIR_AddUserWord("1989年春夏之交的政治风波 n")
|
71
|
-
|
72
|
-
s = NLPIR_ParagraphProcess("1989年春夏之交的政治风波1989年政治风波24小时降雪量24小时降雨量863计划ABC防护训练APEC会议BB机BP机C2系统C3I系统C3系统C4ISR系统C4I系统CCITT建议")
|
73
|
-
s.force_encoding('utf-8')
|
74
|
-
assert_match "1989年春夏之交的政治风波\/n", s
|
75
|
-
|
76
|
-
NLPIR_DelUsrWord("1989年春夏之交的政治风波")
|
77
|
-
|
78
|
-
NLPIR_Exit()
|
79
|
-
end
|
80
|
-
|
81
|
-
def test_ImportUserDict
|
82
|
-
NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
|
83
|
-
|
84
|
-
assert_equal 5,
|
85
|
-
NLPIR_ImportUserDict("./userdict.txt")
|
86
|
-
|
87
|
-
s = NLPIR_ParagraphProcess("1989年春夏之交的政治风波1989年政治风波24小时降雪量24小时降雨量863计划ABC防护训练APEC会议BB机BP机C2系统C3I系统C3系统C4ISR系统C4I系统CCITT建议")
|
88
|
-
s.force_encoding('utf-8')
|
89
|
-
assert_match "C2系统\/n", s
|
90
|
-
|
91
|
-
NLPIR_Exit()
|
92
|
-
end
|
93
|
-
|
94
|
-
def test_process_file
|
95
|
-
NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
|
96
|
-
|
97
|
-
NLPIR_FileProcess("./test.txt", "./test_result.txt", NLPIR_TRUE)
|
98
|
-
assert_equal 18482,
|
99
|
-
File.open("./test_result.txt").size
|
100
|
-
|
101
|
-
NLPIR_Exit()
|
102
|
-
end
|
103
|
-
|
104
|
-
def test_words_count
|
105
|
-
NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
|
106
|
-
|
107
|
-
assert_equal 15,
|
108
|
-
NLPIR_GetParagraphProcessAWordCount($s)
|
109
|
-
|
110
|
-
NLPIR_Exit()
|
111
|
-
end
|
112
|
-
|
113
|
-
def test_GetKeyWords
|
114
|
-
NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
|
115
|
-
|
116
|
-
assert_equal "屌丝/n_new/10.19 球迷/n/2.43 开始/v/1.74 百度/nz/1.73 网络/n/1.39 自嘲/vi/1.39 ",
|
117
|
-
NLPIR_GetKeyWords($text, 50,NLPIR_TRUE).force_encoding('utf-8')
|
118
|
-
|
119
|
-
NLPIR_Exit()
|
120
|
-
end
|
121
|
-
|
122
|
-
def test_GetKeyWords_form_file
|
123
|
-
NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
|
124
|
-
|
125
|
-
assert_equal "屌丝/n_new/15.12 网民/n_new/6.66 解构/n_new/5.27 ",
|
126
|
-
NLPIR_GetFileKeyWords("./test.txt",2, NLPIR_TRUE).force_encoding('utf-8')
|
127
|
-
|
128
|
-
NLPIR_Exit()
|
129
|
-
end
|
130
|
-
|
131
|
-
def test_find_NewWords
|
132
|
-
NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
|
133
|
-
|
134
|
-
assert_equal "屌丝/n_new/10.19 ",
|
135
|
-
NLPIR_GetNewWords($text, 50, NLPIR_TRUE).force_encoding('utf-8')
|
136
|
-
|
137
|
-
NLPIR_Exit()
|
138
|
-
end
|
139
|
-
|
140
|
-
def test_fin_NewWords_from_file
|
141
|
-
NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
|
142
|
-
|
143
|
-
assert_equal "屌丝/n_new/15.12 网民/n_new/6.66 解构/n_new/5.27 阿Q/n_new/4.99 网络亚文化/n_new/4.16 贴吧/n_new/3.33 群体自嘲/n_new/3.33 身份卑微/n_new/3.33 ",
|
144
|
-
NLPIR_GetFileNewWords("./test.txt", 50, NLPIR_TRUE).force_encoding('utf-8')
|
145
|
-
|
146
|
-
NLPIR_Exit()
|
147
|
-
end
|
148
|
-
|
149
|
-
def test_get_finger_print
|
150
|
-
NLPIR_Init(nil, UTF8_CODE ,File.expand_path("../", __FILE__))
|
151
|
-
|
152
|
-
assert_equal 499666667,
|
153
|
-
NLPIR_FingerPrint($text)
|
154
|
-
|
155
|
-
NLPIR_Exit()
|
156
84
|
end
|
157
85
|
|
86
|
+
# def test_process_origin
|
87
|
+
# NLPIR_Init(File.expand_path("../", __FILE__), UTF8_CODE)
|
88
|
+
# setPOSmap(ICT_POS_MAP_SECOND)
|
89
|
+
# assert_equal "坚定不移/vl 沿着/p 中国/ns 特色/n 社会主义/n 道路/n 前进/vi ,/wd 为/v 全面/ad 建成/v 小康/n 社会/n 而/cc 奋斗/vi ",
|
90
|
+
# NLPIR_ParagraphProcess($s)
|
91
|
+
# assert_equal "坚定不移 沿着 中国 特色 社会主义 道路 前进 , 为 全面 建成 小康 社会 而 奋斗 ",
|
92
|
+
# NLPIR_ParagraphProcess($s,NLPIR_FALSE)
|
93
|
+
|
94
|
+
# NLPIR_SetPOSmap(PKU_POS_MAP_FIRST)
|
95
|
+
# assert_equal "坚定不移/v 沿着/p 中国/n 特色/n 社会主义/n 道路/n 前进/v ,/w 为/v 全面/a 建成/v 小康/n 社会/n 而/c 奋斗/v ",
|
96
|
+
# NLPIR_ParagraphProcess($s)
|
97
|
+
|
98
|
+
# assert_equal 15,
|
99
|
+
# NLPIR_ParagraphProcessA($s).size
|
100
|
+
# assert_equal 15,
|
101
|
+
# NLPIR_ParagraphProcessAW($s).size
|
102
|
+
|
103
|
+
# result=""
|
104
|
+
# words_list = NLPIR_ParagraphProcessA($s)
|
105
|
+
# i=1
|
106
|
+
# words_list.each do |a|
|
107
|
+
# sWhichDic=""
|
108
|
+
# case a.word_type
|
109
|
+
# when 0
|
110
|
+
# sWhichDic = "核心词典"
|
111
|
+
# when 1
|
112
|
+
# sWhichDic = "用户词典"
|
113
|
+
# when 2
|
114
|
+
# sWhichDic = "专业词典"
|
115
|
+
# end
|
116
|
+
# result << "No.#{i}:start:#{a.start}, length:#{a.length}, POS_ID:#{a.sPOS},word_ID:#{a.word_ID},word_type:#{a.word_type} , UserDefine:#{sWhichDic}, Word:#{$s.byteslice(a.start,a.length)}, Weight:#{a.weight}\n"
|
117
|
+
# i += 1
|
118
|
+
# end
|
119
|
+
# assert_equal "No.1:start:0, length:12, POS_ID:[118, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:17262,word_type:0 , UserDefine:核心词典, Word:坚定不移, Weight:10520\nNo.2:start:12, length:6, POS_ID:[112, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:28059,word_type:0 , UserDefine:核心词典, Word:沿着, Weight:10798\nNo.3:start:18, length:6, POS_ID:[110, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:32696,word_type:0 , UserDefine:核心词典, Word:中国, Weight:6097\nNo.4:start:24, length:6, POS_ID:[110, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:12288,word_type:0 , UserDefine:核心词典, Word:特色, Weight:8469\nNo.5:start:30, length:12, POS_ID:[110, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:48646,word_type:0 , UserDefine:核心词典, Word:社会主义, Weight:7442\nNo.6:start:42, length:6, POS_ID:[110, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:75518,word_type:0 , UserDefine:核心词典, Word:道路, Weight:8859\nNo.7:start:48, length:6, POS_ID:[118, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:35004,word_type:0 , UserDefine:核心词典, Word:前进, Weight:9350\nNo.8:start:54, length:1, POS_ID:[119, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:49,word_type:0 , UserDefine:核心词典, Word:,, Weight:2703\nNo.9:start:55, length:3, POS_ID:[118, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:66615,word_type:0 , UserDefine:核心词典, Word:为, Weight:5539\nNo.10:start:58, length:6, POS_ID:[97, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:40698,word_type:0 , UserDefine:核心词典, Word:全面, Weight:7844\nNo.11:start:64, length:6, POS_ID:[118, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:84698,word_type:0 , UserDefine:核心词典, Word:建成, Weight:9027\nNo.12:start:70, length:6, POS_ID:[110, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:81502,word_type:0 , UserDefine:核心词典, Word:小康, Weight:10000\nNo.13:start:76, length:6, POS_ID:[110, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:48622,word_type:0 , UserDefine:核心词典, Word:社会, Weight:6646\nNo.14:start:82, length:3, POS_ID:[99, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:32081,word_type:0 , UserDefine:核心词典, Word:而, Weight:6610\nNo.15:start:85, length:6, POS_ID:[118, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],word_ID:27256,word_type:0 , UserDefine:核心词典, Word:奋斗, Weight:9364\n",
|
120
|
+
# result
|
121
|
+
|
122
|
+
# NLPIR_AddUserWord("1989年春夏之交的政治风波 n")
|
123
|
+
# assert_equal "1989年春夏之交的政治风波/n 1989年政治风波/n 24小时降雪量/n 24/m 小时/q 降雨量/n 863/m 计划/n ABC/n 防护/v 训练/v APEC/n 会议/n BB/n 机/n BP机/n C2系统/n C3I/n 系统/n C3/n 系统/n C4ISR/n 系统/n C4I/n 系统/n CCITT/n 建议/n ",
|
124
|
+
# NLPIR_ParagraphProcess("1989年春夏之交的政治风波1989年政治风波24小时降雪量24小时降雨量863计划ABC防护训练APEC会议BB机BP机C2系统C3I系统C3系统C4ISR系统C4I系统CCITT建议")
|
125
|
+
# NLPIR_DelUsrWord("1989年春夏之交的政治风波")
|
126
|
+
|
127
|
+
# assert_equal 5,
|
128
|
+
# NLPIR_ImportUserDict("./userdict.txt")
|
129
|
+
# NLPIR_SaveTheUsrDic()
|
130
|
+
# assert_equal "1989年春夏之交的政治风波/n 1989年政治风波/n 24小时降雪量/n 24/m 小时/q 降雨量/n 863/m 计划/n ABC/n 防护/v 训练/v APEC/n 会议/n BB/n 机/n BP机/n C2系统/n C3I/n 系统/n C3/n 系统/n C4ISR/n 系统/n C4I/n 系统/n CCITT/n 建议/n ",
|
131
|
+
# NLPIR_ParagraphProcess("1989年春夏之交的政治风波1989年政治风波24小时降雪量24小时降雨量863计划ABC防护训练APEC会议BB机BP机C2系统C3I系统C3系统C4ISR系统C4I系统CCITT建议")
|
132
|
+
|
133
|
+
# NLPIR_FileProcess("./test.txt", "./test_result.txt", NLPIR_TRUE)
|
134
|
+
# assert_equal 16932,
|
135
|
+
# File.open("./test_result.txt").size
|
136
|
+
|
137
|
+
# assert_equal 15,
|
138
|
+
# NLPIR_GetParagraphProcessAWordCount($s)
|
139
|
+
|
140
|
+
# assert_equal "李毅/n/4.57#球迷/n/2.20#屌丝/n_newword/1.77#开始/v/1.74#百度/n/1.39#",
|
141
|
+
# NLPIR_GetKeyWords($text, 50,NLPIR_TRUE)
|
142
|
+
# assert_equal "李毅/n/8.90#社会/n/4.06#",
|
143
|
+
# NLPIR_GetFileKeyWords("./test.txt",2, NLPIR_TRUE)
|
144
|
+
|
145
|
+
# assert_equal "淋语/n_new/4.99#",
|
146
|
+
# NLPIR_GetNewWords($text2, 50, NLPIR_TRUE)
|
147
|
+
# assert_equal "淋语/n_new/5.96#指淋淋/n_new/5.60#",
|
148
|
+
# NLPIR_GetFileNewWords("./findnewword.txt", 50, NLPIR_TRUE)
|
149
|
+
|
150
|
+
# assert_equal 1644572591,
|
151
|
+
# NLPIR_FingerPrint($text)
|
152
|
+
# NLPIR_Exit()
|
153
|
+
|
154
|
+
# end
|
158
155
|
end
|