wp2txt 0.9.3 → 0.9.4
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- checksums.yaml +4 -4
- data/README.md +8 -10
- data/bin/wp2txt +8 -3
- data/data/output_samples/testdata_en.txt +1 -1
- data/data/output_samples/testdata_en_categories.txt +206 -823
- data/data/output_samples/testdata_ja_categories.txt +47 -187
- data/lib/wp2txt/version.rb +1 -1
- metadata +2 -2
@@ -1,188 +1,48 @@
|
|
1
|
-
|
2
|
-
|
3
|
-
|
4
|
-
|
5
|
-
|
6
|
-
|
7
|
-
|
8
|
-
|
9
|
-
|
10
|
-
|
11
|
-
|
12
|
-
|
13
|
-
|
14
|
-
|
15
|
-
|
16
|
-
|
17
|
-
|
18
|
-
|
19
|
-
|
20
|
-
|
21
|
-
|
22
|
-
|
23
|
-
|
24
|
-
|
25
|
-
|
26
|
-
|
27
|
-
|
28
|
-
|
29
|
-
|
30
|
-
|
31
|
-
|
32
|
-
|
33
|
-
|
34
|
-
|
35
|
-
|
36
|
-
|
37
|
-
|
38
|
-
|
39
|
-
|
40
|
-
|
41
|
-
|
42
|
-
|
43
|
-
|
44
|
-
|
45
|
-
|
46
|
-
|
47
|
-
|
48
|
-
|
49
|
-
[[ジミー・カーター]]
|
50
|
-
|
51
|
-
CATEGORIES: アメリカ合衆国の大統領, ノーベル平和賞受賞者, ジョージア州知事, ジョージア州の人物, 1924年生
|
52
|
-
|
53
|
-
[[生物]]
|
54
|
-
|
55
|
-
CATEGORIES: 生物, 地球, 地球史
|
56
|
-
|
57
|
-
[[センタイ類]]
|
58
|
-
|
59
|
-
CATEGORIES: 植物学, コケ植物
|
60
|
-
|
61
|
-
[[社会学]]
|
62
|
-
|
63
|
-
CATEGORIES: 社会学
|
64
|
-
|
65
|
-
[[古代エジプト]]
|
66
|
-
|
67
|
-
CATEGORIES: 古代エジプト, 考古学
|
68
|
-
|
69
|
-
[[エジプト]]
|
70
|
-
|
71
|
-
CATEGORIES: エジプト, イスラム教国
|
72
|
-
|
73
|
-
[[著作権の保護期間]]
|
74
|
-
|
75
|
-
CATEGORIES: 著作権法
|
76
|
-
|
77
|
-
[[東京]]
|
78
|
-
|
79
|
-
CATEGORIES: Tokyo, 東京都, 東京23区の地域, 関東地方, 日本の都市
|
80
|
-
|
81
|
-
[[台東区]]
|
82
|
-
|
83
|
-
CATEGORIES: 特別区, 台東区
|
84
|
-
|
85
|
-
[[地理]]
|
86
|
-
|
87
|
-
CATEGORIES: 地理, 教科
|
88
|
-
|
89
|
-
[[生物学]]
|
90
|
-
|
91
|
-
CATEGORIES: Biology, 生物学, 自然科学, 理学
|
92
|
-
|
93
|
-
[[社会]]
|
94
|
-
|
95
|
-
CATEGORIES: 社会
|
96
|
-
|
97
|
-
[[こどもの文化]]
|
98
|
-
|
99
|
-
CATEGORIES: 子供の遊び, 子供, 育児
|
100
|
-
|
101
|
-
[[特撮]]
|
102
|
-
|
103
|
-
CATEGORIES: 特撮, SF, テレビドラマ
|
104
|
-
|
105
|
-
[[日常生活]]
|
106
|
-
|
107
|
-
CATEGORIES: 生活, 文化, 人の行動
|
108
|
-
|
109
|
-
[[情報工学]]
|
110
|
-
|
111
|
-
CATEGORIES: 情報工学, 情報学, 計算科学
|
112
|
-
|
113
|
-
[[形式言語]]
|
114
|
-
|
115
|
-
CATEGORIES: 言語学, 形式言語, 構文解析 (プログラミング)
|
116
|
-
|
117
|
-
[[文脈自由言語]]
|
118
|
-
|
119
|
-
CATEGORIES: 形式言語, 構文解析 (プログラミング)
|
120
|
-
|
121
|
-
[[正規言語]]
|
122
|
-
|
123
|
-
CATEGORIES: 形式言語
|
124
|
-
|
125
|
-
[[自然言語処理]]
|
126
|
-
|
127
|
-
CATEGORIES: 言語学, 自然言語処理
|
128
|
-
|
129
|
-
[[自然言語]]
|
130
|
-
|
131
|
-
CATEGORIES: 言語の分類, 言語学
|
132
|
-
|
133
|
-
[[プログラミング言語]]
|
134
|
-
|
135
|
-
CATEGORIES: プログラミング言語, コンピュータ言語
|
136
|
-
|
137
|
-
[[人工知能]]
|
138
|
-
|
139
|
-
CATEGORIES: 情報工学, 人工知能, 心の哲学, ユーザインターフェイス (コンピュータ), SF
|
140
|
-
|
141
|
-
[[オーストリア]]
|
142
|
-
|
143
|
-
CATEGORIES: オーストリア, 内陸国
|
144
|
-
|
145
|
-
[[GNU Free Documentation License]]
|
146
|
-
|
147
|
-
CATEGORIES: ライセンス, 知的財産権, フリーソフトウェア財団
|
148
|
-
|
149
|
-
[[社会学者の一覧]]
|
150
|
-
|
151
|
-
CATEGORIES: 社会学者, 学者の人名一覧
|
152
|
-
|
153
|
-
[[オランダ]]
|
154
|
-
|
155
|
-
CATEGORIES: オランダ, 君主国
|
156
|
-
|
157
|
-
[[ゴーダチーズ]]
|
158
|
-
|
159
|
-
CATEGORIES: チーズ, オランダの食文化
|
160
|
-
|
161
|
-
[[バールーフ・デ・スピノザ]]
|
162
|
-
|
163
|
-
CATEGORIES: オランダ史の人物, オランダの哲学者, ユダヤ教改革派, 破門, 17世紀の学者
|
164
|
-
|
165
|
-
[[文脈自由文法]]
|
166
|
-
|
167
|
-
CATEGORIES: 形式言語
|
168
|
-
|
169
|
-
[[フランス語]]
|
170
|
-
|
171
|
-
CATEGORIES: フランス語, フランスの言語, カナダの言語, スイスの言語, ベルギーの言語, レバノンの言語, モロッコの言語, コンゴ共和国の言語, コンゴ民主共和国の言語, チュニジアの言語, カメルーンの言語, マリ共和国の言語, セネガルの言語, トーゴの言語, ルワンダの言語, ブルンジの言語, ベナンの言語, コートジボワールの言語, インド・ヨーロッパ語族
|
172
|
-
|
173
|
-
[[イタリア語]]
|
174
|
-
|
175
|
-
CATEGORIES: イタリア語, イタリアの言語, インド・ヨーロッパ語族
|
176
|
-
|
177
|
-
[[スペイン語]]
|
178
|
-
|
179
|
-
CATEGORIES: スペイン語, スペインの言語, アルゼンチンの言語, メキシコの言語, ボリビアの言語, チリの言語, コロンビアの言語, パラグアイの言語, ウルグアイの言語, イタリック語派
|
180
|
-
|
181
|
-
[[宗教学]]
|
182
|
-
|
183
|
-
CATEGORIES: 宗教学, 人文科学, 宗教
|
184
|
-
|
185
|
-
[[音楽]]
|
186
|
-
|
187
|
-
CATEGORIES: Music, 音楽
|
1
|
+
アンパサンド 記号
|
2
|
+
エスペラント エスペラント, 人工言語
|
3
|
+
言語 言語, 言語学, 民族
|
4
|
+
日本語 日本語, Japanese language, 国語
|
5
|
+
地理学 地理学
|
6
|
+
欧州連合 欧州連合
|
7
|
+
国の一覧 一覧, 国
|
8
|
+
漫画 漫画, 娯楽, Comics
|
9
|
+
日本 日本, 島国, 君主国
|
10
|
+
フランス France, フランス, G8加盟国
|
11
|
+
パリ フランスの都市, ローマ都市, パリ, イル=ド=フランス
|
12
|
+
ヨーロッパ ヨーロッパ
|
13
|
+
ジミー・カーター アメリカ合衆国の大統領, ノーベル平和賞受賞者, ジョージア州知事, ジョージア州の人物, 1924年生
|
14
|
+
生物 生物, 地球, 地球史
|
15
|
+
センタイ類 植物学, コケ植物
|
16
|
+
社会学 社会学
|
17
|
+
古代エジプト 古代エジプト, 考古学
|
18
|
+
エジプト エジプト, イスラム教国
|
19
|
+
著作権の保護期間 著作権法
|
20
|
+
東京 Tokyo, 東京都, 東京23区の地域, 関東地方, 日本の都市
|
21
|
+
台東区 特別区, 台東区
|
22
|
+
地理 地理, 教科
|
23
|
+
生物学 Biology, 生物学, 自然科学, 理学
|
24
|
+
社会 社会
|
25
|
+
こどもの文化 子供の遊び, 子供, 育児
|
26
|
+
特撮 特撮, SF, テレビドラマ
|
27
|
+
日常生活 生活, 文化, 人の行動
|
28
|
+
情報工学 情報工学, 情報学, 計算科学
|
29
|
+
形式言語 言語学, 形式言語, 構文解析 (プログラミング)
|
30
|
+
文脈自由言語 形式言語, 構文解析 (プログラミング)
|
31
|
+
正規言語 形式言語
|
32
|
+
自然言語処理 言語学, 自然言語処理
|
33
|
+
自然言語 言語の分類, 言語学
|
34
|
+
プログラミング言語 プログラミング言語, コンピュータ言語
|
35
|
+
人工知能 情報工学, 人工知能, 心の哲学, ユーザインターフェイス (コンピュータ), SF
|
36
|
+
オーストリア オーストリア, 内陸国
|
37
|
+
GNU Free Documentation License ライセンス, 知的財産権, フリーソフトウェア財団
|
38
|
+
社会学者の一覧 社会学者, 学者の人名一覧
|
39
|
+
オランダ オランダ, 君主国
|
40
|
+
ゴーダチーズ チーズ, オランダの食文化
|
41
|
+
バールーフ・デ・スピノザ オランダ史の人物, オランダの哲学者, ユダヤ教改革派, 破門, 17世紀の学者
|
42
|
+
文脈自由文法 形式言語
|
43
|
+
フランス語 フランス語, フランスの言語, カナダの言語, スイスの言語, ベルギーの言語, レバノンの言語, モロッコの言語, コンゴ共和国の言語, コンゴ民主共和国の言語, チュニジアの言語, カメルーンの言語, マリ共和国の言語, セネガルの言語, トーゴの言語, ルワンダの言語, ブルンジの言語, ベナンの言語, コートジボワールの言語, インド・ヨーロッパ語族
|
44
|
+
イタリア語 イタリア語, イタリアの言語, インド・ヨーロッパ語族
|
45
|
+
スペイン語 スペイン語, スペインの言語, アルゼンチンの言語, メキシコの言語, ボリビアの言語, チリの言語, コロンビアの言語, パラグアイの言語, ウルグアイの言語, イタリック語派
|
46
|
+
宗教学 宗教学, 人文科学, 宗教
|
47
|
+
音楽 Music, 音楽
|
188
48
|
|
data/lib/wp2txt/version.rb
CHANGED
metadata
CHANGED
@@ -1,7 +1,7 @@
|
|
1
1
|
--- !ruby/object:Gem::Specification
|
2
2
|
name: wp2txt
|
3
3
|
version: !ruby/object:Gem::Version
|
4
|
-
version: 0.9.
|
4
|
+
version: 0.9.4
|
5
5
|
platform: ruby
|
6
6
|
authors:
|
7
7
|
- Yoichiro Hasebe
|
@@ -116,7 +116,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
|
|
116
116
|
- !ruby/object:Gem::Version
|
117
117
|
version: '0'
|
118
118
|
requirements: []
|
119
|
-
rubygems_version: 3.3.
|
119
|
+
rubygems_version: 3.3.7
|
120
120
|
signing_key:
|
121
121
|
specification_version: 4
|
122
122
|
summary: Wikipedia dump to text converter
|