cld3 3.1.0
Sign up to get free protection for your applications and to get access to all the features.
- checksums.yaml +7 -0
- data/Gemfile +18 -0
- data/LICENSE +204 -0
- data/LICENSE_CLD3 +203 -0
- data/README.md +22 -0
- data/cld3.gemspec +35 -0
- data/ext/cld3/base.cc +36 -0
- data/ext/cld3/base.h +106 -0
- data/ext/cld3/casts.h +98 -0
- data/ext/cld3/embedding_feature_extractor.cc +51 -0
- data/ext/cld3/embedding_feature_extractor.h +182 -0
- data/ext/cld3/embedding_network.cc +196 -0
- data/ext/cld3/embedding_network.h +186 -0
- data/ext/cld3/embedding_network_params.h +285 -0
- data/ext/cld3/extconf.rb +49 -0
- data/ext/cld3/feature_extractor.cc +137 -0
- data/ext/cld3/feature_extractor.h +633 -0
- data/ext/cld3/feature_extractor.proto +50 -0
- data/ext/cld3/feature_types.cc +72 -0
- data/ext/cld3/feature_types.h +158 -0
- data/ext/cld3/fixunicodevalue.cc +55 -0
- data/ext/cld3/fixunicodevalue.h +69 -0
- data/ext/cld3/float16.h +58 -0
- data/ext/cld3/fml_parser.cc +308 -0
- data/ext/cld3/fml_parser.h +123 -0
- data/ext/cld3/generated_entities.cc +296 -0
- data/ext/cld3/generated_ulscript.cc +678 -0
- data/ext/cld3/generated_ulscript.h +142 -0
- data/ext/cld3/getonescriptspan.cc +1109 -0
- data/ext/cld3/getonescriptspan.h +124 -0
- data/ext/cld3/integral_types.h +37 -0
- data/ext/cld3/lang_id_nn_params.cc +57449 -0
- data/ext/cld3/lang_id_nn_params.h +178 -0
- data/ext/cld3/language_identifier_features.cc +165 -0
- data/ext/cld3/language_identifier_features.h +116 -0
- data/ext/cld3/nnet_language_identifier.cc +380 -0
- data/ext/cld3/nnet_language_identifier.h +175 -0
- data/ext/cld3/nnet_language_identifier_c.cc +72 -0
- data/ext/cld3/offsetmap.cc +478 -0
- data/ext/cld3/offsetmap.h +168 -0
- data/ext/cld3/port.h +143 -0
- data/ext/cld3/registry.cc +28 -0
- data/ext/cld3/registry.h +242 -0
- data/ext/cld3/relevant_script_feature.cc +89 -0
- data/ext/cld3/relevant_script_feature.h +49 -0
- data/ext/cld3/script_detector.h +156 -0
- data/ext/cld3/sentence.proto +77 -0
- data/ext/cld3/sentence_features.cc +29 -0
- data/ext/cld3/sentence_features.h +35 -0
- data/ext/cld3/simple_adder.h +72 -0
- data/ext/cld3/stringpiece.h +81 -0
- data/ext/cld3/task_context.cc +161 -0
- data/ext/cld3/task_context.h +81 -0
- data/ext/cld3/task_context_params.cc +74 -0
- data/ext/cld3/task_context_params.h +54 -0
- data/ext/cld3/task_spec.proto +98 -0
- data/ext/cld3/text_processing.cc +245 -0
- data/ext/cld3/text_processing.h +30 -0
- data/ext/cld3/unicodetext.cc +96 -0
- data/ext/cld3/unicodetext.h +144 -0
- data/ext/cld3/utf8acceptinterchange.h +486 -0
- data/ext/cld3/utf8prop_lettermarkscriptnum.h +1631 -0
- data/ext/cld3/utf8repl_lettermarklower.h +758 -0
- data/ext/cld3/utf8scannot_lettermarkspecial.h +1455 -0
- data/ext/cld3/utf8statetable.cc +1344 -0
- data/ext/cld3/utf8statetable.h +285 -0
- data/ext/cld3/utils.cc +241 -0
- data/ext/cld3/utils.h +144 -0
- data/ext/cld3/workspace.cc +64 -0
- data/ext/cld3/workspace.h +177 -0
- data/lib/cld3.rb +99 -0
- metadata +158 -0
@@ -0,0 +1,678 @@
|
|
1
|
+
// Copyright 2013 Google Inc. All Rights Reserved.
|
2
|
+
//
|
3
|
+
// Licensed under the Apache License, Version 2.0 (the "License");
|
4
|
+
// you may not use this file except in compliance with the License.
|
5
|
+
// You may obtain a copy of the License at
|
6
|
+
//
|
7
|
+
// http://www.apache.org/licenses/LICENSE-2.0
|
8
|
+
//
|
9
|
+
// Unless required by applicable law or agreed to in writing, software
|
10
|
+
// distributed under the License is distributed on an "AS IS" BASIS,
|
11
|
+
// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
|
12
|
+
// See the License for the specific language governing permissions and
|
13
|
+
// limitations under the License.
|
14
|
+
|
15
|
+
// generated_ulscript.cc
|
16
|
+
// Machine generated. Do Not Edit.
|
17
|
+
//
|
18
|
+
// Declarations for scripts recognized by CLD2
|
19
|
+
//
|
20
|
+
|
21
|
+
#include "generated_ulscript.h"
|
22
|
+
|
23
|
+
namespace chrome_lang_id {
|
24
|
+
namespace CLD2 {
|
25
|
+
|
26
|
+
// Subscripted by enum ULScript
|
27
|
+
extern const int kULScriptToNameSize = 102;
|
28
|
+
extern const char* const kULScriptToName[kULScriptToNameSize] = {
|
29
|
+
"Common", // 0 Zyyy
|
30
|
+
"Latin", // 1 Latn
|
31
|
+
"Greek", // 2 Grek
|
32
|
+
"Cyrillic", // 3 Cyrl
|
33
|
+
"Armenian", // 4 Armn
|
34
|
+
"Hebrew", // 5 Hebr
|
35
|
+
"Arabic", // 6 Arab
|
36
|
+
"Syriac", // 7 Syrc
|
37
|
+
"Thaana", // 8 Thaa
|
38
|
+
"Devanagari", // 9 Deva
|
39
|
+
"Bengali", // 10 Beng
|
40
|
+
"Gurmukhi", // 11 Guru
|
41
|
+
"Gujarati", // 12 Gujr
|
42
|
+
"Oriya", // 13 Orya
|
43
|
+
"Tamil", // 14 Taml
|
44
|
+
"Telugu", // 15 Telu
|
45
|
+
"Kannada", // 16 Knda
|
46
|
+
"Malayalam", // 17 Mlym
|
47
|
+
"Sinhala", // 18 Sinh
|
48
|
+
"Thai", // 19 Thai
|
49
|
+
"Lao", // 20 Laoo
|
50
|
+
"Tibetan", // 21 Tibt
|
51
|
+
"Myanmar", // 22 Mymr
|
52
|
+
"Georgian", // 23 Geor
|
53
|
+
"Hani", // 24 Hani
|
54
|
+
"Ethiopic", // 25 Ethi
|
55
|
+
"Cherokee", // 26 Cher
|
56
|
+
"Canadian_Aboriginal", // 27 Cans
|
57
|
+
"Ogham", // 28 Ogam
|
58
|
+
"Runic", // 29 Runr
|
59
|
+
"Khmer", // 30 Khmr
|
60
|
+
"Mongolian", // 31 Mong
|
61
|
+
"", // 32
|
62
|
+
"", // 33
|
63
|
+
"Bopomofo", // 34 Bopo
|
64
|
+
"", // 35
|
65
|
+
"Yi", // 36 Yiii
|
66
|
+
"Old_Italic", // 37 Ital
|
67
|
+
"Gothic", // 38 Goth
|
68
|
+
"Deseret", // 39 Dsrt
|
69
|
+
"Inherited", // 40 Zinh
|
70
|
+
"Tagalog", // 41 Tglg
|
71
|
+
"Hanunoo", // 42 Hano
|
72
|
+
"Buhid", // 43 Buhd
|
73
|
+
"Tagbanwa", // 44 Tagb
|
74
|
+
"Limbu", // 45 Limb
|
75
|
+
"Tai_Le", // 46 Tale
|
76
|
+
"Linear_B", // 47 Linb
|
77
|
+
"Ugaritic", // 48 Ugar
|
78
|
+
"Shavian", // 49 Shaw
|
79
|
+
"Osmanya", // 50 Osma
|
80
|
+
"Cypriot", // 51 Cprt
|
81
|
+
"Braille", // 52 Brai
|
82
|
+
"Buginese", // 53 Bugi
|
83
|
+
"Coptic", // 54 Copt
|
84
|
+
"New_Tai_Lue", // 55 Talu
|
85
|
+
"Glagolitic", // 56 Glag
|
86
|
+
"Tifinagh", // 57 Tfng
|
87
|
+
"Syloti_Nagri", // 58 Sylo
|
88
|
+
"Old_Persian", // 59 Xpeo
|
89
|
+
"Kharoshthi", // 60 Khar
|
90
|
+
"Balinese", // 61 Bali
|
91
|
+
"Cuneiform", // 62 Xsux
|
92
|
+
"Phoenician", // 63 Phnx
|
93
|
+
"Phags_Pa", // 64 Phag
|
94
|
+
"Nko", // 65 Nkoo
|
95
|
+
"Sundanese", // 66 Sund
|
96
|
+
"Lepcha", // 67 Lepc
|
97
|
+
"Ol_Chiki", // 68 Olck
|
98
|
+
"Vai", // 69 Vaii
|
99
|
+
"Saurashtra", // 70 Saur
|
100
|
+
"Kayah_Li", // 71 Kali
|
101
|
+
"Rejang", // 72 Rjng
|
102
|
+
"Lycian", // 73 Lyci
|
103
|
+
"Carian", // 74 Cari
|
104
|
+
"Lydian", // 75 Lydi
|
105
|
+
"Cham", // 76 Cham
|
106
|
+
"Tai_Tham", // 77 Lana
|
107
|
+
"Tai_Viet", // 78 Tavt
|
108
|
+
"Avestan", // 79 Avst
|
109
|
+
"Egyptian_Hieroglyphs", // 80 Egyp
|
110
|
+
"Samaritan", // 81 Samr
|
111
|
+
"Lisu", // 82 Lisu
|
112
|
+
"Bamum", // 83 Bamu
|
113
|
+
"Javanese", // 84 Java
|
114
|
+
"Meetei_Mayek", // 85 Mtei
|
115
|
+
"Imperial_Aramaic", // 86 Armi
|
116
|
+
"Old_South_Arabian", // 87 Sarb
|
117
|
+
"Inscriptional_Parthian", // 88 Prti
|
118
|
+
"Inscriptional_Pahlavi", // 89 Phli
|
119
|
+
"Old_Turkic", // 90 Orkh
|
120
|
+
"Kaithi", // 91 Kthi
|
121
|
+
"Batak", // 92 Batk
|
122
|
+
"Brahmi", // 93 Brah
|
123
|
+
"Mandaic", // 94 Mand
|
124
|
+
"Chakma", // 95 Cakm
|
125
|
+
"Meroitic_Cursive", // 96 Merc
|
126
|
+
"Meroitic_Hieroglyphs", // 97 Mero
|
127
|
+
"Miao", // 98 Plrd
|
128
|
+
"Sharada", // 99 Shrd
|
129
|
+
"Sora_Sompeng", // 100 Sora
|
130
|
+
"Takri", // 101 Takr
|
131
|
+
};
|
132
|
+
|
133
|
+
// Subscripted by enum ULScript
|
134
|
+
extern const int kULScriptToCodeSize = 102;
|
135
|
+
extern const char* const kULScriptToCode[kULScriptToCodeSize] = {
|
136
|
+
"Zyyy", // 0 Common
|
137
|
+
"Latn", // 1 Latin
|
138
|
+
"Grek", // 2 Greek
|
139
|
+
"Cyrl", // 3 Cyrillic
|
140
|
+
"Armn", // 4 Armenian
|
141
|
+
"Hebr", // 5 Hebrew
|
142
|
+
"Arab", // 6 Arabic
|
143
|
+
"Syrc", // 7 Syriac
|
144
|
+
"Thaa", // 8 Thaana
|
145
|
+
"Deva", // 9 Devanagari
|
146
|
+
"Beng", // 10 Bengali
|
147
|
+
"Guru", // 11 Gurmukhi
|
148
|
+
"Gujr", // 12 Gujarati
|
149
|
+
"Orya", // 13 Oriya
|
150
|
+
"Taml", // 14 Tamil
|
151
|
+
"Telu", // 15 Telugu
|
152
|
+
"Knda", // 16 Kannada
|
153
|
+
"Mlym", // 17 Malayalam
|
154
|
+
"Sinh", // 18 Sinhala
|
155
|
+
"Thai", // 19 Thai
|
156
|
+
"Laoo", // 20 Lao
|
157
|
+
"Tibt", // 21 Tibetan
|
158
|
+
"Mymr", // 22 Myanmar
|
159
|
+
"Geor", // 23 Georgian
|
160
|
+
"Hani", // 24 Hani
|
161
|
+
"Ethi", // 25 Ethiopic
|
162
|
+
"Cher", // 26 Cherokee
|
163
|
+
"Cans", // 27 Canadian_Aboriginal
|
164
|
+
"Ogam", // 28 Ogham
|
165
|
+
"Runr", // 29 Runic
|
166
|
+
"Khmr", // 30 Khmer
|
167
|
+
"Mong", // 31 Mongolian
|
168
|
+
"", // 32
|
169
|
+
"", // 33
|
170
|
+
"Bopo", // 34 Bopomofo
|
171
|
+
"", // 35
|
172
|
+
"Yiii", // 36 Yi
|
173
|
+
"Ital", // 37 Old_Italic
|
174
|
+
"Goth", // 38 Gothic
|
175
|
+
"Dsrt", // 39 Deseret
|
176
|
+
"Zinh", // 40 Inherited
|
177
|
+
"Tglg", // 41 Tagalog
|
178
|
+
"Hano", // 42 Hanunoo
|
179
|
+
"Buhd", // 43 Buhid
|
180
|
+
"Tagb", // 44 Tagbanwa
|
181
|
+
"Limb", // 45 Limbu
|
182
|
+
"Tale", // 46 Tai_Le
|
183
|
+
"Linb", // 47 Linear_B
|
184
|
+
"Ugar", // 48 Ugaritic
|
185
|
+
"Shaw", // 49 Shavian
|
186
|
+
"Osma", // 50 Osmanya
|
187
|
+
"Cprt", // 51 Cypriot
|
188
|
+
"Brai", // 52 Braille
|
189
|
+
"Bugi", // 53 Buginese
|
190
|
+
"Copt", // 54 Coptic
|
191
|
+
"Talu", // 55 New_Tai_Lue
|
192
|
+
"Glag", // 56 Glagolitic
|
193
|
+
"Tfng", // 57 Tifinagh
|
194
|
+
"Sylo", // 58 Syloti_Nagri
|
195
|
+
"Xpeo", // 59 Old_Persian
|
196
|
+
"Khar", // 60 Kharoshthi
|
197
|
+
"Bali", // 61 Balinese
|
198
|
+
"Xsux", // 62 Cuneiform
|
199
|
+
"Phnx", // 63 Phoenician
|
200
|
+
"Phag", // 64 Phags_Pa
|
201
|
+
"Nkoo", // 65 Nko
|
202
|
+
"Sund", // 66 Sundanese
|
203
|
+
"Lepc", // 67 Lepcha
|
204
|
+
"Olck", // 68 Ol_Chiki
|
205
|
+
"Vaii", // 69 Vai
|
206
|
+
"Saur", // 70 Saurashtra
|
207
|
+
"Kali", // 71 Kayah_Li
|
208
|
+
"Rjng", // 72 Rejang
|
209
|
+
"Lyci", // 73 Lycian
|
210
|
+
"Cari", // 74 Carian
|
211
|
+
"Lydi", // 75 Lydian
|
212
|
+
"Cham", // 76 Cham
|
213
|
+
"Lana", // 77 Tai_Tham
|
214
|
+
"Tavt", // 78 Tai_Viet
|
215
|
+
"Avst", // 79 Avestan
|
216
|
+
"Egyp", // 80 Egyptian_Hieroglyphs
|
217
|
+
"Samr", // 81 Samaritan
|
218
|
+
"Lisu", // 82 Lisu
|
219
|
+
"Bamu", // 83 Bamum
|
220
|
+
"Java", // 84 Javanese
|
221
|
+
"Mtei", // 85 Meetei_Mayek
|
222
|
+
"Armi", // 86 Imperial_Aramaic
|
223
|
+
"Sarb", // 87 Old_South_Arabian
|
224
|
+
"Prti", // 88 Inscriptional_Parthian
|
225
|
+
"Phli", // 89 Inscriptional_Pahlavi
|
226
|
+
"Orkh", // 90 Old_Turkic
|
227
|
+
"Kthi", // 91 Kaithi
|
228
|
+
"Batk", // 92 Batak
|
229
|
+
"Brah", // 93 Brahmi
|
230
|
+
"Mand", // 94 Mandaic
|
231
|
+
"Cakm", // 95 Chakma
|
232
|
+
"Merc", // 96 Meroitic_Cursive
|
233
|
+
"Mero", // 97 Meroitic_Hieroglyphs
|
234
|
+
"Plrd", // 98 Miao
|
235
|
+
"Shrd", // 99 Sharada
|
236
|
+
"Sora", // 100 Sora_Sompeng
|
237
|
+
"Takr", // 101 Takri
|
238
|
+
};
|
239
|
+
|
240
|
+
// Subscripted by enum ULScript
|
241
|
+
extern const int kULScriptToCNameSize = 102;
|
242
|
+
extern const char* const kULScriptToCName[kULScriptToCNameSize] = {
|
243
|
+
"ULScript_Common", // 0 Zyyy
|
244
|
+
"ULScript_Latin", // 1 Latn
|
245
|
+
"ULScript_Greek", // 2 Grek
|
246
|
+
"ULScript_Cyrillic", // 3 Cyrl
|
247
|
+
"ULScript_Armenian", // 4 Armn
|
248
|
+
"ULScript_Hebrew", // 5 Hebr
|
249
|
+
"ULScript_Arabic", // 6 Arab
|
250
|
+
"ULScript_Syriac", // 7 Syrc
|
251
|
+
"ULScript_Thaana", // 8 Thaa
|
252
|
+
"ULScript_Devanagari", // 9 Deva
|
253
|
+
"ULScript_Bengali", // 10 Beng
|
254
|
+
"ULScript_Gurmukhi", // 11 Guru
|
255
|
+
"ULScript_Gujarati", // 12 Gujr
|
256
|
+
"ULScript_Oriya", // 13 Orya
|
257
|
+
"ULScript_Tamil", // 14 Taml
|
258
|
+
"ULScript_Telugu", // 15 Telu
|
259
|
+
"ULScript_Kannada", // 16 Knda
|
260
|
+
"ULScript_Malayalam", // 17 Mlym
|
261
|
+
"ULScript_Sinhala", // 18 Sinh
|
262
|
+
"ULScript_Thai", // 19 Thai
|
263
|
+
"ULScript_Lao", // 20 Laoo
|
264
|
+
"ULScript_Tibetan", // 21 Tibt
|
265
|
+
"ULScript_Myanmar", // 22 Mymr
|
266
|
+
"ULScript_Georgian", // 23 Geor
|
267
|
+
"ULScript_Hani", // 24 Hani
|
268
|
+
"ULScript_Ethiopic", // 25 Ethi
|
269
|
+
"ULScript_Cherokee", // 26 Cher
|
270
|
+
"ULScript_Canadian_Aboriginal", // 27 Cans
|
271
|
+
"ULScript_Ogham", // 28 Ogam
|
272
|
+
"ULScript_Runic", // 29 Runr
|
273
|
+
"ULScript_Khmer", // 30 Khmr
|
274
|
+
"ULScript_Mongolian", // 31 Mong
|
275
|
+
"ULScript_32", // 32
|
276
|
+
"ULScript_33", // 33
|
277
|
+
"ULScript_Bopomofo", // 34 Bopo
|
278
|
+
"ULScript_35", // 35
|
279
|
+
"ULScript_Yi", // 36 Yiii
|
280
|
+
"ULScript_Old_Italic", // 37 Ital
|
281
|
+
"ULScript_Gothic", // 38 Goth
|
282
|
+
"ULScript_Deseret", // 39 Dsrt
|
283
|
+
"ULScript_Inherited", // 40 Zinh
|
284
|
+
"ULScript_Tagalog", // 41 Tglg
|
285
|
+
"ULScript_Hanunoo", // 42 Hano
|
286
|
+
"ULScript_Buhid", // 43 Buhd
|
287
|
+
"ULScript_Tagbanwa", // 44 Tagb
|
288
|
+
"ULScript_Limbu", // 45 Limb
|
289
|
+
"ULScript_Tai_Le", // 46 Tale
|
290
|
+
"ULScript_Linear_B", // 47 Linb
|
291
|
+
"ULScript_Ugaritic", // 48 Ugar
|
292
|
+
"ULScript_Shavian", // 49 Shaw
|
293
|
+
"ULScript_Osmanya", // 50 Osma
|
294
|
+
"ULScript_Cypriot", // 51 Cprt
|
295
|
+
"ULScript_Braille", // 52 Brai
|
296
|
+
"ULScript_Buginese", // 53 Bugi
|
297
|
+
"ULScript_Coptic", // 54 Copt
|
298
|
+
"ULScript_New_Tai_Lue", // 55 Talu
|
299
|
+
"ULScript_Glagolitic", // 56 Glag
|
300
|
+
"ULScript_Tifinagh", // 57 Tfng
|
301
|
+
"ULScript_Syloti_Nagri", // 58 Sylo
|
302
|
+
"ULScript_Old_Persian", // 59 Xpeo
|
303
|
+
"ULScript_Kharoshthi", // 60 Khar
|
304
|
+
"ULScript_Balinese", // 61 Bali
|
305
|
+
"ULScript_Cuneiform", // 62 Xsux
|
306
|
+
"ULScript_Phoenician", // 63 Phnx
|
307
|
+
"ULScript_Phags_Pa", // 64 Phag
|
308
|
+
"ULScript_Nko", // 65 Nkoo
|
309
|
+
"ULScript_Sundanese", // 66 Sund
|
310
|
+
"ULScript_Lepcha", // 67 Lepc
|
311
|
+
"ULScript_Ol_Chiki", // 68 Olck
|
312
|
+
"ULScript_Vai", // 69 Vaii
|
313
|
+
"ULScript_Saurashtra", // 70 Saur
|
314
|
+
"ULScript_Kayah_Li", // 71 Kali
|
315
|
+
"ULScript_Rejang", // 72 Rjng
|
316
|
+
"ULScript_Lycian", // 73 Lyci
|
317
|
+
"ULScript_Carian", // 74 Cari
|
318
|
+
"ULScript_Lydian", // 75 Lydi
|
319
|
+
"ULScript_Cham", // 76 Cham
|
320
|
+
"ULScript_Tai_Tham", // 77 Lana
|
321
|
+
"ULScript_Tai_Viet", // 78 Tavt
|
322
|
+
"ULScript_Avestan", // 79 Avst
|
323
|
+
"ULScript_Egyptian_Hieroglyphs", // 80 Egyp
|
324
|
+
"ULScript_Samaritan", // 81 Samr
|
325
|
+
"ULScript_Lisu", // 82 Lisu
|
326
|
+
"ULScript_Bamum", // 83 Bamu
|
327
|
+
"ULScript_Javanese", // 84 Java
|
328
|
+
"ULScript_Meetei_Mayek", // 85 Mtei
|
329
|
+
"ULScript_Imperial_Aramaic", // 86 Armi
|
330
|
+
"ULScript_Old_South_Arabian", // 87 Sarb
|
331
|
+
"ULScript_Inscriptional_Parthian", // 88 Prti
|
332
|
+
"ULScript_Inscriptional_Pahlavi", // 89 Phli
|
333
|
+
"ULScript_Old_Turkic", // 90 Orkh
|
334
|
+
"ULScript_Kaithi", // 91 Kthi
|
335
|
+
"ULScript_Batak", // 92 Batk
|
336
|
+
"ULScript_Brahmi", // 93 Brah
|
337
|
+
"ULScript_Mandaic", // 94 Mand
|
338
|
+
"ULScript_Chakma", // 95 Cakm
|
339
|
+
"ULScript_Meroitic_Cursive", // 96 Merc
|
340
|
+
"ULScript_Meroitic_Hieroglyphs", // 97 Mero
|
341
|
+
"ULScript_Miao", // 98 Plrd
|
342
|
+
"ULScript_Sharada", // 99 Shrd
|
343
|
+
"ULScript_Sora_Sompeng", // 100 Sora
|
344
|
+
"ULScript_Takri", // 101 Takr
|
345
|
+
};
|
346
|
+
|
347
|
+
// Subscripted by enum ULScript
|
348
|
+
extern const int kULScriptToRtypeSize = 102;
|
349
|
+
extern const ULScriptRType kULScriptToRtype[kULScriptToRtypeSize] = {
|
350
|
+
RTypeNone, // 0 Zyyy
|
351
|
+
RTypeMany, // 1 Latn
|
352
|
+
RTypeOne, // 2 Grek
|
353
|
+
RTypeMany, // 3 Cyrl
|
354
|
+
RTypeOne, // 4 Armn
|
355
|
+
RTypeMany, // 5 Hebr
|
356
|
+
RTypeMany, // 6 Arab
|
357
|
+
RTypeOne, // 7 Syrc
|
358
|
+
RTypeOne, // 8 Thaa
|
359
|
+
RTypeMany, // 9 Deva
|
360
|
+
RTypeMany, // 10 Beng
|
361
|
+
RTypeOne, // 11 Guru
|
362
|
+
RTypeOne, // 12 Gujr
|
363
|
+
RTypeOne, // 13 Orya
|
364
|
+
RTypeOne, // 14 Taml
|
365
|
+
RTypeOne, // 15 Telu
|
366
|
+
RTypeOne, // 16 Knda
|
367
|
+
RTypeOne, // 17 Mlym
|
368
|
+
RTypeOne, // 18 Sinh
|
369
|
+
RTypeOne, // 19 Thai
|
370
|
+
RTypeOne, // 20 Laoo
|
371
|
+
RTypeMany, // 21 Tibt
|
372
|
+
RTypeOne, // 22 Mymr
|
373
|
+
RTypeOne, // 23 Geor
|
374
|
+
RTypeCJK, // 24 Hani
|
375
|
+
RTypeMany, // 25 Ethi
|
376
|
+
RTypeOne, // 26 Cher
|
377
|
+
RTypeOne, // 27 Cans
|
378
|
+
RTypeNone, // 28 Ogam
|
379
|
+
RTypeNone, // 29 Runr
|
380
|
+
RTypeOne, // 30 Khmr
|
381
|
+
RTypeOne, // 31 Mong
|
382
|
+
RTypeNone, // 32
|
383
|
+
RTypeNone, // 33
|
384
|
+
RTypeNone, // 34 Bopo
|
385
|
+
RTypeNone, // 35
|
386
|
+
RTypeNone, // 36 Yiii
|
387
|
+
RTypeNone, // 37 Ital
|
388
|
+
RTypeNone, // 38 Goth
|
389
|
+
RTypeNone, // 39 Dsrt
|
390
|
+
RTypeNone, // 40 Zinh
|
391
|
+
RTypeOne, // 41 Tglg
|
392
|
+
RTypeNone, // 42 Hano
|
393
|
+
RTypeNone, // 43 Buhd
|
394
|
+
RTypeNone, // 44 Tagb
|
395
|
+
RTypeOne, // 45 Limb
|
396
|
+
RTypeNone, // 46 Tale
|
397
|
+
RTypeNone, // 47 Linb
|
398
|
+
RTypeNone, // 48 Ugar
|
399
|
+
RTypeNone, // 49 Shaw
|
400
|
+
RTypeNone, // 50 Osma
|
401
|
+
RTypeNone, // 51 Cprt
|
402
|
+
RTypeNone, // 52 Brai
|
403
|
+
RTypeNone, // 53 Bugi
|
404
|
+
RTypeNone, // 54 Copt
|
405
|
+
RTypeNone, // 55 Talu
|
406
|
+
RTypeNone, // 56 Glag
|
407
|
+
RTypeNone, // 57 Tfng
|
408
|
+
RTypeNone, // 58 Sylo
|
409
|
+
RTypeNone, // 59 Xpeo
|
410
|
+
RTypeNone, // 60 Khar
|
411
|
+
RTypeNone, // 61 Bali
|
412
|
+
RTypeNone, // 62 Xsux
|
413
|
+
RTypeNone, // 63 Phnx
|
414
|
+
RTypeNone, // 64 Phag
|
415
|
+
RTypeNone, // 65 Nkoo
|
416
|
+
RTypeNone, // 66 Sund
|
417
|
+
RTypeNone, // 67 Lepc
|
418
|
+
RTypeNone, // 68 Olck
|
419
|
+
RTypeNone, // 69 Vaii
|
420
|
+
RTypeNone, // 70 Saur
|
421
|
+
RTypeNone, // 71 Kali
|
422
|
+
RTypeNone, // 72 Rjng
|
423
|
+
RTypeNone, // 73 Lyci
|
424
|
+
RTypeNone, // 74 Cari
|
425
|
+
RTypeNone, // 75 Lydi
|
426
|
+
RTypeNone, // 76 Cham
|
427
|
+
RTypeNone, // 77 Lana
|
428
|
+
RTypeNone, // 78 Tavt
|
429
|
+
RTypeNone, // 79 Avst
|
430
|
+
RTypeNone, // 80 Egyp
|
431
|
+
RTypeNone, // 81 Samr
|
432
|
+
RTypeNone, // 82 Lisu
|
433
|
+
RTypeNone, // 83 Bamu
|
434
|
+
RTypeNone, // 84 Java
|
435
|
+
RTypeNone, // 85 Mtei
|
436
|
+
RTypeNone, // 86 Armi
|
437
|
+
RTypeNone, // 87 Sarb
|
438
|
+
RTypeNone, // 88 Prti
|
439
|
+
RTypeNone, // 89 Phli
|
440
|
+
RTypeNone, // 90 Orkh
|
441
|
+
RTypeNone, // 91 Kthi
|
442
|
+
RTypeNone, // 92 Batk
|
443
|
+
RTypeNone, // 93 Brah
|
444
|
+
RTypeNone, // 94 Mand
|
445
|
+
RTypeNone, // 95 Cakm
|
446
|
+
RTypeNone, // 96 Merc
|
447
|
+
RTypeNone, // 97 Mero
|
448
|
+
RTypeNone, // 98 Plrd
|
449
|
+
RTypeNone, // 99 Shrd
|
450
|
+
RTypeNone, // 100 Sora
|
451
|
+
RTypeNone, // 101 Takr
|
452
|
+
};
|
453
|
+
|
454
|
+
// Subscripted by enum ULScript
|
455
|
+
extern const int kULScriptToDefaultLangSize = 102;
|
456
|
+
|
457
|
+
// Alphabetical order for binary search
|
458
|
+
extern const int kNameToULScriptSize = 105;
|
459
|
+
extern const CharIntPair kNameToULScript[kNameToULScriptSize] = {
|
460
|
+
{"Arabic", 6}, // Arab
|
461
|
+
{"Armenian", 4}, // Armn
|
462
|
+
{"Avestan", 79}, // Avst
|
463
|
+
{"Balinese", 61}, // Bali
|
464
|
+
{"Bamum", 83}, // Bamu
|
465
|
+
{"Batak", 92}, // Batk
|
466
|
+
{"Bengali", 10}, // Beng
|
467
|
+
{"Bopomofo", 34}, // Bopo
|
468
|
+
{"Brahmi", 93}, // Brah
|
469
|
+
{"Braille", 52}, // Brai
|
470
|
+
{"Buginese", 53}, // Bugi
|
471
|
+
{"Buhid", 43}, // Buhd
|
472
|
+
{"Canadian_Aboriginal", 27}, // Cans
|
473
|
+
{"Carian", 74}, // Cari
|
474
|
+
{"Chakma", 95}, // Cakm
|
475
|
+
{"Cham", 76}, // Cham
|
476
|
+
{"Cherokee", 26}, // Cher
|
477
|
+
{"Common", 0}, // Zyyy
|
478
|
+
{"Coptic", 54}, // Copt
|
479
|
+
{"Cuneiform", 62}, // Xsux
|
480
|
+
{"Cypriot", 51}, // Cprt
|
481
|
+
{"Cyrillic", 3}, // Cyrl
|
482
|
+
{"Deseret", 39}, // Dsrt
|
483
|
+
{"Devanagari", 9}, // Deva
|
484
|
+
{"Egyptian_Hieroglyphs", 80}, // Egyp
|
485
|
+
{"Ethiopic", 25}, // Ethi
|
486
|
+
{"Georgian", 23}, // Geor
|
487
|
+
{"Glagolitic", 56}, // Glag
|
488
|
+
{"Gothic", 38}, // Goth
|
489
|
+
{"Greek", 2}, // Grek
|
490
|
+
{"Gujarati", 12}, // Gujr
|
491
|
+
{"Gurmukhi", 11}, // Guru
|
492
|
+
{"Han", 24}, // Hant
|
493
|
+
{"Han", 24}, // Hans
|
494
|
+
{"Han", 24}, // Hani
|
495
|
+
{"Hangul", 24}, // Hang
|
496
|
+
{"Hani", 24}, // Hani
|
497
|
+
{"Hanunoo", 42}, // Hano
|
498
|
+
{"Hebrew", 5}, // Hebr
|
499
|
+
{"Hiragana", 24}, // Hira
|
500
|
+
{"Imperial_Aramaic", 86}, // Armi
|
501
|
+
{"Inherited", 40}, // Zinh
|
502
|
+
{"Inscriptional_Pahlavi", 89}, // Phli
|
503
|
+
{"Inscriptional_Parthian", 88}, // Prti
|
504
|
+
{"Javanese", 84}, // Java
|
505
|
+
{"Kaithi", 91}, // Kthi
|
506
|
+
{"Kannada", 16}, // Knda
|
507
|
+
{"Katakana", 24}, // Kana
|
508
|
+
{"Kayah_Li", 71}, // Kali
|
509
|
+
{"Kharoshthi", 60}, // Khar
|
510
|
+
{"Khmer", 30}, // Khmr
|
511
|
+
{"Lao", 20}, // Laoo
|
512
|
+
{"Latin", 1}, // Latn
|
513
|
+
{"Lepcha", 67}, // Lepc
|
514
|
+
{"Limbu", 45}, // Limb
|
515
|
+
{"Linear_B", 47}, // Linb
|
516
|
+
{"Lisu", 82}, // Lisu
|
517
|
+
{"Lycian", 73}, // Lyci
|
518
|
+
{"Lydian", 75}, // Lydi
|
519
|
+
{"Malayalam", 17}, // Mlym
|
520
|
+
{"Mandaic", 94}, // Mand
|
521
|
+
{"Meetei_Mayek", 85}, // Mtei
|
522
|
+
{"Meroitic_Cursive", 96}, // Merc
|
523
|
+
{"Meroitic_Hieroglyphs", 97}, // Mero
|
524
|
+
{"Miao", 98}, // Plrd
|
525
|
+
{"Mongolian", 31}, // Mong
|
526
|
+
{"Myanmar", 22}, // Mymr
|
527
|
+
{"New_Tai_Lue", 55}, // Talu
|
528
|
+
{"Nko", 65}, // Nkoo
|
529
|
+
{"Ogham", 28}, // Ogam
|
530
|
+
{"Ol_Chiki", 68}, // Olck
|
531
|
+
{"Old_Italic", 37}, // Ital
|
532
|
+
{"Old_Persian", 59}, // Xpeo
|
533
|
+
{"Old_South_Arabian", 87}, // Sarb
|
534
|
+
{"Old_Turkic", 90}, // Orkh
|
535
|
+
{"Oriya", 13}, // Orya
|
536
|
+
{"Osmanya", 50}, // Osma
|
537
|
+
{"Phags_Pa", 64}, // Phag
|
538
|
+
{"Phoenician", 63}, // Phnx
|
539
|
+
{"Rejang", 72}, // Rjng
|
540
|
+
{"Runic", 29}, // Runr
|
541
|
+
{"Samaritan", 81}, // Samr
|
542
|
+
{"Saurashtra", 70}, // Saur
|
543
|
+
{"Sharada", 99}, // Shrd
|
544
|
+
{"Shavian", 49}, // Shaw
|
545
|
+
{"Sinhala", 18}, // Sinh
|
546
|
+
{"Sora_Sompeng", 100}, // Sora
|
547
|
+
{"Sundanese", 66}, // Sund
|
548
|
+
{"Syloti_Nagri", 58}, // Sylo
|
549
|
+
{"Syriac", 7}, // Syrc
|
550
|
+
{"Tagalog", 41}, // Tglg
|
551
|
+
{"Tagbanwa", 44}, // Tagb
|
552
|
+
{"Tai_Le", 46}, // Tale
|
553
|
+
{"Tai_Tham", 77}, // Lana
|
554
|
+
{"Tai_Viet", 78}, // Tavt
|
555
|
+
{"Takri", 101}, // Takr
|
556
|
+
{"Tamil", 14}, // Taml
|
557
|
+
{"Telugu", 15}, // Telu
|
558
|
+
{"Thaana", 8}, // Thaa
|
559
|
+
{"Thai", 19}, // Thai
|
560
|
+
{"Tibetan", 21}, // Tibt
|
561
|
+
{"Tifinagh", 57}, // Tfng
|
562
|
+
{"Ugaritic", 48}, // Ugar
|
563
|
+
{"Vai", 69}, // Vaii
|
564
|
+
{"Yi", 36}, // Yiii
|
565
|
+
};
|
566
|
+
|
567
|
+
// Alphabetical order for binary search
|
568
|
+
extern const int kCodeToULScriptSize = 105;
|
569
|
+
extern const CharIntPair kCodeToULScript[kNameToULScriptSize] = {
|
570
|
+
{"Arab", 6}, // Arab
|
571
|
+
{"Armi", 86}, // Armi
|
572
|
+
{"Armn", 4}, // Armn
|
573
|
+
{"Avst", 79}, // Avst
|
574
|
+
{"Bali", 61}, // Bali
|
575
|
+
{"Bamu", 83}, // Bamu
|
576
|
+
{"Batk", 92}, // Batk
|
577
|
+
{"Beng", 10}, // Beng
|
578
|
+
{"Bopo", 34}, // Bopo
|
579
|
+
{"Brah", 93}, // Brah
|
580
|
+
{"Brai", 52}, // Brai
|
581
|
+
{"Bugi", 53}, // Bugi
|
582
|
+
{"Buhd", 43}, // Buhd
|
583
|
+
{"Cakm", 95}, // Cakm
|
584
|
+
{"Cans", 27}, // Cans
|
585
|
+
{"Cari", 74}, // Cari
|
586
|
+
{"Cham", 76}, // Cham
|
587
|
+
{"Cher", 26}, // Cher
|
588
|
+
{"Copt", 54}, // Copt
|
589
|
+
{"Cprt", 51}, // Cprt
|
590
|
+
{"Cyrl", 3}, // Cyrl
|
591
|
+
{"Deva", 9}, // Deva
|
592
|
+
{"Dsrt", 39}, // Dsrt
|
593
|
+
{"Egyp", 80}, // Egyp
|
594
|
+
{"Ethi", 25}, // Ethi
|
595
|
+
{"Geor", 23}, // Geor
|
596
|
+
{"Glag", 56}, // Glag
|
597
|
+
{"Goth", 38}, // Goth
|
598
|
+
{"Grek", 2}, // Grek
|
599
|
+
{"Gujr", 12}, // Gujr
|
600
|
+
{"Guru", 11}, // Guru
|
601
|
+
{"Hang", 24}, // Hang
|
602
|
+
{"Hani", 24}, // Hani
|
603
|
+
{"Hani", 24}, // Hani
|
604
|
+
{"Hano", 42}, // Hano
|
605
|
+
{"Hans", 24}, // Hans
|
606
|
+
{"Hant", 24}, // Hant
|
607
|
+
{"Hebr", 5}, // Hebr
|
608
|
+
{"Hira", 24}, // Hira
|
609
|
+
{"Ital", 37}, // Ital
|
610
|
+
{"Java", 84}, // Java
|
611
|
+
{"Kali", 71}, // Kali
|
612
|
+
{"Kana", 24}, // Kana
|
613
|
+
{"Khar", 60}, // Khar
|
614
|
+
{"Khmr", 30}, // Khmr
|
615
|
+
{"Knda", 16}, // Knda
|
616
|
+
{"Kthi", 91}, // Kthi
|
617
|
+
{"Lana", 77}, // Lana
|
618
|
+
{"Laoo", 20}, // Laoo
|
619
|
+
{"Latn", 1}, // Latn
|
620
|
+
{"Lepc", 67}, // Lepc
|
621
|
+
{"Limb", 45}, // Limb
|
622
|
+
{"Linb", 47}, // Linb
|
623
|
+
{"Lisu", 82}, // Lisu
|
624
|
+
{"Lyci", 73}, // Lyci
|
625
|
+
{"Lydi", 75}, // Lydi
|
626
|
+
{"Mand", 94}, // Mand
|
627
|
+
{"Merc", 96}, // Merc
|
628
|
+
{"Mero", 97}, // Mero
|
629
|
+
{"Mlym", 17}, // Mlym
|
630
|
+
{"Mong", 31}, // Mong
|
631
|
+
{"Mtei", 85}, // Mtei
|
632
|
+
{"Mymr", 22}, // Mymr
|
633
|
+
{"Nkoo", 65}, // Nkoo
|
634
|
+
{"Ogam", 28}, // Ogam
|
635
|
+
{"Olck", 68}, // Olck
|
636
|
+
{"Orkh", 90}, // Orkh
|
637
|
+
{"Orya", 13}, // Orya
|
638
|
+
{"Osma", 50}, // Osma
|
639
|
+
{"Phag", 64}, // Phag
|
640
|
+
{"Phli", 89}, // Phli
|
641
|
+
{"Phnx", 63}, // Phnx
|
642
|
+
{"Plrd", 98}, // Plrd
|
643
|
+
{"Prti", 88}, // Prti
|
644
|
+
{"Rjng", 72}, // Rjng
|
645
|
+
{"Runr", 29}, // Runr
|
646
|
+
{"Samr", 81}, // Samr
|
647
|
+
{"Sarb", 87}, // Sarb
|
648
|
+
{"Saur", 70}, // Saur
|
649
|
+
{"Shaw", 49}, // Shaw
|
650
|
+
{"Shrd", 99}, // Shrd
|
651
|
+
{"Sinh", 18}, // Sinh
|
652
|
+
{"Sora", 100}, // Sora
|
653
|
+
{"Sund", 66}, // Sund
|
654
|
+
{"Sylo", 58}, // Sylo
|
655
|
+
{"Syrc", 7}, // Syrc
|
656
|
+
{"Tagb", 44}, // Tagb
|
657
|
+
{"Takr", 101}, // Takr
|
658
|
+
{"Tale", 46}, // Tale
|
659
|
+
{"Talu", 55}, // Talu
|
660
|
+
{"Taml", 14}, // Taml
|
661
|
+
{"Tavt", 78}, // Tavt
|
662
|
+
{"Telu", 15}, // Telu
|
663
|
+
{"Tfng", 57}, // Tfng
|
664
|
+
{"Tglg", 41}, // Tglg
|
665
|
+
{"Thaa", 8}, // Thaa
|
666
|
+
{"Thai", 19}, // Thai
|
667
|
+
{"Tibt", 21}, // Tibt
|
668
|
+
{"Ugar", 48}, // Ugar
|
669
|
+
{"Vaii", 69}, // Vaii
|
670
|
+
{"Xpeo", 59}, // Xpeo
|
671
|
+
{"Xsux", 62}, // Xsux
|
672
|
+
{"Yiii", 36}, // Yiii
|
673
|
+
{"Zinh", 40}, // Zinh
|
674
|
+
{"Zyyy", 0}, // Zyyy
|
675
|
+
};
|
676
|
+
|
677
|
+
} // namespace CLD2
|
678
|
+
} // namespace chrome_lang_id
|