cld3 3.1.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (72) hide show
  1. checksums.yaml +7 -0
  2. data/Gemfile +18 -0
  3. data/LICENSE +204 -0
  4. data/LICENSE_CLD3 +203 -0
  5. data/README.md +22 -0
  6. data/cld3.gemspec +35 -0
  7. data/ext/cld3/base.cc +36 -0
  8. data/ext/cld3/base.h +106 -0
  9. data/ext/cld3/casts.h +98 -0
  10. data/ext/cld3/embedding_feature_extractor.cc +51 -0
  11. data/ext/cld3/embedding_feature_extractor.h +182 -0
  12. data/ext/cld3/embedding_network.cc +196 -0
  13. data/ext/cld3/embedding_network.h +186 -0
  14. data/ext/cld3/embedding_network_params.h +285 -0
  15. data/ext/cld3/extconf.rb +49 -0
  16. data/ext/cld3/feature_extractor.cc +137 -0
  17. data/ext/cld3/feature_extractor.h +633 -0
  18. data/ext/cld3/feature_extractor.proto +50 -0
  19. data/ext/cld3/feature_types.cc +72 -0
  20. data/ext/cld3/feature_types.h +158 -0
  21. data/ext/cld3/fixunicodevalue.cc +55 -0
  22. data/ext/cld3/fixunicodevalue.h +69 -0
  23. data/ext/cld3/float16.h +58 -0
  24. data/ext/cld3/fml_parser.cc +308 -0
  25. data/ext/cld3/fml_parser.h +123 -0
  26. data/ext/cld3/generated_entities.cc +296 -0
  27. data/ext/cld3/generated_ulscript.cc +678 -0
  28. data/ext/cld3/generated_ulscript.h +142 -0
  29. data/ext/cld3/getonescriptspan.cc +1109 -0
  30. data/ext/cld3/getonescriptspan.h +124 -0
  31. data/ext/cld3/integral_types.h +37 -0
  32. data/ext/cld3/lang_id_nn_params.cc +57449 -0
  33. data/ext/cld3/lang_id_nn_params.h +178 -0
  34. data/ext/cld3/language_identifier_features.cc +165 -0
  35. data/ext/cld3/language_identifier_features.h +116 -0
  36. data/ext/cld3/nnet_language_identifier.cc +380 -0
  37. data/ext/cld3/nnet_language_identifier.h +175 -0
  38. data/ext/cld3/nnet_language_identifier_c.cc +72 -0
  39. data/ext/cld3/offsetmap.cc +478 -0
  40. data/ext/cld3/offsetmap.h +168 -0
  41. data/ext/cld3/port.h +143 -0
  42. data/ext/cld3/registry.cc +28 -0
  43. data/ext/cld3/registry.h +242 -0
  44. data/ext/cld3/relevant_script_feature.cc +89 -0
  45. data/ext/cld3/relevant_script_feature.h +49 -0
  46. data/ext/cld3/script_detector.h +156 -0
  47. data/ext/cld3/sentence.proto +77 -0
  48. data/ext/cld3/sentence_features.cc +29 -0
  49. data/ext/cld3/sentence_features.h +35 -0
  50. data/ext/cld3/simple_adder.h +72 -0
  51. data/ext/cld3/stringpiece.h +81 -0
  52. data/ext/cld3/task_context.cc +161 -0
  53. data/ext/cld3/task_context.h +81 -0
  54. data/ext/cld3/task_context_params.cc +74 -0
  55. data/ext/cld3/task_context_params.h +54 -0
  56. data/ext/cld3/task_spec.proto +98 -0
  57. data/ext/cld3/text_processing.cc +245 -0
  58. data/ext/cld3/text_processing.h +30 -0
  59. data/ext/cld3/unicodetext.cc +96 -0
  60. data/ext/cld3/unicodetext.h +144 -0
  61. data/ext/cld3/utf8acceptinterchange.h +486 -0
  62. data/ext/cld3/utf8prop_lettermarkscriptnum.h +1631 -0
  63. data/ext/cld3/utf8repl_lettermarklower.h +758 -0
  64. data/ext/cld3/utf8scannot_lettermarkspecial.h +1455 -0
  65. data/ext/cld3/utf8statetable.cc +1344 -0
  66. data/ext/cld3/utf8statetable.h +285 -0
  67. data/ext/cld3/utils.cc +241 -0
  68. data/ext/cld3/utils.h +144 -0
  69. data/ext/cld3/workspace.cc +64 -0
  70. data/ext/cld3/workspace.h +177 -0
  71. data/lib/cld3.rb +99 -0
  72. metadata +158 -0
@@ -0,0 +1,678 @@
1
+ // Copyright 2013 Google Inc. All Rights Reserved.
2
+ //
3
+ // Licensed under the Apache License, Version 2.0 (the "License");
4
+ // you may not use this file except in compliance with the License.
5
+ // You may obtain a copy of the License at
6
+ //
7
+ // http://www.apache.org/licenses/LICENSE-2.0
8
+ //
9
+ // Unless required by applicable law or agreed to in writing, software
10
+ // distributed under the License is distributed on an "AS IS" BASIS,
11
+ // WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
12
+ // See the License for the specific language governing permissions and
13
+ // limitations under the License.
14
+
15
+ // generated_ulscript.cc
16
+ // Machine generated. Do Not Edit.
17
+ //
18
+ // Declarations for scripts recognized by CLD2
19
+ //
20
+
21
+ #include "generated_ulscript.h"
22
+
23
+ namespace chrome_lang_id {
24
+ namespace CLD2 {
25
+
26
+ // Subscripted by enum ULScript
27
+ extern const int kULScriptToNameSize = 102;
28
+ extern const char* const kULScriptToName[kULScriptToNameSize] = {
29
+ "Common", // 0 Zyyy
30
+ "Latin", // 1 Latn
31
+ "Greek", // 2 Grek
32
+ "Cyrillic", // 3 Cyrl
33
+ "Armenian", // 4 Armn
34
+ "Hebrew", // 5 Hebr
35
+ "Arabic", // 6 Arab
36
+ "Syriac", // 7 Syrc
37
+ "Thaana", // 8 Thaa
38
+ "Devanagari", // 9 Deva
39
+ "Bengali", // 10 Beng
40
+ "Gurmukhi", // 11 Guru
41
+ "Gujarati", // 12 Gujr
42
+ "Oriya", // 13 Orya
43
+ "Tamil", // 14 Taml
44
+ "Telugu", // 15 Telu
45
+ "Kannada", // 16 Knda
46
+ "Malayalam", // 17 Mlym
47
+ "Sinhala", // 18 Sinh
48
+ "Thai", // 19 Thai
49
+ "Lao", // 20 Laoo
50
+ "Tibetan", // 21 Tibt
51
+ "Myanmar", // 22 Mymr
52
+ "Georgian", // 23 Geor
53
+ "Hani", // 24 Hani
54
+ "Ethiopic", // 25 Ethi
55
+ "Cherokee", // 26 Cher
56
+ "Canadian_Aboriginal", // 27 Cans
57
+ "Ogham", // 28 Ogam
58
+ "Runic", // 29 Runr
59
+ "Khmer", // 30 Khmr
60
+ "Mongolian", // 31 Mong
61
+ "", // 32
62
+ "", // 33
63
+ "Bopomofo", // 34 Bopo
64
+ "", // 35
65
+ "Yi", // 36 Yiii
66
+ "Old_Italic", // 37 Ital
67
+ "Gothic", // 38 Goth
68
+ "Deseret", // 39 Dsrt
69
+ "Inherited", // 40 Zinh
70
+ "Tagalog", // 41 Tglg
71
+ "Hanunoo", // 42 Hano
72
+ "Buhid", // 43 Buhd
73
+ "Tagbanwa", // 44 Tagb
74
+ "Limbu", // 45 Limb
75
+ "Tai_Le", // 46 Tale
76
+ "Linear_B", // 47 Linb
77
+ "Ugaritic", // 48 Ugar
78
+ "Shavian", // 49 Shaw
79
+ "Osmanya", // 50 Osma
80
+ "Cypriot", // 51 Cprt
81
+ "Braille", // 52 Brai
82
+ "Buginese", // 53 Bugi
83
+ "Coptic", // 54 Copt
84
+ "New_Tai_Lue", // 55 Talu
85
+ "Glagolitic", // 56 Glag
86
+ "Tifinagh", // 57 Tfng
87
+ "Syloti_Nagri", // 58 Sylo
88
+ "Old_Persian", // 59 Xpeo
89
+ "Kharoshthi", // 60 Khar
90
+ "Balinese", // 61 Bali
91
+ "Cuneiform", // 62 Xsux
92
+ "Phoenician", // 63 Phnx
93
+ "Phags_Pa", // 64 Phag
94
+ "Nko", // 65 Nkoo
95
+ "Sundanese", // 66 Sund
96
+ "Lepcha", // 67 Lepc
97
+ "Ol_Chiki", // 68 Olck
98
+ "Vai", // 69 Vaii
99
+ "Saurashtra", // 70 Saur
100
+ "Kayah_Li", // 71 Kali
101
+ "Rejang", // 72 Rjng
102
+ "Lycian", // 73 Lyci
103
+ "Carian", // 74 Cari
104
+ "Lydian", // 75 Lydi
105
+ "Cham", // 76 Cham
106
+ "Tai_Tham", // 77 Lana
107
+ "Tai_Viet", // 78 Tavt
108
+ "Avestan", // 79 Avst
109
+ "Egyptian_Hieroglyphs", // 80 Egyp
110
+ "Samaritan", // 81 Samr
111
+ "Lisu", // 82 Lisu
112
+ "Bamum", // 83 Bamu
113
+ "Javanese", // 84 Java
114
+ "Meetei_Mayek", // 85 Mtei
115
+ "Imperial_Aramaic", // 86 Armi
116
+ "Old_South_Arabian", // 87 Sarb
117
+ "Inscriptional_Parthian", // 88 Prti
118
+ "Inscriptional_Pahlavi", // 89 Phli
119
+ "Old_Turkic", // 90 Orkh
120
+ "Kaithi", // 91 Kthi
121
+ "Batak", // 92 Batk
122
+ "Brahmi", // 93 Brah
123
+ "Mandaic", // 94 Mand
124
+ "Chakma", // 95 Cakm
125
+ "Meroitic_Cursive", // 96 Merc
126
+ "Meroitic_Hieroglyphs", // 97 Mero
127
+ "Miao", // 98 Plrd
128
+ "Sharada", // 99 Shrd
129
+ "Sora_Sompeng", // 100 Sora
130
+ "Takri", // 101 Takr
131
+ };
132
+
133
+ // Subscripted by enum ULScript
134
+ extern const int kULScriptToCodeSize = 102;
135
+ extern const char* const kULScriptToCode[kULScriptToCodeSize] = {
136
+ "Zyyy", // 0 Common
137
+ "Latn", // 1 Latin
138
+ "Grek", // 2 Greek
139
+ "Cyrl", // 3 Cyrillic
140
+ "Armn", // 4 Armenian
141
+ "Hebr", // 5 Hebrew
142
+ "Arab", // 6 Arabic
143
+ "Syrc", // 7 Syriac
144
+ "Thaa", // 8 Thaana
145
+ "Deva", // 9 Devanagari
146
+ "Beng", // 10 Bengali
147
+ "Guru", // 11 Gurmukhi
148
+ "Gujr", // 12 Gujarati
149
+ "Orya", // 13 Oriya
150
+ "Taml", // 14 Tamil
151
+ "Telu", // 15 Telugu
152
+ "Knda", // 16 Kannada
153
+ "Mlym", // 17 Malayalam
154
+ "Sinh", // 18 Sinhala
155
+ "Thai", // 19 Thai
156
+ "Laoo", // 20 Lao
157
+ "Tibt", // 21 Tibetan
158
+ "Mymr", // 22 Myanmar
159
+ "Geor", // 23 Georgian
160
+ "Hani", // 24 Hani
161
+ "Ethi", // 25 Ethiopic
162
+ "Cher", // 26 Cherokee
163
+ "Cans", // 27 Canadian_Aboriginal
164
+ "Ogam", // 28 Ogham
165
+ "Runr", // 29 Runic
166
+ "Khmr", // 30 Khmer
167
+ "Mong", // 31 Mongolian
168
+ "", // 32
169
+ "", // 33
170
+ "Bopo", // 34 Bopomofo
171
+ "", // 35
172
+ "Yiii", // 36 Yi
173
+ "Ital", // 37 Old_Italic
174
+ "Goth", // 38 Gothic
175
+ "Dsrt", // 39 Deseret
176
+ "Zinh", // 40 Inherited
177
+ "Tglg", // 41 Tagalog
178
+ "Hano", // 42 Hanunoo
179
+ "Buhd", // 43 Buhid
180
+ "Tagb", // 44 Tagbanwa
181
+ "Limb", // 45 Limbu
182
+ "Tale", // 46 Tai_Le
183
+ "Linb", // 47 Linear_B
184
+ "Ugar", // 48 Ugaritic
185
+ "Shaw", // 49 Shavian
186
+ "Osma", // 50 Osmanya
187
+ "Cprt", // 51 Cypriot
188
+ "Brai", // 52 Braille
189
+ "Bugi", // 53 Buginese
190
+ "Copt", // 54 Coptic
191
+ "Talu", // 55 New_Tai_Lue
192
+ "Glag", // 56 Glagolitic
193
+ "Tfng", // 57 Tifinagh
194
+ "Sylo", // 58 Syloti_Nagri
195
+ "Xpeo", // 59 Old_Persian
196
+ "Khar", // 60 Kharoshthi
197
+ "Bali", // 61 Balinese
198
+ "Xsux", // 62 Cuneiform
199
+ "Phnx", // 63 Phoenician
200
+ "Phag", // 64 Phags_Pa
201
+ "Nkoo", // 65 Nko
202
+ "Sund", // 66 Sundanese
203
+ "Lepc", // 67 Lepcha
204
+ "Olck", // 68 Ol_Chiki
205
+ "Vaii", // 69 Vai
206
+ "Saur", // 70 Saurashtra
207
+ "Kali", // 71 Kayah_Li
208
+ "Rjng", // 72 Rejang
209
+ "Lyci", // 73 Lycian
210
+ "Cari", // 74 Carian
211
+ "Lydi", // 75 Lydian
212
+ "Cham", // 76 Cham
213
+ "Lana", // 77 Tai_Tham
214
+ "Tavt", // 78 Tai_Viet
215
+ "Avst", // 79 Avestan
216
+ "Egyp", // 80 Egyptian_Hieroglyphs
217
+ "Samr", // 81 Samaritan
218
+ "Lisu", // 82 Lisu
219
+ "Bamu", // 83 Bamum
220
+ "Java", // 84 Javanese
221
+ "Mtei", // 85 Meetei_Mayek
222
+ "Armi", // 86 Imperial_Aramaic
223
+ "Sarb", // 87 Old_South_Arabian
224
+ "Prti", // 88 Inscriptional_Parthian
225
+ "Phli", // 89 Inscriptional_Pahlavi
226
+ "Orkh", // 90 Old_Turkic
227
+ "Kthi", // 91 Kaithi
228
+ "Batk", // 92 Batak
229
+ "Brah", // 93 Brahmi
230
+ "Mand", // 94 Mandaic
231
+ "Cakm", // 95 Chakma
232
+ "Merc", // 96 Meroitic_Cursive
233
+ "Mero", // 97 Meroitic_Hieroglyphs
234
+ "Plrd", // 98 Miao
235
+ "Shrd", // 99 Sharada
236
+ "Sora", // 100 Sora_Sompeng
237
+ "Takr", // 101 Takri
238
+ };
239
+
240
+ // Subscripted by enum ULScript
241
+ extern const int kULScriptToCNameSize = 102;
242
+ extern const char* const kULScriptToCName[kULScriptToCNameSize] = {
243
+ "ULScript_Common", // 0 Zyyy
244
+ "ULScript_Latin", // 1 Latn
245
+ "ULScript_Greek", // 2 Grek
246
+ "ULScript_Cyrillic", // 3 Cyrl
247
+ "ULScript_Armenian", // 4 Armn
248
+ "ULScript_Hebrew", // 5 Hebr
249
+ "ULScript_Arabic", // 6 Arab
250
+ "ULScript_Syriac", // 7 Syrc
251
+ "ULScript_Thaana", // 8 Thaa
252
+ "ULScript_Devanagari", // 9 Deva
253
+ "ULScript_Bengali", // 10 Beng
254
+ "ULScript_Gurmukhi", // 11 Guru
255
+ "ULScript_Gujarati", // 12 Gujr
256
+ "ULScript_Oriya", // 13 Orya
257
+ "ULScript_Tamil", // 14 Taml
258
+ "ULScript_Telugu", // 15 Telu
259
+ "ULScript_Kannada", // 16 Knda
260
+ "ULScript_Malayalam", // 17 Mlym
261
+ "ULScript_Sinhala", // 18 Sinh
262
+ "ULScript_Thai", // 19 Thai
263
+ "ULScript_Lao", // 20 Laoo
264
+ "ULScript_Tibetan", // 21 Tibt
265
+ "ULScript_Myanmar", // 22 Mymr
266
+ "ULScript_Georgian", // 23 Geor
267
+ "ULScript_Hani", // 24 Hani
268
+ "ULScript_Ethiopic", // 25 Ethi
269
+ "ULScript_Cherokee", // 26 Cher
270
+ "ULScript_Canadian_Aboriginal", // 27 Cans
271
+ "ULScript_Ogham", // 28 Ogam
272
+ "ULScript_Runic", // 29 Runr
273
+ "ULScript_Khmer", // 30 Khmr
274
+ "ULScript_Mongolian", // 31 Mong
275
+ "ULScript_32", // 32
276
+ "ULScript_33", // 33
277
+ "ULScript_Bopomofo", // 34 Bopo
278
+ "ULScript_35", // 35
279
+ "ULScript_Yi", // 36 Yiii
280
+ "ULScript_Old_Italic", // 37 Ital
281
+ "ULScript_Gothic", // 38 Goth
282
+ "ULScript_Deseret", // 39 Dsrt
283
+ "ULScript_Inherited", // 40 Zinh
284
+ "ULScript_Tagalog", // 41 Tglg
285
+ "ULScript_Hanunoo", // 42 Hano
286
+ "ULScript_Buhid", // 43 Buhd
287
+ "ULScript_Tagbanwa", // 44 Tagb
288
+ "ULScript_Limbu", // 45 Limb
289
+ "ULScript_Tai_Le", // 46 Tale
290
+ "ULScript_Linear_B", // 47 Linb
291
+ "ULScript_Ugaritic", // 48 Ugar
292
+ "ULScript_Shavian", // 49 Shaw
293
+ "ULScript_Osmanya", // 50 Osma
294
+ "ULScript_Cypriot", // 51 Cprt
295
+ "ULScript_Braille", // 52 Brai
296
+ "ULScript_Buginese", // 53 Bugi
297
+ "ULScript_Coptic", // 54 Copt
298
+ "ULScript_New_Tai_Lue", // 55 Talu
299
+ "ULScript_Glagolitic", // 56 Glag
300
+ "ULScript_Tifinagh", // 57 Tfng
301
+ "ULScript_Syloti_Nagri", // 58 Sylo
302
+ "ULScript_Old_Persian", // 59 Xpeo
303
+ "ULScript_Kharoshthi", // 60 Khar
304
+ "ULScript_Balinese", // 61 Bali
305
+ "ULScript_Cuneiform", // 62 Xsux
306
+ "ULScript_Phoenician", // 63 Phnx
307
+ "ULScript_Phags_Pa", // 64 Phag
308
+ "ULScript_Nko", // 65 Nkoo
309
+ "ULScript_Sundanese", // 66 Sund
310
+ "ULScript_Lepcha", // 67 Lepc
311
+ "ULScript_Ol_Chiki", // 68 Olck
312
+ "ULScript_Vai", // 69 Vaii
313
+ "ULScript_Saurashtra", // 70 Saur
314
+ "ULScript_Kayah_Li", // 71 Kali
315
+ "ULScript_Rejang", // 72 Rjng
316
+ "ULScript_Lycian", // 73 Lyci
317
+ "ULScript_Carian", // 74 Cari
318
+ "ULScript_Lydian", // 75 Lydi
319
+ "ULScript_Cham", // 76 Cham
320
+ "ULScript_Tai_Tham", // 77 Lana
321
+ "ULScript_Tai_Viet", // 78 Tavt
322
+ "ULScript_Avestan", // 79 Avst
323
+ "ULScript_Egyptian_Hieroglyphs", // 80 Egyp
324
+ "ULScript_Samaritan", // 81 Samr
325
+ "ULScript_Lisu", // 82 Lisu
326
+ "ULScript_Bamum", // 83 Bamu
327
+ "ULScript_Javanese", // 84 Java
328
+ "ULScript_Meetei_Mayek", // 85 Mtei
329
+ "ULScript_Imperial_Aramaic", // 86 Armi
330
+ "ULScript_Old_South_Arabian", // 87 Sarb
331
+ "ULScript_Inscriptional_Parthian", // 88 Prti
332
+ "ULScript_Inscriptional_Pahlavi", // 89 Phli
333
+ "ULScript_Old_Turkic", // 90 Orkh
334
+ "ULScript_Kaithi", // 91 Kthi
335
+ "ULScript_Batak", // 92 Batk
336
+ "ULScript_Brahmi", // 93 Brah
337
+ "ULScript_Mandaic", // 94 Mand
338
+ "ULScript_Chakma", // 95 Cakm
339
+ "ULScript_Meroitic_Cursive", // 96 Merc
340
+ "ULScript_Meroitic_Hieroglyphs", // 97 Mero
341
+ "ULScript_Miao", // 98 Plrd
342
+ "ULScript_Sharada", // 99 Shrd
343
+ "ULScript_Sora_Sompeng", // 100 Sora
344
+ "ULScript_Takri", // 101 Takr
345
+ };
346
+
347
+ // Subscripted by enum ULScript
348
+ extern const int kULScriptToRtypeSize = 102;
349
+ extern const ULScriptRType kULScriptToRtype[kULScriptToRtypeSize] = {
350
+ RTypeNone, // 0 Zyyy
351
+ RTypeMany, // 1 Latn
352
+ RTypeOne, // 2 Grek
353
+ RTypeMany, // 3 Cyrl
354
+ RTypeOne, // 4 Armn
355
+ RTypeMany, // 5 Hebr
356
+ RTypeMany, // 6 Arab
357
+ RTypeOne, // 7 Syrc
358
+ RTypeOne, // 8 Thaa
359
+ RTypeMany, // 9 Deva
360
+ RTypeMany, // 10 Beng
361
+ RTypeOne, // 11 Guru
362
+ RTypeOne, // 12 Gujr
363
+ RTypeOne, // 13 Orya
364
+ RTypeOne, // 14 Taml
365
+ RTypeOne, // 15 Telu
366
+ RTypeOne, // 16 Knda
367
+ RTypeOne, // 17 Mlym
368
+ RTypeOne, // 18 Sinh
369
+ RTypeOne, // 19 Thai
370
+ RTypeOne, // 20 Laoo
371
+ RTypeMany, // 21 Tibt
372
+ RTypeOne, // 22 Mymr
373
+ RTypeOne, // 23 Geor
374
+ RTypeCJK, // 24 Hani
375
+ RTypeMany, // 25 Ethi
376
+ RTypeOne, // 26 Cher
377
+ RTypeOne, // 27 Cans
378
+ RTypeNone, // 28 Ogam
379
+ RTypeNone, // 29 Runr
380
+ RTypeOne, // 30 Khmr
381
+ RTypeOne, // 31 Mong
382
+ RTypeNone, // 32
383
+ RTypeNone, // 33
384
+ RTypeNone, // 34 Bopo
385
+ RTypeNone, // 35
386
+ RTypeNone, // 36 Yiii
387
+ RTypeNone, // 37 Ital
388
+ RTypeNone, // 38 Goth
389
+ RTypeNone, // 39 Dsrt
390
+ RTypeNone, // 40 Zinh
391
+ RTypeOne, // 41 Tglg
392
+ RTypeNone, // 42 Hano
393
+ RTypeNone, // 43 Buhd
394
+ RTypeNone, // 44 Tagb
395
+ RTypeOne, // 45 Limb
396
+ RTypeNone, // 46 Tale
397
+ RTypeNone, // 47 Linb
398
+ RTypeNone, // 48 Ugar
399
+ RTypeNone, // 49 Shaw
400
+ RTypeNone, // 50 Osma
401
+ RTypeNone, // 51 Cprt
402
+ RTypeNone, // 52 Brai
403
+ RTypeNone, // 53 Bugi
404
+ RTypeNone, // 54 Copt
405
+ RTypeNone, // 55 Talu
406
+ RTypeNone, // 56 Glag
407
+ RTypeNone, // 57 Tfng
408
+ RTypeNone, // 58 Sylo
409
+ RTypeNone, // 59 Xpeo
410
+ RTypeNone, // 60 Khar
411
+ RTypeNone, // 61 Bali
412
+ RTypeNone, // 62 Xsux
413
+ RTypeNone, // 63 Phnx
414
+ RTypeNone, // 64 Phag
415
+ RTypeNone, // 65 Nkoo
416
+ RTypeNone, // 66 Sund
417
+ RTypeNone, // 67 Lepc
418
+ RTypeNone, // 68 Olck
419
+ RTypeNone, // 69 Vaii
420
+ RTypeNone, // 70 Saur
421
+ RTypeNone, // 71 Kali
422
+ RTypeNone, // 72 Rjng
423
+ RTypeNone, // 73 Lyci
424
+ RTypeNone, // 74 Cari
425
+ RTypeNone, // 75 Lydi
426
+ RTypeNone, // 76 Cham
427
+ RTypeNone, // 77 Lana
428
+ RTypeNone, // 78 Tavt
429
+ RTypeNone, // 79 Avst
430
+ RTypeNone, // 80 Egyp
431
+ RTypeNone, // 81 Samr
432
+ RTypeNone, // 82 Lisu
433
+ RTypeNone, // 83 Bamu
434
+ RTypeNone, // 84 Java
435
+ RTypeNone, // 85 Mtei
436
+ RTypeNone, // 86 Armi
437
+ RTypeNone, // 87 Sarb
438
+ RTypeNone, // 88 Prti
439
+ RTypeNone, // 89 Phli
440
+ RTypeNone, // 90 Orkh
441
+ RTypeNone, // 91 Kthi
442
+ RTypeNone, // 92 Batk
443
+ RTypeNone, // 93 Brah
444
+ RTypeNone, // 94 Mand
445
+ RTypeNone, // 95 Cakm
446
+ RTypeNone, // 96 Merc
447
+ RTypeNone, // 97 Mero
448
+ RTypeNone, // 98 Plrd
449
+ RTypeNone, // 99 Shrd
450
+ RTypeNone, // 100 Sora
451
+ RTypeNone, // 101 Takr
452
+ };
453
+
454
+ // Subscripted by enum ULScript
455
+ extern const int kULScriptToDefaultLangSize = 102;
456
+
457
+ // Alphabetical order for binary search
458
+ extern const int kNameToULScriptSize = 105;
459
+ extern const CharIntPair kNameToULScript[kNameToULScriptSize] = {
460
+ {"Arabic", 6}, // Arab
461
+ {"Armenian", 4}, // Armn
462
+ {"Avestan", 79}, // Avst
463
+ {"Balinese", 61}, // Bali
464
+ {"Bamum", 83}, // Bamu
465
+ {"Batak", 92}, // Batk
466
+ {"Bengali", 10}, // Beng
467
+ {"Bopomofo", 34}, // Bopo
468
+ {"Brahmi", 93}, // Brah
469
+ {"Braille", 52}, // Brai
470
+ {"Buginese", 53}, // Bugi
471
+ {"Buhid", 43}, // Buhd
472
+ {"Canadian_Aboriginal", 27}, // Cans
473
+ {"Carian", 74}, // Cari
474
+ {"Chakma", 95}, // Cakm
475
+ {"Cham", 76}, // Cham
476
+ {"Cherokee", 26}, // Cher
477
+ {"Common", 0}, // Zyyy
478
+ {"Coptic", 54}, // Copt
479
+ {"Cuneiform", 62}, // Xsux
480
+ {"Cypriot", 51}, // Cprt
481
+ {"Cyrillic", 3}, // Cyrl
482
+ {"Deseret", 39}, // Dsrt
483
+ {"Devanagari", 9}, // Deva
484
+ {"Egyptian_Hieroglyphs", 80}, // Egyp
485
+ {"Ethiopic", 25}, // Ethi
486
+ {"Georgian", 23}, // Geor
487
+ {"Glagolitic", 56}, // Glag
488
+ {"Gothic", 38}, // Goth
489
+ {"Greek", 2}, // Grek
490
+ {"Gujarati", 12}, // Gujr
491
+ {"Gurmukhi", 11}, // Guru
492
+ {"Han", 24}, // Hant
493
+ {"Han", 24}, // Hans
494
+ {"Han", 24}, // Hani
495
+ {"Hangul", 24}, // Hang
496
+ {"Hani", 24}, // Hani
497
+ {"Hanunoo", 42}, // Hano
498
+ {"Hebrew", 5}, // Hebr
499
+ {"Hiragana", 24}, // Hira
500
+ {"Imperial_Aramaic", 86}, // Armi
501
+ {"Inherited", 40}, // Zinh
502
+ {"Inscriptional_Pahlavi", 89}, // Phli
503
+ {"Inscriptional_Parthian", 88}, // Prti
504
+ {"Javanese", 84}, // Java
505
+ {"Kaithi", 91}, // Kthi
506
+ {"Kannada", 16}, // Knda
507
+ {"Katakana", 24}, // Kana
508
+ {"Kayah_Li", 71}, // Kali
509
+ {"Kharoshthi", 60}, // Khar
510
+ {"Khmer", 30}, // Khmr
511
+ {"Lao", 20}, // Laoo
512
+ {"Latin", 1}, // Latn
513
+ {"Lepcha", 67}, // Lepc
514
+ {"Limbu", 45}, // Limb
515
+ {"Linear_B", 47}, // Linb
516
+ {"Lisu", 82}, // Lisu
517
+ {"Lycian", 73}, // Lyci
518
+ {"Lydian", 75}, // Lydi
519
+ {"Malayalam", 17}, // Mlym
520
+ {"Mandaic", 94}, // Mand
521
+ {"Meetei_Mayek", 85}, // Mtei
522
+ {"Meroitic_Cursive", 96}, // Merc
523
+ {"Meroitic_Hieroglyphs", 97}, // Mero
524
+ {"Miao", 98}, // Plrd
525
+ {"Mongolian", 31}, // Mong
526
+ {"Myanmar", 22}, // Mymr
527
+ {"New_Tai_Lue", 55}, // Talu
528
+ {"Nko", 65}, // Nkoo
529
+ {"Ogham", 28}, // Ogam
530
+ {"Ol_Chiki", 68}, // Olck
531
+ {"Old_Italic", 37}, // Ital
532
+ {"Old_Persian", 59}, // Xpeo
533
+ {"Old_South_Arabian", 87}, // Sarb
534
+ {"Old_Turkic", 90}, // Orkh
535
+ {"Oriya", 13}, // Orya
536
+ {"Osmanya", 50}, // Osma
537
+ {"Phags_Pa", 64}, // Phag
538
+ {"Phoenician", 63}, // Phnx
539
+ {"Rejang", 72}, // Rjng
540
+ {"Runic", 29}, // Runr
541
+ {"Samaritan", 81}, // Samr
542
+ {"Saurashtra", 70}, // Saur
543
+ {"Sharada", 99}, // Shrd
544
+ {"Shavian", 49}, // Shaw
545
+ {"Sinhala", 18}, // Sinh
546
+ {"Sora_Sompeng", 100}, // Sora
547
+ {"Sundanese", 66}, // Sund
548
+ {"Syloti_Nagri", 58}, // Sylo
549
+ {"Syriac", 7}, // Syrc
550
+ {"Tagalog", 41}, // Tglg
551
+ {"Tagbanwa", 44}, // Tagb
552
+ {"Tai_Le", 46}, // Tale
553
+ {"Tai_Tham", 77}, // Lana
554
+ {"Tai_Viet", 78}, // Tavt
555
+ {"Takri", 101}, // Takr
556
+ {"Tamil", 14}, // Taml
557
+ {"Telugu", 15}, // Telu
558
+ {"Thaana", 8}, // Thaa
559
+ {"Thai", 19}, // Thai
560
+ {"Tibetan", 21}, // Tibt
561
+ {"Tifinagh", 57}, // Tfng
562
+ {"Ugaritic", 48}, // Ugar
563
+ {"Vai", 69}, // Vaii
564
+ {"Yi", 36}, // Yiii
565
+ };
566
+
567
+ // Alphabetical order for binary search
568
+ extern const int kCodeToULScriptSize = 105;
569
+ extern const CharIntPair kCodeToULScript[kNameToULScriptSize] = {
570
+ {"Arab", 6}, // Arab
571
+ {"Armi", 86}, // Armi
572
+ {"Armn", 4}, // Armn
573
+ {"Avst", 79}, // Avst
574
+ {"Bali", 61}, // Bali
575
+ {"Bamu", 83}, // Bamu
576
+ {"Batk", 92}, // Batk
577
+ {"Beng", 10}, // Beng
578
+ {"Bopo", 34}, // Bopo
579
+ {"Brah", 93}, // Brah
580
+ {"Brai", 52}, // Brai
581
+ {"Bugi", 53}, // Bugi
582
+ {"Buhd", 43}, // Buhd
583
+ {"Cakm", 95}, // Cakm
584
+ {"Cans", 27}, // Cans
585
+ {"Cari", 74}, // Cari
586
+ {"Cham", 76}, // Cham
587
+ {"Cher", 26}, // Cher
588
+ {"Copt", 54}, // Copt
589
+ {"Cprt", 51}, // Cprt
590
+ {"Cyrl", 3}, // Cyrl
591
+ {"Deva", 9}, // Deva
592
+ {"Dsrt", 39}, // Dsrt
593
+ {"Egyp", 80}, // Egyp
594
+ {"Ethi", 25}, // Ethi
595
+ {"Geor", 23}, // Geor
596
+ {"Glag", 56}, // Glag
597
+ {"Goth", 38}, // Goth
598
+ {"Grek", 2}, // Grek
599
+ {"Gujr", 12}, // Gujr
600
+ {"Guru", 11}, // Guru
601
+ {"Hang", 24}, // Hang
602
+ {"Hani", 24}, // Hani
603
+ {"Hani", 24}, // Hani
604
+ {"Hano", 42}, // Hano
605
+ {"Hans", 24}, // Hans
606
+ {"Hant", 24}, // Hant
607
+ {"Hebr", 5}, // Hebr
608
+ {"Hira", 24}, // Hira
609
+ {"Ital", 37}, // Ital
610
+ {"Java", 84}, // Java
611
+ {"Kali", 71}, // Kali
612
+ {"Kana", 24}, // Kana
613
+ {"Khar", 60}, // Khar
614
+ {"Khmr", 30}, // Khmr
615
+ {"Knda", 16}, // Knda
616
+ {"Kthi", 91}, // Kthi
617
+ {"Lana", 77}, // Lana
618
+ {"Laoo", 20}, // Laoo
619
+ {"Latn", 1}, // Latn
620
+ {"Lepc", 67}, // Lepc
621
+ {"Limb", 45}, // Limb
622
+ {"Linb", 47}, // Linb
623
+ {"Lisu", 82}, // Lisu
624
+ {"Lyci", 73}, // Lyci
625
+ {"Lydi", 75}, // Lydi
626
+ {"Mand", 94}, // Mand
627
+ {"Merc", 96}, // Merc
628
+ {"Mero", 97}, // Mero
629
+ {"Mlym", 17}, // Mlym
630
+ {"Mong", 31}, // Mong
631
+ {"Mtei", 85}, // Mtei
632
+ {"Mymr", 22}, // Mymr
633
+ {"Nkoo", 65}, // Nkoo
634
+ {"Ogam", 28}, // Ogam
635
+ {"Olck", 68}, // Olck
636
+ {"Orkh", 90}, // Orkh
637
+ {"Orya", 13}, // Orya
638
+ {"Osma", 50}, // Osma
639
+ {"Phag", 64}, // Phag
640
+ {"Phli", 89}, // Phli
641
+ {"Phnx", 63}, // Phnx
642
+ {"Plrd", 98}, // Plrd
643
+ {"Prti", 88}, // Prti
644
+ {"Rjng", 72}, // Rjng
645
+ {"Runr", 29}, // Runr
646
+ {"Samr", 81}, // Samr
647
+ {"Sarb", 87}, // Sarb
648
+ {"Saur", 70}, // Saur
649
+ {"Shaw", 49}, // Shaw
650
+ {"Shrd", 99}, // Shrd
651
+ {"Sinh", 18}, // Sinh
652
+ {"Sora", 100}, // Sora
653
+ {"Sund", 66}, // Sund
654
+ {"Sylo", 58}, // Sylo
655
+ {"Syrc", 7}, // Syrc
656
+ {"Tagb", 44}, // Tagb
657
+ {"Takr", 101}, // Takr
658
+ {"Tale", 46}, // Tale
659
+ {"Talu", 55}, // Talu
660
+ {"Taml", 14}, // Taml
661
+ {"Tavt", 78}, // Tavt
662
+ {"Telu", 15}, // Telu
663
+ {"Tfng", 57}, // Tfng
664
+ {"Tglg", 41}, // Tglg
665
+ {"Thaa", 8}, // Thaa
666
+ {"Thai", 19}, // Thai
667
+ {"Tibt", 21}, // Tibt
668
+ {"Ugar", 48}, // Ugar
669
+ {"Vaii", 69}, // Vaii
670
+ {"Xpeo", 59}, // Xpeo
671
+ {"Xsux", 62}, // Xsux
672
+ {"Yiii", 36}, // Yiii
673
+ {"Zinh", 40}, // Zinh
674
+ {"Zyyy", 0}, // Zyyy
675
+ };
676
+
677
+ } // namespace CLD2
678
+ } // namespace chrome_lang_id