cld3 3.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (72) hide show
  1. checksums.yaml +7 -0
  2. data/Gemfile +18 -0
  3. data/LICENSE +204 -0
  4. data/LICENSE_CLD3 +203 -0
  5. data/README.md +22 -0
  6. data/cld3.gemspec +35 -0
  7. data/ext/cld3/base.cc +36 -0
  8. data/ext/cld3/base.h +106 -0
  9. data/ext/cld3/casts.h +98 -0
  10. data/ext/cld3/embedding_feature_extractor.cc +51 -0
  11. data/ext/cld3/embedding_feature_extractor.h +182 -0
  12. data/ext/cld3/embedding_network.cc +196 -0
  13. data/ext/cld3/embedding_network.h +186 -0
  14. data/ext/cld3/embedding_network_params.h +285 -0
  15. data/ext/cld3/extconf.rb +49 -0
  16. data/ext/cld3/feature_extractor.cc +137 -0
  17. data/ext/cld3/feature_extractor.h +633 -0
  18. data/ext/cld3/feature_extractor.proto +50 -0
  19. data/ext/cld3/feature_types.cc +72 -0
  20. data/ext/cld3/feature_types.h +158 -0
  21. data/ext/cld3/fixunicodevalue.cc +55 -0
  22. data/ext/cld3/fixunicodevalue.h +69 -0
  23. data/ext/cld3/float16.h +58 -0
  24. data/ext/cld3/fml_parser.cc +308 -0
  25. data/ext/cld3/fml_parser.h +123 -0
  26. data/ext/cld3/generated_entities.cc +296 -0
  27. data/ext/cld3/generated_ulscript.cc +678 -0
  28. data/ext/cld3/generated_ulscript.h +142 -0
  29. data/ext/cld3/getonescriptspan.cc +1109 -0
  30. data/ext/cld3/getonescriptspan.h +124 -0
  31. data/ext/cld3/integral_types.h +37 -0
  32. data/ext/cld3/lang_id_nn_params.cc +57449 -0
  33. data/ext/cld3/lang_id_nn_params.h +178 -0
  34. data/ext/cld3/language_identifier_features.cc +165 -0
  35. data/ext/cld3/language_identifier_features.h +116 -0
  36. data/ext/cld3/nnet_language_identifier.cc +380 -0
  37. data/ext/cld3/nnet_language_identifier.h +175 -0
  38. data/ext/cld3/nnet_language_identifier_c.cc +72 -0
  39. data/ext/cld3/offsetmap.cc +478 -0
  40. data/ext/cld3/offsetmap.h +168 -0
  41. data/ext/cld3/port.h +143 -0
  42. data/ext/cld3/registry.cc +28 -0
  43. data/ext/cld3/registry.h +242 -0
  44. data/ext/cld3/relevant_script_feature.cc +89 -0
  45. data/ext/cld3/relevant_script_feature.h +49 -0
  46. data/ext/cld3/script_detector.h +156 -0
  47. data/ext/cld3/sentence.proto +77 -0
  48. data/ext/cld3/sentence_features.cc +29 -0
  49. data/ext/cld3/sentence_features.h +35 -0
  50. data/ext/cld3/simple_adder.h +72 -0
  51. data/ext/cld3/stringpiece.h +81 -0
  52. data/ext/cld3/task_context.cc +161 -0
  53. data/ext/cld3/task_context.h +81 -0
  54. data/ext/cld3/task_context_params.cc +74 -0
  55. data/ext/cld3/task_context_params.h +54 -0
  56. data/ext/cld3/task_spec.proto +98 -0
  57. data/ext/cld3/text_processing.cc +245 -0
  58. data/ext/cld3/text_processing.h +30 -0
  59. data/ext/cld3/unicodetext.cc +96 -0
  60. data/ext/cld3/unicodetext.h +144 -0
  61. data/ext/cld3/utf8acceptinterchange.h +486 -0
  62. data/ext/cld3/utf8prop_lettermarkscriptnum.h +1631 -0
  63. data/ext/cld3/utf8repl_lettermarklower.h +758 -0
  64. data/ext/cld3/utf8scannot_lettermarkspecial.h +1455 -0
  65. data/ext/cld3/utf8statetable.cc +1344 -0
  66. data/ext/cld3/utf8statetable.h +285 -0
  67. data/ext/cld3/utils.cc +241 -0
  68. data/ext/cld3/utils.h +144 -0
  69. data/ext/cld3/workspace.cc +64 -0
  70. data/ext/cld3/workspace.h +177 -0
  71. data/lib/cld3.rb +99 -0
  72. metadata +158 -0
@@ -0,0 +1,678 @@
1
+ // Copyright 2013 Google Inc. All Rights Reserved.
2
+ //
3
+ // Licensed under the Apache License, Version 2.0 (the "License");
4
+ // you may not use this file except in compliance with the License.
5
+ // You may obtain a copy of the License at
6
+ //
7
+ // http://www.apache.org/licenses/LICENSE-2.0
8
+ //
9
+ // Unless required by applicable law or agreed to in writing, software
10
+ // distributed under the License is distributed on an "AS IS" BASIS,
11
+ // WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
12
+ // See the License for the specific language governing permissions and
13
+ // limitations under the License.
14
+
15
+ // generated_ulscript.cc
16
+ // Machine generated. Do Not Edit.
17
+ //
18
+ // Declarations for scripts recognized by CLD2
19
+ //
20
+
21
+ #include "generated_ulscript.h"
22
+
23
+ namespace chrome_lang_id {
24
+ namespace CLD2 {
25
+
26
+ // Subscripted by enum ULScript
27
+ extern const int kULScriptToNameSize = 102;
28
+ extern const char* const kULScriptToName[kULScriptToNameSize] = {
29
+ "Common", // 0 Zyyy
30
+ "Latin", // 1 Latn
31
+ "Greek", // 2 Grek
32
+ "Cyrillic", // 3 Cyrl
33
+ "Armenian", // 4 Armn
34
+ "Hebrew", // 5 Hebr
35
+ "Arabic", // 6 Arab
36
+ "Syriac", // 7 Syrc
37
+ "Thaana", // 8 Thaa
38
+ "Devanagari", // 9 Deva
39
+ "Bengali", // 10 Beng
40
+ "Gurmukhi", // 11 Guru
41
+ "Gujarati", // 12 Gujr
42
+ "Oriya", // 13 Orya
43
+ "Tamil", // 14 Taml
44
+ "Telugu", // 15 Telu
45
+ "Kannada", // 16 Knda
46
+ "Malayalam", // 17 Mlym
47
+ "Sinhala", // 18 Sinh
48
+ "Thai", // 19 Thai
49
+ "Lao", // 20 Laoo
50
+ "Tibetan", // 21 Tibt
51
+ "Myanmar", // 22 Mymr
52
+ "Georgian", // 23 Geor
53
+ "Hani", // 24 Hani
54
+ "Ethiopic", // 25 Ethi
55
+ "Cherokee", // 26 Cher
56
+ "Canadian_Aboriginal", // 27 Cans
57
+ "Ogham", // 28 Ogam
58
+ "Runic", // 29 Runr
59
+ "Khmer", // 30 Khmr
60
+ "Mongolian", // 31 Mong
61
+ "", // 32
62
+ "", // 33
63
+ "Bopomofo", // 34 Bopo
64
+ "", // 35
65
+ "Yi", // 36 Yiii
66
+ "Old_Italic", // 37 Ital
67
+ "Gothic", // 38 Goth
68
+ "Deseret", // 39 Dsrt
69
+ "Inherited", // 40 Zinh
70
+ "Tagalog", // 41 Tglg
71
+ "Hanunoo", // 42 Hano
72
+ "Buhid", // 43 Buhd
73
+ "Tagbanwa", // 44 Tagb
74
+ "Limbu", // 45 Limb
75
+ "Tai_Le", // 46 Tale
76
+ "Linear_B", // 47 Linb
77
+ "Ugaritic", // 48 Ugar
78
+ "Shavian", // 49 Shaw
79
+ "Osmanya", // 50 Osma
80
+ "Cypriot", // 51 Cprt
81
+ "Braille", // 52 Brai
82
+ "Buginese", // 53 Bugi
83
+ "Coptic", // 54 Copt
84
+ "New_Tai_Lue", // 55 Talu
85
+ "Glagolitic", // 56 Glag
86
+ "Tifinagh", // 57 Tfng
87
+ "Syloti_Nagri", // 58 Sylo
88
+ "Old_Persian", // 59 Xpeo
89
+ "Kharoshthi", // 60 Khar
90
+ "Balinese", // 61 Bali
91
+ "Cuneiform", // 62 Xsux
92
+ "Phoenician", // 63 Phnx
93
+ "Phags_Pa", // 64 Phag
94
+ "Nko", // 65 Nkoo
95
+ "Sundanese", // 66 Sund
96
+ "Lepcha", // 67 Lepc
97
+ "Ol_Chiki", // 68 Olck
98
+ "Vai", // 69 Vaii
99
+ "Saurashtra", // 70 Saur
100
+ "Kayah_Li", // 71 Kali
101
+ "Rejang", // 72 Rjng
102
+ "Lycian", // 73 Lyci
103
+ "Carian", // 74 Cari
104
+ "Lydian", // 75 Lydi
105
+ "Cham", // 76 Cham
106
+ "Tai_Tham", // 77 Lana
107
+ "Tai_Viet", // 78 Tavt
108
+ "Avestan", // 79 Avst
109
+ "Egyptian_Hieroglyphs", // 80 Egyp
110
+ "Samaritan", // 81 Samr
111
+ "Lisu", // 82 Lisu
112
+ "Bamum", // 83 Bamu
113
+ "Javanese", // 84 Java
114
+ "Meetei_Mayek", // 85 Mtei
115
+ "Imperial_Aramaic", // 86 Armi
116
+ "Old_South_Arabian", // 87 Sarb
117
+ "Inscriptional_Parthian", // 88 Prti
118
+ "Inscriptional_Pahlavi", // 89 Phli
119
+ "Old_Turkic", // 90 Orkh
120
+ "Kaithi", // 91 Kthi
121
+ "Batak", // 92 Batk
122
+ "Brahmi", // 93 Brah
123
+ "Mandaic", // 94 Mand
124
+ "Chakma", // 95 Cakm
125
+ "Meroitic_Cursive", // 96 Merc
126
+ "Meroitic_Hieroglyphs", // 97 Mero
127
+ "Miao", // 98 Plrd
128
+ "Sharada", // 99 Shrd
129
+ "Sora_Sompeng", // 100 Sora
130
+ "Takri", // 101 Takr
131
+ };
132
+
133
+ // Subscripted by enum ULScript
134
+ extern const int kULScriptToCodeSize = 102;
135
+ extern const char* const kULScriptToCode[kULScriptToCodeSize] = {
136
+ "Zyyy", // 0 Common
137
+ "Latn", // 1 Latin
138
+ "Grek", // 2 Greek
139
+ "Cyrl", // 3 Cyrillic
140
+ "Armn", // 4 Armenian
141
+ "Hebr", // 5 Hebrew
142
+ "Arab", // 6 Arabic
143
+ "Syrc", // 7 Syriac
144
+ "Thaa", // 8 Thaana
145
+ "Deva", // 9 Devanagari
146
+ "Beng", // 10 Bengali
147
+ "Guru", // 11 Gurmukhi
148
+ "Gujr", // 12 Gujarati
149
+ "Orya", // 13 Oriya
150
+ "Taml", // 14 Tamil
151
+ "Telu", // 15 Telugu
152
+ "Knda", // 16 Kannada
153
+ "Mlym", // 17 Malayalam
154
+ "Sinh", // 18 Sinhala
155
+ "Thai", // 19 Thai
156
+ "Laoo", // 20 Lao
157
+ "Tibt", // 21 Tibetan
158
+ "Mymr", // 22 Myanmar
159
+ "Geor", // 23 Georgian
160
+ "Hani", // 24 Hani
161
+ "Ethi", // 25 Ethiopic
162
+ "Cher", // 26 Cherokee
163
+ "Cans", // 27 Canadian_Aboriginal
164
+ "Ogam", // 28 Ogham
165
+ "Runr", // 29 Runic
166
+ "Khmr", // 30 Khmer
167
+ "Mong", // 31 Mongolian
168
+ "", // 32
169
+ "", // 33
170
+ "Bopo", // 34 Bopomofo
171
+ "", // 35
172
+ "Yiii", // 36 Yi
173
+ "Ital", // 37 Old_Italic
174
+ "Goth", // 38 Gothic
175
+ "Dsrt", // 39 Deseret
176
+ "Zinh", // 40 Inherited
177
+ "Tglg", // 41 Tagalog
178
+ "Hano", // 42 Hanunoo
179
+ "Buhd", // 43 Buhid
180
+ "Tagb", // 44 Tagbanwa
181
+ "Limb", // 45 Limbu
182
+ "Tale", // 46 Tai_Le
183
+ "Linb", // 47 Linear_B
184
+ "Ugar", // 48 Ugaritic
185
+ "Shaw", // 49 Shavian
186
+ "Osma", // 50 Osmanya
187
+ "Cprt", // 51 Cypriot
188
+ "Brai", // 52 Braille
189
+ "Bugi", // 53 Buginese
190
+ "Copt", // 54 Coptic
191
+ "Talu", // 55 New_Tai_Lue
192
+ "Glag", // 56 Glagolitic
193
+ "Tfng", // 57 Tifinagh
194
+ "Sylo", // 58 Syloti_Nagri
195
+ "Xpeo", // 59 Old_Persian
196
+ "Khar", // 60 Kharoshthi
197
+ "Bali", // 61 Balinese
198
+ "Xsux", // 62 Cuneiform
199
+ "Phnx", // 63 Phoenician
200
+ "Phag", // 64 Phags_Pa
201
+ "Nkoo", // 65 Nko
202
+ "Sund", // 66 Sundanese
203
+ "Lepc", // 67 Lepcha
204
+ "Olck", // 68 Ol_Chiki
205
+ "Vaii", // 69 Vai
206
+ "Saur", // 70 Saurashtra
207
+ "Kali", // 71 Kayah_Li
208
+ "Rjng", // 72 Rejang
209
+ "Lyci", // 73 Lycian
210
+ "Cari", // 74 Carian
211
+ "Lydi", // 75 Lydian
212
+ "Cham", // 76 Cham
213
+ "Lana", // 77 Tai_Tham
214
+ "Tavt", // 78 Tai_Viet
215
+ "Avst", // 79 Avestan
216
+ "Egyp", // 80 Egyptian_Hieroglyphs
217
+ "Samr", // 81 Samaritan
218
+ "Lisu", // 82 Lisu
219
+ "Bamu", // 83 Bamum
220
+ "Java", // 84 Javanese
221
+ "Mtei", // 85 Meetei_Mayek
222
+ "Armi", // 86 Imperial_Aramaic
223
+ "Sarb", // 87 Old_South_Arabian
224
+ "Prti", // 88 Inscriptional_Parthian
225
+ "Phli", // 89 Inscriptional_Pahlavi
226
+ "Orkh", // 90 Old_Turkic
227
+ "Kthi", // 91 Kaithi
228
+ "Batk", // 92 Batak
229
+ "Brah", // 93 Brahmi
230
+ "Mand", // 94 Mandaic
231
+ "Cakm", // 95 Chakma
232
+ "Merc", // 96 Meroitic_Cursive
233
+ "Mero", // 97 Meroitic_Hieroglyphs
234
+ "Plrd", // 98 Miao
235
+ "Shrd", // 99 Sharada
236
+ "Sora", // 100 Sora_Sompeng
237
+ "Takr", // 101 Takri
238
+ };
239
+
240
+ // Subscripted by enum ULScript
241
+ extern const int kULScriptToCNameSize = 102;
242
+ extern const char* const kULScriptToCName[kULScriptToCNameSize] = {
243
+ "ULScript_Common", // 0 Zyyy
244
+ "ULScript_Latin", // 1 Latn
245
+ "ULScript_Greek", // 2 Grek
246
+ "ULScript_Cyrillic", // 3 Cyrl
247
+ "ULScript_Armenian", // 4 Armn
248
+ "ULScript_Hebrew", // 5 Hebr
249
+ "ULScript_Arabic", // 6 Arab
250
+ "ULScript_Syriac", // 7 Syrc
251
+ "ULScript_Thaana", // 8 Thaa
252
+ "ULScript_Devanagari", // 9 Deva
253
+ "ULScript_Bengali", // 10 Beng
254
+ "ULScript_Gurmukhi", // 11 Guru
255
+ "ULScript_Gujarati", // 12 Gujr
256
+ "ULScript_Oriya", // 13 Orya
257
+ "ULScript_Tamil", // 14 Taml
258
+ "ULScript_Telugu", // 15 Telu
259
+ "ULScript_Kannada", // 16 Knda
260
+ "ULScript_Malayalam", // 17 Mlym
261
+ "ULScript_Sinhala", // 18 Sinh
262
+ "ULScript_Thai", // 19 Thai
263
+ "ULScript_Lao", // 20 Laoo
264
+ "ULScript_Tibetan", // 21 Tibt
265
+ "ULScript_Myanmar", // 22 Mymr
266
+ "ULScript_Georgian", // 23 Geor
267
+ "ULScript_Hani", // 24 Hani
268
+ "ULScript_Ethiopic", // 25 Ethi
269
+ "ULScript_Cherokee", // 26 Cher
270
+ "ULScript_Canadian_Aboriginal", // 27 Cans
271
+ "ULScript_Ogham", // 28 Ogam
272
+ "ULScript_Runic", // 29 Runr
273
+ "ULScript_Khmer", // 30 Khmr
274
+ "ULScript_Mongolian", // 31 Mong
275
+ "ULScript_32", // 32
276
+ "ULScript_33", // 33
277
+ "ULScript_Bopomofo", // 34 Bopo
278
+ "ULScript_35", // 35
279
+ "ULScript_Yi", // 36 Yiii
280
+ "ULScript_Old_Italic", // 37 Ital
281
+ "ULScript_Gothic", // 38 Goth
282
+ "ULScript_Deseret", // 39 Dsrt
283
+ "ULScript_Inherited", // 40 Zinh
284
+ "ULScript_Tagalog", // 41 Tglg
285
+ "ULScript_Hanunoo", // 42 Hano
286
+ "ULScript_Buhid", // 43 Buhd
287
+ "ULScript_Tagbanwa", // 44 Tagb
288
+ "ULScript_Limbu", // 45 Limb
289
+ "ULScript_Tai_Le", // 46 Tale
290
+ "ULScript_Linear_B", // 47 Linb
291
+ "ULScript_Ugaritic", // 48 Ugar
292
+ "ULScript_Shavian", // 49 Shaw
293
+ "ULScript_Osmanya", // 50 Osma
294
+ "ULScript_Cypriot", // 51 Cprt
295
+ "ULScript_Braille", // 52 Brai
296
+ "ULScript_Buginese", // 53 Bugi
297
+ "ULScript_Coptic", // 54 Copt
298
+ "ULScript_New_Tai_Lue", // 55 Talu
299
+ "ULScript_Glagolitic", // 56 Glag
300
+ "ULScript_Tifinagh", // 57 Tfng
301
+ "ULScript_Syloti_Nagri", // 58 Sylo
302
+ "ULScript_Old_Persian", // 59 Xpeo
303
+ "ULScript_Kharoshthi", // 60 Khar
304
+ "ULScript_Balinese", // 61 Bali
305
+ "ULScript_Cuneiform", // 62 Xsux
306
+ "ULScript_Phoenician", // 63 Phnx
307
+ "ULScript_Phags_Pa", // 64 Phag
308
+ "ULScript_Nko", // 65 Nkoo
309
+ "ULScript_Sundanese", // 66 Sund
310
+ "ULScript_Lepcha", // 67 Lepc
311
+ "ULScript_Ol_Chiki", // 68 Olck
312
+ "ULScript_Vai", // 69 Vaii
313
+ "ULScript_Saurashtra", // 70 Saur
314
+ "ULScript_Kayah_Li", // 71 Kali
315
+ "ULScript_Rejang", // 72 Rjng
316
+ "ULScript_Lycian", // 73 Lyci
317
+ "ULScript_Carian", // 74 Cari
318
+ "ULScript_Lydian", // 75 Lydi
319
+ "ULScript_Cham", // 76 Cham
320
+ "ULScript_Tai_Tham", // 77 Lana
321
+ "ULScript_Tai_Viet", // 78 Tavt
322
+ "ULScript_Avestan", // 79 Avst
323
+ "ULScript_Egyptian_Hieroglyphs", // 80 Egyp
324
+ "ULScript_Samaritan", // 81 Samr
325
+ "ULScript_Lisu", // 82 Lisu
326
+ "ULScript_Bamum", // 83 Bamu
327
+ "ULScript_Javanese", // 84 Java
328
+ "ULScript_Meetei_Mayek", // 85 Mtei
329
+ "ULScript_Imperial_Aramaic", // 86 Armi
330
+ "ULScript_Old_South_Arabian", // 87 Sarb
331
+ "ULScript_Inscriptional_Parthian", // 88 Prti
332
+ "ULScript_Inscriptional_Pahlavi", // 89 Phli
333
+ "ULScript_Old_Turkic", // 90 Orkh
334
+ "ULScript_Kaithi", // 91 Kthi
335
+ "ULScript_Batak", // 92 Batk
336
+ "ULScript_Brahmi", // 93 Brah
337
+ "ULScript_Mandaic", // 94 Mand
338
+ "ULScript_Chakma", // 95 Cakm
339
+ "ULScript_Meroitic_Cursive", // 96 Merc
340
+ "ULScript_Meroitic_Hieroglyphs", // 97 Mero
341
+ "ULScript_Miao", // 98 Plrd
342
+ "ULScript_Sharada", // 99 Shrd
343
+ "ULScript_Sora_Sompeng", // 100 Sora
344
+ "ULScript_Takri", // 101 Takr
345
+ };
346
+
347
+ // Subscripted by enum ULScript
348
+ extern const int kULScriptToRtypeSize = 102;
349
+ extern const ULScriptRType kULScriptToRtype[kULScriptToRtypeSize] = {
350
+ RTypeNone, // 0 Zyyy
351
+ RTypeMany, // 1 Latn
352
+ RTypeOne, // 2 Grek
353
+ RTypeMany, // 3 Cyrl
354
+ RTypeOne, // 4 Armn
355
+ RTypeMany, // 5 Hebr
356
+ RTypeMany, // 6 Arab
357
+ RTypeOne, // 7 Syrc
358
+ RTypeOne, // 8 Thaa
359
+ RTypeMany, // 9 Deva
360
+ RTypeMany, // 10 Beng
361
+ RTypeOne, // 11 Guru
362
+ RTypeOne, // 12 Gujr
363
+ RTypeOne, // 13 Orya
364
+ RTypeOne, // 14 Taml
365
+ RTypeOne, // 15 Telu
366
+ RTypeOne, // 16 Knda
367
+ RTypeOne, // 17 Mlym
368
+ RTypeOne, // 18 Sinh
369
+ RTypeOne, // 19 Thai
370
+ RTypeOne, // 20 Laoo
371
+ RTypeMany, // 21 Tibt
372
+ RTypeOne, // 22 Mymr
373
+ RTypeOne, // 23 Geor
374
+ RTypeCJK, // 24 Hani
375
+ RTypeMany, // 25 Ethi
376
+ RTypeOne, // 26 Cher
377
+ RTypeOne, // 27 Cans
378
+ RTypeNone, // 28 Ogam
379
+ RTypeNone, // 29 Runr
380
+ RTypeOne, // 30 Khmr
381
+ RTypeOne, // 31 Mong
382
+ RTypeNone, // 32
383
+ RTypeNone, // 33
384
+ RTypeNone, // 34 Bopo
385
+ RTypeNone, // 35
386
+ RTypeNone, // 36 Yiii
387
+ RTypeNone, // 37 Ital
388
+ RTypeNone, // 38 Goth
389
+ RTypeNone, // 39 Dsrt
390
+ RTypeNone, // 40 Zinh
391
+ RTypeOne, // 41 Tglg
392
+ RTypeNone, // 42 Hano
393
+ RTypeNone, // 43 Buhd
394
+ RTypeNone, // 44 Tagb
395
+ RTypeOne, // 45 Limb
396
+ RTypeNone, // 46 Tale
397
+ RTypeNone, // 47 Linb
398
+ RTypeNone, // 48 Ugar
399
+ RTypeNone, // 49 Shaw
400
+ RTypeNone, // 50 Osma
401
+ RTypeNone, // 51 Cprt
402
+ RTypeNone, // 52 Brai
403
+ RTypeNone, // 53 Bugi
404
+ RTypeNone, // 54 Copt
405
+ RTypeNone, // 55 Talu
406
+ RTypeNone, // 56 Glag
407
+ RTypeNone, // 57 Tfng
408
+ RTypeNone, // 58 Sylo
409
+ RTypeNone, // 59 Xpeo
410
+ RTypeNone, // 60 Khar
411
+ RTypeNone, // 61 Bali
412
+ RTypeNone, // 62 Xsux
413
+ RTypeNone, // 63 Phnx
414
+ RTypeNone, // 64 Phag
415
+ RTypeNone, // 65 Nkoo
416
+ RTypeNone, // 66 Sund
417
+ RTypeNone, // 67 Lepc
418
+ RTypeNone, // 68 Olck
419
+ RTypeNone, // 69 Vaii
420
+ RTypeNone, // 70 Saur
421
+ RTypeNone, // 71 Kali
422
+ RTypeNone, // 72 Rjng
423
+ RTypeNone, // 73 Lyci
424
+ RTypeNone, // 74 Cari
425
+ RTypeNone, // 75 Lydi
426
+ RTypeNone, // 76 Cham
427
+ RTypeNone, // 77 Lana
428
+ RTypeNone, // 78 Tavt
429
+ RTypeNone, // 79 Avst
430
+ RTypeNone, // 80 Egyp
431
+ RTypeNone, // 81 Samr
432
+ RTypeNone, // 82 Lisu
433
+ RTypeNone, // 83 Bamu
434
+ RTypeNone, // 84 Java
435
+ RTypeNone, // 85 Mtei
436
+ RTypeNone, // 86 Armi
437
+ RTypeNone, // 87 Sarb
438
+ RTypeNone, // 88 Prti
439
+ RTypeNone, // 89 Phli
440
+ RTypeNone, // 90 Orkh
441
+ RTypeNone, // 91 Kthi
442
+ RTypeNone, // 92 Batk
443
+ RTypeNone, // 93 Brah
444
+ RTypeNone, // 94 Mand
445
+ RTypeNone, // 95 Cakm
446
+ RTypeNone, // 96 Merc
447
+ RTypeNone, // 97 Mero
448
+ RTypeNone, // 98 Plrd
449
+ RTypeNone, // 99 Shrd
450
+ RTypeNone, // 100 Sora
451
+ RTypeNone, // 101 Takr
452
+ };
453
+
454
+ // Subscripted by enum ULScript
455
+ extern const int kULScriptToDefaultLangSize = 102;
456
+
457
+ // Alphabetical order for binary search
458
+ extern const int kNameToULScriptSize = 105;
459
+ extern const CharIntPair kNameToULScript[kNameToULScriptSize] = {
460
+ {"Arabic", 6}, // Arab
461
+ {"Armenian", 4}, // Armn
462
+ {"Avestan", 79}, // Avst
463
+ {"Balinese", 61}, // Bali
464
+ {"Bamum", 83}, // Bamu
465
+ {"Batak", 92}, // Batk
466
+ {"Bengali", 10}, // Beng
467
+ {"Bopomofo", 34}, // Bopo
468
+ {"Brahmi", 93}, // Brah
469
+ {"Braille", 52}, // Brai
470
+ {"Buginese", 53}, // Bugi
471
+ {"Buhid", 43}, // Buhd
472
+ {"Canadian_Aboriginal", 27}, // Cans
473
+ {"Carian", 74}, // Cari
474
+ {"Chakma", 95}, // Cakm
475
+ {"Cham", 76}, // Cham
476
+ {"Cherokee", 26}, // Cher
477
+ {"Common", 0}, // Zyyy
478
+ {"Coptic", 54}, // Copt
479
+ {"Cuneiform", 62}, // Xsux
480
+ {"Cypriot", 51}, // Cprt
481
+ {"Cyrillic", 3}, // Cyrl
482
+ {"Deseret", 39}, // Dsrt
483
+ {"Devanagari", 9}, // Deva
484
+ {"Egyptian_Hieroglyphs", 80}, // Egyp
485
+ {"Ethiopic", 25}, // Ethi
486
+ {"Georgian", 23}, // Geor
487
+ {"Glagolitic", 56}, // Glag
488
+ {"Gothic", 38}, // Goth
489
+ {"Greek", 2}, // Grek
490
+ {"Gujarati", 12}, // Gujr
491
+ {"Gurmukhi", 11}, // Guru
492
+ {"Han", 24}, // Hant
493
+ {"Han", 24}, // Hans
494
+ {"Han", 24}, // Hani
495
+ {"Hangul", 24}, // Hang
496
+ {"Hani", 24}, // Hani
497
+ {"Hanunoo", 42}, // Hano
498
+ {"Hebrew", 5}, // Hebr
499
+ {"Hiragana", 24}, // Hira
500
+ {"Imperial_Aramaic", 86}, // Armi
501
+ {"Inherited", 40}, // Zinh
502
+ {"Inscriptional_Pahlavi", 89}, // Phli
503
+ {"Inscriptional_Parthian", 88}, // Prti
504
+ {"Javanese", 84}, // Java
505
+ {"Kaithi", 91}, // Kthi
506
+ {"Kannada", 16}, // Knda
507
+ {"Katakana", 24}, // Kana
508
+ {"Kayah_Li", 71}, // Kali
509
+ {"Kharoshthi", 60}, // Khar
510
+ {"Khmer", 30}, // Khmr
511
+ {"Lao", 20}, // Laoo
512
+ {"Latin", 1}, // Latn
513
+ {"Lepcha", 67}, // Lepc
514
+ {"Limbu", 45}, // Limb
515
+ {"Linear_B", 47}, // Linb
516
+ {"Lisu", 82}, // Lisu
517
+ {"Lycian", 73}, // Lyci
518
+ {"Lydian", 75}, // Lydi
519
+ {"Malayalam", 17}, // Mlym
520
+ {"Mandaic", 94}, // Mand
521
+ {"Meetei_Mayek", 85}, // Mtei
522
+ {"Meroitic_Cursive", 96}, // Merc
523
+ {"Meroitic_Hieroglyphs", 97}, // Mero
524
+ {"Miao", 98}, // Plrd
525
+ {"Mongolian", 31}, // Mong
526
+ {"Myanmar", 22}, // Mymr
527
+ {"New_Tai_Lue", 55}, // Talu
528
+ {"Nko", 65}, // Nkoo
529
+ {"Ogham", 28}, // Ogam
530
+ {"Ol_Chiki", 68}, // Olck
531
+ {"Old_Italic", 37}, // Ital
532
+ {"Old_Persian", 59}, // Xpeo
533
+ {"Old_South_Arabian", 87}, // Sarb
534
+ {"Old_Turkic", 90}, // Orkh
535
+ {"Oriya", 13}, // Orya
536
+ {"Osmanya", 50}, // Osma
537
+ {"Phags_Pa", 64}, // Phag
538
+ {"Phoenician", 63}, // Phnx
539
+ {"Rejang", 72}, // Rjng
540
+ {"Runic", 29}, // Runr
541
+ {"Samaritan", 81}, // Samr
542
+ {"Saurashtra", 70}, // Saur
543
+ {"Sharada", 99}, // Shrd
544
+ {"Shavian", 49}, // Shaw
545
+ {"Sinhala", 18}, // Sinh
546
+ {"Sora_Sompeng", 100}, // Sora
547
+ {"Sundanese", 66}, // Sund
548
+ {"Syloti_Nagri", 58}, // Sylo
549
+ {"Syriac", 7}, // Syrc
550
+ {"Tagalog", 41}, // Tglg
551
+ {"Tagbanwa", 44}, // Tagb
552
+ {"Tai_Le", 46}, // Tale
553
+ {"Tai_Tham", 77}, // Lana
554
+ {"Tai_Viet", 78}, // Tavt
555
+ {"Takri", 101}, // Takr
556
+ {"Tamil", 14}, // Taml
557
+ {"Telugu", 15}, // Telu
558
+ {"Thaana", 8}, // Thaa
559
+ {"Thai", 19}, // Thai
560
+ {"Tibetan", 21}, // Tibt
561
+ {"Tifinagh", 57}, // Tfng
562
+ {"Ugaritic", 48}, // Ugar
563
+ {"Vai", 69}, // Vaii
564
+ {"Yi", 36}, // Yiii
565
+ };
566
+
567
+ // Alphabetical order for binary search
568
+ extern const int kCodeToULScriptSize = 105;
569
+ extern const CharIntPair kCodeToULScript[kNameToULScriptSize] = {
570
+ {"Arab", 6}, // Arab
571
+ {"Armi", 86}, // Armi
572
+ {"Armn", 4}, // Armn
573
+ {"Avst", 79}, // Avst
574
+ {"Bali", 61}, // Bali
575
+ {"Bamu", 83}, // Bamu
576
+ {"Batk", 92}, // Batk
577
+ {"Beng", 10}, // Beng
578
+ {"Bopo", 34}, // Bopo
579
+ {"Brah", 93}, // Brah
580
+ {"Brai", 52}, // Brai
581
+ {"Bugi", 53}, // Bugi
582
+ {"Buhd", 43}, // Buhd
583
+ {"Cakm", 95}, // Cakm
584
+ {"Cans", 27}, // Cans
585
+ {"Cari", 74}, // Cari
586
+ {"Cham", 76}, // Cham
587
+ {"Cher", 26}, // Cher
588
+ {"Copt", 54}, // Copt
589
+ {"Cprt", 51}, // Cprt
590
+ {"Cyrl", 3}, // Cyrl
591
+ {"Deva", 9}, // Deva
592
+ {"Dsrt", 39}, // Dsrt
593
+ {"Egyp", 80}, // Egyp
594
+ {"Ethi", 25}, // Ethi
595
+ {"Geor", 23}, // Geor
596
+ {"Glag", 56}, // Glag
597
+ {"Goth", 38}, // Goth
598
+ {"Grek", 2}, // Grek
599
+ {"Gujr", 12}, // Gujr
600
+ {"Guru", 11}, // Guru
601
+ {"Hang", 24}, // Hang
602
+ {"Hani", 24}, // Hani
603
+ {"Hani", 24}, // Hani
604
+ {"Hano", 42}, // Hano
605
+ {"Hans", 24}, // Hans
606
+ {"Hant", 24}, // Hant
607
+ {"Hebr", 5}, // Hebr
608
+ {"Hira", 24}, // Hira
609
+ {"Ital", 37}, // Ital
610
+ {"Java", 84}, // Java
611
+ {"Kali", 71}, // Kali
612
+ {"Kana", 24}, // Kana
613
+ {"Khar", 60}, // Khar
614
+ {"Khmr", 30}, // Khmr
615
+ {"Knda", 16}, // Knda
616
+ {"Kthi", 91}, // Kthi
617
+ {"Lana", 77}, // Lana
618
+ {"Laoo", 20}, // Laoo
619
+ {"Latn", 1}, // Latn
620
+ {"Lepc", 67}, // Lepc
621
+ {"Limb", 45}, // Limb
622
+ {"Linb", 47}, // Linb
623
+ {"Lisu", 82}, // Lisu
624
+ {"Lyci", 73}, // Lyci
625
+ {"Lydi", 75}, // Lydi
626
+ {"Mand", 94}, // Mand
627
+ {"Merc", 96}, // Merc
628
+ {"Mero", 97}, // Mero
629
+ {"Mlym", 17}, // Mlym
630
+ {"Mong", 31}, // Mong
631
+ {"Mtei", 85}, // Mtei
632
+ {"Mymr", 22}, // Mymr
633
+ {"Nkoo", 65}, // Nkoo
634
+ {"Ogam", 28}, // Ogam
635
+ {"Olck", 68}, // Olck
636
+ {"Orkh", 90}, // Orkh
637
+ {"Orya", 13}, // Orya
638
+ {"Osma", 50}, // Osma
639
+ {"Phag", 64}, // Phag
640
+ {"Phli", 89}, // Phli
641
+ {"Phnx", 63}, // Phnx
642
+ {"Plrd", 98}, // Plrd
643
+ {"Prti", 88}, // Prti
644
+ {"Rjng", 72}, // Rjng
645
+ {"Runr", 29}, // Runr
646
+ {"Samr", 81}, // Samr
647
+ {"Sarb", 87}, // Sarb
648
+ {"Saur", 70}, // Saur
649
+ {"Shaw", 49}, // Shaw
650
+ {"Shrd", 99}, // Shrd
651
+ {"Sinh", 18}, // Sinh
652
+ {"Sora", 100}, // Sora
653
+ {"Sund", 66}, // Sund
654
+ {"Sylo", 58}, // Sylo
655
+ {"Syrc", 7}, // Syrc
656
+ {"Tagb", 44}, // Tagb
657
+ {"Takr", 101}, // Takr
658
+ {"Tale", 46}, // Tale
659
+ {"Talu", 55}, // Talu
660
+ {"Taml", 14}, // Taml
661
+ {"Tavt", 78}, // Tavt
662
+ {"Telu", 15}, // Telu
663
+ {"Tfng", 57}, // Tfng
664
+ {"Tglg", 41}, // Tglg
665
+ {"Thaa", 8}, // Thaa
666
+ {"Thai", 19}, // Thai
667
+ {"Tibt", 21}, // Tibt
668
+ {"Ugar", 48}, // Ugar
669
+ {"Vaii", 69}, // Vaii
670
+ {"Xpeo", 59}, // Xpeo
671
+ {"Xsux", 62}, // Xsux
672
+ {"Yiii", 36}, // Yiii
673
+ {"Zinh", 40}, // Zinh
674
+ {"Zyyy", 0}, // Zyyy
675
+ };
676
+
677
+ } // namespace CLD2
678
+ } // namespace chrome_lang_id