opener-tokenizer-base 1.0.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (44) hide show
  1. checksums.yaml +7 -0
  2. data/README.md +148 -0
  3. data/bin/tokenizer-base +5 -0
  4. data/bin/tokenizer-de +5 -0
  5. data/bin/tokenizer-en +5 -0
  6. data/bin/tokenizer-es +5 -0
  7. data/bin/tokenizer-fr +5 -0
  8. data/bin/tokenizer-it +5 -0
  9. data/bin/tokenizer-nl +5 -0
  10. data/core/lib/Data/OptList.pm +256 -0
  11. data/core/lib/Params/Util.pm +866 -0
  12. data/core/lib/Sub/Exporter.pm +1101 -0
  13. data/core/lib/Sub/Exporter/Cookbook.pod +309 -0
  14. data/core/lib/Sub/Exporter/Tutorial.pod +280 -0
  15. data/core/lib/Sub/Exporter/Util.pm +354 -0
  16. data/core/lib/Sub/Install.pm +329 -0
  17. data/core/lib/Time/Stamp.pm +808 -0
  18. data/core/load-prefixes.pl +43 -0
  19. data/core/nonbreaking_prefixes/abbreviation_list.kaf +0 -0
  20. data/core/nonbreaking_prefixes/abbreviation_list.txt +444 -0
  21. data/core/nonbreaking_prefixes/nonbreaking_prefix.ca +533 -0
  22. data/core/nonbreaking_prefixes/nonbreaking_prefix.de +781 -0
  23. data/core/nonbreaking_prefixes/nonbreaking_prefix.el +448 -0
  24. data/core/nonbreaking_prefixes/nonbreaking_prefix.en +564 -0
  25. data/core/nonbreaking_prefixes/nonbreaking_prefix.es +758 -0
  26. data/core/nonbreaking_prefixes/nonbreaking_prefix.fr +1027 -0
  27. data/core/nonbreaking_prefixes/nonbreaking_prefix.is +697 -0
  28. data/core/nonbreaking_prefixes/nonbreaking_prefix.it +641 -0
  29. data/core/nonbreaking_prefixes/nonbreaking_prefix.nl +739 -0
  30. data/core/nonbreaking_prefixes/nonbreaking_prefix.pl +729 -0
  31. data/core/nonbreaking_prefixes/nonbreaking_prefix.pt +656 -0
  32. data/core/nonbreaking_prefixes/nonbreaking_prefix.ro +484 -0
  33. data/core/nonbreaking_prefixes/nonbreaking_prefix.ru +705 -0
  34. data/core/nonbreaking_prefixes/nonbreaking_prefix.sk +920 -0
  35. data/core/nonbreaking_prefixes/nonbreaking_prefix.sl +524 -0
  36. data/core/nonbreaking_prefixes/nonbreaking_prefix.sv +492 -0
  37. data/core/split-sentences.pl +114 -0
  38. data/core/text-fixer.pl +169 -0
  39. data/core/tokenizer-cli.pl +363 -0
  40. data/core/tokenizer.pl +145 -0
  41. data/lib/opener/tokenizers/base.rb +84 -0
  42. data/lib/opener/tokenizers/base/version.rb +8 -0
  43. data/opener-tokenizer-base.gemspec +25 -0
  44. metadata +134 -0
@@ -0,0 +1,1027 @@
1
+
2
+ #Special cases are included for prefixes that ONLY appear before 0-9 numbers.
3
+
4
+ #any single upper case letter followed by a period is not a sentence ender (excluding I occasionally, but we leave it in)
5
+ #usually upper case letters are initials in a name
6
+ #no german words end in single lower-case letters, so we throw those in too.
7
+ A
8
+ B
9
+ C
10
+ D
11
+ E
12
+ F
13
+ G
14
+ H
15
+ I
16
+ J
17
+ K
18
+ L
19
+ M
20
+ N
21
+ O
22
+ P
23
+ Q
24
+ R
25
+ S
26
+ T
27
+ U
28
+ V
29
+ W
30
+ X
31
+ Y
32
+ Z
33
+ #a
34
+ b
35
+ c
36
+ d
37
+ e
38
+ f
39
+ g
40
+ h
41
+ i
42
+ j
43
+ k
44
+ l
45
+ m
46
+ n
47
+ o
48
+ p
49
+ q
50
+ r
51
+ s
52
+ t
53
+ u
54
+ v
55
+ w
56
+ x
57
+ y
58
+ z
59
+
60
+
61
+ #Roman Numerals. A dot after one of these is not a sentence break in German.
62
+ I
63
+ II
64
+ III
65
+ IV
66
+ V
67
+ VI
68
+ VII
69
+ VIII
70
+ IX
71
+ X
72
+ XI
73
+ XII
74
+ XIII
75
+ XIV
76
+ XV
77
+ XVI
78
+ XVII
79
+ XVIII
80
+ XIX
81
+ XX
82
+ i
83
+ ii
84
+ iii
85
+ iv
86
+ v
87
+ vi
88
+ vii
89
+ viii
90
+ ix
91
+ x
92
+ xi
93
+ xii
94
+ xiii
95
+ xiv
96
+ xv
97
+ xvi
98
+ xvii
99
+ xviii
100
+ xix
101
+ xx
102
+
103
+ #Titles and Honorifics
104
+
105
+ Nr
106
+ abrev
107
+ abs
108
+ Acad
109
+ acron
110
+ adj
111
+ adr
112
+ adv
113
+ Affl
114
+ a.l
115
+ all
116
+ alpin
117
+ alt
118
+ anachron
119
+ anal
120
+ anat
121
+ angl
122
+ anthropol
123
+ antiq
124
+ appos
125
+ apr
126
+ J.-C
127
+ archeol
128
+ arrond
129
+ art
130
+ a./s
131
+ asc
132
+ astrol
133
+ astron
134
+ astronaut
135
+ atm
136
+ auj
137
+ aux
138
+ av
139
+ avr
140
+ b.a.o
141
+ b.a.p
142
+ b.a.r
143
+ bat
144
+ bat
145
+ B.ches-du-Rh
146
+ bd
147
+ bde
148
+ bibliogr
149
+ biochim
150
+ biol
151
+ bot
152
+ br
153
+ bull
154
+ C.a
155
+ c.-a-d
156
+ c.a.f
157
+ caract
158
+ card
159
+ cart
160
+ cc
161
+ Cdt
162
+ cf
163
+ cft
164
+ Chap
165
+ ch
166
+ chbre
167
+ chbs
168
+ chf
169
+ ch.-l
170
+ chim
171
+ chir
172
+ Ch.-Mme
173
+ chronol
174
+ Cie
175
+ coeff
176
+ Col
177
+ coll
178
+ compar
179
+ compl
180
+ cond
181
+ conf
182
+ conj
183
+ conjug
184
+ cosm
185
+ C.p.c.n
186
+ cpt
187
+ cpte
188
+ cuis
189
+ dec
190
+ def
191
+ dem
192
+ dep
193
+ dept
194
+ dim
195
+ didact
196
+ dispo
197
+ div
198
+ dr
199
+ dz
200
+ eccles
201
+ ecol
202
+ econ
203
+ ed
204
+ Éd
205
+ edit
206
+ electr
207
+ electron
208
+ ellipt
209
+ encycl
210
+ env
211
+ ep
212
+ eq
213
+ equit
214
+ equiv
215
+ et
216
+ etc
217
+ ethnol
218
+ Ets
219
+ etymol
220
+ euphem
221
+ Euro
222
+ Ev
223
+ ex
224
+ exclam
225
+ exp
226
+ expo
227
+ b
228
+ f.a.c
229
+ fam
230
+ fasc
231
+ faub
232
+ fbg
233
+ Fco
234
+ fem
235
+ fevr
236
+ ff
237
+ fig
238
+ fin
239
+ fl
240
+ fr
241
+ Fr
242
+ freq
243
+ fut
244
+ Gar
245
+ gd
246
+ gde
247
+ gdes
248
+ gds
249
+ gen
250
+ geneal
251
+ geogr
252
+ geol
253
+ geom
254
+ ger
255
+ Gir
256
+ grav
257
+ grd
258
+ hab
259
+ hist
260
+ h.-t
261
+ ibid
262
+ id
263
+ i.e
264
+ imp
265
+ imper
266
+ impers
267
+ ind
268
+ indef
269
+ indic
270
+ inf
271
+ inform
272
+ ing
273
+ interj
274
+ interrog
275
+ intr
276
+ introd
277
+ invar
278
+ iron
279
+ irreg
280
+ ital
281
+ j
282
+ janv
283
+ jard
284
+ Jeu
285
+ jr
286
+ juil
287
+ larg
288
+ lat
289
+ lex
290
+ Lieut
291
+ lieut
292
+ litter
293
+ liturg
294
+ liv
295
+ loc
296
+ lof
297
+ long
298
+ Lun
299
+ m
300
+ magnif
301
+ mar
302
+ max
303
+ Me
304
+ med
305
+ Mer
306
+ Mes
307
+ meton
308
+ metrol
309
+ Mgr
310
+ Mgrs
311
+ min
312
+ Mlle(s)
313
+ Mme(s)
314
+ ms
315
+ MSc
316
+ mus
317
+ n
318
+ nat
319
+ neerl
320
+ neg
321
+ neol
322
+ n.f
323
+ n.f.pl
324
+ nivx
325
+ n.m
326
+ n.m.pl
327
+ no
328
+ nos
329
+ nov
330
+ num
331
+ oblig
332
+ obs
333
+ occid
334
+ occult
335
+ oct
336
+ O.d.J
337
+ ~nol
338
+ off
339
+ onomat
340
+ op
341
+ oppos
342
+ ouvr
343
+ p
344
+ paragr
345
+ part
346
+ Pas
347
+ pathol
348
+ pejor
349
+ pers
350
+ P
351
+ ch
352
+ p
353
+ p.o
354
+ p.ex
355
+ p.g.c.d
356
+ pharm
357
+ phys
358
+ p.i
359
+ pisc
360
+ p.j
361
+ pl
362
+ pleon
363
+ p.m
364
+ polit
365
+ pop
366
+ poss
367
+ pp
368
+ p.p
369
+ P.p.c
370
+ p.p.c.d
371
+ p.p.c.m
372
+ p.pr
373
+ pr
374
+ pref
375
+ prep
376
+ pres
377
+ prof
378
+ prom
379
+ pron
380
+ prov
381
+ prox
382
+ psychol
383
+ Pte
384
+ px
385
+ qqch
386
+ qqf
387
+ qqn
388
+ qqns
389
+ q.s
390
+ r.-de-ch
391
+ ref
392
+ refl
393
+ reg
394
+ region
395
+ relig
396
+ resid
397
+ Revd
398
+ Rh
399
+ Riv
400
+ s
401
+ Sam
402
+ S.a.r.l
403
+ s.b.f
404
+ sc
405
+ s/c
406
+ scol
407
+ s.d
408
+ sect
409
+ sej
410
+ sem
411
+ S.Em
412
+ s.e
413
+ o
414
+ sep
415
+ sept
416
+ S.Exc
417
+ sf
418
+ sgt
419
+ SGT
420
+ signif
421
+ s.l
422
+ s.l.n.d
423
+ s.l.p
424
+ Ste
425
+ s.t.p
426
+ subj
427
+ subst
428
+ succ
429
+ suff
430
+ suiv
431
+ sup
432
+ s.v.p
433
+ sylvic
434
+ syn
435
+ t
436
+ technol
437
+ tel
438
+ telecomm
439
+ terr
440
+ text
441
+ tg
442
+ theol
443
+ tr
444
+ Tr
445
+ trad
446
+ travx
447
+ trim
448
+ t.s.v.p
449
+ urg
450
+ v
451
+ var
452
+ V.Exc
453
+ v.intr
454
+ vol
455
+ vs
456
+ v.tr
457
+ vulg
458
+ vx
459
+ zool
460
+
461
+
462
+ #Number indicators
463
+ # add #NUMERIC_ONLY# after the word if it should ONLY be non-breaking when a 0-9 digit follows it
464
+ No
465
+ Nos
466
+ Art
467
+ Nr
468
+ pp
469
+ ca
470
+ Ca
471
+
472
+ #Ordinals are done with . in German - "1." = "1st" in English
473
+ #1
474
+ #2
475
+ #3
476
+ #4
477
+ #5
478
+ #6
479
+ #7
480
+ #8
481
+ #9
482
+ #10
483
+ #11
484
+ #12
485
+ #13
486
+ #14
487
+ #15
488
+ #16
489
+ #17
490
+ #18
491
+ #19
492
+ #20
493
+ #21
494
+ #22
495
+ #23
496
+ #24
497
+ #25
498
+ #26
499
+ #27
500
+ #28
501
+ #29
502
+ #30
503
+ #31
504
+ #32
505
+ #33
506
+ #34
507
+ #35
508
+ #36
509
+ #37
510
+ #38
511
+ #39
512
+ #40
513
+ #41
514
+ #42
515
+ #43
516
+ #44
517
+ #45
518
+ #46
519
+ #47
520
+ #48
521
+ #49
522
+ #50
523
+ #51
524
+ #52
525
+ #53
526
+ #54
527
+ #55
528
+ #56
529
+ #57
530
+ #58
531
+ #59
532
+ #60
533
+ #61
534
+ #62
535
+ #63
536
+ #64
537
+ #65
538
+ #66
539
+ #67
540
+ #68
541
+ #69
542
+ #70
543
+ #71
544
+ #72
545
+ #73
546
+ #74
547
+ #75
548
+ #76
549
+ #77
550
+ #78
551
+ #79
552
+ #80
553
+ #81
554
+ #82
555
+ #83
556
+ #84
557
+ #85
558
+ #86
559
+ #87
560
+ #88
561
+ #89
562
+ #90
563
+ #91
564
+ #92
565
+ #93
566
+ #94
567
+ #95
568
+ #96
569
+ #97
570
+ #98
571
+ #99
572
+
573
+ #unified abbreviation list
574
+ Acad
575
+ Adj
576
+ Adm
577
+ Adv
578
+ Affl
579
+ Apr
580
+ Art
581
+ Asst
582
+ Av
583
+ Avg
584
+ B.ches-du-Rh
585
+ Bart
586
+ Bco
587
+ Bldg
588
+ Brig
589
+ Bros
590
+ C.a
591
+ C.p.c.n
592
+ Ca
593
+ Capt
594
+ Cdt
595
+ Cf
596
+ Ch.-Mme
597
+ Chap
598
+ Cie
599
+ Cmdr
600
+ Col
601
+ Comdr
602
+ Con
603
+ Corp
604
+ Cpl
605
+ DR
606
+ DRA
607
+ Da
608
+ Dec
609
+ Déc
610
+ Dep
611
+ Dn
612
+ Dr
613
+ Dra
614
+ Dras
615
+ Drs
616
+ Eng
617
+ Enga
618
+ Engas
619
+ Engos
620
+ Ens
621
+ Ets
622
+ Euro
623
+ Ev
624
+ Ex
625
+ Excmo
626
+ Exmo
627
+ Exo
628
+ Fa
629
+ Fco
630
+ Feb
631
+ Féb
632
+ Febv
633
+ Fébv
634
+ Fig
635
+ Fr
636
+ Gar
637
+ Gen
638
+ Gir
639
+ Gl
640
+ Gov
641
+ Hno
642
+ Hon
643
+ Hosp
644
+ Hr
645
+ Ilmo
646
+ Insp
647
+ J.-C
648
+ Jan
649
+ Janv
650
+ Jeu
651
+ Jr
652
+ Juil
653
+ Jul
654
+ Jun
655
+ Lda
656
+ Lieut
657
+ Lt
658
+ Lun
659
+ MM
660
+ MR
661
+ MRS
662
+ MS
663
+ MSc
664
+ Maj
665
+ Mar
666
+ Me
667
+ Mej
668
+ Mer
669
+ Mes
670
+ Messrs
671
+ Mgr
672
+ Mgrs
673
+ Mll
674
+ Mlle
675
+ Mlle(s)
676
+ Mme
677
+ Mme(s)
678
+ Mr
679
+ Mrs
680
+ Ms
681
+ Msgr
682
+ Mw
683
+ Nov
684
+ Npr
685
+ Nr
686
+ O.d.J
687
+ Oct
688
+ Okt
689
+ Op
690
+ Ord
691
+ Oz
692
+ P
693
+ P.D
694
+ P.ej
695
+ P.p.c
696
+ Pas
697
+ Pfc
698
+ Ph
699
+ Prim
700
+ Prof
701
+ Pte
702
+ Pts
703
+ Pvt
704
+ Rep
705
+ Reps
706
+ Res
707
+ Rev
708
+ Revd
709
+ Rh
710
+ Riv
711
+ Rt
712
+ S.Em
713
+ S.Exc
714
+ S.a.r.l
715
+ Sen
716
+ Sens
717
+ Sep
718
+ Sept
719
+ Sfc
720
+ Sgt
721
+ Sl
722
+ Sr
723
+ Sra
724
+ Sras
725
+ Srs
726
+ Srta
727
+ St
728
+ ST
729
+ Sta
730
+ Ste
731
+ Sto
732
+ Supt
733
+ Surg
734
+ Tj
735
+ Tr
736
+ Ud
737
+ Uds
738
+ V.Exc
739
+ Vd
740
+ Vda
741
+ Vds
742
+ Vz
743
+ Z.D
744
+ Z.D.H
745
+ Z.E
746
+ Z.Em
747
+ Z.H
748
+ Z.K.H
749
+ Z.K.M
750
+ Z.M
751
+ #a
752
+ a./s
753
+ a.C
754
+ a.g.v
755
+ a.l
756
+ abrev
757
+ abs
758
+ ac
759
+ acc
760
+ acron
761
+ adj
762
+ adm
763
+ adr
764
+ adv
765
+ alt
766
+ anal
767
+ anat
768
+ angl
769
+ appos
770
+ apr
771
+ apr
772
+ asc
773
+ atm
774
+ auj
775
+ aux
776
+ av
777
+ avg
778
+ avr
779
+ b
780
+ b.a.o
781
+ b.a.p
782
+ b.a.r
783
+ bacc
784
+ bat
785
+ bc
786
+ bd
787
+ bde
788
+ bgen
789
+ bijv
790
+ bijz
791
+ br
792
+ bv
793
+ c
794
+ c.-a-d
795
+ c.a.f
796
+ c.i
797
+ cc
798
+ cf
799
+ cft
800
+ ch
801
+ ch.-l
802
+ chbre
803
+ chbs
804
+ chf
805
+ col
806
+ coll
807
+ cpl
808
+ cpt
809
+ cpte
810
+ cta
811
+ d
812
+ d.c
813
+ d.w.z
814
+ dcha
815
+ dec
816
+ déc
817
+ def
818
+ dem
819
+ dep
820
+ dept
821
+ dhr
822
+ dipl
823
+ dispo
824
+ div
825
+ dpto
826
+ dr
827
+ dr.h.c
828
+ dra
829
+ dras
830
+ drs
831
+ ds
832
+ dz
833
+ e.c
834
+ e.g
835
+ e.g
836
+ e.k
837
+ eccles
838
+ ecol
839
+ econ
840
+ ed
841
+ ej
842
+ env
843
+ ep
844
+ eq
845
+ et
846
+ etc
847
+ ev
848
+ ex
849
+ exmo
850
+ exo
851
+ exp
852
+ expo
853
+ f.a.c
854
+ fa
855
+ fam
856
+ fasc
857
+ fbg
858
+ feb
859
+ febv
860
+ féb
861
+ fébv
862
+ fem
863
+ fevr
864
+ ff
865
+ fl
866
+ fol
867
+ fr
868
+ fs
869
+ fut
870
+ gd
871
+ gde
872
+ gdes
873
+ gds
874
+ gen
875
+ gl
876
+ grd
877
+ h.-t
878
+ hab
879
+ i.e
880
+ i.p.v
881
+ i.s.m
882
+ i.t.t
883
+ i.v.m
884
+ ibid
885
+ id
886
+ imp
887
+ ing
888
+ ir
889
+ iron
890
+ itd
891
+ itn
892
+ itp
893
+ izq
894
+ j
895
+ janv
896
+ jhr
897
+ jkvr
898
+ jr
899
+ l
900
+ lat
901
+ lex
902
+ lgen
903
+ lib
904
+ lieut
905
+ liv
906
+ lkol
907
+ loc
908
+ lof
909
+ m
910
+ m.a.w
911
+ m.b.t
912
+ m.b.v
913
+ m.h.o
914
+ m.i
915
+ m.i.v
916
+ maj
917
+ mar
918
+ mas
919
+ max
920
+ med
921
+ mevr
922
+ min
923
+ mll
924
+ mr
925
+ ms
926
+ mtr
927
+ mtrs
928
+ n
929
+ n
930
+ n.f
931
+ n.f.pl
932
+ n.m
933
+ n.m.pl
934
+ npr
935
+ o
936
+ o.b.s
937
+ obs
938
+ oct
939
+ okt
940
+ ord
941
+ oz
942
+ p
943
+ p
944
+ p.a
945
+ p.ej
946
+ p.ex
947
+ p.g.c.d
948
+ p.i
949
+ p.j
950
+ p.m
951
+ p.o
952
+ p.p
953
+ p.p.c.d
954
+ p.p.c.m
955
+ p.pa
956
+ p.pr
957
+ pl
958
+ plv
959
+ poe
960
+ pp
961
+ pp
962
+ pr
963
+ pr
964
+ pres
965
+ prev
966
+ prof
967
+ px
968
+ q.s
969
+ qqch
970
+ qqf
971
+ qqn
972
+ qqns
973
+ r.-de-ch
974
+ r.p.m
975
+ rc
976
+ rd
977
+ ref
978
+ refl
979
+ reg
980
+ rev
981
+ ro
982
+ rte
983
+ s
984
+ s
985
+ s.a
986
+ s.b.f
987
+ s.d
988
+ s.e
989
+ s.l
990
+ s.l.n.d
991
+ s.l.p
992
+ s.t.p
993
+ s.v.p
994
+ s/c
995
+ sc
996
+ sf
997
+ sgt
998
+ sl
999
+ sr
1000
+ sra
1001
+ sras
1002
+ srs
1003
+ ss
1004
+ sto
1005
+ t
1006
+ t.s.v.p
1007
+ tec
1008
+ tel
1009
+ terr
1010
+ tg
1011
+ tint
1012
+ tit
1013
+ tj
1014
+ tr
1015
+ travx
1016
+ v
1017
+ v.intr
1018
+ v.tr
1019
+ v.w.t
1020
+ var
1021
+ vs
1022
+ vta
1023
+ vx
1024
+ z.v
1025
+ zool
1026
+ Št
1027
+ št