opener-tokenizer-base 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (44) hide show
  1. checksums.yaml +7 -0
  2. data/README.md +148 -0
  3. data/bin/tokenizer-base +5 -0
  4. data/bin/tokenizer-de +5 -0
  5. data/bin/tokenizer-en +5 -0
  6. data/bin/tokenizer-es +5 -0
  7. data/bin/tokenizer-fr +5 -0
  8. data/bin/tokenizer-it +5 -0
  9. data/bin/tokenizer-nl +5 -0
  10. data/core/lib/Data/OptList.pm +256 -0
  11. data/core/lib/Params/Util.pm +866 -0
  12. data/core/lib/Sub/Exporter.pm +1101 -0
  13. data/core/lib/Sub/Exporter/Cookbook.pod +309 -0
  14. data/core/lib/Sub/Exporter/Tutorial.pod +280 -0
  15. data/core/lib/Sub/Exporter/Util.pm +354 -0
  16. data/core/lib/Sub/Install.pm +329 -0
  17. data/core/lib/Time/Stamp.pm +808 -0
  18. data/core/load-prefixes.pl +43 -0
  19. data/core/nonbreaking_prefixes/abbreviation_list.kaf +0 -0
  20. data/core/nonbreaking_prefixes/abbreviation_list.txt +444 -0
  21. data/core/nonbreaking_prefixes/nonbreaking_prefix.ca +533 -0
  22. data/core/nonbreaking_prefixes/nonbreaking_prefix.de +781 -0
  23. data/core/nonbreaking_prefixes/nonbreaking_prefix.el +448 -0
  24. data/core/nonbreaking_prefixes/nonbreaking_prefix.en +564 -0
  25. data/core/nonbreaking_prefixes/nonbreaking_prefix.es +758 -0
  26. data/core/nonbreaking_prefixes/nonbreaking_prefix.fr +1027 -0
  27. data/core/nonbreaking_prefixes/nonbreaking_prefix.is +697 -0
  28. data/core/nonbreaking_prefixes/nonbreaking_prefix.it +641 -0
  29. data/core/nonbreaking_prefixes/nonbreaking_prefix.nl +739 -0
  30. data/core/nonbreaking_prefixes/nonbreaking_prefix.pl +729 -0
  31. data/core/nonbreaking_prefixes/nonbreaking_prefix.pt +656 -0
  32. data/core/nonbreaking_prefixes/nonbreaking_prefix.ro +484 -0
  33. data/core/nonbreaking_prefixes/nonbreaking_prefix.ru +705 -0
  34. data/core/nonbreaking_prefixes/nonbreaking_prefix.sk +920 -0
  35. data/core/nonbreaking_prefixes/nonbreaking_prefix.sl +524 -0
  36. data/core/nonbreaking_prefixes/nonbreaking_prefix.sv +492 -0
  37. data/core/split-sentences.pl +114 -0
  38. data/core/text-fixer.pl +169 -0
  39. data/core/tokenizer-cli.pl +363 -0
  40. data/core/tokenizer.pl +145 -0
  41. data/lib/opener/tokenizers/base.rb +84 -0
  42. data/lib/opener/tokenizers/base/version.rb +8 -0
  43. data/opener-tokenizer-base.gemspec +25 -0
  44. metadata +134 -0
@@ -0,0 +1,1027 @@
1
+
2
+ #Special cases are included for prefixes that ONLY appear before 0-9 numbers.
3
+
4
+ #any single upper case letter followed by a period is not a sentence ender (excluding I occasionally, but we leave it in)
5
+ #usually upper case letters are initials in a name
6
+ #no german words end in single lower-case letters, so we throw those in too.
7
+ A
8
+ B
9
+ C
10
+ D
11
+ E
12
+ F
13
+ G
14
+ H
15
+ I
16
+ J
17
+ K
18
+ L
19
+ M
20
+ N
21
+ O
22
+ P
23
+ Q
24
+ R
25
+ S
26
+ T
27
+ U
28
+ V
29
+ W
30
+ X
31
+ Y
32
+ Z
33
+ #a
34
+ b
35
+ c
36
+ d
37
+ e
38
+ f
39
+ g
40
+ h
41
+ i
42
+ j
43
+ k
44
+ l
45
+ m
46
+ n
47
+ o
48
+ p
49
+ q
50
+ r
51
+ s
52
+ t
53
+ u
54
+ v
55
+ w
56
+ x
57
+ y
58
+ z
59
+
60
+
61
+ #Roman Numerals. A dot after one of these is not a sentence break in German.
62
+ I
63
+ II
64
+ III
65
+ IV
66
+ V
67
+ VI
68
+ VII
69
+ VIII
70
+ IX
71
+ X
72
+ XI
73
+ XII
74
+ XIII
75
+ XIV
76
+ XV
77
+ XVI
78
+ XVII
79
+ XVIII
80
+ XIX
81
+ XX
82
+ i
83
+ ii
84
+ iii
85
+ iv
86
+ v
87
+ vi
88
+ vii
89
+ viii
90
+ ix
91
+ x
92
+ xi
93
+ xii
94
+ xiii
95
+ xiv
96
+ xv
97
+ xvi
98
+ xvii
99
+ xviii
100
+ xix
101
+ xx
102
+
103
+ #Titles and Honorifics
104
+
105
+ Nr
106
+ abrev
107
+ abs
108
+ Acad
109
+ acron
110
+ adj
111
+ adr
112
+ adv
113
+ Affl
114
+ a.l
115
+ all
116
+ alpin
117
+ alt
118
+ anachron
119
+ anal
120
+ anat
121
+ angl
122
+ anthropol
123
+ antiq
124
+ appos
125
+ apr
126
+ J.-C
127
+ archeol
128
+ arrond
129
+ art
130
+ a./s
131
+ asc
132
+ astrol
133
+ astron
134
+ astronaut
135
+ atm
136
+ auj
137
+ aux
138
+ av
139
+ avr
140
+ b.a.o
141
+ b.a.p
142
+ b.a.r
143
+ bat
144
+ bat
145
+ B.ches-du-Rh
146
+ bd
147
+ bde
148
+ bibliogr
149
+ biochim
150
+ biol
151
+ bot
152
+ br
153
+ bull
154
+ C.a
155
+ c.-a-d
156
+ c.a.f
157
+ caract
158
+ card
159
+ cart
160
+ cc
161
+ Cdt
162
+ cf
163
+ cft
164
+ Chap
165
+ ch
166
+ chbre
167
+ chbs
168
+ chf
169
+ ch.-l
170
+ chim
171
+ chir
172
+ Ch.-Mme
173
+ chronol
174
+ Cie
175
+ coeff
176
+ Col
177
+ coll
178
+ compar
179
+ compl
180
+ cond
181
+ conf
182
+ conj
183
+ conjug
184
+ cosm
185
+ C.p.c.n
186
+ cpt
187
+ cpte
188
+ cuis
189
+ dec
190
+ def
191
+ dem
192
+ dep
193
+ dept
194
+ dim
195
+ didact
196
+ dispo
197
+ div
198
+ dr
199
+ dz
200
+ eccles
201
+ ecol
202
+ econ
203
+ ed
204
+ Éd
205
+ edit
206
+ electr
207
+ electron
208
+ ellipt
209
+ encycl
210
+ env
211
+ ep
212
+ eq
213
+ equit
214
+ equiv
215
+ et
216
+ etc
217
+ ethnol
218
+ Ets
219
+ etymol
220
+ euphem
221
+ Euro
222
+ Ev
223
+ ex
224
+ exclam
225
+ exp
226
+ expo
227
+ b
228
+ f.a.c
229
+ fam
230
+ fasc
231
+ faub
232
+ fbg
233
+ Fco
234
+ fem
235
+ fevr
236
+ ff
237
+ fig
238
+ fin
239
+ fl
240
+ fr
241
+ Fr
242
+ freq
243
+ fut
244
+ Gar
245
+ gd
246
+ gde
247
+ gdes
248
+ gds
249
+ gen
250
+ geneal
251
+ geogr
252
+ geol
253
+ geom
254
+ ger
255
+ Gir
256
+ grav
257
+ grd
258
+ hab
259
+ hist
260
+ h.-t
261
+ ibid
262
+ id
263
+ i.e
264
+ imp
265
+ imper
266
+ impers
267
+ ind
268
+ indef
269
+ indic
270
+ inf
271
+ inform
272
+ ing
273
+ interj
274
+ interrog
275
+ intr
276
+ introd
277
+ invar
278
+ iron
279
+ irreg
280
+ ital
281
+ j
282
+ janv
283
+ jard
284
+ Jeu
285
+ jr
286
+ juil
287
+ larg
288
+ lat
289
+ lex
290
+ Lieut
291
+ lieut
292
+ litter
293
+ liturg
294
+ liv
295
+ loc
296
+ lof
297
+ long
298
+ Lun
299
+ m
300
+ magnif
301
+ mar
302
+ max
303
+ Me
304
+ med
305
+ Mer
306
+ Mes
307
+ meton
308
+ metrol
309
+ Mgr
310
+ Mgrs
311
+ min
312
+ Mlle(s)
313
+ Mme(s)
314
+ ms
315
+ MSc
316
+ mus
317
+ n
318
+ nat
319
+ neerl
320
+ neg
321
+ neol
322
+ n.f
323
+ n.f.pl
324
+ nivx
325
+ n.m
326
+ n.m.pl
327
+ no
328
+ nos
329
+ nov
330
+ num
331
+ oblig
332
+ obs
333
+ occid
334
+ occult
335
+ oct
336
+ O.d.J
337
+ ~nol
338
+ off
339
+ onomat
340
+ op
341
+ oppos
342
+ ouvr
343
+ p
344
+ paragr
345
+ part
346
+ Pas
347
+ pathol
348
+ pejor
349
+ pers
350
+ P
351
+ ch
352
+ p
353
+ p.o
354
+ p.ex
355
+ p.g.c.d
356
+ pharm
357
+ phys
358
+ p.i
359
+ pisc
360
+ p.j
361
+ pl
362
+ pleon
363
+ p.m
364
+ polit
365
+ pop
366
+ poss
367
+ pp
368
+ p.p
369
+ P.p.c
370
+ p.p.c.d
371
+ p.p.c.m
372
+ p.pr
373
+ pr
374
+ pref
375
+ prep
376
+ pres
377
+ prof
378
+ prom
379
+ pron
380
+ prov
381
+ prox
382
+ psychol
383
+ Pte
384
+ px
385
+ qqch
386
+ qqf
387
+ qqn
388
+ qqns
389
+ q.s
390
+ r.-de-ch
391
+ ref
392
+ refl
393
+ reg
394
+ region
395
+ relig
396
+ resid
397
+ Revd
398
+ Rh
399
+ Riv
400
+ s
401
+ Sam
402
+ S.a.r.l
403
+ s.b.f
404
+ sc
405
+ s/c
406
+ scol
407
+ s.d
408
+ sect
409
+ sej
410
+ sem
411
+ S.Em
412
+ s.e
413
+ o
414
+ sep
415
+ sept
416
+ S.Exc
417
+ sf
418
+ sgt
419
+ SGT
420
+ signif
421
+ s.l
422
+ s.l.n.d
423
+ s.l.p
424
+ Ste
425
+ s.t.p
426
+ subj
427
+ subst
428
+ succ
429
+ suff
430
+ suiv
431
+ sup
432
+ s.v.p
433
+ sylvic
434
+ syn
435
+ t
436
+ technol
437
+ tel
438
+ telecomm
439
+ terr
440
+ text
441
+ tg
442
+ theol
443
+ tr
444
+ Tr
445
+ trad
446
+ travx
447
+ trim
448
+ t.s.v.p
449
+ urg
450
+ v
451
+ var
452
+ V.Exc
453
+ v.intr
454
+ vol
455
+ vs
456
+ v.tr
457
+ vulg
458
+ vx
459
+ zool
460
+
461
+
462
+ #Number indicators
463
+ # add #NUMERIC_ONLY# after the word if it should ONLY be non-breaking when a 0-9 digit follows it
464
+ No
465
+ Nos
466
+ Art
467
+ Nr
468
+ pp
469
+ ca
470
+ Ca
471
+
472
+ #Ordinals are done with . in German - "1." = "1st" in English
473
+ #1
474
+ #2
475
+ #3
476
+ #4
477
+ #5
478
+ #6
479
+ #7
480
+ #8
481
+ #9
482
+ #10
483
+ #11
484
+ #12
485
+ #13
486
+ #14
487
+ #15
488
+ #16
489
+ #17
490
+ #18
491
+ #19
492
+ #20
493
+ #21
494
+ #22
495
+ #23
496
+ #24
497
+ #25
498
+ #26
499
+ #27
500
+ #28
501
+ #29
502
+ #30
503
+ #31
504
+ #32
505
+ #33
506
+ #34
507
+ #35
508
+ #36
509
+ #37
510
+ #38
511
+ #39
512
+ #40
513
+ #41
514
+ #42
515
+ #43
516
+ #44
517
+ #45
518
+ #46
519
+ #47
520
+ #48
521
+ #49
522
+ #50
523
+ #51
524
+ #52
525
+ #53
526
+ #54
527
+ #55
528
+ #56
529
+ #57
530
+ #58
531
+ #59
532
+ #60
533
+ #61
534
+ #62
535
+ #63
536
+ #64
537
+ #65
538
+ #66
539
+ #67
540
+ #68
541
+ #69
542
+ #70
543
+ #71
544
+ #72
545
+ #73
546
+ #74
547
+ #75
548
+ #76
549
+ #77
550
+ #78
551
+ #79
552
+ #80
553
+ #81
554
+ #82
555
+ #83
556
+ #84
557
+ #85
558
+ #86
559
+ #87
560
+ #88
561
+ #89
562
+ #90
563
+ #91
564
+ #92
565
+ #93
566
+ #94
567
+ #95
568
+ #96
569
+ #97
570
+ #98
571
+ #99
572
+
573
+ #unified abbreviation list
574
+ Acad
575
+ Adj
576
+ Adm
577
+ Adv
578
+ Affl
579
+ Apr
580
+ Art
581
+ Asst
582
+ Av
583
+ Avg
584
+ B.ches-du-Rh
585
+ Bart
586
+ Bco
587
+ Bldg
588
+ Brig
589
+ Bros
590
+ C.a
591
+ C.p.c.n
592
+ Ca
593
+ Capt
594
+ Cdt
595
+ Cf
596
+ Ch.-Mme
597
+ Chap
598
+ Cie
599
+ Cmdr
600
+ Col
601
+ Comdr
602
+ Con
603
+ Corp
604
+ Cpl
605
+ DR
606
+ DRA
607
+ Da
608
+ Dec
609
+ Déc
610
+ Dep
611
+ Dn
612
+ Dr
613
+ Dra
614
+ Dras
615
+ Drs
616
+ Eng
617
+ Enga
618
+ Engas
619
+ Engos
620
+ Ens
621
+ Ets
622
+ Euro
623
+ Ev
624
+ Ex
625
+ Excmo
626
+ Exmo
627
+ Exo
628
+ Fa
629
+ Fco
630
+ Feb
631
+ Féb
632
+ Febv
633
+ Fébv
634
+ Fig
635
+ Fr
636
+ Gar
637
+ Gen
638
+ Gir
639
+ Gl
640
+ Gov
641
+ Hno
642
+ Hon
643
+ Hosp
644
+ Hr
645
+ Ilmo
646
+ Insp
647
+ J.-C
648
+ Jan
649
+ Janv
650
+ Jeu
651
+ Jr
652
+ Juil
653
+ Jul
654
+ Jun
655
+ Lda
656
+ Lieut
657
+ Lt
658
+ Lun
659
+ MM
660
+ MR
661
+ MRS
662
+ MS
663
+ MSc
664
+ Maj
665
+ Mar
666
+ Me
667
+ Mej
668
+ Mer
669
+ Mes
670
+ Messrs
671
+ Mgr
672
+ Mgrs
673
+ Mll
674
+ Mlle
675
+ Mlle(s)
676
+ Mme
677
+ Mme(s)
678
+ Mr
679
+ Mrs
680
+ Ms
681
+ Msgr
682
+ Mw
683
+ Nov
684
+ Npr
685
+ Nr
686
+ O.d.J
687
+ Oct
688
+ Okt
689
+ Op
690
+ Ord
691
+ Oz
692
+ P
693
+ P.D
694
+ P.ej
695
+ P.p.c
696
+ Pas
697
+ Pfc
698
+ Ph
699
+ Prim
700
+ Prof
701
+ Pte
702
+ Pts
703
+ Pvt
704
+ Rep
705
+ Reps
706
+ Res
707
+ Rev
708
+ Revd
709
+ Rh
710
+ Riv
711
+ Rt
712
+ S.Em
713
+ S.Exc
714
+ S.a.r.l
715
+ Sen
716
+ Sens
717
+ Sep
718
+ Sept
719
+ Sfc
720
+ Sgt
721
+ Sl
722
+ Sr
723
+ Sra
724
+ Sras
725
+ Srs
726
+ Srta
727
+ St
728
+ ST
729
+ Sta
730
+ Ste
731
+ Sto
732
+ Supt
733
+ Surg
734
+ Tj
735
+ Tr
736
+ Ud
737
+ Uds
738
+ V.Exc
739
+ Vd
740
+ Vda
741
+ Vds
742
+ Vz
743
+ Z.D
744
+ Z.D.H
745
+ Z.E
746
+ Z.Em
747
+ Z.H
748
+ Z.K.H
749
+ Z.K.M
750
+ Z.M
751
+ #a
752
+ a./s
753
+ a.C
754
+ a.g.v
755
+ a.l
756
+ abrev
757
+ abs
758
+ ac
759
+ acc
760
+ acron
761
+ adj
762
+ adm
763
+ adr
764
+ adv
765
+ alt
766
+ anal
767
+ anat
768
+ angl
769
+ appos
770
+ apr
771
+ apr
772
+ asc
773
+ atm
774
+ auj
775
+ aux
776
+ av
777
+ avg
778
+ avr
779
+ b
780
+ b.a.o
781
+ b.a.p
782
+ b.a.r
783
+ bacc
784
+ bat
785
+ bc
786
+ bd
787
+ bde
788
+ bgen
789
+ bijv
790
+ bijz
791
+ br
792
+ bv
793
+ c
794
+ c.-a-d
795
+ c.a.f
796
+ c.i
797
+ cc
798
+ cf
799
+ cft
800
+ ch
801
+ ch.-l
802
+ chbre
803
+ chbs
804
+ chf
805
+ col
806
+ coll
807
+ cpl
808
+ cpt
809
+ cpte
810
+ cta
811
+ d
812
+ d.c
813
+ d.w.z
814
+ dcha
815
+ dec
816
+ déc
817
+ def
818
+ dem
819
+ dep
820
+ dept
821
+ dhr
822
+ dipl
823
+ dispo
824
+ div
825
+ dpto
826
+ dr
827
+ dr.h.c
828
+ dra
829
+ dras
830
+ drs
831
+ ds
832
+ dz
833
+ e.c
834
+ e.g
835
+ e.g
836
+ e.k
837
+ eccles
838
+ ecol
839
+ econ
840
+ ed
841
+ ej
842
+ env
843
+ ep
844
+ eq
845
+ et
846
+ etc
847
+ ev
848
+ ex
849
+ exmo
850
+ exo
851
+ exp
852
+ expo
853
+ f.a.c
854
+ fa
855
+ fam
856
+ fasc
857
+ fbg
858
+ feb
859
+ febv
860
+ féb
861
+ fébv
862
+ fem
863
+ fevr
864
+ ff
865
+ fl
866
+ fol
867
+ fr
868
+ fs
869
+ fut
870
+ gd
871
+ gde
872
+ gdes
873
+ gds
874
+ gen
875
+ gl
876
+ grd
877
+ h.-t
878
+ hab
879
+ i.e
880
+ i.p.v
881
+ i.s.m
882
+ i.t.t
883
+ i.v.m
884
+ ibid
885
+ id
886
+ imp
887
+ ing
888
+ ir
889
+ iron
890
+ itd
891
+ itn
892
+ itp
893
+ izq
894
+ j
895
+ janv
896
+ jhr
897
+ jkvr
898
+ jr
899
+ l
900
+ lat
901
+ lex
902
+ lgen
903
+ lib
904
+ lieut
905
+ liv
906
+ lkol
907
+ loc
908
+ lof
909
+ m
910
+ m.a.w
911
+ m.b.t
912
+ m.b.v
913
+ m.h.o
914
+ m.i
915
+ m.i.v
916
+ maj
917
+ mar
918
+ mas
919
+ max
920
+ med
921
+ mevr
922
+ min
923
+ mll
924
+ mr
925
+ ms
926
+ mtr
927
+ mtrs
928
+ n
929
+ n
930
+ n.f
931
+ n.f.pl
932
+ n.m
933
+ n.m.pl
934
+ npr
935
+ o
936
+ o.b.s
937
+ obs
938
+ oct
939
+ okt
940
+ ord
941
+ oz
942
+ p
943
+ p
944
+ p.a
945
+ p.ej
946
+ p.ex
947
+ p.g.c.d
948
+ p.i
949
+ p.j
950
+ p.m
951
+ p.o
952
+ p.p
953
+ p.p.c.d
954
+ p.p.c.m
955
+ p.pa
956
+ p.pr
957
+ pl
958
+ plv
959
+ poe
960
+ pp
961
+ pp
962
+ pr
963
+ pr
964
+ pres
965
+ prev
966
+ prof
967
+ px
968
+ q.s
969
+ qqch
970
+ qqf
971
+ qqn
972
+ qqns
973
+ r.-de-ch
974
+ r.p.m
975
+ rc
976
+ rd
977
+ ref
978
+ refl
979
+ reg
980
+ rev
981
+ ro
982
+ rte
983
+ s
984
+ s
985
+ s.a
986
+ s.b.f
987
+ s.d
988
+ s.e
989
+ s.l
990
+ s.l.n.d
991
+ s.l.p
992
+ s.t.p
993
+ s.v.p
994
+ s/c
995
+ sc
996
+ sf
997
+ sgt
998
+ sl
999
+ sr
1000
+ sra
1001
+ sras
1002
+ srs
1003
+ ss
1004
+ sto
1005
+ t
1006
+ t.s.v.p
1007
+ tec
1008
+ tel
1009
+ terr
1010
+ tg
1011
+ tint
1012
+ tit
1013
+ tj
1014
+ tr
1015
+ travx
1016
+ v
1017
+ v.intr
1018
+ v.tr
1019
+ v.w.t
1020
+ var
1021
+ vs
1022
+ vta
1023
+ vx
1024
+ z.v
1025
+ zool
1026
+ Št
1027
+ št