semantic-compressor 2.1__py3-none-any.whl → 2.2__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (83) hide show
  1. compressor/resources/nltk_data/tokenizers/punkt_tab/README +98 -0
  2. compressor/resources/nltk_data/tokenizers/punkt_tab/czech/abbrev_types.txt +118 -0
  3. compressor/resources/nltk_data/tokenizers/punkt_tab/czech/collocations.tab +96 -0
  4. compressor/resources/nltk_data/tokenizers/punkt_tab/czech/ortho_context.tab +52789 -0
  5. compressor/resources/nltk_data/tokenizers/punkt_tab/czech/sent_starters.txt +54 -0
  6. compressor/resources/nltk_data/tokenizers/punkt_tab/danish/abbrev_types.txt +211 -0
  7. compressor/resources/nltk_data/tokenizers/punkt_tab/danish/collocations.tab +101 -0
  8. compressor/resources/nltk_data/tokenizers/punkt_tab/danish/ortho_context.tab +53913 -0
  9. compressor/resources/nltk_data/tokenizers/punkt_tab/danish/sent_starters.txt +64 -0
  10. compressor/resources/nltk_data/tokenizers/punkt_tab/dutch/abbrev_types.txt +99 -0
  11. compressor/resources/nltk_data/tokenizers/punkt_tab/dutch/collocations.tab +37 -0
  12. compressor/resources/nltk_data/tokenizers/punkt_tab/dutch/ortho_context.tab +32208 -0
  13. compressor/resources/nltk_data/tokenizers/punkt_tab/dutch/sent_starters.txt +54 -0
  14. compressor/resources/nltk_data/tokenizers/punkt_tab/english/abbrev_types.txt +156 -0
  15. compressor/resources/nltk_data/tokenizers/punkt_tab/english/collocations.tab +37 -0
  16. compressor/resources/nltk_data/tokenizers/punkt_tab/english/ortho_context.tab +20366 -0
  17. compressor/resources/nltk_data/tokenizers/punkt_tab/english/sent_starters.txt +39 -0
  18. compressor/resources/nltk_data/tokenizers/punkt_tab/estonian/abbrev_types.txt +48 -0
  19. compressor/resources/nltk_data/tokenizers/punkt_tab/estonian/collocations.tab +100 -0
  20. compressor/resources/nltk_data/tokenizers/punkt_tab/estonian/ortho_context.tab +68544 -0
  21. compressor/resources/nltk_data/tokenizers/punkt_tab/estonian/sent_starters.txt +89 -0
  22. compressor/resources/nltk_data/tokenizers/punkt_tab/finnish/abbrev_types.txt +81 -0
  23. compressor/resources/nltk_data/tokenizers/punkt_tab/finnish/collocations.tab +167 -0
  24. compressor/resources/nltk_data/tokenizers/punkt_tab/finnish/ortho_context.tab +79765 -0
  25. compressor/resources/nltk_data/tokenizers/punkt_tab/finnish/sent_starters.txt +86 -0
  26. compressor/resources/nltk_data/tokenizers/punkt_tab/french/abbrev_types.txt +61 -0
  27. compressor/resources/nltk_data/tokenizers/punkt_tab/french/collocations.tab +18 -0
  28. compressor/resources/nltk_data/tokenizers/punkt_tab/french/ortho_context.tab +26726 -0
  29. compressor/resources/nltk_data/tokenizers/punkt_tab/french/sent_starters.txt +48 -0
  30. compressor/resources/nltk_data/tokenizers/punkt_tab/german/abbrev_types.txt +71 -0
  31. compressor/resources/nltk_data/tokenizers/punkt_tab/german/collocations.tab +28 -0
  32. compressor/resources/nltk_data/tokenizers/punkt_tab/german/ortho_context.tab +60260 -0
  33. compressor/resources/nltk_data/tokenizers/punkt_tab/german/sent_starters.txt +107 -0
  34. compressor/resources/nltk_data/tokenizers/punkt_tab/greek/abbrev_types.txt +100 -0
  35. compressor/resources/nltk_data/tokenizers/punkt_tab/greek/collocations.tab +7 -0
  36. compressor/resources/nltk_data/tokenizers/punkt_tab/greek/ortho_context.tab +29624 -0
  37. compressor/resources/nltk_data/tokenizers/punkt_tab/greek/sent_starters.txt +54 -0
  38. compressor/resources/nltk_data/tokenizers/punkt_tab/italian/abbrev_types.txt +125 -0
  39. compressor/resources/nltk_data/tokenizers/punkt_tab/italian/collocations.tab +6 -0
  40. compressor/resources/nltk_data/tokenizers/punkt_tab/italian/ortho_context.tab +29929 -0
  41. compressor/resources/nltk_data/tokenizers/punkt_tab/italian/sent_starters.txt +40 -0
  42. compressor/resources/nltk_data/tokenizers/punkt_tab/malayalam/abbrev_types.txt +285 -0
  43. compressor/resources/nltk_data/tokenizers/punkt_tab/malayalam/collocations.tab +153 -0
  44. compressor/resources/nltk_data/tokenizers/punkt_tab/malayalam/ortho_context.tab +10520 -0
  45. compressor/resources/nltk_data/tokenizers/punkt_tab/malayalam/sent_starters.txt +14 -0
  46. compressor/resources/nltk_data/tokenizers/punkt_tab/norwegian/abbrev_types.txt +106 -0
  47. compressor/resources/nltk_data/tokenizers/punkt_tab/norwegian/collocations.tab +54 -0
  48. compressor/resources/nltk_data/tokenizers/punkt_tab/norwegian/ortho_context.tab +54125 -0
  49. compressor/resources/nltk_data/tokenizers/punkt_tab/norwegian/sent_starters.txt +63 -0
  50. compressor/resources/nltk_data/tokenizers/punkt_tab/polish/abbrev_types.txt +225 -0
  51. compressor/resources/nltk_data/tokenizers/punkt_tab/polish/collocations.tab +57 -0
  52. compressor/resources/nltk_data/tokenizers/punkt_tab/polish/ortho_context.tab +81425 -0
  53. compressor/resources/nltk_data/tokenizers/punkt_tab/polish/sent_starters.txt +71 -0
  54. compressor/resources/nltk_data/tokenizers/punkt_tab/portuguese/abbrev_types.txt +72 -0
  55. compressor/resources/nltk_data/tokenizers/punkt_tab/portuguese/collocations.tab +5 -0
  56. compressor/resources/nltk_data/tokenizers/punkt_tab/portuguese/ortho_context.tab +30167 -0
  57. compressor/resources/nltk_data/tokenizers/punkt_tab/portuguese/sent_starters.txt +40 -0
  58. compressor/resources/nltk_data/tokenizers/punkt_tab/russian/abbrev_types.txt +1989 -0
  59. compressor/resources/nltk_data/tokenizers/punkt_tab/russian/collocations.tab +0 -0
  60. compressor/resources/nltk_data/tokenizers/punkt_tab/russian/ortho_context.tab +1 -0
  61. compressor/resources/nltk_data/tokenizers/punkt_tab/russian/sent_starters.txt +0 -0
  62. compressor/resources/nltk_data/tokenizers/punkt_tab/slovene/abbrev_types.txt +73 -0
  63. compressor/resources/nltk_data/tokenizers/punkt_tab/slovene/collocations.tab +74 -0
  64. compressor/resources/nltk_data/tokenizers/punkt_tab/slovene/ortho_context.tab +35434 -0
  65. compressor/resources/nltk_data/tokenizers/punkt_tab/slovene/sent_starters.txt +58 -0
  66. compressor/resources/nltk_data/tokenizers/punkt_tab/spanish/abbrev_types.txt +66 -0
  67. compressor/resources/nltk_data/tokenizers/punkt_tab/spanish/collocations.tab +7 -0
  68. compressor/resources/nltk_data/tokenizers/punkt_tab/spanish/ortho_context.tab +27443 -0
  69. compressor/resources/nltk_data/tokenizers/punkt_tab/spanish/sent_starters.txt +46 -0
  70. compressor/resources/nltk_data/tokenizers/punkt_tab/swedish/abbrev_types.txt +39 -0
  71. compressor/resources/nltk_data/tokenizers/punkt_tab/swedish/collocations.tab +8 -0
  72. compressor/resources/nltk_data/tokenizers/punkt_tab/swedish/ortho_context.tab +44485 -0
  73. compressor/resources/nltk_data/tokenizers/punkt_tab/swedish/sent_starters.txt +49 -0
  74. compressor/resources/nltk_data/tokenizers/punkt_tab/turkish/abbrev_types.txt +67 -0
  75. compressor/resources/nltk_data/tokenizers/punkt_tab/turkish/collocations.tab +14 -0
  76. compressor/resources/nltk_data/tokenizers/punkt_tab/turkish/ortho_context.tab +45926 -0
  77. compressor/resources/nltk_data/tokenizers/punkt_tab/turkish/sent_starters.txt +87 -0
  78. compressor/resources/nltk_data/tokenizers/punkt_tab.zip +0 -0
  79. {semantic_compressor-2.1.dist-info → semantic_compressor-2.2.dist-info}/METADATA +1 -1
  80. {semantic_compressor-2.1.dist-info → semantic_compressor-2.2.dist-info}/RECORD +83 -5
  81. {semantic_compressor-2.1.dist-info → semantic_compressor-2.2.dist-info}/LICENSE +0 -0
  82. {semantic_compressor-2.1.dist-info → semantic_compressor-2.2.dist-info}/WHEEL +0 -0
  83. {semantic_compressor-2.1.dist-info → semantic_compressor-2.2.dist-info}/top_level.txt +0 -0
@@ -0,0 +1,89 @@
1
+ kalad
2
+ õnneks
3
+ selle
4
+ maimu
5
+ teisipäeval
6
+ ma
7
+ skorpion
8
+ aga
9
+ lisaks
10
+ selleks
11
+ maitse
12
+ esiteks
13
+ erinevalt
14
+ pealegi
15
+ praegu
16
+ kas
17
+ tegelikult
18
+ neitsi
19
+ nädalavahetus
20
+ tema
21
+ kui
22
+ seega
23
+ täna
24
+ lugupidamisega
25
+ miks
26
+ teiseks
27
+ väldi
28
+ pohlak
29
+ osades
30
+ sõnn
31
+ samas
32
+ nimelt
33
+ juhtkiri
34
+ krimi
35
+ nädalavahetusel
36
+ näiteks
37
+ kuidas
38
+ ambur
39
+ telgmaa
40
+ laupäeval
41
+ seetõttu
42
+ rezhissöör
43
+ kahjuks
44
+ ent
45
+ samuti
46
+ ehkki
47
+ veevalaja
48
+ seepärast
49
+ muidugi
50
+ kuna
51
+ tänaseks
52
+ mina
53
+ loomulikult
54
+ ometi
55
+ arvamus
56
+ lõvi
57
+ ee
58
+ niisiis
59
+ mul
60
+ kaksikud
61
+ tõsi
62
+ hinnete
63
+ sestap
64
+ tõenäoliselt
65
+ samal
66
+ see
67
+ paraku
68
+ jäär
69
+ kokkuvõttes
70
+ küllap
71
+ muide
72
+ nüüd
73
+ kolmapäeval
74
+ võibolla
75
+ kuid
76
+ nädalavahetuse
77
+ kuigi
78
+ võid
79
+ lõpuks
80
+ kaalud
81
+ areen
82
+ kirjad
83
+ vähk
84
+ esmaspäeval
85
+ nii
86
+ need
87
+ uue
88
+ ta
89
+ minu
@@ -0,0 +1,81 @@
1
+ t
2
+ suom
3
+ dr
4
+ st
5
+ 970125090.jtun
6
+ p
7
+ sis
8
+ t.h
9
+ 961221327.jtun
10
+ a.i
11
+ milj
12
+ ski
13
+ kp
14
+ 970131067.jtun
15
+ 970124030.jtun
16
+ nk
17
+ va
18
+ pan
19
+ yhteystiedot
20
+ ruots
21
+ jne
22
+ t.a
23
+ l.-g
24
+ k
25
+ j.w
26
+ p2
27
+ oik
28
+ 970102248.jtun
29
+ hj
30
+ s
31
+ vt
32
+ muistelmia
33
+ o.s
34
+ elo
35
+ h
36
+ ortod
37
+ o.l
38
+ w
39
+ tms
40
+ 970120219.jtun
41
+ pj
42
+ ok
43
+ toissapäiväinen
44
+ 28.t1
45
+ pelintekijä
46
+ 970111011.jtun
47
+ op
48
+ os
49
+ ns
50
+ m.g
51
+ o.-i
52
+ m3
53
+ pros
54
+ mr
55
+ 970102171.jtun
56
+ waller
57
+ hels
58
+ rotary-järjestössä
59
+ ins
60
+ esim
61
+ apul
62
+ fil
63
+ id
64
+ ym
65
+ j
66
+ rf
67
+ v.o
68
+ lis
69
+ c.a
70
+ em
71
+ kand
72
+ r.y
73
+ valt
74
+ dipl
75
+ ö
76
+ 970111092.jtun
77
+ ponteva
78
+ y
79
+ kapakoista
80
+ 970130160.jtun
81
+ th
@@ -0,0 +1,167 @@
1
+ ##number## sm
2
+ ##number## ohjelmassa
3
+ ##number## a3
4
+ ##number## rc3
5
+ ##number## rxd4
6
+ ##number## hxg4
7
+ o stenberg
8
+ ##number## lg5
9
+ ##number## tallitontun
10
+ ##number## lähetysohjeet
11
+ ##number## uimakoulu
12
+ ##number## jaana
13
+ ##number## alustuksen
14
+ ##number## uppo-nallen
15
+ ##number## anne
16
+ ##number## rxf3
17
+ a sjögren
18
+ ##number## kamarikuoro
19
+ ##number## vetäjänä
20
+ ##number## pääsymaksu
21
+ ##number## kerros
22
+ ##number## kurssi
23
+ ##number## kuori
24
+ ##number## g4
25
+ ##number## h3
26
+ ##number## tiede-teatterissa
27
+ ##number## kh2
28
+ ##number## kausimaksu
29
+ ##number## tia
30
+ ##number## gxf5
31
+ ##number## täky-galleria
32
+ ##number## le2
33
+ ##number## te8+
34
+ ##number## la4
35
+ ##number## keitä
36
+ ##number## huhtikuuta
37
+ ##number## menotiedoissa
38
+ ##number## valmista
39
+ ##number## txb5
40
+ ##number## maskeerauskurssin
41
+ ##number## rd2
42
+ ##number## re2
43
+ ##number## solisteina
44
+ ##number## esitelmä
45
+ ##number## puupiirrossarja
46
+ ##number## ta1
47
+ ##number## vaahdota
48
+ ##number## h4
49
+ ##number## kesäkuuta
50
+ ##number## liikkeitä
51
+ ##number## tuolloin
52
+ ##number## viikko
53
+ ##number## mittaa
54
+ a sjögrenin
55
+ ##number## exf6
56
+ ##number## rc6+
57
+ ##number## viimeistele
58
+ ##number## ld1
59
+ ##number## elokuuta
60
+ ##number## dh5+
61
+ ##number## syyskuuta
62
+ ##number## opettajina
63
+ ##number## b3
64
+ ##number## rauhankatu
65
+ c clarke
66
+ ##number## saakka
67
+ ##number## elokuvat
68
+ b huggins
69
+ g gahmberg
70
+ ##number## luento
71
+ ##number## lf3
72
+ ##number## tammikuuta
73
+ ##number## ryömä
74
+ ##number## meller
75
+ ##number## jäsenkortti
76
+ ##number## esiintyjinä
77
+ ##number## maria
78
+ ##number## lf4
79
+ ##number## siirto
80
+ ##number## aurinko
81
+ ##number## lxg6
82
+ ##number## marraskuuta
83
+ ##number## harjoituksissa
84
+ ##number## romantika-yhtye
85
+ ##number## g3
86
+ ##number## heinäkuuta
87
+ ##number## rxd5
88
+ ##number## kuumenna
89
+ e hämäläisen
90
+ ##number## bxc4
91
+ ##number## te1
92
+ ##number## kg2
93
+ ##number## osallistumismaksu
94
+ ##number## re5
95
+ ##number## ohjelma
96
+ ##number## varapuheenjohtajaksi
97
+ ##number## raisa
98
+ ##number## päivään
99
+ ##number## luokan
100
+ ##number## sulata
101
+ ##number## levitä
102
+ ##number## kaustinen
103
+ ##number## kuoroa
104
+ ##number## df3
105
+ v helsingistä
106
+ ##number## mieskuoro
107
+ ##number## lokakuuta
108
+ ##number## kerho
109
+ ##number## helmikuuta
110
+ ##number## kokkola
111
+ ##number## suuruusluokan
112
+ v kaupungista
113
+ ##number## krs
114
+ ##number## tekstit
115
+ ##number## menyy
116
+ ##number## rf3
117
+ ##number## ulkoasiainministeriön
118
+ ##number## kaada
119
+ ##number## cxd5
120
+ ##number## ilmailumuseo
121
+ e waris
122
+ ##number## kierros
123
+ ##number## tunnille
124
+ ##number## kh3
125
+ ##number## ohjaus
126
+ a t.
127
+ ##number## postimaksu
128
+ ##number## pane
129
+ ##number## th3
130
+ ##number## joulukuuta
131
+ ##number## vatkaa
132
+ ##number## kokeessa
133
+ l j.
134
+ ##number## asti
135
+ ##number## opastajana
136
+ ##number## kirsi
137
+ ##number## lc2
138
+ ##number## lh2
139
+ ##number## e4
140
+ ##number## sairaankuljetukset
141
+ ##number## sekoita
142
+ ##number## mervi
143
+ ##number## de2
144
+ a pietilän
145
+ ##number## kf1
146
+ ##number## toukokuuta
147
+ ##number## maaliskuuta
148
+ ##number## leikkaa
149
+ ##number## ryhmänäytökset
150
+ v maaseudulta
151
+ ##number## de3-e1
152
+ ##number## c4
153
+ ##number## ta1-b1
154
+ ##number## d5
155
+ ##number## pia
156
+ ##number## lxd6
157
+ ##number## d4
158
+ ##number## f3-f4
159
+ ##number## dxg6+
160
+ ##number## sari
161
+ ##number## pelkkään
162
+ ##number## ld3
163
+ ##number## perkaa
164
+ ##number## lg3
165
+ ##number## kg3
166
+ ##number## kvm
167
+ ##number## tb1xb6