semantic-compressor 2.1__py3-none-any.whl → 2.2__py3-none-any.whl
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- compressor/resources/nltk_data/tokenizers/punkt_tab/README +98 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/czech/abbrev_types.txt +118 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/czech/collocations.tab +96 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/czech/ortho_context.tab +52789 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/czech/sent_starters.txt +54 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/danish/abbrev_types.txt +211 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/danish/collocations.tab +101 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/danish/ortho_context.tab +53913 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/danish/sent_starters.txt +64 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/dutch/abbrev_types.txt +99 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/dutch/collocations.tab +37 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/dutch/ortho_context.tab +32208 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/dutch/sent_starters.txt +54 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/english/abbrev_types.txt +156 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/english/collocations.tab +37 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/english/ortho_context.tab +20366 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/english/sent_starters.txt +39 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/estonian/abbrev_types.txt +48 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/estonian/collocations.tab +100 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/estonian/ortho_context.tab +68544 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/estonian/sent_starters.txt +89 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/finnish/abbrev_types.txt +81 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/finnish/collocations.tab +167 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/finnish/ortho_context.tab +79765 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/finnish/sent_starters.txt +86 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/french/abbrev_types.txt +61 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/french/collocations.tab +18 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/french/ortho_context.tab +26726 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/french/sent_starters.txt +48 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/german/abbrev_types.txt +71 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/german/collocations.tab +28 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/german/ortho_context.tab +60260 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/german/sent_starters.txt +107 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/greek/abbrev_types.txt +100 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/greek/collocations.tab +7 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/greek/ortho_context.tab +29624 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/greek/sent_starters.txt +54 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/italian/abbrev_types.txt +125 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/italian/collocations.tab +6 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/italian/ortho_context.tab +29929 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/italian/sent_starters.txt +40 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/malayalam/abbrev_types.txt +285 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/malayalam/collocations.tab +153 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/malayalam/ortho_context.tab +10520 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/malayalam/sent_starters.txt +14 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/norwegian/abbrev_types.txt +106 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/norwegian/collocations.tab +54 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/norwegian/ortho_context.tab +54125 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/norwegian/sent_starters.txt +63 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/polish/abbrev_types.txt +225 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/polish/collocations.tab +57 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/polish/ortho_context.tab +81425 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/polish/sent_starters.txt +71 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/portuguese/abbrev_types.txt +72 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/portuguese/collocations.tab +5 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/portuguese/ortho_context.tab +30167 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/portuguese/sent_starters.txt +40 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/russian/abbrev_types.txt +1989 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/russian/collocations.tab +0 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/russian/ortho_context.tab +1 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/russian/sent_starters.txt +0 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/slovene/abbrev_types.txt +73 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/slovene/collocations.tab +74 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/slovene/ortho_context.tab +35434 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/slovene/sent_starters.txt +58 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/spanish/abbrev_types.txt +66 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/spanish/collocations.tab +7 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/spanish/ortho_context.tab +27443 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/spanish/sent_starters.txt +46 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/swedish/abbrev_types.txt +39 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/swedish/collocations.tab +8 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/swedish/ortho_context.tab +44485 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/swedish/sent_starters.txt +49 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/turkish/abbrev_types.txt +67 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/turkish/collocations.tab +14 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/turkish/ortho_context.tab +45926 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab/turkish/sent_starters.txt +87 -0
- compressor/resources/nltk_data/tokenizers/punkt_tab.zip +0 -0
- {semantic_compressor-2.1.dist-info → semantic_compressor-2.2.dist-info}/METADATA +1 -1
- {semantic_compressor-2.1.dist-info → semantic_compressor-2.2.dist-info}/RECORD +83 -5
- {semantic_compressor-2.1.dist-info → semantic_compressor-2.2.dist-info}/LICENSE +0 -0
- {semantic_compressor-2.1.dist-info → semantic_compressor-2.2.dist-info}/WHEEL +0 -0
- {semantic_compressor-2.1.dist-info → semantic_compressor-2.2.dist-info}/top_level.txt +0 -0
@@ -0,0 +1,89 @@
|
|
1
|
+
kalad
|
2
|
+
õnneks
|
3
|
+
selle
|
4
|
+
maimu
|
5
|
+
teisipäeval
|
6
|
+
ma
|
7
|
+
skorpion
|
8
|
+
aga
|
9
|
+
lisaks
|
10
|
+
selleks
|
11
|
+
maitse
|
12
|
+
esiteks
|
13
|
+
erinevalt
|
14
|
+
pealegi
|
15
|
+
praegu
|
16
|
+
kas
|
17
|
+
tegelikult
|
18
|
+
neitsi
|
19
|
+
nädalavahetus
|
20
|
+
tema
|
21
|
+
kui
|
22
|
+
seega
|
23
|
+
täna
|
24
|
+
lugupidamisega
|
25
|
+
miks
|
26
|
+
teiseks
|
27
|
+
väldi
|
28
|
+
pohlak
|
29
|
+
osades
|
30
|
+
sõnn
|
31
|
+
samas
|
32
|
+
nimelt
|
33
|
+
juhtkiri
|
34
|
+
krimi
|
35
|
+
nädalavahetusel
|
36
|
+
näiteks
|
37
|
+
kuidas
|
38
|
+
ambur
|
39
|
+
telgmaa
|
40
|
+
laupäeval
|
41
|
+
seetõttu
|
42
|
+
rezhissöör
|
43
|
+
kahjuks
|
44
|
+
ent
|
45
|
+
samuti
|
46
|
+
ehkki
|
47
|
+
veevalaja
|
48
|
+
seepärast
|
49
|
+
muidugi
|
50
|
+
kuna
|
51
|
+
tänaseks
|
52
|
+
mina
|
53
|
+
loomulikult
|
54
|
+
ometi
|
55
|
+
arvamus
|
56
|
+
lõvi
|
57
|
+
ee
|
58
|
+
niisiis
|
59
|
+
mul
|
60
|
+
kaksikud
|
61
|
+
tõsi
|
62
|
+
hinnete
|
63
|
+
sestap
|
64
|
+
tõenäoliselt
|
65
|
+
samal
|
66
|
+
see
|
67
|
+
paraku
|
68
|
+
jäär
|
69
|
+
kokkuvõttes
|
70
|
+
küllap
|
71
|
+
muide
|
72
|
+
nüüd
|
73
|
+
kolmapäeval
|
74
|
+
võibolla
|
75
|
+
kuid
|
76
|
+
nädalavahetuse
|
77
|
+
kuigi
|
78
|
+
võid
|
79
|
+
lõpuks
|
80
|
+
kaalud
|
81
|
+
areen
|
82
|
+
kirjad
|
83
|
+
vähk
|
84
|
+
esmaspäeval
|
85
|
+
nii
|
86
|
+
need
|
87
|
+
uue
|
88
|
+
ta
|
89
|
+
minu
|
@@ -0,0 +1,81 @@
|
|
1
|
+
t
|
2
|
+
suom
|
3
|
+
dr
|
4
|
+
st
|
5
|
+
970125090.jtun
|
6
|
+
p
|
7
|
+
sis
|
8
|
+
t.h
|
9
|
+
961221327.jtun
|
10
|
+
a.i
|
11
|
+
milj
|
12
|
+
ski
|
13
|
+
kp
|
14
|
+
970131067.jtun
|
15
|
+
970124030.jtun
|
16
|
+
nk
|
17
|
+
va
|
18
|
+
pan
|
19
|
+
yhteystiedot
|
20
|
+
ruots
|
21
|
+
jne
|
22
|
+
t.a
|
23
|
+
l.-g
|
24
|
+
k
|
25
|
+
j.w
|
26
|
+
p2
|
27
|
+
oik
|
28
|
+
970102248.jtun
|
29
|
+
hj
|
30
|
+
s
|
31
|
+
vt
|
32
|
+
muistelmia
|
33
|
+
o.s
|
34
|
+
elo
|
35
|
+
h
|
36
|
+
ortod
|
37
|
+
o.l
|
38
|
+
w
|
39
|
+
tms
|
40
|
+
970120219.jtun
|
41
|
+
pj
|
42
|
+
ok
|
43
|
+
toissapäiväinen
|
44
|
+
28.t1
|
45
|
+
pelintekijä
|
46
|
+
970111011.jtun
|
47
|
+
op
|
48
|
+
os
|
49
|
+
ns
|
50
|
+
m.g
|
51
|
+
o.-i
|
52
|
+
m3
|
53
|
+
pros
|
54
|
+
mr
|
55
|
+
970102171.jtun
|
56
|
+
waller
|
57
|
+
hels
|
58
|
+
rotary-järjestössä
|
59
|
+
ins
|
60
|
+
esim
|
61
|
+
apul
|
62
|
+
fil
|
63
|
+
id
|
64
|
+
ym
|
65
|
+
j
|
66
|
+
rf
|
67
|
+
v.o
|
68
|
+
lis
|
69
|
+
c.a
|
70
|
+
em
|
71
|
+
kand
|
72
|
+
r.y
|
73
|
+
valt
|
74
|
+
dipl
|
75
|
+
ö
|
76
|
+
970111092.jtun
|
77
|
+
ponteva
|
78
|
+
y
|
79
|
+
kapakoista
|
80
|
+
970130160.jtun
|
81
|
+
th
|
@@ -0,0 +1,167 @@
|
|
1
|
+
##number## sm
|
2
|
+
##number## ohjelmassa
|
3
|
+
##number## a3
|
4
|
+
##number## rc3
|
5
|
+
##number## rxd4
|
6
|
+
##number## hxg4
|
7
|
+
o stenberg
|
8
|
+
##number## lg5
|
9
|
+
##number## tallitontun
|
10
|
+
##number## lähetysohjeet
|
11
|
+
##number## uimakoulu
|
12
|
+
##number## jaana
|
13
|
+
##number## alustuksen
|
14
|
+
##number## uppo-nallen
|
15
|
+
##number## anne
|
16
|
+
##number## rxf3
|
17
|
+
a sjögren
|
18
|
+
##number## kamarikuoro
|
19
|
+
##number## vetäjänä
|
20
|
+
##number## pääsymaksu
|
21
|
+
##number## kerros
|
22
|
+
##number## kurssi
|
23
|
+
##number## kuori
|
24
|
+
##number## g4
|
25
|
+
##number## h3
|
26
|
+
##number## tiede-teatterissa
|
27
|
+
##number## kh2
|
28
|
+
##number## kausimaksu
|
29
|
+
##number## tia
|
30
|
+
##number## gxf5
|
31
|
+
##number## täky-galleria
|
32
|
+
##number## le2
|
33
|
+
##number## te8+
|
34
|
+
##number## la4
|
35
|
+
##number## keitä
|
36
|
+
##number## huhtikuuta
|
37
|
+
##number## menotiedoissa
|
38
|
+
##number## valmista
|
39
|
+
##number## txb5
|
40
|
+
##number## maskeerauskurssin
|
41
|
+
##number## rd2
|
42
|
+
##number## re2
|
43
|
+
##number## solisteina
|
44
|
+
##number## esitelmä
|
45
|
+
##number## puupiirrossarja
|
46
|
+
##number## ta1
|
47
|
+
##number## vaahdota
|
48
|
+
##number## h4
|
49
|
+
##number## kesäkuuta
|
50
|
+
##number## liikkeitä
|
51
|
+
##number## tuolloin
|
52
|
+
##number## viikko
|
53
|
+
##number## mittaa
|
54
|
+
a sjögrenin
|
55
|
+
##number## exf6
|
56
|
+
##number## rc6+
|
57
|
+
##number## viimeistele
|
58
|
+
##number## ld1
|
59
|
+
##number## elokuuta
|
60
|
+
##number## dh5+
|
61
|
+
##number## syyskuuta
|
62
|
+
##number## opettajina
|
63
|
+
##number## b3
|
64
|
+
##number## rauhankatu
|
65
|
+
c clarke
|
66
|
+
##number## saakka
|
67
|
+
##number## elokuvat
|
68
|
+
b huggins
|
69
|
+
g gahmberg
|
70
|
+
##number## luento
|
71
|
+
##number## lf3
|
72
|
+
##number## tammikuuta
|
73
|
+
##number## ryömä
|
74
|
+
##number## meller
|
75
|
+
##number## jäsenkortti
|
76
|
+
##number## esiintyjinä
|
77
|
+
##number## maria
|
78
|
+
##number## lf4
|
79
|
+
##number## siirto
|
80
|
+
##number## aurinko
|
81
|
+
##number## lxg6
|
82
|
+
##number## marraskuuta
|
83
|
+
##number## harjoituksissa
|
84
|
+
##number## romantika-yhtye
|
85
|
+
##number## g3
|
86
|
+
##number## heinäkuuta
|
87
|
+
##number## rxd5
|
88
|
+
##number## kuumenna
|
89
|
+
e hämäläisen
|
90
|
+
##number## bxc4
|
91
|
+
##number## te1
|
92
|
+
##number## kg2
|
93
|
+
##number## osallistumismaksu
|
94
|
+
##number## re5
|
95
|
+
##number## ohjelma
|
96
|
+
##number## varapuheenjohtajaksi
|
97
|
+
##number## raisa
|
98
|
+
##number## päivään
|
99
|
+
##number## luokan
|
100
|
+
##number## sulata
|
101
|
+
##number## levitä
|
102
|
+
##number## kaustinen
|
103
|
+
##number## kuoroa
|
104
|
+
##number## df3
|
105
|
+
v helsingistä
|
106
|
+
##number## mieskuoro
|
107
|
+
##number## lokakuuta
|
108
|
+
##number## kerho
|
109
|
+
##number## helmikuuta
|
110
|
+
##number## kokkola
|
111
|
+
##number## suuruusluokan
|
112
|
+
v kaupungista
|
113
|
+
##number## krs
|
114
|
+
##number## tekstit
|
115
|
+
##number## menyy
|
116
|
+
##number## rf3
|
117
|
+
##number## ulkoasiainministeriön
|
118
|
+
##number## kaada
|
119
|
+
##number## cxd5
|
120
|
+
##number## ilmailumuseo
|
121
|
+
e waris
|
122
|
+
##number## kierros
|
123
|
+
##number## tunnille
|
124
|
+
##number## kh3
|
125
|
+
##number## ohjaus
|
126
|
+
a t.
|
127
|
+
##number## postimaksu
|
128
|
+
##number## pane
|
129
|
+
##number## th3
|
130
|
+
##number## joulukuuta
|
131
|
+
##number## vatkaa
|
132
|
+
##number## kokeessa
|
133
|
+
l j.
|
134
|
+
##number## asti
|
135
|
+
##number## opastajana
|
136
|
+
##number## kirsi
|
137
|
+
##number## lc2
|
138
|
+
##number## lh2
|
139
|
+
##number## e4
|
140
|
+
##number## sairaankuljetukset
|
141
|
+
##number## sekoita
|
142
|
+
##number## mervi
|
143
|
+
##number## de2
|
144
|
+
a pietilän
|
145
|
+
##number## kf1
|
146
|
+
##number## toukokuuta
|
147
|
+
##number## maaliskuuta
|
148
|
+
##number## leikkaa
|
149
|
+
##number## ryhmänäytökset
|
150
|
+
v maaseudulta
|
151
|
+
##number## de3-e1
|
152
|
+
##number## c4
|
153
|
+
##number## ta1-b1
|
154
|
+
##number## d5
|
155
|
+
##number## pia
|
156
|
+
##number## lxd6
|
157
|
+
##number## d4
|
158
|
+
##number## f3-f4
|
159
|
+
##number## dxg6+
|
160
|
+
##number## sari
|
161
|
+
##number## pelkkään
|
162
|
+
##number## ld3
|
163
|
+
##number## perkaa
|
164
|
+
##number## lg3
|
165
|
+
##number## kg3
|
166
|
+
##number## kvm
|
167
|
+
##number## tb1xb6
|