pragmatic_tokenizer 1.4.0 → 1.5.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (45) hide show
  1. checksums.yaml +4 -4
  2. data/.rubocop.yml +184 -0
  3. data/.rubocop_todo.yml +66 -0
  4. data/README.md +0 -7
  5. data/Rakefile +1 -1
  6. data/lib/pragmatic_tokenizer/ending_punctuation_separator.rb +2 -2
  7. data/lib/pragmatic_tokenizer/full_stop_separator.rb +6 -6
  8. data/lib/pragmatic_tokenizer/languages/arabic.rb +1 -1
  9. data/lib/pragmatic_tokenizer/languages/bulgarian.rb +1 -1
  10. data/lib/pragmatic_tokenizer/languages/catalan.rb +1 -1
  11. data/lib/pragmatic_tokenizer/languages/common.rb +4 -4
  12. data/lib/pragmatic_tokenizer/languages/czech.rb +1 -1
  13. data/lib/pragmatic_tokenizer/languages/danish.rb +2 -2
  14. data/lib/pragmatic_tokenizer/languages/deutsch.rb +94 -23
  15. data/lib/pragmatic_tokenizer/languages/dutch.rb +2 -2
  16. data/lib/pragmatic_tokenizer/languages/english.rb +91 -91
  17. data/lib/pragmatic_tokenizer/languages/finnish.rb +2 -2
  18. data/lib/pragmatic_tokenizer/languages/french.rb +1 -1
  19. data/lib/pragmatic_tokenizer/languages/greek.rb +1 -1
  20. data/lib/pragmatic_tokenizer/languages/indonesian.rb +2 -2
  21. data/lib/pragmatic_tokenizer/languages/italian.rb +1 -1
  22. data/lib/pragmatic_tokenizer/languages/latvian.rb +1 -1
  23. data/lib/pragmatic_tokenizer/languages/norwegian.rb +2 -2
  24. data/lib/pragmatic_tokenizer/languages/persian.rb +2 -2
  25. data/lib/pragmatic_tokenizer/languages/polish.rb +2 -2
  26. data/lib/pragmatic_tokenizer/languages/portuguese.rb +2 -2
  27. data/lib/pragmatic_tokenizer/languages/romanian.rb +1 -1
  28. data/lib/pragmatic_tokenizer/languages/russian.rb +2 -2
  29. data/lib/pragmatic_tokenizer/languages/slovak.rb +2 -2
  30. data/lib/pragmatic_tokenizer/languages/spanish.rb +3 -3
  31. data/lib/pragmatic_tokenizer/languages/swedish.rb +2 -2
  32. data/lib/pragmatic_tokenizer/languages/turkish.rb +2 -2
  33. data/lib/pragmatic_tokenizer/languages.rb +28 -28
  34. data/lib/pragmatic_tokenizer/post_processor.rb +38 -24
  35. data/lib/pragmatic_tokenizer/pre_processor.rb +148 -118
  36. data/lib/pragmatic_tokenizer/tokenizer.rb +160 -135
  37. data/lib/pragmatic_tokenizer/version.rb +1 -1
  38. data/pragmatic_tokenizer.gemspec +1 -0
  39. data/spec/languages/bulgarian_spec.rb +17 -13
  40. data/spec/languages/deutsch_spec.rb +110 -86
  41. data/spec/languages/english_spec.rb +465 -342
  42. data/spec/languages/french_spec.rb +3 -2
  43. data/spec/performance_spec.rb +7 -7
  44. data/spec/pragmatic_tokenizer_spec.rb +8 -8
  45. metadata +18 -2
@@ -8,103 +8,103 @@ module PragmaticTokenizer
8
8
  # Pragmatic Tokenizer will return the most frequently appearing expanded contraction. Regardless, this should
9
9
  # be rather insignificant as in most cases one is probably removing stop words.
10
10
  CONTRACTIONS = {
11
- "i'm" => "i am",
12
- "i'll" => "i will",
13
- "i'd" => "i would",
14
- "i've" => "i have",
15
- "you're" => "you are",
16
- "you'll" => "you will",
17
- "you'd" => "you would",
18
- "you've" => "you have",
19
- "he's" => "he is",
20
- "he'll" => "he will",
21
- "he'd" => "he would",
22
- "she's" => "she is",
23
- "she'll" => "she will",
24
- "she'd" => "she would",
25
- "it's" => "it is",
26
- "'tis" => "it is",
27
- "it'll" => "it will",
28
- "it'd" => "it would",
29
- "let's" => "let us",
30
- "we're" => "we are",
31
- "we'll" => "we will",
32
- "we'd" => "we would",
33
- "we've" => "we have",
34
- "they're" => "they are",
35
- "they'll" => "they will",
36
- "they'd" => "they would",
37
- "they've" => "they have",
38
- "there'd" => "there would",
39
- "there'll" => "there will",
40
- "there're" => "there are",
41
- "there's" => "there has",
42
- "there've" => "there have",
43
- "that's" => "that is",
44
- "that'll" => "that will",
45
- "that'd" => "that would",
46
- "who's" => "who is",
47
- "who'll" => "who will",
48
- "who'd" => "who would",
49
- "what's" => "what is",
50
- "what're" => "what are",
51
- "what'll" => "what will",
52
- "what'd" => "what would",
53
- "where's" => "where is",
54
- "where'll" => "where will",
55
- "where'd" => "where would",
56
- "when's" => "when is",
57
- "when'll" => "when will",
58
- "when'd" => "when would",
59
- "why's" => "why is",
60
- "why'll" => "why will",
61
- "why'd" => "why would",
62
- "how's" => "how is",
63
- "how'll" => "how will",
64
- "how'd" => "how would",
65
- "she'd've" => "she would have",
66
- "'tisn't" => "it is not",
67
- "isn't" => "is not",
68
- "aren't" => "are not",
69
- "wasn't" => "was not",
70
- "weren't" => "were not",
71
- "haven't" => "have not",
72
- "hasn't" => "has not",
73
- "hadn't" => "had not",
74
- "won't" => "will not",
75
- "wouldn't" => "would not",
76
- "don't" => "do not",
77
- "doesn't" => "does not",
78
- "didn't" => "did not",
79
- "can't" => "cannot",
80
- "couldn't" => "could not",
81
- "shouldn't" => "should not",
82
- "mightn't" => "might not",
83
- "mustn't" => "must not",
84
- "would've" => "would have",
85
- "should've" => "should have",
86
- "could've" => "could have",
87
- "might've" => "might have",
88
- "must've" => "must have",
89
- "o'" => "of",
90
- "o'clock" => "of the clock",
91
- "ma'am" => "madam",
92
- "ne'er-do-well" => "never-do-well",
93
- "cat-o'-nine-tails" => "cat-of-nine-tails",
94
- "jack-o'-lantern" => "jack-of-the-lantern",
95
- "will-o'-the-wisp" => "will-of-the-wisp",
96
- "'twas" => "it was"
97
- }
11
+ "i'm" => "i am",
12
+ "i'll" => "i will",
13
+ "i'd" => "i would",
14
+ "i've" => "i have",
15
+ "you're" => "you are",
16
+ "you'll" => "you will",
17
+ "you'd" => "you would",
18
+ "you've" => "you have",
19
+ "he's" => "he is",
20
+ "he'll" => "he will",
21
+ "he'd" => "he would",
22
+ "she's" => "she is",
23
+ "she'll" => "she will",
24
+ "she'd" => "she would",
25
+ "it's" => "it is",
26
+ "'tis" => "it is",
27
+ "it'll" => "it will",
28
+ "it'd" => "it would",
29
+ "let's" => "let us",
30
+ "we're" => "we are",
31
+ "we'll" => "we will",
32
+ "we'd" => "we would",
33
+ "we've" => "we have",
34
+ "they're" => "they are",
35
+ "they'll" => "they will",
36
+ "they'd" => "they would",
37
+ "they've" => "they have",
38
+ "there'd" => "there would",
39
+ "there'll" => "there will",
40
+ "there're" => "there are",
41
+ "there's" => "there has",
42
+ "there've" => "there have",
43
+ "that's" => "that is",
44
+ "that'll" => "that will",
45
+ "that'd" => "that would",
46
+ "who's" => "who is",
47
+ "who'll" => "who will",
48
+ "who'd" => "who would",
49
+ "what's" => "what is",
50
+ "what're" => "what are",
51
+ "what'll" => "what will",
52
+ "what'd" => "what would",
53
+ "where's" => "where is",
54
+ "where'll" => "where will",
55
+ "where'd" => "where would",
56
+ "when's" => "when is",
57
+ "when'll" => "when will",
58
+ "when'd" => "when would",
59
+ "why's" => "why is",
60
+ "why'll" => "why will",
61
+ "why'd" => "why would",
62
+ "how's" => "how is",
63
+ "how'll" => "how will",
64
+ "how'd" => "how would",
65
+ "she'd've" => "she would have",
66
+ "'tisn't" => "it is not",
67
+ "isn't" => "is not",
68
+ "aren't" => "are not",
69
+ "wasn't" => "was not",
70
+ "weren't" => "were not",
71
+ "haven't" => "have not",
72
+ "hasn't" => "has not",
73
+ "hadn't" => "had not",
74
+ "won't" => "will not",
75
+ "wouldn't" => "would not",
76
+ "don't" => "do not",
77
+ "doesn't" => "does not",
78
+ "didn't" => "did not",
79
+ "can't" => "cannot",
80
+ "couldn't" => "could not",
81
+ "shouldn't" => "should not",
82
+ "mightn't" => "might not",
83
+ "mustn't" => "must not",
84
+ "would've" => "would have",
85
+ "should've" => "should have",
86
+ "could've" => "could have",
87
+ "might've" => "might have",
88
+ "must've" => "must have",
89
+ "o'" => "of",
90
+ "o'clock" => "of the clock",
91
+ "ma'am" => "madam",
92
+ "ne'er-do-well" => "never-do-well",
93
+ "cat-o'-nine-tails" => "cat-of-nine-tails",
94
+ "jack-o'-lantern" => "jack-of-the-lantern",
95
+ "will-o'-the-wisp" => "will-of-the-wisp",
96
+ "'twas" => "it was"
97
+ }.freeze
98
98
  class SingleQuotes
99
99
  def handle_single_quotes(text)
100
100
  # Convert left quotes to special character except for 'Twas or 'twas
101
- text.gsub!(/(\W|^)'(?=.*\w)(?!twas)(?!Twas)/o) { $1 ? $1 + ' ' + PragmaticTokenizer::Languages::Common::PUNCTUATION_MAP["'"] + ' ' : ' ' + PragmaticTokenizer::Languages::Common::PUNCTUATION_MAP["'"] + ' ' } || text
102
- text.gsub!(/(\W|^)‘(?=.*\w)(?!twas)(?!Twas)/o) { $1 ? $1 + ' ' + PragmaticTokenizer::Languages::Common::PUNCTUATION_MAP["‘"] + ' ' : ' ' + PragmaticTokenizer::Languages::Common::PUNCTUATION_MAP["‘"] + ' ' } || text
101
+ text.gsub!(/(\W|^)'(?=.*\w)(?!twas)(?!Twas)/o) { Regexp.last_match(1) ? Regexp.last_match(1) + ' ' + PragmaticTokenizer::Languages::Common::PUNCTUATION_MAP["'"] + ' ' : ' ' + PragmaticTokenizer::Languages::Common::PUNCTUATION_MAP["'"] + ' ' } || text
102
+ text.gsub!(/(\W|^)‘(?=.*\w)(?!twas)(?!Twas)/o) { Regexp.last_match(1) ? Regexp.last_match(1) + ' ' + PragmaticTokenizer::Languages::Common::PUNCTUATION_MAP["‘"] + ' ' : ' ' + PragmaticTokenizer::Languages::Common::PUNCTUATION_MAP["‘"] + ' ' } || text
103
103
  text.gsub!(/(\W|^)'(?=.*\w)/o, ' ' + PragmaticTokenizer::Languages::Common::PUNCTUATION_MAP["'"]) || text
104
104
  # Separate right single quotes
105
- text.gsub!(/(\w|\D)'(?!')(?=\W|$)/o) { $1 + ' ' + PragmaticTokenizer::Languages::Common::PUNCTUATION_MAP["'"] + ' ' } || text
105
+ text.gsub!(/(\w|\D)'(?!')(?=\W|$)/o) { Regexp.last_match(1) + ' ' + PragmaticTokenizer::Languages::Common::PUNCTUATION_MAP["'"] + ' ' } || text
106
106
  end
107
107
  end
108
108
  end
109
109
  end
110
- end
110
+ end
@@ -3,8 +3,8 @@ module PragmaticTokenizer
3
3
  module Finnish
4
4
  include Languages::Common
5
5
  ABBREVIATIONS = [].freeze
6
- STOP_WORDS = ["aiemmin", "aika", "aikaa", "aikaan", "aikaisemmin", "aikaisin", "aikajen", "aikana", "aikoina", "aikoo", "aikovat", "aina", "ainakaan", "ainakin", "ainoa", "ainoat", "aiomme", "aion", "aiotte", "aist", "aivan", "ajan", "älä", "alas", "alemmas", "älköön", "alkuisin", "alkuun", "alla", "alle", "aloitamme", "aloitan", "aloitat", "aloitatte", "aloitattivat", "aloitettava", "aloitettevaksi", "aloitettu", "aloitimme", "aloitin", "aloitit", "aloititte", "aloittaa", "aloittamatta", "aloitti", "aloittivat", "alta", "aluksi", "alussa", "alusta", "annettavaksi", "annetteva", "annettu", "antaa", "antamatta", "antoi", "aoua", "apu", "asia", "asiaa", "asian", "asiasta", "asiat", "asioiden", "asioihin", "asioita", "asti", "avuksi", "avulla", "avun", "avutta", "edellä", "edelle", "edelleen", "edeltä", "edemmäs", "edes", "edessä", "edestä", "ehkä", "ei", "eikä", "eilen", "eivät", "eli", "ellei", "elleivät", "ellemme", "ellen", "ellet", "ellette", "emme", "en", "enää", "enemmän", "eniten", "ennen", "ensi", "ensimmäinen", "ensimmäiseksi", "ensimmäisen", "ensimmäisenä", "ensimmäiset", "ensimmäisiä", "ensimmäisiksi", "ensimmäisinä", "ensimmäistä", "ensin", "entinen", "entisen", "entisiä", "entistä", "entisten", "eräät", "eräiden", "eräs", "eri", "erittäin", "erityisesti", "esi", "esiin", "esillä", "esimerkiksi", "et", "eteen", "etenkin", "että", "ette", "ettei", "halua", "haluaa", "haluamatta", "haluamme", "haluan", "haluat", "haluatte", "haluavat", "halunnut", "halusi", "halusimme", "halusin", "halusit", "halusitte", "halusivat", "halutessa", "haluton", "hän", "häneen", "hänellä", "hänelle", "häneltä", "hänen", "hänessä", "hänestä", "hänet", "he", "hei", "heidän", "heihin", "heille", "heiltä", "heissä", "heistä", "heitä", "helposti", "heti", "hetkellä", "hieman", "huolimatta", "huomenna", "hyvä", "hyvää", "hyvät", "hyviä", "hyvien", "hyviin", "hyviksi", "hyville", "hyviltä", "hyvin", "hyvinä", "hyvissä", "hyvistä", "ihan", "ilman", "ilmeisesti", "itse", "itseään", "itsensä", "ja", "jää", "jälkeen", "jälleen", "jo", "johon", "joiden", "joihin", "joiksi", "joilla", "joille", "joilta", "joissa", "joista", "joita", "joka", "jokainen", "jokin", "joko", "joku", "jolla", "jolle", "jolloin", "jolta", "jompikumpi", "jonka", "jonkin", "jonne", "joo", "jopa", "jos", "joskus", "jossa", "josta", "jota", "jotain", "joten", "jotenkin", "jotenkuten", "jotka", "jotta", "jouduimme", "jouduin", "jouduit", "jouduitte", "joudumme", "joudun", "joudutte", "joukkoon", "joukossa", "joukosta", "joutua", "joutui", "joutuivat", "joutumaan", "joutuu", "joutuvat", "juuri", "kahdeksan", "kahdeksannen", "kahdella", "kahdelle", "kahdelta", "kahden", "kahdessa", "kahdesta", "kahta", "kahteen", "kai", "kaiken", "kaikille", "kaikilta", "kaikkea", "kaikki", "kaikkia", "kaikkiaan", "kaikkialla", "kaikkialle", "kaikkialta", "kaikkien", "kaikkin", "kaksi", "kannalta", "kannattaa", "kanssa", "kanssaan", "kanssamme", "kanssani", "kanssanne", "kanssasi", "kauan", "kauemmas", "kautta", "kehen", "keiden", "keihin", "keiksi", "keillä", "keille", "keiltä", "keinä", "keissä", "keistä", "keitä", "keittä", "keitten", "keneen", "keneksi", "kenellä", "kenelle", "keneltä", "kenen", "kenenä", "kenessä", "kenestä", "kenet", "kenettä", "kennessästä", "kerran", "kerta", "kertaa", "kesken", "keskimäärin", "ketä", "ketkä", "kiitos", "kohti", "koko", "kokonaan", "kolmas", "kolme", "kolmen", "kolmesti", "koska", "koskaan", "kovin", "kuin", "kuinka", "kuitenkaan", "kuitenkin", "kuka", "kukaan", "kukin", "kumpainen", "kumpainenkaan", "kumpi", "kumpikaan", "kumpikin", "kun", "kuten", "kuuden", "kuusi", "kuutta", "kyllä", "kymmenen", "kyse", "lähekkäin", "lähellä", "lähelle", "läheltä", "lähemmäs", "lähes", "lähinnä", "lähtien", "läpi", "liian", "liki", "lisää", "lisäksi", "luo", "mahdollisimman", "mahdollista", "me", "meidän", "meillä", "meille", "melkein", "melko", "menee", "meneet", "menemme", "menen", "menet", "menette", "menevät", "meni", "menimme", "menin", "menit", "menivät", "mennessä", "mennyt", "menossa", "mihin", "mikä", "mikään", "mikäli", "mikin", "miksi", "milloin", "minä", "minne", "minun", "minut", "missä", "mistä", "mitä", "mitään", "miten", "moi", "molemmat", "mones", "monesti", "monet", "moni", "moniaalla", "moniaalle", "moniaalta", "monta", "muassa", "muiden", "muita", "muka", "mukaan", "mukaansa", "mukana", "mutta", "muu", "muualla", "muualle", "muualta", "muuanne", "muulloin", "muun", "muut", "muuta", "muutama", "muutaman", "muuten", "myöhemmin", "myös", "myöskään", "myöskin", "myötä", "näiden", "näin", "näissä", "näissähin", "näissälle", "näissältä", "näissästä", "näitä", "nämä", "ne", "neljä", "neljää", "neljän", "niiden", "niin", "niistä", "niitä", "noin", "nopeammin", "nopeasti", "nopeiten", "nro", "nuo", "nyt", "ohi", "oikein", "ole", "olemme", "olen", "olet", "olette", "oleva", "olevan", "olevat", "oli", "olimme", "olin", "olisi", "olisimme", "olisin", "olisit", "olisitte", "olisivat", "olit", "olitte", "olivat", "olla", "olleet", "olli", "ollut", "oma", "omaa", "omaan", "omaksi", "omalle", "omalta", "oman", "omassa", "omat", "omia", "omien", "omiin", "omiksi", "omille", "omilta", "omissa", "omista", "on", "onkin", "onko", "ovat", "päälle", "paikoittain", "paitsi", "pakosti", "paljon", "paremmin", "parempi", "parhaillaan", "parhaiten", "peräti", "perusteella", "pian", "pieneen", "pieneksi", "pienellä", "pienelle", "pieneltä", "pienempi", "pienestä", "pieni", "pienin", "puolesta", "puolestaan", "runsaasti", "saakka", "sadam", "sama", "samaa", "samaan", "samalla", "samallalta", "samallassa", "samallasta", "saman", "samat", "samoin", "sata", "sataa", "satojen", "se", "seitsemän", "sekä", "sen", "seuraavat", "siellä", "sieltä", "siihen", "siinä", "siis", "siitä", "sijaan", "siksi", "sillä", "silloin", "silti", "sinä", "sinne", "sinua", "sinulle", "sinulta", "sinun", "sinussa", "sinusta", "sinut", "sisäkkäin", "sisällä", "sitä", "siten", "sitten", "suoraan", "suuntaan", "suuren", "suuret", "suuri", "suuria", "suurin", "suurten", "taa", "täällä", "täältä", "taas", "taemmas", "tähän", "tahansa", "tai", "takaa", "takaisin", "takana", "takia", "tällä", "tällöin", "tämä", "tämän", "tänä", "tänään", "tänne", "tapauksessa", "tässä", "tästä", "tätä", "täten", "tavalla", "tavoitteena", "täysin", "täytyvät", "täytyy", "te", "tietysti", "todella", "toinen", "toisaalla", "toisaalle", "toisaalta", "toiseen", "toiseksi", "toisella", "toiselle", "toiselta", "toisemme", "toisen", "toisensa", "toisessa", "toisesta", "toista", "toistaiseksi", "toki", "tosin", "tuhannen", "tuhat", "tule", "tulee", "tulemme", "tulen", "tulet", "tulette", "tulevat", "tulimme", "tulin", "tulisi", "tulisimme", "tulisin", "tulisit", "tulisitte", "tulisivat", "tulit", "tulitte", "tulivat", "tulla", "tulleet", "tullut", "tuntuu", "tuo", "tuolla", "tuolloin", "tuolta", "tuonne", "tuskin", "tykö", "usea", "useasti", "useimmiten", "usein", "useita", "uudeksi", "uudelleen", "uuden", "uudet", "uusi", "uusia", "uusien", "uusinta", "uuteen", "uutta", "vaan", "vähän", "vähemmän", "vähintään", "vähiten", "vai", "vaiheessa", "vaikea", "vaikean", "vaikeat", "vaikeilla", "vaikeille", "vaikeilta", "vaikeissa", "vaikeista", "vaikka", "vain", "välillä", "varmasti", "varsin", "varsinkin", "varten", "vasta", "vastaan", "vastakkain", "verran", "vielä", "vierekkäin", "vieri", "viiden", "viime", "viimeinen", "viimeisen", "viimeksi", "viisi", "voi", "voidaan", "voimme", "voin", "voisi", "voit", "voitte", "voivat", "vuoden", "vuoksi", "vuosi", "vuosien", "vuosina", "vuotta", "yhä", "yhdeksän", "yhden", "yhdessä", "yhtä", "yhtäällä", "yhtäälle", "yhtäältä", "yhtään", "yhteen", "yhteensä", "yhteydessä", "yhteyteen", "yksi", "yksin", "yksittäin", "yleensä", "ylemmäs", "yli", "ylös", "ympäri"].freeze
6
+ STOP_WORDS = %w(aiemmin aika aikaa aikaan aikaisemmin aikaisin aikajen aikana aikoina aikoo aikovat aina ainakaan ainakin ainoa ainoat aiomme aion aiotte aist aivan ajan älä alas alemmas älköön alkuisin alkuun alla alle aloitamme aloitan aloitat aloitatte aloitattivat aloitettava aloitettevaksi aloitettu aloitimme aloitin aloitit aloititte aloittaa aloittamatta aloitti aloittivat alta aluksi alussa alusta annettavaksi annetteva annettu antaa antamatta antoi aoua apu asia asiaa asian asiasta asiat asioiden asioihin asioita asti avuksi avulla avun avutta edellä edelle edelleen edeltä edemmäs edes edessä edestä ehkä ei eikä eilen eivät eli ellei elleivät ellemme ellen ellet ellette emme en enää enemmän eniten ennen ensi ensimmäinen ensimmäiseksi ensimmäisen ensimmäisenä ensimmäiset ensimmäisiä ensimmäisiksi ensimmäisinä ensimmäistä ensin entinen entisen entisiä entistä entisten eräät eräiden eräs eri erittäin erityisesti esi esiin esillä esimerkiksi et eteen etenkin että ette ettei halua haluaa haluamatta haluamme haluan haluat haluatte haluavat halunnut halusi halusimme halusin halusit halusitte halusivat halutessa haluton hän häneen hänellä hänelle häneltä hänen hänessä hänestä hänet he hei heidän heihin heille heiltä heissä heistä heitä helposti heti hetkellä hieman huolimatta huomenna hyvä hyvää hyvät hyviä hyvien hyviin hyviksi hyville hyviltä hyvin hyvinä hyvissä hyvistä ihan ilman ilmeisesti itse itseään itsensä ja jää jälkeen jälleen jo johon joiden joihin joiksi joilla joille joilta joissa joista joita joka jokainen jokin joko joku jolla jolle jolloin jolta jompikumpi jonka jonkin jonne joo jopa jos joskus jossa josta jota jotain joten jotenkin jotenkuten jotka jotta jouduimme jouduin jouduit jouduitte joudumme joudun joudutte joukkoon joukossa joukosta joutua joutui joutuivat joutumaan joutuu joutuvat juuri kahdeksan kahdeksannen kahdella kahdelle kahdelta kahden kahdessa kahdesta kahta kahteen kai kaiken kaikille kaikilta kaikkea kaikki kaikkia kaikkiaan kaikkialla kaikkialle kaikkialta kaikkien kaikkin kaksi kannalta kannattaa kanssa kanssaan kanssamme kanssani kanssanne kanssasi kauan kauemmas kautta kehen keiden keihin keiksi keillä keille keiltä keinä keissä keistä keitä keittä keitten keneen keneksi kenellä kenelle keneltä kenen kenenä kenessä kenestä kenet kenettä kennessästä kerran kerta kertaa kesken keskimäärin ketä ketkä kiitos kohti koko kokonaan kolmas kolme kolmen kolmesti koska koskaan kovin kuin kuinka kuitenkaan kuitenkin kuka kukaan kukin kumpainen kumpainenkaan kumpi kumpikaan kumpikin kun kuten kuuden kuusi kuutta kyllä kymmenen kyse lähekkäin lähellä lähelle läheltä lähemmäs lähes lähinnä lähtien läpi liian liki lisää lisäksi luo mahdollisimman mahdollista me meidän meillä meille melkein melko menee meneet menemme menen menet menette menevät meni menimme menin menit menivät mennessä mennyt menossa mihin mikä mikään mikäli mikin miksi milloin minä minne minun minut missä mistä mitä mitään miten moi molemmat mones monesti monet moni moniaalla moniaalle moniaalta monta muassa muiden muita muka mukaan mukaansa mukana mutta muu muualla muualle muualta muuanne muulloin muun muut muuta muutama muutaman muuten myöhemmin myös myöskään myöskin myötä näiden näin näissä näissähin näissälle näissältä näissästä näitä nämä ne neljä neljää neljän niiden niin niistä niitä noin nopeammin nopeasti nopeiten nro nuo nyt ohi oikein ole olemme olen olet olette oleva olevan olevat oli olimme olin olisi olisimme olisin olisit olisitte olisivat olit olitte olivat olla olleet olli ollut oma omaa omaan omaksi omalle omalta oman omassa omat omia omien omiin omiksi omille omilta omissa omista on onkin onko ovat päälle paikoittain paitsi pakosti paljon paremmin parempi parhaillaan parhaiten peräti perusteella pian pieneen pieneksi pienellä pienelle pieneltä pienempi pienestä pieni pienin puolesta puolestaan runsaasti saakka sadam sama samaa samaan samalla samallalta samallassa samallasta saman samat samoin sata sataa satojen se seitsemän sekä sen seuraavat siellä sieltä siihen siinä siis siitä sijaan siksi sillä silloin silti sinä sinne sinua sinulle sinulta sinun sinussa sinusta sinut sisäkkäin sisällä sitä siten sitten suoraan suuntaan suuren suuret suuri suuria suurin suurten taa täällä täältä taas taemmas tähän tahansa tai takaa takaisin takana takia tällä tällöin tämä tämän tänä tänään tänne tapauksessa tässä tästä tätä täten tavalla tavoitteena täysin täytyvät täytyy te tietysti todella toinen toisaalla toisaalle toisaalta toiseen toiseksi toisella toiselle toiselta toisemme toisen toisensa toisessa toisesta toista toistaiseksi toki tosin tuhannen tuhat tule tulee tulemme tulen tulet tulette tulevat tulimme tulin tulisi tulisimme tulisin tulisit tulisitte tulisivat tulit tulitte tulivat tulla tulleet tullut tuntuu tuo tuolla tuolloin tuolta tuonne tuskin tykö usea useasti useimmiten usein useita uudeksi uudelleen uuden uudet uusi uusia uusien uusinta uuteen uutta vaan vähän vähemmän vähintään vähiten vai vaiheessa vaikea vaikean vaikeat vaikeilla vaikeille vaikeilta vaikeissa vaikeista vaikka vain välillä varmasti varsin varsinkin varten vasta vastaan vastakkain verran vielä vierekkäin vieri viiden viime viimeinen viimeisen viimeksi viisi voi voidaan voimme voin voisi voit voitte voivat vuoden vuoksi vuosi vuosien vuosina vuotta yhä yhdeksän yhden yhdessä yhtä yhtäällä yhtäälle yhtäältä yhtään yhteen yhteensä yhteydessä yhteyteen yksi yksin yksittäin yleensä ylemmäs yli ylös ympäri).freeze
7
7
  CONTRACTIONS = {}.freeze
8
8
  end
9
9
  end
10
- end
10
+ end
@@ -8,7 +8,7 @@ module PragmaticTokenizer
8
8
 
9
9
  class SingleQuotes
10
10
  def handle_single_quotes(text)
11
- text.gsub!(/(\w|\D)'(?!')(?=\W|$)/o) { $1 + ' ' + PragmaticTokenizer::Languages::Common::PUNCTUATION_MAP["'"] + ' ' } || text
11
+ text.gsub!(/(\w|\D)'(?!')(?=\W|$)/o) { Regexp.last_match(1) + ' ' + PragmaticTokenizer::Languages::Common::PUNCTUATION_MAP["'"] + ' ' } || text
12
12
  text.gsub!(/(\W|^)'(?=.*\w)/o, ' ' + PragmaticTokenizer::Languages::Common::PUNCTUATION_MAP["'"]) || text
13
13
  text.gsub!(/l\'/, '\1 l☮ \2') || text
14
14
  text.gsub!(/L\'/, '\1 L☮ \2') || text
@@ -7,4 +7,4 @@ module PragmaticTokenizer
7
7
  CONTRACTIONS = {}.freeze
8
8
  end
9
9
  end
10
- end
10
+ end
@@ -3,8 +3,8 @@ module PragmaticTokenizer
3
3
  module Indonesian
4
4
  include Languages::Common
5
5
  ABBREVIATIONS = [].freeze
6
- STOP_WORDS = ["ada", "adanya", "adalah", "adapun", "agak", "agaknya", "agar", "akan", "akankah", "akhirnya", "aku", "akulah", "amat", "amatlah", "anda", "andalah", "antar", "diantaranya", "antara", "antaranya", "diantara", "apa", "apaan", "mengapa", "apabila", "apakah", "apalagi", "apatah", "atau", "ataukah", "ataupun", "bagai", "bagaikan", "sebagai", "sebagainya", "bagaimana", "bagaimanapun", "sebagaimana", "bagaimanakah", "bagi", "bahkan", "bahwa", "bahwasanya", "sebaliknya", "banyak", "sebanyak", "beberapa", "seberapa", "begini", "beginian", "beginikah", "beginilah", "sebegini", "begitu", "begitukah", "begitulah", "begitupun", "sebegitu", "belum", "belumlah", "sebelum", "sebelumnya", "sebenarnya", "berapa", "berapakah", "berapalah", "berapapun", "betulkah", "sebetulnya", "biasa", "biasanya", "bila", "bilakah", "bisa", "bisakah", "sebisanya", "boleh", "bolehkah", "bolehlah", "buat", "bukan", "bukankah", "bukanlah", "bukannya", "cuma", "percuma", "dahulu", "dalam", "dan", "dapat", "dari", "daripada", "dekat", "demi", "demikian", "demikianlah", "sedemikian", "dengan", "depan", "di", "dia", "dialah", "dini", "diri", "dirinya", "terdiri", "dong", "dulu", "enggak", "enggaknya", "entah", "entahlah", "terhadap", "terhadapnya", "hal", "hampir", "hanya", "hanyalah", "harus", "haruslah", "harusnya", "seharusnya", "hendak", "hendaklah", "hendaknya", "hingga", "sehingga", "ia", "ialah", "ibarat", "ingin", "inginkah", "inginkan", "ini", "inikah", "inilah", "itu", "itukah", "itulah", "jangan", "jangankan", "janganlah", "jika", "jikalau", "juga", "justru", "kala", "kalau", "kalaulah", "kalaupun", "kalian", "kami", "kamilah", "kamu", "kamulah", "kan", "kapan", "kapankah", "kapanpun", "dikarenakan", "karena", "karenanya", "ke", "kecil", "kemudian", "kenapa", "kepada", "kepadanya", "ketika", "seketika", "khususnya", "kini", "kinilah", "kiranya", "sekiranya", "kita", "kitalah", "kok", "lagi", "lagian", "selagi", "lah", "lain", "lainnya", "melainkan", "selaku", "lalu", "melalui", "terlalu", "lama", "lamanya", "selama", "selamanya", "lebih", "terlebih", "bermacam", "macam", "semacam", "maka", "makanya", "makin", "malah", "malahan", "mampu", "mampukah", "mana", "manakala", "manalagi", "masih", "masihkah", "semasih", "masing", "mau", "maupun", "semaunya", "memang", "mereka", "merekalah", "meski", "meskipun", "semula", "mungkin", "mungkinkah", "nah", "namun", "nanti", "nantinya", "nyaris", "oleh", "olehnya", "seorang", "seseorang", "pada", "padanya", "padahal", "paling", "sepanjang", "pantas", "sepantasnya", "sepantasnyalah", "para", "pasti", "pastilah", "per", "pernah", "pula", "pun", "merupakan", "rupanya", "serupa", "saat", "saatnya", "sesaat", "saja", "sajalah", "saling", "bersama", "sama", "sesama", "sambil", "sampai", "sana", "sangat", "sangatlah", "saya", "sayalah", "se", "sebab", "sebabnya", "sebuah", "tersebut", "tersebutlah", "sedang", "sedangkan", "sedikit", "sedikitnya", "segala", "segalanya", "segera", "sesegera", "sejak", "sejenak", "sekali", "sekalian", "sekalipun", "sesekali", "sekaligus", "sekarang", "sekitar", "sekitarnya", "sela", "selain", "selalu", "seluruh", "seluruhnya", "semakin", "sementara", "sempat", "semua", "semuanya", "sendiri", "sendirinya", "seolah", "seperti", "sepertinya", "sering", "seringnya", "serta", "siapa", "siapakah", "siapapun", "disini", "disinilah", "sini", "sinilah", "sesuatu", "sesuatunya", "suatu", "sesudah", "sesudahnya", "sudah", "sudahkah", "sudahlah", "supaya", "tadi", "tadinya", "tak", "tanpa", "setelah", "telah", "tentang", "tentu", "tentulah", "tentunya", "tertentu", "seterusnya", "tapi", "tetapi", "setiap", "tiap", "setidaknya", "tidak", "tidakkah", "tidaklah", "toh", "waduh", "wah", "wahai", "sewaktu", "walau", "walaupun", "wong", "yaitu", "yakni", "yang"].freeze
6
+ STOP_WORDS = %w(ada adanya adalah adapun agak agaknya agar akan akankah akhirnya aku akulah amat amatlah anda andalah antar diantaranya antara antaranya diantara apa apaan mengapa apabila apakah apalagi apatah atau ataukah ataupun bagai bagaikan sebagai sebagainya bagaimana bagaimanapun sebagaimana bagaimanakah bagi bahkan bahwa bahwasanya sebaliknya banyak sebanyak beberapa seberapa begini beginian beginikah beginilah sebegini begitu begitukah begitulah begitupun sebegitu belum belumlah sebelum sebelumnya sebenarnya berapa berapakah berapalah berapapun betulkah sebetulnya biasa biasanya bila bilakah bisa bisakah sebisanya boleh bolehkah bolehlah buat bukan bukankah bukanlah bukannya cuma percuma dahulu dalam dan dapat dari daripada dekat demi demikian demikianlah sedemikian dengan depan di dia dialah dini diri dirinya terdiri dong dulu enggak enggaknya entah entahlah terhadap terhadapnya hal hampir hanya hanyalah harus haruslah harusnya seharusnya hendak hendaklah hendaknya hingga sehingga ia ialah ibarat ingin inginkah inginkan ini inikah inilah itu itukah itulah jangan jangankan janganlah jika jikalau juga justru kala kalau kalaulah kalaupun kalian kami kamilah kamu kamulah kan kapan kapankah kapanpun dikarenakan karena karenanya ke kecil kemudian kenapa kepada kepadanya ketika seketika khususnya kini kinilah kiranya sekiranya kita kitalah kok lagi lagian selagi lah lain lainnya melainkan selaku lalu melalui terlalu lama lamanya selama selamanya lebih terlebih bermacam macam semacam maka makanya makin malah malahan mampu mampukah mana manakala manalagi masih masihkah semasih masing mau maupun semaunya memang mereka merekalah meski meskipun semula mungkin mungkinkah nah namun nanti nantinya nyaris oleh olehnya seorang seseorang pada padanya padahal paling sepanjang pantas sepantasnya sepantasnyalah para pasti pastilah per pernah pula pun merupakan rupanya serupa saat saatnya sesaat saja sajalah saling bersama sama sesama sambil sampai sana sangat sangatlah saya sayalah se sebab sebabnya sebuah tersebut tersebutlah sedang sedangkan sedikit sedikitnya segala segalanya segera sesegera sejak sejenak sekali sekalian sekalipun sesekali sekaligus sekarang sekitar sekitarnya sela selain selalu seluruh seluruhnya semakin sementara sempat semua semuanya sendiri sendirinya seolah seperti sepertinya sering seringnya serta siapa siapakah siapapun disini disinilah sini sinilah sesuatu sesuatunya suatu sesudah sesudahnya sudah sudahkah sudahlah supaya tadi tadinya tak tanpa setelah telah tentang tentu tentulah tentunya tertentu seterusnya tapi tetapi setiap tiap setidaknya tidak tidakkah tidaklah toh waduh wah wahai sewaktu walau walaupun wong yaitu yakni yang).freeze
7
7
  CONTRACTIONS = {}.freeze
8
8
  end
9
9
  end
10
- end
10
+ end
@@ -7,4 +7,4 @@ module PragmaticTokenizer
7
7
  CONTRACTIONS = {}.freeze
8
8
  end
9
9
  end
10
- end
10
+ end
@@ -7,4 +7,4 @@ module PragmaticTokenizer
7
7
  CONTRACTIONS = {}.freeze
8
8
  end
9
9
  end
10
- end
10
+ end
@@ -3,8 +3,8 @@ module PragmaticTokenizer
3
3
  module Norwegian
4
4
  include Languages::Common
5
5
  ABBREVIATIONS = [].freeze
6
- STOP_WORDS = ["alle", "andre", "arbeid", "av", "bare", "begge", "bli", "bort", "bra", "bruk", "bruke", "da", "deg", "denne", "der", "deres", "det", "dette", "din", "disse", "du", "eller", "en", "ene", "eneste", "enhver", "enn", "er", "et", "folk", "for", "fordi", "forsûke", "fra", "", "før", "fûr", "fûrst", "gjorde", "gjûre", "god", "", "ha", "hadde", "han", "hans", "har", "hennes", "her", "hun", "hva", "hvem", "hver", "hvilken", "hvis", "hvor", "hvordan", "hvorfor", "i", "ikke", "inn", "innen", "jeg", "kan", "kunne", "lage", "lang", "lik", "like", "makt", "mange", "med", "meg", "meget", "men", "mens", "mer", "mest", "min", "mot", "mye", "", "måte", "navn", "nei", "noen", "ny", "", "når", "og", "også", "om", "opp", "oss", "over", "part", "punkt", "", "rett", "riktig", "samme", "sant", "seg", "sett", "si", "siden", "sist", "skulle", "slik", "slutt", "som", "start", "stille", "", "tid", "til", "tilbake", "tilstand", "under", "ut", "uten", "var", "ved", "verdi", "vi", "vil", "ville", "vite", "vår", "vöre", "vört", "å"].freeze
6
+ STOP_WORDS = %w(alle andre arbeid av bare begge bli bort bra bruk bruke da deg denne der deres det dette din disse du eller en ene eneste enhver enn er et folk for fordi forsûke fra få før fûr fûrst gjorde gjûre god gå ha hadde han hans har hennes her hun hva hvem hver hvilken hvis hvor hvordan hvorfor i ikke inn innen jeg kan kunne lage lang lik like makt mange med meg meget men mens mer mest min mot mye må måte navn nei noen ny nå når og også om opp oss over part punkt på rett riktig samme sant seg sett si siden sist skulle slik slutt som start stille så tid til tilbake tilstand under ut uten var ved verdi vi vil ville vite vår vöre vört å).freeze
7
7
  CONTRACTIONS = {}.freeze
8
8
  end
9
9
  end
10
- end
10
+ end
@@ -3,8 +3,8 @@ module PragmaticTokenizer
3
3
  module Persian
4
4
  include Languages::Common
5
5
  ABBREVIATIONS = [].freeze
6
- STOP_WORDS = ["و", "در", "به", "از", "كه", "مي", "اين", "است", "را", "با", "هاي", "براي", "آن", "يك", "شود", "شده", "خود", "ها", "كرد", "شد", "اي", "تا", "كند", "بر", "بود", "گفت", "نيز", "وي", "هم", "كنند", "دارد", "ما", "كرده", "يا", "اما", "بايد", "دو", "اند", "هر", "خواهد", "او", "مورد", "آنها", "باشد", "ديگر", "مردم", "نمي", "بين", "پيش", "پس", "اگر", "همه", "صورت", "يكي", "هستند", "بي", "من", "دهد", "هزار", "نيست", "استفاده", "داد", "داشته", "راه", "داشت", "چه", "همچنين", "كردند", "داده", "بوده", "دارند", "همين", "ميليون", "سوي", "شوند", "بيشتر", "بسيار", "روي", "گرفته", "هايي", "تواند", "اول", "نام", "هيچ", "چند", "جديد", "بيش", "شدن", "كردن", "كنيم", "نشان", "حتي", "اينكه", "ولی", "توسط", "چنين", "برخي", "نه", "ديروز", "دوم", "درباره", "بعد", "مختلف", "گيرد", "شما", "گفته", "آنان", "بار", "طور", "گرفت", "دهند", "گذاري", "بسياري", "طي", "بودند", "ميليارد", "بدون", "تمام", "كل", "تر", "براساس", "شدند", "ترين", "امروز", "باشند", "ندارد", "چون", "قابل", "گويد", "ديگري", "همان", "خواهند", "قبل", "آمده", "اكنون", "تحت", "طريق", "گيري", "جاي", "هنوز", "چرا", "البته", "كنيد", "سازي", "سوم", "كنم", "بلكه", "زير", "توانند", "ضمن", "فقط", "بودن", "حق", "آيد", "وقتي", "اش", "يابد", "نخستين", "مقابل", "خدمات", "امسال", "تاكنون", "مانند", "تازه", "آورد", "فكر", "آنچه", "نخست", "نشده", "شايد", "چهار", "جريان", "پنج", "ساخته", "زيرا", "نزديك", "برداري", "كسي", "ريزي", "رفت", "گردد", "مثل", "آمد", "ام", "بهترين", "دانست", "كمتر", "دادن", "تمامي", "جلوگيري", "بيشتري", "ايم", "ناشي", "چيزي", "آنكه", "بالا", "بنابراين", "ايشان", "بعضي", "دادند", "داشتند", "برخوردار", "نخواهد", "هنگام", "نبايد", "غير", "نبود", "ديده", "وگو", "داريم", "چگونه", "بندي", "خواست", "فوق", "ده", "نوعي", "هستيم", "ديگران", "همچنان", "سراسر", "ندارند", "گروهي", "سعي", "روزهاي", "آنجا", "يكديگر", "كردم", "بيست", "بروز", "سپس", "رفته", "آورده", "نمايد", "باشيم", "گويند", "زياد", "خويش", "همواره", "گذاشته", "شش", "نداشته", "شناسي", "خواهيم", "آباد", "داشتن", "نظير", "همچون", "باره", "نكرده", "شان", "سابق", "هفت", "دانند", "جايي", "بی", "جز", "زیرِ", "رویِ", "سریِ", "تویِ", "جلویِ", "پیشِ", "عقبِ", "بالایِ", "خارجِ", "وسطِ", "بیرونِ", "سویِ", "کنارِ", "پاعینِ", "نزدِ", "نزدیکِ", "دنبالِ", "حدودِ", "برابرِ", "طبقِ", "مانندِ", "ضدِّ", "هنگامِ", "برایِ", "مثلِ", "بارة", "اثرِ", "تولِ", "علّتِ", "سمتِ", "عنوانِ", "قصدِ", "روب", "جدا", "کی", "که", "چیست", "هست", "کجا", "کجاست", "کَی", "چطور", "کدام", "آیا", "مگر", "چندین", "یک", "چیزی", "دیگر", "کسی", "بعری", "هیچ", "چیز", "جا", "کس", "هرگز", "یا", "تنها", "بلکه", "خیاه", "بله", "بلی", "آره", "آری", "مرسی", "البتّه", "لطفاً", "ّه", "انکه", "وقتیکه", "همین", "پیش", "مدّتی", "هنگامی", "مان", "تان"].freeze
6
+ STOP_WORDS = %w(و در به از كه مي اين است را با هاي براي آن يك شود شده خود ها كرد شد اي تا كند بر بود گفت نيز وي هم كنند دارد ما كرده يا اما بايد دو اند هر خواهد او مورد آنها باشد ديگر مردم نمي بين پيش پس اگر همه صورت يكي هستند بي من دهد هزار نيست استفاده داد داشته راه داشت چه همچنين كردند داده بوده دارند همين ميليون سوي شوند بيشتر بسيار روي گرفته هايي تواند اول نام هيچ چند جديد بيش شدن كردن كنيم نشان حتي اينكه ولی توسط چنين برخي نه ديروز دوم درباره بعد مختلف گيرد شما گفته آنان بار طور گرفت دهند گذاري بسياري طي بودند ميليارد بدون تمام كل تر براساس شدند ترين امروز باشند ندارد چون قابل گويد ديگري همان خواهند قبل آمده اكنون تحت طريق گيري جاي هنوز چرا البته كنيد سازي سوم كنم بلكه زير توانند ضمن فقط بودن حق آيد وقتي اش يابد نخستين مقابل خدمات امسال تاكنون مانند تازه آورد فكر آنچه نخست نشده شايد چهار جريان پنج ساخته زيرا نزديك برداري كسي ريزي رفت گردد مثل آمد ام بهترين دانست كمتر دادن تمامي جلوگيري بيشتري ايم ناشي چيزي آنكه بالا بنابراين ايشان بعضي دادند داشتند برخوردار نخواهد هنگام نبايد غير نبود ديده وگو داريم چگونه بندي خواست فوق ده نوعي هستيم ديگران همچنان سراسر ندارند گروهي سعي روزهاي آنجا يكديگر كردم بيست بروز سپس رفته آورده نمايد باشيم گويند زياد خويش همواره گذاشته شش نداشته شناسي خواهيم آباد داشتن نظير همچون باره نكرده شان سابق هفت دانند جايي بی جز زیرِ رویِ سریِ تویِ جلویِ پیشِ عقبِ بالایِ خارجِ وسطِ بیرونِ سویِ کنارِ پاعینِ نزدِ نزدیکِ دنبالِ حدودِ برابرِ طبقِ مانندِ ضدِّ هنگامِ برایِ مثلِ بارة اثرِ تولِ علّتِ سمتِ عنوانِ قصدِ روب جدا کی که چیست هست کجا کجاست کَی چطور کدام آیا مگر چندین یک چیزی دیگر کسی بعری هیچ چیز جا کس هرگز یا تنها بلکه خیاه بله بلی آره آری مرسی البتّه لطفاً ّه انکه وقتیکه همین پیش مدّتی هنگامی مان تان).freeze
7
7
  CONTRACTIONS = {}.freeze
8
8
  end
9
9
  end
10
- end
10
+ end
@@ -3,8 +3,8 @@ module PragmaticTokenizer
3
3
  module Polish
4
4
  include Languages::Common
5
5
  ABBREVIATIONS = ['ags', 'alb', 'ang', 'aor', 'awest', 'bałt', 'bojkow', 'bret', 'brus', 'bsł', 'bułg', 'c.b.d.o', 'c.b.d.u', 'celt', 'chorw', 'cs', 'czakaw', 'czerw', 'czes', 'dłuż', 'dniem', 'dor', 'dubrow', 'duń', 'ekaw', 'fiń', 'franc', 'gal', 'germ', 'głuż', 'gniem', 'goc', 'gr', 'grudz', 'hebr', 'het', 'hol', 'I cont', 'ie', 'ikaw', 'irań', 'irl', 'islandz', 'itd', 'itd.', 'itp', 'jekaw', 'kajkaw', 'kasz', 'kirg', 'kwiec', 'łac', 'lip', 'listop', 'lit', 'łot', 'lp', 'maced', 'mar', 'młpol', 'moraw', 'n.e', 'nb.', 'ngr', 'niem', 'nord', 'norw', 'np', 'np.', 'ok.', 'orm', 'oset', 'osk', 'p.n', 'p.n.e', 'p.o', 'pazdz', 'pers', 'pie', 'pod red.', 'podhal', 'pol', 'połab', 'port', 'prekm', 'pskow', 'psł', 'R cont', 'rez', 'rom', 'rozdz.', 'rum', 'rus', 'rys.', 'sas', 'sch', 'scs', 'serb', 'sierp', 'śl', 'sła', 'słe', 'słi', 'słow', 'sp. z o.o', 'śrdniem', 'śrgniem', 'śrirl', 'stbułg', 'stind', 'stpol', 'stpr', 'str.', 'strus', 'stwniem', 'stycz', 'sztokaw', 'szwedz', 't.', 'tj.', 'tłum.', 'toch', 'tur', 'tzn', 'ukr', 'ul', 'umbr', 'wed', 'węg', 'wlkpol', 'włos', 'wrzes', 'wyd.', 'zakarp'].freeze
6
- STOP_WORDS = ["ach", "aj", "albo", "bardzo", "bez", "bo", "być", "ci", "cię", "ciebie", "co", "czy", "daleko", "dla", "dlaczego", "dlatego", "do", "dobrze", "dokąd", "dość", "dużo", "dwa", "dwaj", "dwie", "dwoje", "dziś", "dzisiaj", "gdyby", "gdzie", "go", "ich", "ile", "im", "inny", "ja", "", "jak", "jakby", "jaki", "je", "jeden", "jedna", "jedno", "jego", "jej", "jemu", "jeśli", "jest", "jestem", "jeżeli", "już", "każdy", "kiedy", "kierunku", "kto", "ku", "lub", "ma", "mają", "mam", "mi", "mną", "mnie", "moi", "mój", "moja", "moje", "może", "mu", "my", "na", "nam", "nami", "nas", "nasi", "nasz", "nasza", "nasze", "natychmiast", "nią", "nic", "nich", "nie", "niego", "niej", "niemu", "nigdy", "nim", "nimi", "niż", "obok", "od", "około", "on", "ona", "one", "oni", "ono", "owszem", "po", "pod", "ponieważ", "przed", "przedtem", "", "sam", "sama", "się", "skąd", "tak", "taki", "tam", "ten", "to", "tobą", "tobie", "tu", "tutaj", "twoi", "twój", "twoja", "twoje", "ty", "wam", "wami", "was", "wasi", "wasz", "wasza", "wasze", "we", "więc", "wszystko", "wtedy", "wy", "żaden", "zawsze", "że", "a", "aby", "ach", "acz", "aczkolwiek", "ale", "ależ", "", "bardziej", "bowiem", "by", "byli", "bynajmniej", "był", "była", "było", "były", "będzie", "będą", "cali", "cała", "cały", "cokolwiek", "coś", "czasami", "czasem", "czemu", "czyli", "gdy", "gdyż", "gdziekolwiek", "gdzieś", "i", "inna", "inne", "innych", "", "jakaś", "jakichś", "jakie", "jakiś", "jakiż", "jakkolwiek", "jako", "jakoś", "jednak", "jednakże", "jeszcze", "kilka", "kimś", "ktokolwiek", "ktoś", "która", "które", "którego", "której", "który", "których", "którym", "którzy", "lat", "lecz", "mimo", "między", "mogą", "moim", "możliwe", "można", "musi", "nad", "naszego", "naszych", "natomiast", "nawet", "no", "o", "oraz", "pan", "pana", "pani", "podczas", "pomimo", "ponad", "powinien", "powinna", "powinni", "powinno", "poza", "prawie", "przecież", "przede", "przez", "przy", "roku", "również", "sobie", "sobą", "sposób", "swoje", "ta", "taka", "takie", "także", "te", "tego", "tej", "teraz", "też", "totobą", "toteż", "trzeba", "twoim", "twym", "tych", "tylko", "tym", "u", "w", "według", "wiele", "wielu", "więcej", "wszyscy", "wszystkich", "wszystkie", "wszystkim", "właśnie", "z", "za", "zapewne", "zeznowu", "znów", "został", "żadna", "żadne", "żadnych", "żeby"].freeze
6
+ STOP_WORDS = %w(ach aj albo bardzo bez bo być ci cię ciebie co czy daleko dla dlaczego dlatego do dobrze dokąd dość dużo dwa dwaj dwie dwoje dziś dzisiaj gdyby gdzie go ich ile im inny ja ją jak jakby jaki je jeden jedna jedno jego jej jemu jeśli jest jestem jeżeli już każdy kiedy kierunku kto ku lub ma mają mam mi mną mnie moi mój moja moje może mu my na nam nami nas nasi nasz nasza nasze natychmiast nią nic nich nie niego niej niemu nigdy nim nimi niż obok od około on ona one oni ono owszem po pod ponieważ przed przedtem są sam sama się skąd tak taki tam ten to tobą tobie tu tutaj twoi twój twoja twoje ty wam wami was wasi wasz wasza wasze we więc wszystko wtedy wy żaden zawsze że a aby ach acz aczkolwiek ale ależ aż bardziej bowiem by byli bynajmniej był była było były będzie będą cali cała cały cokolwiek coś czasami czasem czemu czyli gdy gdyż gdziekolwiek gdzieś i inna inne innych iż jakaś jakichś jakie jakiś jakiż jakkolwiek jako jakoś jednak jednakże jeszcze kilka kimś ktokolwiek ktoś która które którego której który których którym którzy lat lecz mimo między mogą moim możliwe można musi nad naszego naszych natomiast nawet no o oraz pan pana pani podczas pomimo ponad powinien powinna powinni powinno poza prawie przecież przede przez przy roku również sobie sobą sposób swoje ta taka takie także te tego tej teraz też totobą toteż trzeba twoim twym tych tylko tym u w według wiele wielu więcej wszyscy wszystkich wszystkie wszystkim właśnie z za zapewne zeznowu znów został żadna żadne żadnych żeby).freeze
7
7
  CONTRACTIONS = {}.freeze
8
8
  end
9
9
  end
10
- end
10
+ end
@@ -3,8 +3,8 @@ module PragmaticTokenizer
3
3
  module Portuguese
4
4
  include Languages::Common
5
5
  ABBREVIATIONS = [].freeze
6
- STOP_WORDS = ["acerca", "agora", "algmas", "alguns", "ali", "ambos", "antes", "apontar", "aquela", "aquelas", "aquele", "aqueles", "aqui", "atrás", "bem", "bom", "cada", "caminho", "cima", "com", "como", "comprido", "conhecido", "corrente", "das", "debaixo", "dentro", "desde", "desligado", "deve", "devem", "deverá", "direita", "diz", "dizer", "dois", "dos", "e", "é", "ela", "ele", "eles", "em", "enquanto", "então", "está", "estado", "estão", "estar", "estará", "este", "estes", "esteve", "estive", "estivemos", "estiveram", "eu", "fará", "faz", "fazer", "fazia", "fez", "fim", "foi", "fora", "horas", "iniciar", "inicio", "ir", "irá", "ista", "iste", "isto", "ligado", "maioria", "maiorias", "mais", "mas", "mesmo", "meu", "muito", "muitos", "não", "nome", "nós", "nosso", "novo", "o", "onde", "os", "ou", "outro", "para", "parte", "pegar", "pelo", "pessoas", "pode", "poderá", "podia", "por", "porque", "povo", "promeiro", "qual", "qualquer", "quando", "quê", "quem", "quieto", "saber", "são", "sem", "ser", "seu", "somente", "tal", "também", "tem", "têm", "tempo", "tenho", "tentar", "tentaram", "tente", "tentei", "teu", "teve", "tipo", "tive", "todos", "trabalhar", "trabalho", "tu", "último", "um", "uma", "umas", "uns", "usa", "usar", "valor", "veja", "ver", "verdade", "verdadeiro", "você", "a", "à", "adeus", "", "ainda", "além", "algo", "algumas", "ano", "anos", "ao", "aos", "apenas", "apoio", "após", "aquilo", "área", "as", "às", "assim", "até", "através", "baixo", "bastante", "boa", "boas", "bons", "breve", "", "catorze", "cedo", "cento", "certamente", "certeza", "cinco", "coisa", "conselho", "contra", "custa", "da", "", "dão", "daquela", "daquelas", "daquele", "daqueles", "dar", "de", "demais", "depois", "dessa", "dessas", "desse", "desses", "desta", "destas", "deste", "destes", "dez", "dezanove", "dezasseis", "dezassete", "dezoito", "dia", "diante", "dizem", "do", "doze", "duas", "dúvida", "elas", "embora", "entre", "era", "és", "essa", "essas", "esse", "esses", "esta", "estas", "estás", "estava", "estiveste", "estivestes", "estou", "exemplo", "faço", "falta", "favor", "fazeis", "fazem", "fazemos", "fazes", "final", "fomos", "for", "foram", "forma", "foste", "fostes", "fui", "geral", "grande", "grandes", "grupo", "", "hoje", "hora", "isso", "", "", "lado", "local", "logo", "longe", "lugar", "maior", "mal", "máximo", "me", "meio", "menor", "menos", "mês", "meses", "meus", "mil", "minha", "minhas", "momento", "na", "nada", "naquela", "naquelas", "naquele", "naqueles", "nas", "nem", "nenhuma", "nessa", "nessas", "nesse", "nesses", "nesta", "nestas", "neste", "nestes", "nível", "no", "noite", "nos", "nossa", "nossas", "nossos", "nova", "novas", "nove", "novos", "num", "numa", "número", "nunca", "obra", "obrigada", "obrigado", "oitava", "oitavo", "oito", "ontem", "onze", "outra", "outras", "outros", "parece", "partir", "paucas", "pela", "pelas", "pelos", "perto", "pôde", "podem", "poder", "põe", "põem", "ponto", "pontos", "porquê", "posição", "possível", "possivelmente", "posso", "pouca", "pouco", "poucos", "primeira", "primeiras", "primeiro", "primeiros", "própria", "próprias", "próprio", "próprios", "próxima", "próximas", "próximo", "próximos", "puderam", "quáis", "quanto", "quarta", "quarto", "quatro", "que", "quer", "quereis", "querem", "queremas", "queres", "quero", "questão", "quinta", "quinto", "quinze", "relação", "sabe", "sabem", "se", "segunda", "segundo", "sei", "seis", "sempre", "seria", "sete", "sétima", "sétimo", "seus", "sexta", "sexto", "sim", "sistema", "sob", "sobre", "sois", "somos", "sou", "sua", "suas", "talvez", "tanta", "tantas", "tanto", "tão", "tarde", "te", "temos", "tendes", "tens", "ter", "terceira", "terceiro", "teus", "tivemos", "tiveram", "tiveste", "tivestes", "toda", "todas", "todo", "três", "treze", "tua", "tuas", "tudo", "vai", "vais", "vão", "vários", "vem", "vêm", "vens", "vez", "vezes", "viagem", "vindo", "vinte", "vocês", "vos", "vós", "vossa", "vossas", "vosso", "vossos", "zero", "and"].freeze
6
+ STOP_WORDS = %w(acerca agora algmas alguns ali ambos antes apontar aquela aquelas aquele aqueles aqui atrás bem bom cada caminho cima com como comprido conhecido corrente das debaixo dentro desde desligado deve devem deverá direita diz dizer dois dos e é ela ele eles em enquanto então está estado estão estar estará este estes esteve estive estivemos estiveram eu fará faz fazer fazia fez fim foi fora horas iniciar inicio ir irá ista iste isto ligado maioria maiorias mais mas mesmo meu muito muitos não nome nós nosso novo o onde os ou outro para parte pegar pelo pessoas pode poderá podia por porque povo promeiro qual qualquer quando quê quem quieto saber são sem ser seu somente tal também tem têm tempo tenho tentar tentaram tente tentei teu teve tipo tive todos trabalhar trabalho tu último um uma umas uns usa usar valor veja ver verdade verdadeiro você a à adeus aí ainda além algo algumas ano anos ao aos apenas apoio após aquilo área as às assim até através baixo bastante boa boas bons breve cá catorze cedo cento certamente certeza cinco coisa conselho contra custa da dá dão daquela daquelas daquele daqueles dar de demais depois dessa dessas desse desses desta destas deste destes dez dezanove dezasseis dezassete dezoito dia diante dizem do doze duas dúvida elas embora entre era és essa essas esse esses esta estas estás estava estiveste estivestes estou exemplo faço falta favor fazeis fazem fazemos fazes final fomos for foram forma foste fostes fui geral grande grandes grupo há hoje hora isso já lá lado local logo longe lugar maior mal máximo me meio menor menos mês meses meus mil minha minhas momento na nada naquela naquelas naquele naqueles nas nem nenhuma nessa nessas nesse nesses nesta nestas neste nestes nível no noite nos nossa nossas nossos nova novas nove novos num numa número nunca obra obrigada obrigado oitava oitavo oito ontem onze outra outras outros parece partir paucas pela pelas pelos perto pôde podem poder põe põem ponto pontos porquê posição possível possivelmente posso pouca pouco poucos primeira primeiras primeiro primeiros própria próprias próprio próprios próxima próximas próximo próximos puderam quáis quanto quarta quarto quatro que quer quereis querem queremas queres quero questão quinta quinto quinze relação sabe sabem se segunda segundo sei seis sempre seria sete sétima sétimo seus sexta sexto sim sistema sob sobre sois somos sou sua suas talvez tanta tantas tanto tão tarde te temos tendes tens ter terceira terceiro teus tivemos tiveram tiveste tivestes toda todas todo três treze tua tuas tudo vai vais vão vários vem vêm vens vez vezes viagem vindo vinte vocês vos vós vossa vossas vosso vossos zero and).freeze
7
7
  CONTRACTIONS = {}.freeze
8
8
  end
9
9
  end
10
- end
10
+ end
@@ -7,4 +7,4 @@ module PragmaticTokenizer
7
7
  CONTRACTIONS = {}.freeze
8
8
  end
9
9
  end
10
- end
10
+ end