RubyGems - scylla - Versions diffs - 0.9.3 → 1.0.0 - Mend

scylla 0.9.3 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (79) hide show

data/lib/scylla/lms/arabic.lm +399 -399
data/lib/scylla/lms/bulgarian.lm +400 -400
data/lib/scylla/lms/catalan.lm +323 -323
data/lib/scylla/lms/chinese.lm +389 -389
data/lib/scylla/lms/czech.lm +377 -377
data/lib/scylla/lms/danish.lm +383 -383
data/lib/scylla/lms/dutch.lm +398 -398
data/lib/scylla/lms/english.lm +355 -355
data/lib/scylla/lms/finnish.lm +381 -381
data/lib/scylla/lms/french.lm +379 -379
data/lib/scylla/lms/german.lm +382 -382
data/lib/scylla/lms/greek.lm +400 -400
data/lib/scylla/lms/hebrew.lm +400 -400
data/lib/scylla/lms/hindi.lm +400 -400
data/lib/scylla/lms/icelandic.lm +219 -219
data/lib/scylla/lms/indonesian.lm +364 -364
data/lib/scylla/lms/italian.lm +381 -381
data/lib/scylla/lms/japanese.lm +400 -400
data/lib/scylla/lms/kannada.lm +392 -392
data/lib/scylla/lms/korean.lm +389 -389
data/lib/scylla/lms/marathi.lm +364 -364
data/lib/scylla/lms/norwegian.lm +325 -325
data/lib/scylla/lms/persian.lm +397 -397
data/lib/scylla/lms/polish.lm +380 -380
data/lib/scylla/lms/portuguese.lm +375 -375
data/lib/scylla/lms/romanian.lm +318 -318
data/lib/scylla/lms/russian.lm +398 -398
data/lib/scylla/lms/slovak.lm +358 -358
data/lib/scylla/lms/slovenian.lm +256 -256
data/lib/scylla/lms/spanish.lm +353 -353
data/lib/scylla/lms/swedish.lm +400 -400
data/lib/scylla/lms/tagalog.lm +245 -245
data/lib/scylla/lms/thai.lm +400 -400
data/lib/scylla/lms/turkish.lm +379 -379
data/lib/scylla/lms/vietnamese.lm +373 -373
data/lib/scylla/lms/welsh.lm +293 -293
data/test/classifier_test.rb +5 -3
data/test/fixtures/lms/arabic.lm +400 -0
data/test/fixtures/lms/bulgarian.lm +400 -0
data/test/fixtures/lms/catalan.lm +400 -0
data/test/fixtures/lms/chinese.lm +400 -0
data/test/fixtures/lms/czech.lm +400 -0
data/test/fixtures/lms/danish.lm +399 -399
data/test/fixtures/lms/dutch.lm +400 -0
data/test/fixtures/lms/english.lm +400 -400
data/test/fixtures/lms/finnish.lm +400 -0
data/test/fixtures/lms/french.lm +397 -397
data/test/fixtures/lms/german.lm +400 -400
data/test/fixtures/lms/greek.lm +400 -0
data/test/fixtures/lms/hebrew.lm +400 -0
data/test/fixtures/lms/hindi.lm +400 -400
data/test/fixtures/lms/icelandic.lm +400 -0
data/test/fixtures/lms/indonesian.lm +400 -0
data/test/fixtures/lms/italian.lm +400 -400
data/test/fixtures/lms/japanese.lm +400 -400
data/test/fixtures/lms/kannada.lm +400 -0
data/test/fixtures/lms/korean.lm +400 -0
data/test/fixtures/lms/marathi.lm +400 -0
data/test/fixtures/lms/norwegian.lm +399 -399
data/test/fixtures/lms/persian.lm +400 -0
data/test/fixtures/lms/polish.lm +400 -0
data/test/fixtures/lms/portuguese.lm +400 -0
data/test/fixtures/lms/romanian.lm +400 -0
data/test/fixtures/lms/russian.lm +400 -0
data/test/fixtures/lms/slovak.lm +400 -0
data/test/fixtures/lms/slovenian.lm +400 -0
data/test/fixtures/lms/spanish.lm +400 -400
data/test/fixtures/lms/swedish.lm +400 -0
data/test/fixtures/lms/tagalog.lm +400 -0
data/test/fixtures/lms/thai.lm +400 -0
data/test/fixtures/lms/turkish.lm +400 -0
data/test/fixtures/lms/vietnamese.lm +400 -0
data/test/fixtures/lms/welsh.lm +400 -0
data/test/fixtures/test_languages/japanese +149 -67
data/test/generator_test.rb +1 -43
data/test/language_test.rb +5 -1
data/test/loader_test.rb +1 -1
data/test/scylla_test.rb +4 -4
metadata +105 -63

data/test/fixtures/test_languages/japanese CHANGED Viewed

@@ -1,79 +1,161 @@
-お知らせは、ウィキペディアの執筆者向けに、新しいテンプレートや新機能のアナウンス、ウィキペディア日本語版全体に関わる議論のお知らせ、プロジェクト参加への呼びかけなどを行う場所です。メインページでのお知らせがウィキペディアの読者と執筆者の双方へ向けたお知らせなのに対して、こちらは執筆者向けのお知らせという性格になります。
-あなたが様々な新機能の導入や変更に関心を持つならば、上の「ウォッチリストに追加」タブをクリックすることで、このページの書き込みをフォローすることができます。「ウィキメディア・プロジェクト全体のお知らせ」は、同様にWikipedia:お知らせ/ウィキメディア共通をウォッチリストに入れてください。また、ウィキペディアでは、すべての編集が記録されています。あなたがしばらくウォッチリストを確認していなかった場合などは、過去ログや履歴から、過去の「お知らせ」を知ることもできます。
-最近の過去ログ
-年月、年月、年月
-新しくお知らせを行う方法[表示]
-新しい節を設けて投稿してください。
-ウィキペディア日本語版のローカルなお知らせ
-目次 [非表示]
- 括弧の前にスペースを置かなくても良いようにする提案
- 削除されたページへのリダイレクト・転送先がないリダイレクト
- ノートページにスレッド風スタイルを導入する提案
- 新しい利用者グループを設けるかどうかの投票
- 「執筆コンテストの得点付与基準」について取りまとめのお知らせ
- ウィキペディア・アカデミー＆ブース展示＠OSC名古屋のお知らせ（関西ウィキメディアユーザ会）
- 月間感謝賞の推薦資格を緩和する提案について
- Portal:古代ローマの正式リリース
- Template:読み疑問点を作成しました
- Template:ネタバレ は一旦全て剥がされることに決定しました
- Wikipeida:不快なコンテンツのガイドライン化の提案
- Template:ネタバレ を不可視化する提案
- メンテナンス系カテゴリを隠しカテゴリ化する提案
- 新規プロジェクト作成のお知らせ（プロジェクト:声優）
-ウィキメディア・プロジェクト全体のお知らせ
-[隠す]
-目次
-「今週の翻訳」は？
-「年間画像大賞（ピクチャー･オブ･ザ･イヤー）」
-ウィキマニア
-FlaggedRevsを使った査読機能が申請できます
-詳細:ウィキメディア共通
-最新版（英語）:Notifications (meta)
+国号
-括弧の前にスペースを置かなくても良いようにする提案 [編集][閲覧][履歴]
-括弧の前にスペースを置かなくても良いようにする提案が利用者:Yessong氏によってbugzilla[]であがっています。日本語版にも関係する提案ですのでご参考ください。--hyolee/H.L.LEE 年月日 (火) : (UTC)
-いわゆる「パイプの裏技」機能の拡張で、既にウィキペディア内でも使用可能になっています。実際に使用するには曖昧さ回避や記事名の付け方での議論が必要になります。--Frozen-mikan 年月日 (水) : (UTC)
-申し訳ありません。上記「パイプの裏技」の機能拡張については以前から可能でした（恐らく rev:）。今回は曖昧さ回避の括弧の前に空白があってもなくても良いようになる修正でした。rev: にて変更されており、今後ウィキペディアなどに適用される可能性があります。--Frozen-mikan 年月日 (水) : (UTC)
-削除されたページへのリダイレクト・転送先がないリダイレクト [編集][閲覧][履歴]
-WT:CSD#削除されたページへのリダイレクトについてにて、削除されたページへのリダイレクトと、それをもう少し一般化して「転送先がない」とした、リダイレクトに対する新しい即時削除基準が提案されています。--青子守歌（会話/履歴） 年月日 (水) : (UTC)
-ノートページにスレッド風スタイルを導入する提案 [編集][閲覧][履歴]
+日本の日の出（三重県伊勢市 伊勢神宮・宇治橋）
+「日本国」あるいは「日本」という国号は、日本列島が中国大陸から見て東の果て、つまり「日の本（ひのもと）」に位置することに由来していると考えられる。憲法の表題に「日本国憲法」や「大日本帝国憲法」と示されているが、国号を「日本国」ないしは「日本」と直接かつ明確に規定した法令は、存在しない。
+由来
+「日本」の国号が成立する以前、日本列島には、中国の王朝から「倭国・倭」(雅称として瀛州（えいしゅう）•東瀛(とうえい)[1])と称される国家があった。「日本」という国号の初見は、702年である。倭国と日本国との関係について、日本書紀は、「ヤマト」の勢力が中心に倭を統一した古代の日本では、漢字の流入と共に「倭」を借字として「ヤマト」と読むようになり、やがて、その「ヤマト」に当てる漢字を「倭」から国号として「日本」に変更し、当初は「日本」と記して「ヤマト」と読んだとする[2]。旧唐書は、倭国と日本国を併記した上で、日本国は倭国の別種とし、倭国が日本国に改名した可能性と元小国の日本が倭国を併合した可能性について記している。
+「日本」という国号の成立時期は、7世紀後半から8世紀初頭までの間と考えられる。この頃の東アジアは、618年に成立した唐が勢力を拡大し、周辺諸国に強い影響を及ぼしていた。斉明天皇は658年臣の安倍氏に外国である粛慎（樺太）征伐を命じている。唐と倭国とのかかわりにおいて663年の白村江の戦いでの倭国軍の敗戦により、唐は劉徳高や郭務悰、司馬法聡らの使者を倭国に遣わし、唐と倭国の戦後処理を行っていく過程で、倭国側に唐との対等関係を目指した律令国家に変化していく必要性が生じたことを契機として、668年には天智天皇が日本で最初の律令である近江朝廷之令（近江令）を制定、そして672年の壬申の乱を経て強い権力を握った天武天皇は、天皇を中心とする体制の構築を更に進め、689年の飛鳥浄御原令から701年（大宝元年）の大宝律令の制定へと至る過程において国号としての「日本」は誕生したと考えられる。
+具体的な成立の時点は、史料によって特定されていない。ただ、それを推定する見解は、二説に絞られる。まず一説は、天武天皇の治世（672年 - 686年）に成立したとする説である[3]。これは、この治世に成立したと解される「天皇」号と同時期に「日本」号も成立したとする見解である。例えば吉田孝は、689年の飛鳥浄御原令で「天皇」号と「日本」号と両方が定められたと推測する[4][5]。もう一説は、701年（大宝元年）の大宝律令の成立の前後に「日本」号が成立したとする説である[6]。例えば神野志隆光は、大宝令公式令詔書式で「日本」号が定められたとしている[7]。『日本書紀』の大化元年（645年）七月条には、高句麗・百済からの使者への詔に「明神御宇日本天皇」とあるが、今日これは、後に定められた大宝律令公式令を元に、『日本書紀』（720年（養老4年）成立）の編者が潤色を加えたものと考えられている[8]。
+8世紀前半の唐で成立した『唐暦』には、702年（大宝2年）に「日本国」からの遣使（遣唐使）があったと記されている[9]。後代に成立した『旧唐書』[10]、『新唐書』[11]にも、この時の遣唐使によって「日本」という新国号が唐（武則天、大周）へ伝えられたとの記述がある。両書とも「日の出の地に近いことが国号の由来である」とする。国号の変更理由については「雅でない倭国の名を嫌ったからだ」という日本国側からの説明を記載するものの、倭国と日本国との関係については、単なる国号の変更ではない可能性について言及している。すなわち、『旧唐書』は「小国だった日本が倭国を併合した」とし、『新唐書』は「倭が日本を併合し、国号を奪った」としている[12]。いずれにせよ、これらの記述により、702年に「日本」国号が唐によって承認されたことが確認できる。これまでに発見されている「日本」国号が記された最古の実物史料は、開元22年（734年、日本：天平6年）銘の井真成墓誌である[13]。
+『旧唐書』・『新唐書』が記すように、「日本」国号は、日本列島を東方に見る国、つまり中国大陸からの視点に立った呼称である[14]。平安時代初期に成立した『弘仁私記』序にて、日本国が中国に対して「日の本」、つまり東方に所在することが日本の由来であると説明され、平安時代に数度に渡って行なわれた日本書紀の講読の様子を記す『日本書紀私記』諸本においても中国の視点により名付けられたとする説が採られている[15]。
+『隋書』東夷伝に、倭王が隋皇帝への国書に「日出ずる処の天子」と自称したとあり、このときの「日出ずる処」という語句が「日本」国号の淵源となったとする主張もある。しかし、「日出ずる処」について、仏典『大智度論』に東方の別表現である旨の記述があるため、現在、単に文飾に過ぎず、「日本」国号の成立と無関係と考えられている[16]。
+日本語での発音
+「にっぽん」、「にほん」と読まれる。日本政府は、正式な読み方を明確に定めていないが、どちらの読みでも良いとしている[17]。雅語で「ひのもと」と読むこともある[18][19]。
+「日本」の国号が成立する以前、日本列島には、中国の王朝から「倭国」・「倭」と称される国家ないし民族があった。日本書紀は、「ヤマト」の勢力が中心に倭を統一した古代の日本では、漢字の流入と共に「倭」を借字として「ヤマト」と読むようになり、やがて、その「ヤマト」に当てる漢字を「倭」から「日本」に変更し、これを「ヤマト」と読んだとするが、旧唐書など、これを疑う立場もある。[20]
+同時に、7世紀の後半の国際関係から生じた「日本」国号は、当時の国際的な読み（音読）で「ニッポン」（呉音）ないし「ジッポン」（漢音）と読まれたものと推測される[21]。いつ「ニホン」の読みが始まったか定かでない。平安時代の仮名表記では、促音・濁音の区別が無かったため、「ニッポン」音も「にほん」と表記された。ここから「ニホン」の読みが起こったと考えられる。しかし、日本語のハ行音は、P音 → F音 → H音と変化したと考えられ[22]、江戸時代以降にH音が定着したので、仮名で「にほん」と表記されたものを平安時代に「ニッポン」ないし「ニポン」と読み、やがて「ニフォン」に変化し、江戸時代の後期に「ニホン」と読むようになったと考えられる。また、平安時代に「ひのもと」とも和訓されるようになった。
+室町時代の謡曲・狂言は、中国人に「ニッポン」と読ませ、日本人に「ニホン」と読ませている。安土桃山時代にポルトガル人が編纂した『日葡辞書』や『日本語小文典』等には、「ニッポン」「ニホン」「ジッポン」の読みが見られ、その用例から判断すると、改まった場面・強調したい場合に「ニッポン」が使われ、日常の場面で「ニホン」が使われていた[23]。このことから小池清治は、中世の日本人が中国語的な語感のある「ジッポン」を使用したのは、中国人・西洋人など対外的な場面に限定されていて、日常だと「ニッポン」「ニホン」が用いられていたのでは、と推測している[24]。なお、現在に伝わっていない「ジッポン」音については、その他の言語も参照。
+その後、明治に入っても「ニッポン」「ニホン」が統一されない中、1934年（昭和9年）に文部省臨時国語調査会が「にっぽん」に統一して外国語表記もJapanを廃してNipponを使用する、とする案を示したが、不完全に終わった。2009年（平成21年）6月30日には、政府が「『にっぽん』『にほん』という読み方については、いずれも広く通用しており、どちらか一方に統一する必要はない」とする答弁書を閣議決定した[17]。現在、通商や交流の点で海外と関連のある紙幣、切手などに「NIPPON」と描かれ（紙幣発券者も「にっぽんぎんこう」である）、また「ニッポン放送」「アール・エフ・ラジオ日本（にっぽん）」が存在する一方、「NIHON」表記を用いる団体の例としては、日本ビデオ倫理協会や日本大学、日本航空、JR東日本・JR西日本、日本ユニシス、日本相撲協会、日本オリンピック委員会などがある。なお、（国会に複数の議席を有したことのある）日本の政党名における読みは、以下の通り。
+「ニッポン」
+日本社会党（1945-1996）、日本自由党 (1953-1954)、新党日本（2005-）、たちあがれ日本（2010-）
+「ニホン」
+日本共産党（1922-）、日本労農党（1926-28）、日本自由党 (1945-1948)、日本進歩党（1945-47）、日本協同党（1945-46）、日本農民党（1947-49）、日本民主党（1954-55）、日本新党（1992-94）
+別称
+古くから多様である。
+和語
+「葦原中国」（『古事記』、『日本書紀』神代）
+「豊葦原（とよあしはら）」
+「豊葦原之千秋長五百秋之水穂国」（『古事記』）
+「豊葦原千五百秋瑞穂国（とよあしはらのちいほあきのみずほのくに）」（『日本書紀』神代）
+- 「葦原」は、豊穣な地を表すとも、かつての一地名とも言われる。
+「秋津島」
+「大倭豊秋津島」（『古事記』）
+「大日本豊秋津洲」（『日本書紀』神代）
+- 「秋津」は、「とんぼの島」の意。孝安天皇の都の名「室秋津島宮」に由来するとされる。
+「師木島」（『古事記』）
+「磯城島」「志貴島」（『万葉集』）
+「敷島」
+- 「しきしま」は、欽明天皇の都「磯城島金刺宮」に由来するとされる。
+「大八洲」（『養老令』）
+「大八洲国」（『日本書紀』神代）
+- 多くの島からなる島国の美称と解される。
+「磯輪上秀真国」「細矛千足国」「玉垣内国」（『神皇正統記』）
+「大和」「大和国」
+「瑞穂」
+「浦安国」
+「日出処」
+漢語
+「倭」「倭国」「大倭国（大和国）」「倭奴国」「倭人国」の他、扶桑蓬莱伝説に準えた「扶桑」[25]、「蓬莱」などの雅称があるが、雅称としては特に瀛州（えいしゅう）•東瀛(とうえい)と記される[26]。このほかにも、「東海姫氏国」「東海女国」「女子国」「君子国」「若木国」「日域」「日東」「日下」「烏卯国」「阿母郷」（阿母山・波母郷・波母山）などがあった。
+「皇朝」は、もともと中原の天子の王朝をさす漢語だが、日本で天皇の王朝をさす漢文的表現として使われ、国学者はこれを「すめみかど」ないし「すめらみかど」などと訓読した。「神国」「皇国」「神州」「天朝」「天子国」などは雅語（美称）たる「皇朝」の言い替えであって、国名や国号の類でない。「本朝」も「我が国」といった意味であって国名でない。江戸時代の儒学者などは、日本を指して「中華」「中原」「中朝」「中域」「中国」などと書くことがあったが、これも国名でない。「大日本」と大を付けるのは、国名の前に大・皇・有・聖などの字を付けて天子の王朝であることを示す中国の習慣から来ている[27]。ただし、「おおやまと」と読む場合、古称の一つである。「帝国」はもともと「神国、皇国、神州」と同義だったが、近代以後、"empire"の訳語として使われている。大日本帝国憲法の後、「大日本帝国」の他、「日本」「日本国」「日本帝国」「大日本国」などといった表記が用いられた。戦後の国号としては「日本国」が専ら用いられる[28]。
+倭漢通用
+江戸初期の神道家である出口延佳と山本広足が著した『日本書紀神代講述鈔』に、倭漢通用の国称が掲載されている。
+「倭国」
+「和面国」
+「和人国」
+「野馬台国」、「耶摩堆」
+「姫氏国」、「女王国」
+「扶桑国」
+「君子国」
+「日本国」
+その他の言語
+英語の公式な表記は、Japan（ジャパン）。略記は、JPNが用いられる。JAP（ジャップ）は、侮蔑的な意味があるので注意が必要である。Nippon（ニッポン）が用いられる例も見られ、具体的には、UPU等によるローマ字表記（1965年以降）、郵便切手や日本銀行券などでNippon表記を用いている。略称は、NPNが用いられる。
+その他、各国語で日本を意味する固有名詞は、チャパーン（愛: tSeapáin）、ヤーパン（独: Japan）、ジャポン（仏: Japon）、ハポン（西: Japón）、ジャッポーネ（伊: Giappone）、ヤポニヤ（波: Japonia）、イィポーニヤ（露: Япония）、イープン（泰: ญี่ปุ่น）など、特定の時期に特定の地域の中国語で「日本国」を発音した「ジーパングォ」を写し取った（日本語読みの「ジッポン」に由来するとの説もある）、ジパング（Xipangu）（Zipang）（Zipangu）ないしジャパング（Japangu）を語源とすると考えられる。
+漢字文化圏においては、リーベン（中: Rìběn; 日本）、イルボン（朝: 일본; 日本）、ニャッバーン（越: Nhật Bản; 日本）[29]など、「日本」をそのまま自国語の発音で読んでいる。
+固有名詞の一般名詞化
+英語で陶器をチャイナというように、漆、漆器をジャパンという。
+歴史
-ノートページにスレッド風のスタイルを導入する提案をしました。ベクタースキン限定ですが、見た目が大きく変わり、多くの利用者に関係する修正なのでお知らせします。--Frozen-mikan 年月日 (火) : (UTC)
-新しい利用者グループを設けるかどうかの投票 [編集][閲覧][履歴]
+日本の歴史
-以前お知らせいたしましたWikipedia:井戸端/subj/新しい利用者グループの作成について、実際に各グループを導入するかどうかの投票を実施いたします。内容については投票ページを、これまでの経緯についてはWikipedia:井戸端/subj/新しい利用者グループの作成についてなどをご覧ください。--Marine-Bluetalk✿contribs✿mail 年月日 (金) : (UTC)
-「執筆コンテストの得点付与基準」について取りまとめのお知らせ [編集][閲覧][履歴]
+旧石器時代
+縄文時代
+弥生時代
+古墳時代
+飛鳥時代
+奈良時代
+平安時代
+鎌倉時代
+室町時代
+南北朝時代
+建武の新政
+戦国時代
+安土桃山時代
+江戸時代
+幕末
+明治時代
+大正時代
+昭和時代
+連合国軍占領下の日本
+平成
+Category:日本の歴史
+日本教育史
+日本の書道史
+日本の貿易史
+日本の軍事史
+日本の海軍史
+表・話・編・歴
+通常、日本の歴史は、日本列島における歴史と同一視される。が、厳密な「日本」の成立は、国号にあるように西暦700年前後であり、それまでは倭国と呼び記されていた。この倭国がどのような地理的範囲あるいは系統的範囲をもつ集団であるかについては事跡に明瞭に残されておらず、多くの学術上の仮説が提出されている。倭国と日本国との関係は諸説あり、「日本の歴史」と「日本列島の歴史」とを明確に区別して捉えるべきとする考えも示されている[30]。
+一方、旧い国称における国土の範囲は様々で、扶桑国なる国称においてはその範囲がアメリカ大陸に及ぶとする説もある。また、民族史における生活圏も様々で、例えば漢や唐から見た東夷族の国の領主・少昊が中国古代の五帝であったという歴史資料があり、その少昊が金字塔(ピラミッド)の墓を造ったとする資料も有る。
+時代の区分は、考古学上のものと歴史学上のものとがある。考古学上は、旧石器時代（先土器時代）、縄文時代、弥生時代、古墳時代、歴史時代、とするのが一般的である。一方、歴史学上は、古代（飛鳥時代から・奈良時代・平安時代）、中世（鎌倉時代・室町時代・戦国時代）、近世（安土桃山時代・江戸時代）、近代（明治維新から昭和20年8月14日まで）および現代（1945年8月15日以降）の五分法が通説である[31]。
+日本列島における人類の歴史は、次第に人が住み始めた約10万年前以前ないし約3万年前に始まったとされる。当時の日本列島は、アジア大陸と陸続きで、西方の華北や北方のシベリアとの文化交流も見られた。約1万2千年前の前後に最終氷期が終わると、大陸から分離した。この後も列島と大陸との間に活発な通交・交流が行なわれ、巨視的には、日本列島も中国を中心とする東アジア文化圏の影響下にあった。が、東アジアの最東方に所在する島国、という地理的条件により、他の東アジア地域と異質な要素を持つ独自の文化・社会・政治体制を発達させた。
+紀元前8世紀頃以降、中国南部から稲作を中心とする文化様式が伝わると、各地に「ムラ」「クニ」と呼ばれる政治組織が徐々に形成され、1世紀・2世紀前後に各クニの連合による倭国と呼ばれる大規模な政治組織が出現した。この連合的政治組織が、3世紀・4世紀頃に統一王権（ヤマト王権）へと発展したとする説が有力である。同時期まで、ツングース系中国人の国家である百済や新羅に対して、度重なる出兵を行いまた要人を配する等し国外に影響力を持っていたが、663年、百済復興のために援軍を送った白村江の戦いで新羅・唐の連合軍に敗れて半島への影響力を失う。その後間もなく、日本という国号を名乗る大和王朝が出現し、7世紀後半に中国の法体系・社会制度を急速に摂取し、8世紀初頭に古代国家（律令国家）としての完成を見た。当時の日本は、隋との通交以来、中国と対等な外交関係を結ぼうとする姿勢を見せ、中国を中心とする冊封体制からの独立を志向した。これは、他の東アジア諸国と異質な外交姿勢であり、その後の日本にも多かれ少なかれ引き継がれた。 その後、東アジアの中でも独特の国際的な地位を保持し続け、7世紀に中華王朝に対して独自の「天子」を称し、13世紀の元寇、16世紀のヨーロッパのアジア進出、19世紀の欧米列強の進出など、様々な事態にも対応して独立を維持した。
+成立当時の日本の支配地域は、日本列島の全域に及ぶものでなく、九州南部以南および東北中部以北は、まだ領域外だった。九州南部は、8世紀末に組み込まれた（隼人）が、抵抗の強かった東北地方の全域が領域に組み込まれたのは、鎌倉時代に入ってからである（蝦夷）。特に8・9世紀は、蝦夷の征服活動が活発化すると共に新羅遠征も計画されるなど帝国としての対外志向が強まった時期だが、10世紀に入り、こうした動きも沈静化した。
+10世紀から12世紀に掛け、旧来の天皇を中心とする古代の律令国家体制が大きく変質し、社会各階層への分権化が進んだ王朝国家体制、更に中世国家へと移行した（荘園公領制・職の体系）。12世紀頃（平安末期）から起請文などの古文書に「日本」や「日本国」の表記が見られ始め、社会に「日本」や「日本人」の意識が生まれたことの表れと考えられる。特に13世紀後半の元寇は、「日本」・「日本人」の意識が社会各層に広く浸透する契機となり、併せて「神国」観念を定着させた。網野善彦は、このような「日本」・「日本人」意識は、外国のみならず神仏などをも含む「異界」に対する関係性の中で醸成されたとしている[32]。室町時代には、「日本」の領域が北海道の南部まで及んだ。
+14世紀から15世紀までの時期には、社会の中世的な分権化が一層進展したが、15世紀後半頃から戦国大名勢力による地域国家の形成が急速に進んだ。この地域国家の形成は、中世社会の再統合へと繋がり、16世紀末に日本の統一政権が樹立されるに至り、近世へと移行した。日本の領域は、この時期にも変動している。16世紀末に蠣崎氏が北海道の南部に本拠を置き、北海道・千島・樺太を含む蝦夷地の支配権を得た。蝦夷地は、日本の領域とされることもあれば、領域外とされることもある、言わば「境界」とも言うべき地域だったが、17世紀にシャクシャインの戦いやロシア帝国の進出によって北方への関心が強まると、アイヌ及びロシアへの他者意識が「日本」・「日本人」観となって庶民層にまで定着し、日本の領域も「蝦夷が島」（北海道）以南と意識されるようになった。南方に目を向けると、中世を通じて鬼界島・硫黄島までが西の境界と意識された。17世紀初めに薩摩島津氏が琉球王国を侵攻して、奄美群島を直轄地にし、沖縄諸島及び先島諸島（宮古列島及び八重山列島）の琉球王府の支配地から米・砂糖を上納させた[33]が、その後も琉球王国は、日本・中国への両属を続けた。一方、豊臣秀吉が明国の冊封国・李氏朝鮮に出兵した目的を、明国の冊封を解除するためとする公立学校の歴史教科書もあり、その敗戦の故に明国の冊封が続いていたという説がある。[要出典]
+さらに、明国が満州族に占領されて清国に替わり、その清国が英国の植民地の阿片に侵食されつつあった1835年、日本では清国嘉慶帝時代に製作された『大清輿地全図[34]』の写しが出版され、その地図上での日本は、通舶地として清国の省の位置づけとしている。[要出典]
+19世紀中葉に入り、欧米列強との接触が飛躍的に増えると、列強各国に対する他者意識の裏返しとしての「日本」・「日本人」意識が更に強まり、ほぼ現代の「日本」・「日本人」意識と一致するまでに至った。アジア各国が欧米列強の植民地とされる中で日本が独立を長く保ったことは、国民国家意識の醸成をもたらし、結果として明治維新以降の近代国家建設の基礎となった。
+明治維新に伴う近代化により、近代的な国民国家の建設を急速に進めた。同時に近隣国と国境の確定を行い、1875年（明治8年）にサハリン全域をロシア領とする代わりにシムシュ島以南の千島列島（クリル諸島）全域を日本領とし（樺太・千島交換条約）、1876（明治9）年に小笠原諸島の領有を宣言[35]し、また、琉球処分を通じて南西諸島方面の実効的な支配に成功し、ここに一旦、近代国家としての日本国の領域が確定した。
+自由民権運動を経て1885年（明治18年）に内閣制度を確立し、1889年（明治22年）に大日本帝国憲法を制定し、1890年（明治23年）に第1回衆議院議員総選挙を実施して帝国議会を設置した。こうして、アジアで初めて憲法と議会とを持つ、近代的な立憲国家となった[36]。
+19世紀後半から20世紀初頭の帝国主義的な国際情勢の中で、東アジアに一定の勢力圏を築く必要に迫られ、日清戦争や日露戦争を経て勢力圏の確保を進めた。両戦争を通じ、台湾・澎湖諸島および南樺太を領土に収め、関東州の租借権を獲得した。その後、1910年（明治43年）に韓国併合が実施された。1919年（大正8年）にパリ講和会議で人種差別撤廃案を提出した（アメリカ合衆国などが反対）。また、発足した国際連盟からの委任を受けて南洋群島を統治することとなった。大正時代に大正デモクラシーが起こり、政党政治や男子普通選挙が実現した。
+1930年代に中国東北部への侵略を強め[37]、「満洲国」を建国して一定の支配権を得るに至り、軍部が台頭した[38]。こうした対外志向は、特にアメリカ合衆国を始めとする欧米諸国の権益と真っ向から衝突し、最終的に1945年（昭和20年）の第二次世界大戦（十五年戦争・アジア太平洋戦争・太平洋戦争・大東亜戦争）の敗北によって破局に至った。
+そして、アメリカ・イギリスなどの連合国により、史上初めて占領下に置かれ、日清戦争以降に獲得した領有権・統治権の総てを失った。占領下に国制の改革が進められ、憲法改正を行って日本国憲法を制定した。1952年（昭和27年）の平和条約によって全権を回復し、戦後、復興と共に1970年代半ばまでに目覚しい経済発展を遂げ（高度経済成長#日本の高度経済成長）、世界有数の経済大国となった。また、1952年（昭和27年）から1953年（昭和28年）にかけてトカラ列島や奄美群島、1968年（昭和43年）に小笠原諸島、1972年（昭和47年）に沖縄県の施政権が、それぞれアメリカから返還された（本土復帰、沖縄返還）。
+1970年代後半以降、先進国の一員として数々の国際的役割を果たし、多くの発展途上国で成長モデルとして目標にされた。21世紀に至り、高齢化社会に伴う人口減少、経済のグローバリゼーションへの対応など、数多くの課題に直面している。
+建国をめぐる議論
-執筆コンテストの得点付与基準について、現在取りまとめを行っております。これまでの議論を良くお読み頂いた上で、広くご意見をお待ち致しております。--御門桜 年月日 (月) : (UTC)
-ウィキペディア・アカデミー＆ブース展示＠OSC名古屋のお知らせ（関西ウィキメディアユーザ会） [編集][閲覧][履歴]
-関西ウィキメディアユーザ会 では、月日（土）時 (JST)から開催されるオープンソースカンファレンス Nagoya にて、セミナー及びブース展示をおこないます。
-セミナーでは、第回ウィキペディアアカデミー・関西ウィキメディア勉強会出張版 として、ウィキペディアへの記事の書き方の初歩の解説や、ウィキペディアへの記事の書き方についての質疑応答・意見交換をおこないます。
-また、ブース展示では、ウィキペディアやウィキメディアについて、来場いただいた方に紹介・意見交換をおこないます。アンケートにお答えいただいた方にはウィキペディア/ウィキメディアの缶バッジやシールなどを配布予定です。
-みなさま、お誘い合わせのうえ、ふるってご参加ください。お問い合わせは、関西ウィキメディアユーザ会 まで。--青子守歌（会話/履歴） 年月日 (火) : (UTC)
-月間感謝賞の推薦資格を緩和する提案について [編集][閲覧][履歴]
+日本の初代天皇とされる神武天皇
+「神国」および「皇国史観」も参照
+国家としての日本、又は、日本の文化は、長い年月を経て段階的に形成されて来ていて、明確な建国の時期を示す記録は、存在しない。建国記念の日（旧紀元節）は、記紀で神武天皇が即位したとされる日（紀元前660年1月1日〔旧暦〕、2月11日〔新暦〕）となっている。
+『日本書紀』神武紀に、カムヤマトイワレヒコ（神武天皇）が辛酉年春正月庚辰朔（1月1日）に即位したとの記述があり、古代以来、これが日本建国の画期と広く考えられていた。明治5年11月15日（1872年12月15日）には、神武天皇即位紀元が西暦紀元前660年に始まると定められ、これを元年とする紀年法・「皇紀」が明治6年1月1日（1873年1月1日）から使用された[39]。
+公的には、この神武天皇即位紀元をもとに、1966年（昭和41年）、建国記念の日となる日を定める政令（昭和41年政令第376号）により、2月11日が「建国記念の日」に定められた。しかし、歴史学の立場から見る神武天皇の即位は、当の記紀に何人もの人が100歳以上生きていたなどの記述もある事から神話と見られ、事実でないとするのが戦後の大勢である。しかし実在論もあり、議論は続いている。また戦後、皇紀の使用は、一部を除き殆ど無くなった[40]。
+建国の時期として、この他に「日本」国号が定められた時期（飛鳥浄御原令ないし大宝律令の成立）や大政奉還が為されて近代国家の建設が始まった明治維新の時期などが挙げられることもある。が、国家としての日本は、長い歴史的な経緯を経て形成され、明確な建国の画期を見出すこと自体が困難と言え、主観的なものとなりがちである。
+地理・地勢・自然・地域
-Wikipedia‐ノート:月間感謝賞#推薦資格の緩和の提案で、月間感謝賞の推薦資格を緩和に関する提案がされています。提案自体は半年ほど前にされており、反対はなかったものの改定が実行されずにいました。--Pastern 年月日 (水) : (UTC)
- 報告改定を実施しました。--Pastern 年月日 (土) : (UTC)
-Portal:古代ローマの正式リリース [編集][閲覧][履歴]
+詳細は「日本の地理」、「日本の山一覧」、「都道府県の面積一覧」をそれぞれ参照
-Portal:古代ローマ基本版が完成しました。正式リリースに向けて何か問題点はないか、ご意見をお願いします。--Sarandora 年月日 (水) : (UTC)
-Template:読み疑問点を作成しました [編集][閲覧][履歴]
-読みの分からない漢字表記語を想定してTemplate:読み疑問点を作成しましたことを報告します。--Damena 年月日 (木) : (UTC)
-Template:ネタバレ は一旦全て剥がされることに決定しました [編集][閲覧][履歴]
+日本の衛星写真
-Wikipedia:お知らせ/過去ログ/年月#Template:ネタバレの廃止提案に関連して、Wikipedia‐ノート:ネタバレ#一度全てのテンプレートを外す提案でネタバレ系テンプレート（Template:ネタバレ、Template:ネタバレ終了、Template:ネタバレ冒頭の種）を一旦全て剥がす提案を行なっておりましたが、反対がありませんでしたので剥がすことが決定しました。具体的な作業日程など詳細は後ほど。--Starchild (LuckyStar Kid) 年月日 (土) : (UTC)
-Wikipeida:不快なコンテンツのガイドライン化の提案 [編集][閲覧][履歴]
-Wikipedia:不快なコンテンツを正式にガイドラインとすることを提案しています。ガイドライン化にはコミュニティによる強い賛同が必要とされていますので、賛否にかかわらずご意見いただけると助かります。議論はWikipedia‐ノート:不快なコンテンツ#ガイドライン化の提案（再）にて。--Kurz 年月日 (火) : (UTC)
- 報告 議論の結果、正式にガイドラインとなりました。--Kurz 年月日 (土) : (UTC)
-Template:ネタバレ を不可視化する提案 [編集][閲覧][履歴]
-Wikipedia‐ノート:ネタバレ#テンプレートを不可視化する提案において、 Template:ネタバレ の削除提案に関連して、関連テンプレート（Template:ネタバレ、Template:ネタバレ終了、Template:ネタバレ冒頭）を一旦不可視化する提案を提出しました。多くの記事に影響する提案ですので、お知らせします。--とりっく☆すたぁ(会話/記録) 年月日 (火) : (UTC)/修正--とりっく☆すたぁ(会話/記録) 年月日 (火) : (UTC)
-メンテナンス系カテゴリを隠しカテゴリ化する提案 [編集]
-Category‐ノート:修正が必要なページにて、メンテナンス系のカテゴリ（Category:修正が必要なページ配下のカテゴリ）を一括して隠しカテゴリにする提案を行いました。現状では多くの記事に表示されているものですので、こちらにお知らせします。--Yukida-R 年月日 (土)
+日本列島の地形図。国土は全般的に山岳地帯であり、可住地面積は国土全体の約32%にとどまる（2001年10月1日時点）
+日本は明治以来、憲法における領土規定がなく、これは比較法学の観点では特殊なものであった[41]。島嶼部についての領有宣言、あるいは周辺諸国との条約がおもに領土領陸の法規範であり、第二次大戦後は日本国との平和条約（通称：サンフランシスコ講和条約）が主要な法規範を形成している。
+地理・地勢
+6852の島（本土5島＋6847離島）[42]から成る島国である。アジア・東アジアの中でも特に東方にあり、ユーラシアの東端にあたるため、欧米から極東・東洋などとも呼ばれる。全体的に弓形状であり、全面積は約37.8万km²（日本の実効支配領域に限る）で世界第61位である。国土の約70%が山岳地帯であり、約67%の森林率である。
+太平洋の北西部にある領土は、本州・北海道・九州・四国などから成る日本列島を中心に、南に延びる伊豆・小笠原諸島、南西に延びる南西諸島（沖縄本島など）、及び北東に位置する北方四島（北方領土）など、離島を多く含み、全体として弧状列島を形成する。
+最東端
+東京都南鳥島 （北緯24度16分59秒・東経153度59分11秒）
+最西端
+沖縄県与那国島西崎 （北緯24度26分58秒・東経122度56分01秒）
+「日本の最◯端」のなかで唯一、公共交通機関で訪れることができる場所である。
+最南端
+東京都沖ノ鳥島 （北緯20度25分31秒・東経136度04分11秒）
+最北端
+北海道弁天島 （北緯45度31分35秒、東経141度55分09秒）（日本政府の実効支配下にある領域の最北端）
+北海道択捉島カモイワッカ岬 （北緯45度33分28秒・東経148度45分14秒）（日本政府が領有権を主張する領域の最北端）
+周囲を太平洋、日本海、東シナ海、フィリピン海、オホーツク海などの海洋に囲まれる。本州と四国との間の海は、瀬戸内海と呼ばれる。地上の国境線が無く、ロシア、北朝鮮、台湾、韓国、中国、フィリピン、アメリカと排他的経済水域が接している。また、南方にパラオ共和国、小笠原諸島の延長線上にミクロネシア連邦があり、太平洋を挟んでアメリカ大陸がある。沖合を暖流の黒潮、対馬海流、寒流の親潮、リマン海流が流れる。
+日本国政府が日本固有の領土とみなしている北方領土はロシアに、島根県に属する竹島は韓国に、それぞれ実効支配されており、領土問題となっている（北方領土問題は1945年、竹島問題は1952年以降）。その他、1968年以降、中国と台湾が、沖縄県石垣市に属する尖閣諸島の領有権を主張している。
+地形区分は、地質構造を基準に、本州中部を南北に縦断する糸魚川静岡構造線を境に、南西日本と東北日本とに大別される。付近では、ユーラシアプレート、フィリピン海プレート、太平洋プレート、北アメリカプレートがせめぎ合い、環太平洋造山帯・環太平洋火山帯・環太平洋地震帯と呼ばれる帯の一環をなしている。そのため、世界全体で放出される地震エネルギーのうち1割から2割が日本の周辺に集中すると言われているほど地震が頻発し、震度1や2クラス程度の地震なら、どこかで毎日のように起きている。また、火山活動が活発な事から火山性土壌が多く、これが日本列島の自然を豊かにした面もある。また、温泉が多い事も火山の恵みと言える。
+河川は、利根川・最上川などが代表的であるが、大陸河川と違い、源流から河口までの距離が大変に短い事、海抜高低差が急な事もあり、比較的、流れが速い。集中豪雨が発生した時、堤防を決壊し、人家・田畑に甚大な被害を及ぼすという短所もあるが、比較的新鮮な水が取水しやすいのも特色である。
+周囲を海に囲まれた島国であることから、海上交易・漁業ともに盛んな海洋国家である。内海を含む領海を入れた領域の面積は約43万Km²、排他的経済水域を入れて約447万km²であり、領土のみの面積の11.7倍にあたる[43]。
+気候・自然
+気候
+ケッペンの気候区分によれば、本州以南沖縄諸島・宮古列島・大東諸島以北の大半が温帯多雨夏高温気候（Cfa）（多良間島・八重山列島（石垣島・西表島・与那国島・波照間島）・沖大東島などでは熱帯雨林気候（Af））に属する一方、北海道などが亜寒帯湿潤夏冷涼気候（Dfb）を示す[44]。モンスーンの影響を受け四季の変化がはっきりしているものの、全般的には海洋性気候のため大陸と比較して冬の寒さはそれほど厳しくなく温和な気候である。
+冬季は、シベリア高気圧が優勢となり北西の季節風が吹くが、その通り道である日本海で暖流の対馬海流から大量の水蒸気が蒸発するため、大量の雪を降らせる。そのため、日本海側を中心に国土の約52%が世界でも有数の豪雪地帯となる。太平洋側では、空気が乾燥した晴天の日が多い。
+夏季は、太平洋高気圧の影響が強く、高温多湿の日が続く。また、台風も多い。但し、北部を中心にオホーツク海高気圧の影響が強くなると低温となり、しばしば農業に影響を与える。
+また、比較的、降水量の多い地域である。主な要因は、日本海側での冬季の降雪、6・7月（沖縄・奄美は5・6月）に前線が停滞して起こる梅雨、夏季から秋季にかけて南方海上から接近・上陸する台風など。年間降水量は、約1,700mmとされる。
+自然
+南北に長く、また、森林限界を越える高山帯や広い海洋、四季の変化により、面積の広さに比べ、生息する動物や植物の種類が豊富である。
+四方が海で囲まれているため、外部から新しい生物が侵入してくる可能性が低かった。それに加え、多くの離島があるため、その島独自の生態系が維持されてきた土地が多数ある。特に小笠原諸島や南西諸島は、古くから本土と比べて孤立した生態系を築いてきたため、その島に固有の動植物が多く生息している。小笠原諸島は、「東洋のガラパゴス」と呼ばれるほど特殊な生態系を持つ。南西諸島でも、西表島のイリオモテヤマネコをはじめ、固有生物が島ごとに生息している例がある。だが、近年の開発や人間が持ち込んだ外来生物により、生態系は激変し､固有の動植物の生息が脅かされている場所が多い｡
+高度経済成長期以降、日本人の食卓の変化や、海外の農産品の輸入増加、東京一極集中､天然林の伐採、地域振興における公共事業偏重など様々な要因により、農山村や農林水産業が衰退した。これに伴い、耕作放棄地の増加､人工林の荒廃、水産資源の減少などの問題が発生している。
+環境・公害

data/test/generator_test.rb CHANGED Viewed

@@ -1,4 +1,4 @@
-require 'test/helper'
+require 'helper'
 class GeneratorTest < Test::Unit::TestCase
   context "create_lm ngrams" do
@@ -42,46 +42,4 @@ class GeneratorTest < Test::Unit::TestCase
       assert_equal "hello go to to watch some shitty videos woooooo friend win today", @sg.clean(@bad_text)
     end
   end
-  context "create .lm files out of text files" do
-    setup do
-      Scylla::Loader.set_dir(File.join("test","fixtures","lms"))
-      sourcedir = File.join("test", "fixtures", "source_texts")
-      lmdir = File.join("test", "fixtures", "lms")
-      @engtext = File.join(sourcedir, "english.txt")
-      @englm = File.join(lmdir,"english.lm")
-      @sg = Scylla::Generator.new(sourcedir, lmdir)
-      languages = Scylla::Loader.languages
-      text = ""
-      File.readlines(@engtext).each {|line| text += line }
-      @map = @sg.create_lm(text, true)
-    end
-    should "create lm file out of text file" do
-      @sg.write_lm(@engtext)
-      i = 0
-      File.readlines(@englm).each do |line|
-        break if i > 400
-        set = line.split("\t")
-        key = set.first
-        value = set.last.strip.to_i
-        assert_equal value, @map[i][1]
-        i += 1
-      end
-    end
-    should "create .lm files in bulk" do
-      @sg.train
-      languages = Scylla::Loader.languages
-      i = 0
-      File.readlines(@englm).each do |line|
-        break if i > 400
-        set = line.split("\t")
-        key = set.first
-        value = set.last.strip.to_i
-        assert_equal value, @map[i][1]
-        i += 1
-      end
-    end
-  end
 end

data/test/language_test.rb CHANGED Viewed

@@ -1,4 +1,4 @@
-require 'test/helper'
+require 'helper'
 class LanguageTest < Test::Unit::TestCase
   context "language detection" do
@@ -20,6 +20,10 @@ class LanguageTest < Test::Unit::TestCase
         @sentences[key].each do |sentence|
           next if sentence.size < 50
           p sentence if key != sentence.language
+          if key != sentence.language
+            debugger
+            p "hello"
+          end
           assert_equal key, sentence.language
         end
       end

data/test/loader_test.rb CHANGED Viewed

@@ -1,4 +1,4 @@
-require 'test/helper'
+require 'helper'
 class LoaderTest < Test::Unit::TestCase
   context "#languages" do

data/test/scylla_test.rb CHANGED Viewed

@@ -1,4 +1,4 @@
-require 'test/helper'
+require 'helper'
 class ScyllaTest < Test::Unit::TestCase
   context "String methods" do
@@ -14,12 +14,12 @@ class ScyllaTest < Test::Unit::TestCase
     should "load language results for strings" do
       assert_not_nil @language
       assert_not_nil @languages
-      assert String, @language.class
-      assert Array, @languages.class
+      assert_equal String, @language.class
+      assert_equal Array, @languages.class
       assert_equal "english", @language
       assert_equal "english", @languages.first
       assert_equal "en", @locale
-      assert_equal "en", @locale.first
+      assert_equal "en", @locales.first
     end
   end
 end

metadata CHANGED Viewed

@@ -1,61 +1,58 @@
---- !ruby/object:Gem::Specification
+--- !ruby/object:Gem::Specification
 name: scylla
-version: !ruby/object:Gem::Version
-  hash: 61
+version: !ruby/object:Gem::Version
+  version: 1.0.0
   prerelease:
-  segments:
-  - 0
-  - 9
-  - 3
-  version: 0.9.3
 platform: ruby
-authors:
+authors:
 - Ashwin Hegde
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2012-02-10 00:00:00 -08:00
-default_executable: scylla
-dependencies:
-- !ruby/object:Gem::Dependency
+date: 2012-02-10 00:00:00.000000000 Z
+dependencies:
+- !ruby/object:Gem::Dependency
   name: bundler
-  prerelease: false
-  requirement: &id001 !ruby/object:Gem::Requirement
+  requirement: !ruby/object:Gem::Requirement
     none: false
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        hash: 3
-        segments:
-        - 0
-        version: "0"
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
   type: :development
-  version_requirements: *id001
-- !ruby/object:Gem::Dependency
-  name: sanitize
   prerelease: false
-  requirement: &id002 !ruby/object:Gem::Requirement
+  version_requirements: !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: sanitize
+  requirement: !ruby/object:Gem::Requirement
     none: false
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        hash: 3
-        segments:
-        - 0
-        version: "0"
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
   type: :runtime
-  version_requirements: *id002
-description: Allows for text categorization by guessing the language of a given text using n-grams
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+description: Allows for text categorization by guessing the language of a given text
+  using n-grams
 email: ahegde@zendesk.com
-executables:
+executables:
 - scylla
 extensions: []
-extra_rdoc_files:
+extra_rdoc_files:
 - LICENSE.txt
 - README.rdoc
-files:
+files:
 - lib/scylla/classifier.rb
 - lib/scylla/generator.rb
 - lib/scylla/lms/arabic.lm
@@ -102,15 +99,42 @@ files:
 - README.rdoc
 - LICENSE.txt
 - test/classifier_test.rb
+- test/fixtures/lms/arabic.lm
+- test/fixtures/lms/bulgarian.lm
+- test/fixtures/lms/catalan.lm
+- test/fixtures/lms/chinese.lm
+- test/fixtures/lms/czech.lm
 - test/fixtures/lms/danish.lm
+- test/fixtures/lms/dutch.lm
 - test/fixtures/lms/english.lm
+- test/fixtures/lms/finnish.lm
 - test/fixtures/lms/french.lm
 - test/fixtures/lms/german.lm
+- test/fixtures/lms/greek.lm
+- test/fixtures/lms/hebrew.lm
 - test/fixtures/lms/hindi.lm
+- test/fixtures/lms/icelandic.lm
+- test/fixtures/lms/indonesian.lm
 - test/fixtures/lms/italian.lm
 - test/fixtures/lms/japanese.lm
+- test/fixtures/lms/kannada.lm
+- test/fixtures/lms/korean.lm
+- test/fixtures/lms/marathi.lm
 - test/fixtures/lms/norwegian.lm
+- test/fixtures/lms/persian.lm
+- test/fixtures/lms/polish.lm
+- test/fixtures/lms/portuguese.lm
+- test/fixtures/lms/romanian.lm
+- test/fixtures/lms/russian.lm
+- test/fixtures/lms/slovak.lm
+- test/fixtures/lms/slovenian.lm
 - test/fixtures/lms/spanish.lm
+- test/fixtures/lms/swedish.lm
+- test/fixtures/lms/tagalog.lm
+- test/fixtures/lms/thai.lm
+- test/fixtures/lms/turkish.lm
+- test/fixtures/lms/vietnamese.lm
+- test/fixtures/lms/welsh.lm
 - test/fixtures/source_texts/danish.txt
 - test/fixtures/source_texts/english.txt
 - test/fixtures/source_texts/french.txt
@@ -134,51 +158,69 @@ files:
 - test/loader_test.rb
 - test/scylla_test.rb
 - bin/scylla
-has_rdoc: true
 homepage: http://github.com/hashwin/scylla
-licenses:
+licenses:
 - MIT
 post_install_message:
 rdoc_options: []
-require_paths:
+require_paths:
 - lib
-required_ruby_version: !ruby/object:Gem::Requirement
+required_ruby_version: !ruby/object:Gem::Requirement
   none: false
-  requirements:
-  - - ">="
-    - !ruby/object:Gem::Version
-      hash: 3
-      segments:
-      - 0
-      version: "0"
-required_rubygems_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ! '>='
+    - !ruby/object:Gem::Version
+      version: '0'
+required_rubygems_version: !ruby/object:Gem::Requirement
   none: false
-  requirements:
-  - - ">="
-    - !ruby/object:Gem::Version
-      hash: 3
-      segments:
-      - 0
-      version: "0"
+  requirements:
+  - - ! '>='
+    - !ruby/object:Gem::Version
+      version: '0'
 requirements: []
 rubyforge_project:
-rubygems_version: 1.5.3
+rubygems_version: 1.8.24
 signing_key:
 specification_version: 3
 summary: Ruby port of Textcat language guesser
-test_files:
+test_files:
 - test/classifier_test.rb
+- test/fixtures/lms/arabic.lm
+- test/fixtures/lms/bulgarian.lm
+- test/fixtures/lms/catalan.lm
+- test/fixtures/lms/chinese.lm
+- test/fixtures/lms/czech.lm
 - test/fixtures/lms/danish.lm
+- test/fixtures/lms/dutch.lm
 - test/fixtures/lms/english.lm
+- test/fixtures/lms/finnish.lm
 - test/fixtures/lms/french.lm
 - test/fixtures/lms/german.lm
+- test/fixtures/lms/greek.lm
+- test/fixtures/lms/hebrew.lm
 - test/fixtures/lms/hindi.lm
+- test/fixtures/lms/icelandic.lm
+- test/fixtures/lms/indonesian.lm
 - test/fixtures/lms/italian.lm
 - test/fixtures/lms/japanese.lm
+- test/fixtures/lms/kannada.lm
+- test/fixtures/lms/korean.lm
+- test/fixtures/lms/marathi.lm
 - test/fixtures/lms/norwegian.lm
+- test/fixtures/lms/persian.lm
+- test/fixtures/lms/polish.lm
+- test/fixtures/lms/portuguese.lm
+- test/fixtures/lms/romanian.lm
+- test/fixtures/lms/russian.lm
+- test/fixtures/lms/slovak.lm
+- test/fixtures/lms/slovenian.lm
 - test/fixtures/lms/spanish.lm
+- test/fixtures/lms/swedish.lm
+- test/fixtures/lms/tagalog.lm
+- test/fixtures/lms/thai.lm
+- test/fixtures/lms/turkish.lm
+- test/fixtures/lms/vietnamese.lm
+- test/fixtures/lms/welsh.lm
 - test/fixtures/source_texts/danish.txt
 - test/fixtures/source_texts/english.txt
 - test/fixtures/source_texts/french.txt