RubyGems - faker-okinawa - Versions diffs - 0.1.0 - Mend

faker-okinawa 0.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (65) hide show

checksums.yaml +7 -0
data/.gitignore +9 -0
data/CODE_OF_CONDUCT.md +49 -0
data/Gemfile +4 -0
data/LICENSE.txt +21 -0
data/README.md +66 -0
data/Rakefile +2 -0
data/bin/console +14 -0
data/bin/setup +8 -0
data/faker-okinawa.gemspec +23 -0
data/lib/faker/okinawa.rb +14 -0
data/lib/faker/okinawa/address.rb +35 -0
data/lib/faker/okinawa/awamori.rb +14 -0
data/lib/faker/okinawa/base.rb +14 -0
data/lib/faker/okinawa/fish.rb +14 -0
data/lib/faker/okinawa/food.rb +14 -0
data/lib/faker/okinawa/name.rb +14 -0
data/lib/faker/okinawa/odic.rb +40 -0
data/lib/faker/okinawa/school.rb +14 -0
data/lib/faker/okinawa/version.rb +5 -0
data/o-dic/address.dic +1068 -0
data/o-dic/amami.dic +69 -0
data/o-dic/awamori.dic +809 -0
data/o-dic/base.dic +63 -0
data/o-dic/bin-dic/ATOK.zip +0 -0
data/o-dic/bin-dic/Kotoeri.dmg +0 -0
data/o-dic/bin-dic/MSIME.zip +0 -0
data/o-dic/bin-dic/MSIME2000.zip +0 -0
data/o-dic/bin-dic/MSIME2002.zip +0 -0
data/o-dic/bin-dic/MSIME2003.zip +0 -0
data/o-dic/bin-dic/MSIME2007.zip +0 -0
data/o-dic/bin-dic/VJEDelta40.zip +0 -0
data/o-dic/bin-dic/anthydic20090901.tar.bz2 +0 -0
data/o-dic/bin-dic/cannadic.tar.bz2 +0 -0
data/o-dic/bin-dic/cannadic20030407.tar.bz2 +0 -0
data/o-dic/bin-dic/cannadic20051104.tar.bz2 +0 -0
data/o-dic/bin-dic/google-20111218.zip +0 -0
data/o-dic/bus.dic +216 -0
data/o-dic/city.dic +209 -0
data/o-dic/doc/History.doc +138 -0
data/o-dic/doc/README.1ST +79 -0
data/o-dic/doc/format.txt +169 -0
data/o-dic/food.dic +524 -0
data/o-dic/geo.dic +815 -0
data/o-dic/history.dic +1078 -0
data/o-dic/island.dic +354 -0
data/o-dic/misc.dic +1166 -0
data/o-dic/name.dic +1039 -0
data/o-dic/park.dic +535 -0
data/o-dic/sakana.dic +160 -0
data/o-dic/school.dic +1068 -0
data/o-dic/script/ODIC.pm +98 -0
data/o-dic/script/ccount.pl +111 -0
data/o-dic/script/geta_checker.sh +29 -0
data/o-dic/script/oki2atk.pl +192 -0
data/o-dic/script/oki2canna.pl +131 -0
data/o-dic/script/oki2cha.pl +154 -0
data/o-dic/script/oki2jis.pl +167 -0
data/o-dic/script/oki2kotoeri.pl +127 -0
data/o-dic/script/oki2mozc.pl +156 -0
data/o-dic/script/oki2msime.pl +136 -0
data/o-dic/script/oki2osxjapaneseim.pl +168 -0
data/o-dic/script/oki2vje.pl +138 -0
data/o-dic/script/wcount.pl +114 -0
metadata +135 -0

data/o-dic/script/ODIC.pm ADDED Viewed

@@ -0,0 +1,98 @@
+#
+# 沖縄辞書フォーマット共通ライブラリー
+#
+package ODIC;
+use strict;
+use Encode;
+our $MAX_PHONATE = 40;
+our $MAX_WORD    = 64;
+sub check_phonate {
+    my $phonate = shift;
+    if (length(Encode::decode('utf-8', $phonate)) > $MAX_PHONATE) {
+	print STDERR "Warning: $.: too long phonate `$phonate'\n";
+    }
+    if ($phonate =~ /[^あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもらりるれろがぎぐげござじずぜぞだぢづでどばびぶべぼぁぃぅぇぉっょゃゅゎぱぴぷぺぽやゆよわをんヴー]/) {
+	print STDERR "Warning: $.: illegal character in `$phonate'\n";
+    }
+}
+sub check_word {
+    my $word = shift;
+    if (length(Encode::decode('utf-8', $word)) > $MAX_WORD) {
+	print STDERR "Warning: $.: too long word `$word'\n";
+    }
+    if ($word =~ /[ \t",#]/) {
+	print STDERR "Warning: $.: illegal character in `$word'\n";
+    }
+}
+sub to_eucjp {
+    my $utf8_string = Encode::decode('utf-8', shift);
+    return Encode::encode('euc-jp', $utf8_string);
+}
+sub to_shiftjis {
+    my $utf8_string = Encode::decode('utf-8', shift);
+    # 'cp932' は、「～」の変換でおかしくなるので使用しない。
+    return Encode::encode('shift_jis', $utf8_string);
+}
+sub to_utf16 {
+    my $utf8_string = Encode::decode('utf-8', shift);
+    return Encode::encode('utf-16', $utf8_string);
+}
+1;
+__END__
+=head1 NAME
+ODIC - 沖縄辞書 <http://www.zukeran.org/o-dic/> フォーマット向けの共通関数
+=head1 EXAMPLE
+  require 'ODIC.pm';
+  while (<>) {
+    next if (/^\s*$|^\s*\#.*$/);	# 空行・コメントのみの行を読み飛ばす
+    if (/^(\S+)\s+(\S+)\s+(\S+)\s+#\s*([[:^cntrl:]]*).*$/) {
+      my $phonate = $1;	# 読み
+      my $word    = $2;	# 単語
+      my $class   = $3;	# 品詞
+      my $comment = $4;	# コメント
+      ODIC::check_phonate($phonate);
+      ODIC::check_word($word);
+      &convert_class;
+    } elsif (/^(\S+)\s+(\S+)\s+(\S+)/) {
+      my $phonate = $1;	# 読み
+      my $word    = $2;	# 単語
+      my $class   = $3;	# 品詞
+      my $comment = '';	# コメント
+      ODIC::check_phonate($phonate);
+      ODIC::check_word($word);
+      &convert_class;
+    } else {
+      print STDERR "Error: $.: too few field number `$_'\n";
+      print  "$_";
+    }
+  }
+  exit 0;
+  sub convert_class {
+    print "$phonate\t$word\t$class\t$comment\n";
+  }
+=head1 LICENSE
+Public domain.
+=cut

data/o-dic/script/ccount.pl ADDED Viewed

@@ -0,0 +1,111 @@
+#!/usr/bin/perl
+#
+# ccount.pl - 沖縄辞書の品詞属性を種類ごとに集計
+#
+#		$Id: ccount.pl,v 1.5 2002/06/16 04:31:52 void Exp $
+#
+#     $ cat ../*.dic | ./ccount.pl | sort | uniq -c
+require 5.6.0;
+require 'ODIC.pm';
+use strict;
+our $phonate;
+our $word;
+our $class;
+while (<>) {
+	s/#.*$//;		# `#'以降を取り去る
+	next if (/^\s*$/);	# その結果空行になった行は読み飛ばす。
+	if (/(\S+)\s+(\S+)\s+(\S+)/) {
+		$phonate = $1;	# 読み
+		$word    = $2;	# 単語
+		$class   = $3;	# 品詞
+		ODIC::check_phonate($phonate);
+		ODIC::check_word($word);
+		&check_class;
+	}
+	else {
+		print STDERR "Error: $.: too few field number `$_'\n";
+		print  "$_";
+	}
+}
+exit 0;
+sub check_class {
+	if ($class eq "普通名詞") {
+		print "$class\n";
+	}
+	elsif ($class eq "サ変名詞") {
+		print "$class\n";
+	}
+	elsif ($class eq "形動名詞") {
+		print "$class\n";
+	}
+	elsif ($class eq "姓") {
+		print "$class\n";
+	}
+	elsif ($class eq "名") {
+		print "$class\n";
+	}
+	elsif ($class eq "その他の人名") {
+		print "$class\n";
+	}
+	elsif ($class eq "単純地名") {
+		print "$class\n";
+	}
+	elsif ($class eq "接尾語付き地名") {
+		print "$class\n";
+	}
+	elsif ($class eq "組織名") {
+		print "$class\n";
+	}
+	elsif ($class eq "その他固有名詞") {
+		print "$class\n";
+	}
+	elsif ($class eq "副詞") {
+		print "$class\n";
+	}
+	elsif ($class eq "接続詞") {
+		print "$class\n";
+	}
+	elsif ($class eq "感動詞") {
+		print "$class\n";
+	}
+	elsif ($class eq "形容詞") {
+		print "$class\n";
+	}
+	elsif ($class eq "形容動詞") {
+		print "$class\n";
+	}
+	elsif ($class eq "接頭語") {
+		print "$class\n";
+	}
+	elsif ($class eq "数字列接頭語") {
+		print "$class\n";
+	}
+	elsif ($class eq "接尾語") {
+		print "$class\n";
+	}
+	elsif ($class eq "人名接尾語") {
+		print "$class\n";
+	}
+	elsif ($class eq "地名接尾語") {
+		print "$class\n";
+	}
+	elsif ($class eq "組織名接尾語") {
+		print "$class\n";
+	}
+	elsif ($class eq "数字列接尾語") {
+		print "$class\n";
+	}
+	elsif ($class eq "成句") {
+		print "$class\n";
+	}
+	elsif ($class eq "無品詞") {
+		print "$class\n";
+	}
+	else {
+		print STDERR "Error: $.: unknown class `$class': $phonate\t$word\n";
+		print "$class\n";
+	}
+}

data/o-dic/script/geta_checker.sh ADDED Viewed

@@ -0,0 +1,29 @@
+#!/bin/sh
+#
+# 辞書ファイル内の JIS X 0208 に含まれていない文字を検出するためのスクリプト
+#							山城 潤
+#   $ ./geta_checker.sh
+#	...UTF-8で差分を出力...
+#
+# このスクリプトの実行にはnkf(1)が必要です。
+# https://sourceforge.jp/projects/nkf/
+script_dir=`dirname $0`
+for i in $script_dir/../*.dic
+do
+    to_file=`mktemp /tmp/geta.XXXXXXX`
+    utf8_file=`mktemp /tmp/geta.XXXXXXX`
+    # UTF-8 -> Shift_JIS -> UTF-8_2
+    nkf -s "$i" > "$to_file"
+    nkf -u "$to_file" > "$utf8_file"
+    # UTF-8 と UTF-8_2 の差分を取って〓の位置を確認する。
+    if ! diff -u "$i" "$utf8_file"; then
+	echo "$i: Geta exists." 1>&2
+    fi
+    rm "$to_file"
+    rm "$utf8_file"
+done

data/o-dic/script/oki2atk.pl ADDED Viewed

@@ -0,0 +1,192 @@
+#!/usr/bin/perl
+#
+# oki2atk.pl - 沖縄辞書のファイルをATOK13形式に変換する。
+#
+#                                                         yonesu@syon.co.jp
+#
+# このスクリプトを使って、以下のように「okinawa.txt」を生成しておいて、
+#  $ cat *.dic | script/oki2atk.pl --utf8 | env LC_ALL=C sort --unique > okinawa.txt
+#  ATOK13の辞書ユーティリティを起動し、
+# 「一括処理」-「単語一括処理」の「単語ファイル(T)」に
+#  okinawa.txtを指定し、「登録」を押下してください。
+#
+#  「尚灝王」(しょうこうおう)など、JIS X 0208の範囲外の文字が含まれる単語を
+#  辞書にインポートする場合には、UTF-8 で出力してから、Notepad.exeなどで
+#  「Unicode」(UTF-16LE BOM付き)に変換してください。
+#
+#############################################################################
+#                          ATOK13での品詞体系                               #
+#1  名詞	2  固有人姓	3  固有人名	4  固有人他	5  固有地名 #
+#6  固有組織	7  固有商品	8  固有一般	9  名詞サ変	10 名詞ザ変 #
+#11 名詞形動	12 名サ形動	13 数詞		14 副詞		15 連体詞   #
+#16 接続詞	17 感動詞	18 独立語	19 接頭語	20 冠数詞   #
+#21 接尾語	22 助数詞	23 カ行五段	24 ガ行五段	25 サ行五段 #
+#26 タ行五段	27 ナ行五段	28 バ行五段	29 マ行五段	30 ラ行五段 #
+#31 ワ行五段	32 ハ行四段	33 一段動詞	34 カ変動詞	35 サ変動詞 #
+#36 ザ変動詞	37 形容詞	38 形容詞ウ	39 形容動詞	40 形動タリ #
+#41 単漢字                                                                  #
+#############################################################################
+require 5.6.0;
+use FindBin;
+use lib $FindBin::Bin;  # For search scripts/ODIC.pm
+require 'ODIC.pm';
+use strict;
+use Getopt::Long qw(:config posix_default no_ignore_case gnu_compat);
+our $phonate;
+our $word;
+our $class;
+my $help_only;
+my $skip_geta;
+my $utf8_output;
+GetOptions(
+    'help|h'      => \$help_only,
+    'skip-geta|g' => \$skip_geta,
+    'utf8|u'      => \$utf8_output
+);
+if (defined($help_only)) {
+    print STDERR "usage: $0 [--help|-h] [--skip-geta|-g] [--utf8-output|-u]\n";
+    exit 1;
+}
+&header;
+while (<>) {
+	# JIS X 0208 に含まれていない文字を含む行を読み飛ばす
+	# 読み飛ばしにはコメントに「〓あり」マーカーが必要
+	next if (defined($skip_geta) && /〓あり/);
+	s/#.*$//;		# `#'以降を取り去る
+	next if (/^\s*$/);	# その結果空行になった行は読み飛ばす。
+	if (/(\S+)\s+(\S+)\s+(\S+)/) {
+		$phonate = $1;	# 読み
+		$word    = $2;	# 単語
+		$class   = $3;	# 品詞
+		ODIC::check_phonate($phonate);
+		ODIC::check_word($word);
+		&convert_class;
+	}
+	else {
+		print STDERR "Error: $.: too few field number `$_'\n";
+		print  "$_";
+	}
+}
+&version;
+exit 0;
+sub convert_class {
+	if ($class eq "普通名詞") {
+		$class = 1;
+	}
+	elsif ($class eq "サ変名詞") {
+		$class = 9;
+	}
+	elsif ($class eq "形動名詞") {
+		$class = 11;
+	}
+	elsif ($class eq "姓") {
+		$class = 2;
+	}
+	elsif ($class eq "名") {
+		$class = 3;
+	}
+	elsif ($class eq "その他の人名") {
+		$class = 4;
+	}
+	elsif ($class eq "単純地名") {
+		$class = 5;
+	}
+	elsif ($class eq "接尾語付き地名") {
+		$class = 5;
+	}
+	elsif ($class eq "組織名") {
+		$class = 6;
+	}
+	elsif ($class eq "その他固有名詞") {
+		$class = 7;
+	}
+	elsif ($class eq "副詞") {
+		$class = 14;
+	}
+	elsif ($class eq "接続詞") {
+		$class = 16;
+	}
+	elsif ($class eq "感動詞") {
+		$class = 17;
+	}
+	elsif ($class eq "形容詞") {
+		$class = 37;
+	}
+	elsif ($class eq "形容動詞") {
+		$class = 39;
+	}
+	elsif ($class eq "接頭語") {
+		$class = 19;
+	}
+	elsif ($class eq "数字列接頭語") {
+		$class = 20;
+	}
+	elsif ($class eq "接尾語") {
+		$class = 21;
+	}
+	elsif ($class eq "人名接尾語") {
+		$class = 21;
+	}
+	elsif ($class eq "地名接尾語") {
+		$class = 21;
+	}
+	elsif ($class eq "組織名接尾語") {
+		$class = 21;
+	}
+	elsif ($class eq "数字列接尾語") {
+		$class = 13;
+	}
+	elsif ($class eq "成句") {
+		$class = 1;
+	}
+	elsif ($class eq "無品詞") {
+		$class = 41;
+	}
+	else {
+		print STDERR "Error: $.: unknown class `$class': $phonate\t$word\n";
+		if (defined($utf8_output)) {
+			print "$phonate\t$word\t［〓］\r\n";
+		} else {
+			print ODIC::to_shiftjis("$phonate\t$word\t［〓］\r\n");
+		}
+		return;
+	}
+	if (defined($utf8_output)) {
+		print "$phonate\t$word\t $class \r\n";
+	} else {
+		print ODIC::to_shiftjis("$phonate\t$word\t $class \r\n");
+	}
+}
+sub version {
+	my $sec;
+	my $min;
+	my $hour;
+	my $mday;
+	my $mon;
+	my $year;
+	($sec, $min, $hour, $mday, $mon, $year) = localtime(time());
+	$year += 1900;
+	$mon++;
+	if (defined($utf8_output)) {
+		print "おきなわじしょのひづけ\t$year/$mon/$mday(沖縄辞書の日付け)\t 1 \r\n";
+	} else {
+		print ODIC::to_shiftjis("おきなわじしょのひづけ\t$year/$mon/$mday(沖縄辞書の日付け)\t 1 \r\n");
+	}
+}
+sub header {
+	print "!!DICUT16\r\n";
+}

data/o-dic/script/oki2canna.pl ADDED Viewed

@@ -0,0 +1,131 @@
+#!/usr/bin/perl
+#
+# oki2canna.pl - 沖縄辞書のファイルをCanna/Anthyに持って行くためのスクリプト
+#							瑞慶覧辰
+#
+# 使用例:
+# Canna向け
+#    $ cat ../*.dic | ./oki2canna.pl -g | nkf -e | sort -u > okinawa.txt
+#    $ mkbindic okinawa.txt
+#
+# Anthyユーザー辞書向け
+#    $ cat ../*.dic | ./oki2canna.pl |
+#	env LANG=C sort -u > ~/.anthy/imported_words_default.d/okinawa.t
+#
+# 品詞一覧
+# anthy-9100h/src-worddic/wtab.h
+#
+# Canna37p3/cmd/wtoc/wtoc.c
+# Canna37p3/dic/ideo/grammar/main.code
+# Canna37p3/doc/man/guide/tex/hinshi.tex
+use 5.10.1;		# for "use feature 'switch'"
+use FindBin;
+use lib $FindBin::Bin;  # For search scripts/ODIC.pm
+require 'ODIC.pm';
+use strict;
+use feature 'switch';
+use Getopt::Long qw(:config posix_default no_ignore_case gnu_compat);
+my $help_only;
+my $skip_geta;
+GetOptions(
+    'help|h' => \$help_only,
+    'skip-geta|g' => \$skip_geta
+);
+if (defined($help_only)) {
+    print STDERR "usage: $0 [--help|-h] [--skip-geta|-g]\n";
+    exit 1;
+}
+while (<>) {
+    next if (/^\s*$|^\s*\#.*$/);	# 空行・コメントのみの行を読み飛ばす
+    # JIS X 0208 に含まれていない文字を含む行を読み飛ばす
+    # 読み飛ばしにはコメントに「〓あり」マーカーが必要
+    next if (defined($skip_geta) && /〓あり/);
+    if (/^(\S+)\s+(\S+)\s+(\S+)\s+#\s*([[:^cntrl:]]*).*$/) {
+	my $phonate = $1;	# 読み
+	my $word    = $2;	# 単語
+	my $class   = $3;	# 品詞
+	ODIC::check_phonate($phonate);
+	ODIC::check_word($word);
+	&print_dictionary($phonate, $word, $class);
+    } elsif (/^(\S+)\s+(\S+)\s+(\S+)/) {
+	my $phonate = $1;	# 読み
+	my $word    = $2;	# 単語
+	my $class   = $3;	# 品詞
+	ODIC::check_phonate($phonate);
+	ODIC::check_word($word);
+	&print_dictionary($phonate, $word, $class);
+    } else {
+	print STDERR "Error: $.: too few field number `$_'\n";
+	print  "$_";
+    }
+}
+&version;
+exit 0;
+sub print_dictionary {
+    my $phonate = shift;
+    my $word    = shift;
+    my $class   = shift;
+    given ($class) {
+	when ('普通名詞')	{ $class = '#T35'; }
+	when ('サ変名詞')	{ $class = '#T30'; }
+	when ('形動名詞')	{ $class = '#T05'; }
+	when ('姓')		{ $class = '#JNS'; }
+	when ('名')		{ $class = '#JNM'; }
+	when ('その他の人名')	{ $class = '#JN'; }
+	when ('単純地名')	{ $class = '#CN'; }
+	when ('接尾語付き地名')	{ $class = '#CNS'; }
+	when ('組織名')		{ $class = '#KK'; }
+	when ('その他固有名詞')	{ $class = '#KK'; }
+	when ('副詞')		{ $class = '#F04'; }
+	when ('接続詞')		{ $class = '#CJ'; }
+	when ('感動詞')		{ $class = '#CJ'; }
+	when ('形容詞')		{ $class = '#KY'; }
+	when ('形容動詞')	{ $class = '#T05'; }
+	when ('接頭語')		{ $class = '#PRE'; }
+	when ('数字列接頭語')	{ $class = '#JS'; }
+	when ('接尾語')		{ $class = '#SUC'; }
+	when ('人名接尾語')	{ $class = '#JNSUC'; }
+	when ('地名接尾語')	{ $class = '#CNSUC1'; }
+	when ('組織名接尾語')	{ $class = '#SUC'; }
+	when ('数字列接尾語')	{ $class = '#SUC'; }
+	when ('成句')		{ $class = '#KJ'; }
+	when ('無品詞')		{ $class = '#KJ'; }
+	default {
+	    print STDERR "Error: $.: unknown class `$class': $phonate\t$word\n";
+	    print "$phonate 〓 $word\n";
+	}
+    }
+    print "$phonate $class $word\n";
+}
+sub version {
+    my $class = shift;
+    my $sec;
+    my $min;
+    my $hour;
+    my $mday;
+    my $mon;
+    my $year;
+    ($sec, $min, $hour, $mday, $mon, $year) = localtime(time());
+    $year += 1900;
+    $mon++;
+    print "おきなわじしょのひづけ #T35 $year/$mon/$mday(沖縄辞書の日付け)\n";
+}