RubyGems - docdiff - Versions diffs - 0.6.2 → 0.6.4 - Mend

docdiff 0.6.2 → 0.6.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (54) hide show

data/test/docdiff_test.rb CHANGED Viewed

@@ -190,7 +190,7 @@ class TC_DocDiff < Test::Unit::TestCase
   def test_cli()
     expected = "Hello, my name is [-Watanabe.-]{+matz.+}\n"
     cmd = "ruby -I lib bin/docdiff --wdiff" +
-      " sample/01.en.ascii.lf sample/02.en.ascii.lf"
+      " test/fixture/01_en_ascii_lf.txt test/fixture/02_en_ascii_lf.txt"
     actual = `#{cmd}`.scan(/^.*?$\n/m).first
     assert_equal(expected, actual)
   end

data/test/document_test.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 #!/usr/bin/ruby
-# -*- coding: euc-jp; -*-
+# -*- coding: utf-8; -*-
 # frozen_string_literal: false
@@ -223,396 +223,396 @@ class TC_DocDiff_Document < Test::Unit::TestCase
   # test EUCJP module
   def test_eucjp_split_to_word()
-    doc = Document.new(NKF.nkf("-e", "���ܸ��ʸ��foo bar"))
-    expected = ["���ܸ��","ʸ��","foo ","bar"].collect{|c| NKF.nkf("-e", c)}
+    doc = Document.new(NKF.nkf("--euc", "日本語の文字foo bar"))
+    expected = ["日本語の","文字","foo ","bar"].map{|c| NKF.nkf("--euc", c)}
     assert_equal(expected, doc.split_to_word)
   end
   def test_eucjp_split_to_word_kanhira()
-    doc = Document.new(NKF.nkf("-e", "���ܸ��ʸ��"))
-    expected = ["���ܸ��", "ʸ��"].collect{|c| NKF.nkf("-e", c)}
+    doc = Document.new(NKF.nkf("--euc", "日本語の文字"))
+    expected = ["日本語の", "文字"].map{|c| NKF.nkf("--euc", c)}
     assert_equal(expected, doc.split_to_word)
   end
   def test_eucjp_split_to_word_katahira()
-    doc = Document.new(NKF.nkf("-e", "�������ʤ�ʸ��"))
-    expected = ["�������ʤ�", "ʸ��"].collect{|c| NKF.nkf("-e", c)}
+    doc = Document.new(NKF.nkf("--euc", "カタカナの文字"))
+    expected = ["カタカナの", "文字"].map{|c| NKF.nkf("--euc", c)}
     assert_equal(expected, doc.split_to_word)
   end
   def test_eucjp_split_to_word_kataonbiki()
-    doc = Document.new(NKF.nkf("-e", "��ӡ�������"), "EUC-JP")
-    expected = ["��ӡ�", "����", "��"].collect{|c| NKF.nkf("-e", c)}
+    doc = Document.new(NKF.nkf("--euc", "ルビー色の石"), "EUC-JP")
+    expected = ["ルビー", "色の", "石"].map{|c| NKF.nkf("--euc", c)}
     assert_equal(expected, doc.split_to_word)
   end
   def test_eucjp_split_to_word_hiraonbiki()
-    doc = Document.new(NKF.nkf("-e", "���ӡ���"), "EUC-JP")
-    expected = (["�", "��ӡ���"]).collect{|c| NKF.nkf("-e", c)}
+    doc = Document.new(NKF.nkf("--euc", "わールビーだ"), "EUC-JP")
+    expected = (["わー", "ルビーだ"]).map{|c| NKF.nkf("--euc", c)}
     assert_equal(expected, doc.split_to_word)
   end
   def test_eucjp_split_to_word_latinmix()
-    doc = Document.new(NKF.nkf("-e", "���ܸ��Latin��ʸ��"))
-    expected = ["���ܸ��", "Latin", "��", "ʸ��"].collect{|c| NKF.nkf("-e", c)}
+    doc = Document.new(NKF.nkf("--euc", "日本語とLatinの文字"))
+    expected = ["日本語と", "Latin", "の", "文字"].map{|c| NKF.nkf("--euc", c)}
     assert_equal(expected, doc.split_to_word)
   end
   def test_eucjp_split_to_char()
-    doc = Document.new(NKF.nkf("-e", "���ܸ�a b"))
-    expected = ["��","��","��","a"," ","b"].collect{|c|NKF.nkf("-e",c)}
+    doc = Document.new(NKF.nkf("--euc", "日本語a b"))
+    expected = ["日","本","語","a"," ","b"].map{|c|NKF.nkf("--euc",c)}
     assert_equal(expected, doc.split_to_char)
   end
   def test_eucjp_split_to_char_with_cr()
-    doc = Document.new(NKF.nkf("-e", "���ܸ�a b\r"))
-    expected = ["��","��","��","a"," ","b","\r"].collect{|c|NKF.nkf("-e",c)}
+    doc = Document.new(NKF.nkf("--euc", "日本語a b\r"))
+    expected = ["日","本","語","a"," ","b","\r"].map{|c|NKF.nkf("--euc",c)}
     assert_equal(expected, doc.split_to_char)
   end
   def test_eucjp_split_to_char_with_lf()
-    doc = Document.new(NKF.nkf("-e", "���ܸ�a b\n"))
-    expected = ["��","��","��","a"," ","b","\n"].collect{|c|NKF.nkf("-e",c)}
+    doc = Document.new(NKF.nkf("--euc", "日本語a b\n"))
+    expected = ["日","本","語","a"," ","b","\n"].map{|c|NKF.nkf("--euc",c)}
     assert_equal(expected, doc.split_to_char)
   end
   def test_eucjp_split_to_char_with_crlf()
-    doc = Document.new(NKF.nkf("-e", "���ܸ�a b\r\n"))
-    expected = ["��","��","��","a"," ","b","\r\n"].collect{|c|NKF.nkf("-e",c)}
+    doc = Document.new(NKF.nkf("--euc", "日本語a b\r\n"))
+    expected = ["日","本","語","a"," ","b","\r\n"].map{|c|NKF.nkf("--euc",c)}
     assert_equal(expected, doc.split_to_char)
   end
   def test_eucjp_count_char()
-    doc = Document.new(NKF.nkf("-e", "���ܸ�a b\r\n"))
+    doc = Document.new(NKF.nkf("--euc", "日本語a b\r\n"))
     expected = 7
     assert_equal(expected, doc.count_char)
   end
   def test_eucjp_count_latin_graph_char()
-    doc = Document.new(NKF.nkf("-e", "���ܸ�a b\r\n"))
+    doc = Document.new(NKF.nkf("--euc", "日本語a b\r\n"))
     expected = 2
     assert_equal(expected, doc.count_latin_graph_char)
   end
   def test_eucjp_count_ja_graph_char()
-    doc = Document.new(NKF.nkf("-e", "���ܸ�a b\r\n"))
+    doc = Document.new(NKF.nkf("--euc", "日本語a b\r\n"))
     expected = 3
     assert_equal(expected, doc.count_ja_graph_char)
   end
   def test_eucjp_count_graph_char()
-    doc = Document.new(NKF.nkf("-e", "���ܸ�a b\r\n"))
+    doc = Document.new(NKF.nkf("--euc", "日本語a b\r\n"))
     expected = 5
     assert_equal(expected, doc.count_graph_char)
   end
   def test_eucjp_count_latin_blank_char()
-    doc = Document.new(NKF.nkf("-e", "���ܸ�\ta b\r\n"))
+    doc = Document.new(NKF.nkf("--euc", "日本語\ta b\r\n"))
     expected = 2
     assert_equal(expected, doc.count_latin_blank_char)
   end
   def test_eucjp_count_ja_blank_char()
-    doc = Document.new(NKF.nkf("-e", "���ܡ���\ta b\r\n"))
+    doc = Document.new(NKF.nkf("--euc", "日本　語\ta b\r\n"))
     expected = 1
     assert_equal(expected, doc.count_ja_blank_char)
   end
   def test_eucjp_count_blank_char()
-    doc = Document.new(NKF.nkf("-e", "���ܡ���\ta b\r\n"))
+    doc = Document.new(NKF.nkf("--euc", "日本　語\ta b\r\n"))
     expected = 3
     assert_equal(expected, doc.count_blank_char)
   end
   def test_eucjp_count_word()
-    doc = Document.new(NKF.nkf("-e", "���ܡ���a b --\r\n"))
+    doc = Document.new(NKF.nkf("--euc", "日本　語a b --\r\n"))
     expected = 7 # "--" and "\r\n" are counted as word here (though not "valid")
     assert_equal(expected, doc.count_word)
   end
   def test_eucjp_count_ja_word()
-    doc = Document.new(NKF.nkf("-e", "���ܡ���a b --\r\n"))
+    doc = Document.new(NKF.nkf("--euc", "日本　語a b --\r\n"))
     expected = 3
     assert_equal(expected, doc.count_ja_word)
   end
   def test_eucjp_count_latin_valid_word()
-    doc = Document.new(NKF.nkf("-e", "���ܡ���a b --\r\n"))
+    doc = Document.new(NKF.nkf("--euc", "日本　語a b --\r\n"))
     expected = 2
     assert_equal(expected, doc.count_latin_valid_word)
   end
   def test_eucjp_count_ja_valid_word()
-    doc = Document.new(NKF.nkf("-e", "���ܡ���a b --\r\n"))
+    doc = Document.new(NKF.nkf("--euc", "日本　語a b --\r\n"))
     expected = 2
     assert_equal(expected, doc.count_ja_valid_word)
   end
   def test_eucjp_count_valid_word()
-    doc = Document.new(NKF.nkf("-e", "���ܡ���a b --\r\n"))
+    doc = Document.new(NKF.nkf("--euc", "日本　語a b --\r\n"))
     expected = 4
     assert_equal(expected, doc.count_valid_word)
   end
   def test_eucjp_count_line()
-    doc = Document.new(NKF.nkf("-e", "���ܸ�\r\n��\r\n \r\n\r\nfoo\r\nbar"))
+    doc = Document.new(NKF.nkf("--euc", "日本語\r\n　\r\n \r\n\r\nfoo\r\nbar"))
     expected = 6
     assert_equal(expected, doc.count_line)
   end
   def test_eucjp_count_graph_line()
-    doc = Document.new(NKF.nkf("-e", "���ܸ�\r\n��\r\n \r\n\r\nfoo\r\nbar"))
+    doc = Document.new(NKF.nkf("--euc", "日本語\r\n　\r\n \r\n\r\nfoo\r\nbar"))
     expected = 3
     assert_equal(expected, doc.count_graph_line)
   end
   def test_eucjp_count_empty_line()
-    doc = Document.new(NKF.nkf("-e", "���ܸ�\r\n��\r\n \r\n\r\nfoo\r\nbar"))
+    doc = Document.new(NKF.nkf("--euc", "日本語\r\n　\r\n \r\n\r\nfoo\r\nbar"))
     expected = 1
     assert_equal(expected, doc.count_empty_line)
   end
   def test_eucjp_count_blank_line()
-    doc = Document.new(NKF.nkf("-e", "���ܸ�\r\n��\r\n \r\n\r\nfoo\r\nbar"))
+    doc = Document.new(NKF.nkf("--euc", "日本語\r\n　\r\n \r\n\r\nfoo\r\nbar"))
     expected = 2
     assert_equal(expected, doc.count_blank_line)
   end
   # test SJIS module
   def test_sjis_split_to_word()
-    doc = Document.new(NKF.nkf("-s", "���ܸ��ʸ��foo bar"))
-    expected = ["���ܸ��", "ʸ��", "foo ", "bar"].collect{|c|NKF.nkf("-s",c)}
+    doc = Document.new(NKF.nkf("--sjis", "日本語の文字foo bar"))
+    expected = ["日本語の", "文字", "foo ", "bar"].map{|c|NKF.nkf("--sjis",c)}
     assert_equal(expected, doc.split_to_word)
   end
   def test_sjisplit_s_to_word_kanhira()
-    doc = Document.new(NKF.nkf("-s", "���ܸ��ʸ��"))
-    expected = ["���ܸ��", "ʸ��"].collect{|c| NKF.nkf("-s", c)}
+    doc = Document.new(NKF.nkf("--sjis", "日本語の文字"))
+    expected = ["日本語の", "文字"].map{|c| NKF.nkf("--sjis", c)}
     assert_equal(expected, doc.split_to_word)
   end
   def test_sjis_split_to_word_katahira()
-    doc = Document.new(NKF.nkf("-s", "�������ʤ�ʸ��"))
-    expected = ["�������ʤ�", "ʸ��"].collect{|c| NKF.nkf("-s", c)}
+    doc = Document.new(NKF.nkf("--sjis", "カタカナの文字"))
+    expected = ["カタカナの", "文字"].map{|c| NKF.nkf("--sjis", c)}
     assert_equal(expected, doc.split_to_word)
   end
   def test_sjis_split_to_word_kataonbiki()
-    doc = Document.new(NKF.nkf("-s", "��ӡ��λ���"))
-    expected = ["��ӡ���", "����"].collect{|c| NKF.nkf("-s", c)}
+    doc = Document.new(NKF.nkf("--sjis", "ルビーの指輪"))
+    expected = ["ルビーの", "指輪"].map{|c| NKF.nkf("--sjis", c)}
     assert_equal(expected, doc.split_to_word)
   end
   def test_sjis_split_to_word_hiraonbiki()
-    doc = Document.new(NKF.nkf("-s", "���ӡ���"))
-    expected = ["�", "��ӡ���"].collect{|c| NKF.nkf("-s", c)}
+    doc = Document.new(NKF.nkf("--sjis", "わールビーだ"))
+    expected = ["わー", "ルビーだ"].map{|c| NKF.nkf("--sjis", c)}
     assert_equal(expected, doc.split_to_word)
   end
   def test_sjis_split_to_word_latinmix()
-    doc = Document.new(NKF.nkf("-s", "���ܸ��Latin��ʸ��"))
-    expected = ["���ܸ��","Latin","��","ʸ��"].collect{|c| NKF.nkf("-s", c)}
+    doc = Document.new(NKF.nkf("--sjis", "日本語とLatinの文字"))
+    expected = ["日本語と","Latin","の","文字"].map{|c| NKF.nkf("--sjis", c)}
     assert_equal(expected, doc.split_to_word)
   end
   def test_sjis_split_to_char()
-    doc = Document.new(NKF.nkf("-s", "ɽ�׻�a b"))
-    expected = ["ɽ","��","��","a"," ","b"].collect{|c|NKF.nkf("-s",c)}
+    doc = Document.new(NKF.nkf("--sjis", "表計算a b"))
+    expected = ["表","計","算","a"," ","b"].map{|c|NKF.nkf("--sjis",c)}
     assert_equal(expected, doc.split_to_char)
   end
   def test_sjis_split_to_char_with_cr()
-    doc = Document.new(NKF.nkf("-s", "ɽ�׻�a b\r"))
-    expected = ["ɽ","��","��","a"," ","b","\r"].collect{|c|NKF.nkf("-s",c)}
+    doc = Document.new(NKF.nkf("--sjis", "表計算a b\r"))
+    expected = ["表","計","算","a"," ","b","\r"].map{|c|NKF.nkf("--sjis",c)}
     assert_equal(expected, doc.split_to_char)
   end
   def test_sjis_split_to_char_with_lf()
-    doc = Document.new(NKF.nkf("-s", "ɽ�׻�a b\n"))
-    expected = ["ɽ","��","��","a"," ","b","\n"].collect{|c|NKF.nkf("-s",c)}
+    doc = Document.new(NKF.nkf("--sjis", "表計算a b\n"))
+    expected = ["表","計","算","a"," ","b","\n"].map{|c|NKF.nkf("--sjis",c)}
     assert_equal(expected, doc.split_to_char)
   end
   def test_sjis_split_to_char_with_crlf()
-    doc = Document.new(NKF.nkf("-s", "ɽ�׻�a b\r\n"))
-    expected = ["ɽ","��","��","a"," ","b","\r\n"].collect{|c|NKF.nkf("-s",c)}
+    doc = Document.new(NKF.nkf("--sjis", "表計算a b\r\n"))
+    expected = ["表","計","算","a"," ","b","\r\n"].map{|c|NKF.nkf("--sjis",c)}
     assert_equal(expected, doc.split_to_char)
   end
   def test_sjis_count_char()
-    doc = Document.new(NKF.nkf("-s", "���ܸ�a b\r\n"))
+    doc = Document.new(NKF.nkf("--sjis", "日本語a b\r\n"))
     expected = 7
     assert_equal(expected, doc.count_char)
   end
   def test_sjis_count_latin_graph_char()
-    doc = Document.new(NKF.nkf("-s", "���ܸ�a b\r\n"))
+    doc = Document.new(NKF.nkf("--sjis", "日本語a b\r\n"))
     expected = 2
     assert_equal(expected, doc.count_latin_graph_char)
   end
   def test_sjis_count_ja_graph_char()
-    doc = Document.new(NKF.nkf("-s", "���ܸ�a b\r\n"))
+    doc = Document.new(NKF.nkf("--sjis", "日本語a b\r\n"))
     expected = 3
     assert_equal(expected, doc.count_ja_graph_char)
   end
   def test_sjis_count_graph_char()
-    doc = Document.new(NKF.nkf("-s", "���ܸ�a b\r\n"))
+    doc = Document.new(NKF.nkf("--sjis", "日本語a b\r\n"))
     expected = 5
     assert_equal(expected, doc.count_graph_char)
   end
   def test_sjis_count_latin_blank_char()
-    doc = Document.new(NKF.nkf("-s", "���ܸ�\ta b\r\n"))
+    doc = Document.new(NKF.nkf("--sjis", "日本語\ta b\r\n"))
     expected = 2
     assert_equal(expected, doc.count_latin_blank_char)
   end
   def test_sjis_count_ja_blank_char()
-    doc = Document.new(NKF.nkf("-s", "���ܡ���\ta b\r\n"))
+    doc = Document.new(NKF.nkf("--sjis", "日本　語\ta b\r\n"))
     expected = 1
     assert_equal(expected, doc.count_ja_blank_char)
   end
   def test_sjis_count_blank_char()
-    doc = Document.new(NKF.nkf("-s", "���ܡ���\ta b\r\n"))
+    doc = Document.new(NKF.nkf("--sjis", "日本　語\ta b\r\n"))
     expected = 3
     assert_equal(expected, doc.count_blank_char)
   end
   def test_sjis_count_word()
-    doc = Document.new(NKF.nkf("-s", "���ܡ���a b --\r\n"))
+    doc = Document.new(NKF.nkf("--sjis", "日本　語a b --\r\n"))
     expected = 7 # "--" and "\r\n" are counted as word here (though not "valid")
     assert_equal(expected, doc.count_word)
   end
   def test_sjis_count_ja_word()
-    doc = Document.new(NKF.nkf("-s", "���ܡ���a b --\r\n"))
+    doc = Document.new(NKF.nkf("--sjis", "日本　語a b --\r\n"))
     expected = 3
     assert_equal(expected, doc.count_ja_word)
   end
   def test_sjis_count_latin_valid_word()
-    doc = Document.new(NKF.nkf("-s", "���ܡ���a b --\r\n"))
+    doc = Document.new(NKF.nkf("--sjis", "日本　語a b --\r\n"))
     expected = 2
     assert_equal(expected, doc.count_latin_valid_word)
   end
   def test_sjis_count_ja_valid_word()
-    doc = Document.new(NKF.nkf("-s", "���ܡ���a b --\r\n"))
+    doc = Document.new(NKF.nkf("--sjis", "日本　語a b --\r\n"))
     expected = 2
     assert_equal(expected, doc.count_ja_valid_word)
   end
   def test_sjis_count_valid_word()
-    doc = Document.new(NKF.nkf("-s", "���ܡ���a b --\r\n"))
+    doc = Document.new(NKF.nkf("--sjis", "日本　語a b --\r\n"))
     expected = 4
     assert_equal(expected, doc.count_valid_word)
   end
   def test_sjis_count_line()
-    doc = Document.new(NKF.nkf("-s", "���ܸ�\r\n��\r\n \r\n\r\nfoo\r\nbar"))
+    doc = Document.new(NKF.nkf("--sjis", "日本語\r\n　\r\n \r\n\r\nfoo\r\nbar"))
     expected = 6
     assert_equal(expected, doc.count_line)
   end
   def test_sjis_count_graph_line()
-    doc = Document.new(NKF.nkf("-s", "���ܸ�\r\n��\r\n \r\n\r\nfoo\r\nbar"))
+    doc = Document.new(NKF.nkf("--sjis", "日本語\r\n　\r\n \r\n\r\nfoo\r\nbar"))
     expected = 3
     assert_equal(expected, doc.count_graph_line)
   end
   def test_sjis_count_empty_line()
-    doc = Document.new(NKF.nkf("-s", "���ܸ�\r\n��\r\n \r\n\r\nfoo\r\nbar"))
+    doc = Document.new(NKF.nkf("--sjis", "日本語\r\n　\r\n \r\n\r\nfoo\r\nbar"))
     expected = 1
     assert_equal(expected, doc.count_empty_line)
   end
   def test_sjis_count_blank_line()
-    doc = Document.new(NKF.nkf("-s", "���ܸ�\r\n��\r\n \r\n\r\nfoo\r\nbar"))
+    doc = Document.new(NKF.nkf("--sjis", "日本語\r\n　\r\n \r\n\r\nfoo\r\nbar"))
     expected = 2
     assert_equal(expected, doc.count_blank_line)
   end
   # test UTF8 module
   def test_utf8_split_to_word()
-    doc = Document.new(NKF.nkf("-E -w", "���ܸ��ʸ��foo bar"))
-    expected = ["���ܸ��", "ʸ��", "foo ", "bar"].collect{|c| NKF.nkf("-E -w", c)}
+    doc = Document.new(NKF.nkf("--utf8", "日本語の文字foo bar"))
+    expected = ["日本語の", "文字", "foo ", "bar"].map{|c| NKF.nkf("--utf8", c)}
     assert_equal(expected, doc.split_to_word)
   end
   def test_utf8_split_to_word_kanhira()
-    doc = Document.new(NKF.nkf("-E -w", "���ܸ��ʸ��"))
-    expected = ["���ܸ��", "ʸ��"].collect{|c| NKF.nkf("-E -w", c)}
+    doc = Document.new(NKF.nkf("--utf8", "日本語の文字"))
+    expected = ["日本語の", "文字"].map{|c| NKF.nkf("--utf8", c)}
     assert_equal(expected, doc.split_to_word)
   end
   def test_utf8_split_to_word_katahira()
-    doc = Document.new(NKF.nkf("-E -w", "�������ʤ�ʸ��"))
-    expected = ["�������ʤ�", "ʸ��"].collect{|c| NKF.nkf("-E -w", c)}
+    doc = Document.new(NKF.nkf("--utf8", "カタカナの文字"))
+    expected = ["カタカナの", "文字"].map{|c| NKF.nkf("--utf8", c)}
     assert_equal(expected, doc.split_to_word)
   end
   def test_utf8_split_to_word_kataonbiki()
-    doc = Document.new(NKF.nkf("-E -w", "��ӡ��λ���"))
-    expected = ["��ӡ���", "����"].collect{|c| NKF.nkf("-E -w", c)}
+    doc = Document.new(NKF.nkf("--utf8", "ルビーの指輪"))
+    expected = ["ルビーの", "指輪"].map{|c| NKF.nkf("--utf8", c)}
     assert_equal(expected, doc.split_to_word)
   end
   def test_utf8_split_to_word_hiraonbiki()
-    doc = Document.new(NKF.nkf("-E -w", "���ӡ���"))
-    expected = ["�", "��ӡ���"].collect{|c| NKF.nkf("-E -w", c)}
+    doc = Document.new(NKF.nkf("--utf8", "わールビーだ"))
+    expected = ["わー", "ルビーだ"].map{|c| NKF.nkf("--utf8", c)}
     assert_equal(expected, doc.split_to_word)
   end
   def test_utf8_split_to_word_latinmix()
-    doc = Document.new(NKF.nkf("-E -w", "���ܸ��Latin��ʸ��"))
-    expected = ["���ܸ��", "Latin", "��", "ʸ��"].collect{|c| NKF.nkf("-E -w", c)}
+    doc = Document.new(NKF.nkf("--utf8", "日本語とLatinの文字"))
+    expected = ["日本語と", "Latin", "の", "文字"].map{|c| NKF.nkf("--utf8", c)}
     assert_equal(expected, doc.split_to_word)
   end
   def test_utf8_split_to_char()
-    doc = Document.new(NKF.nkf("-E -w", "���ܸ�a b"), "UTF-8")
-    expected = ["��", "��", "��", "a", " ", "b"].collect{|c| NKF.nkf("-E -w", c)}
+    doc = Document.new(NKF.nkf("--utf8", "日本語a b"), "UTF-8")
+    expected = ["日", "本", "語", "a", " ", "b"].map{|c| NKF.nkf("--utf8", c)}
     assert_equal(expected, doc.split_to_char)
   end
   def test_utf8_split_to_char_with_cr()
-    doc = Document.new(NKF.nkf("-E -w", "���ܸ�a b\r"), "UTF-8")
-    expected = ["��","��","��","a"," ","b","\r"].collect{|c| NKF.nkf("-E -w", c)}
+    doc = Document.new(NKF.nkf("--utf8", "日本語a b\r"), "UTF-8")
+    expected = ["日","本","語","a"," ","b","\r"].map{|c| NKF.nkf("--utf8", c)}
     assert_equal(expected, doc.split_to_char)
   end
   def test_utf8_split_to_char_with_lf()
-    doc = Document.new(NKF.nkf("-E -w", "���ܸ�a b\n"), "UTF-8")
-    expected = ["��","��","��","a"," ","b","\n"].collect{|c| NKF.nkf("-E -w", c)}
+    doc = Document.new(NKF.nkf("--utf8", "日本語a b\n"), "UTF-8")
+    expected = ["日","本","語","a"," ","b","\n"].map{|c| NKF.nkf("--utf8", c)}
     assert_equal(expected, doc.split_to_char)
   end
   def test_utf8_split_to_char_with_crlf()
-    doc = Document.new(NKF.nkf("-E -w", "���ܸ�a b\r\n"), "UTF-8")
-    expected = ["��","��","��","a"," ","b","\r\n"].collect{|c| NKF.nkf("-E -w", c)}
+    doc = Document.new(NKF.nkf("--utf8", "日本語a b\r\n"), "UTF-8")
+    expected = ["日","本","語","a"," ","b","\r\n"].map{|c| NKF.nkf("--utf8", c)}
     assert_equal(expected, doc.split_to_char)
   end
   def test_utf8_count_char()
-    doc = Document.new(NKF.nkf("-E -w", "���ܸ�a b\r\n"), "UTF-8")
+    doc = Document.new(NKF.nkf("--utf8", "日本語a b\r\n"), "UTF-8")
     expected = 7
     assert_equal(expected, doc.count_char)
   end
   def test_utf8_count_latin_graph_char()
-    doc = Document.new(NKF.nkf("-E -w", "���ܸ�a b\r\n"), "UTF-8")
+    doc = Document.new(NKF.nkf("--utf8", "日本語a b\r\n"), "UTF-8")
     expected = 2
     assert_equal(expected, doc.count_latin_graph_char)
   end
   def test_utf8_count_ja_graph_char()
-    doc = Document.new(NKF.nkf("-E -w", "���ܸ�a b\r\n"), "UTF-8")
+    doc = Document.new(NKF.nkf("--utf8", "日本語a b\r\n"), "UTF-8")
     expected = 3
     assert_equal(expected, doc.count_ja_graph_char)
   end
   def test_utf8_count_graph_char()
-    doc = Document.new(NKF.nkf("-E -w", "���ܸ�a b\r\n"), "UTF-8")
+    doc = Document.new(NKF.nkf("--utf8", "日本語a b\r\n"), "UTF-8")
     expected = 5
     assert_equal(expected, doc.count_graph_char)
   end
   def test_utf8_count_latin_blank_char()
-    doc = Document.new(NKF.nkf("-E -w", "���ܸ�\ta b\r\n"))
+    doc = Document.new(NKF.nkf("--utf8", "日本語\ta b\r\n"))
     expected = 2
     assert_equal(expected, doc.count_latin_blank_char)
   end
   def test_utf8_count_ja_blank_char()
-    doc = Document.new(NKF.nkf("-E -w", "���ܡ���\ta b\r\n"))
+    doc = Document.new(NKF.nkf("--utf8", "日本　語\ta b\r\n"))
     expected = 1
     assert_equal(expected, doc.count_ja_blank_char)
   end
   def test_utf8_count_blank_char()
-    doc = Document.new(NKF.nkf("-E -w", "���ܡ���\ta b\r\n"))
+    doc = Document.new(NKF.nkf("--utf8", "日本　語\ta b\r\n"))
     expected = 3
     assert_equal(expected, doc.count_blank_char)
   end
   def test_utf8_count_word()
-    doc = Document.new(NKF.nkf("-E -w", "���ܡ���a b --\r\n"))
+    doc = Document.new(NKF.nkf("--utf8", "日本　語a b --\r\n"))
     expected = 7 # "--" and "\r\n" are counted as word here (though not "valid")
     assert_equal(expected, doc.count_word)
   end
   def test_utf8_count_ja_word()
-    doc = Document.new(NKF.nkf("-E -w", "���ܡ���a b --\r\n"))
+    doc = Document.new(NKF.nkf("--utf8", "日本　語a b --\r\n"))
     expected = 3
     assert_equal(expected, doc.count_ja_word)
   end
   def test_utf8_count_latin_valid_word()
-    doc = Document.new(NKF.nkf("-E -w", "���ܡ���a b --\r\n"))
+    doc = Document.new(NKF.nkf("--utf8", "日本　語a b --\r\n"))
     expected = 2
     assert_equal(expected, doc.count_latin_valid_word)
   end
   def test_utf8_count_ja_valid_word()
-    doc = Document.new(NKF.nkf("-E -w", "���ܡ���a b --\r\n"))
+    doc = Document.new(NKF.nkf("--utf8", "日本　語a b --\r\n"))
     expected = 2
     assert_equal(expected, doc.count_ja_valid_word)
   end
   def test_utf8_count_valid_word()
-    doc = Document.new(NKF.nkf("-E -w", "���ܡ���a b --\r\n"))
+    doc = Document.new(NKF.nkf("--utf8", "日本　語a b --\r\n"))
     expected = 4
     assert_equal(expected, doc.count_valid_word)
   end
   def test_utf8_count_line()
-    doc = Document.new(NKF.nkf("-E -w", "���ܸ�\r\n��\r\n \r\n\r\nfoo\r\nbar"))
+    doc = Document.new(NKF.nkf("--utf8", "日本語\r\n　\r\n \r\n\r\nfoo\r\nbar"))
     expected = 6
     assert_equal(expected, doc.count_line)
   end
   def test_utf8_count_graph_line()
-    doc = Document.new(NKF.nkf("-E -w", "���ܸ�\r\n��\r\n \r\n\r\nfoo\r\nbar"))
+    doc = Document.new(NKF.nkf("--utf8", "日本語\r\n　\r\n \r\n\r\nfoo\r\nbar"))
     expected = 3
     assert_equal(expected, doc.count_graph_line)
   end
   def test_utf8_count_empty_line()
-    doc = Document.new(NKF.nkf("-E -w", "���ܸ�\r\n��\r\n \r\n\r\nfoo\r\nbar"))
+    doc = Document.new(NKF.nkf("--utf8", "日本語\r\n　\r\n \r\n\r\nfoo\r\nbar"))
     expected = 1
     assert_equal(expected, doc.count_empty_line)
   end
   def test_utf8_count_blank_line()
-    doc = Document.new(NKF.nkf("-E -w", "���ܸ�\r\n��\r\n \r\n\r\nfoo\r\nbar"))
+    doc = Document.new(NKF.nkf("--utf8", "日本語\r\n　\r\n \r\n\r\nfoo\r\nbar"))
     expected = 2
     assert_equal(expected, doc.count_blank_line)
   end

data/test/fixture/01_ja_utf8_lf.txt ADDED Viewed

	@@ -0,0 +1,2 @@
1	+ こんにちは、私の名前はわたなべです。
2	+ 私はJust Another Ruby Porterです。

data/test/fixture/02_ja_utf8_lf.txt ADDED Viewed

	@@ -0,0 +1,2 @@
1	+ こんばんは、私の名前はまつもとです。
2	+ Rubyを作ったのは私です。私はRuby Hackerです。