RubyGems - red-datasets - Versions diffs - 0.0.7 → 0.1.2 - Mend

red-datasets 0.0.7 → 0.1.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (40) hide show

checksums.yaml +4 -4
data/README.md +20 -4
data/doc/text/news.md +102 -0
data/lib/datasets.rb +19 -9
data/lib/datasets/adult.rb +4 -3
data/lib/datasets/cifar.rb +4 -12
data/lib/datasets/cldr-plurals.rb +385 -0
data/lib/datasets/communities.rb +198 -0
data/lib/datasets/dataset.rb +20 -1
data/lib/datasets/downloader.rb +54 -26
data/lib/datasets/e-stat-japan.rb +320 -0
data/lib/datasets/error.rb +4 -0
data/lib/datasets/hepatitis.rb +207 -0
data/lib/datasets/libsvm-dataset-list.rb +277 -0
data/lib/datasets/libsvm.rb +135 -0
data/lib/datasets/mnist.rb +0 -2
data/lib/datasets/mushroom.rb +256 -0
data/lib/datasets/penguins.rb +146 -0
data/lib/datasets/postal-code-japan.rb +154 -0
data/lib/datasets/rdatasets.rb +95 -0
data/lib/datasets/table.rb +83 -3
data/lib/datasets/tar_gz_readable.rb +14 -0
data/lib/datasets/version.rb +1 -1
data/lib/datasets/wikipedia.rb +2 -10
data/red-datasets.gemspec +4 -0
data/test/run-test.rb +2 -0
data/test/test-cldr-plurals.rb +180 -0
data/test/test-communities.rb +290 -0
data/test/test-dataset.rb +27 -0
data/test/test-downloader.rb +29 -0
data/test/test-e-stat-japan.rb +383 -0
data/test/test-hepatitis.rb +74 -0
data/test/test-libsvm-dataset-list.rb +47 -0
data/test/test-libsvm.rb +205 -0
data/test/test-mushroom.rb +80 -0
data/test/test-penguins.rb +251 -0
data/test/test-postal-code-japan.rb +69 -0
data/test/test-rdatasets.rb +136 -0
data/test/test-table.rb +123 -18
metadata +88 -11

data/test/test-postal-code-japan.rb ADDED Viewed

@@ -0,0 +1,69 @@
+class PostalCodeJapanTest < Test::Unit::TestCase
+  sub_test_case(":reading") do
+    test(":lowercase") do
+      dataset = Datasets::PostalCodeJapan.new(reading: :lowercase)
+      assert_equal({
+                     organization_code: "01101",
+                     old_postal_code: "060",
+                     postal_code: "0600000",
+                     prefecture_reading: "ﾎｯｶｲﾄﾞｳ",
+                     city_reading: "ｻｯﾎﾟﾛｼﾁｭｳｵｳｸ",
+                     address_reading: "ｲｶﾆｹｲｻｲｶﾞﾅｲﾊﾞｱｲ",
+                     prefecture: "北海道",
+                     city: "札幌市中央区",
+                     address: "以下に掲載がない場合",
+                     have_multiple_postal_codes: false,
+                     have_address_number_per_koaza: false,
+                     have_chome: false,
+                     postal_code_is_shared: false,
+                     changed: false,
+                     change_reason: nil,
+                   },
+                   dataset.first.to_h)
+    end
+    test(":uppercase") do
+      dataset = Datasets::PostalCodeJapan.new(reading: :uppercase)
+      assert_equal({
+                     organization_code: "01101",
+                     old_postal_code: "060",
+                     postal_code: "0600000",
+                     prefecture_reading: "ﾎﾂｶｲﾄﾞｳ",
+                     city_reading: "ｻﾂﾎﾟﾛｼﾁﾕｳｵｳｸ",
+                     address_reading: "ｲｶﾆｹｲｻｲｶﾞﾅｲﾊﾞｱｲ",
+                     prefecture: "北海道",
+                     city: "札幌市中央区",
+                     address: "以下に掲載がない場合",
+                     have_multiple_postal_codes: false,
+                     have_address_number_per_koaza: false,
+                     have_chome: false,
+                     postal_code_is_shared: false,
+                     changed: false,
+                     change_reason: nil,
+                   },
+                   dataset.first.to_h)
+    end
+    test(":romaji") do
+      dataset = Datasets::PostalCodeJapan.new(reading: :romaji)
+      assert_equal({
+                     organization_code: nil,
+                     old_postal_code: nil,
+                     postal_code: "0600000",
+                     prefecture_reading: "HOKKAIDO",
+                     city_reading: "SAPPORO SHI CHUO KU",
+                     address_reading: "IKANIKEISAIGANAIBAAI",
+                     prefecture: "北海道",
+                     city: "札幌市　中央区",
+                     address: "以下に掲載がない場合",
+                     have_multiple_postal_codes: false,
+                     have_address_number_per_koaza: false,
+                     have_chome: false,
+                     postal_code_is_shared: false,
+                     changed: false,
+                     change_reason: nil,
+                   },
+                   dataset.first.to_h)
+    end
+  end
+end

data/test/test-rdatasets.rb ADDED Viewed

@@ -0,0 +1,136 @@
+class RdatasetsTest < Test::Unit::TestCase
+  sub_test_case("RdatasetsList") do
+    def setup
+      @dataset = Datasets::RdatasetsList.new
+    end
+    sub_test_case("#each") do
+      test("with package_name") do
+        records = @dataset.filter(package: "datasets").to_a
+        assert_equal([
+                       84,
+                       {
+                         package: "datasets",
+                         dataset: "ability.cov",
+                         title: "Ability and Intelligence Tests",
+                         rows: 6,
+                         cols: 8,
+                         n_binary: 0,
+                         n_character: 0,
+                         n_factor: 0,
+                         n_logical: 0,
+                         n_numeric: 8,
+                         csv: "https://vincentarelbundock.github.io/Rdatasets/csv/datasets/ability.cov.csv",
+                         doc: "https://vincentarelbundock.github.io/Rdatasets/doc/datasets/ability.cov.html"
+                       },
+                       {
+                         package: "datasets",
+                         dataset: "WWWusage",
+                         title: "Internet Usage per Minute",
+                         rows: 100,
+                         cols: 2,
+                         n_binary: 0,
+                         n_character: 0,
+                         n_factor: 0,
+                         n_logical: 0,
+                         n_numeric: 2,
+                         csv: "https://vincentarelbundock.github.io/Rdatasets/csv/datasets/WWWusage.csv",
+                         doc: "https://vincentarelbundock.github.io/Rdatasets/doc/datasets/WWWusage.html"
+                       }
+                     ],
+                     [
+                       records.size,
+                       records[0].to_h,
+                       records[-1].to_h
+                     ])
+      end
+      test("without package_name") do
+        records = @dataset.each.to_a
+        assert_equal([
+                       1478,
+                       {
+                         package: "AER",
+                         dataset: "Affairs",
+                         title: "Fair's Extramarital Affairs Data",
+                         rows: 601,
+                         cols: 9,
+                         n_binary: 2,
+                         n_character: 0,
+                         n_factor: 2,
+                         n_logical: 0,
+                         n_numeric: 7,
+                         csv: "https://vincentarelbundock.github.io/Rdatasets/csv/AER/Affairs.csv",
+                         doc: "https://vincentarelbundock.github.io/Rdatasets/doc/AER/Affairs.html"
+                       },
+                       {
+                         package: "vcd",
+                         dataset: "WomenQueue",
+                         title: "Women in Queues",
+                         rows: 11,
+                         cols: 2,
+                         n_binary: 0,
+                         n_character: 0,
+                         n_factor: 1,
+                         n_logical: 0,
+                         n_numeric: 1,
+                         csv: "https://vincentarelbundock.github.io/Rdatasets/csv/vcd/WomenQueue.csv",
+                         doc: "https://vincentarelbundock.github.io/Rdatasets/doc/vcd/WomenQueue.html"
+                       },
+                     ],
+                     [
+                       records.size,
+                       records[0].to_h,
+                       records[-1].to_h
+                     ])
+      end
+    end
+  end
+  sub_test_case("Rdatasets") do
+    sub_test_case("datasets") do
+      sub_test_case("AirPassengers") do
+        def setup
+          @dataset = Datasets::Rdatasets.new("datasets", "AirPassengers")
+        end
+        test("#each") do
+          records = @dataset.each.to_a
+          assert_equal([
+                         144,
+                         { time: 1949,             value: 112 },
+                         { time: 1960.91666666667, value: 432 },
+                       ],
+                       [
+                         records.size,
+                         records[0],
+                         records[-1]
+                       ])
+        end
+        test("#metadata.id") do
+          assert_equal("rdatasets-datasets-AirPassengers", @dataset.metadata.id)
+        end
+        test("#metadata.description") do
+          description = @dataset.metadata.description
+          assert do
+            description.include?("Monthly Airline Passenger Numbers 1949-1960")
+          end
+        end
+      end
+      test("invalid dataset name") do
+        assert_raise(ArgumentError) do
+          Datasets::Rdatasets.new("datasets", "invalid datasets name")
+        end
+      end
+    end
+    test("invalid package name") do
+      assert_raise(ArgumentError) do
+        Datasets::Rdatasets.new("invalid package name", "AirPassengers")
+      end
+    end
+  end
+end

data/test/test-table.rb CHANGED Viewed

@@ -3,9 +3,129 @@ class TableTest < Test::Unit::TestCase
     @table = Datasets::Iris.new.to_table
   end
-  test("#[]") do
-    assert_equal([1.4, 1.4, 1.3, 1.5, 1.4],
-                 @table[:petal_length].first(5))
+  test("#n_columns") do
+    assert_equal(5, @table.n_columns)
+  end
+  test("#n_rows") do
+    assert_equal(150, @table.n_rows)
+  end
+  test("#column_names") do
+    assert_equal([
+                   :sepal_length,
+                   :sepal_width,
+                   :petal_length,
+                   :petal_width,
+                   :label,
+                 ],
+                 @table.column_names)
+  end
+  test("#each") do
+    shorten_hash = {}
+    @table.each do |name, values|
+      shorten_hash[name] = values.first(5)
+    end
+    assert_equal({
+                   :label        => ["Iris-setosa"] * 5,
+                   :petal_length => [1.4, 1.4, 1.3, 1.5, 1.4],
+                   :petal_width  => [0.2, 0.2, 0.2, 0.2, 0.2],
+                   :sepal_length => [5.1, 4.9, 4.7, 4.6, 5.0],
+                   :sepal_width  => [3.5, 3.0, 3.2, 3.1, 3.6],
+                 },
+                 shorten_hash)
+  end
+  test("#each_column") do
+    shorten_hash = {}
+    @table.each_column do |name, values|
+      shorten_hash[name] = values.first(5)
+    end
+    assert_equal({
+                   :label        => ["Iris-setosa"] * 5,
+                   :petal_length => [1.4, 1.4, 1.3, 1.5, 1.4],
+                   :petal_width  => [0.2, 0.2, 0.2, 0.2, 0.2],
+                   :sepal_length => [5.1, 4.9, 4.7, 4.6, 5.0],
+                   :sepal_width  => [3.5, 3.0, 3.2, 3.1, 3.6],
+                 },
+                 shorten_hash)
+  end
+  test("#each_record") do
+    records = []
+    @table.each_record do |record|
+      records << record
+      break if records.size == 3
+    end
+    assert_equal([
+                   {
+                     label: "Iris-setosa",
+                     petal_length: 1.4,
+                     petal_width: 0.2,
+                     sepal_length: 5.1,
+                     sepal_width: 3.5,
+                   },
+                   {
+                     label: "Iris-setosa",
+                     petal_length: 1.4,
+                     petal_width: 0.2,
+                     sepal_length: 4.9,
+                     sepal_width: 3.0,
+                   },
+                   {
+                     label: "Iris-setosa",
+                     petal_length: 1.3,
+                     petal_width: 0.2,
+                     sepal_length: 4.7,
+                     sepal_width: 3.2,
+                   },
+                 ],
+                 records.collect(&:to_h))
+  end
+  sub_test_case("#find_record") do
+    test("positive") do
+      assert_equal({
+                     label: "Iris-setosa",
+                     petal_length: 1.4,
+                     petal_width: 0.2,
+                     sepal_length: 4.9,
+                     sepal_width: 3.0,
+                   },
+                   @table.find_record(1).to_h)
+    end
+    test("positive - over") do
+      assert_nil(@table.find_record(151))
+    end
+    test("negative") do
+      assert_equal({
+                     label: "Iris-virginica",
+                     petal_length: 5.1,
+                     petal_width: 1.8,
+                     sepal_length: 5.9,
+                     sepal_width: 3.0,
+                   },
+                   @table.find_record(-1).to_h)
+    end
+    test("negative - over") do
+      assert_nil(@table.find_record(-151))
+    end
+  end
+  sub_test_case("#[]") do
+    test("index") do
+      assert_equal([1.4, 1.4, 1.3, 1.5, 1.4],
+                   @table[2].first(5))
+    end
+    test("name") do
+      assert_equal([1.4, 1.4, 1.3, 1.5, 1.4],
+                   @table[:petal_length].first(5))
+    end
   end
   test("#dictionary_encode") do
@@ -58,21 +178,6 @@ class TableTest < Test::Unit::TestCase
     end
   end
-  test("#each") do
-    shorten_hash = {}
-    @table.each do |name, values|
-      shorten_hash[name] = values.first(5)
-    end
-    assert_equal({
-                   :label        => ["Iris-setosa"] * 5,
-                   :petal_length => [1.4, 1.4, 1.3, 1.5, 1.4],
-                   :petal_width  => [0.2, 0.2, 0.2, 0.2, 0.2],
-                   :sepal_length => [5.1, 4.9, 4.7, 4.6, 5.0],
-                   :sepal_width  => [3.5, 3.0, 3.2, 3.1, 3.6],
-                 },
-                 shorten_hash)
-  end
   test("#to_h") do
     shorten_hash = {}
     @table.to_h.each do |name, values|

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: red-datasets
 version: !ruby/object:Gem::Version
-  version: 0.0.7
+  version: 0.1.2
 platform: ruby
 authors:
 - tomisuker
@@ -9,8 +9,50 @@ authors:
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2018-11-20 00:00:00.000000000 Z
+date: 2021-06-03 00:00:00.000000000 Z
 dependencies:
+- !ruby/object:Gem::Dependency
+  name: csv
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 3.0.5
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 3.0.5
+- !ruby/object:Gem::Dependency
+  name: rexml
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: rubyzip
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
 - !ruby/object:Gem::Dependency
   name: bundler
   requirement: !ruby/object:Gem::Requirement
@@ -84,7 +126,7 @@ dependencies:
 description: 'You can use datasets easily because you can access each dataset with
   multiple ways such as `#each` and Apache Arrow Record Batch.
-'
+  '
 email:
 - tomisuker16@gmail.com
 - kou@clear-code.com
@@ -101,15 +143,27 @@ files:
 - lib/datasets.rb
 - lib/datasets/adult.rb
 - lib/datasets/cifar.rb
+- lib/datasets/cldr-plurals.rb
+- lib/datasets/communities.rb
 - lib/datasets/dataset.rb
 - lib/datasets/dictionary.rb
 - lib/datasets/downloader.rb
+- lib/datasets/e-stat-japan.rb
+- lib/datasets/error.rb
 - lib/datasets/fashion-mnist.rb
+- lib/datasets/hepatitis.rb
 - lib/datasets/iris.rb
+- lib/datasets/libsvm-dataset-list.rb
+- lib/datasets/libsvm.rb
 - lib/datasets/metadata.rb
 - lib/datasets/mnist.rb
+- lib/datasets/mushroom.rb
+- lib/datasets/penguins.rb
 - lib/datasets/penn-treebank.rb
+- lib/datasets/postal-code-japan.rb
+- lib/datasets/rdatasets.rb
 - lib/datasets/table.rb
+- lib/datasets/tar_gz_readable.rb
 - lib/datasets/version.rb
 - lib/datasets/wikipedia.rb
 - lib/datasets/wine.rb
@@ -118,11 +172,23 @@ files:
 - test/run-test.rb
 - test/test-adult.rb
 - test/test-cifar.rb
+- test/test-cldr-plurals.rb
+- test/test-communities.rb
+- test/test-dataset.rb
 - test/test-dictionary.rb
+- test/test-downloader.rb
+- test/test-e-stat-japan.rb
 - test/test-fashion-mnist.rb
+- test/test-hepatitis.rb
 - test/test-iris.rb
+- test/test-libsvm-dataset-list.rb
+- test/test-libsvm.rb
 - test/test-mnist.rb
+- test/test-mushroom.rb
+- test/test-penguins.rb
 - test/test-penn-treebank.rb
+- test/test-postal-code-japan.rb
+- test/test-rdatasets.rb
 - test/test-table.rb
 - test/test-wikipedia.rb
 - test/test-wine.rb
@@ -145,21 +211,32 @@ required_rubygems_version: !ruby/object:Gem::Requirement
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubyforge_project:
-rubygems_version: 3.0.0.beta2
+rubygems_version: 3.3.0.dev
 signing_key:
 specification_version: 4
 summary: Red Datasets provides classes that provide common datasets such as iris dataset.
 test_files:
-- test/test-wine.rb
+- test/helper.rb
 - test/run-test.rb
+- test/test-adult.rb
 - test/test-cifar.rb
+- test/test-cldr-plurals.rb
+- test/test-communities.rb
+- test/test-dataset.rb
+- test/test-dictionary.rb
+- test/test-downloader.rb
+- test/test-e-stat-japan.rb
 - test/test-fashion-mnist.rb
-- test/test-wikipedia.rb
+- test/test-hepatitis.rb
 - test/test-iris.rb
-- test/helper.rb
+- test/test-libsvm-dataset-list.rb
+- test/test-libsvm.rb
 - test/test-mnist.rb
-- test/test-table.rb
-- test/test-adult.rb
+- test/test-mushroom.rb
+- test/test-penguins.rb
 - test/test-penn-treebank.rb
-- test/test-dictionary.rb
+- test/test-postal-code-japan.rb
+- test/test-rdatasets.rb
+- test/test-table.rb
+- test/test-wikipedia.rb
+- test/test-wine.rb