RubyGems - red-datasets - Versions diffs - 0.1.4 → 0.1.5 - Mend

red-datasets 0.1.4 → 0.1.5

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (69) hide show

checksums.yaml +4 -4
data/README.md +23 -2
data/doc/text/news.md +86 -0
data/lib/datasets/adult.rb +6 -9
data/lib/datasets/afinn.rb +48 -0
data/lib/datasets/aozora-bunko.rb +196 -0
data/lib/datasets/cache-path.rb +28 -0
data/lib/datasets/california-housing.rb +60 -0
data/lib/datasets/cifar.rb +2 -4
data/lib/datasets/cldr-plurals.rb +2 -4
data/lib/datasets/communities.rb +5 -8
data/lib/datasets/dataset.rb +8 -12
data/lib/datasets/diamonds.rb +26 -0
data/lib/datasets/downloader.rb +6 -1
data/lib/datasets/e-stat-japan.rb +2 -1
data/lib/datasets/fashion-mnist.rb +4 -0
data/lib/datasets/fuel-economy.rb +35 -0
data/lib/datasets/geolonia.rb +67 -0
data/lib/datasets/ggplot2-dataset.rb +79 -0
data/lib/datasets/hepatitis.rb +5 -8
data/lib/datasets/iris.rb +5 -8
data/lib/datasets/ita-corpus.rb +57 -0
data/lib/datasets/kuzushiji-mnist.rb +16 -0
data/lib/datasets/libsvm-dataset-list.rb +5 -8
data/lib/datasets/libsvm.rb +3 -4
data/lib/datasets/license.rb +26 -0
data/lib/datasets/livedoor-news.rb +80 -0
data/lib/datasets/metadata.rb +14 -0
data/lib/datasets/mnist.rb +7 -7
data/lib/datasets/mushroom.rb +5 -8
data/lib/datasets/penguins.rb +4 -8
data/lib/datasets/penn-treebank.rb +2 -4
data/lib/datasets/pmjt-dataset-list.rb +67 -0
data/lib/datasets/postal-code-japan.rb +2 -6
data/lib/datasets/quora-duplicate-question-pair.rb +51 -0
data/lib/datasets/{rdatasets.rb → rdataset.rb} +66 -15
data/lib/datasets/seaborn.rb +90 -0
data/lib/datasets/sudachi-synonym-dictionary.rb +5 -11
data/lib/datasets/version.rb +1 -1
data/lib/datasets/wikipedia-kyoto-japanese-english.rb +219 -0
data/lib/datasets/wikipedia.rb +4 -5
data/lib/datasets/wine.rb +6 -9
data/lib/datasets/zip-extractor.rb +36 -0
data/lib/datasets.rb +14 -2
data/red-datasets.gemspec +1 -1
data/test/helper.rb +21 -0
data/test/test-afinn.rb +60 -0
data/test/test-aozora-bunko.rb +190 -0
data/test/test-california-housing.rb +56 -0
data/test/test-cldr-plurals.rb +1 -1
data/test/test-dataset.rb +15 -7
data/test/test-diamonds.rb +71 -0
data/test/test-fuel-economy.rb +75 -0
data/test/test-geolonia.rb +64 -0
data/test/test-ita-corpus.rb +69 -0
data/test/test-kuzushiji-mnist.rb +137 -0
data/test/test-license.rb +24 -0
data/test/test-livedoor-news.rb +351 -0
data/test/test-metadata.rb +36 -0
data/test/test-penguins.rb +1 -1
data/test/test-pmjt-dataset-list.rb +50 -0
data/test/test-quora-duplicate-question-pair.rb +33 -0
data/test/test-rdataset.rb +246 -0
data/test/{test-seaborn-data.rb → test-seaborn.rb} +70 -4
data/test/test-sudachi-synonym-dictionary.rb +5 -5
data/test/test-wikipedia-kyoto-japanese-english.rb +178 -0
metadata +58 -14
data/lib/datasets/seaborn-data.rb +0 -49
data/test/test-rdatasets.rb +0 -136

metadata CHANGED Viewed

@@ -1,15 +1,15 @@
 --- !ruby/object:Gem::Specification
 name: red-datasets
 version: !ruby/object:Gem::Version
-  version: 0.1.4
+  version: 0.1.5
 platform: ruby
 authors:
 - tomisuker
 - Kouhei Sutou
-autorequire:
+autorequire:
 bindir: bin
 cert_chain: []
-date: 2021-07-13 00:00:00.000000000 Z
+date: 2022-09-23 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: csv
@@ -17,14 +17,14 @@ dependencies:
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
-        version: 3.0.5
+        version: 3.2.4
   type: :runtime
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
-        version: 3.0.5
+        version: 3.2.4
 - !ruby/object:Gem::Dependency
   name: rexml
   requirement: !ruby/object:Gem::Requirement
@@ -142,65 +142,95 @@ files:
 - doc/text/news.md
 - lib/datasets.rb
 - lib/datasets/adult.rb
+- lib/datasets/afinn.rb
+- lib/datasets/aozora-bunko.rb
+- lib/datasets/cache-path.rb
+- lib/datasets/california-housing.rb
 - lib/datasets/cifar.rb
 - lib/datasets/cldr-plurals.rb
 - lib/datasets/communities.rb
 - lib/datasets/dataset.rb
+- lib/datasets/diamonds.rb
 - lib/datasets/dictionary.rb
 - lib/datasets/downloader.rb
 - lib/datasets/e-stat-japan.rb
 - lib/datasets/error.rb
 - lib/datasets/fashion-mnist.rb
+- lib/datasets/fuel-economy.rb
+- lib/datasets/geolonia.rb
+- lib/datasets/ggplot2-dataset.rb
 - lib/datasets/hepatitis.rb
 - lib/datasets/iris.rb
+- lib/datasets/ita-corpus.rb
+- lib/datasets/kuzushiji-mnist.rb
 - lib/datasets/libsvm-dataset-list.rb
 - lib/datasets/libsvm.rb
+- lib/datasets/license.rb
+- lib/datasets/livedoor-news.rb
 - lib/datasets/metadata.rb
 - lib/datasets/mnist.rb
 - lib/datasets/mushroom.rb
 - lib/datasets/penguins.rb
 - lib/datasets/penn-treebank.rb
+- lib/datasets/pmjt-dataset-list.rb
 - lib/datasets/postal-code-japan.rb
-- lib/datasets/rdatasets.rb
-- lib/datasets/seaborn-data.rb
+- lib/datasets/quora-duplicate-question-pair.rb
+- lib/datasets/rdataset.rb
+- lib/datasets/seaborn.rb
 - lib/datasets/sudachi-synonym-dictionary.rb
 - lib/datasets/table.rb
 - lib/datasets/tar-gz-readable.rb
 - lib/datasets/version.rb
+- lib/datasets/wikipedia-kyoto-japanese-english.rb
 - lib/datasets/wikipedia.rb
 - lib/datasets/wine.rb
+- lib/datasets/zip-extractor.rb
 - red-datasets.gemspec
 - test/helper.rb
 - test/run-test.rb
 - test/test-adult.rb
+- test/test-afinn.rb
+- test/test-aozora-bunko.rb
+- test/test-california-housing.rb
 - test/test-cifar.rb
 - test/test-cldr-plurals.rb
 - test/test-communities.rb
 - test/test-dataset.rb
+- test/test-diamonds.rb
 - test/test-dictionary.rb
 - test/test-downloader.rb
 - test/test-e-stat-japan.rb
 - test/test-fashion-mnist.rb
+- test/test-fuel-economy.rb
+- test/test-geolonia.rb
 - test/test-hepatitis.rb
 - test/test-iris.rb
+- test/test-ita-corpus.rb
+- test/test-kuzushiji-mnist.rb
 - test/test-libsvm-dataset-list.rb
 - test/test-libsvm.rb
+- test/test-license.rb
+- test/test-livedoor-news.rb
+- test/test-metadata.rb
 - test/test-mnist.rb
 - test/test-mushroom.rb
 - test/test-penguins.rb
 - test/test-penn-treebank.rb
+- test/test-pmjt-dataset-list.rb
 - test/test-postal-code-japan.rb
-- test/test-rdatasets.rb
-- test/test-seaborn-data.rb
+- test/test-quora-duplicate-question-pair.rb
+- test/test-rdataset.rb
+- test/test-seaborn.rb
 - test/test-sudachi-synonym-dictionary.rb
 - test/test-table.rb
+- test/test-wikipedia-kyoto-japanese-english.rb
 - test/test-wikipedia.rb
 - test/test-wine.rb
 homepage: https://github.com/red-data-tools/red-datasets
 licenses:
 - MIT
 metadata: {}
-post_install_message:
+post_install_message:
 rdoc_options: []
 require_paths:
 - lib
@@ -215,34 +245,48 @@ required_rubygems_version: !ruby/object:Gem::Requirement
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubygems_version: 3.3.0.dev
-signing_key:
+rubygems_version: 3.2.32
+signing_key:
 specification_version: 4
 summary: Red Datasets provides classes that provide common datasets such as iris dataset.
 test_files:
 - test/helper.rb
 - test/run-test.rb
 - test/test-adult.rb
+- test/test-afinn.rb
+- test/test-aozora-bunko.rb
+- test/test-california-housing.rb
 - test/test-cifar.rb
 - test/test-cldr-plurals.rb
 - test/test-communities.rb
 - test/test-dataset.rb
+- test/test-diamonds.rb
 - test/test-dictionary.rb
 - test/test-downloader.rb
 - test/test-e-stat-japan.rb
 - test/test-fashion-mnist.rb
+- test/test-fuel-economy.rb
+- test/test-geolonia.rb
 - test/test-hepatitis.rb
 - test/test-iris.rb
+- test/test-ita-corpus.rb
+- test/test-kuzushiji-mnist.rb
 - test/test-libsvm-dataset-list.rb
 - test/test-libsvm.rb
+- test/test-license.rb
+- test/test-livedoor-news.rb
+- test/test-metadata.rb
 - test/test-mnist.rb
 - test/test-mushroom.rb
 - test/test-penguins.rb
 - test/test-penn-treebank.rb
+- test/test-pmjt-dataset-list.rb
 - test/test-postal-code-japan.rb
-- test/test-rdatasets.rb
-- test/test-seaborn-data.rb
+- test/test-quora-duplicate-question-pair.rb
+- test/test-rdataset.rb
+- test/test-seaborn.rb
 - test/test-sudachi-synonym-dictionary.rb
 - test/test-table.rb
+- test/test-wikipedia-kyoto-japanese-english.rb
 - test/test-wikipedia.rb
 - test/test-wine.rb

data/lib/datasets/seaborn-data.rb DELETED Viewed

@@ -1,49 +0,0 @@
-module Datasets
-  class SeabornData < Dataset
-    URL_FORMAT = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/%{name}.csv".freeze
-    def initialize(name)
-      super()
-      @metadata.id = "seaborn-data-#{name}"
-      @metadata.name = "SeabornData: #{name}"
-      @metadata.url = URL_FORMAT % {name: name}
-      @data_path = cache_dir_path + (name + ".csv")
-      @name = name
-    end
-    def each(&block)
-      return to_enum(__method__) unless block_given?
-      download(@data_path, @metadata.url) unless @data_path.exist?
-      CSV.open(@data_path, headers: :first_row, converters: :all) do |csv|
-        csv.each do |row|
-          record = prepare_record(row)
-          yield record
-        end
-      end
-    end
-    private
-    def prepare_record(csv_row)
-      record = csv_row.to_h
-      record.transform_keys!(&:to_sym)
-      # Perform the same preprocessing as seaborn's load_dataset function
-      preprocessor = :"preprocess_#{@name}_record"
-      __send__(preprocessor, record) if respond_to?(preprocessor, true)
-      record
-    end
-    # The same preprocessing as seaborn.load_dataset
-    def preprocess_flights_record(record)
-      record[:month] &&= record[:month][0,3]
-    end
-    # The same preprocessing as seaborn.load_dataset
-    def preprocess_penguins_record(record)
-      record[:sex] &&= record[:sex].capitalize
-    end
-  end
-end

data/test/test-rdatasets.rb DELETED Viewed

@@ -1,136 +0,0 @@
-class RdatasetsTest < Test::Unit::TestCase
-  sub_test_case("RdatasetsList") do
-    def setup
-      @dataset = Datasets::RdatasetsList.new
-    end
-    sub_test_case("#each") do
-      test("with package_name") do
-        records = @dataset.filter(package: "datasets").to_a
-        assert_equal([
-                       84,
-                       {
-                         package: "datasets",
-                         dataset: "ability.cov",
-                         title: "Ability and Intelligence Tests",
-                         rows: 6,
-                         cols: 8,
-                         n_binary: 0,
-                         n_character: 0,
-                         n_factor: 0,
-                         n_logical: 0,
-                         n_numeric: 8,
-                         csv: "https://vincentarelbundock.github.io/Rdatasets/csv/datasets/ability.cov.csv",
-                         doc: "https://vincentarelbundock.github.io/Rdatasets/doc/datasets/ability.cov.html"
-                       },
-                       {
-                         package: "datasets",
-                         dataset: "WWWusage",
-                         title: "Internet Usage per Minute",
-                         rows: 100,
-                         cols: 2,
-                         n_binary: 0,
-                         n_character: 0,
-                         n_factor: 0,
-                         n_logical: 0,
-                         n_numeric: 2,
-                         csv: "https://vincentarelbundock.github.io/Rdatasets/csv/datasets/WWWusage.csv",
-                         doc: "https://vincentarelbundock.github.io/Rdatasets/doc/datasets/WWWusage.html"
-                       }
-                     ],
-                     [
-                       records.size,
-                       records[0].to_h,
-                       records[-1].to_h
-                     ])
-      end
-      test("without package_name") do
-        records = @dataset.each.to_a
-        assert_equal([
-                       1714,
-                       {
-                         package: "AER",
-                         dataset: "Affairs",
-                         title: "Fair's Extramarital Affairs Data",
-                         rows: 601,
-                         cols: 9,
-                         n_binary: 2,
-                         n_character: 0,
-                         n_factor: 2,
-                         n_logical: 0,
-                         n_numeric: 7,
-                         csv: "https://vincentarelbundock.github.io/Rdatasets/csv/AER/Affairs.csv",
-                         doc: "https://vincentarelbundock.github.io/Rdatasets/doc/AER/Affairs.html"
-                       },
-                       {
-                         package: "vcd",
-                         dataset: "WomenQueue",
-                         title: "Women in Queues",
-                         rows: 11,
-                         cols: 2,
-                         n_binary: 0,
-                         n_character: 0,
-                         n_factor: 1,
-                         n_logical: 0,
-                         n_numeric: 1,
-                         csv: "https://vincentarelbundock.github.io/Rdatasets/csv/vcd/WomenQueue.csv",
-                         doc: "https://vincentarelbundock.github.io/Rdatasets/doc/vcd/WomenQueue.html"
-                       },
-                     ],
-                     [
-                       records.size,
-                       records[0].to_h,
-                       records[-1].to_h
-                     ])
-      end
-    end
-  end
-  sub_test_case("Rdatasets") do
-    sub_test_case("datasets") do
-      sub_test_case("AirPassengers") do
-        def setup
-          @dataset = Datasets::Rdatasets.new("datasets", "AirPassengers")
-        end
-        test("#each") do
-          records = @dataset.each.to_a
-          assert_equal([
-                         144,
-                         { time: 1949,             value: 112 },
-                         { time: 1960.91666666667, value: 432 },
-                       ],
-                       [
-                         records.size,
-                         records[0],
-                         records[-1]
-                       ])
-        end
-        test("#metadata.id") do
-          assert_equal("rdatasets-datasets-AirPassengers", @dataset.metadata.id)
-        end
-        test("#metadata.description") do
-          description = @dataset.metadata.description
-          assert do
-            description.include?("Monthly Airline Passenger Numbers 1949-1960")
-          end
-        end
-      end
-      test("invalid dataset name") do
-        assert_raise(ArgumentError) do
-          Datasets::Rdatasets.new("datasets", "invalid datasets name")
-        end
-      end
-    end
-    test("invalid package name") do
-      assert_raise(ArgumentError) do
-        Datasets::Rdatasets.new("invalid package name", "AirPassengers")
-      end
-    end
-  end
-end