RubyGems - rover-df - Versions diffs - 0.2.2 → 0.2.6 - Mend

rover-df 0.2.2 → 0.2.6

Files changed (9) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 0452f4e042fe699042ceebd158a63957b2c2aad0c6fb5652b5e1bb0c49b39f5f
-  data.tar.gz: 81eca93e309798632b1192b12d50a44828a07c82b84b1f58da9406968761960f
+  metadata.gz: 01e2a90ba133ae07ad6ad482bdca985df806d6a073fa2d93029b2b7e1b55dc49
+  data.tar.gz: 96f4171420dea68b38cffdd5a365657bc464f6d1f0c4f6bf1aefb20377c56179
 SHA512:
-  metadata.gz: feb735bbf9fd17006b2a66416527cd280241082db0bb61b3c1a16317833baa96392b0d5fe70f15ceb8878247747ee966da5fdea607600620e6aa806103c5547c
-  data.tar.gz: f56e61bb2869beddf953eaf64e3759ab3987b6c53f918d6c52be6d8efcb22a16a9aba8bff727ab6d477e1981cabe76be70ce5e875a5de2db5298dd2f6654163c
+  metadata.gz: 2451d6844c7ece459e61c8e1499047f8efd6472a0d57317b7e2e1110527d843e8177c16ccbb1aeb0fd61e647fdd4291ebf73d4bfe008560eff7b963b1ac22ee6
+  data.tar.gz: 18ad0cfb8fc22aeb63d2e1b11333b1a5989c7bcc0f2b5fbebedb11acf3d3dc26e7235109e1501d0e4b9a06b5aa7e47b71bdb23de6d6fcd87c9fb53d2bf0be330

data/CHANGELOG.md CHANGED Viewed

@@ -1,3 +1,23 @@
+## 0.2.6 (2021-10-27)
+- Added support for `nil` headers to `read_csv` and `parse_csv`
+- Added `read_parquet`, `parse_parquet`, and `to_parquet` methods
+## 0.2.5 (2021-09-25)
+- Fixed column types with joins
+## 0.2.4 (2021-06-03)
+- Added grouping for `std` and `var`
+- Fixed `==` for data frames
+- Fixed error with `first` and `last` for data frames
+- Fixed error with `last` when vector size is smaller than `n`
+## 0.2.3 (2021-02-08)
+- Added `select`, `reject`, and `map!` methods to vectors
 ## 0.2.2 (2021-01-01)
 - Added line, pie, area, and bar charts

data/README.md CHANGED Viewed

@@ -20,7 +20,7 @@ gem 'rover-df'
 A data frame is an in-memory table. It’s a useful data structure for data analysis and machine learning. It uses columnar storage for fast operations on columns.
-Try it out for forecasting by clicking the button below:
+Try it out for forecasting by clicking the button below (it can take a few minutes to start):
 [![Binder](https://mybinder.org/badge_logo.svg)](https://mybinder.org/v2/gh/ankane/ml-stack/master?filepath=Forecasting.ipynb)
@@ -61,6 +61,14 @@ Rover.read_csv("file.csv")
 Rover.parse_csv("CSV,data,string")
 ```
+From Parquet (requires the [red-parquet](https://github.com/apache/arrow/tree/master/ruby/red-parquet) gem) [unreleased]
+```ruby
+Rover.read_parquet("file.parquet")
+# or
+Rover.parse_parquet("PAR1...")
+```
 ## Attributes
 Get number of rows
@@ -89,7 +97,7 @@ Select a column
 df[:a]
 ```
-> Note that strings and symbols are different keys, just like hashes
+> Note that strings and symbols are different keys, just like hashes. Creating a data frame from Active Record, a CSV, or Parquet uses strings.
 Select multiple columns
@@ -123,6 +131,20 @@ df[1..3]
 df[[1, 4, 5]]
 ```
+Iterate over rows
+```ruby
+df.each_row { |row| ... }
+```
+Iterate over a column
+```ruby
+df[:a].each { |item| ... }
+# or
+df[:a].each_with_index { |item, index| ... }
+```
 ## Filtering
 Filter on a condition
@@ -181,6 +203,8 @@ df[:a].median
 df[:a].percentile(90)
 df[:a].min
 df[:a].max
+df[:a].std
+df[:a].var
 ```
 Count occurrences
@@ -259,6 +283,14 @@ df[:a][0..2] = 1
 df[:a][0..2] = [1, 2, 3]
 ```
+Update all elements
+```ruby
+df[:a] = df[:a].map { |v| v.gsub("a", "b") }
+# or
+df[:a].map! { |v| v.gsub("a", "b") }
+```
 Update elements matching a condition
 ```ruby
@@ -369,6 +401,12 @@ CSV
 df.to_csv
 ```
+Parquet (requires the [red-parquet](https://github.com/apache/arrow/tree/master/ruby/red-parquet) gem) [unreleased]
+```ruby
+df.to_parquet
+```
 ## Types
 You can specify column types when creating a data frame

data/lib/rover/data_frame.rb CHANGED Viewed

@@ -163,7 +163,7 @@ module Rover
       last(n)
     end
-    def first(n = nil)
+    def first(n = 1)
       new_vectors = {}
       @vectors.each do |k, v|
         new_vectors[k] = v.first(n)
@@ -171,7 +171,7 @@ module Rover
       DataFrame.new(new_vectors)
     end
-    def last(n = nil)
+    def last(n = 1)
       new_vectors = {}
       @vectors.each do |k, v|
         new_vectors[k] = v.last(n)
@@ -235,6 +235,42 @@ module Rover
       end
     end
+    def to_parquet
+      require "parquet"
+      schema = {}
+      types.each do |name, type|
+        schema[name] =
+          case type
+          when :int
+            :int64
+          when :uint
+            :uint64
+          when :float
+            :double
+          when :float32
+            :float
+          when :object
+            if @vectors[name].all? { |v| v.is_a?(String) }
+              :string
+            else
+              raise "Unknown type"
+            end
+          else
+            type
+          end
+      end
+      # TODO improve performance
+      raw_records = []
+      size.times do |i|
+        raw_records << @vectors.map { |_, v| v[i] }
+      end
+      table = Arrow::Table.new(schema, raw_records)
+      buffer = Arrow::ResizableBuffer.new(1024)
+      table.save(buffer, format: :parquet)
+      buffer.data.to_s
+    end
     # for IRuby
     def to_html
       require "iruby"
@@ -301,7 +337,7 @@ module Rover
       Group.new(self, columns.flatten)
     end
-    [:max, :min, :median, :mean, :percentile, :sum].each do |name|
+    [:max, :min, :median, :mean, :percentile, :sum, :std, :var].each do |name|
       define_method(name) do |column, *args|
         check_column(column)
         self[column].send(name, *args)
@@ -360,7 +396,7 @@ module Rover
     def ==(other)
       size == other.size &&
       keys == other.keys &&
-      keys.all? { |k| self[k] == other[k] }
+      keys.all? { |k| self[k].to_numo == other[k].to_numo }
     end
     def plot(x = nil, y = nil, type: nil)
@@ -475,10 +511,12 @@ module Rover
       left = how == "left"
+      types = {}
       vectors = {}
       keys = (self.keys + other.keys).uniq
       keys.each do |k|
         vectors[k] = []
+        types[k] = join_type(self.types[k], other.types[k])
       end
       each_row do |r|
@@ -498,7 +536,7 @@ module Rover
         end
       end
-      DataFrame.new(vectors)
+      DataFrame.new(vectors, types: types)
     end
     def check_join_keys(df, keys)
@@ -523,6 +561,19 @@ module Rover
       end
     end
+    def join_type(a, b)
+      if a.nil?
+        b
+      elsif b.nil?
+        a
+      elsif a == b
+        a
+      else
+        # TODO specify
+        nil
+      end
+    end
     def to_vector(v, size: nil, type: nil)
       if v.is_a?(Vector)
         v = v.to(type) if type && v.type != type

data/lib/rover/group.rb CHANGED Viewed

@@ -9,7 +9,7 @@ module Rover
       Group.new(@df, @columns + columns.flatten)
     end
-    [:count, :max, :min, :mean, :median, :percentile, :sum].each do |name|
+    [:count, :max, :min, :mean, :median, :percentile, :sum, :std, :var].each do |name|
       define_method(name) do |*args|
         n = [name, args.first].compact.join("_")

data/lib/rover/vector.rb CHANGED Viewed

@@ -166,6 +166,19 @@ module Rover
       Vector.new(@data.to_a.map(&block))
     end
+    def map!(&block)
+      @data = cast_data(@data.to_a.map(&block))
+      self
+    end
+    def select(&block)
+      Vector.new(@data.to_a.select(&block))
+    end
+    def reject(&block)
+      Vector.new(@data.to_a.reject(&block))
+    end
     def tally
       result = Hash.new(0)
       @data.each do |v|
@@ -250,7 +263,11 @@ module Rover
     end
     def last(n = 1)
-      Vector.new(@data[-n..-1])
+      if n >= size
+        Vector.new(@data)
+      else
+        Vector.new(@data[-n..-1])
+      end
     end
     def take(n)
@@ -306,7 +323,12 @@ module Rover
     # for IRuby
     def to_html
       require "iruby"
-      IRuby::HTML.table(to_a)
+      if size > 7
+        # pass 8 rows so maxrows is applied
+        IRuby::HTML.table(first(4).to_a + last(4).to_a, maxrows: 7)
+      else
+        IRuby::HTML.table(to_a)
+      end
     end
     private

data/lib/rover/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module Rover
-  VERSION = "0.2.2"
+  VERSION = "0.2.6"
 end

data/lib/rover.rb CHANGED Viewed

@@ -19,6 +19,16 @@ module Rover
       csv_to_df(CSV.parse(str, **csv_options(options)), types: types, headers: options[:headers])
     end
+    def read_parquet(path)
+      require "parquet"
+      parquet_to_df(Arrow::Table.load(path))
+    end
+    def parse_parquet(str)
+      require "parquet"
+      parquet_to_df(Arrow::Table.load(Arrow::Buffer.new(str), format: :parquet))
+    end
     private
     # TODO use date converter
@@ -35,10 +45,49 @@ module Rover
       table.by_col!
       data = {}
+      keys = table.map { |k, _| [k, true] }.to_h
+      unnamed_suffix = 1
       table.each do |k, v|
+        # TODO do same for empty string in 0.3.0
+        if k.nil?
+          k = "unnamed"
+          while keys.include?(k)
+            unnamed_suffix += 1
+            k = "unnamed#{unnamed_suffix}"
+          end
+          keys[k] = true
+        end
         data[k] = v
       end
       DataFrame.new(data, types: types)
     end
+    PARQUET_TYPE_MAPPING = {
+      "float" => Numo::SFloat,
+      "double" => Numo::DFloat,
+      "int8" => Numo::Int8,
+      "int16" => Numo::Int16,
+      "int32" => Numo::Int32,
+      "int64" => Numo::Int64,
+      "string" => Numo::RObject,
+      "uint8" => Numo::UInt8,
+      "uint16" => Numo::UInt16,
+      "uint32" => Numo::UInt32,
+      "uint64" => Numo::UInt64
+    }
+    def parquet_to_df(table)
+      data = {}
+      table.each_column do |column|
+        k = column.field.name
+        type = column.field.data_type.to_s
+        numo_type = PARQUET_TYPE_MAPPING[type]
+        raise "Unknown type: #{type}" unless numo_type
+        # TODO improve performance
+        data[k] = numo_type.cast(column.data.values)
+      end
+      DataFrame.new(data)
+    end
   end
 end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: rover-df
 version: !ruby/object:Gem::Version
-  version: 0.2.2
+  version: 0.2.6
 platform: ruby
 authors:
 - Andrew Kane
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2021-01-02 00:00:00.000000000 Z
+date: 2021-10-27 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: numo-narray
@@ -25,7 +25,7 @@ dependencies:
       - !ruby/object:Gem::Version
         version: 0.9.1.9
 description:
-email: andrew@chartkick.com
+email: andrew@ankane.org
 executables: []
 extensions: []
 extra_rdoc_files: []
@@ -58,7 +58,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubygems_version: 3.2.3
+rubygems_version: 3.2.22
 signing_key:
 specification_version: 4
 summary: Simple, powerful data frames for Ruby