RubyGems - rover-df - Versions diffs - 0.1.0 → 0.2.3 - Mend

rover-df 0.1.0 → 0.2.3

Files changed (10) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 4588d0b3b5633a3821a4c07e7102e5933edca92179836db041f2400d8be88538
-  data.tar.gz: 9b01cd2bae5fb6ba9f426fe0d347752cd30c63619b00284fb68e8f711ec38ddf
+  metadata.gz: b8ac8c0dda5ee8ea5482b5d52927446e52a60151c05959324970b6b420c6b825
+  data.tar.gz: cbabf42c40195303fa62a85b40c3d516dff7cb56a4059c2ab6867921fae62bb9
 SHA512:
-  metadata.gz: b2d35866786a7fbe17b274585419c752b08c817b2db1bf939a6c3f92a7ae2cd282d725614f96db730fd2590cbb8c24710d0fb1f713255d2c348c0fed0b874a35
-  data.tar.gz: 4bf0ba38ce2c3ef4765d702591948af18fddf142efb7e559e26cc4ab504538775a1771c839f1570230f7d101fa20bfbbeb5044f6bf567637790575ee9b95be87
+  metadata.gz: 2b906f49a0accbbf4682216808faf3113c3f31c24e9e434a03f996d8e8e9b4db1c8ca0ccfb3f604e798261f97d88b26a5376bace349f230b5eda5949b492fb88
+  data.tar.gz: 8f3d590c6df3d588f92c6c84b327211a3dce6b27452b4a1161492ca90dc87cfd6aad02a3c7ef038a9c6cb69155558f2a332acbfd65a9bb4ba1d220333b051872

data/CHANGELOG.md CHANGED Viewed

@@ -1,3 +1,35 @@
+## 0.2.3 (2021-02-08)
+- Added `select`, `reject`, and `map!` methods to vectors
+## 0.2.2 (2021-01-01)
+- Added line, pie, area, and bar charts
+- Added `|` and `^` for vectors
+- Fixed typecasting with `map`
+## 0.2.1 (2020-11-23)
+- Added `plot` method to data frames
+- Improved error message when too few headers
+## 0.2.0 (2020-08-17)
+- Added `numeric?` and `zip` methods to vectors
+- Changed group calculations to return a data frame instead of a hash
+- Changed `each_row` to return enumerator
+- Improved inspect
+- Fixed `any?`, `all?`, and `uniq` for boolean vectors
+## 0.1.1 (2020-06-10)
+- Added methods and options for types
+- Added grouping
+- Added one-hot encoding
+- Added `sample` to data frames
+- Added `tally`, `var`, `std`, `take`, `count`, and `length` to vectors
+- Improved error message for `read_csv` with no headers
 ## 0.1.0 (2020-05-13)
 - First release

data/LICENSE.txt CHANGED Viewed

@@ -1,4 +1,4 @@
-Copyright (c) 2020 Andrew Kane
+Copyright (c) 2020-2021 Andrew Kane
 MIT License

data/README.md CHANGED Viewed

@@ -2,7 +2,11 @@
 Simple, powerful data frames for Ruby
-:mountain: Designed for data exploration and machine learning, and powered by [Numo](https://github.com/ruby-numo/numo-narray) for blazing performance
+:mountain: Designed for data exploration and machine learning, and powered by [Numo](https://github.com/ruby-numo/numo-narray)
+:evergreen_tree: Uses [Vega](https://github.com/ankane/vega) for visualization
+[![Build Status](https://github.com/ankane/rover/workflows/build/badge.svg?branch=master)](https://github.com/ankane/rover/actions)
 ## Installation
@@ -16,12 +20,22 @@ gem 'rover-df'
 A data frame is an in-memory table. It’s a useful data structure for data analysis and machine learning. It uses columnar storage for fast operations on columns.
+Try it out for forecasting by clicking the button below:
+[![Binder](https://mybinder.org/badge_logo.svg)](https://mybinder.org/v2/gh/ankane/ml-stack/master?filepath=Forecasting.ipynb)
+Use the `Run` button (or `SHIFT` + `ENTER`) to run each line.
 ## Creating Data Frames
 From an array
 ```ruby
-Rover::DataFrame.new([{a: 1, b: "one"}, {a: 2, b: "two"}, {a: 3, b: "three"}])
+Rover::DataFrame.new([
+  {a: 1, b: "one"},
+  {a: 2, b: "two"},
+  {a: 3, b: "three"}
+])
 ```
 From a hash
@@ -33,7 +47,7 @@ Rover::DataFrame.new({
 })
 ```
-From an Active Record relation
+From Active Record
 ```ruby
 Rover::DataFrame.new(User.all)
@@ -75,6 +89,8 @@ Select a column
 df[:a]
 ```
+> Note that strings and symbols are different keys, just like hashes
 Select multiple columns
 ```ruby
@@ -112,25 +128,34 @@ df[[1, 4, 5]]
 Filter on a condition
 ```ruby
+df[df[:a] == 100]
+df[df[:a] != 100]
 df[df[:a] > 100]
+df[df[:a] >= 100]
+df[df[:a] < 100]
+df[df[:a] <= 100]
 ```
-And
+In
 ```ruby
-df[df[:a] > 100 & df[:b] == "one"]
+df[df[:a].in?([1, 2, 3])]
+df[df[:a].in?(1..3)]
+df[df[:a].in?(["a", "b", "c"])]
 ```
-Or
+Not in
 ```ruby
-df[df[:a] > 100 | df[:b] == "one"]
+df[!df[:a].in?([1, 2, 3])]
 ```
-Not
+And, or, and exclusive or
 ```ruby
-df[df[:a] != 100]
+df[(df[:a] > 100) & (df[:b] == "one")] # and
+df[(df[:a] > 100) | (df[:b] == "one")] # or
+df[(df[:a] > 100) ^ (df[:b] == "one")] # xor
 ```
 ## Operations
@@ -158,13 +183,59 @@ df[:a].min
 df[:a].max
 ```
+Count occurrences
+```ruby
+df[:a].tally
+```
 Cross tabulation
 ```ruby
 df[:a].crosstab(df[:b])
 ```
-## Updates
+## Grouping
+Group
+```ruby
+df.group(:a).count
+```
+Works with all summary statistics
+```ruby
+df.group(:a).max(:b)
+```
+Multiple groups
+```ruby
+df.group([:a, :b]).count
+```
+## Visualization
+Add [Vega](https://github.com/ankane/vega) to your application’s Gemfile:
+```ruby
+gem 'vega'
+```
+And use:
+```ruby
+df.plot(:a, :b)
+```
+Specify the chart type (`line`, `pie`, `column`, `bar`, `area`, or `scatter`)
+```ruby
+df.plot(:a, :b, type: "pie")
+```
+## Updating Data
 Add a new column
@@ -214,7 +285,7 @@ Rename a column
 df[:new_a] = df.delete(:a)
 ```
-Sort data
+Sort rows
 ```ruby
 df.sort_by! { |r| r[:a] }
@@ -258,6 +329,20 @@ Left join
 df.left_join(other_df)
 ```
+## Encoding
+One-hot encoding
+```ruby
+df.one_hot
+```
+Drop a variable in each category to avoid the dummy variable trap
+```ruby
+df.one_hot(drop: true)
+```
 ## Conversion
 Array of hashes
@@ -284,6 +369,46 @@ CSV
 df.to_csv
 ```
+## Types
+You can specify column types when creating a data frame
+```ruby
+Rover::DataFrame.new(data, types: {"a" => :int, "b" => :float})
+```
+Or
+```ruby
+Rover.read_csv("data.csv", types: {"a" => :int, "b" => :float})
+```
+Supported types are:
+- boolean - `bool`
+- float - `float`, `float32`
+- integer - `int`, `int32`, `int16`, `int8`
+- unsigned integer - `uint`, `uint32`, `uint16`, `uint8`
+- object - `object`
+Get column types
+```ruby
+df.types
+```
+For a specific column
+```ruby
+df[:a].type
+```
+Change the type of a column
+```ruby
+df[:a] = df[:a].to(:int)
+```
 ## History
 View the [changelog](https://github.com/ankane/rover/blob/master/CHANGELOG.md)

data/lib/rover.rb CHANGED Viewed

@@ -3,30 +3,42 @@ require "numo/narray"
 # modules
 require "rover/data_frame"
+require "rover/group"
 require "rover/vector"
 require "rover/version"
 module Rover
   class << self
-    def read_csv(path, **options)
+    def read_csv(path, types: nil, **options)
       require "csv"
-      csv_to_df(CSV.read(path, headers: true, converters: :numeric, **options))
+      csv_to_df(CSV.read(path, **csv_options(options)), types: types, headers: options[:headers])
     end
-    def parse_csv(str, **options)
+    def parse_csv(str, types: nil, **options)
       require "csv"
-      csv_to_df(CSV.parse(str, headers: true, converters: :numeric, **options))
+      csv_to_df(CSV.parse(str, **csv_options(options)), types: types, headers: options[:headers])
     end
     private
-    def csv_to_df(table)
+    # TODO use date converter
+    def csv_options(options)
+      options = {headers: true, converters: :numeric}.merge(options)
+      raise ArgumentError, "Must specify headers" unless options[:headers]
+      options
+    end
+    def csv_to_df(table, types: nil, headers: nil)
+      if headers && headers.size < table.headers.size
+        raise ArgumentError, "Expected #{table.headers.size} headers, got #{headers.size}"
+      end
       table.by_col!
       data = {}
       table.each do |k, v|
         data[k] = v
       end
-      DataFrame.new(data)
+      DataFrame.new(data, types: types)
     end
   end
 end

data/lib/rover/data_frame.rb CHANGED Viewed

@@ -1,7 +1,10 @@
 module Rover
   class DataFrame
-    def initialize(data = {})
+    def initialize(*args)
+      data, options = process_args(args)
       @vectors = {}
+      types = options[:types] || {}
       if data.is_a?(DataFrame)
         data.vectors.each do |k, v|
@@ -11,7 +14,7 @@ module Rover
         data.to_h.each do |k, v|
           @vectors[k] =
             if v.respond_to?(:to_a)
-              Vector.new(v)
+              Vector.new(v, type: types[k])
             else
               v
             end
@@ -20,7 +23,7 @@ module Rover
         # handle scalars
         size = @vectors.values.find { |v| v.is_a?(Vector) }&.size || 1
         @vectors.each_key do |k|
-          @vectors[k] = to_vector(@vectors[k], size)
+          @vectors[k] = to_vector(@vectors[k], size: size, type: types[k])
         end
       elsif data.is_a?(Array)
         vectors = {}
@@ -35,12 +38,12 @@ module Rover
           end
         end
         vectors.each do |k, v|
-          @vectors[k] = to_vector(v)
+          @vectors[k] = to_vector(v, type: types[k])
         end
       elsif defined?(ActiveRecord) && (data.is_a?(ActiveRecord::Relation) || (data.is_a?(Class) && data < ActiveRecord::Base))
         result = data.connection.select_all(data.all.to_sql)
         result.columns.each_with_index do |k, i|
-          @vectors[k] = to_vector(result.rows.map { |r| r[i] })
+          @vectors[k] = to_vector(result.rows.map { |r| r[i] }, type: types[k])
         end
       else
         raise ArgumentError, "Cannot cast to data frame: #{data.class.name}"
@@ -69,6 +72,7 @@ module Rover
         # multiple columns
         df = DataFrame.new
         where.each do |k|
+          check_column(k, true)
           df[k] = @vectors[k]
         end
         df
@@ -78,8 +82,9 @@ module Rover
       end
     end
-    # return each row as a hash
     def each_row
+      return enum_for(:each_row) unless block_given?
       size.times do |i|
         yield @vectors.map { |k, v| [k, v[i]] }.to_h
       end
@@ -90,9 +95,13 @@ module Rover
       @vectors.dup
     end
+    def types
+      @vectors.map { |k, v| [k, v.type] }.to_h
+    end
     def []=(k, v)
       check_key(k)
-      v = to_vector(v, size)
+      v = to_vector(v, size: size)
       raise ArgumentError, "Size mismatch: expected #{size}, got #{v.size}" if @vectors.any? && v.size != size
       @vectors[k] = v
     end
@@ -170,6 +179,12 @@ module Rover
       DataFrame.new(new_vectors)
     end
+    def sample(*args, **kwargs)
+      # TODO make more efficient
+      indexes = (0...size).to_a.sample(*args, **kwargs)
+      self[indexes]
+    end
     def to_a
       a = []
       each_row do |row|
@@ -190,6 +205,25 @@ module Rover
       Numo::NArray.column_stack(vectors.values.map(&:to_numo))
     end
+    # TODO raise error when collision
+    def one_hot(drop: false)
+      df = DataFrame.new
+      vectors.each do |k, v|
+        if v.to_numo.is_a?(Numo::RObject)
+          df.merge!(v.one_hot(drop: drop, prefix: "#{k}_"))
+        else
+          df[k] = v
+        end
+      end
+      df
+    rescue ArgumentError => e
+      if e.message == "All elements must be strings"
+        # better error message
+        raise ArgumentError, "All elements must be numeric or strings"
+      end
+      raise e
+    end
     def to_csv
       require "csv"
       CSV.generate do |csv|
@@ -204,7 +238,12 @@ module Rover
     # for IRuby
     def to_html
       require "iruby"
-      IRuby::HTML.table(to_h)
+      if size > 7
+        # pass 8 rows so maxrows is applied
+        IRuby::HTML.table((self[0..4] + self[-4..-1]).to_h, maxrows: 7)
+      else
+        IRuby::HTML.table(to_h)
+      end
     end
     # TODO handle long text better
@@ -215,18 +254,19 @@ module Rover
       line_start = 0
       spaces = 2
+      summarize = size >= 30
       @vectors.each do |k, v|
-        v = v.first(5).to_a
+        v = summarize ? v.first(5).to_a + ["..."] + v.last(5).to_a : v.to_a
         width = ([k] + v).map(&:to_s).map(&:size).max
         width = 3 if width < 3
         if lines.empty? || lines[-2].map { |l| l.size + spaces }.sum + width > 120
           line_start = lines.size
           lines << []
-          [size, 5].min.times do |i|
+          v.size.times do |i|
             lines << []
           end
-          lines << [] if size > 5
           lines << []
         end
@@ -234,7 +274,6 @@ module Rover
         v.each_with_index do |v2, i|
           lines[line_start + 1 + i] << "%#{width}s" % v2.to_s
         end
-        lines[line_start + 6] << "%#{width}s" % "..." if size > 5
       end
       lines.pop
@@ -258,6 +297,17 @@ module Rover
       dup.sort_by!(&block)
     end
+    def group(*columns)
+      Group.new(self, columns.flatten)
+    end
+    [:max, :min, :median, :mean, :percentile, :sum].each do |name|
+      define_method(name) do |column, *args|
+        check_column(column)
+        self[column].send(name, *args)
+      end
+    end
     def dup
       df = DataFrame.new
       @vectors.each do |k, v|
@@ -313,6 +363,88 @@ module Rover
       keys.all? { |k| self[k] == other[k] }
     end
+    def plot(x = nil, y = nil, type: nil)
+      require "vega"
+      raise ArgumentError, "Must specify columns" if keys.size != 2 && (!x || !y)
+      x ||= keys[0]
+      y ||= keys[1]
+      type ||= begin
+        if self[x].numeric? && self[y].numeric?
+          "scatter"
+        elsif types[x] == :object && self[y].numeric?
+          "column"
+        else
+          raise "Cannot determine type. Use the type option."
+        end
+      end
+      data = self[[x, y]]
+      case type
+      when "line", "area"
+        x_type =
+          if data[x].numeric?
+            "quantitative"
+          elsif data[x].all? { |v| v.is_a?(Date) || v.is_a?(Time) }
+            "temporal"
+          else
+            "nominal"
+          end
+        scale = x_type == "temporal" ? {type: "utc"} : {}
+        Vega.lite
+          .data(data)
+          .mark(type: type, tooltip: true, interpolate: "cardinal", point: {size: 60})
+          .encoding(
+            x: {field: x, type: x_type, scale: scale},
+            y: {field: y, type: "quantitative"}
+          )
+          .config(axis: {labelFontSize: 12})
+      when "pie"
+        Vega.lite
+          .data(data)
+          .mark(type: "arc", tooltip: true)
+          .encoding(
+            color: {field: x, type: "nominal", sort: "none", axis: {title: nil}, legend: {labelFontSize: 12}},
+            theta: {field: y, type: "quantitative"}
+          )
+          .view(stroke: nil)
+      when "column"
+        Vega.lite
+          .data(data)
+          .mark(type: "bar", tooltip: true)
+          .encoding(
+            # TODO determine label angle
+            x: {field: x, type: "nominal", sort: "none", axis: {labelAngle: 0}},
+            y: {field: y, type: "quantitative"}
+          )
+          .config(axis: {labelFontSize: 12})
+      when "bar"
+        Vega.lite
+          .data(data)
+          .mark(type: "bar", tooltip: true)
+          .encoding(
+            # TODO determine label angle
+            y: {field: x, type: "nominal", sort: "none", axis: {labelAngle: 0}},
+            x: {field: y, type: "quantitative"}
+          )
+          .config(axis: {labelFontSize: 12})
+      when "scatter"
+        Vega.lite
+          .data(data)
+          .mark(type: "circle", tooltip: true)
+          .encoding(
+            x: {field: x, type: "quantitative", scale: {zero: false}},
+            y: {field: y, type: "quantitative", scale: {zero: false}},
+            size: {value: 60}
+          )
+          .config(axis: {labelFontSize: 12})
+      else
+        raise ArgumentError, "Invalid type: #{type}"
+      end
+    end
     private
     def check_key(key)
@@ -375,8 +507,27 @@ module Rover
       raise ArgumentError, "Missing keys: #{missing_keys.join(", ")}" if missing_keys.any?
     end
-    def to_vector(v, size = nil)
-      return v if v.is_a?(Vector)
+    # TODO in 0.3.0
+    # always use did_you_mean
+    def check_column(key, did_you_mean = false)
+      unless include?(key)
+        if did_you_mean
+          if RUBY_VERSION.to_f >= 2.6
+            raise KeyError.new("Missing column: #{key}", receiver: self, key: key)
+          else
+            raise KeyError.new("Missing column: #{key}")
+          end
+        else
+          raise ArgumentError, "Missing column: #{key}"
+        end
+      end
+    end
+    def to_vector(v, size: nil, type: nil)
+      if v.is_a?(Vector)
+        v = v.to(type) if type && v.type != type
+        return v
+      end
       if size && !v.respond_to?(:to_a)
         v =
@@ -392,7 +543,31 @@ module Rover
           end
       end
-      Vector.new(v)
+      Vector.new(v, type: type)
+    end
+    # can't use data = {} and keyword arguments
+    # as this causes an unknown keyword error when data is passed as
+    # DataFrame.new({a: ..., b: ...})
+    #
+    # at the moment, there doesn't appear to be a way to distinguish between
+    # DataFrame.new({types: ...}) which should set data, and
+    # DataFrame.new(types: ...) which should set options
+    # https://bugs.ruby-lang.org/issues/16891
+    #
+    # there aren't currently options that should be used without data
+    # if this is ever the case, we should still require data
+    # to prevent new options from breaking existing code
+    def process_args(args)
+      data = args[0] || {}
+      options = args.size > 1 && args.last.is_a?(Hash) ? args.pop : {}
+      raise ArgumentError, "wrong number of arguments (given #{args.size}, expected 0..1)" if args.size > 1
+      known_keywords = [:types]
+      unknown_keywords = options.keys - known_keywords
+      raise ArgumentError, "unknown keywords: #{unknown_keywords.join(", ")}" if unknown_keywords.any?
+      [data, options]
     end
   end
 end

data/lib/rover/group.rb ADDED Viewed

@@ -0,0 +1,50 @@
+module Rover
+  class Group
+    def initialize(df, columns)
+      @df = df
+      @columns = columns
+    end
+    def group(*columns)
+      Group.new(@df, @columns + columns.flatten)
+    end
+    [:count, :max, :min, :mean, :median, :percentile, :sum].each do |name|
+      define_method(name) do |*args|
+        n = [name, args.first].compact.join("_")
+        rows = []
+        grouped_dfs.each do |k, df|
+          rows << k.merge(n => df.send(name, *args))
+        end
+        DataFrame.new(rows)
+      end
+    end
+    private
+    # TODO make more efficient
+    def grouped_dfs
+      # cache here so we can reuse for multiple calcuations if needed
+      @grouped_dfs ||= begin
+        raise ArgumentError, "No columns given" if @columns.empty?
+        missing_keys = @columns - @df.keys
+        raise ArgumentError, "Missing keys: #{missing_keys.join(", ")}" if missing_keys.any?
+        groups = Hash.new { |hash, key| hash[key] = [] }
+        i = 0
+        @df.each_row do |row|
+          groups[row.slice(*@columns)] << i
+          i += 1
+        end
+        result = {}
+        groups.keys.each do |k|
+          result[k] = @df[groups[k]]
+        end
+        result
+      end
+    end
+  end
+end

data/lib/rover/vector.rb CHANGED Viewed

@@ -1,27 +1,39 @@
 module Rover
   class Vector
-    def initialize(data)
-      @data =
-        if data.is_a?(Vector)
-          data.to_numo
-        elsif data.is_a?(Numo::NArray)
-          data
-        else
-          data = data.to_a
-          if data.all? { |v| v.is_a?(Integer) }
-            Numo::Int64.cast(data)
-          elsif data.all? { |v| v.is_a?(Numeric) || v.nil? }
-            Numo::DFloat.cast(data.map { |v| v || Float::NAN })
-          elsif data.all? { |v| v == true || v == false }
-            Numo::Bit.cast(data)
-          else
-            Numo::RObject.cast(data)
-          end
-        end
+    # if a user never specifies types,
+    # the defaults are bool, float, int, and object
+    # keep these simple
+    #
+    # we could create aliases for float64, int64, uint64
+    # if so, type should still return the simple type
+    TYPE_CAST_MAPPING = {
+      bool: Numo::Bit,
+      float32: Numo::SFloat,
+      float: Numo::DFloat,
+      int8: Numo::Int8,
+      int16: Numo::Int16,
+      int32: Numo::Int32,
+      int: Numo::Int64,
+      object: Numo::RObject,
+      uint8: Numo::UInt8,
+      uint16: Numo::UInt16,
+      uint32: Numo::UInt32,
+      uint: Numo::UInt64
+    }
+    def initialize(data, type: nil)
+      @data = cast_data(data, type: type)
       raise ArgumentError, "Bad size: #{@data.shape}" unless @data.ndim == 1
     end
+    def type
+      TYPE_CAST_MAPPING.find { |_, v| @data.is_a?(v) }[0]
+    end
+    def to(type)
+      Vector.new(self, type: type)
+    end
     def to_numo
       @data
     end
@@ -32,12 +44,18 @@ module Rover
       a
     end
+    def numeric?
+      ![:object, :bool].include?(type)
+    end
     def size
       @data.size
     end
+    alias_method :length, :size
+    alias_method :count, :size
     def uniq
-      Vector.new(@data.to_a.uniq)
+      Vector.new(to_a.uniq)
     end
     def missing
@@ -73,11 +91,11 @@ module Rover
       @data[k] = v
     end
-    %w(+ - * / % ** &).each do |op|
+    %w(+ - * / % ** & | ^).each do |op|
       define_method(op) do |other|
         other = other.to_numo if other.is_a?(Vector)
         # TODO better logic
-        if @data.is_a?(Numo::RObject)
+        if @data.is_a?(Numo::RObject) && !other.is_a?(Numo::RObject)
           map { |v| v.send(op, other) }
         else
           Vector.new(@data.send(op, other))
@@ -143,9 +161,31 @@ module Rover
     end
     def map(&block)
-      mapped = @data.map(&block)
-      mapped = mapped.to_a if mapped.is_a?(Numo::RObject) # re-evaluate cast
-      Vector.new(mapped)
+      # convert to Ruby first to cast properly
+      # https://github.com/ruby-numo/numo-narray/issues/181
+      Vector.new(@data.to_a.map(&block))
+    end
+    def map!(&block)
+      @data = cast_data(@data.to_a.map(&block))
+      self
+    end
+    def select(&block)
+      Vector.new(@data.to_a.select(&block))
+    end
+    def reject(&block)
+      Vector.new(@data.to_a.reject(&block))
+    end
+    def tally
+      result = Hash.new(0)
+      @data.each do |v|
+        result[v] += 1
+      end
+      result.default = nil
+      result
     end
     def sort
@@ -157,7 +197,11 @@ module Rover
     end
     def each(&block)
-      to_a.each(&block)
+      @data.each(&block)
+    end
+    def each_with_index(&block)
+      @data.each_with_index(&block)
     end
     def max
@@ -176,7 +220,7 @@ module Rover
     def median
       # need to cast to get correct result
-      # TODO file bug with Numo
+      # https://github.com/ruby-numo/numo-narray/issues/165
       @data.cast_to(Numo::DFloat).median
     end
@@ -188,12 +232,26 @@ module Rover
       @data.sum
     end
+    # uses Bessel's correction for now since that's all Numo supports
+    def std
+      @data.cast_to(Numo::DFloat).stddev
+    end
+    # uses Bessel's correction for now since that's all Numo supports
+    def var
+      @data.cast_to(Numo::DFloat).var
+    end
     def all?(&block)
-      @data.to_a.all?(&block)
+      to_a.all?(&block)
     end
     def any?(&block)
-      @data.to_a.any?(&block)
+      to_a.any?(&block)
+    end
+    def zip(other, &block)
+      to_a.zip(other.to_a, &block)
     end
     def first(n = 1)
@@ -208,6 +266,11 @@ module Rover
       Vector.new(@data[-n..-1])
     end
+    def take(n)
+      raise ArgumentError, "attempt to take negative size" if n < 0
+      first(n)
+    end
     def crosstab(other)
       index = uniq.sort
       index_pos = index.to_a.map.with_index.to_h
@@ -231,6 +294,20 @@ module Rover
       last(n)
     end
+    def one_hot(drop: false, prefix: nil)
+      raise ArgumentError, "All elements must be strings" unless all? { |vi| vi.is_a?(String) }
+      new_vectors = {}
+      # maybe sort values first
+      values = uniq.to_a
+      values.shift if drop
+      values.each do |v2|
+        # TODO use types
+        new_vectors["#{prefix}#{v2}"] = (self == v2).to_numo.cast_to(Numo::Int64)
+      end
+      DataFrame.new(new_vectors)
+    end
     # TODO add type and size?
     def inspect
       elements = first(5).to_a.map(&:inspect)
@@ -242,7 +319,64 @@ module Rover
     # for IRuby
     def to_html
       require "iruby"
-      IRuby::HTML.table(to_a)
+      if size > 7
+        # pass 8 rows so maxrows is applied
+        IRuby::HTML.table(first(4).to_a + last(4).to_a, maxrows: 7)
+      else
+        IRuby::HTML.table(to_a)
+      end
+    end
+    private
+    def cast_data(data, type: nil)
+      numo_type = numo_type(type) if type
+      data = data.to_numo if data.is_a?(Vector)
+      if data.is_a?(Numo::NArray)
+        raise ArgumentError, "Complex types not supported yet" if data.is_a?(Numo::DComplex) || data.is_a?(Numo::SComplex)
+        if type
+          case type
+          when /int/
+            # Numo does not check these when casting
+            raise RangeError, "float NaN out of range of integer" if data.respond_to?(:isnan) && data.isnan.any?
+            raise RangeError, "float Inf out of range of integer" if data.respond_to?(:isinf) && data.isinf.any?
+            data = data.to_a.map { |v| v.nil? ? nil : v.to_i } if data.is_a?(Numo::RObject)
+          when /float/
+            data = data.to_a.map { |v| v.nil? ? Float::NAN : v.to_f } if data.is_a?(Numo::RObject)
+          end
+          data = numo_type.cast(data)
+        end
+      else
+        data = data.to_a
+        if type
+          data = numo_type.cast(data)
+        else
+          data =
+            if data.all? { |v| v.is_a?(Integer) }
+              Numo::Int64.cast(data)
+            elsif data.all? { |v| v.is_a?(Numeric) || v.nil? }
+              Numo::DFloat.cast(data.map { |v| v || Float::NAN })
+            elsif data.all? { |v| v == true || v == false }
+              Numo::Bit.cast(data)
+            else
+              Numo::RObject.cast(data)
+            end
+        end
+      end
+      data
+    end
+    def numo_type(type)
+      numo_type = TYPE_CAST_MAPPING[type]
+      raise ArgumentError, "Invalid type: #{type}" unless numo_type
+      numo_type
     end
   end
 end

data/lib/rover/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module Rover
-  VERSION = "0.1.0"
+  VERSION = "0.2.3"
 end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: rover-df
 version: !ruby/object:Gem::Version
-  version: 0.1.0
+  version: 0.2.3
 platform: ruby
 authors:
 - Andrew Kane
-autorequire:
+autorequire:
 bindir: bin
 cert_chain: []
-date: 2020-05-14 00:00:00.000000000 Z
+date: 2021-02-08 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: numo-narray
@@ -16,100 +16,16 @@ dependencies:
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
-        version: 0.9.1.7
+        version: 0.9.1.9
   type: :runtime
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
-        version: 0.9.1.7
-- !ruby/object:Gem::Dependency
-  name: bundler
-  requirement: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: '0'
-  type: :development
-  prerelease: false
-  version_requirements: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: '0'
-- !ruby/object:Gem::Dependency
-  name: rake
-  requirement: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: '0'
-  type: :development
-  prerelease: false
-  version_requirements: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: '0'
-- !ruby/object:Gem::Dependency
-  name: minitest
-  requirement: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: '5'
-  type: :development
-  prerelease: false
-  version_requirements: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: '5'
-- !ruby/object:Gem::Dependency
-  name: activerecord
-  requirement: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: '5'
-  type: :development
-  prerelease: false
-  version_requirements: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: '5'
-- !ruby/object:Gem::Dependency
-  name: sqlite3
-  requirement: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: '0'
-  type: :development
-  prerelease: false
-  version_requirements: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: '0'
-- !ruby/object:Gem::Dependency
-  name: iruby
-  requirement: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: '0'
-  type: :development
-  prerelease: false
-  version_requirements: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: '0'
-description:
-email: andrew@chartkick.com
+        version: 0.9.1.9
+description:
+email: andrew@ankane.org
 executables: []
 extensions: []
 extra_rdoc_files: []
@@ -120,13 +36,14 @@ files:
 - lib/rover-df.rb
 - lib/rover.rb
 - lib/rover/data_frame.rb
+- lib/rover/group.rb
 - lib/rover/vector.rb
 - lib/rover/version.rb
 homepage: https://github.com/ankane/rover
 licenses:
 - MIT
 metadata: {}
-post_install_message:
+post_install_message:
 rdoc_options: []
 require_paths:
 - lib
@@ -141,8 +58,8 @@ required_rubygems_version: !ruby/object:Gem::Requirement
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubygems_version: 3.1.2
-signing_key:
+rubygems_version: 3.2.3
+signing_key:
 specification_version: 4
 summary: Simple, powerful data frames for Ruby
 test_files: []