RubyGems - rover-df - Versions diffs - 0.2.7 → 0.2.8 - Mend

rover-df 0.2.7 → 0.2.8

Files changed (8) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: c75bed3989211e806e54c296290e5f7b3af236a15742daac876e211e3ca5a76f
-  data.tar.gz: 5865ff8f1d0036423f18cfee867da63214ee50f79d373b0f0f244853d8efbefa
+  metadata.gz: 65d2fda186484e920421543e2f0203635054ccb8a23250bd3fc6a9d8c328725f
+  data.tar.gz: e4cd1e6d69e1e4f340f6692111476a5be9405f348841cfba6f6c431f04d85347
 SHA512:
-  metadata.gz: 11718bc8ade75a605e92cabe05c29e55c6d4dfe427cd5ada0a8a216db678b32a88f4a43843d1e7dcda7b7a64adb63b76969f1d958e91ca57c4f71989632e14aa
-  data.tar.gz: 16940236090625bef69cb14d6d9f9f50720314edea1b5892f60443799e5389700ddfb0d79a29ee1e193168097add9d7195799e7f049d85f9c9dc9c443843a678
+  metadata.gz: c720f3bc45178f938c20546ac1b7279ae047affafce5e06cff4f703e1d8ff7a99c1bca94a3f40cb7d26945d770bf136a2adc3477cf6ffc3cdaad9a15aa6090a1
+  data.tar.gz: c44135cc0e70b08b72e1084565ef3479bcb92000bf34662b76a25933e68ad33a584afae071ddebfd5724ad61fe7e7dbc283241d7194c532dd70f36b1358b266d

data/CHANGELOG.md CHANGED Viewed

@@ -1,3 +1,8 @@
+## 0.2.8 (2022-03-15)
+- Added `group` and `stacked` options to `plot`
+- Improved performance of `read_csv` and `parse_csv`
 ## 0.2.7 (2022-01-16)
 - Added support for booleans to Parquet methods

data/README.md CHANGED Viewed

@@ -13,7 +13,7 @@ Simple, powerful data frames for Ruby
 Add this line to your application’s Gemfile:
 ```ruby
-gem 'rover-df'
+gem "rover-df"
 ```
 ## Intro
@@ -236,7 +236,7 @@ df.group(:a).max(:b)
 Multiple groups
 ```ruby
-df.group([:a, :b]).count
+df.group(:a, :b).count
 ```
 ## Visualization
@@ -244,7 +244,7 @@ df.group([:a, :b]).count
 Add [Vega](https://github.com/ankane/vega) to your application’s Gemfile:
 ```ruby
-gem 'vega'
+gem "vega"
 ```
 And use:
@@ -259,6 +259,18 @@ Specify the chart type (`line`, `pie`, `column`, `bar`, `area`, or `scatter`)
 df.plot(:a, :b, type: "pie")
 ```
+Group data
+```ruby
+df.plot(:a, :b, group: :c)
+```
+Stacked columns or bars
+```ruby
+df.plot(:a, :b, group: :c, stacked: true)
+```
 ## Updating Data
 Add a new column

data/lib/rover/data_frame.rb CHANGED Viewed

@@ -401,7 +401,7 @@ module Rover
       keys.all? { |k| self[k].to_numo == other[k].to_numo }
     end
-    def plot(x = nil, y = nil, type: nil)
+    def plot(x = nil, y = nil, type: nil, group: nil, stacked: nil)
       require "vega"
       raise ArgumentError, "Must specify columns" if keys.size != 2 && (!x || !y)
@@ -416,7 +416,7 @@ module Rover
           raise "Cannot determine type. Use the type option."
         end
       end
-      data = self[[x, y]]
+      data = self[group.nil? ? [x, y] : [x, y, group]]
       case type
       when "line", "area"
@@ -430,16 +430,20 @@ module Rover
           end
         scale = x_type == "temporal" ? {type: "utc"} : {}
+        encoding = {
+          x: {field: x, type: x_type, scale: scale},
+          y: {field: y, type: "quantitative"}
+        }
+        encoding[:color] = {field: group} if group
         Vega.lite
           .data(data)
           .mark(type: type, tooltip: true, interpolate: "cardinal", point: {size: 60})
-          .encoding(
-            x: {field: x, type: x_type, scale: scale},
-            y: {field: y, type: "quantitative"}
-          )
+          .encoding(encoding)
           .config(axis: {labelFontSize: 12})
       when "pie"
+        raise ArgumentError, "Cannot use group option with pie chart" unless group.nil?
         Vega.lite
           .data(data)
           .mark(type: "arc", tooltip: true)
@@ -449,34 +453,48 @@ module Rover
           )
           .view(stroke: nil)
       when "column"
+        encoding = {
+          x: {field: x, type: "nominal", sort: "none", axis: {labelAngle: 0}},
+          y: {field: y, type: "quantitative"}
+        }
+        if group
+          encoding[:color] = {field: group}
+          encoding[:xOffset] = {field: group} unless stacked
+        end
         Vega.lite
           .data(data)
           .mark(type: "bar", tooltip: true)
-          .encoding(
-            # TODO determine label angle
-            x: {field: x, type: "nominal", sort: "none", axis: {labelAngle: 0}},
-            y: {field: y, type: "quantitative"}
-          )
+          .encoding(encoding)
           .config(axis: {labelFontSize: 12})
       when "bar"
+        encoding = {
+          # TODO determine label angle
+          y: {field: x, type: "nominal", sort: "none", axis: {labelAngle: 0}},
+          x: {field: y, type: "quantitative"}
+        }
+        if group
+          encoding[:color] = {field: group}
+          encoding[:yOffset] = {field: group} unless stacked
+        end
         Vega.lite
           .data(data)
           .mark(type: "bar", tooltip: true)
-          .encoding(
-            # TODO determine label angle
-            y: {field: x, type: "nominal", sort: "none", axis: {labelAngle: 0}},
-            x: {field: y, type: "quantitative"}
-          )
+          .encoding(encoding)
           .config(axis: {labelFontSize: 12})
       when "scatter"
+        encoding = {
+          x: {field: x, type: "quantitative", scale: {zero: false}},
+          y: {field: y, type: "quantitative", scale: {zero: false}},
+          size: {value: 60}
+        }
+        encoding[:color] = {field: group} if group
         Vega.lite
           .data(data)
           .mark(type: "circle", tooltip: true)
-          .encoding(
-            x: {field: x, type: "quantitative", scale: {zero: false}},
-            y: {field: y, type: "quantitative", scale: {zero: false}},
-            size: {value: 60}
-          )
+          .encoding(encoding)
           .config(axis: {labelFontSize: 12})
       else
         raise ArgumentError, "Invalid type: #{type}"

data/lib/rover/group.rb CHANGED Viewed

@@ -1,10 +1,12 @@
 module Rover
   class Group
+    # TODO raise ArgumentError for empty columns in 0.3.0
     def initialize(df, columns)
       @df = df
       @columns = columns
     end
+    # TODO raise ArgumentError for empty columns in 0.3.0
     def group(*columns)
       Group.new(@df, @columns + columns.flatten)
     end
@@ -22,6 +24,14 @@ module Rover
       end
     end
+    def plot(*args, **options)
+      raise ArgumentError, "Multiple groups not supported" if @columns.size > 1
+      # same message as Ruby
+      raise ArgumentError, "unknown keyword: :group" if options.key?(:group)
+      @df.plot(*args, **options, group: @columns.first)
+    end
     private
     # TODO make more efficient

data/lib/rover/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module Rover
-  VERSION = "0.2.7"
+  VERSION = "0.2.8"
 end

data/lib/rover.rb CHANGED Viewed

@@ -9,45 +9,57 @@ require "rover/version"
 module Rover
   class << self
-    def read_csv(path, types: nil, **options)
-      require "csv"
-      csv_to_df(CSV.read(path, **csv_options(options)), types: types, headers: options[:headers])
+    def read_csv(path, **options)
+      csv_to_df(**options) do |csv_options|
+        CSV.read(path, **csv_options)
+      end
     end
-    def parse_csv(str, types: nil, **options)
-      require "csv"
-      csv_to_df(CSV.parse(str, **csv_options(options)), types: types, headers: options[:headers])
+    def parse_csv(str, **options)
+      csv_to_df(**options) do |csv_options|
+        CSV.parse(str, **csv_options)
+      end
     end
-    def read_parquet(path, types: nil)
-      require "parquet"
-      parquet_to_df(Arrow::Table.load(path), types: types)
+    def read_parquet(path, **options)
+      parquet_to_df(**options) do
+        Arrow::Table.load(path)
+      end
     end
-    def parse_parquet(str, types: nil)
-      require "parquet"
-      parquet_to_df(Arrow::Table.load(Arrow::Buffer.new(str), format: :parquet), types: types)
+    def parse_parquet(str, **options)
+      parquet_to_df(**options) do
+        Arrow::Table.load(Arrow::Buffer.new(str), format: :parquet)
+      end
     end
     private
-    # TODO use date converter
-    def csv_options(options)
-      options = {headers: true, converters: :numeric}.merge(options)
-      raise ArgumentError, "Must specify headers" unless options[:headers]
-      options
-    end
+    def csv_to_df(types: nil, headers: nil, **csv_options)
+      require "csv"
+      raise ArgumentError, "Must specify headers" if headers == false
-    def csv_to_df(table, types: nil, headers: nil)
-      if headers && headers.size < table.headers.size
-        raise ArgumentError, "Expected #{table.headers.size} headers, got #{headers.size}"
+      # TODO use date converter
+      table = yield({converters: :numeric}.merge(csv_options))
+      headers = nil if headers == true
+      if headers && table.first && headers.size < table.first.size
+        raise ArgumentError, "Expected #{table.first.size} headers, got #{headers.size}"
+      end
+      table_headers = (headers || table.shift || []).dup
+      # keep same behavior as headers: true
+      if table.first
+        while table_headers.size < table.first.size
+          table_headers << nil
+        end
       end
-      table.by_col!
       data = {}
-      keys = table.map { |k, _| [k, true] }.to_h
+      keys = table_headers.map { |k| [k, true] }.to_h
       unnamed_suffix = 1
-      table.each do |k, v|
+      table_headers.each_with_index do |k, i|
         # TODO do same for empty string in 0.3.0
         if k.nil?
           k = "unnamed"
@@ -57,7 +69,18 @@ module Rover
           end
           keys[k] = true
         end
-        data[k] = v
+        table_headers[i] = k
+      end
+      table_headers.each_with_index do |k, i|
+        # use first value for duplicate headers like headers: true
+        next if data[k]
+        values = []
+        table.each do |row|
+          values << row[i]
+        end
+        data[k] = values
       end
       DataFrame.new(data, types: types)
@@ -78,7 +101,10 @@ module Rover
       "uint64" => Numo::UInt64
     }
-    def parquet_to_df(table, types: nil)
+    def parquet_to_df(types: nil)
+      require "parquet"
+      table = yield
       data = {}
       types ||= {}
       table.each_column do |column|

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: rover-df
 version: !ruby/object:Gem::Version
-  version: 0.2.7
+  version: 0.2.8
 platform: ruby
 authors:
 - Andrew Kane
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2022-01-16 00:00:00.000000000 Z
+date: 2022-03-15 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: numo-narray
@@ -58,7 +58,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubygems_version: 3.3.3
+rubygems_version: 3.3.7
 signing_key:
 specification_version: 4
 summary: Simple, powerful data frames for Ruby