RubyGems - red_amber - Versions diffs - 0.2.2 → 0.3.0 - Mend

red_amber 0.2.2 → 0.3.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (41) hide show

checksums.yaml +4 -4
data/.rubocop.yml +114 -39
data/CHANGELOG.md +203 -31
data/Gemfile +5 -2
data/README.md +62 -29
data/benchmark/basic.yml +86 -0
data/benchmark/combine.yml +62 -0
data/benchmark/dataframe.yml +62 -0
data/benchmark/drop_nil.yml +15 -3
data/benchmark/group.yml +39 -0
data/benchmark/reshape.yml +31 -0
data/benchmark/{csv_load_penguins.yml → rover/csv_load_penguins.yml} +3 -3
data/benchmark/rover/flights.yml +23 -0
data/benchmark/rover/penguins.yml +23 -0
data/benchmark/rover/planes.yml +23 -0
data/benchmark/rover/weather.yml +23 -0
data/benchmark/vector.yml +60 -0
data/doc/DataFrame.md +335 -53
data/doc/Vector.md +91 -0
data/doc/image/dataframe/join.png +0 -0
data/doc/image/dataframe/set_and_bind.png +0 -0
data/doc/image/dataframe_model.png +0 -0
data/lib/red_amber/data_frame.rb +167 -51
data/lib/red_amber/data_frame_combinable.rb +486 -0
data/lib/red_amber/data_frame_displayable.rb +6 -4
data/lib/red_amber/data_frame_indexable.rb +2 -2
data/lib/red_amber/data_frame_loadsave.rb +4 -1
data/lib/red_amber/data_frame_reshaping.rb +35 -10
data/lib/red_amber/data_frame_selectable.rb +221 -116
data/lib/red_amber/data_frame_variable_operation.rb +146 -82
data/lib/red_amber/group.rb +108 -18
data/lib/red_amber/helper.rb +53 -43
data/lib/red_amber/refinements.rb +199 -0
data/lib/red_amber/vector.rb +56 -46
data/lib/red_amber/vector_functions.rb +23 -83
data/lib/red_amber/vector_selectable.rb +116 -69
data/lib/red_amber/vector_updatable.rb +189 -65
data/lib/red_amber/version.rb +1 -1
data/lib/red_amber.rb +3 -0
data/red_amber.gemspec +4 -3
metadata +24 -10

data/README.md CHANGED Viewed

@@ -1,28 +1,31 @@
 # RedAmber
 [![Gem Version](https://badge.fury.io/rb/red_amber.svg)](https://badge.fury.io/rb/red_amber)
-[![Ruby](https://github.com/heronshoes/red_amber/actions/workflows/test.yml/badge.svg)](https://github.com/heronshoes/red_amber/actions/workflows/test.yml)
+[![CI](https://github.com/heronshoes/red_amber/actions/workflows/ci.yml/badge.svg)](https://github.com/heronshoes/red_amber/actions/workflows/ci.yml)
+[![Maintainability](https://api.codeclimate.com/v1/badges/b8a745047045d2f49daa/maintainability)](https://codeclimate.com/github/heronshoes/red_amber/maintainability)
+[![Test coverage](https://api.codeclimate.com/v1/badges/b8a745047045d2f49daa/test_coverage)](https://codeclimate.com/github/heronshoes/red_amber/test_coverage)
+[![Doc](https://img.shields.io/badge/docs-latest-blue)](https://heronshoes.github.io/red_amber/)
 [![Discussions](https://img.shields.io/github/discussions/heronshoes/red_amber)](https://github.com/heronshoes/red_amber/discussions)
 A simple dataframe library for Ruby.
-- Powered by [Red Arrow](https://github.com/apache/arrow/tree/master/ruby/red-arrow) [![Gitter Chat](https://badges.gitter.im/red-data-tools/en.svg)](https://gitter.im/red-data-tools/en)
+- Powered by [Red Arrow](https://github.com/apache/arrow/tree/master/ruby/red-arrow)
+[![Gitter Chat](https://badges.gitter.im/red-data-tools/en.svg)](https://gitter.im/red-data-tools/en)
 - Inspired by the dataframe library [Rover-df](https://github.com/ankane/rover)
-![screenshot from jupyterlab](doc/image/screenshot.png)
+![screenshot from jupyterlab](https://raw.githubusercontent.com/heronshoes/red_amber/main/doc/image/screenshot.png)
 ## Requirements
-Supported Ruby version is >= 2.7.
+Supported Ruby version is >= 3.0 (since RedAmber 0.3.0).
-Since v0.2.0, this library uses pattern matching which is an experimental feature in 2.7 . It is usable but a warning message will be shown in 2.7 .
-I recommend Ruby 3 for performance.
+- I decided to remove Ruby 2.7 without waiting for EOL because it cannot solve the problem of simultaneous use of Hash and keyword arguments when implementing DataFrame#join.
 ```ruby
 # Libraries required
-gem 'red-arrow',   '>= 9.0.0'
+gem 'red-arrow',   '~> 10.0.0' # Requires Apache Arrow (see installation below)
-gem 'red-parquet', '>= 9.0.0' # Optional, if you use IO from/to parquet
+gem 'red-parquet', '~> 10.0.0' # Optional, if you use IO from/to parquet
 gem 'rover-df',    '~> 0.3.0' # Optional, if you use IO from/to Rover::DataFrame
 ```
@@ -30,37 +33,61 @@ gem 'rover-df',    '~> 0.3.0' # Optional, if you use IO from/to Rover::DataFrame
 Install requirements before you install Red Amber.
-- Apache Arrow GLib (>= 9.0.0)
-- Apache Parquet GLib (>= 9.0.0)  # If you use IO from/to parquet
+- Apache Arrow (~> 10.0.0)
+- Apache Arrow GLib (~> 10.0.0)
+- Apache Parquet GLib (~> 10.0.0)  # If you use IO from/to parquet
   See [Apache Arrow install document](https://arrow.apache.org/install/).
-  Minimum installation example for the latest Ubuntu is in the ['Prepare the Apache Arrow' section in ci test](https://github.com/heronshoes/red_amber/blob/master/.github/workflows/test.yml) of Red Amber.
+  - Minimum installation example for the latest Ubuntu:
-Add this line to your Gemfile:
+      ```
+      sudo apt update
+      sudo apt install -y -V ca-certificates lsb-release wget
+      wget https://apache.jfrog.io/artifactory/arrow/$(lsb_release --id --short | tr 'A-Z' 'a-z')/apache-arrow-apt-source-latest-$(lsb_release --codename --short).deb
+      sudo apt install -y -V ./apache-arrow-apt-source-latest-$(lsb_release --codename --short).deb
+      sudo apt update
+      sudo apt install -y -V libarrow-dev
+      sudo apt install -y -V libarrow-glib-dev
+      ```
-```ruby
-gem 'red_amber'
-```
+  - On Fedora 38 (Rawhide):
-And then execute:
+      ```
+      sudo dnf update
+      sudo dnf -y install gcc-c++ libarrow-devel libarrow-glib-devel ruby-devel
+      ```
-```shell
-bundle install
-```
+  - On macOS, you can install Apache Arrow C++ library using Homebrew:
-Or install it yourself as:
+      ```
+      brew install apache-arrow
+      ```
-```shell
-gem install red_amber
+    and GLib (C) package with:
+      ```
+      brew install apache-arrow-glib
+      ```
+If you prepared Apache Arrow, add these lines to your Gemfile:
+```ruby
+gem 'red-arrow',   '~> 10.0.0'
+gem 'red_amber'
+gem 'red-parquet', '~> 10.0.0' # Optional, if you use IO from/to parquet
+gem 'rover-df',    '~> 0.3.0'  # Optional, if you use IO from/to Rover::DataFrame
+gem 'red-datasets-arrow'       # Optional, recommended if you use Red Datasets
+gem 'red-arrow-numo-narray'    # Optional, recommended if you use inputs from Numo::NArray
 ```
+And then execute `bundle install` or install it yourself as `gem install red_amber`.
 ## Docker image and Jupyter Notebook
 [RubyData Docker Stacks](https://github.com/RubyData/docker-stacks) is available as a ready-to-run Docker image containing Jupyter and useful data tools as well as RedAmber (Thanks to @mrkn).
-Also you can try the contents of this README interactively by [Binder](https://mybinder.org/v2/gh/heronshoes/docker-stacks/RedAmber-binder?filepath=README.ipynb).
+Also you can try the contents of this README interactively by [Binder](https://mybinder.org/v2/gh/heronshoes/docker-stacks/RedAmber-binder?filepath=red-amber.ipynb).
 [![Binder](https://mybinder.org/badge_logo.svg)](https://mybinder.org/v2/gh/heronshoes/docker-stacks/RedAmber-binder?filepath=red-amber.ipynb)
@@ -69,9 +96,9 @@ Also you can try the contents of this README interactively by [Binder](https://m
 Class `RedAmber::DataFrame` represents a set of data in 2D-shape.
 The entity is a Red Arrow's Table object.
-![dataframe model of RedAmber](doc/image/dataframe_model.png)
+![dataframe model of RedAmber](https://raw.githubusercontent.com/heronshoes/red_amber/main/doc/image/dataframe_model.png)
-Load the library.
+Let's load the library and try some examples.
 ```ruby
 require 'red_amber' # require 'red-amber' is also OK.
@@ -80,6 +107,11 @@ include RedAmber
 ### Example: diamonds dataset
+First do (if you do not installed) `
+gem install red-datasets-arrow
+`
+then
 ```ruby
 require 'datasets-arrow' # to load sample data
@@ -101,7 +133,7 @@ diamonds = DataFrame.new(dataset) # from v0.2.2, should be `dataset.to_arrow` if
 53939     0.75 Ideal     D        SI2          62.2     55.0     2757     5.83 ...     3.64
 ```
-For example, we can compute mean prices per 'cut' for the data larger than 1 carat.
+For example, we can compute mean prices per cut for the data larger than 1 carat.
 ```ruby
 df = diamonds
@@ -125,7 +157,7 @@ Arrow data is immutable, so these methods always return new objects.
 Next example will rename a column and create a new column by simple calcuration.
 ```ruby
-usdjpy = 110.0
+usdjpy = 110.0 # when the yen was stronger
 df.rename('mean(price)': :mean_price_USD)
   .assign(:mean_price_JPY) { mean_price_USD * usdjpy }
@@ -181,7 +213,8 @@ See [Vector.md](doc/Vector.md) for details.
 ## Jupyter notebook
-[73 Examples of Red Amber](binder/examples_of_red_amber.ipynb) shows more examples in jupyter notebook.
+[89 Examples of Red Amber](https://github.com/heronshoes/docker-stacks/blob/RedAmber-binder/binder/examples_of_red_amber.ipynb)
+([raw file](https://raw.githubusercontent.com/heronshoes/docker-stacks/RedAmber-binder/binder/examples_of_red_amber.ipynb)) shows more examples in jupyter notebook.
 You can try this notebook on [Binder](https://mybinder.org/v2/gh/heronshoes/docker-stacks/RedAmber-binder?filepath=examples_of_red_amber.ipynb).
 [![Binder](https://mybinder.org/badge_logo.svg)](https://mybinder.org/v2/gh/heronshoes/docker-stacks/RedAmber-binder?filepath=examples_of_red_amber.ipynb)

data/benchmark/basic.yml ADDED Viewed

@@ -0,0 +1,86 @@
+loop_count: 3
+contexts:
+  - name: HEAD
+    prelude: |
+      $LOAD_PATH.unshift(File.expand_path('lib'))
+  - name: 0.2.3
+    gems:
+      red_amber: 0.2.3
+  - name: 0.2.0
+    gems:
+      red_amber: 0.2.0
+  - name: 0.1.5
+    gems:
+      red_amber: 0.1.5
+prelude: |
+  require 'red_amber'
+  require 'datasets-arrow'
+  ds = Datasets::Rdatasets.new('nycflights13', 'flights')
+  df = RedAmber::DataFrame.new(ds.to_arrow)
+  slicer = df[:distance] > 1000
+  distance_km = df[:distance] * 1.852
+benchmark:
+  'B01: Pick([]) by a key name': |
+    df[:flight]
+  'B02a: Pick([]) by key names': |
+    df[:carrier, :flight]
+  'B03: Pick by key names': |
+    df.pick(:carrier, :flight)
+  'B04: Drop by key names': |
+    df.drop(:year, :month, :day)
+  'B05: Pick by booleans': |
+    df.pick(df.vectors.map(&:string?))
+  'B06: Pick by a block': |
+    df.pick { keys.map { |key| key.end_with?('time') } }
+  'B07: Slice([]) by a index': |
+    df[877]
+  'B08: Slice by indeces': |
+    df.slice(0...5, -5..-1)
+  'B09: Slice([]) by booleans': |
+    df[slicer]
+  'B10: Slice by booleans': |
+    df.slice(slicer)
+  'B11: Remove by booleans': |
+    df.remove(slicer)
+  'B12: Slice by a block': |
+    df.slice { slicer }
+  'B13: Rename by Hash': |
+    df.rename(distance: :distance_mile)
+  'B14: Assign an existing variable': |
+    df.assign(distance: distance_km)
+  'B15: Assign a new variable': |
+    df.assign(distance_km: distance_km)
+  'B16: Sort by a key': |
+    df.sort(:distance)
+  'B17: Sort by keys': |
+    df.sort(:origin, '-distance')
+  'B18: Convert to a Hash': |
+    df.to_h
+  'B19: Output in TDR style': |
+    df.tdr
+  'B20: Inspect': |
+    df.inspect

data/benchmark/combine.yml ADDED Viewed

@@ -0,0 +1,62 @@
+loop_count: 3
+contexts:
+  - name: HEAD
+    prelude: |
+      $LOAD_PATH.unshift(File.expand_path('lib'))
+  - name: 0.2.3
+    gems:
+      red_amber: 0.2.3
+prelude: |
+  require 'red_amber'
+  include RedAmber
+  require 'datasets-arrow'
+  package = 'nycflights13'
+  airlines = DataFrame.new(Datasets::Rdatasets.new(package, 'airlines'))
+  airports = DataFrame.new(Datasets::Rdatasets.new(package, 'airports'))
+  flights  = DataFrame.new(Datasets::Rdatasets.new(package, 'flights'))
+    .pick(%i[month day carrier flight tailnum origin dest air_time distance])
+  planes   = DataFrame.new(Datasets::Rdatasets.new(package, 'planes'))
+  weather  = DataFrame.new(Datasets::Rdatasets.new(package, 'weather'))
+  flights_Q1 = flights.slice { month <= 3 }
+  flights_Q2 = flights.slice { month > 3 }
+  flights_1_2 = flights_Q1.slice { month.is_in(1, 2) }
+  flights_1_3 = flights_Q1.slice { month.is_in(1, 3) }
+  flights_left = flights_Q1.pick(...5)
+  flights_right = flights_Q1.pick(5..)
+benchmark:
+  'C01: Inner join on flights_Q1 by carrier': |
+    flights_Q1.inner_join(airlines, :carrier)
+  'C02: Full join on flights_Q1 by planes': |
+    flights_Q1.full_join(planes, :tailnum)
+  'C03: Left join on flights_Q1 by planes': |
+    flights_Q1.left_join(planes, :tailnum)
+  'C04: Semi join on flights_Q1 by planes': |
+    flights_Q1.semi_join(planes, :tailnum)
+  'C05: Anti join on flights_Q1 by planes': |
+    flights_Q1.anti_join(planes, :tailnum)
+  'C06: Intersection of flights_1_2 and flights_1_3': |
+    flights_1_2.intersect(flights_1_3)
+  'C07: Union of flights_1_2 and flights_1_3': |
+    flights_1_2.union(flights_1_3)
+  'C08: Difference between flights_1_2 and flights_1_3': |
+    flights_1_2.difference(flights_1_3)
+  'C09: Concatenate flight_Q1 on flight_Q2': |
+    flights_Q1.concatenate(flights_Q2)
+  'C10: Merge flights_Q1_right on flights_Q1_left': |
+    flights_left.merge(flights_right)

data/benchmark/dataframe.yml ADDED Viewed

@@ -0,0 +1,62 @@
+loop_count: 3
+contexts:
+  - name: HEAD
+    prelude: |
+      $LOAD_PATH.unshift(File.expand_path('lib'))
+  - name: 0.2.3
+    gems:
+      red_amber: 0.2.3
+  - name: 0.2.0
+    gems:
+      red_amber: 0.2.0
+prelude: |
+  require 'red_amber'
+  require 'datasets-arrow'
+  diamonds = RedAmber::DataFrame.new(Datasets::Diamonds.new.to_arrow)
+  starwars = RedAmber::DataFrame.new(Datasets::Rdataset.new('dplyr', 'starwars').to_arrow)
+  uri = URI("https://raw.githubusercontent.com/heronshoes/red_amber/master/test/entity/import_cars.tsv")
+  import_cars = RedAmber::DataFrame.load(uri)
+  ds = Datasets::Rdataset.new('openintro', 'simpsons_paradox_covid')
+  simpsons_paradox_covid = RedAmber::DataFrame.new(ds.to_arrow)
+benchmark:
+  'D01: Diamonds test': |
+    diamonds
+      .slice { v(:carat) > 1 }
+      .pick(:cut, :price)
+      .group(:cut)
+      .mean
+      .sort('-mean(price)')
+      .rename('mean(price)': :mean_price_USD)
+      .assign { [:mean_price_JPY, v(:mean_price_USD) * 110.0] }
+  'D02: Starwars test': |
+    starwars
+      .drop { keys.select { |key| key.end_with?('color') } }
+      .remove { v(:species) == 'NA' }
+      .group(:species) { [count(:species), mean(:height, :mass)] }
+      .slice { v(:count) > 1 }
+  'D03: Inport cars test': |
+    import_cars
+      .to_long(:Year, name: :Manufacturer, value: :Num_of_imported)
+      .to_wide(name: :Manufacturer, value: :Num_of_imported)
+      .transpose
+  'D04: Simpsons paradox test': |
+    simpsons_paradox_covid[simpsons_paradox_covid[:age_group] == 'under 50']
+      .group(:vaccine_status, :outcome)
+      .count
+      .then { |df| df.to_wide(name: :vaccine_status, value: df.keys[-1]) }
+      .assign do
+        [
+          [:'vaccinated_%', (100.0 * v(:vaccinated) / v(:vaccinated).sum)],
+          [:'unvaccinated_%', (100.0 * v(:unvaccinated) / v(:unvaccinated).sum)]
+        ]
+      end

data/benchmark/drop_nil.yml CHANGED Viewed

@@ -1,11 +1,23 @@
+contexts:
+  - gems:
+      red_amber: 0.1.8
+  - gems:
+      red_amber: 0.2.2
+  - name: HEAD
+    prelude: |
+      $LOAD_PATH.unshift(File.expand_path('lib'))
+      require 'red_amber'
 prelude: |
   require 'datasets-arrow'
   require 'red_amber'
   penguins = RedAmber::DataFrame.new(Datasets::Penguins.new.to_arrow)
-  def drop_nil(penguins)
-    penguins.remove { vectors.map { |v| v.is_nil} }
+  def remove_nil(penguins)
+    penguins.remove { vectors.map(&:is_nil).reduce(&:|) }
   end
-benchmark: drop_nil(penguins)
+benchmark:
+  'Remove and reduce': remove_nil(penguins)
+  'remove_nil method': penguins.remove_nil

data/benchmark/group.yml ADDED Viewed

@@ -0,0 +1,39 @@
+loop_count: 3
+contexts:
+  - name: HEAD
+    prelude: |
+      $LOAD_PATH.unshift(File.expand_path('lib'))
+  - name: 0.2.3
+    gems:
+      red_amber: 0.2.3
+  - name: 0.2.2
+    gems:
+      red_amber: 0.2.2
+prelude: |
+  require 'red_amber'
+  require 'datasets-arrow'
+  ds = Datasets::Rdatasets.new('nycflights13', 'flights')
+  df = RedAmber::DataFrame.new(ds.to_arrow)
+    .assign(:flight) { flight.map(&:to_s) }
+  slicer = df[:distance] > 1000
+  distance_km = df[:distance] * 1.852
+benchmark:
+  'G01: sum distance by destination': |
+    df.group(:dest).sum(:distance)
+  'G02: sum arr_delay by month and day': |
+    df.group(:month, :day).sum(:arr_delay)
+  'G03: sum arr_delay, mean distance by flight': |
+    df.group(:flight) { [sum(:arr_delay), mean(:distance)] }
+  'G04: mean air_time, distance by flight': |
+    df.group(:flight).mean(:air_time, :distance)
+  'G05: sum dep_delay, arr_delay by carrer': |
+    df.group(:carrier).sum(:dep_delay, :arr_delay)

data/benchmark/reshape.yml ADDED Viewed

@@ -0,0 +1,31 @@
+loop_count: 3
+contexts:
+  - name: HEAD
+    prelude: |
+      $LOAD_PATH.unshift(File.expand_path('lib'))
+  - name: 0.2.3
+    gems:
+      red_amber: 0.2.3
+  - name: 0.2.2
+    gems:
+      red_amber: 0.2.2
+prelude: |
+  require 'red_amber'
+  require 'datasets-arrow'
+  ds = Datasets::Rdatasets.new('tidyr', 'billboard')
+  df = RedAmber::DataFrame.new(ds.to_arrow)
+  sub_df = df.pick(:track, df.keys.select{ |k| k.start_with? 'wk' })
+  long_df = df.to_long(:artist, :track, :'date.entered', name: :week, value: :rank)
+benchmark:
+  'R01: Transpose a DataFrame': |
+    sub_df.transpose(name: :week)
+  'R02: Reshape to longer DataFrame': |
+    df.to_long(:artist, :track, :'date.entered', name: :week, value: :rank)
+  'R03: Reshape to wider DataFrame': |
+    long_df.to_wide(name: :week, value: :rank)

data/benchmark/{csv_load_penguins.yml → rover/csv_load_penguins.yml} RENAMED Viewed

@@ -2,12 +2,12 @@ prelude: |
   require 'rover'
   require 'red_amber'
-  penguins_csv = 'benchmark/cache/penguins.csv'
+  penguins_csv = 'tmp/penguins.csv'
   unless File.exist?(penguins_csv)
     require 'datasets-arrow'
-    arrow = Datasets::Penguins.new.to_arrow
-    RedAmber::DataFrame.new(arrow).save(penguins_csv)
+    ds = Datasets::Penguins.new
+    RedAmber::DataFrame.new(ds).save(penguins_csv)
   end
 benchmark:

data/benchmark/rover/flights.yml ADDED Viewed

@@ -0,0 +1,23 @@
+contexts:
+  - gems:
+      red_amber: 0.2.2
+  - name: HEAD
+    prelude: |
+      $LOAD_PATH.unshift(File.expand_path('lib'))
+      require 'red_amber'
+prelude: |
+  require 'rover'
+  require 'datasets-arrow'
+  ds = Datasets::Rdatasets.new('nycflights13', 'flights')
+  df = RedAmber::DataFrame.new(ds)
+  rover = Rover::DataFrame.new(df.to_h)
+  group_keys = [:month, :origin]
+  summary_key = :air_time
+benchmark:
+  'penguins Group by Rover': |
+    rover.group(group_keys).count
+  'penguins Group by RedAmber': |
+    df.group(group_keys).count

data/benchmark/rover/penguins.yml ADDED Viewed

@@ -0,0 +1,23 @@
+contexts:
+  - gems:
+      red_amber: 0.2.2
+  - name: HEAD
+    prelude: |
+      $LOAD_PATH.unshift(File.expand_path('lib'))
+      require 'red_amber'
+prelude: |
+  require 'rover'
+  require 'datasets-arrow'
+  ds = Datasets::Penguins.new
+  df = RedAmber::DataFrame.new(ds)
+  rover = Rover::DataFrame.new(df.to_h)
+  group_keys = [:species, :island]
+  summary_key = :body_mass_g
+benchmark:
+  'penguins Group by Rover': |
+    rover.group(group_keys).mean(summary_key)
+  'penguins Group by RedAmber': |
+    df.group(group_keys).mean(summary_key)

data/benchmark/rover/planes.yml ADDED Viewed

@@ -0,0 +1,23 @@
+contexts:
+  - gems:
+      red_amber: 0.2.2
+  - name: HEAD
+    prelude: |
+      $LOAD_PATH.unshift(File.expand_path('lib'))
+      require 'red_amber'
+prelude: |
+  require 'rover'
+  require 'datasets-arrow'
+  ds = Datasets::Rdatasets.new('nycflights13', 'planes')
+  df = RedAmber::DataFrame.new(ds)
+  rover = Rover::DataFrame.new(df.to_h)
+  group_keys = [:engines, :engine]
+  summary_key = :seats
+benchmark:
+  'penguins Group by Rover': |
+    rover.group(group_keys).mean(summary_key)
+  'penguins Group by RedAmber': |
+    df.group(group_keys).mean(summary_key)

data/benchmark/rover/weather.yml ADDED Viewed

@@ -0,0 +1,23 @@
+contexts:
+  - gems:
+      red_amber: 0.2.2
+  - name: HEAD
+    prelude: |
+      $LOAD_PATH.unshift(File.expand_path('lib'))
+      require 'red_amber'
+prelude: |
+  require 'rover'
+  require 'datasets-arrow'
+  ds = Datasets::Rdatasets.new('nycflights13', 'weather')
+  df = RedAmber::DataFrame.new(ds)
+  rover = Rover::DataFrame.new(df.to_h)
+  group_keys = [:month, :origin]
+  summary_key = :temp
+benchmark:
+  'penguins Group by Rover': |
+    rover.group(group_keys).mean(summary_key)
+  'penguins Group by RedAmber': |
+    df.group(group_keys).mean(summary_key)

data/benchmark/vector.yml ADDED Viewed

@@ -0,0 +1,60 @@
+loop_count: 10
+contexts:
+  - name: HEAD
+    prelude: |
+      $LOAD_PATH.unshift(File.expand_path('lib'))
+  - name: 0.2.0
+    gems:
+      red_amber: 0.2.0
+prelude: |
+  require 'red_amber'
+  include RedAmber
+  require 'datasets-arrow'
+  ds = Datasets::Rdatasets.new('nycflights13', 'flights')
+  flights = RedAmber::DataFrame.new(ds.to_arrow)
+  df = flights.slice { flights[:month] <= 6 }
+  tailnum_vector = df[:tailnum]
+  distance_vector = df[:distance]
+  strings = tailnum_vector.to_a
+  arrow_array = tailnum_vector.data
+  integers = df[:dep_delay].to_a
+  boolean_vector = df[:air_time].is_nil
+  index_vector = Vector.new(0...boolean_vector.size).filter(boolean_vector)
+  replacer = index_vector.data.map(&:to_s)
+  booleans = boolean_vector.to_a
+benchmark:
+  'V01: Vector.new from integer Array': |
+    Vector.new(integers)
+  'V02: Vector.new from string Array': |
+    Vector.new(strings)
+  'V03: Vector.new from boolean Vector': |
+    Vector.new(boolean_vector)
+  'V04: Vector#sum': |
+    distance_vector.mean
+  'V05: Vector#*': |
+    distance_vector * 1.852
+  'V06: Vector#[booleans]': |
+    tailnum_vector[booleans]
+  'V07: Vector#[boolean_vector]': |
+    tailnum_vector[boolean_vector]
+  'V08: Vector#[index_vector]': |
+    tailnum_vector[index_vector]
+  'V09: Vector#replace': |
+    tailnum_vector.replace(booleans, replacer)
+  'V10: Vector#replace with broad casting': |
+    tailnum_vector.replace(booleans, 'x')