RubyGems - red_amber - Versions diffs - 0.2.0 → 0.2.1 - Mend

red_amber 0.2.0 → 0.2.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (17) hide show

checksums.yaml +4 -4
data/.rubocop.yml +2 -0
data/CHANGELOG.md +58 -0
data/README.md +38 -24
data/doc/DataFrame.md +212 -80
data/doc/Vector.md +7 -18
data/doc/examples_of_red_amber.ipynb +2720 -524
data/lib/red_amber/data_frame.rb +23 -4
data/lib/red_amber/data_frame_displayable.rb +3 -3
data/lib/red_amber/data_frame_reshaping.rb +10 -10
data/lib/red_amber/data_frame_selectable.rb +53 -9
data/lib/red_amber/data_frame_variable_operation.rb +44 -13
data/lib/red_amber/vector.rb +1 -1
data/lib/red_amber/vector_functions.rb +21 -24
data/lib/red_amber/vector_selectable.rb +9 -8
data/lib/red_amber/version.rb +1 -1
metadata +2 -2

data/lib/red_amber/data_frame.rb CHANGED Viewed

@@ -159,12 +159,19 @@ module RedAmber
       @vectors || @vectors = init_instance_vars(:vectors)
     end
-    # Returns row indices (0...size) in an Array.
+    # Returns row indices (start...(size+start)) in an Array.
     #
+    # @param start [Object]
+    #   Object which have #succ method.
     # @return [Array]
-    #   An Array of all indices of rows.
-    def indices
-      (0...size).to_a
+    #   An Array of indices of the row.
+    # @example
+    #   (when self.size == 5)
+    #   - indices #=> [0, 1, 2, 3, 4]
+    #   - indices(1) #=> [1, 2, 3, 4, 5]
+    #   - indices('a') #=> ['a', 'b', 'c', 'd', 'e']
+    def indices(start = 0)
+      (start..).take(size)
     end
     alias_method :indexes, :indices
@@ -225,6 +232,18 @@ module RedAmber
       g
     end
+    def method_missing(name, *args, &block)
+      return v(name) if args.empty?
+      super
+    end
+    def respond_to_missing?(name, include_private)
+      return true if key?(name)
+      super
+    end
     private
     # initialize @variable, @keys, @vectors and return one of them

data/lib/red_amber/data_frame_displayable.rb CHANGED Viewed

@@ -154,7 +154,7 @@ module RedAmber
     def format_table(width: 80, head: 5, tail: 3, n_digit: 2)
       original = self
-      indices = size > head + tail ? [*0...head, *(size - tail)...size] : [*0...size]
+      indices = size > head + tail ? [*0..head, *(size - tail)...size] : [*0...size]
       df = slice(indices).assign do
         assigner = { INDEX_KEY => indices.map { |i| (i + 1).to_s } }
         vectors.each_with_object(assigner) do |v, a|
@@ -173,12 +173,12 @@ module RedAmber
       end
       df = df.pick { [INDEX_KEY, keys - [INDEX_KEY]] }
-      df = size > head + tail ? df[0, 0, 0...head, 0, -tail..-1] : df[0, 0, 0..-1]
+      df = size > head + tail ? df[0, 0, 0..head, -tail..-1] : df[0, 0, 0..-1]
       df = df.assign do
         vectors.each_with_object({}) do |v, assigner|
           vec = v.replace(0, v.key == INDEX_KEY ? '' : v.key.to_s)
                  .replace(1, v.key == INDEX_KEY ? '' : "<#{original[v.key].type}>")
-          assigner[v.key] = size > head + tail ? vec.replace(head + 2, ':') : vec
+          assigner[v.key] = original.size > head + tail + 1 ? vec.replace(head + 2, ':') : vec
         end
       end

data/lib/red_amber/data_frame_reshaping.rb CHANGED Viewed

@@ -5,20 +5,20 @@ module RedAmber
   module DataFrameReshaping
     # Transpose a wide DataFrame.
     #
-    # @param key [Symbol, FalseClass] key of the index column
+    # @param key [Symbol] key of the index column
     #   to transepose into keys.
-    #   If it is false, keys[0] is used.
-    # @param new_key [Symbol, FalseClass] key name of transposed index column.
-    #   If it is false, :name is used. If it already exists, :name1.succ is used.
+    #   If it is not specified, keys[0] is used.
+    # @param new_key [Symbol] key name of transposed index column.
+    #   If it is not specified, :N is used. If it already exists, :N1 or :N1.succ is used.
     # @return [DataFrame] trnsposed DataFrame
-    def transpose(key: keys.first, new_key: :name)
-      raise DataFrameArgumentError, "Not include: #{key}" unless keys.include?(key)
+    def transpose(key: keys.first, name: :N)
+      raise DataFrameArgumentError, "Self does not include: #{key}" unless keys.include?(key)
       # Find unused name
       new_keys = self[key].to_a.map { |e| e.to_s.to_sym }
-      new_key = (:name1..).find { |k| !new_keys.include?(k) } if new_keys.include?(new_key)
+      name = (:N1..).find { |k| !new_keys.include?(k) } if new_keys.include?(name)
-      hash = { new_key => (keys - [key]) }
+      hash = { name => (keys - [key]) }
       i = keys.index(key)
       each_row do |h|
         k = h.values[i]
@@ -33,7 +33,7 @@ module RedAmber
     # @param name [Symbol, String] key of the column which is come **from values**.
     # @param value [Symbol, String] key of the column which is come **from values**.
     # @return [DataFrame] long DataFrame.
-    def to_long(*keep_keys, name: :name, value: :value)
+    def to_long(*keep_keys, name: :N, value: :V)
       not_included = keep_keys - keys
       raise DataFrameArgumentError, "Not have keys #{not_included}" unless not_included.empty?
@@ -63,7 +63,7 @@ module RedAmber
     # @param name [Symbol, String] key of the column which will be expanded **to key names**.
     # @param value [Symbol, String] key of the column which will be expanded **to values**.
     # @return [DataFrame] wide DataFrame.
-    def to_wide(name: :name, value: :value)
+    def to_wide(name: :N, value: :V)
       name = name.to_sym
       raise DataFrameArgumentError, "Invalid key: #{name}" unless keys.include?(name)

data/lib/red_amber/data_frame_selectable.rb CHANGED Viewed

@@ -3,8 +3,8 @@
 module RedAmber
   # mix-in for the class DataFrame
   module DataFrameSelectable
-    # select variables: [symbol] or [string]
-    # select observations: [array of index], [range]
+    # select columns: [symbol] or [string]
+    # select rows: [array of index], [range]
     def [](*args)
       args.flatten!
       raise DataFrameArgumentError, 'Empty dataframe' if empty?
@@ -22,17 +22,17 @@ module RedAmber
       raise DataFrameArgumentError, "Invalid argument: #{args}"
     end
-    # slice and select some observations to create sub DataFrame
+    # slice and select rows to create sub DataFrame
     def slice(*args, &block)
       slicer = args
       if block
         raise DataFrameArgumentError, 'Must not specify both arguments and block.' unless args.empty?
-        slicer = instance_eval(&block)
+        slicer = [instance_eval(&block)]
       end
-      slicer = [slicer].flatten
+      slicer.flatten!
-      raise DataFrameArgumentError, 'Empty dataframe' if empty?
+      raise DataFrameArgumentError, 'Self is an empty dataframe' if empty?
       return remove_all_values if slicer.empty? || slicer[0].nil?
       vector = parse_to_vector(slicer)
@@ -46,15 +46,59 @@ module RedAmber
       raise DataFrameArgumentError, "Invalid argument #{slicer}"
     end
-    # remove selected observations to create sub DataFrame
+    def slice_by(key, keep_key: false, &block)
+      raise DataFrameArgumentError, 'Self is an empty dataframe' if empty?
+      raise DataFrameArgumentError, 'No block given' unless block
+      raise DataFrameArgumentError, "#{key} is no a key of self" unless key?(key)
+      return self if key.nil?
+      slicer = instance_eval(&block)
+      return DataFrame.new unless slicer
+      if slicer.is_a?(Range)
+        from = slicer.begin
+        from =
+          if from.is_a?(String)
+            self[key].index(from)
+          elsif from.nil?
+            0
+          elsif from < 0
+            size + from
+          else
+            from
+          end
+        to = slicer.end
+        to =
+          if to.is_a?(String)
+            self[key].index(to)
+          elsif to.nil?
+            size - 1
+          elsif to < 0
+            size + to
+          else
+            to
+          end
+        slicer = (from..to).to_a
+      else
+        slicer = slicer.map { |x| x.is_a?(String) ? self[key].index(x) : x }
+      end
+      if keep_key
+        take(slicer)
+      else
+        take(slicer).drop(key)
+      end
+    end
+    # remove selected rows to create remainer DataFrame
     def remove(*args, &block)
       remover = args
       if block
         raise DataFrameArgumentError, 'Must not specify both arguments and block.' unless args.empty?
-        remover = instance_eval(&block)
+        remover = [instance_eval(&block)]
       end
-      remover = [remover].flatten
+      remover.flatten!
       raise DataFrameArgumentError, 'Empty dataframe' if empty?
       return self if remover.empty? || remover[0].nil?

data/lib/red_amber/data_frame_variable_operation.rb CHANGED Viewed

@@ -9,12 +9,16 @@ module RedAmber
       if block
         raise DataFrameArgumentError, 'Must not specify both arguments and block.' unless args.empty?
-        picker = instance_eval(&block)
+        picker = [instance_eval(&block)]
       end
-      picker = [picker].flatten
+      picker.flatten!
       return DataFrame.new if picker.empty? || picker == [nil]
-      picker = keys_by_booleans(picker) if booleans?(picker)
+      key_vector = Vector.new(keys)
+      picker_vector = parse_to_vector(picker)
+      picker = key_vector.filter(*picker_vector).to_a if picker_vector.boolean?
+      picker = key_vector.take(*picker_vector).to_a if picker_vector.numeric?
       # DataFrame#[] creates a Vector with single key is specified.
       # DataFrame#pick creates a DataFrame with single key.
@@ -29,12 +33,22 @@ module RedAmber
       if block
         raise DataFrameArgumentError, 'Must not specify both arguments and block.' unless args.empty?
-        dropper = instance_eval(&block)
+        dropper = [instance_eval(&block)]
       end
-      dropper = [dropper].flatten
-      dropper = keys_by_booleans(dropper) if booleans?(dropper)
+      dropper.flatten!
+      key_vector = Vector.new(keys)
+      dropper_vector = parse_to_vector(dropper)
+      picker =
+        if dropper_vector.boolean?
+          key_vector.filter(*dropper_vector.primitive_invert).each.map(&:to_sym)
+        elsif dropper_vector.numeric?
+          keys - key_vector.take(*dropper_vector).each.map(&:to_sym)
+        else
+          keys - dropper
+        end
-      picker = keys - dropper
       return DataFrame.new if picker.empty?
       # DataFrame#[] creates a Vector with single key is specified.
@@ -91,10 +105,20 @@ module RedAmber
     def assign_update(*assigner, &block)
       if block
-        raise DataFrameArgumentError, 'Must not specify both arguments and a block' unless assigner.empty?
-        assigner = [instance_eval(&block)]
+        assigner_from_block = instance_eval(&block)
+        assigner =
+          if assigner.empty?
+            # block only
+            [assigner_from_block]
+          # If Ruby >= 3.0, one line pattern match can be used
+          # assigner_from_block in [Array, *]
+          elsif multiple_assigner?(assigner_from_block)
+            assigner.zip(assigner_from_block)
+          else
+            assigner.zip([assigner_from_block])
+          end
       end
       case assigner
       in [] | [nil] | [{}] | [[]]
         return self
@@ -113,6 +137,8 @@ module RedAmber
       updater = {}
       appender = {}
       key_array_pairs.each do |key, array|
+        raise DataFrameArgumentError, "Empty column data: #{key} => nil" if array.nil?
         if keys.include? key
           updater[key] = array
         else
@@ -153,7 +179,7 @@ module RedAmber
         data = updater[key]
         next unless data
-        raise DataFrameArgumentError, "Data size mismatch (#{data.size} != #{size})" if data.size != size
+        raise DataFrameArgumentError, "Data size mismatch (#{data.size} != #{size})" if data.nil? || data.size != size
         a = Arrow::Array.new(data.is_a?(Vector) ? data.to_a : data)
         fields[i] = Arrow::Field.new(key, a.value_data_type)
@@ -179,8 +205,13 @@ module RedAmber
       end
     end
-    def keys_by_booleans(booleans)
-      keys.select.with_index { |_, i| booleans[i] }
+    def multiple_assigner?(assigner)
+      case assigner
+      in [Vector, *] | [Array, *] | [Arrow::Array, *]
+        true
+      else
+        false
+      end
     end
   end
 end

data/lib/red_amber/vector.rb CHANGED Viewed

@@ -122,7 +122,7 @@ module RedAmber
       return enum_for(:each) unless block_given?
       size.times do |i|
-        yield self[i]
+        yield data[i]
       end
     end

data/lib/red_amber/vector_functions.rb CHANGED Viewed

@@ -34,13 +34,6 @@ module RedAmber
     end
     alias_method :std, :sd
-    # option(s) required
-    # - index
-    # Returns other than value
-    # - mode
-    # - tdigest
     # Return quantile
     #   0.5 quantile (median) is returned by default.
     #   Or return quantile for specified probability (prob).
@@ -88,8 +81,9 @@ module RedAmber
     # [Unary element-wise]: vector.func => vector
     unary_element_wise =
-      %i[abs array_sort_indices atan bit_wise_not ceil cos fill_null_backward fill_null_forward floor is_finite
-         is_inf is_nan is_null is_valid round round_to_multiple sign sin tan trunc unique]
+      %i[abs acos asin array_sort_indices atan bit_wise_not ceil cos fill_null_backward \
+         fill_null_forward floor is_finite is_inf is_nan is_null is_valid ln log10 log1p log2 \
+         round round_to_multiple sign sin tan trunc unique]
     unary_element_wise.each do |function|
       define_method(function) do |**options|
         datum = exec_func_unary(function, options)
@@ -129,16 +123,9 @@ module RedAmber
     end
     alias_method :not, :invert
-    # NaN support needed
-    # - acos asin ln log10 log1p log2
-    # Functions with numerical range check
-    # - abs_checked acos_checked asin_checked cos_checked ln_checked
-    #   log10_checked log1p_checked log2_checked sin_checked tan_checked
     # [Binary element-wise]: vector.func(other) => vector
     binary_element_wise =
-      %i[atan2 and_not and_not_kleene bit_wise_and bit_wise_or bit_wise_xor]
+      %i[atan2 and_not and_not_kleene bit_wise_and bit_wise_or bit_wise_xor logb]
     binary_element_wise.each do |function|
       define_method(function) do |other, **options|
         datum = exec_func_binary(function, other, options)
@@ -162,13 +149,6 @@ module RedAmber
       end
     end
-    # NaN support needed
-    # - logb
-    # Functions with numerical range check
-    # - add_checked divide_checked logb_checked multiply_checked power_checked subtract_checked
-    #   shift_left_checked shift_right_checked
     # [Binary element-wise with operator]: vector.func(other) => vector
     binary_element_wise_op = {
       add: '+',
@@ -216,6 +196,23 @@ module RedAmber
       [Vector.new(Array(other) * size), self]
     end
+    # < Not implimented yet > ---
+    # option(s) required
+    # - index
+    # Returns other than value
+    # - mode
+    # - tdigest
+    # Functions with numerical range check (unary)
+    # - abs_checked acos_checked asin_checked cos_checked ln_checked
+    #   log10_checked log1p_checked log2_checked sin_checked tan_checked
+    # Functions with numerical range check (binary)
+    # - add_checked divide_checked logb_checked multiply_checked power_checked subtract_checked
+    #   shift_left_checked shift_right_checked
     # (array functions)
     # dictionary_encode,
     # partition_nth_indices,

data/lib/red_amber/vector_selectable.rb CHANGED Viewed

@@ -82,16 +82,17 @@ module RedAmber
     #   @param values [Array, Arrow::Array, Vector]
     def is_in(*values)
-      values.flatten!
+      self_data = chunked? ? data.pack : data
       array =
-        case values[0]
-        when Vector
-          values[0].data
-        when Arrow::Array
-          values[0]
+        case values
+        in [Vector] | [Arrow::Array] | [Arrow::ChunkedArray]
+          values[0].to_a
+        else
+          Array(values).flatten
         end
-      array ||= data.class.new(values)
-      Vector.new(data.is_in(array))
+      Vector.new(self_data.is_in(array))
     end
     # Arrow's support required

data/lib/red_amber/version.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 # frozen_string_literal: true
 module RedAmber
-  VERSION = '0.2.0'
+  VERSION = '0.2.1'
 end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: red_amber
 version: !ruby/object:Gem::Version
-  version: 0.2.0
+  version: 0.2.1
 platform: ruby
 authors:
 - Hirokazu SUZUKI (heronshoes)
 autorequire:
 bindir: exe
 cert_chain: []
-date: 2022-08-15 00:00:00.000000000 Z
+date: 2022-09-07 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: red-arrow