RubyGems - carray-dataframe - Versions diffs - 1.0.0 - Mend

carray-dataframe 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (24) hide show

checksums.yaml +7 -0
data/API.txt +83 -0
data/README.md +5 -0
data/carray-dataframe.gemspec +25 -0
data/examples/R/fit.rb +24 -0
data/examples/R/iris.rb +9 -0
data/examples/R/japan_area.rb +30 -0
data/examples/R/kyaku.rb +22 -0
data/examples/group_by.rb +78 -0
data/examples/hist.rb +27 -0
data/examples/iris.rb +29 -0
data/examples/map.rb +23 -0
data/examples/match.rb +21 -0
data/examples/test.xlsx +0 -0
data/examples/test1.rb +44 -0
data/examples/test2.rb +14 -0
data/examples/test3.db +0 -0
data/examples/test3.rb +11 -0
data/examples/test3.xlsx +0 -0
data/examples/to_excel.rb +27 -0
data/lib/R.rb +365 -0
data/lib/carray/autoload/autoload_dataframe_dataframe.rb +26 -0
data/lib/carray/dataframe/dataframe.rb +1640 -0
metadata +106 -0

checksums.yaml ADDED

@@ -0,0 +1,7 @@
+---
+SHA1:
+  metadata.gz: 7f93c348e3fd8e166ddba89d5ddc1f0fb86653a6
+  data.tar.gz: cb16a824a9e0c2aaf40db3f26328176ef9eb882e
+SHA512:
+  metadata.gz: 8f96c5cf91470a732a09aa1e3629b94963d29d786dbfa9768430c18e0ebe1b2219f7256ddc17c783ce8cac9253c19c4cbce9e16d005435f0f718f97c788b832d
+  data.tar.gz: b982e8a4b8f162f69bb86fd31d0d92d1d86c7c06b663b9cc091974fe46fcdbf16635e3e793cc91b813fd54cff29e7135416c449ba0089985332dad354d2a18a9

data/API.txt ADDED

@@ -0,0 +1,83 @@
+### Constructor
+CADataFrame.new(columns_or_table, row_index: nil, column_names: nil)
+CADataFrame.new(columns_or_table, row_index: nil, column_names: nil) { ... }
+  If block specified, arrange is called internaly with the block.
+### Attributes
+CADataFrame#column_number
+CADataFrame#column_names
+CADataFrame#column_types
+CADataFrame#columns
+CADataFrame#row_index
+CADataFrame#row_number
+### Index Access
+df[["AAA"]]        => CADataFrame include column "AAA"
+df[["AAA","BBB"]]  => CADataFrame include column "AAA", "BBB"
+df["AAA"]               => 1 dimensional CArray
+df[["AAA"]].to_ca       => 2 dimensional CArray with column_names
+df[["AAA","BBB"]].to_ca => 2 dimensional CArray with column_names
+df[dfmask]
+  return new detached CADataFrame masked where dfmask's value equal 1
+### Iterators
+CADataFrame#each_column_name { |name| ... }
+CADataFrame#each_column { |name, column| ... }
+CADataFrame#each_row(with: [Array|Hash]) { |row| ... }
+CADataFrame#each_row_with_row_index(with: [Array|Hash]) { |row, idx| ... }
+### Transformation
+CADataFrame#add_suffix(suffix_string) -> CADataFrame
+  Add suffix_string to all column names
+CADataFrame#transpose(column_names: )
+### Conversion
+CADataFrame#ca      -> CADFArray (Reference Array)
+CADataFrame#to_ca   -> CArray with CA::TableMethods
+CADataFrame#to_hash -> Hash
+CADataFrame#to_xlsx(with_row_index: false) -> Hash
+  Masked element converted to "=NA()"
+CADataFrame#columns_to_hash(key_name, *value_names)
+ex) df.columns_to_hash("bbb",["aaa","ccc"])
+  ---------------
+   aaa  bbb  ccc
+  ---------------
+   4    10   100
+   5    20   50
+   6    30   -30
+   7    40   -50
+  ---------------
+  {10=>[4, 100], 20=>[5, 50], 30=>[6, -30], 40=>[7, -50]}
+CADataFrame
+#append(name) { INSTANCE_CONTEXT }    <- any carray
+#lead(name) { INSTANCE_CONTEXT }      <- any carray
+#execute { INSTANCE_CONTEXT }         => any object
+#select(name...) { INSTANCE_CONTEXT } <- boolean carray
+#reorder { INSTANCE_CONTEXT }         <- int32 carray (addresses for mapping)
+#order_by { INSTANCE_CONTEXT }        <- Array of int32 carray or carray (addresses for mapping)
+#calculate {|label, column| CALLER_CONTEXT } <- scalar
+#resample {|label, column| CALLER_CONTEXT }  <- any carray

data/README.md ADDED

@@ -0,0 +1,5 @@
+carray-dataframe
+================
+gem install rsruby

data/carray-dataframe.gemspec ADDED

@@ -0,0 +1,25 @@
+Gem::Specification::new do |s|
+  version = "1.0.0"
+  files = Dir.glob("**/*") - [
+                               Dir.glob("carray*.gem"),
+                             ].flatten
+  s.platform    = Gem::Platform::RUBY
+  s.name        = "carray-dataframe"
+  s.summary     = "Extension for realizing DataFrame of R in Ruby"
+  s.description = <<-HERE
+    Extension for realizing DataFrame of R in Ruby
+  HERE
+  s.version     = version
+  s.author      = "Hiroki Motoyoshi"
+  s.email       = ""
+  s.homepage    = 'https://github.com/himotoyoshi/carray-dataframe'
+  s.files       = files
+  s.has_rdoc    = false
+  s.required_ruby_version = ">= 1.8.1"
+  s.add_runtime_dependency 'carray', '~> 1.1'
+  s.add_runtime_dependency 'axlsx', '~> 2.0'
+  s.add_runtime_dependency 'spreadsheet', '~> 1.1'
+end

data/examples/R/fit.rb ADDED

@@ -0,0 +1,24 @@
+require "carray"
+require "R"
+R.run
+x = CArray.float(200).span(0..4r)
+v = x.random(4)-2
+a = 3
+b = 5
+c = 7
+y = a*x**2 + b*x + c + v
+res = R %{
+  nls(y ~ a*x^2 + b*x + c, start=c(a=100,b=1,c=1), trace=TRUE)
+}, :x=>x, :y=>y
+a1,b1,c1 = R.coef(res).to_ruby.values_at("a","b","c")
+CA.gnuplot {
+  plot [x,y],
+       [x,a1*x**2+b1*x+c, nil, "lines"]
+}

data/examples/R/iris.rb ADDED

@@ -0,0 +1,9 @@
+require "R"
+R.run
+iris = R.iris
+CA.gnuplot {
+  plot [iris.Sepal_Length, iris.Sepal_Width]
+}

data/examples/R/japan_area.rb ADDED

@@ -0,0 +1,30 @@
+#
+# From https://oku.edu.mie-u.ac.jp/~okumura/stat/100410a.html
+#
+require "R"
+R.run
+areaname = ["北海道","本州","四国","九州","沖縄"].to_ca
+areasize = [83457,231113,18792,42191,2276].to_ca / 10000.0
+R %{
+  par(family="HiraKakuProN-W3")
+  par(las=1)
+  par(mgp=c(2,0.8,0))
+  barplot(areasize, names.arg=areaname)
+  axis(2, labels="面積 (万km^2)", at=20, hadj=0.3, padj=-1, tick=FALSE)
+}, :areasize=>areasize, :areaname=>areaname
+gets
+R {
+  par :family=>"HiraKakuProN-W3"
+  par :las=>1
+  par :mgp=>[2,0.8,0]
+  barplot areasize, "names.arg"=>areaname
+  axis 2, :labels=>"面積 (万km^2)", :at=>20, :hadj=>0.3, :padj=>-1, :tick=>false
+}
+gets

data/examples/R/kyaku.rb ADDED

@@ -0,0 +1,22 @@
+require "carray"
+CA.gnuplot {
+  terminal %{ wxt }
+  (1..10).each do |n|
+    x = CArray.double(1000000) {0}
+    n.times do
+      x += CArray.double(1000000).random
+    end
+    x = x/n
+    df = CADataFrame.new(:x=>x)
+    h = df.histogram(:x, CA_DOUBLE(0..1,0.01))
+    plot [h.x, h.count, nil, "boxes fill solid 0.5 noborder"],
+         :x=>[nil, 0..1],
+         :title=>n.to_s,
+         :nopause=>true
+    sleep 0.5
+  end
+  gets
+}

data/examples/group_by.rb ADDED

@@ -0,0 +1,78 @@
+require "carray"
+csv =<<HERE
+name,v1,v2
+A,1,3
+B,3,2
+C,2,1
+B,1,3
+C,1,4
+A,4,2
+B,5,3
+C,3,3
+C,1,1
+C,6,3
+C,8,1
+A,1,2
+HERE
+f = CADataFrame.from_csv(csv) {
+  header
+  body
+}.arrange {
+  int :v1, :v2
+}
+p f.resample { |l, c|
+  c = c.reshape(false,2)
+  case l
+  when "name"
+    c[nil,-1]
+  else
+    c.max(1)
+  end
+}
+p df = CADataFrame.concat(f.calculate(:sum),
+                          f.calculate(:mean)).arrange {
+  eliminate :name
+  append :sum, v1 + v2
+}
+p f.group_by(:name).table {
+  {
+    :count  => row_number,
+    :v1_sum => v1.sum,
+    :v1_mean => v1.mean,
+    :v2_sum => v2.sum,
+    :v2_mean => v2.mean,
+  }
+}
+p f.group_by(:v2).table {
+  {
+    :count    => row_number,
+    :namelist => name.sort.join(""),
+  }
+}
+p "--- Pivot"
+p f.pivot({:v1=>CA_INT(1..8)},{:v2=>CA_INT(1..5)}).table {
+  name.size > 0 ? name.join("") : "-"
+}
+g = f.group_by(:v1,:v2)
+p t = g.table {
+  {
+    :count    => row_number,
+    :namelist => name.sort.join(""),
+  }
+}
+p g[[1,3]]
+p t.select { count >= 2 }

data/examples/hist.rb ADDED

@@ -0,0 +1,27 @@
+require "carray"
+text = <<EOS
+name,NAME,a,b,c
+u,U,1,2,3
+v,V,2,3,4
+w,W,5,1,3
+x,X,4,3,1
+y,Y,1,1,2
+z,Z,2,3,1
+EOS
+df = CADataFrame.from_csv(text) {
+  header
+  body
+}.arrange {
+  int :a,:b,:c
+}
+CA.gnuplot {
+  set %{ style histogram rowstacked }
+  set %{ style fill solid border -1 }
+  plot [df.a, "a", "histogram"],
+       [df.b, "b", "histogram"],
+       [df.c, "c", "histogram"],
+       :x=>["NAME",nil,nil, histogram_tics(df.NAME)],
+       :y=>["VALUE",0..20]
+}

data/examples/iris.rb ADDED

@@ -0,0 +1,29 @@
+require "carray"
+require "R"
+require_relative "../lib/carray/dataframe/dataframe"
+R.run
+df = R.iris
+df.lead "id", df.row_index
+p df
+df.to_xlsx('out.xlsx')
+petal = df[["id", "Petal.Length","Petal.Width"]]
+sepal = df[["id", "Sepal.Length","Sepal.Width"]]
+species = df[["id", "Species"]]
+p df["Species"].value_counts
+#p d2 = df.to_daru
+tbl = df.to_sql("iris").to_df %{
+  select * from iris order by Sepal_Width desc;
+}
+p tbl
+#tbl.to_xlsx("out.xlsx")

data/examples/map.rb ADDED

@@ -0,0 +1,23 @@
+require "carray"
+csv =<<CSV
+id,gender,ans1,ans2
+1,F,1,0
+2,F,0,0
+3,M,1,0
+4,M,0,1
+5,F,1,1
+CSV
+df = CADataFrame.from_csv(csv) {
+  header
+  body
+}.arrange {
+  int :id,:ans1,:ans2
+  append :ans1s, ["NG","OK"].to_ca[ans1]
+  append :ans2s, ["NG","OK"].values_at(*ans2.to_a)
+}
+p df
+#p df.group_by(:gender).calculate(:sum)

data/examples/match.rb ADDED

@@ -0,0 +1,21 @@
+require "carray"
+df = CADataFrame.new a: [1,2,3,5,6,7,9,10],
+                     b: [30,20,20,30,20,10,20,30],
+                     c: [2,1,1,1,2,1,2,2]
+a1 = CA_INT([1,2,5,6,7,9])
+a2 = CA_INT([1,2,3,4,5,6,7,8,10,11])
+p df
+p df.matchup(:a, a1)
+df2 = df.matchup(:a, a2)
+df2.arrange {
+  unmask -9999, :b, :c
+}
+p df2
+b1 = CA_INT([10,20,30])
+p df.matchup(:b, b1)

data/examples/test.xlsx ADDED

Binary file

data/examples/test1.rb ADDED

@@ -0,0 +1,44 @@
+require "carray"
+require_relative "../lib/carray/dataframe/dataframe"
+hash =   { 'aaa' => [4,5,6,7], 'bbb' => [10,20,30,40], 'ccc' => [100,50,-30,-50] }
+p df = CADataFrame.new(hash)
+table = CA_OBJECT([[4,5,6,7], [10,20,30,40], [100,50,-30,-50]]).t
+p df = CADataFrame.new(table, column_names: ['aaa','bbb','ccc'])
+table.extend(CA::TableMethods)
+table.column_names = ['aaa','bbb','ccc']
+p df = CADataFrame.new(table)
+hash =   { 'aaa' => [4,5,6,7], 'bbb' => [10,20,30,40], 'ccc' => [100,50,-30,-50] }
+p df = CADataFrame.new(hash, row_index: ["a","b","c","d"])
+df.each_row(with: Array) {|row|
+  p row
+}
+df.each_row_with_row_index(with: Array) {|row,i|
+  p [row,i]
+}
+p df.to_ca.column_names
+p df.to_hash
+p df.columns_to_hash("bbb","aaa")
+p df.columns_to_hash("bbb",["aaa"])
+p df.columns_to_hash("bbb",["aaa","ccc"])
+p df.add_suffix("_no")
+p df.transpose
+p df2 = df.to_df
+p df["aaa"]
+p b = df[["aaa"]]
+#b.detouch!
+b[0,0] = -1111
+p df
+p df2