RubyGems - polars-df - Versions diffs - 0.6.0 → 0.8.0 - Mend

polars-df 0.6.0 → 0.8.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (74) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +24 -0
data/Cargo.lock +597 -599
data/Cargo.toml +1 -0
data/README.md +8 -7
data/ext/polars/Cargo.toml +20 -10
data/ext/polars/src/batched_csv.rs +27 -28
data/ext/polars/src/conversion.rs +135 -106
data/ext/polars/src/dataframe.rs +140 -131
data/ext/polars/src/error.rs +0 -5
data/ext/polars/src/expr/binary.rs +18 -6
data/ext/polars/src/expr/categorical.rs +8 -1
data/ext/polars/src/expr/datetime.rs +10 -12
data/ext/polars/src/expr/general.rs +129 -286
data/ext/polars/src/expr/list.rs +17 -9
data/ext/polars/src/{expr.rs → expr/mod.rs} +4 -2
data/ext/polars/src/expr/name.rs +44 -0
data/ext/polars/src/expr/rolling.rs +201 -0
data/ext/polars/src/expr/string.rs +94 -67
data/ext/polars/src/file.rs +3 -3
data/ext/polars/src/functions/aggregation.rs +35 -0
data/ext/polars/src/functions/eager.rs +7 -31
data/ext/polars/src/functions/io.rs +10 -10
data/ext/polars/src/functions/lazy.rs +66 -41
data/ext/polars/src/functions/meta.rs +30 -0
data/ext/polars/src/functions/misc.rs +8 -0
data/ext/polars/src/functions/mod.rs +5 -0
data/ext/polars/src/functions/random.rs +6 -0
data/ext/polars/src/functions/range.rs +41 -0
data/ext/polars/src/functions/string_cache.rs +11 -0
data/ext/polars/src/functions/whenthen.rs +7 -7
data/ext/polars/src/lazyframe.rs +74 -60
data/ext/polars/src/lib.rs +175 -91
data/ext/polars/src/{apply → map}/dataframe.rs +29 -34
data/ext/polars/src/{apply → map}/mod.rs +5 -5
data/ext/polars/src/{apply → map}/series.rs +18 -22
data/ext/polars/src/object.rs +0 -30
data/ext/polars/src/on_startup.rs +32 -0
data/ext/polars/src/rb_modules.rs +22 -7
data/ext/polars/src/series/aggregation.rs +3 -0
data/ext/polars/src/series/construction.rs +5 -5
data/ext/polars/src/series/export.rs +4 -4
data/ext/polars/src/{series.rs → series/mod.rs} +28 -45
data/ext/polars/src/series/{set_at_idx.rs → scatter.rs} +38 -22
data/ext/polars/src/sql.rs +46 -0
data/ext/polars/src/utils.rs +1 -1
data/lib/polars/config.rb +530 -0
data/lib/polars/data_frame.rb +182 -145
data/lib/polars/data_types.rb +4 -1
data/lib/polars/date_time_expr.rb +23 -28
data/lib/polars/date_time_name_space.rb +17 -37
data/lib/polars/dynamic_group_by.rb +2 -2
data/lib/polars/expr.rb +398 -110
data/lib/polars/functions.rb +29 -37
data/lib/polars/group_by.rb +38 -55
data/lib/polars/io.rb +40 -5
data/lib/polars/lazy_frame.rb +116 -89
data/lib/polars/lazy_functions.rb +40 -68
data/lib/polars/lazy_group_by.rb +7 -8
data/lib/polars/list_expr.rb +12 -8
data/lib/polars/list_name_space.rb +2 -2
data/lib/polars/name_expr.rb +198 -0
data/lib/polars/rolling_group_by.rb +2 -2
data/lib/polars/series.rb +315 -43
data/lib/polars/sql_context.rb +194 -0
data/lib/polars/string_expr.rb +114 -60
data/lib/polars/string_name_space.rb +19 -4
data/lib/polars/struct_expr.rb +1 -1
data/lib/polars/struct_name_space.rb +1 -1
data/lib/polars/utils.rb +25 -13
data/lib/polars/version.rb +1 -1
data/lib/polars.rb +3 -0
metadata +23 -11
/data/ext/polars/src/{apply → map}/lazy.rs +0 -0

data/Cargo.toml CHANGED Viewed

@@ -1,5 +1,6 @@
 [workspace]
 members = ["ext/polars"]
+resolver = "2"
 [patch.crates-io]
 jsonpath_lib = { git = "https://github.com/ritchie46/jsonpath", rev = "24eaf0b4416edff38a4d1b6b17bc4b9f3f047b4b" }

data/README.md CHANGED Viewed

@@ -20,7 +20,7 @@ This library follows the [Polars Python API](https://pola-rs.github.io/polars/py
 Polars.read_csv("iris.csv")
   .lazy
   .filter(Polars.col("sepal_length") > 5)
-  .groupby("species")
+  .group_by("species")
   .agg(Polars.all.sum)
   .collect
 ```
@@ -260,19 +260,19 @@ df["a"].var
 Group
 ```ruby
-df.groupby("a").count
+df.group_by("a").count
 ```
 Works with all summary statistics
 ```ruby
-df.groupby("a").max
+df.group_by("a").max
 ```
 Multiple groups
 ```ruby
-df.groupby(["a", "b"]).count
+df.group_by(["a", "b"]).count
 ```
 ## Combining Data Frames
@@ -359,7 +359,8 @@ Supported types are:
 - unsigned integer - `UInt64`, `UInt32`, `UInt16`, `UInt8`
 - string - `Utf8`, `Binary`, `Categorical`
 - temporal - `Date`, `Datetime`, `Time`, `Duration`
-- other - `Object`, `List`, `Struct`, `Array` [unreleased]
+- nested -  `List`, `Struct`, `Array`
+- other - `Object`, `Null`
 Get column types
@@ -402,13 +403,13 @@ df.plot("a", "b", type: "pie")
 Group data
 ```ruby
-df.groupby("c").plot("a", "b")
+df.group_by("c").plot("a", "b")
 ```
 Stacked columns or bars
 ```ruby
-df.groupby("c").plot("a", "b", stacked: true)
+df.group_by("c").plot("a", "b", stacked: true)
 ```
 ## History

data/ext/polars/Cargo.toml CHANGED Viewed

@@ -1,9 +1,10 @@
 [package]
 name = "polars"
-version = "0.6.0"
+version = "0.8.0"
 license = "MIT"
 authors = ["Andrew Kane <andrew@ankane.org>"]
 edition = "2021"
+rust-version = "1.73.0"
 publish = false
 [lib]
@@ -11,14 +12,17 @@ crate-type = ["cdylib"]
 [dependencies]
 ahash = "0.8"
-chrono = "=0.4.24"
-magnus = "0.5"
-polars-core = "0.31.1"
+chrono = "0.4"
+either = "1.8"
+magnus = "0.6"
+polars-core = "=0.36.2"
+polars-parquet = "=0.36.2"
+polars-utils = "=0.36.2"
 serde_json = "1"
 smartstring = "1"
 [dependencies.polars]
-version = "0.31.1"
+version = "=0.36.2"
 features = [
     "abs",
     "approx_unique",
@@ -27,32 +31,35 @@ features = [
     "avro",
     "binary_encoding",
     "concat_str",
+    "cov",
     "cse",
     "csv",
     "cum_agg",
     "cumulative_eval",
+    "cutqcut",
     "dataframe_arithmetic",
     "date_offset",
     "diagonal_concat",
     "diff",
     "dot_product",
     "dtype-full",
-    "dynamic_groupby",
+    "dynamic_group_by",
     "ewma",
     "extract_jsonpath",
     "fmt",
     "horizontal_concat",
     "interpolate",
     "ipc",
-    "is_first",
+    "is_first_distinct",
     "is_in",
+    "is_last_distinct",
     "is_unique",
     "json",
     "lazy",
     "lazy_regex",
     "list_count",
     "list_eval",
-    "list_take",
+    "list_gather",
     "list_to_struct",
     "log",
     "meta",
@@ -62,6 +69,7 @@ features = [
     "parquet",
     "partition_by",
     "pct_change",
+    "peaks",
     "performant",
     "pivot",
     "product",
@@ -71,6 +79,7 @@ features = [
     "range",
     "reinterpret",
     "repeat_by",
+    "rle",
     "rolling_window",
     "round_series",
     "row_hash",
@@ -78,9 +87,10 @@ features = [
     "semi_anti_join",
     "serde-lazy",
     "sign",
+    "sql",
     "string_encoding",
-    "string_from_radix",
-    "string_justify",
+    "string_pad",
+    "string_to_integer",
     "strings",
     "timezones",
     "to_dummies",

data/ext/polars/src/batched_csv.rs CHANGED Viewed

@@ -1,4 +1,4 @@
-use magnus::{RArray, Value};
+use magnus::{prelude::*, RArray, Value};
 use polars::io::mmap::MmapBytesReader;
 use polars::io::RowCount;
 use polars::prelude::read_impl::OwnedBatchedCsvReader;
@@ -24,35 +24,34 @@ impl RbBatchedCsv {
     pub fn new(arguments: &[Value]) -> RbResult<Self> {
         // start arguments
         // this pattern is needed for more than 16
-        let infer_schema_length: Option<usize> = arguments[0].try_convert()?;
-        let chunk_size: usize = arguments[1].try_convert()?;
-        let has_header: bool = arguments[2].try_convert()?;
-        let ignore_errors: bool = arguments[3].try_convert()?;
-        let n_rows: Option<usize> = arguments[4].try_convert()?;
-        let skip_rows: usize = arguments[5].try_convert()?;
-        let projection: Option<Vec<usize>> = arguments[6].try_convert()?;
-        let sep: String = arguments[7].try_convert()?;
-        let rechunk: bool = arguments[8].try_convert()?;
-        let columns: Option<Vec<String>> = arguments[9].try_convert()?;
-        let encoding: Wrap<CsvEncoding> = arguments[10].try_convert()?;
-        let n_threads: Option<usize> = arguments[11].try_convert()?;
-        let path: PathBuf = arguments[12].try_convert()?;
-        let overwrite_dtype: Option<Vec<(String, Wrap<DataType>)>> = arguments[13].try_convert()?;
+        let infer_schema_length = Option::<usize>::try_convert(arguments[0])?;
+        let chunk_size = usize::try_convert(arguments[1])?;
+        let has_header = bool::try_convert(arguments[2])?;
+        let ignore_errors = bool::try_convert(arguments[3])?;
+        let n_rows = Option::<usize>::try_convert(arguments[4])?;
+        let skip_rows = usize::try_convert(arguments[5])?;
+        let projection = Option::<Vec<usize>>::try_convert(arguments[6])?;
+        let separator = String::try_convert(arguments[7])?;
+        let rechunk = bool::try_convert(arguments[8])?;
+        let columns = Option::<Vec<String>>::try_convert(arguments[9])?;
+        let encoding = Wrap::<CsvEncoding>::try_convert(arguments[10])?;
+        let n_threads = Option::<usize>::try_convert(arguments[11])?;
+        let path = PathBuf::try_convert(arguments[12])?;
+        let overwrite_dtype = Option::<Vec<(String, Wrap<DataType>)>>::try_convert(arguments[13])?;
         // TODO fix
-        let overwrite_dtype_slice: Option<Vec<Wrap<DataType>>> = None; // arguments[14].try_convert()?;
-        let low_memory: bool = arguments[15].try_convert()?;
-        let comment_char: Option<String> = arguments[16].try_convert()?;
-        let quote_char: Option<String> = arguments[17].try_convert()?;
-        let null_values: Option<Wrap<NullValues>> = arguments[18].try_convert()?;
-        let try_parse_dates: bool = arguments[19].try_convert()?;
-        let skip_rows_after_header: usize = arguments[20].try_convert()?;
-        let row_count: Option<(String, IdxSize)> = arguments[21].try_convert()?;
-        let sample_size: usize = arguments[22].try_convert()?;
-        let eol_char: String = arguments[23].try_convert()?;
+        let overwrite_dtype_slice = Option::<Vec<Wrap<DataType>>>::None; // Option::<Vec<Wrap<DataType>>>::try_convert(arguments[14])?;
+        let low_memory = bool::try_convert(arguments[15])?;
+        let comment_prefix = Option::<String>::try_convert(arguments[16])?;
+        let quote_char = Option::<String>::try_convert(arguments[17])?;
+        let null_values = Option::<Wrap<NullValues>>::try_convert(arguments[18])?;
+        let try_parse_dates = bool::try_convert(arguments[19])?;
+        let skip_rows_after_header = usize::try_convert(arguments[20])?;
+        let row_count = Option::<(String, IdxSize)>::try_convert(arguments[21])?;
+        let sample_size = usize::try_convert(arguments[22])?;
+        let eol_char = String::try_convert(arguments[23])?;
         // end arguments
         let null_values = null_values.map(|w| w.0);
-        let comment_char = comment_char.map(|s| s.as_bytes()[0]);
         let eol_char = eol_char.as_bytes()[0];
         let row_count = row_count.map(|(name, offset)| RowCount { name, offset });
@@ -90,7 +89,7 @@ impl RbBatchedCsv {
             .infer_schema(infer_schema_length)
             .has_header(has_header)
             .with_n_rows(n_rows)
-            .with_delimiter(sep.as_bytes()[0])
+            .with_separator(separator.as_bytes()[0])
             .with_skip_rows(skip_rows)
             .with_ignore_errors(ignore_errors)
             .with_projection(projection)
@@ -101,7 +100,7 @@ impl RbBatchedCsv {
             .with_n_threads(n_threads)
             .with_dtypes_slice(overwrite_dtype_slice.as_deref())
             .low_memory(low_memory)
-            .with_comment_char(comment_char)
+            .with_comment_prefix(comment_prefix.as_deref())
             .with_null_values(null_values)
             .with_try_parse_dates(try_parse_dates)
             .with_quote_char(quote_char)