npm - node-pandas - Versions diffs - 1.0.4 → 2.0.0 - Mend

node-pandas 1.0.4 → 2.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (41) hide show

package/.kiro/agents/git-committer-agent.md +208 -0
package/.kiro/agents/npm-publisher-agent.md +501 -0
package/.kiro/publish-status-2.0.0.md +134 -0
package/.kiro/published-versions.md +11 -0
package/.kiro/specs/pandas-like-enhancements/.config.kiro +1 -0
package/.kiro/specs/pandas-like-enhancements/design.md +377 -0
package/.kiro/specs/pandas-like-enhancements/requirements.md +257 -0
package/.kiro/specs/pandas-like-enhancements/tasks.md +477 -0
package/CHANGELOG.md +42 -0
package/README.md +375 -103
package/TESTING_SETUP.md +183 -0
package/jest.config.js +25 -0
package/package.json +11 -3
package/src/bases/CsvBase.js +4 -13
package/src/dataframe/dataframe.js +596 -64
package/src/features/GroupBy.js +561 -0
package/src/features/dateRange.js +106 -0
package/src/index.js +6 -1
package/src/series/series.js +690 -14
package/src/utils/errors.js +314 -0
package/src/utils/getIndicesColumns.js +1 -1
package/src/utils/getTransformedDataList.js +1 -1
package/src/utils/logger.js +259 -0
package/src/utils/typeDetection.js +339 -0
package/src/utils/utils.js +5 -1
package/src/utils/validation.js +450 -0
package/tests/README.md +151 -0
package/tests/integration/.gitkeep +0 -0
package/tests/integration/README.md +3 -0
package/tests/property/.gitkeep +0 -0
package/tests/property/README.md +3 -0
package/tests/setup.js +16 -0
package/tests/test.js +58 -21
package/tests/unit/.gitkeep +0 -0
package/tests/unit/README.md +3 -0
package/tests/unit/dataframe.test.js +1141 -0
package/tests/unit/example.test.js +23 -0
package/tests/unit/series.test.js +441 -0
package/tests/unit/tocsv.test.js +838 -0
package/tests/utils/testAssertions.js +143 -0
package/tests/utils/testDataGenerator.js +123 -0

package/README.md CHANGED Viewed

@@ -11,10 +11,12 @@ An [npm package](https://www.npmjs.com/package/node-pandas) that incorporates mi
 > For now, you can
 >
 > + create Series(using 1D array), DataFrame(using 2D array or file `readCsv()`)
+> + access Series object using exactly an array like syntax (indexing, looping etc.)
 > + view columns, index
 > + save DataFrame in a CSV file `toCsv()`
 > + access elements using indices/column names
 > + view contents in pretty tabular form on console
+> + access DataFrame's columns using column names
 ## Installation
@@ -41,6 +43,12 @@ An [npm package](https://www.npmjs.com/package/node-pandas) that incorporates mi
 4.  [Example 4 - Accessing columns (Retrieving columns using column name)](#df-ex4) - `df.fullName -> ["R A", "B R", "P K"]`
+5.  [Example 5 - Selecting specific columns using select()](#df-ex5)
+6.  [Example 6 - Filtering DataFrame rows using filter()](#df-ex6)
+7.  [Example 7 - Grouping and aggregating data using groupBy()](#df-ex7)
 <hr>
 ## Getting started
@@ -65,7 +73,7 @@ NodeSeries [
   -3,
   0,
   5,
-  _data: [ 1, 9, 2, 6, 7, -8, 4, -3, 0, 5 ] ]
+]
 >
 > s.show
 ┌─────────┬────────┐
@@ -111,21 +119,18 @@ undefined
 ...     ['Wes McKinney', 3, 'Pandas'],
 ...     ['Ken Thompson', 1, 'B language']
 ... ], columns)
-NodeDataFrame {
+NodeDataFrame [
+  [ 'Guido Van Rossum', 6, 'Python' ],
+  [ 'Ryan Dahl', 5, 'Node.js' ],
+  [ 'Anders Hezlsberg', 7, 'TypeScript' ],
+  [ 'Wes McKinney', 3, 'Pandas' ],
+  [ 'Ken Thompson', 1, 'B language' ],
   columns: [ 'full_name', 'user_id', 'technology' ],
   index: [ 0, 1, 2, 3, 4 ],
-  _data:
-   [ { full_name: 'Guido Van Rossum',
-       user_id: 6,
-       technology: 'Python' },
-     { full_name: 'Ryan Dahl', user_id: 5, technology: 'Node.js' },
-     { full_name: 'Anders Hezlsberg',
-       user_id: 7,
-       technology: 'TypeScript' },
-     { full_name: 'Wes McKinney', user_id: 3, technology: 'Pandas' },
-     { full_name: 'Ken Thompson',
-       user_id: 1,
-       technology: 'B language' } ] }
+  rows: 5,
+  cols: 3,
+  out: true
+]
 >
 > df.show
 ┌─────────┬────────────────────┬─────────┬──────────────┐
@@ -181,37 +186,52 @@ Now have a look the below statements executed on Node REPL.
 undefined
 >
 > df = pd.readCsv("/Users/hygull/Projects/NodeJS/node-pandas/docs/csvs/devs.csv")
-NodeDataFrame {
+NodeDataFrame [
+  {
+    fullName: 'Ken Thompson',
+    Profession: 'C developer',
+    Language: 'C',
+    DevId: 1122
+  },
+  {
+    fullName: 'Ron Wilson',
+    Profession: 'Ruby developer',
+    Language: 'Ruby',
+    DevId: 4433
+  },
+  {
+    fullName: 'Jeff Thomas',
+    Profession: 'Java developer',
+    Language: 'Java',
+    DevId: 8899
+  },
+  {
+    fullName: 'Rishikesh Agrawani',
+    Profession: 'Python developer',
+    Language: 'Python',
+    DevId: 6677
+  },
+  {
+    fullName: 'Kylie Dwine',
+    Profession: 'C++',
+    Language: 'C++ Developer',
+    DevId: 11
+  },
+  {
+    fullName: 'Briella Brown',
+    Profession: 'JavaScirpt developer',
+    Language: 'JavaScript',
+    DevId: 8844
+  },
   columns: [ 'fullName', 'Profession', 'Language', 'DevId' ],
-  index: [ '0', '1', '2', '3', '4', '5' ],
-  _data:
-   [ { fullName: 'Ken Thompson',
-       Profession: 'C developer',
-       Language: 'C',
-       DevId: 1122 },
-     { fullName: 'Ron Wilson',
-       Profession: 'Ruby developer',
-       Language: 'Ruby',
-       DevId: 4433 },
-     { fullName: 'Jeff Thomas',
-       Profession: 'Java developer',
-       Language: 'Java',
-       DevId: 8899 },
-     { fullName: 'Rishikesh Agrawani',
-       Profession: 'Python developer',
-       Language: 'Python',
-       DevId: 6677 },
-     { fullName: 'Kylie Dwine',
-       Profession: 'C++',
-       Language: 'C++ Developer',
-       DevId: 11 },
-     { fullName: 'Briella Brown',
-       Profession: 'JavaScript developer',
-       Language: 'JavaScript',
-       DevId: 8844 } ] }
+  index: [ 0, 1, 2, 3, 4, 5 ],
+  rows: 6,
+  cols: 4,
+  out: true
+]
 >
 > df.index
-[ '0', '1', '2', '3', '4', '5' ]
+[ 0, 1, 2, 3, 4, 5 ]
 >
 > df.columns
 [ 'fullName', 'Profession', 'Language', 'DevId' ]
@@ -253,59 +273,48 @@ undefined
 >
 > df = pd.readCsv("./docs/csvs/devs.csv")
 NodeDataFrame [
-  { fullName: 'Ken Thompson',
+  {
+    fullName: 'Ken Thompson',
     Profession: 'C developer',
     Language: 'C',
-    DevId: 1122 },
-  { fullName: 'Ron Wilson',
+    DevId: 1122
+  },
+  {
+    fullName: 'Ron Wilson',
     Profession: 'Ruby developer',
     Language: 'Ruby',
-    DevId: 4433 },
-  { fullName: 'Jeff Thomas',
+    DevId: 4433
+  },
+  {
+    fullName: 'Jeff Thomas',
     Profession: 'Java developer',
     Language: 'Java',
-    DevId: 8899 },
-  { fullName: 'Rishikesh Agrawani',
+    DevId: 8899
+  },
+  {
+    fullName: 'Rishikesh Agrawani',
     Profession: 'Python developer',
     Language: 'Python',
-    DevId: 6677 },
-  { fullName: 'Kylie Dwine',
+    DevId: 6677
+  },
+  {
+    fullName: 'Kylie Dwine',
     Profession: 'C++',
     Language: 'C++ Developer',
-    DevId: 11 },
-  { fullName: 'Briella Brown',
-    Profession: 'JavaScript developer',
+    DevId: 11
+  },
+  {
+    fullName: 'Briella Brown',
+    Profession: 'JavaScirpt developer',
     Language: 'JavaScript',
-    DevId: 8844 },
+    DevId: 8844
+  },
   columns: [ 'fullName', 'Profession', 'Language', 'DevId' ],
-  index: [ '0', '1', '2', '3', '4', '5' ],
-  _data: [ { fullName: 'Ken Thompson',
-      Profession: 'C developer',
-      Language: 'C',
-      DevId: 1122 },
-    { fullName: 'Ron Wilson',
-      Profession: 'Ruby developer',
-      Language: 'Ruby',
-      DevId: 4433 },
-    { fullName: 'Jeff Thomas',
-      Profession: 'Java developer',
-      Language: 'Java',
-      DevId: 8899 },
-    { fullName: 'Rishikesh Agrawani',
-      Profession: 'Python developer',
-      Language: 'Python',
-      DevId: 6677 },
-    { fullName: 'Kylie Dwine',
-      Profession: 'C++',
-      Language: 'C++ Developer',
-      DevId: 11 },
-    { fullName: 'Briella Brown',
-      Profession: 'JavaScript developer',
-      Language: 'JavaScript',
-      DevId: 8844 } ],
+  index: [ 0, 1, 2, 3, 4, 5 ],
   rows: 6,
   cols: 4,
-  out: true ]
+  out: true
+]
 >
 > df.cols
 4
@@ -314,7 +323,7 @@ NodeDataFrame [
 > df.columns
 [ 'fullName', 'Profession', 'Language', 'DevId' ]
 > df.index
-[ '0', '1', '2', '3', '4', '5' ]
+[ 0, 1, 2, 3, 4, 5 ]
 >
 > df.toCsv("/Users/hygull/Desktop/newDevs.csv")
 undefined
@@ -361,38 +370,300 @@ df.show // View DataFrame in tabular form
 └─────────┴──────────────────────┴────────────────────────┴─────────────────┴───────┘
 */
-console.log(df['fullName']) // Access Column name fullname
+console.log(df['fullName'])
 /*
-    [
-        'Ken Thompson',
-        'Ron Wilson',
-        'Jeff Thomas',
-        'Rishikesh Agrawani',
-        'Kylie Dwine',
-        'Briella Brown'
+    NodeSeries [
+      'Ken Thompson',
+      'Ron Wilson',
+      'Jeff Thomas',
+      'Rishikesh Agrawani',
+      'Kylie Dwine',
+      'Briella Brown'
     ]
 */
-console.log(df.Language) // df['Language']
+console.log(df.DevId)
+/*
+    NodeSeries [ 1122, 4433, 8899, 6677, 11, 8844 ]
+*/
+let languages = df.Language
+console.log(languages)
 /*
-    [ 'C', 'Ruby', 'Java', 'Python', 'C++ Developer', 'JavaScript' ]
+    NodeSeries [
+      'C',
+      'Ruby',
+      'Java',
+      'Python',
+      'C++ Developer',
+      'JavaScript'
+    ]
 */
-console.log(df.Profession)
+console.log(languages[0], '&', languages[1]) // C & Ruby
+let professions = df.Profession
+console.log(professions)
 /*
-    [
-        'C developer',
-        'Ruby developer',
-        'Java developer',
-        'Python developer',
-        'C++',
-        'JavaScirpt developer'
+    NodeSeries [
+      'C developer',
+      'Ruby developer',
+      'Java developer',
+      'Python developer',
+      'C++',
+      'JavaScirpt developer'
     ]
 */
-console.log(df.DevId)
-/*
-    [ 1122, 4433, 8899, 6677, 11, 8844 ]
+// Iterate like arrays
+for(let profession of professions) {
+    console.log(profession)
+}
+/*
+    C developer
+    Ruby developer
+    Java developer
+    Python developer
+    C++
+    JavaScirpt developer
+*/
+```
+<hr>
+<h3 id='df-ex5'><code>Example 5 - Selecting specific columns using select()</code></h3>
+> **Note:** The `select()` method returns a new DataFrame containing only the specified columns.
+```javascript
+const pd = require("node-pandas")
+// Create a DataFrame with employee data
+const df = pd.DataFrame([
+    ['Rishikesh Agrawani', 32, 'Engineering'],
+    ['Hemkesh Agrawani', 30, 'Marketing'],
+    ['Malinikesh Agrawani', 28, 'Sales']
+], ['name', 'age', 'department'])
+df.show
+/*
+┌─────────┬──────────────────────┬─────┬──────────────┐
+│ (index) │        name          │ age │  department  │
+├─────────┼──────────────────────┼─────┼──────────────┤
+│    0    │ 'Rishikesh Agrawani' │ 32  │ 'Engineering'│
+│    1    │  'Hemkesh Agrawani'  │ 30  │  'Marketing' │
+│    2    │ 'Malinikesh Agrawani'│ 28  │   'Sales'    │
+└─────────┴──────────────────────┴─────┴──────────────┘
+*/
+// Select a single column
+const nameOnly = df.select(['name'])
+nameOnly.show
+/*
+┌─────────┬──────────────────────┐
+│ (index) │        name          │
+├─────────┼──────────────────────┤
+│    0    │ 'Rishikesh Agrawani' │
+│    1    │  'Hemkesh Agrawani'  │
+│    2    │ 'Malinikesh Agrawani'│
+└─────────┴──────────────────────┘
+*/
+// Select multiple columns
+const nameAndAge = df.select(['name', 'age'])
+nameAndAge.show
+/*
+┌─────────┬──────────────────────┬─────┐
+│ (index) │        name          │ age │
+├─────────┼──────────────────────┼─────┤
+│    0    │ 'Rishikesh Agrawani' │ 32  │
+│    1    │  'Hemkesh Agrawani'  │ 30  │
+│    2    │ 'Malinikesh Agrawani'│ 28  │
+└─────────┴──────────────────────┴─────┘
+*/
+// Original DataFrame remains unchanged
+console.log(df.columns) // ['name', 'age', 'department']
+```
+<hr>
+<h3 id='df-ex6'><code>Example 6 - Filtering DataFrame rows using filter()</code></h3>
+> **Note:** The `filter()` method returns a new DataFrame containing only rows that match the condition. Multiple filters can be chained together.
+```javascript
+const pd = require("node-pandas")
+// Create a DataFrame with employee data
+const df = pd.DataFrame([
+    ['Rishikesh Agrawani', 32, 'Engineering'],
+    ['Hemkesh Agrawani', 30, 'Marketing'],
+    ['Malinikesh Agrawani', 28, 'Sales']
+], ['name', 'age', 'department'])
+df.show
+/*
+┌─────────┬──────────────────────┬─────┬──────────────┐
+│ (index) │        name          │ age │  department  │
+├─────────┼──────────────────────┼─────┼──────────────┤
+│    0    │ 'Rishikesh Agrawani' │ 32  │ 'Engineering'│
+│    1    │  'Hemkesh Agrawani'  │ 30  │  'Marketing' │
+│    2    │ 'Malinikesh Agrawani'│ 28  │   'Sales'    │
+└─────────┴──────────────────────┴─────┴──────────────┘
+*/
+// Filter rows where age is greater than 28
+const over28 = df.filter(row => row.age > 28)
+over28.show
+/*
+┌─────────┬──────────────────────┬─────┬──────────────┐
+│ (index) │        name          │ age │  department  │
+├─────────┼──────────────────────┼─────┼──────────────┤
+│    0    │ 'Rishikesh Agrawani' │ 32  │ 'Engineering'│
+│    1    │  'Hemkesh Agrawani'  │ 30  │  'Marketing' │
+└─────────┴──────────────────────┴─────┴──────────────┘
+*/
+// Filter rows where department is 'Engineering'
+const engineering = df.filter(row => row.department === 'Engineering')
+engineering.show
+/*
+┌─────────┬──────────────────────┬─────┬──────────────┐
+│ (index) │        name          │ age │  department  │
+├─────────┼──────────────────────┼─────┼──────────────┤
+│    0    │ 'Rishikesh Agrawani' │ 32  │ 'Engineering'│
+└─────────┴──────────────────────┴─────┴──────────────┘
+*/
+// Chain multiple filters together
+const result = df
+    .filter(row => row.age > 28)
+    .filter(row => row.department !== 'Sales')
+result.show
+/*
+┌─────────┬──────────────────────┬─────┬──────────────┐
+│ (index) │        name          │ age │  department  │
+├─────────┼──────────────────────┼─────┼──────────────┤
+│    0    │ 'Rishikesh Agrawani' │ 32  │ 'Engineering'│
+│    1    │  'Hemkesh Agrawani'  │ 30  │  'Marketing' │
+└─────────┴──────────────────────┴─────┴──────────────┘
+*/
+```
+<hr>
+<h3 id='df-ex7'><code>Example 7 - Grouping and aggregating data using groupBy()</code></h3>
+> **Note:** The `groupBy()` method groups rows by one or more columns and allows aggregation using methods like `mean()`, `sum()`, `count()`, `min()`, and `max()`.
+```javascript
+const pd = require("node-pandas")
+// Create a DataFrame with employee data including departments
+const df = pd.DataFrame([
+    ['Rishikesh Agrawani', 32, 'Engineering', 95000],
+    ['Hemkesh Agrawani', 30, 'Marketing', 75000],
+    ['Malinikesh Agrawani', 28, 'Sales', 65000],
+    ['Alice Johnson', 29, 'Engineering', 92000],
+    ['Bob Smith', 31, 'Marketing', 78000],
+    ['Carol White', 27, 'Sales', 62000]
+], ['name', 'age', 'department', 'salary'])
+df.show
+/*
+┌─────────┬──────────────────────┬─────┬──────────────┬────────┐
+│ (index) │        name          │ age │  department  │ salary │
+├─────────┼──────────────────────┼─────┼──────────────┼────────┤
+│    0    │ 'Rishikesh Agrawani' │ 32  │ 'Engineering'│ 95000  │
+│    1    │  'Hemkesh Agrawani'  │ 30  │  'Marketing' │ 75000  │
+│    2    │ 'Malinikesh Agrawani'│ 28  │   'Sales'    │ 65000  │
+│    3    │   'Alice Johnson'    │ 29  │ 'Engineering'│ 92000  │
+│    4    │    'Bob Smith'       │ 31  │  'Marketing' │ 78000  │
+│    5    │    'Carol White'     │ 27  │   'Sales'    │ 62000  │
+└─────────┴──────────────────────┴─────┴──────────────┴────────┘
+*/
+// Single-column grouping: Group by department and calculate mean salary
+const avgSalaryByDept = df.groupBy('department').mean('salary')
+avgSalaryByDept.show
+/*
+┌─────────┬──────────────┬──────────────┐
+│ (index) │  department  │ salary_mean  │
+├─────────┼──────────────┼──────────────┤
+│    0    │ 'Engineering'│   93500      │
+│    1    │  'Marketing' │   76500      │
+│    2    │   'Sales'    │   63500      │
+└─────────┴──────────────┴──────────────┘
+*/
+// Group by department and calculate sum of salaries
+const totalSalaryByDept = df.groupBy('department').sum('salary')
+totalSalaryByDept.show
+/*
+┌─────────┬──────────────┬──────────────┐
+│ (index) │  department  │ salary_sum   │
+├─────────┼──────────────┼──────────────┤
+│    0    │ 'Engineering'│   187000     │
+│    1    │  'Marketing' │   153000     │
+│    2    │   'Sales'    │   127000     │
+└─────────┴──────────────┴──────────────┘
+*/
+// Group by department and count employees
+const countByDept = df.groupBy('department').count()
+countByDept.show
+/*
+┌─────────┬──────────────┬───────┐
+│ (index) │  department  │ count │
+├─────────┼──────────────┼───────┤
+│    0    │ 'Engineering'│   2   │
+│    1    │  'Marketing' │   2   │
+│    2    │   'Sales'    │   2   │
+└─────────┴──────────────┴───────┘
+*/
+// Group by department and find minimum age
+const minAgeByDept = df.groupBy('department').min('age')
+minAgeByDept.show
+/*
+┌─────────┬──────────────┬──────────┐
+│ (index) │  department  │ age_min  │
+├─────────┼──────────────┼──────────┤
+│    0    │ 'Engineering'│   29     │
+│    1    │  'Marketing' │   30     │
+│    2    │   'Sales'    │   27     │
+└─────────┴──────────────┴──────────┘
+*/
+// Group by department and find maximum age
+const maxAgeByDept = df.groupBy('department').max('age')
+maxAgeByDept.show
+/*
+┌─────────┬──────────────┬──────────┐
+│ (index) │  department  │ age_max  │
+├─────────┼──────────────┼──────────┤
+│    0    │ 'Engineering'│   32     │
+│    1    │  'Marketing' │   31     │
+│    2    │   'Sales'    │   28     │
+└─────────┴──────────────┴──────────┘
+*/
+// Multi-column grouping: Group by department and age range
+const groupedByDeptAndAge = df.groupBy(['department', 'age']).count()
+groupedByDeptAndAge.show
+/*
+┌─────────┬──────────────┬─────┬───────┐
+│ (index) │  department  │ age │ count │
+├─────────┼──────────────┼─────┼───────┤
+│    0    │ 'Engineering'│ 29  │   1   │
+│    1    │ 'Engineering'│ 32  │   1   │
+│    2    │  'Marketing' │ 30  │   1   │
+│    3    │  'Marketing' │ 31  │   1   │
+│    4    │   'Sales'    │ 27  │   1   │
+│    5    │   'Sales'    │ 28  │   1   │
+└─────────┴──────────────┴─────┴───────┘
 */
 ```
@@ -426,4 +697,5 @@ console.log(df.DevId)
 + [JavaScript getter](https://developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/Functions/set)
++ [JavaScript (enumerable, writable, configurable)](https://hashnode.com/post/what-are-enumerable-properties-in-javascript-ciljnbtqa000exx53n5nbkykx)