PyPI - expr-codegen - Versions diffs - 0.7.2__tar.gz → 0.8.0__tar.gz - Mend

expr-codegen 0.7.2tar.gz → 0.8.0tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (28) hide show

{expr_codegen-0.7.2 → expr_codegen-0.8.0}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: expr_codegen
-Version: 0.7.2
+Version: 0.8.0
 Summary: symbol expression to polars expression tool
 Author-email: wukan <wu-kan@163.com>
 License: BSD 3-Clause License
@@ -209,6 +209,13 @@ df = codegen_exec(df, _code_block_1, _code_block_2)  # 只执行，不保存代
 以上三种问题本项目都使用`ast`进行了处理，可以简化使用
+## 下划线开头的变量
+1. 输出的数据，所有以`_`开头的列，最后会被自动删除。所以需要保留的变量一定不要以`_`开头
+2. 为减少重复计算，自动添加了了中间变量，以`_x_`开头，如`_x_0`，`_x_1`等。最后会被自动删除
+3. 单行表达式过长，或有重复计算，可以通过中间变量，将单行表达式改成多行。如果中间变量使用`_`开头，将会自动添加数字后缀，形成不同的变量，如`_A_0_`，`_A_1_`等。使用场景如下：
+   1. 同一变量名，重复使用。本质是不同的变量
+   2. 循环赋值，但`DAG`不支持有环。`=`号左右的同名变量其实是不同变量
 ## 转译结果示例
 转译后的代码片段，详细代码请参考[Polars版](examples/output_polars.py)

{expr_codegen-0.7.2 → expr_codegen-0.8.0}/README.md RENAMED Viewed

@@ -159,6 +159,13 @@ df = codegen_exec(df, _code_block_1, _code_block_2)  # 只执行，不保存代
 以上三种问题本项目都使用`ast`进行了处理，可以简化使用
+## 下划线开头的变量
+1. 输出的数据，所有以`_`开头的列，最后会被自动删除。所以需要保留的变量一定不要以`_`开头
+2. 为减少重复计算，自动添加了了中间变量，以`_x_`开头，如`_x_0`，`_x_1`等。最后会被自动删除
+3. 单行表达式过长，或有重复计算，可以通过中间变量，将单行表达式改成多行。如果中间变量使用`_`开头，将会自动添加数字后缀，形成不同的变量，如`_A_0_`，`_A_1_`等。使用场景如下：
+   1. 同一变量名，重复使用。本质是不同的变量
+   2. 循环赋值，但`DAG`不支持有环。`=`号左右的同名变量其实是不同变量
 ## 转译结果示例
 转译后的代码片段，详细代码请参考[Polars版](examples/output_polars.py)

expr_codegen-0.8.0/expr_codegen/_version.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ __version__ = "0.8.0"

{expr_codegen-0.7.2 → expr_codegen-0.8.0}/expr_codegen/model.py RENAMED Viewed

@@ -5,7 +5,7 @@ import networkx as nx
 from sympy import symbols
 from expr_codegen.dag import zero_indegree, hierarchy_pos, remove_paths_by_zero_outdegree
-from expr_codegen.expr import CL, get_symbols, get_children, get_key, is_NegativeX, is_simple_expr
+from expr_codegen.expr import CL, get_symbols, get_children, get_key, is_simple_expr
 class ListDictList:
@@ -92,6 +92,32 @@ class ListDictList:
         # 出现了空行，删除
         self.filter_empty()
+    def drop_symbols(self):
+        """组装一种数据结构，用来存储之后会用到的变量名，用于提前删除不需要的变量"""
+        # 获取每一小块所用到的所有变量名
+        l1 = []
+        for row in self._list:
+            for k, v in row.items():
+                vv = []
+                for v1 in v:
+                    if v1 is None:
+                        continue
+                    vv.extend(v1[2])
+                l1.append(set(vv))
+        # 得到此行与之后都会出现的变量名
+        l2 = [set()]
+        s = set()
+        for i in reversed(l1):
+            s = s | i
+            l2.append(s)
+        l2 = list(reversed(l2))
+        # 计算之后不会再出现的变量名
+        l3 = [list(s - e) for s, e in zip(l2[:-1], l2[1:])]
+        return l3
 def chain_create(nested_list):
     """接龙。多个列表，头尾相连
@@ -358,7 +384,8 @@ def dag_end(G):
         for node in generation:
             key = G.nodes[node]['key']
             expr = G.nodes[node]['expr']
-            exprs_ldl.append(key, (node, expr))
+            symbols = G.nodes[node]['symbols']
+            exprs_ldl.append(key, (node, expr, symbols))
     exprs_ldl._list = exprs_ldl.values()[1:]

{expr_codegen-0.7.2 → expr_codegen-0.8.0}/expr_codegen/pandas/code.py RENAMED Viewed

@@ -9,27 +9,27 @@ from expr_codegen.model import ListDictList
 from expr_codegen.pandas.printer import PandasStrPrinter
-def get_groupby_from_tuple(tup, func_name):
+def get_groupby_from_tuple(tup, func_name, drop_cols):
     """从传入的元组中生成分组运行代码"""
     prefix2, *_ = tup
     if prefix2 == TS:
         # 组内需要按时间进行排序，需要维持顺序
         prefix2, asset = tup
-        return f'df = df.groupby(by=[_ASSET_], group_keys=False).apply({func_name})'
+        return f'df = df.groupby(by=[_ASSET_], group_keys=False).apply({func_name}).drop(columns={drop_cols})'
     if prefix2 == CS:
         prefix2, date = tup
-        return f'df = df.groupby(by=[_DATE_], group_keys=False).apply({func_name})'
+        return f'df = df.groupby(by=[_DATE_], group_keys=False).apply({func_name}).drop(columns={drop_cols})'
     if prefix2 == GP:
         prefix2, date, group = tup
-        return f'df = df.groupby(by=[_DATE_, "{group}"], group_keys=False).apply({func_name})'
+        return f'df = df.groupby(by=[_DATE_, "{group}"], group_keys=False).apply({func_name}).drop(columns={drop_cols})'
-    return f'df = {func_name}(df)'
+    return f'df = {func_name}(df).drop(columns={drop_cols})'
 def symbols_to_code(syms, alias):
     a = [f"{s}" for s in syms]
-    b = [f"r'{alias.get(s, s)}'" for s in syms]
+    b = [f"'{alias.get(s, s)}'" for s in syms]
     return f"""_ = ({','.join(b)},)
 ({','.join(a)},) = _"""
@@ -46,13 +46,16 @@ def codegen(exprs_ldl: ListDictList, exprs_src, syms_dst,
     # polars风格代码
     funcs = {}
     # 分组应用代码。这里利用了字典按插入顺序排序的特点，将排序放在最前
-    groupbys = {'sort': 'df = df'}
+    groupbys = {'sort': ''}
     # 处理过后的表达式
     exprs_dst = []
     syms_out = []
+    drop_symbols = exprs_ldl.drop_symbols()
+    j = -1
     for i, row in enumerate(exprs_ldl.values()):
         for k, vv in row.items():
+            j += 1
             if len(vv) == 0:
                 continue
             # 函数名
@@ -63,21 +66,27 @@ def codegen(exprs_ldl: ListDictList, exprs_src, syms_dst,
                     func_code.append(f"    # " + '=' * 40)
                     exprs_dst.append(f"#" + '=' * 40 + func_name)
                 else:
-                    va, ex = kv
+                    va, ex, sym = kv
                     func_code.append(f"    # {va} = {ex}\n    df[{va}] = {p.doprint(ex)}")
                     exprs_dst.append(f"{va} = {ex}")
                     if va not in syms_dst:
                         syms_out.append(va)
             if k[0] == TS:
-                groupbys['sort'] = f'df = df.sort_values(by=[_DATE_, _ASSET_]).reset_index(drop=True)'
+                if len(groupbys['sort']) == 0:
+                    groupbys['sort'] = f'df = df.sort_values(by=[_ASSET_, _DATE_]).reset_index(drop=True)'
                 # 时序需要排序
                 func_code = [f'    df = df.sort_values(by=[_DATE_])'] + func_code
+            elif k[0] == CS:
+                if len(groupbys['sort']) == 0:
+                    groupbys['sort'] = f'df = df.sort_values(by=[_DATE_, _ASSET_]).reset_index(drop=True)'
             # polars风格代码列表
             funcs[func_name] = '\n'.join(func_code)
+            # 只有下划线开头再删除
+            ds = [x for x in drop_symbols[j] if x.startswith('_')]
             # 分组应用代码
-            groupbys[func_name] = get_groupby_from_tuple(k, func_name)
+            groupbys[func_name] = get_groupby_from_tuple(k, func_name, ds)
     syms1 = symbols_to_code(syms_dst, alias)
     syms2 = symbols_to_code(syms_out, alias)

{expr_codegen-0.7.2 → expr_codegen-0.8.0}/expr_codegen/polars/code.py RENAMED Viewed

@@ -9,27 +9,28 @@ from expr_codegen.model import ListDictList
 from expr_codegen.polars.printer import PolarsStrPrinter
-def get_groupby_from_tuple(tup, func_name):
+def get_groupby_from_tuple(tup, func_name, drop_cols):
     """从传入的元组中生成分组运行代码"""
     prefix2, *_ = tup
     if prefix2 == TS:
         # 组内需要按时间进行排序，需要维持顺序
         prefix2, asset = tup
-        return f'df = df.group_by(_ASSET_).map_groups({func_name})'
+        return f'df = df.sort(_ASSET_, _DATE_).group_by(_ASSET_).map_groups({func_name}).drop(*{drop_cols})'
     if prefix2 == CS:
         prefix2, date = tup
-        return f'df = df.group_by(_DATE_).map_groups({func_name})'
+        return f'df = df.sort(_DATE_).group_by(_DATE_).map_groups({func_name}).drop(*{drop_cols})'
     if prefix2 == GP:
         prefix2, date, group = tup
-        return f'df = df.group_by(_DATE_, "{group}").map_groups({func_name})'
+        return f'df = df.sort(_DATE_, "{group}").group_by(_DATE_, "{group}").map_groups({func_name}).drop(*{drop_cols})'
-    return f'df = {func_name}(df)'
+    return f'df = {func_name}(df).drop(*{drop_cols})'
 def symbols_to_code(syms, alias):
     a = [f"{s}" for s in syms]
-    b = [f"r'{alias.get(s, s)}'" for s in syms]
+    b = [f"r'{alias.get(s, s)}'" for s in syms]  #
+    b = [f"'{alias.get(s, s)}'" for s in syms]
     return f"""_ = ({','.join(b)},)
 ({','.join(a)},) = (pl.col(i) for i in _)"""
@@ -46,13 +47,16 @@ def codegen(exprs_ldl: ListDictList, exprs_src, syms_dst,
     # polars风格代码
     funcs = {}
     # 分组应用代码。这里利用了字典按插入顺序排序的特点，将排序放在最前
-    groupbys = {'sort': 'df = df'}
+    groupbys = {'sort': ''}
     # 处理过后的表达式
     exprs_dst = []
     syms_out = []
+    drop_symbols = exprs_ldl.drop_symbols()
+    j = -1
     for i, row in enumerate(exprs_ldl.values()):
         for k, vv in row.items():
+            j += 1
             if len(vv) == 0:
                 continue
             # 函数名
@@ -65,7 +69,7 @@ def codegen(exprs_ldl: ListDictList, exprs_src, syms_dst,
                     func_code.append(f"    df = df.with_columns(")
                     exprs_dst.append(f"#" + '=' * 40 + func_name)
                 else:
-                    va, ex = kv
+                    va, ex, sym = kv
                     s1 = str(ex)
                     s2 = p.doprint(ex)
                     if s1 != s2:
@@ -80,14 +84,17 @@ def codegen(exprs_ldl: ListDictList, exprs_src, syms_dst,
             func_code = func_code[1:]
             if k[0] == TS:
-                groupbys['sort'] = f'df = df.sort(by=[_DATE_, _ASSET_])'
+                # if len(groupbys['sort']) == 0:
+                #     groupbys['sort'] = f'df = df.sort(_ASSET_, _DATE_)'
                 # 时序需要排序
-                func_code = [f'    df = df.sort(by=[_DATE_])'] + func_code
+                func_code = [f'    df = df.sort(_DATE_)'] + func_code
             # polars风格代码列表
             funcs[func_name] = '\n'.join(func_code)
+            # 只有下划线开头再删除
+            ds = [x for x in drop_symbols[j] if x.startswith('_')]
             # 分组应用代码
-            groupbys[func_name] = get_groupby_from_tuple(k, func_name)
+            groupbys[func_name] = get_groupby_from_tuple(k, func_name, ds)
     syms1 = symbols_to_code(syms_dst, alias)
     syms2 = symbols_to_code(syms_out, alias)

{expr_codegen-0.7.2 → expr_codegen-0.8.0}/expr_codegen/polars/template.py.j2 RENAMED Viewed

@@ -1,7 +1,6 @@
 # this code is auto generated by the expr_codegen
 # https://github.com/wukan1986/expr_codegen
 # 此段代码由 expr_codegen 自动生成，欢迎提交 issue 或 pull request
-import re
 import numpy as np  # noqa
 import pandas as pd  # noqa
@@ -68,7 +67,7 @@ def main(df: pl.DataFrame) -> pl.DataFrame:
     # logger.info('done')
     # save
-    # df.write_parquet('output.parquet', compression='zstd')
+    # df.write_parquet('output.parquet')
     return df

{expr_codegen-0.7.2 → expr_codegen-0.8.0}/expr_codegen.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: expr_codegen
-Version: 0.7.2
+Version: 0.8.0
 Summary: symbol expression to polars expression tool
 Author-email: wukan <wu-kan@163.com>
 License: BSD 3-Clause License
@@ -209,6 +209,13 @@ df = codegen_exec(df, _code_block_1, _code_block_2)  # 只执行，不保存代
 以上三种问题本项目都使用`ast`进行了处理，可以简化使用
+## 下划线开头的变量
+1. 输出的数据，所有以`_`开头的列，最后会被自动删除。所以需要保留的变量一定不要以`_`开头
+2. 为减少重复计算，自动添加了了中间变量，以`_x_`开头，如`_x_0`，`_x_1`等。最后会被自动删除
+3. 单行表达式过长，或有重复计算，可以通过中间变量，将单行表达式改成多行。如果中间变量使用`_`开头，将会自动添加数字后缀，形成不同的变量，如`_A_0_`，`_A_1_`等。使用场景如下：
+   1. 同一变量名，重复使用。本质是不同的变量
+   2. 循环赋值，但`DAG`不支持有环。`=`号左右的同名变量其实是不同变量
 ## 转译结果示例
 转译后的代码片段，详细代码请参考[Polars版](examples/output_polars.py)