PyPI - expr-codegen - Versions diffs - 0.10.6__tar.gz → 0.10.8__tar.gz - Mend

expr-codegen 0.10.6tar.gz → 0.10.8tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (34) hide show

{expr_codegen-0.10.6 → expr_codegen-0.10.8}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: expr_codegen
-Version: 0.10.6
+Version: 0.10.8
 Summary: symbol expression to polars expression tool
 Author-email: wukan <wu-kan@163.com>
 License: BSD 3-Clause License
@@ -48,9 +48,7 @@ Requires-Dist: streamlit; extra == "streamlit"
 Requires-Dist: streamlit-ace; extra == "streamlit"
 Requires-Dist: more_itertools; extra == "streamlit"
-# expr_codegen 符号表达式代码生成器
-表达式转代码工具
+# expr_codegen 表达式转译器
 ## 项目背景
@@ -79,14 +77,9 @@ https://exprcodegen.streamlit.app
 ```python
 import sys
+from io import StringIO
-# from polars_ta.prefix.talib import *  # noqa
-from polars_ta.prefix.cdl import *  # noqa
-from polars_ta.prefix.ta import *  # noqa
-from polars_ta.prefix.tdx import *  # noqa
-from polars_ta.prefix.wq import *  # noqa
-from expr_codegen.tool import codegen_exec
+from expr_codegen import codegen_exec
 def _code_block_1():
@@ -114,10 +107,15 @@ def _code_block_2():
     CPV = cs_zscore(_corr) + cs_zscore(_beta)
+code = StringIO()
 df = None  # 替换成真实的polars数据
 df = codegen_exec(df, _code_block_1, _code_block_2, output_file=sys.stdout)  # 打印代码
 df = codegen_exec(df, _code_block_1, _code_block_2, output_file="output.py")  # 保存到文件
 df = codegen_exec(df, _code_block_1, _code_block_2)  # 只执行，不保存代码
+df = codegen_exec(df, _code_block_1, _code_block_2, output_file=code)  # 保存到字符串
+code.seek(0)
+code.read()  # 读取代码
 df = codegen_exec(df.lazy(), _code_block_1, _code_block_2).collect()  # Lazy CPU
 df = codegen_exec(df.lazy(), _code_block_1, _code_block_2).collect(engine="gpu")  # Lazy GPU
@@ -138,7 +136,7 @@ df = codegen_exec(df.lazy(), _code_block_1, _code_block_2).collect(engine="gpu")
 │      sympy_define.py # 符号定义，由于太多地方重复使用到，所以统一提取到此处
 ├─expr_codegen
 │   │  expr.py # 表达式处理基本函数
-│   │  tool.py # 核心工具代码。一般不需修改
+│   │  tool.py # 核心工具代码
 │   ├─polars
 │   │  │  code.py # 针对polars语法的代码生成功能
 │   │  │  template.py.j2 # `Jinja2`模板。用于生成对应py文件，一般不需修改
@@ -185,13 +183,20 @@ df = codegen_exec(df.lazy(), _code_block_1, _code_block_2).collect(engine="gpu")
 1. 根据算子前缀分类(`get_current_by_prefix`)，限制算子必需以`ts_`、`cs_`、`gp_`开头
 2. 根据算子全名分类(`get_current_by_name`), 不再限制算子名。比如`cs_rank`可以叫`rank`
-## Null处理/停牌处理
+## Null处理
+`null`是如何产生的？
+1. 停牌导致。在计算前就直接过滤掉了，不会对后续计算产生影响。
+2. 不同品种交易时段不同
+3. 计算产生。`null`在数列两端不影响后续时序算子结果，但中间出现`null`会影响。例如： `if_else(close<2, None, close)`
 https://github.com/pola-rs/polars/issues/12925#issuecomment-2552764629
 非常棒的点子，总结下来有两种实现方式：
-1. 将`null`分成一组，`not_null`分成另一组。要计算两次
-2. 仅一组，但复合排序，将`null`排在前面，`not_null`排后面。只计算一次，略快一些
+1. 将`null`分成一组，`not_null`分成另一组。要调用两次
+2. 仅一组，但复合排序，将`null`排在前面，`not_null`排后面。只调用一次，略快一些
 ```python
 X1 = (ts_returns(CLOSE, 3)).over(CLOSE.is_not_null(), _ASSET_, order_by=_DATE_),
@@ -199,17 +204,11 @@ X2 = (ts_returns(CLOSE, 3)).over(_ASSET_, order_by=[CLOSE.is_not_null(), _DATE_]
 X3 = (ts_returns(CLOSE, 3)).over(_ASSET_, order_by=_DATE_),
 ```
-第2种开头的`null`区域，是否影响结果由算子所决定，特别时是多列输入`null`区域可能有数据
+第2种开头的`null`区域，是否影响结果由算子所决定，特别时是多列输入时`null`区域可能有数据
 1. `over_null='partition_by'`。分到两个区域
 2. `over_null='order_by'`。分到一个区域，`null`排在前面
-3. `over_null=None`。不处理，直接计算，速度更快
-## 二次开发
-1. 备份后编辑`demo_express.py`, `import`需要引入的函数
-2. 然后`printer.py`有可能需要添加对应函数的打印代码
-    - 注意：需要留意是否要加括号`()`，不加时可能优先级混乱，可以每次都加括号，也可用提供的`parenthesize`简化处理
+3. `over_null=None`。不处理，直接调用，速度更快。如果确信不会中段产生`null`建议使用此参数
 ## `expr_codegen`局限性

{expr_codegen-0.10.6 → expr_codegen-0.10.8}/README.md RENAMED Viewed

@@ -1,6 +1,4 @@
-# expr_codegen 符号表达式代码生成器
-表达式转代码工具
+# expr_codegen 表达式转译器
 ## 项目背景
@@ -29,14 +27,9 @@ https://exprcodegen.streamlit.app
 ```python
 import sys
+from io import StringIO
-# from polars_ta.prefix.talib import *  # noqa
-from polars_ta.prefix.cdl import *  # noqa
-from polars_ta.prefix.ta import *  # noqa
-from polars_ta.prefix.tdx import *  # noqa
-from polars_ta.prefix.wq import *  # noqa
-from expr_codegen.tool import codegen_exec
+from expr_codegen import codegen_exec
 def _code_block_1():
@@ -64,10 +57,15 @@ def _code_block_2():
     CPV = cs_zscore(_corr) + cs_zscore(_beta)
+code = StringIO()
 df = None  # 替换成真实的polars数据
 df = codegen_exec(df, _code_block_1, _code_block_2, output_file=sys.stdout)  # 打印代码
 df = codegen_exec(df, _code_block_1, _code_block_2, output_file="output.py")  # 保存到文件
 df = codegen_exec(df, _code_block_1, _code_block_2)  # 只执行，不保存代码
+df = codegen_exec(df, _code_block_1, _code_block_2, output_file=code)  # 保存到字符串
+code.seek(0)
+code.read()  # 读取代码
 df = codegen_exec(df.lazy(), _code_block_1, _code_block_2).collect()  # Lazy CPU
 df = codegen_exec(df.lazy(), _code_block_1, _code_block_2).collect(engine="gpu")  # Lazy GPU
@@ -88,7 +86,7 @@ df = codegen_exec(df.lazy(), _code_block_1, _code_block_2).collect(engine="gpu")
 │      sympy_define.py # 符号定义，由于太多地方重复使用到，所以统一提取到此处
 ├─expr_codegen
 │   │  expr.py # 表达式处理基本函数
-│   │  tool.py # 核心工具代码。一般不需修改
+│   │  tool.py # 核心工具代码
 │   ├─polars
 │   │  │  code.py # 针对polars语法的代码生成功能
 │   │  │  template.py.j2 # `Jinja2`模板。用于生成对应py文件，一般不需修改
@@ -135,13 +133,20 @@ df = codegen_exec(df.lazy(), _code_block_1, _code_block_2).collect(engine="gpu")
 1. 根据算子前缀分类(`get_current_by_prefix`)，限制算子必需以`ts_`、`cs_`、`gp_`开头
 2. 根据算子全名分类(`get_current_by_name`), 不再限制算子名。比如`cs_rank`可以叫`rank`
-## Null处理/停牌处理
+## Null处理
+`null`是如何产生的？
+1. 停牌导致。在计算前就直接过滤掉了，不会对后续计算产生影响。
+2. 不同品种交易时段不同
+3. 计算产生。`null`在数列两端不影响后续时序算子结果，但中间出现`null`会影响。例如： `if_else(close<2, None, close)`
 https://github.com/pola-rs/polars/issues/12925#issuecomment-2552764629
 非常棒的点子，总结下来有两种实现方式：
-1. 将`null`分成一组，`not_null`分成另一组。要计算两次
-2. 仅一组，但复合排序，将`null`排在前面，`not_null`排后面。只计算一次，略快一些
+1. 将`null`分成一组，`not_null`分成另一组。要调用两次
+2. 仅一组，但复合排序，将`null`排在前面，`not_null`排后面。只调用一次，略快一些
 ```python
 X1 = (ts_returns(CLOSE, 3)).over(CLOSE.is_not_null(), _ASSET_, order_by=_DATE_),
@@ -149,17 +154,11 @@ X2 = (ts_returns(CLOSE, 3)).over(_ASSET_, order_by=[CLOSE.is_not_null(), _DATE_]
 X3 = (ts_returns(CLOSE, 3)).over(_ASSET_, order_by=_DATE_),
 ```
-第2种开头的`null`区域，是否影响结果由算子所决定，特别时是多列输入`null`区域可能有数据
+第2种开头的`null`区域，是否影响结果由算子所决定，特别时是多列输入时`null`区域可能有数据
 1. `over_null='partition_by'`。分到两个区域
 2. `over_null='order_by'`。分到一个区域，`null`排在前面
-3. `over_null=None`。不处理，直接计算，速度更快
-## 二次开发
-1. 备份后编辑`demo_express.py`, `import`需要引入的函数
-2. 然后`printer.py`有可能需要添加对应函数的打印代码
-    - 注意：需要留意是否要加括号`()`，不加时可能优先级混乱，可以每次都加括号，也可用提供的`parenthesize`简化处理
+3. `over_null=None`。不处理，直接调用，速度更快。如果确信不会中段产生`null`建议使用此参数
 ## `expr_codegen`局限性

expr_codegen-0.10.8/expr_codegen/_version.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ __version__ = "0.10.8"

{expr_codegen-0.10.6 → expr_codegen-0.10.8}/expr_codegen/codes.py RENAMED Viewed

@@ -125,6 +125,7 @@ class RenameTransformer(ast.NodeTransformer):
     def __init__(self, funcs_map, targets_map, args_map=None):
         if args_map is None:
+            # 保留字
             args_map = {'True': "_TRUE_", 'False': "_FALSE_", 'None': "_NONE_"}
         self.funcs_old = set()
         self.args_old = set()

{expr_codegen-0.10.6 → expr_codegen-0.10.8}/expr_codegen/model.py RENAMED Viewed

@@ -7,6 +7,8 @@ from sympy import symbols
 from expr_codegen.dag import zero_indegree, hierarchy_pos, remove_paths_by_zero_outdegree
 from expr_codegen.expr import CL, get_symbols, get_children, get_key, is_simple_expr
+_RESERVED_WORD_ = {'_NONE_', '_TRUE_', '_FALSE_'}
 class ListDictList:
     """嵌套列表
@@ -109,8 +111,7 @@ class ListDictList:
         l2 = [set()]
         s = set()
         for i in reversed(l1):
-            # 这三变量需要排除
-            s = s | i - {'_NONE_', '_TRUE_', '_FALSE_'}
+            s = s | i  # - {'_NONE_', '_TRUE_', '_FALSE_'}
             l2.append(s)
         l2 = list(reversed(l2))
@@ -396,6 +397,9 @@ def dag_end(G):
             key = G.nodes[node]['key']
             expr = G.nodes[node]['expr']
             symbols = G.nodes[node]['symbols']
+            # 这几个特殊的不算成字段名
+            symbols = list(set(symbols) - _RESERVED_WORD_)
             exprs_ldl.append(key, (node, expr, symbols))
     exprs_ldl._list = exprs_ldl.values()[1:]

{expr_codegen-0.10.6 → expr_codegen-0.10.8}/expr_codegen/tool.py RENAMED Viewed

@@ -1,8 +1,8 @@
 import inspect
 import pathlib
 from functools import lru_cache
-from io import TextIOWrapper
-from typing import Sequence, Dict, Union, TextIO, TypeVar, Optional, Literal
+from io import TextIOBase
+from typing import Sequence, Dict, Union, TypeVar, Optional, Literal
 from black import Mode, format_str
 from loguru import logger
@@ -12,7 +12,7 @@ from sympy.logic import boolalg
 from expr_codegen.codes import sources_to_exprs
 from expr_codegen.expr import get_current_by_prefix, get_children, replace_exprs
-from expr_codegen.model import dag_start, dag_end, dag_middle
+from expr_codegen.model import dag_start, dag_end, dag_middle, _RESERVED_WORD_
 try:
     from pandas import DataFrame as _pd_DataFrame
@@ -232,6 +232,7 @@ class ExprTool:
         # 子表达式在前，原表式在最后
         exprs_dst, syms_dst = self.merge(date, asset, **exprs_src)
+        syms_dst = list(set(syms_dst) - _RESERVED_WORD_)
         # 提取公共表达式
         self.cse(exprs_dst, symbols_repl=numbered_symbols('_x_'), symbols_redu=exprs_src.keys())
@@ -286,7 +287,7 @@ class ExprTool:
                              **kwargs)
         # 移回到cache，防止多次调用多次保存
-        if isinstance(output_file, TextIOWrapper):
+        if isinstance(output_file, TextIOBase):
             # 输出到控制台
             output_file.write(code)
         elif output_file is not None:
@@ -305,6 +306,8 @@ def _exec_code(code: str, df_input):
 def _exec_file(file, df_input):
+    file = pathlib.Path(file)
+    logger.info(f'run file "{file.absolute()}"')
     with open(file, 'r', encoding='utf-8') as f:
         code = f.read()
         return _exec_code(code, df_input)
@@ -313,6 +316,7 @@ def _exec_file(file, df_input):
 def _exec_module(module: str, df_input):
     """"可下断点调试"""
     m = __import__(module, fromlist=['*'])
+    logger.info(f'run module {m}')
     return m.main(df_input)
@@ -322,13 +326,13 @@ _TOOL_ = ExprTool()
 def codegen_exec(df: Optional[DataFrame],
                  *codes,
                  extra_codes: str = r'CS_SW_L1 = r"^sw_l1_\d+$"',
-                 output_file: Union[str, TextIO, None] = None,
+                 output_file: Union[str, TextIOBase, None] = None,
                  run_file: Union[bool, str] = False,
                  convert_xor: bool = False,
                  style: Literal['pandas', 'polars_group', 'polars_over'] = 'polars_over',
                  template_file: str = 'template.py.j2',
                  date: str = 'date', asset: str = 'asset',
-                 over_null: Literal['order_by', 'partition_by', None] = 'partition_by',
+                 over_null: Literal['partition_by', 'order_by', None] = 'partition_by',
                  **kwargs) -> Optional[DataFrame]:
     """快速转换源代码并执行
@@ -340,7 +344,7 @@ def codegen_exec(df: Optional[DataFrame],
         函数体。此部分中的表达式会被翻译成目标代码
     extra_codes: str
         额外代码。不做处理，会被直接复制到目标代码中
-    output_file: str
+    output_file: str| TextIOBase
         保存生成的目标代码到文件中
     run_file: bool or str
         是否不生成脚本，直接运行代码。
@@ -362,8 +366,8 @@ def codegen_exec(df: Optional[DataFrame],
         资产字段
     over_null: str
         时序中遇到null时的处理方式
-        - order_by: 空值排同一分区的前排
         - partition_by: 空值划分到不同分区
+        - order_by: 空值排同一分区的前排
         - None: 不做处理
     Returns
@@ -374,17 +378,12 @@ def codegen_exec(df: Optional[DataFrame],
     if df is not None:
         if run_file is True:
             assert output_file is not None, 'output_file is required'
-            output_file = pathlib.Path(output_file)
-            logger.info(f'run file "{output_file.absolute()}"')
             return _exec_file(output_file, df)
         if run_file is not False:
             run_file = str(run_file)
             if run_file.endswith('.py'):
-                run_file = pathlib.Path(run_file)
-                logger.info(f'run file "{run_file.absolute()}"')
                 return _exec_file(run_file, df)
             else:
-                logger.info(f'run module "{run_file}"')
                 return _exec_module(run_file, df)  # 可断点调试
     # 此代码来自于sympy.var

{expr_codegen-0.10.6 → expr_codegen-0.10.8}/expr_codegen.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: expr_codegen
-Version: 0.10.6
+Version: 0.10.8
 Summary: symbol expression to polars expression tool
 Author-email: wukan <wu-kan@163.com>
 License: BSD 3-Clause License
@@ -48,9 +48,7 @@ Requires-Dist: streamlit; extra == "streamlit"
 Requires-Dist: streamlit-ace; extra == "streamlit"
 Requires-Dist: more_itertools; extra == "streamlit"
-# expr_codegen 符号表达式代码生成器
-表达式转代码工具
+# expr_codegen 表达式转译器
 ## 项目背景
@@ -79,14 +77,9 @@ https://exprcodegen.streamlit.app
 ```python
 import sys
+from io import StringIO
-# from polars_ta.prefix.talib import *  # noqa
-from polars_ta.prefix.cdl import *  # noqa
-from polars_ta.prefix.ta import *  # noqa
-from polars_ta.prefix.tdx import *  # noqa
-from polars_ta.prefix.wq import *  # noqa
-from expr_codegen.tool import codegen_exec
+from expr_codegen import codegen_exec
 def _code_block_1():
@@ -114,10 +107,15 @@ def _code_block_2():
     CPV = cs_zscore(_corr) + cs_zscore(_beta)
+code = StringIO()
 df = None  # 替换成真实的polars数据
 df = codegen_exec(df, _code_block_1, _code_block_2, output_file=sys.stdout)  # 打印代码
 df = codegen_exec(df, _code_block_1, _code_block_2, output_file="output.py")  # 保存到文件
 df = codegen_exec(df, _code_block_1, _code_block_2)  # 只执行，不保存代码
+df = codegen_exec(df, _code_block_1, _code_block_2, output_file=code)  # 保存到字符串
+code.seek(0)
+code.read()  # 读取代码
 df = codegen_exec(df.lazy(), _code_block_1, _code_block_2).collect()  # Lazy CPU
 df = codegen_exec(df.lazy(), _code_block_1, _code_block_2).collect(engine="gpu")  # Lazy GPU
@@ -138,7 +136,7 @@ df = codegen_exec(df.lazy(), _code_block_1, _code_block_2).collect(engine="gpu")
 │      sympy_define.py # 符号定义，由于太多地方重复使用到，所以统一提取到此处
 ├─expr_codegen
 │   │  expr.py # 表达式处理基本函数
-│   │  tool.py # 核心工具代码。一般不需修改
+│   │  tool.py # 核心工具代码
 │   ├─polars
 │   │  │  code.py # 针对polars语法的代码生成功能
 │   │  │  template.py.j2 # `Jinja2`模板。用于生成对应py文件，一般不需修改
@@ -185,13 +183,20 @@ df = codegen_exec(df.lazy(), _code_block_1, _code_block_2).collect(engine="gpu")
 1. 根据算子前缀分类(`get_current_by_prefix`)，限制算子必需以`ts_`、`cs_`、`gp_`开头
 2. 根据算子全名分类(`get_current_by_name`), 不再限制算子名。比如`cs_rank`可以叫`rank`
-## Null处理/停牌处理
+## Null处理
+`null`是如何产生的？
+1. 停牌导致。在计算前就直接过滤掉了，不会对后续计算产生影响。
+2. 不同品种交易时段不同
+3. 计算产生。`null`在数列两端不影响后续时序算子结果，但中间出现`null`会影响。例如： `if_else(close<2, None, close)`
 https://github.com/pola-rs/polars/issues/12925#issuecomment-2552764629
 非常棒的点子，总结下来有两种实现方式：
-1. 将`null`分成一组，`not_null`分成另一组。要计算两次
-2. 仅一组，但复合排序，将`null`排在前面，`not_null`排后面。只计算一次，略快一些
+1. 将`null`分成一组，`not_null`分成另一组。要调用两次
+2. 仅一组，但复合排序，将`null`排在前面，`not_null`排后面。只调用一次，略快一些
 ```python
 X1 = (ts_returns(CLOSE, 3)).over(CLOSE.is_not_null(), _ASSET_, order_by=_DATE_),
@@ -199,17 +204,11 @@ X2 = (ts_returns(CLOSE, 3)).over(_ASSET_, order_by=[CLOSE.is_not_null(), _DATE_]
 X3 = (ts_returns(CLOSE, 3)).over(_ASSET_, order_by=_DATE_),
 ```
-第2种开头的`null`区域，是否影响结果由算子所决定，特别时是多列输入`null`区域可能有数据
+第2种开头的`null`区域，是否影响结果由算子所决定，特别时是多列输入时`null`区域可能有数据
 1. `over_null='partition_by'`。分到两个区域
 2. `over_null='order_by'`。分到一个区域，`null`排在前面
-3. `over_null=None`。不处理，直接计算，速度更快
-## 二次开发
-1. 备份后编辑`demo_express.py`, `import`需要引入的函数
-2. 然后`printer.py`有可能需要添加对应函数的打印代码
-    - 注意：需要留意是否要加括号`()`，不加时可能优先级混乱，可以每次都加括号，也可用提供的`parenthesize`简化处理
+3. `over_null=None`。不处理，直接调用，速度更快。如果确信不会中段产生`null`建议使用此参数
 ## `expr_codegen`局限性