PyPI - mdbq - Versions diffs - 0.2.6__tar.gz → 0.2.8__tar.gz - Mend

mdbq 0.2.6tar.gz → 0.2.8tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (43) hide show

{mdbq-0.2.6 → mdbq-0.2.8}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: mdbq
-Version: 0.2.6
+Version: 0.2.8
 Home-page: https://pypi.org/project/mdbsql
 Author: xigua,
 Author-email: 2587125111@qq.com

mdbq-0.2.8/mdbq/aggregation/optimize_data.py ADDED Viewed

@@ -0,0 +1,22 @@
+# -*- coding: UTF-8 –*-
+from mdbq.mysql import mysql
+from mdbq.config import get_myconf
+"""
+对指定数据库所有冗余数据进行清理
+"""
+def op_data(service_databases, days: int = 63):
+    for service_database in service_databases:
+        for service_name, database in service_database.items():
+            username, password, host, port = get_myconf.select_config_values(target_service=service_name, database=database)
+            s = mysql.OptimizeDatas(username=username, password=password, host=host, port=port)
+            s.db_name_lists = [
+                '聚合数据',
+            ]
+            s.days = days
+            s.optimize_list()
+if __name__ == '__main__':
+    op_data(service_databases=[{'home_lx': 'mysql'}], days=3650)

{mdbq-0.2.6 → mdbq-0.2.8}/mdbq/aggregation/query_data.py RENAMED Viewed

@@ -2,6 +2,7 @@
 from mdbq.mongo import mongo
 from mdbq.mysql import mysql
 from mdbq.mysql import s_query
+from mdbq.aggregation import optimize_data
 from mdbq.config import get_myconf
 import datetime
 from dateutil.relativedelta import relativedelta
@@ -511,6 +512,8 @@ def data_aggregation(service_databases=[{}]):
             res = g.performance()   # 盈亏表，依赖其他表，单独做
             m.df_to_mysql(df=res, db_name='聚合数据', tabel_name='销售盈亏')
+    optimize_data.op_data(service_databases=service_databases, days=3650)  # 立即启动对聚合数据的清理工作
 if __name__ == '__main__':
-    data_aggregation(service_databases=[{'company': 'mysql'}])
+    data_aggregation(service_databases=[{'home_lx': 'mysql'}])

{mdbq-0.2.6 → mdbq-0.2.8}/mdbq/mysql/data_types.py RENAMED Viewed

@@ -155,13 +155,13 @@ class DataTypes:
                 if collection_name in list(self.datas[cl][db_name].keys()):
                     return self.datas[cl][db_name][collection_name]
                 else:
-                    print(f'不存在的集合名信息: {collection_name}')
+                    print(f'不存在的集合名信息: {collection_name}, 文件位置: {json_file}')
                     return {}
             else:
-                print(f'不存在的数据库信息: {db_name}')
+                print(f'不存在的数据库信息: {db_name}, 文件位置: {json_file}')
                 return {}
         else:
-            print(f'不存在的数据分类: {cl}')
+            print(f'不存在的数据分类: {cl}, 文件位置: {json_file}')
             return {}
@@ -252,4 +252,10 @@ def main():
 if __name__ == '__main__':
     # main()
-    mysql_all_dtypes()
+    mysql_all_dtypes()  # 更新 mysql 中所有数据库的 dtypes 信息到本地 json
+    # path = '/Users/xigua/数据中心/自动0备份/py/数据更新/support'
+    # d = DataTypes()
+    # # 从本地文件中读取 dtype 信息
+    # dtypes = d.load_dtypes(cl='mysql', db_name='生意经2', collection_name='店铺指标', path=path)
+    # print(dtypes)

{mdbq-0.2.6 → mdbq-0.2.8}/mdbq/mysql/mysql.py RENAMED Viewed

@@ -13,6 +13,7 @@ import os
 import calendar
 from mdbq.config import get_myconf
 from mdbq.dataframe import converter
+from mdbq.mysql import data_types
 warnings.filterwarnings('ignore')
@@ -107,12 +108,15 @@ class MysqlUpload:
                     cursor.execute(sql)
                     print(f'创建 mysql 表: {tabel_name}')
-                cols = df.columns.tolist()
-                dtypes = df.dtypes.apply(str).to_dict()  # 将 dataframe 数据类型转为字典形式
-                # 转换为 mysql 的数据类型
-                dtypes.update({col: self.convert_dtype_to_sql(df=df, col=col, dtype=dtypes[col]) for col in cols})
+                # # 2. 列数据类型转换
+                # cols = df.columns.tolist()
+                # dtypes = df.dtypes.apply(str).to_dict()  # 将 dataframe 数据类型转为字典形式
+                # # 转换为 mysql 的数据类型
+                # dtypes.update({col: self.convert_dtype_to_sql(df=df, col=col, dtype=dtypes[col]) for col in cols})
+                dtypes = self.convert_dtypes(df=df, db_name=db_name, tabel_name=tabel_name)
-                # 2. 检查列, 不存在则添加新列
+                # 3. 检查列, 不存在则添加新列
+                cols = df.columns.tolist()
                 for col in cols:
                     sql = ('SELECT 1 FROM information_schema.columns WHERE table_schema = %s AND table_name = %s AND '
                            'column_name = %s')
@@ -134,7 +138,7 @@ class MysqlUpload:
                             cursor.execute(f"CREATE INDEX index_name ON {tabel_name}({col})")
                 connection.commit()  # 提交事务
-                # # 3. 移除指定日期范围内的数据, 避免重复插入
+                # # 4. 移除指定日期范围内的数据, 避免重复插入
                 # dates = df['日期'].values.tolist()
                 # start_date = pd.to_datetime(min(dates)).strftime('%Y-%m-%d')
                 # end_date = (pd.to_datetime(max(dates)) + datetime.timedelta(days=1)).strftime('%Y-%m-%d')
@@ -142,7 +146,7 @@ class MysqlUpload:
                 # cursor.execute(sql)
                 # connection.commit()
-                # 4. 更新插入数据
+                # 5. 更新插入数据
                 now = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S ")
                 print(f'{now}正在更新 mysql ({self.host}:{self.port}) {db_name}/{tabel_name}')
                 if str(self.host) == '192.168.1.100':  # 群晖服务器
@@ -176,8 +180,40 @@ class MysqlUpload:
         finally:
             connection.close()
+    def convert_dtypes(self, df, db_name, tabel_name):
+        """
+        根据本地已经存在的记录着 mysql dtypes 的 json 文件转换 df 的类型为 mysql 专有的数据类型
+        允许通过 json 文件指定列的数据类型
+        以下两种情况已经兼容:
+        1. 可能不存在本地 json 文件 (利用 convert_dtype_to_sql 函数按指定规则转换全部列)
+        2. json 文件中没有或者缺失部分列信息(利用 convert_dtype_to_sql 函数按指定规则转换缺失列)
+        """
+        cols = df.columns.tolist()
+        path = '/Users/xigua/数据中心/自动0备份/py/数据更新/support'
+        # json_file = os.path.join(path, 'df_dtypes.json')
+        # if os.path.isfile(json_file):
+        d = data_types.DataTypes()
+        # 从本地文件中读取 dtype 信息
+        dtypes = d.load_dtypes(cl='mysql', db_name=db_name, collection_name=tabel_name, path=path)
+        # 可能会因为没有 json 文件, 返回 None
+        if dtypes:
+            # 按照文件记录更新 dtypes
+            dtypes.update({col: dtypes[col] for col in cols if col in dtypes.keys()})
+            # 可能存在部分列不在文件记录中
+            col_not_exist = [col for col in cols if col not in dtypes.keys()]
+            # 这些列不存在于 df 中, 必须移除
+            [dtypes.pop(col) for col in list(dtypes.keys()) if col not in cols]
+        else:
+            dtypes = df.dtypes.apply(str).to_dict()  # 将 dataframe 数据类型转为字典形式
+            col_not_exist = cols
+        # 对文件不存在的列信息进行数据类型转换(按指定规则)
+        dtypes.update({col: self.convert_dtype_to_sql(df=df, col=col, dtype=df[col].dtype) for col in col_not_exist})
+        # 至此 df 中全部列类型已经转换完成
+        # 返回结果, 示例: {'上市年份': 'mediumtext', '商品id': 'mediumtext', '平台': 'mediumtext'}
+        return dtypes
     def convert_dtype_to_sql(self, df, col, dtype):
-        """ 转换DataFrame列的数据类型为SQL数据类型 """
+        """ 按照以下规则转换DataFrame列的数据类型为 MYSQL 专有的数据类型 """
         # 最优先处理 ID 类型, 在 mysql 里面, 有些列数字过长不能存储为 int 类型
         if 'id' in col or 'ID' in col or 'Id' in col or '摘要' in col or '商家编码' in col or '单号' in col or '款号' in col:
             return 'mediumtext'

{mdbq-0.2.6 → mdbq-0.2.8}/mdbq.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: mdbq
-Version: 0.2.6
+Version: 0.2.8
 Home-page: https://pypi.org/project/mdbsql
 Author: xigua,
 Author-email: 2587125111@qq.com

{mdbq-0.2.6 → mdbq-0.2.8}/mdbq.egg-info/SOURCES.txt RENAMED Viewed

@@ -8,6 +8,7 @@ mdbq.egg-info/dependency_links.txt
 mdbq.egg-info/top_level.txt
 mdbq/aggregation/__init__.py
 mdbq/aggregation/aggregation.py
+mdbq/aggregation/optimize_data.py
 mdbq/aggregation/query_data.py
 mdbq/bdup/__init__.py
 mdbq/bdup/bdup.py

{mdbq-0.2.6 → mdbq-0.2.8}/setup.py RENAMED Viewed

@@ -3,7 +3,7 @@
 from setuptools import setup, find_packages
 setup(name='mdbq',
-      version='0.2.6',
+      version='0.2.8',
       author='xigua, ',
       author_email="2587125111@qq.com",
       url='https://pypi.org/project/mdbsql',