PyPI - mdbq - Versions diffs - 1.3.8__tar.gz → 1.4.0__tar.gz - Mend

mdbq 1.3.8tar.gz → 1.4.0tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (46) hide show

{mdbq-1.3.8 → mdbq-1.4.0}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: mdbq
-Version: 1.3.8
+Version: 1.4.0
 Home-page: https://pypi.org/project/mdbsql
 Author: xigua,
 Author-email: 2587125111@qq.com

{mdbq-1.3.8 → mdbq-1.4.0}/mdbq/aggregation/aggregation.py RENAMED Viewed

@@ -549,6 +549,7 @@ class DatabaseUpdate:
                             '数据库名': db_name,
                             '集合名称': collection_name,
                             '数据主体': df,
+                            '文件名': name,
                         }
                     )
@@ -585,6 +586,7 @@ class DatabaseUpdate:
                                 '数据库名': db_name,
                                 '集合名称': collection_name,
                                 '数据主体': df,
+                                '文件名': name,
                             }
                         )
                     if is_move:
@@ -596,6 +598,7 @@ class DatabaseUpdate:
                 '数据库名': '聚合数据',
                 '集合名称': '日期表',
                 '数据主体': df,
+                '文件名': '日期表文件名',
             }
         )
@@ -641,7 +644,7 @@ class DatabaseUpdate:
                         port=port,
                     )
                     for data in self.datas:
-                        df, db_name, collection_name = data['数据主体'], data['数据库名'], data['集合名称']
+                        df, db_name, collection_name, rt_filename = data['数据主体'], data['数据库名'], data['集合名称'], data['文件名']
                         df_to_json.get_df_types(
                             df=df,
                             db_name=db_name,
@@ -653,7 +656,9 @@ class DatabaseUpdate:
                             db_name=db_name,
                             table_name=collection_name,
                             df_sql=False,  # 值为 True 时使用 df.to_sql 函数上传整个表, 不会排重
-                            drop_dup=True  # 值为 True 时检查重复数据再插入，反之直接上传
+                            drop_dup=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
+                            filename=rt_filename,  # 用来追踪处理进度
+                            system_name=system_name,  # 用来追踪处理进度
                         )
                 df_to_json.as_json_file()  # 写入 json 文件, 包含数据的 dtypes 信息

mdbq-1.4.0/mdbq/aggregation/optimize_data.py ADDED Viewed

@@ -0,0 +1,61 @@
+# -*- coding: UTF-8 –*-
+from mdbq.mysql import mysql
+from mdbq.config import get_myconf
+"""
+对指定数据库所有冗余数据进行清理
+"""
+def op_data(db_name_lists, service_databases=None, days: int = 63):
+    """ service_databases 这个参数暂时没有用 """
+    # for service_database in service_databases:
+    #     for service_name, database in service_database.items():
+    #         username, password, host, port = get_myconf.select_config_values(target_service=service_name, database=database)
+    #         s = mysql.OptimizeDatas(username=username, password=password, host=host, port=port)
+    #         s.db_name_lists = [
+    #             '聚合数据',
+    #         ]
+    #         s.days = days
+    #         s.optimize_list()
+    if socket.gethostname() == 'xigua_lx' or socket.gethostname() == 'xigua1' or socket.gethostname() == 'Mac2.local':
+        # mongodb
+        username, password, host, port = get_myconf.select_config_values(
+            target_service='home_lx',
+            database='mongodb',
+        )
+        m = mongo.OptimizeDatas(username=username, password=password, host=host, port=port)
+        m.db_name_lists = db_name_lists
+        m.days = days
+        m.optimize_list()
+        if m.client:
+            m.client.close()
+            print(f'已关闭 mongodb 连接')
+        if socket.gethostname() == 'xigua_lx':
+            restart_mongodb()  # mongodb 太占内存了, 重启服务， 释放内存
+        # Mysql
+        username, password, host, port = get_myconf.select_config_values(
+            target_service='home_lx',
+            database='mysql',
+        )
+        s = mysql.OptimizeDatas(username=username, password=password, host=host, port=port)
+        s.db_name_lists = db_name_lists
+        s.days = days
+        s.optimize_list()
+    elif socket.gethostname() == 'company':
+        # Mysql
+        username, password, host, port = get_myconf.select_config_values(
+            target_service='company',
+            database='mysql',
+        )
+        s = mysql.OptimizeDatas(username=username, password=password, host=host, port=port)
+        s.db_name_lists = db_name_lists
+        s.days = days
+        s.optimize_list()
+if __name__ == '__main__':
+    op_data(service_databases=[{'home_lx': 'mysql'}], days=3650)

{mdbq-1.3.8 → mdbq-1.4.0}/mdbq/company/copysh.py RENAMED Viewed

@@ -293,27 +293,44 @@ def op_data(days: int =3650):
     # 清理数据库， 除了 聚合数据
     if socket.gethostname() == 'company':  # 公司台式机自身运行
-        # Mysql
-        username, password, host, port = get_myconf.select_config_values(
-            target_service='company',
-            database='mysql',
+        # # Mysql
+        # username, password, host, port = get_myconf.select_config_values(
+        #     target_service='company',
+        #     database='mysql',
+        # )
+        # s = mysql.OptimizeDatas(username=username, password=password, host=host, port=port)
+        # s.db_name_lists = [
+        #     '京东数据2',
+        #     '推广数据2',
+        #     '市场数据2',
+        #     '生意参谋2',
+        #     '生意经2',
+        #     '属性设置2',
+        #     # '聚合数据',  # 不在这里清理聚合数据, 还未开始聚合呢
+        # ]
+        # s.days = days
+        # s.optimize_list()
+        # 清理所有非聚合数据的库
+        optimize_data.op_data(
+            db_name_lists=[
+                '京东数据2',
+                '推广数据2',
+                '市场数据2',
+                '生意参谋2',
+                '生意经2',
+                '属性设置2',
+                # '聚合数据',  # 不在这里清理聚合数据, 还未开始聚合呢
+            ],
+            days=3650,
         )
-        s = mysql.OptimizeDatas(username=username, password=password, host=host, port=port)
-        s.db_name_lists = [
-            '京东数据2',
-            '推广数据2',
-            '市场数据2',
-            '生意参谋2',
-            '生意经2',
-            '属性设置2',
-            # '聚合数据',  # 不在这里清理聚合数据, 还未开始聚合呢
-        ]
-        s.days = days
-        s.optimize_list()
-    # 聚合数据，并清理聚合数据
-    query_data.data_aggregation(service_databases=[{'company': 'mysql'}], months=1, system_name='company')
+        # 数据聚合
+        query_data.data_aggregation(service_databases=[{'home_lx': 'mysql'}], months=1, system_name='home_lx')
+        time.sleep(60)
+        # 清理聚合数据
+        optimize_data.op_data(db_name_lists=['聚合数据'], days=3650, )
 def main():
@@ -329,7 +346,7 @@ def main():
             dp = aggregation.DatabaseUpdate(path=d_path)
             dp.new_unzip(is_move=True)
             dp.cleaning(is_move=True)  # 公司台式机需要移除自身下载的文件
-            dp.upload_df(service_databases=[{'company': 'mysql'}])
+            dp.upload_df(service_databases=[{'company': 'mysql'}], system_name='company')
             # 此操作用于修改 .copysh_conf 文件，将 ch_record 改为 false (更新完成)
             w = update_conf.UpdateConf()

{mdbq-1.3.8 → mdbq-1.4.0}/mdbq/mysql/mysql.py RENAMED Viewed

@@ -57,14 +57,14 @@ class MysqlUpload:
         }
         self.filename = None
-    def df_to_mysql(self, df, table_name, db_name='远程数据源', icm_update=[], icm_up=[], df_sql=False, drop_dup=True, drop_duplicates=False, filename=None, count=None, json_path=None, system_name=None):
+    def df_to_mysql(self, df, table_name, db_name='远程数据源', icm_update=[], icm_up=[], df_sql=False, drop_dup=False, drop_duplicates=False, filename=None, count=None, json_path=None, system_name=None):
         """
         将 df 写入数据库
         db_name: 数据库名称
         table_name: 集合/表名称
         df_sql: 这是一个临时参数, 值为 True 时使用 df.to_sql 函数上传整个表, 不会排重
         drop_duplicates：值为 True 时（仅限于聚合数据使用），其他情况不要设置此参数
-        drop_dup: 值为 True 时检查重复数据再插入，反之直接上传
+        drop_dup: 值为 True 时检查重复数据再插入，反之直接上传，数据量大时会比较慢
         filename: 传这个参数是方便定位产生错误的文件
         icm_update: 增量更新, 在聚合数据中使用，原始文件不要使用，设置此参数时需将 drop_dup 改为 False
                 使用增量更新: 必须确保 icm_update 传进来的列必须是数据表中唯一主键，值不会发生变化，不会重复，否则可能产生错乱覆盖情况

{mdbq-1.3.8 → mdbq-1.4.0}/mdbq.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: mdbq
-Version: 1.3.8
+Version: 1.4.0
 Home-page: https://pypi.org/project/mdbsql
 Author: xigua,
 Author-email: 2587125111@qq.com

{mdbq-1.3.8 → mdbq-1.4.0}/setup.py RENAMED Viewed

@@ -3,7 +3,7 @@
 from setuptools import setup, find_packages
 setup(name='mdbq',
-      version='1.3.8',
+      version='1.4.0',
       author='xigua, ',
       author_email="2587125111@qq.com",
       url='https://pypi.org/project/mdbsql',

mdbq-1.3.8/mdbq/aggregation/optimize_data.py DELETED Viewed

@@ -1,22 +0,0 @@
-# -*- coding: UTF-8 –*-
-from mdbq.mysql import mysql
-from mdbq.config import get_myconf
-"""
-对指定数据库所有冗余数据进行清理
-"""
-def op_data(service_databases, days: int = 63):
-    for service_database in service_databases:
-        for service_name, database in service_database.items():
-            username, password, host, port = get_myconf.select_config_values(target_service=service_name, database=database)
-            s = mysql.OptimizeDatas(username=username, password=password, host=host, port=port)
-            s.db_name_lists = [
-                '聚合数据',
-            ]
-            s.days = days
-            s.optimize_list()
-if __name__ == '__main__':
-    op_data(service_databases=[{'home_lx': 'mysql'}], days=3650)