PyPI - mdbq - Versions diffs - 2.9.3__py3-none-any.whl → 2.9.5__py3-none-any.whl - Mend

mdbq 2.9.3py3-none-any.whl → 2.9.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

mdbq/aggregation/aggregation.py +39 -21
mdbq/aggregation/query_data.py +52 -28
mdbq/config/products.py +15 -11
mdbq/mysql/mysql.py +113 -159
mdbq/mysql/recheck_mysql.py +1 -1
mdbq/req_post/req_tb.py +1 -1
{mdbq-2.9.3.dist-info → mdbq-2.9.5.dist-info}/METADATA +1 -1
{mdbq-2.9.3.dist-info → mdbq-2.9.5.dist-info}/RECORD +10 -12
{mdbq-2.9.3.dist-info → mdbq-2.9.5.dist-info}/WHEEL +1 -1
mdbq/company/copysh_bak.py +0 -417
mdbq/company/home_sh.py +0 -386
{mdbq-2.9.3.dist-info → mdbq-2.9.5.dist-info}/top_level.txt +0 -0

mdbq/aggregation/aggregation.py CHANGED Viewed

@@ -919,8 +919,8 @@ class DatabaseUpdateBak:
                             move_insert=True,  # 先删除，再插入
                             df_sql=False,  # 值为 True 时使用 df.to_sql 函数上传整个表, 不会排重
                             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
+                            count=None,
                             filename=rt_filename,  # 用来追踪处理进度
-                            service_database=service_database,  # 字典
                         )
                 df_to_json.as_json_file()  # 写入 json 文件, 包含数据的 dtypes 信息
@@ -1083,8 +1083,8 @@ class DatabaseUpdateBak:
                     move_insert=True,  # 先删除，再插入
                     df_sql=False,  # 值为 True 时使用 df.to_sql 函数上传整个表, 不会排重
                     drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
+                    count=None,
                     filename=None,  # 用来追踪处理进度
-                    service_database=service_database,  # 用来追踪处理进度
                 )
         # return df
@@ -1116,8 +1116,8 @@ class DatabaseUpdateBak:
                     move_insert=False,  # 先删除，再插入
                     df_sql=False,  # 值为 True 时使用 df.to_sql 函数上传整个表, 不会排重
                     drop_duplicates=True,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
+                    count=None,
                     filename=None,  # 用来追踪处理进度
-                    service_database=service_database,  # 用来追踪处理进度
                 )
@@ -1189,7 +1189,8 @@ def upload_dir(path, db_name, collection_name, json_path=None):
                               move_insert=False,  # 先删除，再插入
                               df_sql = True,
                               drop_duplicates=False,
-                              filename=name, count=f'{i}/{count}',
+                              count=f'{i}/{count}',
+                              filename=name,
                               )
                 # nas.df_to_mysql(df=df, db_name=db_name, table_name=collection_name, drop_duplicates=True,)
             except Exception as e:
@@ -1210,15 +1211,16 @@ def one_file_to_mysql(file, db_name, table_name):
         df=df,
         db_name=db_name,
         table_name=table_name,
-        filename=filename,
         move_insert=False,
         df_sql=True,
         drop_duplicates=False,
+        count=None,
+        filename=filename,
     )
 def test():
-    path = r'C:\同步空间\BaiduSyncdisk\原始文件3\天猫推广报表\品销宝'
+    path = r'/Users/xigua/数据中心/原始文件3/达摩盘/dmp人群报表'
     results = []
     for root, dirs, files in os.walk(path, topdown=False):
@@ -1226,12 +1228,18 @@ def test():
             if name.endswith('.csv') and 'baidu' not in name and '~' not in name:
                 # df = pd.read_excel(os.path.join(root, name), header=0)
                 df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=0, na_filter=False)
+                results.append(df)
                 # print(name)
-                # if len(df) == 0:
-                #     continue
-                # # df.insert(loc=1, column='店铺名称', value='万里马官方旗舰店')
-                df['更新时间'] = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')
-                df.to_csv(os.path.join(root, name), encoding='utf-8_sig', index=False, header=True)
+                if len(df) == 0:
+                    continue
+                if '达摩盘消耗占比' in df.columns.tolist():
+                    df.pop('达摩盘消耗占比')
+                if '更新时间' not in df.columns.tolist():
+                    print(name)
+                    df['更新时间'] = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')
+                    # df.insert(loc=1, column='店铺名称', value='万里马官方旗舰店')
+                    # df['更新时间'] = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')
+                    df.to_csv(os.path.join(root, name), encoding='utf-8_sig', index=False, header=True)
                 # for col in ['更新时间']:
                 #     if col not in df.columns.tolist():
                 #         print(name)
@@ -1243,12 +1251,23 @@ def test():
                 # os.remove(os.path.join(root, name))
                 # results.append(df)
     # df = pd.concat(results)
-    # path = '/Users/xigua/Downloads/手淘搜索_本店引流词'
-    # filename = 'py_xg_手淘搜索_本店引流词_万里马官方旗舰店_2024-05_合并.csv'
+    # df.drop_duplicates(
+    #     subset=[
+    #         '日期',
+    #         '店铺名称',
+    #         '报表类型',
+    #         '消耗',
+    #         '展现量',
+    #         '点击量',
+    #     ], keep='last', inplace=True, ignore_index=True)
+    # df.fillna(0, inplace=True)
+    # for col in df.columns.tolist():
+    #     df[col] = df[col].apply(lambda x: 0 if str(x) == '' else x)
+    # path = '/Users/xigua/Downloads'
+    # filename = '品销宝_2024年_合并.csv'
     # df.to_csv(os.path.join(path, filename), encoding='utf-8_sig', index=False, header=True)
 if __name__ == '__main__':
     # username = 'root'
     # password = ''
@@ -1257,20 +1276,19 @@ if __name__ == '__main__':
     #
     # # 上传 1 个文件到数据库
     # one_file_to_mysql(
-    #     file=r'/Users/xi',
-    #     db_name='推广数据2',
-    #     table_name='超级直播',
+    #     file=r'/Users/xigua/Downloads/DMP报表_2024-10-23_2024-10-29.csv',
+    #     db_name='达摩盘3',
+    #     table_name='dmp人群报表',
     # )
     # test()
-    col = 1
+    col = 0
     if col:
         # 上传一个目录到指定数据库
         db_name = '生意参谋3'
-        table_name = '商品排行'
+        table_name = '店铺流量来源构成'
         upload_dir(
-            path=r'C:\同步空间\BaiduSyncdisk\原始文件3\生意参谋\商品排行',
+            path=r'/Users/xigua/数据中心/原始文件3/生意参谋/店铺流量来源',
             db_name=db_name,
             collection_name=table_name,
         )

mdbq/aggregation/query_data.py CHANGED Viewed

@@ -6,6 +6,7 @@ from mdbq.mysql import mysql
 from mdbq.mysql import s_query
 from mdbq.aggregation import optimize_data
 from mdbq.config import myconfig
+from mdbq.config import products
 import datetime
 from dateutil.relativedelta import relativedelta
 import pandas as pd
@@ -15,6 +16,7 @@ import platform
 import getpass
 import json
 import os
+import time
 """
 程序用于下载数据库(调用 s_query.py 下载并清洗), 并对数据进行聚合清洗, 不会更新数据库信息;
@@ -855,8 +857,7 @@ class MysqlDatasQuery:
         df_crowd.sort_values('日期', ascending=True, ignore_index=True, inplace=True)
         df_crowd.drop_duplicates(subset=['人群id',], keep='last', inplace=True, ignore_index=True)
         df_crowd.pop('日期')
-        # print(df_crowd)
+        df_crowd = df_crowd.astype({'人群id': 'int64'}, errors='ignore')
         projection = {}
         df_dmp = self.download.data_to_df(
             db_name='达摩盘3',
@@ -865,6 +866,7 @@ class MysqlDatasQuery:
             end_date=end_date,
             projection=projection,
         )
+        df_dmp = df_dmp.astype({'人群id': 'int64'}, errors='ignore')
         df_dmp.sort_values('日期', ascending=True, ignore_index=True, inplace=True)
         df_dmp.drop_duplicates(subset=['日期', '人群id', '消耗_元'], keep='last', inplace=True, ignore_index=True)
         df = pd.merge(df_dmp, df_crowd, left_on=['人群id'], right_on=['人群id'], how='left')
@@ -1959,7 +1961,7 @@ class GroupBy:
         )
         return df
-    @try_except
+    # @try_except
     def performance_jd(self, jd_tg=True):
         jdtg, sku_sales = self.data_jdtg['京东_京准通'], self.data_jdtg['京东_sku_商品明细']
         jdtg = jdtg.groupby(['日期', '跟单sku_id'],
@@ -1973,6 +1975,7 @@ class GroupBy:
         df = df[['日期', '商品id', '货号', '成交单量', '成交金额', '成本价']]
         df['商品id'] = df['商品id'].astype(str)
         jdtg['跟单sku_id'] = jdtg['跟单sku_id'].astype(str)
+        jdtg = jdtg.astype({'日期': 'datetime64[ns]'}, errors='raise')
         if jd_tg is True:
             # 完整的数据表，包含全店所有推广、销售数据
             df = pd.merge(df, jdtg, how='left', left_on=['日期', '商品id'], right_on=['日期', '跟单sku_id'])  # df 合并推广表
@@ -2116,8 +2119,9 @@ def date_table():
         move_insert=True,  # 先删除，再插入
         df_sql=False,  # 值为 True 时使用 df.to_sql 函数上传整个表, 不会排重
         drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
+        count=None,
         filename=None,  # 用来追踪处理进度
-        service_database=service_database,  # 用来追踪处理进度
+        set_typ={},
     )
@@ -2281,7 +2285,9 @@ def data_aggregation(months=1, is_juhe=True, less_dict=[]):
                 # df_sql=True,
                 drop_duplicates=False,
                 icm_update=['商品id'],
-                service_database=service_database,
+                count=None,
+                filename=None,
+                set_typ={},
             )
             g.sp_index_datas = pd.DataFrame()  # 重置，不然下个循环会继续刷入数据库
         # g.as_csv(df=df, filename=table_name + '.csv')  # 导出 csv
@@ -2294,7 +2300,9 @@ def data_aggregation(months=1, is_juhe=True, less_dict=[]):
                 # df_sql=True,
                 # drop_duplicates=False,
                 # icm_update=unique_key_list,
-                service_database=service_database,
+                count=None,
+                filename=None,
+                set_typ={},
             )  # 3. 回传数据库
         else:  # 没有日期列的就用主键排重
             m.df_to_mysql(
@@ -2305,7 +2313,9 @@ def data_aggregation(months=1, is_juhe=True, less_dict=[]):
                 # df_sql=True,
                 drop_duplicates=False,
                 icm_update=unique_key_list,
-                service_database=service_database,
+                count=None,
+                filename=None,
+                set_typ={},
             )  # 3. 回传数据库
     if is_juhe:
         res = g.performance(bb_tg=True)   # 盈亏表，依赖其他表，单独做
@@ -2317,7 +2327,9 @@ def data_aggregation(months=1, is_juhe=True, less_dict=[]):
             # df_sql=True,
             # drop_duplicates=False,
             # icm_update=['日期', '商品id'],  # 设置唯一主键
-            service_database=service_database,
+            count=None,
+            filename=None,
+            set_typ={},
         )
         res = g.performance(bb_tg=False)  # 盈亏表，依赖其他表，单独做
         m.df_to_mysql(
@@ -2328,7 +2340,9 @@ def data_aggregation(months=1, is_juhe=True, less_dict=[]):
             # df_sql=True,
             # drop_duplicates=False,
             # icm_update=['日期', '商品id'],  # 设置唯一主键
-            service_database=service_database,
+            count=None,
+            filename=None,
+            set_typ={},
         )
         res = g.performance_concat(bb_tg=False)  # 推广主体合并直播表，依赖其他表，单独做
         m.df_to_mysql(
@@ -2339,7 +2353,9 @@ def data_aggregation(months=1, is_juhe=True, less_dict=[]):
             # df_sql=True,
             # drop_duplicates=False,
             # icm_update=['日期', '推广渠道', '营销场景', '商品id', '花费', '展现量', '点击量'],  # 设置唯一主键
-            service_database=service_database,
+            count=None,
+            filename=None,
+            set_typ={},
         )
         res = g.performance_jd(jd_tg=False)  # 盈亏表，依赖其他表，单独做
         m.df_to_mysql(
@@ -2350,46 +2366,54 @@ def data_aggregation(months=1, is_juhe=True, less_dict=[]):
             # df_sql=True,
             # drop_duplicates=False,
             # icm_update=['日期', '跟单sku_id', '货号', '花费'],  # 设置唯一主键
-            service_database=service_database,
+            count=None,
+            filename=None,
+            set_typ={},
         )
-def main():
-    # 更新日期表
+def main(days=100, months=3):
+    # 1. 更新日期表  更新货品年份基准表， 属性设置 3 - 货品年份基准
     date_table()
-    # 更新货品年份基准表， 属性设置 3 - 货品年份基准
     p = products.Products()
     p.to_mysql()
+    # 2. 清理非聚合数据库
     system = platform.system()  # 本机系统
     host_name = socket.gethostname()  # 本机名
     conf = myconfig.main()
     db_list = conf[system][host_name]['mysql']['数据库集']
-    db_list = [item for item in db_list if item != '聚合数据']
-    # 清理所有非聚合数据的库
+    not_juhe_db_list = [item for item in db_list if item != '聚合数据']
     optimize_data.op_data(
-        db_name_lists=db_list,
-        days=5,
-        is_mongo=True,
+        db_name_lists=not_juhe_db_list,
+        days=31,  # 原始数据不需要设置清理太长
+        is_mongo=False,
         is_mysql=True,
     )
-    # 数据聚合
-    query_data.data_aggregation(months=3)
+    # 3. 数据聚合
+    data_aggregation(
+        months=months,
+        is_juhe=True,  # 生成聚合表
+        # less_dict=['天猫_品销宝账户报表'],  # 单独聚合某一个数据库
+    )
     time.sleep(60)
-    # 清理聚合数据, mongodb 中没有聚合数据，所以只需要清理 mysql 即可
+    # 4. 清理聚合数据
     optimize_data.op_data(
         db_name_lists=['聚合数据'],
-        days=100,
+        days=days,
         is_mongo=False,
         is_mysql=True,
     )
 if __name__ == '__main__':
-    data_aggregation(
-        months=3,
-        is_juhe=True,  # 生成聚合表
-        # less_dict=['天猫_品销宝账户报表'],  # 单独聚合某一个数据库
-    )
+    main(days=100, months=3)
+    # data_aggregation(
+    #     months=3,
+    #     is_juhe=True,  # 生成聚合表
+    #     # less_dict=['天猫_品销宝账户报表'],  # 单独聚合某一个数据库
+    # )

mdbq/config/products.py CHANGED Viewed

@@ -124,25 +124,29 @@ class Products:
         ]
         self.datas += my_datas
     def to_mysql(self):
         self.update_my_datas()
         df = pd.DataFrame(self.datas)
-        m = mysql.MysqlUpload(
+        m_engine = mysql.MysqlUpload(
             username=username,
             password=password,
             host=host,
             port=port,
         )
-        m.df_to_mysql(
-            df=df,
-            db_name='属性设置3',
-            table_name='货品年份基准',
-            move_insert = False,
-            df_sql=False,  # 值为 True 时使用 df.to_sql 函数上传整个表, 不会排重
-            drop_duplicates=True,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
-            icm_update=[],
-            service_database=service_database,  # 用来追踪处理进度
-        )
+        for dict_data in df.to_dict(orient='records'):
+            m_engine.dict_to_mysql(
+                db_name='属性设置3',
+                table_name='货品年份基准',
+                dict_data=dict_data,
+                # icm_update=['日期', '店铺名称', '宝贝id'],  # 唯一组合键
+                unique_main_key=['商品id'],
+                set_type={
+                    '商品id': 'mediumtext',
+                    '平台': 'mediumtext',
+                    '上市年份': 'mediumtext',
+                },
+            )
     def market_date(self, product_id: int):
         try:

mdbq 2.9.3__py3-none-any.whl → 2.9.5__py3-none-any.whl

mdbq 2.9.3py3-none-any.whl → 2.9.5py3-none-any.whl