PyPI - mdbq - Versions diffs - 2.6.7__py3-none-any.whl → 2.6.9__py3-none-any.whl - Mend

mdbq 2.6.7py3-none-any.whl → 2.6.9py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (11) hide show

mdbq/aggregation/aggregation.py +3 -3
mdbq/aggregation/query_data.py +66 -53
mdbq/clean/clean_upload.py +59 -12
mdbq/company/copysh.py +7 -36
mdbq/dataframe/converter.py +1 -1
mdbq/mysql/mysql.py +1 -1
mdbq/mysql/recheck_mysql.py +201 -0
{mdbq-2.6.7.dist-info → mdbq-2.6.9.dist-info}/METADATA +1 -1
{mdbq-2.6.7.dist-info → mdbq-2.6.9.dist-info}/RECORD +11 -10
{mdbq-2.6.7.dist-info → mdbq-2.6.9.dist-info}/WHEEL +0 -0
{mdbq-2.6.7.dist-info → mdbq-2.6.9.dist-info}/top_level.txt +0 -0

mdbq/aggregation/aggregation.py CHANGED Viewed

@@ -1326,10 +1326,10 @@ if __name__ == '__main__':
     # )
     # 上传一个目录到指定数据库
-    db_name = '京东数据3'
-    table_name = '京东商智_spu_商品明细'
+    db_name = '生意经2'
+    table_name = '省份城市分析'
     upload_dir(
-        path='/Users/xigua/数据中心/原始文件3/京东报表/spu_商品明细qwqw',
+        path='/Users/xigua/数据中心/原始文件2/生意经/地域分布',
         db_name=db_name,
         collection_name=table_name,
         dbs={'mysql': True, 'mongodb': False},

mdbq/aggregation/query_data.py CHANGED Viewed

@@ -144,8 +144,8 @@ class MysqlDatasQuery:
             '订单数': 1,
             '退货量': 1,
             '退款额': 1,
-            '退款额（发货后）': 1,
-            '退货量（发货后）': 1,
+            '退款额_发货后': 1,
+            '退货量_发货后': 1,
         }
         df = self.download.data_to_df(
             db_name='生意经2',
@@ -522,42 +522,42 @@ class MysqlDatasQuery:
     def zb_ccfx(self):
         start_date, end_date = self.months_data(num=self.months)
         projection = {
-            '日期': 1,
-            '店铺': 1,
-            '场次信息': 1,
-            '场次id': 1,
-            '直播开播时间': 1,
-            '开播时长': 1,
-            '封面图点击率': 1,
-            '观看人数': 1,
-            '观看次数': 1,
-            '新增粉丝数': 1,
-            '流量券消耗': 1,
-            '观看总时长（秒）': 1,
-            '人均观看时长（秒）': 1,
-            '次均观看时长（秒）': 1,
-            '商品点击人数': 1,
-            '商品点击次数': 1,
-            '商品点击率': 1,
-            '加购人数': 1,
-            '加购件数': 1,
-            '加购次数': 1,
-            '成交金额（元）': 1,
-            '成交人数': 1,
-            '成交件数': 1,
-            '成交笔数': 1,
-            '成交转化率': 1,
-            '退款人数': 1,
-            '退款笔数': 1,
-            '退款件数': 1,
-            '退款金额（元）': 1,
-            '预售定金支付金额（元）': 1,
-            '预售预估总金额（元）': 1,
-            '店铺名称': 1,
+            # '日期': 1,
+            # '店铺': 1,
+            # '场次信息': 1,
+            # '场次id': 1,
+            # '直播开播时间': 1,
+            # '开播时长': 1,
+            # '封面图点击率': 1,
+            # '观看人数': 1,
+            # '观看次数': 1,
+            # '新增粉丝数': 1,
+            # '流量券消耗': 1,
+            # '观看总时长（秒）': 1,
+            # '人均观看时长（秒）': 1,
+            # '次均观看时长（秒）': 1,
+            # '商品点击人数': 1,
+            # '商品点击次数': 1,
+            # '商品点击率': 1,
+            # '加购人数': 1,
+            # '加购件数': 1,
+            # '加购次数': 1,
+            # '成交金额（元）': 1,
+            # '成交人数': 1,
+            # '成交件数': 1,
+            # '成交笔数': 1,
+            # '成交转化率': 1,
+            # '退款人数': 1,
+            # '退款笔数': 1,
+            # '退款件数': 1,
+            # '退款金额': 1,
+            # '预售定金支付金额': 1,
+            # '预售预估总金额': 1,
+            # '店铺名称': 1,
         }
         df = self.download.data_to_df(
             db_name='生意参谋3',
-            table_name='直播场次分析',
+            table_name='直播分场次效果',
             start_date=start_date,
             end_date=end_date,
             projection=projection,
@@ -808,14 +808,14 @@ class MysqlDatasQuery:
         projection = {}
         df_dmp = self.download.data_to_df(
-            db_name='推广数据2',
-            table_name='达摩盘_dmp报表',
+            db_name='达摩盘3',
+            table_name='dmp人群报表',
             start_date=start_date,
             end_date=end_date,
             projection=projection,
         )
         df_dmp.sort_values('日期', ascending=True, ignore_index=True, inplace=True)
-        df_dmp.drop_duplicates(subset=['日期', '人群id', '消耗(元)'], keep='last', inplace=True, ignore_index=True)
+        df_dmp.drop_duplicates(subset=['日期', '人群id', '消耗'], keep='last', inplace=True, ignore_index=True)
         df = pd.merge(df_dmp, df_crowd, left_on=['人群id'], right_on=['人群id'], how='left')
         # 清除一些不必要的字符
         df['用户年龄'] = df['用户年龄'].apply(lambda x: '~'.join(re.findall(r'^(\d+).*-(\d+)岁$', str(x))[0]) if '岁' in str(x) else x)
@@ -973,7 +973,9 @@ class GroupBy:
                 ], keep='last', inplace=True, ignore_index=True)
             return df
         elif '天猫_人群报表' in table_name and '达摩盘' not in table_name:
-            """ 天猫推广人群报表独立生成消费力、年龄层、分类等特征，不依赖于达摩盘数据表 """
+            """
+            天猫推广人群报表独立生成消费力、年龄层、分类等特征，不依赖于达摩盘数据表
+            """
             df.rename(columns={
                 '场景名字': '营销场景',
                 '主体id': '商品id',
@@ -1292,8 +1294,8 @@ class GroupBy:
                    '订单数': ('订单数', np.min),
                    '退货量': ('退货量', np.max),
                    '退款额': ('退款额', np.max),
-                   '退款额（发货后）': ('退款额（发货后）', np.max),
-                   '退货量（发货后）': ('退货量（发货后）', np.max),
+                   '退款额_发货后': ('退款额_发货后', np.max),
+                   '退货量_发货后': ('退货量_发货后', np.max),
                    }
             )
             df['件均价'] = df.apply(lambda x: x['销售额'] / x['销售量'] if x['销售量'] > 0 else 0, axis=1).round(
@@ -1307,7 +1309,7 @@ class GroupBy:
             )
             self.data_tgyj.update(
                 {
-                    table_name: df[['日期', '宝贝id', '销售额', '销售量', '退款额（发货后）', '退货量（发货后）']],
+                    table_name: df[['日期', '宝贝id', '销售额', '销售量', '退款额_发货后', '退货量_发货后']],
                 }
             )
             return df
@@ -1489,7 +1491,7 @@ class GroupBy:
                 }
             )
             return df
-        elif '直播场次分析' in table_name:
+        elif '生意参谋_直播场次分析' in table_name:
             df.drop_duplicates(subset=['场次id'], keep='first', inplace=True, ignore_index=True)
             return df
         elif '多店推广场景_按日聚合' in table_name:
@@ -2070,14 +2072,19 @@ def data_aggregation_one(service_databases=[{}], months=1):
                 )  # 3. 回传数据库
-def data_aggregation(service_databases=[{}], months=1, is_juhe=True):
+def data_aggregation(service_databases=[{}], months=1, is_juhe=True, less_dict=[]):
     """
     1. 从数据库中读取数据
     2. 数据聚合清洗
     3. 统一回传数据库: <聚合数据>  （不再导出为文件）
     公司台式机调用
     months: 1+，写 0 表示当月数据，但在每月 1 号时可能会因为返回空数据出错
+    is_juhe： 聚合数据
+    less_dict:：只聚合某个特定的库
     """
+    if months == 0:
+        print(f'months 不建议为 0 ')
+        return
     for service_database in service_databases:
         for service_name, database in service_database.items():
             sdq = MysqlDatasQuery(target_service=service_name)  # 实例化数据处理类
@@ -2185,12 +2192,12 @@ def data_aggregation(service_databases=[{}], months=1, is_juhe=True):
                     '唯一主键': ['日期', '关键词', '访客数'],
                     '数据主体': sdq.se_search(),
                 },
-                # {
-                #     '数据库名': '聚合数据',
-                #     '集合名': '生意参谋_直播场次分析',  # 暂缺
-                #     '唯一主键': ['场次id'],
-                #     '数据主体': sdq.zb_ccfx(),
-                # },
+                {
+                    '数据库名': '聚合数据',
+                    '集合名': '生意参谋_直播场次分析',  # 暂缺
+                    '唯一主键': ['场次id'],
+                    '数据主体': sdq.zb_ccfx(),
+                },
                 {
                     '数据库名': '聚合数据',
                     '集合名': '多店推广场景_按日聚合',
@@ -2210,6 +2217,9 @@ def data_aggregation(service_databases=[{}], months=1, is_juhe=True):
                     '数据主体': sdq.dmp_crowd(),
                 },
             ]
+            if less_dict:
+                data_dict = [item for item in data_dict if item['集合名'] in less_dict]
             for items in data_dict:  # 遍历返回结果
                 db_name, table_name, unique_key_list, df = items['数据库名'], items['集合名'], items['唯一主键'], items['数据主体']
                 df = g.groupby(df=df, table_name=table_name, is_maximize=True)  # 2. 聚合数据
@@ -2304,6 +2314,9 @@ def main():
 if __name__ == '__main__':
-    data_aggregation(service_databases=[{'company': 'mysql'}], months=24, is_juhe=False)  # 正常的聚合所有数据
-    # data_aggregation_one(service_databases=[{'company': 'mysql'}], months=1)  # 单独聚合某一个数据库，具体库进函数编辑
-    # optimize_data.op_data(service_databases=[{'company': 'mysql'}], days=3650)  # 立即启动对聚合数据的清理工作
+    data_aggregation(
+        service_databases=[{'company': 'mysql'}],
+        months=1,
+        is_juhe=False,  # 立即启动对聚合数据的清理工作
+        # less_dict=['生意参谋_直播场次分析'],  # 单独聚合某一个数据库
+    )

mdbq/clean/clean_upload.py CHANGED Viewed

@@ -108,6 +108,11 @@ class DataClean:
                 '数据库名': '生意参谋3',
                 '集合名称': '手淘搜索_本店引流词',
             },
+            {
+                '文件简称': '直播分场次效果_',  # 文件名中包含的字符
+                '数据库名': '生意参谋3',
+                '集合名称': '直播分场次效果',
+            },
         ]
         for root, dirs, files in os.walk(path, topdown=False):
             for name in files:
@@ -181,6 +186,14 @@ class DataClean:
                     new_name = f'py_xg_{os.path.splitext(name)[0]}.csv'
                     self.save_to_csv(df, root, new_name, encoding='utf-8_sig')
                     os.remove(os.path.join(root, name))
+                elif name.endswith('.csv') and '直播分场次效果' in name:
+                    df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=0, na_filter=False)
+                    shop_name = re.findall(r'_([\u4e00-\u9fffA-Za-z]+店)_', name)[0]
+                    if '店铺名称' not in df.columns.tolist():
+                        df.insert(loc=1, column='店铺名称', value=shop_name)
+                    new_name = f'py_xg_{os.path.splitext(name)[0]}.csv'
+                    self.save_to_csv(df, root, new_name, encoding='utf-8_sig')
+                    os.remove(os.path.join(root, name))
                 # 将数据传入 self.datas 等待更新进数据库
                 if not db_name or not collection_name:
@@ -205,6 +218,11 @@ class DataClean:
                 '数据库名': '达摩盘3',
                 '集合名称': '我的人群属性',
             },
+            {
+                '文件简称': 'dmp人群报表_',  # 文件名中包含的字符
+                '数据库名': '达摩盘3',
+                '集合名称': 'dmp人群报表',
+            },
         ]
         for root, dirs, files in os.walk(path, topdown=False):
             for name in files:
@@ -241,6 +259,21 @@ class DataClean:
                     new_name = f'py_xg_{os.path.splitext(name)[0]}.csv'
                     self.save_to_csv(df, root, new_name, encoding='utf-8_sig')
                     os.remove(os.path.join(root, name))
+                elif name.endswith('.csv') and 'dmp人群报表_' in name:
+                    df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=0, na_filter=False)
+                    if len(df) == 0:
+                        print(f'{name} 报表数据为空')
+                        continue
+                    for col in df.columns.tolist():
+                        if '(' in col or ')' in col:
+                            new_col = re.sub(r'\(.*\)', '', col)
+                            df.rename(columns={col: new_col}, inplace=True)
+                    shop_name = re.findall(r'_([\u4e00-\u9fffA-Za-z]+店)', name)[0]
+                    if '店铺名称' not in df.columns.tolist():
+                        df.insert(loc=1, column='店铺名称', value=shop_name)
+                    new_name = f'py_xg_{os.path.splitext(name)[0]}.csv'
+                    self.save_to_csv(df, root, new_name, encoding='utf-8_sig')
+                    os.remove(os.path.join(root, name))
                 # 将数据传入 self.datas 等待更新进数据库
                 if not db_name or not collection_name:
@@ -324,6 +357,11 @@ class DataClean:
                 '文件简称': 'tg_report_品销宝_明星店铺',
                 '数据库名': '推广数据2',
                 '集合名称': '品销宝',
+            },
+            {
+                '文件简称': 'tg_report_超级短视频_主体',
+                '数据库名': '推广数据2',
+                '集合名称': '超级短视频_主体',
             }
         ]
         for root, dirs, files in os.walk(path, topdown=False):
@@ -430,7 +468,7 @@ class DataClean:
             {
                 '文件简称': 'order',
                 '数据库名': '生意经2',
-                '集合名称': '订单指标',
+                '集合名称': '订单数据',
             },
             {
                 '文件简称': '省份城市分析',
@@ -571,7 +609,7 @@ class DataClean:
             {
                 '文件简称': 'order',
                 '数据库名': '淘宝_生意经3',
-                '集合名称': '订单指标',
+                '集合名称': '订单数据',
             },
             {
                 '文件简称': '省份城市分析',
@@ -965,6 +1003,9 @@ class DataClean:
                 elif name.endswith('.csv') and '手淘搜索_本店引流词_' in name:
                     t_path = os.path.join(self.source_path, '生意参谋', '手淘搜索_本店引流词')
                     bib(t_path, _as_month=True)
+                elif name.endswith('.csv') and '直播分场次效果_' in name:
+                    t_path = os.path.join(self.source_path, '生意参谋', '直播分场次效果')
+                    bib(t_path, _as_month=True)
     def move_dmp(self, path=None, is_except=[]):
         """ 达摩盘 """
@@ -995,6 +1036,9 @@ class DataClean:
                 if name.endswith('.csv') and '人群属性_万里马官方旗舰店' in name:
                     t_path = os.path.join(self.source_path, '达摩盘', '我的人群属性')
                     bib(t_path, _as_month=True)
+                elif name.endswith('.csv') and 'dmp人群报表_' in name:
+                    t_path = os.path.join(self.source_path, '达摩盘', 'dmp人群报表')
+                    bib(t_path, _as_month=True)
     # @try_except
@@ -1154,6 +1198,9 @@ class DataClean:
                 elif name.endswith('.csv') and 'tg_report_超级直播报表_人群_万里马官方旗舰店' in name:
                     t_path = os.path.join(self.source_path, '天猫推广报表', '超级直播报表_人群')
                     bib(t_path, _as_month=True)
+                elif name.endswith('.csv') and '超级短视频_主体' in name:
+                    t_path = os.path.join(self.source_path, '天猫推广报表', '超级短视频_主体')
+                    bib(t_path, _as_month=True)
                 elif name.endswith('.csv') and 'tg_report_品销宝_明星店铺_万里马官方旗舰店' in name:
                     if '账户' in name:
@@ -1597,16 +1644,16 @@ def main(service_databases=None, is_mysql=False):
 if __name__ == '__main__':
-    # main(
-    #     service_databases = [
-    #         {'company': 'mysql'},
-    #         # {'home_lx': 'mysql'},
-    #         # {'home_lx': 'mongodb'},
-    #         # {'nas': 'mysql'},
-    #     ],
-    #     is_mysql = False,  # 清理聚合数据
-    # )
-    date_table(service_databases=[{'company': 'mysql'}])
+    main(
+        service_databases = [
+            {'company': 'mysql'},
+            # {'home_lx': 'mysql'},
+            # {'home_lx': 'mongodb'},
+            # {'nas': 'mysql'},
+        ],
+        is_mysql = False,  # 清理聚合数据
+    )
+    # date_table(service_databases=[{'company': 'mysql'}])
     # c = DataClean(
     #     path=upload_path,  # 源文件目录，下载文件夹
     #     source_path=source_path3,  # 原始文件保存目录

mdbq/company/copysh.py CHANGED Viewed

@@ -318,36 +318,17 @@ def op_data(days: int =100):
     # 清理数据库， 除了 聚合数据
     if socket.gethostname() == 'company':  # 公司台式机自身运行
-        # # Mysql
-        # username, password, host, port = get_myconf.select_config_values(
-        #     target_service='company',
-        #     database='mysql',
-        # )
-        # s = mysql.OptimizeDatas(username=username, password=password, host=host, port=port)
-        # s.db_name_lists = [
-        #     '京东数据2',
-        #     '推广数据2',
-        #     '市场数据2',
-        #     '生意参谋2',
-        #     '生意经2',
-        #     '属性设置2',
-        #     # '聚合数据',  # 不在这里清理聚合数据, 还未开始聚合呢
-        # ]
-        # s.days = days
-        # s.optimize_list()
         # 清理所有非聚合数据的库
         optimize_data.op_data(
             db_name_lists=[
-                '京东数据3',
+                '京东数据2',
                 '属性设置3',
                 '推广数据2',
-                '生意参谋3',
                 '推广数据_淘宝店',
-                '爱库存2'
+                '爱库存2',
                 '生意参谋3',
                 '生意经2',
-                # '聚合数据',  # 不在这里清理聚合数据, 还未开始聚合呢
+                # '聚合数据',
                 '达摩盘3',
             ],
             days=days,
@@ -369,10 +350,10 @@ def main():
         if res:
             upload_path = f'windows2/{str(datetime.date.today().strftime("%Y-%m"))}/{str(datetime.date.today())}'
             b = bdup.BaiDu()
-            # 从百度云下载文件
+            # 1. 从百度云下载文件
             b.download_dir(local_path=d_path, remote_path=upload_path)
-            # 对文件进行清洗和上传数据库
+            # 2. 对文件进行清洗和上传数据库
             clean_upload.main(
                     service_databases = [{'company': 'mysql'}],
                     is_mysql = False,  # 清理聚合数据
@@ -382,7 +363,8 @@ def main():
             w = update_conf.UpdateConf()
             w.update_config(filename='.copysh_conf', option='ch_record', new_value='False')
             time.sleep(60)
-            op_data(days=100)  # 数据清理和聚合
+            # 3. 数据清理和聚合
+            op_data(days=100)
         t.sleep_minutes = 5  # 同步前休眠时间
         t.tb_file()
@@ -391,14 +373,3 @@ def main():
 if __name__ == '__main__':
     main()
-    # # 聚合数据，并清理聚合数据
-    # query_data.data_aggregation(service_databases=[{'company': 'mysql'}], months=1)
-    # sku_picture.download_spu(
-    #     service_name='company',
-    #     database='mysql',
-    #     db_name='属性设置2',
-    #     table_name='商品spu素材下载记录',
-    #     col_name='商品图片',
-    #     save_path=os.path.join(f'\\\\192.168.1.198\\时尚事业部\\01.运营部\\天猫报表\\其他文件', '商品id_商家编码_图片'),
-    # )

mdbq/dataframe/converter.py CHANGED Viewed

@@ -82,7 +82,7 @@ class DataFrameConverter(object):
                         df[col] = df[col].apply(lambda x: pd.to_datetime(x))
                     except:
                         pass
-            new_col = re.sub(r'[（）()-,，$%&~^、* ]', '_', col.lower())
+            new_col = re.sub(r'[（）()-,，$&~^、* ]', '_', col.lower())
             new_col = re.sub(r'_{2,}', '_', new_col)
             new_col = re.sub(r'_+$', '', new_col)
             df.rename(columns={col: new_col}, inplace=True)

mdbq/mysql/mysql.py CHANGED Viewed

@@ -142,7 +142,7 @@ class MysqlUpload:
             if col_not_exist:  # 数据表中不存在的列
                 for col in col_not_exist:
                     #  创建列，需转义
-                    sql = f"ALTER TABLE `{table_name}` ADD COLUMN `{col}` {dtypes[col]};"
+                    sql = f"ALTER TABLE `{table_name}` ADD COLUMN `{col}` {dtypes[col]} NOT NULL;"
                     cursor.execute(sql)
                     print(f"添加列: {col}({dtypes[col]})")  # 添加列并指定数据类型

mdbq/mysql/recheck_mysql.py ADDED Viewed

@@ -0,0 +1,201 @@
+# -*- coding: UTF-8 –*-
+import os
+import time
+import pandas as pd
+import warnings
+import datetime
+from dateutil.relativedelta import relativedelta
+from mdbq.config import get_myconf
+from mdbq.mysql import mysql
+from mdbq.mysql import s_query
+""" 这是一个临时文件， 用来修改原始文件中大量 csv 文件中的场景名字（万相台报表） """
+warnings.filterwarnings('ignore')
+def id_account_rpt(id_rpt):
+    """
+    id_rpt: 传入原二级场景id/原二级场景名字 ，返回其他键值
+    只可以旧推新，不可以新推旧
+    例如： 粉丝快 -> 人群推广， 精准人群推广 -> 人群推广
+    但不可以：人群推广 对应着旧的多个值，会发生问题
+    """
+    if '="' in str(id_rpt):
+        id_rpt = str(id_rpt).replace('="', '')
+        id_rpt = str(id_rpt).replace('"', '')
+    _id_account_rpt = [
+        {
+            '原二级场景id': '436',
+            '原二级场景名字': '全站推广',
+            '场景id': '436',
+            '场景名字': '全站推广',
+        },
+        {
+            '原二级场景id': '407',
+            '原二级场景名字': '粉丝快',
+            '场景id': '372',
+            '场景名字': '人群推广',
+        },
+        {
+            '原二级场景id': '114',
+            '原二级场景名字': '货品加速',
+            '场景id': '376',
+            '场景名字': '货品运营',
+        },
+        {
+            '原二级场景id': '372',
+            '原二级场景名字': '精准人群推广',
+            '场景id': '372',
+            '场景名字': '人群推广',
+        },
+        {
+            '原二级场景id': '371',
+            '原二级场景名字': '关键词推广',
+            '场景id': '371',
+            '场景名字': '关键词推广',
+        },
+        {
+            '原二级场景id': '361',
+            '原二级场景名字': '全店智投',
+            '场景id': '361',
+            '场景名字': '全店智投',
+        },
+        {
+            '原二级场景id': '183',
+            '原二级场景名字': '超级短视频',
+            '场景id': '183',
+            '场景名字': '超级短视频',
+        },
+        {
+            '原二级场景id': '154',
+            '原二级场景名字': '活动加速',
+            '场景id': '154',
+            '场景名字': '活动加速',
+        },
+        {
+            '原二级场景id': '133',
+            '原二级场景名字': '会员快',
+            '场景id': '372',
+            '场景名字': '人群推广',
+        },
+        {
+            '原二级场景id': '108',
+            '原二级场景名字': '超级直播',
+            '场景id': '108',
+            '场景名字': '超级直播',
+        },
+        {
+            '原二级场景id': '105',
+            '原二级场景名字': '上新快',
+            '场景id': '105',
+            '场景名字': '上新快',
+        },
+        {
+            '原二级场景id': '78',
+            '原二级场景名字': '拉新快',
+            '场景id': '372',
+            '场景名字': '人群推广',
+        },
+    ]
+    for data in _id_account_rpt:
+        if id_rpt == data['原二级场景id'] or id_rpt == data['原二级场景名字']:
+            return data
+class ReCheckMysql:
+    def __init__(self, target_service):
+        username, password, host, port = get_myconf.select_config_values(target_service=target_service,
+                                                                         database='mysql')
+        self.download = s_query.QueryDatas(username=username, password=password, host=host, port=port)
+        self.months = 1  # 读取近 num 个月的数据, 0 表示读取当月的数据
+    @staticmethod
+    def months_data(num=0, end_date=None):
+        """ 读取近 num 个月的数据, 0 表示读取当月的数据 """
+        if not end_date:
+            end_date = datetime.datetime.now()
+        start_date = end_date - relativedelta(months=num)  # n 月以前的今天
+        start_date = f'{start_date.year}-{start_date.month}-01'  # 替换为 n 月以前的第一天
+        return pd.to_datetime(start_date), pd.to_datetime(end_date)
+    def recheck_cols(self, db_name, table_name, service_name='company'):
+        start_date, end_date = self.months_data(num=self.months)
+        df = self.download.data_to_df(
+            db_name=db_name,
+            table_name=table_name,
+            start_date=start_date,
+            end_date=end_date,
+            projection={},
+        )
+        # df.to_csv('/Users/xigua/Downloads/test_before.csv', index=False, header=True, encoding='utf-8_sig')
+        # 调用 self.id_account_rpt 函数，根据场景id 修改对应的场景名字，如果没有匹配则不修改
+        df['场景名字'] = df.apply(lambda x: id_account_rpt(x['场景id']) if id_account_rpt(x['场景id']) else x['场景名字'], axis=1)
+        # df.to_csv('/Users/xigua/Downloads/test.csv', index=False, header=True, encoding='utf-8_sig')
+        username, password, host, port = get_myconf.select_config_values(
+            target_service=service_name,
+            database='mysql',
+        )
+        m = mysql.MysqlUpload(
+            username=username,
+            password=password,
+            host=host,
+            port=port,
+        )
+        m.df_to_mysql(
+            df=df,
+            db_name=db_name,
+            table_name=table_name,
+            move_insert=True,  # 先删除，再插入
+            df_sql=False,  # 值为 True 时使用 df.to_sql 函数上传整个表, 不会排重
+            drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
+            filename='',  # 用来追踪处理进度
+            service_database={'company': 'mysql'},  # 字典
+        )
+def recheck_csv():
+    path = '/Users/xigua/数据中心/原始文件2/推广报表34324234'
+    for root, dirs, files in os.walk(path, topdown=False):
+        for name in files:
+            if '~' in name or 'baidu' in name or 'Ds_' in name or 'xunlei' in name:
+                continue
+            if name.endswith('.csv'):
+                df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=0, na_filter=False)
+                if '场景ID' not in df.columns.tolist():
+                    continue
+                if '原二级场景名字' in df.columns.tolist() and '原二级场景ID' in df.columns.tolist():
+                    df['原二级场景ID'].replace(to_replace='="', value='', regex=True, inplace=True)
+                    df['原二级场景ID'].replace(to_replace='"', value='', regex=True, inplace=True)
+                if '场景名字' in df.columns.tolist() and '场景ID' in df.columns.tolist():
+                    df['场景ID'].replace(to_replace='="', value='', regex=True, inplace=True)
+                    df['场景ID'].replace(to_replace='"', value='', regex=True, inplace=True)
+                if '场景名字' in df.columns.tolist() and '场景ID' in df.columns.tolist() and '原二级场景名字' not in df.columns.tolist():
+                    df.rename(columns={
+                        '场景名字': '原二级场景名字',
+                        '场景ID': '原二级场景ID',
+                    }, inplace=True)
+                    # 根据 id 修正 场景名字
+                    df['原二级场景名字'] = df.apply(
+                        lambda x: id_account_rpt(x['原二级场景ID'])['原二级场景名字'] if id_account_rpt(x['原二级场景ID']) else x['原二级场景名字'], axis=1)
+                    # 根据原场景id获取新场景名字
+                    df['场景名字'] = df.apply(
+                        lambda x: id_account_rpt(x['原二级场景ID'])['场景名字'] if id_account_rpt(x['原二级场景ID']) else '', axis=1)
+                    # 根据原场景id获取新场景id
+                    df['场景ID'] = df.apply(
+                        lambda x: id_account_rpt(x['原二级场景ID'])['场景id'] if id_account_rpt(x['原二级场景ID']) else '', axis=1)
+                print(name)
+                df.to_csv(os.path.join(root, name), index=False, header=True, encoding='utf-8_sig')
+if __name__ == '__main__':
+    # r = ReCheckMysql(target_service='company')
+    # r.months = 100
+    # r.recheck_cols(
+    #     db_name='推广数据2',
+    #     table_name='营销场景报表',
+    #     service_name='company',
+    # )
+    recheck_csv()

{mdbq-2.6.7.dist-info → mdbq-2.6.9.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: mdbq
-Version: 2.6.7
+Version: 2.6.9
 Home-page: https://pypi.org/project/mdbsql
 Author: xigua,
 Author-email: 2587125111@qq.com

{mdbq-2.6.7.dist-info → mdbq-2.6.9.dist-info}/RECORD RENAMED Viewed

@@ -1,18 +1,18 @@
 mdbq/__init__.py,sha256=Il5Q9ATdX8yXqVxtP_nYqUhExzxPC_qk_WXQ_4h0exg,16
 mdbq/__version__.py,sha256=y9Mp_8x0BCZSHsdLT_q5tX9wZwd5QgqrSIENLrb6vXA,62
 mdbq/aggregation/__init__.py,sha256=EeDqX2Aml6SPx8363J-v1lz0EcZtgwIBYyCJV6CcEDU,40
-mdbq/aggregation/aggregation.py,sha256=aAAYq3-I4dqqXFFGwznihDl9ELajfi1NTIFdPFJ0Z_0,76606
+mdbq/aggregation/aggregation.py,sha256=MdxBP0z3ITMoUPeRU_VF9CLMSy9Dc3EAfjV59fYgPT0,76581
 mdbq/aggregation/df_types.py,sha256=U9i3q2eRPTDY8qAPTw7irzu-Tlg4CIySW9uYro81wdk,8125
 mdbq/aggregation/mysql_types.py,sha256=DQYROALDiwjJzjhaJfIIdnsrNs11i5BORlj_v6bp67Y,11062
 mdbq/aggregation/optimize_data.py,sha256=gdScrgTAb6RbXHZy1LitX7lggMGn1GTLhkYSgztfwew,4903
-mdbq/aggregation/query_data.py,sha256=Ob5PHdAzYF4gcZ85YX4R91-XKB53Gs48OKzAXGNK-6M,102603
+mdbq/aggregation/query_data.py,sha256=m7Y2xSazPYKvy51yPK6n_Izsv5cjV83oHsiNc7N4fyA,102779
 mdbq/bdup/__init__.py,sha256=AkhsGk81SkG1c8FqDH5tRq-8MZmFobVbN60DTyukYTY,28
 mdbq/bdup/bdup.py,sha256=LAV0TgnQpc-LB-YuJthxb0U42_VkPidzQzAagan46lU,4234
 mdbq/clean/__init__.py,sha256=A1d6x3L27j4NtLgiFV5TANwEkLuaDfPHDQNrPBbNWtU,41
-mdbq/clean/clean_upload.py,sha256=js0lngM43eAFUQ_J3RvqE4HFMO-9VAWTUbNY1H98LZo,83703
+mdbq/clean/clean_upload.py,sha256=cTFh63leDQvEfyRkpTcTNWJdUBHbxAdnwCtK8JOAEhg,86640
 mdbq/clean/data_clean.py,sha256=ucfslhqXVZoH2QaXHSAWDky0GhIvH9f4GeNaHg4SrFE,104790
 mdbq/company/__init__.py,sha256=qz8F_GsP_pMB5PblgJAUAMjasuZbOEp3qQOCB39E8f0,21
-mdbq/company/copysh.py,sha256=6RR2wbpUXHCrbdPzBJZOvPx_mhWWCtqeZwZ7x5B-r5s,18781
+mdbq/company/copysh.py,sha256=sisL5eo3D5HGGYvRw46xGqnqFaI3SxfBnoa-Y7zknus,17541
 mdbq/company/copysh_bak.py,sha256=NvlXCBZBcO2GIT5nLRYYqhOyHWM1-1RE7DHvgbj6jmQ,19723
 mdbq/company/home_sh.py,sha256=42CZ2tZIXHLl2mOl2gk2fZnjH2IHh1VJ1s3qHABjonY,18021
 mdbq/config/__init__.py,sha256=jso1oHcy6cJEfa7udS_9uO5X6kZLoPBF8l3wCYmr5dM,18
@@ -21,13 +21,14 @@ mdbq/config/products.py,sha256=hN9UMkM6j76HYMulTYdtr3mOhh9QdpvvrLH14a_mbFY,5980
 mdbq/config/set_support.py,sha256=xkZCX6y9Bq1ppBpJAofld4B2YtchA7fl0eT3dx3CrSI,777
 mdbq/config/update_conf.py,sha256=taL3ZqKgiVWwUrDFuaYhim9a72Hm4BHRhhDscJTziR8,4535
 mdbq/dataframe/__init__.py,sha256=2HtCN8AdRj53teXDqzysC1h8aPL-mMFy561ESmhehGQ,22
-mdbq/dataframe/converter.py,sha256=3n3_FKBxv7bFWeRcmv9CfiApFXuvvbRwZxTwR-SLGzU,4461
+mdbq/dataframe/converter.py,sha256=X5Aubm9Z4_bhslcu1-XZzT8X6UpoAW5BFs30RfgfRmE,4460
 mdbq/log/__init__.py,sha256=Mpbrav0s0ifLL7lVDAuePEi1hJKiSHhxcv1byBKDl5E,15
 mdbq/log/mylogger.py,sha256=oaT7Bp-Hb9jZt52seP3ISUuxVcI19s4UiqTeouScBO0,3258
 mdbq/mongo/__init__.py,sha256=SILt7xMtQIQl_m-ik9WLtJSXIVf424iYgCfE_tnQFbw,13
 mdbq/mongo/mongo.py,sha256=v9qvrp6p1ZRWuPpbSilqveiE0FEcZF7U5xUPI0RN4xs,31880
 mdbq/mysql/__init__.py,sha256=A_DPJyAoEvTSFojiI2e94zP0FKtCkkwKP1kYUCSyQzo,11
-mdbq/mysql/mysql.py,sha256=ejiRPW2RPhnvU9xI8XTFin08bkMLoyeoxTYzFUelKWM,47126
+mdbq/mysql/mysql.py,sha256=9IIyKYU81SXglz6GqVTz0-kCE2dhFuwpQAhUym-yjuc,47135
+mdbq/mysql/recheck_mysql.py,sha256=jHQSlQy0PlQ_EYICQv_2nairUX3t6OIwPtSELKIpjkY,8702
 mdbq/mysql/s_query.py,sha256=37GGHzRpycfUjsYEoQgDpdEs9JwjW-LxFXnGwwP2b2Q,8403
 mdbq/mysql/year_month_day.py,sha256=VgewoE2pJxK7ErjfviL_SMTN77ki8GVbTUcao3vFUCE,1523
 mdbq/other/__init__.py,sha256=jso1oHcy6cJEfa7udS_9uO5X6kZLoPBF8l3wCYmr5dM,18
@@ -43,7 +44,7 @@ mdbq/req_post/__init__.py,sha256=jso1oHcy6cJEfa7udS_9uO5X6kZLoPBF8l3wCYmr5dM,18
 mdbq/req_post/req_tb.py,sha256=PexWSCPJNM6Tv0ol4lAWIhlOwsAr_frnjtcdSHCFiek,36179
 mdbq/spider/__init__.py,sha256=RBMFXGy_jd1HXZhngB2T2XTvJqki8P_Fr-pBcwijnew,18
 mdbq/spider/aikucun.py,sha256=4Y5zd64hZUFtll8AdpUc2napDas-La-A6XzAhb2mLv0,17157
-mdbq-2.6.7.dist-info/METADATA,sha256=85v7mF0rMpWyIE8IJqMd8h8LUXHctsnE6qcQWhl4ENs,245
-mdbq-2.6.7.dist-info/WHEEL,sha256=eOLhNAGa2EW3wWl_TU484h7q1UNgy0JXjjoqKoxAAQc,92
-mdbq-2.6.7.dist-info/top_level.txt,sha256=2FQ-uLnCSB-OwFiWntzmwosW3X2Xqsg0ewh1axsaylA,5
-mdbq-2.6.7.dist-info/RECORD,,
+mdbq-2.6.9.dist-info/METADATA,sha256=t5tQ6w5J_gAE9GygCcXJGQ1U3Aa0vEPq4DksLDc8v_8,245
+mdbq-2.6.9.dist-info/WHEEL,sha256=eOLhNAGa2EW3wWl_TU484h7q1UNgy0JXjjoqKoxAAQc,92
+mdbq-2.6.9.dist-info/top_level.txt,sha256=2FQ-uLnCSB-OwFiWntzmwosW3X2Xqsg0ewh1axsaylA,5
+mdbq-2.6.9.dist-info/RECORD,,

{mdbq-2.6.7.dist-info → mdbq-2.6.9.dist-info}/WHEEL RENAMED Viewed

File without changes

{mdbq-2.6.7.dist-info → mdbq-2.6.9.dist-info}/top_level.txt RENAMED Viewed

File without changes

mdbq 2.6.7__py3-none-any.whl → 2.6.9__py3-none-any.whl

mdbq 2.6.7py3-none-any.whl → 2.6.9py3-none-any.whl