PyPI - mdbq - Versions diffs - 2.6.2__py3-none-any.whl → 2.6.4__py3-none-any.whl - Mend

mdbq 2.6.2py3-none-any.whl → 2.6.4py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (8) hide show

mdbq/aggregation/aggregation.py +17 -15
mdbq/aggregation/query_data.py +79 -102
mdbq/clean/clean_upload.py +129 -105
mdbq/spider/aikucun.py +22 -20
{mdbq-2.6.2.dist-info → mdbq-2.6.4.dist-info}/METADATA +1 -1
{mdbq-2.6.2.dist-info → mdbq-2.6.4.dist-info}/RECORD +8 -8
{mdbq-2.6.2.dist-info → mdbq-2.6.4.dist-info}/WHEEL +0 -0
{mdbq-2.6.2.dist-info → mdbq-2.6.4.dist-info}/top_level.txt +0 -0

mdbq/aggregation/aggregation.py CHANGED Viewed

@@ -1302,25 +1302,27 @@ if __name__ == '__main__':
     username, password, host, port = get_myconf.select_config_values(target_service='nas', database='mysql')
     print(username, password, host, port)
     # file_dir(one_file=False, target_service='company')
-    # one_file_to_mysql(
-    #     file='/Users/xigua/Downloads/爱库存_商品榜单_spu_2024-10-17_2024-10-17.csv',
-    #     db_name='爱库存2',
-    #     table_name='商品spu榜单',
-    #     target_service='company',
-    #     database='mysql'
-    # )
-    # 上传一个目录到指定数据库
-    db_name = '天猫_推广数据3'
-    table_name = '主体报表'
-    upload_dir(
-        path='/Users/xigua/数据中心/原始文件3/天猫推广报表/主体报表',
-        db_name=db_name,
-        collection_name=table_name,
-        dbs={'mysql': True, 'mongodb': False},
+    # 上传 1 个文件到数据库
+    one_file_to_mysql(
+        file='/Users/xigua/Downloads/万里马箱包推广1_营销概况_qwqw全站营销_2024-08-18_2024-09-01.csv',
+        db_name='京东数据3',
+        table_name='推广数据_全站营销',
         target_service='company',
+        database='mysql'
     )
+    # # 上传一个目录到指定数据库
+    # db_name = '天猫_推广数据3'
+    # table_name = '主体报表'
+    # upload_dir(
+    #     path='/Users/xigua/数据中心/原始文件3/天猫推广报表/主体报表',
+    #     db_name=db_name,
+    #     collection_name=table_name,
+    #     dbs={'mysql': True, 'mongodb': False},
+    #     target_service='company',
+    # )
     # # 新版 数据分类
     # dp = DatabaseUpdate(path='/Users/xigua/Downloads')

mdbq/aggregation/query_data.py CHANGED Viewed

@@ -120,6 +120,7 @@ class MysqlDatasQuery:
             '自然流量曝光量': 1,
             '直接成交笔数': 1,
             '直接成交金额': 1,
+            '店铺名称': 1,
         }
         df = self.download.data_to_df(
             db_name='推广数据2',
@@ -171,6 +172,7 @@ class MysqlDatasQuery:
             '直接成交笔数': 1,
             '直接成交金额': 1,
             '人群名字': 1,
+            '店铺名称': 1,
         }
         df = self.download.data_to_df(
             db_name='推广数据2',
@@ -198,6 +200,7 @@ class MysqlDatasQuery:
             '总成交金额': 1,
             '直接成交笔数': 1,
             '直接成交金额': 1,
+            '店铺名称': 1,
         }
         df = self.download.data_to_df(
             db_name='推广数据2',
@@ -226,6 +229,7 @@ class MysqlDatasQuery:
             '总成交金额': 1,
             '直接成交笔数': 1,
             '直接成交金额': 1,
+            '店铺名称': 1,
         }
         df = self.download.data_to_df(
             db_name='推广数据2',
@@ -252,6 +256,7 @@ class MysqlDatasQuery:
             '成交笔数': 1,
             '成交金额': 1,
             # '成交访客数': 1
+            '店铺名称': 1,
         }
         df = self.download.data_to_df(
             db_name='推广数据2',
@@ -277,8 +282,8 @@ class MysqlDatasQuery:
     def sp_picture(self):
         """ 用生意经日数据制作商品 id 和编码对照表 """
         data_values = self.download.columns_to_list(
-            db_name='属性设置2',
-            table_name='商品素材导出',
+            db_name='属性设置3',
+            table_name='商品素材中心',
             columns_name=['日期', '商品id', '商品白底图', '方版场景图'],
         )
         df = pd.DataFrame(data=data_values)
@@ -298,14 +303,16 @@ class MysqlDatasQuery:
             '支付买家数': 1,
             '支付转化率': 1,
             '加购人数': 1,
+            '店铺名称': 1,
         }
         df = self.download.data_to_df(
-            db_name='生意参谋2',
-            table_name='店铺来源_日数据',
+            db_name='生意参谋3',
+            table_name='店铺流量来源构成',
             start_date=start_date,
             end_date=end_date,
             projection=projection,
         )
+        # df = df[df['店铺名称'] == '万里马官方旗舰店']
         return df
     @try_except
@@ -335,7 +342,7 @@ class MysqlDatasQuery:
     def sp_cost(self):
         """ 电商定价 """
         data_values = self.download.columns_to_list(
-            db_name='属性设置2',
+            db_name='属性设置3',
             table_name='电商定价',
             columns_name=['日期', '款号', '年份季节', '吊牌价', '商家平台', '成本价', '天猫页面价', '天猫中促价'],
         )
@@ -360,9 +367,10 @@ class MysqlDatasQuery:
             '直接加购数': 1,
             '总加购数': 1,
             'spu id': 1,
+            '店铺名称':1,
         }
         df = self.download.data_to_df(
-            db_name='京东数据2',
+            db_name='京东数据3',
             table_name='推广数据_京准通',
             start_date=start_date,
             end_date=end_date,
@@ -386,8 +394,8 @@ class MysqlDatasQuery:
             '核心位置点击量': 1,
         }
         df = self.download.data_to_df(
-            db_name='京东数据2',
-            table_name='推广数据_全站营销',
+            db_name='京东数据3',
+            table_name='推广数据_全站营销',  # 暂缺
             start_date=start_date,
             end_date=end_date,
             projection=projection,
@@ -415,13 +423,13 @@ class MysqlDatasQuery:
             '总订单行': 1,
             '总订单金额': 1,
             '总加购数': 1,
-            '下单新客数_去重': 1,
+            '下单新客数（去重）': 1,
             '领券数': 1,
             '商品关注数': 1,
-            '店铺关注数': 1
+            '店铺关注数': 1,
         }
         df = self.download.data_to_df(
-            db_name='京东数据2',
+            db_name='京东数据3',
             table_name='推广数据_关键词报表',
             start_date=start_date,
             end_date=end_date,
@@ -444,8 +452,8 @@ class MysqlDatasQuery:
             '加购人数': 1,
         }
         df = self.download.data_to_df(
-            db_name='京东数据2',
-            table_name='sku_商品明细',
+            db_name='京东数据3',
+            table_name='京东商智_sku_商品明细',
             start_date=start_date,
             end_date=end_date,
             projection=projection,
@@ -467,8 +475,8 @@ class MysqlDatasQuery:
             '加购人数': 1,
         }
         df = self.download.data_to_df(
-            db_name='京东数据2',
-            table_name='spu_商品明细',
+            db_name='京东数据3',
+            table_name='京东商智_spu_商品明细',
             start_date=start_date,
             end_date=end_date,
             projection=projection,
@@ -498,9 +506,10 @@ class MysqlDatasQuery:
             '下单买家数': 1,
             '加购人数': 1,
             '新访客': 1,
+            '店铺名称': 1,
         }
         df = self.download.data_to_df(
-            db_name='生意参谋2',
+            db_name='生意参谋3',
             table_name='店铺来源_手淘搜索',
             start_date=start_date,
             end_date=end_date,
@@ -543,9 +552,10 @@ class MysqlDatasQuery:
             '退款金额（元）': 1,
             '预售定金支付金额（元）': 1,
             '预售预估总金额（元）': 1,
+            '店铺名称': 1,
         }
         df = self.download.data_to_df(
-            db_name='生意参谋2',
+            db_name='生意参谋3',
             table_name='直播场次分析',
             start_date=start_date,
             end_date=end_date,
@@ -553,7 +563,7 @@ class MysqlDatasQuery:
         )
         return df
-    @try_except
+    # @try_except
     def tg_by_day(self):
         """
         汇总各个店铺的推广数据，按日汇总
@@ -568,6 +578,7 @@ class MysqlDatasQuery:
             '总购物车数': 1,
             '总成交笔数': 1,
             '总成交金额': 1,
+            '店铺名称': 1,
         }
         df_tm = self.download.data_to_df(
             db_name='推广数据2',
@@ -578,7 +589,7 @@ class MysqlDatasQuery:
         )
         df_tm.rename(columns={'场景名字': '营销场景'}, inplace=True)
         df_tm = df_tm.groupby(
-            ['日期', '营销场景', '花费'],
+            ['日期', '店铺名称', '营销场景', '花费'],
             as_index=False).agg(
             **{
                 '展现量': ('展现量', np.max),
@@ -588,7 +599,6 @@ class MysqlDatasQuery:
                 '成交金额': ('总成交金额', np.max)
             }
         )
-        df_tm.insert(loc=1, column='店铺', value='WLM天猫旗舰店')  # df中添加列
         df_tb = self.download.data_to_df(
             db_name='推广数据_淘宝店',
@@ -602,7 +612,7 @@ class MysqlDatasQuery:
         # df_tb.to_csv('/Users/xigua/Downloads/test.csv', index=False, header=True, encoding='utf-8_sig')
         df_tb.rename(columns={'场景名字': '营销场景'}, inplace=True)
         df_tb = df_tb.groupby(
-            ['日期', '营销场景', '花费'],
+            ['日期', '店铺名称', '营销场景', '花费'],
             as_index=False).agg(
             **{
                 '展现量': ('展现量', np.max),
@@ -612,7 +622,6 @@ class MysqlDatasQuery:
                 '成交金额': ('总成交金额', np.max)
             }
         )
-        df_tb.insert(loc=1, column='店铺', value='淘宝c店')  # df中添加列
         projection = {
             '日期': 1,
@@ -623,6 +632,7 @@ class MysqlDatasQuery:
             '宝贝加购数': 1,
             '成交笔数': 1,
             '成交金额': 1,
+            '店铺名称': 1,
         }
         df_tm_pxb = self.download.data_to_df(
             db_name='推广数据2',
@@ -633,7 +643,7 @@ class MysqlDatasQuery:
         )
         df_tm_pxb = df_tm_pxb[df_tm_pxb['报表类型'] == '账户']
         df_tm_pxb = df_tm_pxb.groupby(
-            ['日期', '报表类型', '消耗'],
+            ['日期', '店铺名称', '报表类型', '消耗'],
             as_index=False).agg(
             **{
                 '展现量': ('展现量', np.max),
@@ -645,7 +655,6 @@ class MysqlDatasQuery:
         )
         df_tm_pxb.rename(columns={'报表类型': '营销场景', '消耗': '花费'}, inplace=True)
         df_tm_pxb['营销场景'] = '品销宝'
-        df_tm_pxb.insert(loc=1, column='店铺', value='WLM天猫旗舰店')  # df中添加列
         projection = {
             '日期': 1,
@@ -662,15 +671,16 @@ class MysqlDatasQuery:
             '直接加购数': 1,
             '总加购数': 1,
             'spu id': 1,
+            '店铺名称': 1,
         }
         df_jd = self.download.data_to_df(
-            db_name='京东数据2',
+            db_name='京东数据3',
             table_name='推广数据_京准通',
             start_date=start_date,
             end_date=end_date,
             projection=projection,
         )
-        df_jd = df_jd.groupby(['日期', '产品线', '触发sku id', '跟单sku id', 'spu id', '花费', '展现数', '点击数'],
+        df_jd = df_jd.groupby(['日期', '店铺名称', '产品线', '触发sku id', '跟单sku id', 'spu id', '花费', '展现数', '点击数'],
                         as_index=False).agg(
             **{'直接订单行': ('直接订单行', np.max),
                '直接订单金额': ('直接订单金额', np.max),
@@ -680,10 +690,9 @@ class MysqlDatasQuery:
                '加购量': ('总加购数', np.max),
                }
         )
-        df_jd = df_jd[['日期', '产品线', '花费', '展现数', '点击数', '加购量', '成交笔数', '成交金额']]
+        df_jd = df_jd[['日期', '店铺名称', '产品线', '花费', '展现数', '点击数', '加购量', '成交笔数', '成交金额']]
         df_jd.rename(columns={'产品线': '营销场景', '展现数': '展现量', '点击数': '点击量'}, inplace=True)
         df_jd = df_jd[df_jd['花费'] > 0]
-        df_jd.insert(loc=1, column='店铺', value='京东箱包')  # df中添加列
         projection = {
             '日期': 1,
@@ -696,15 +705,16 @@ class MysqlDatasQuery:
             '全站费比': 1,
             '核心位置展现量': 1,
             '核心位置点击量': 1,
+            '店铺名称': 1,
         }
         df_jd_qzyx = self.download.data_to_df(
-            db_name='京东数据2',
+            db_name='京东数据3',
             table_name='推广数据_全站营销',
             start_date=start_date,
             end_date=end_date,
             projection=projection,
         )
-        df_jd_qzyx = df_jd_qzyx.groupby(['日期', '产品线', '花费'], as_index=False).agg(
+        df_jd_qzyx = df_jd_qzyx.groupby(['日期', '店铺名称', '产品线', '花费'], as_index=False).agg(
             **{'全站roi': ('全站roi', np.max),
                '成交金额': ('全站交易额', np.max),
                '成交笔数': ('全站订单行', np.max),
@@ -715,9 +725,8 @@ class MysqlDatasQuery:
                }
         )
         df_jd_qzyx.rename(columns={'产品线': '营销场景'}, inplace=True)
-        df_jd_qzyx = df_jd_qzyx[['日期', '营销场景', '花费', '展现量', '点击量', '成交笔数', '成交金额']]
+        df_jd_qzyx = df_jd_qzyx[['日期', '店铺名称', '营销场景', '花费', '展现量', '点击量', '成交笔数', '成交金额']]
         df_jd_qzyx = df_jd_qzyx[df_jd_qzyx['花费'] > 0]
-        df_jd_qzyx.insert(loc=1, column='店铺', value='京东箱包')  # df中添加列
         _datas = [item for item in  [df_tm, df_tb, df_tm_pxb, df_jd, df_jd_qzyx] if len(item) > 0]  # 阻止空的 dataframe
         df = pd.concat(_datas, axis=0, ignore_index=True)
@@ -760,6 +769,7 @@ class MysqlDatasQuery:
             'sku数_成交': 1,
             '营销后供货额': 1,
             '营销后供货价': 1,
+            '店铺名称': 1,
         }
         projection = {}
         df = self.download.data_to_df(
@@ -842,7 +852,7 @@ class GroupBy:
         return wrapper
-    @try_except
+    # @try_except
     def groupby(self, df, table_name, is_maximize=True):
         """
         self.is_maximize: 是否最大转化数据
@@ -885,7 +895,7 @@ class GroupBy:
                 '直接成交金额': float,
             }, errors='raise')
             if is_maximize:
-                df = df.groupby(['日期', '营销场景', '商品id', '花费', '展现量', '点击量'], as_index=False).agg(
+                df = df.groupby(['日期', '店铺名称', '营销场景', '商品id', '花费', '展现量', '点击量'], as_index=False).agg(
                     **{'加购量': ('加购量', np.max),
                        '成交笔数': ('成交笔数', np.max),
                        '成交金额': ('成交金额', np.max),
@@ -895,7 +905,7 @@ class GroupBy:
                        }
                 )
             else:
-                df = df.groupby(['日期', '营销场景', '商品id', '花费', '展现量', '点击量'], as_index=False).agg(
+                df = df.groupby(['日期', '店铺名称', '营销场景', '商品id', '花费', '展现量', '点击量'], as_index=False).agg(
                     **{
                         '加购量': ('加购量', np.min),
                         '成交笔数': ('成交笔数', np.min),
@@ -906,7 +916,7 @@ class GroupBy:
                        }
                 )
             df.insert(loc=1, column='推广渠道', value='万相台无界版')  # df中插入新列
-            df_new = df.groupby(['日期', '商品id'], as_index=False).agg(
+            df_new = df.groupby(['日期', '店铺名称', '商品id'], as_index=False).agg(
                     **{
                         '花费': ('花费', np.sum),
                         '成交笔数': ('成交笔数', np.max),
@@ -934,7 +944,8 @@ class GroupBy:
             else:
                 year_my = today.year
             # 截取 从上月1日 至 今天的花费数据, 推广款式按此数据从高到低排序（商品图+排序）
-            df_pic = df.groupby(['日期', '商品id'], as_index=False).agg({'花费': 'sum'})
+            df_pic_lin = df[df['店铺名称'] == '万里马官方旗舰店']
+            df_pic = df_pic_lin.groupby(['日期', '商品id'], as_index=False).agg({'花费': 'sum'})
             df_pic = df_pic[~df_pic['商品id'].isin([''])]  # 指定列中删除包含空值的行
             df_pic = df_pic[(df_pic['日期'] >= f'{year_my}-{last_month.month}-01')]
             df_pic = df_pic.groupby(['商品id'], as_index=False).agg({'花费': 'sum'})
@@ -942,9 +953,9 @@ class GroupBy:
             df_pic.reset_index(inplace=True)
             df_pic['index'] = df_pic['index'] + 100
             df_pic.rename(columns={'index': '商品索引'}, inplace=True)
-            df_pic_new = pd.merge(df, df_pic, how='left', on=['商品id'])
+            df_pic_new = pd.merge(df_pic_lin, df_pic, how='left', on=['商品id'])
             df_pic_new['商品索引'].fillna(1000, inplace=True)
-            self.sp_index_datas = df_pic_new[['商品id', '商品索引']]
+            self.sp_index_datas = df_pic_new[['商品id', '商品索引']]  # 商品索引表_主推排序调用
             return df
         elif '商品索引表' in table_name:
             return df
@@ -952,6 +963,7 @@ class GroupBy:
             df.drop_duplicates(
                 subset=[
                     '日期',
+                    '店铺名称',
                     'spu_id',
                     '访客量',
                     '浏览量',
@@ -981,7 +993,7 @@ class GroupBy:
                 '直接成交金额': float,
             }, errors='raise')
             if is_maximize:
-                df = df.groupby(['日期', '营销场景', '商品id', '花费', '展现量', '点击量', '人群名字'], as_index=False).agg(
+                df = df.groupby(['日期', '店铺名称', '营销场景', '商品id', '花费', '展现量', '点击量', '人群名字'], as_index=False).agg(
                     **{'加购量': ('加购量', np.max),
                        '成交笔数': ('成交笔数', np.max),
                        '成交金额': ('成交金额', np.max),
@@ -990,7 +1002,7 @@ class GroupBy:
                        }
                 )
             else:
-                df = df.groupby(['日期', '营销场景', '商品id', '花费', '展现量', '点击量', '人群名字'], as_index=False).agg(
+                df = df.groupby(['日期', '店铺名称', '营销场景', '商品id', '花费', '展现量', '点击量', '人群名字'], as_index=False).agg(
                     **{
                         '加购量': ('加购量', np.min),
                         '成交笔数': ('成交笔数', np.min),
@@ -1079,7 +1091,6 @@ class GroupBy:
             # df.to_csv('/Users/xigua/Downloads/test_人群分类.csv', index=False, header=True, encoding='utf-8_sig')
             # breakpoint()
             return df
         elif '天猫_关键词报表' in table_name:
             df.rename(columns={
                 '场景名字': '营销场景',
@@ -1101,7 +1112,7 @@ class GroupBy:
                 '直接成交金额': float,
             }, errors='raise')
             if is_maximize:
-                df = df.groupby(['日期', '营销场景', '商品id', '词类型', '词名字/词包名字', '花费', '展现量', '点击量'], as_index=False).agg(
+                df = df.groupby(['日期', '店铺名称', '营销场景', '商品id', '词类型', '词名字/词包名字', '花费', '展现量', '点击量'], as_index=False).agg(
                     **{'加购量': ('加购量', np.max),
                        '成交笔数': ('成交笔数', np.max),
                        '成交金额': ('成交金额', np.max),
@@ -1110,7 +1121,7 @@ class GroupBy:
                        }
                 )
             else:
-                df = df.groupby(['日期', '营销场景', '商品id', '词类型', '词名字/词包名字', '花费', '展现量', '点击量'], as_index=False).agg(
+                df = df.groupby(['日期', '店铺名称', '营销场景', '商品id', '词类型', '词名字/词包名字', '花费', '展现量', '点击量'], as_index=False).agg(
                     **{
                         '加购量': ('加购量', np.min),
                         '成交笔数': ('成交笔数', np.min),
@@ -1166,7 +1177,7 @@ class GroupBy:
                 '观看次数': int,
             }, errors='raise')
             if is_maximize:
-                df = df.groupby(['日期', '营销场景', '人群名字', '计划名字', '花费', '观看次数', '展现量'],
+                df = df.groupby(['日期', '店铺名称', '营销场景', '人群名字', '计划名字', '花费', '观看次数', '展现量'],
                                 as_index=False).agg(
                     **{
                         '进店量': ('进店量', np.max),
@@ -1179,7 +1190,7 @@ class GroupBy:
                        }
                 )
             else:
-                df = df.groupby(['日期', '营销场景', '人群名字', '计划名字', '花费', '观看次数', '展现量'],
+                df = df.groupby(['日期', '店铺名称', '营销场景', '人群名字', '计划名字', '花费', '观看次数', '展现量'],
                                 as_index=False).agg(
                     **{
                         '进店量': ('进店量', np.min),
@@ -1194,7 +1205,7 @@ class GroupBy:
             df.insert(loc=1, column='推广渠道', value='万相台无界版')  # df中插入新列
             # df.insert(loc=2, column='营销场景', value='超级直播')  # df中插入新列
             # df = df.loc[df['日期'].between(start_day, today)]
-            df_new = df.groupby(['日期', '推广渠道', '营销场景'], as_index=False).agg(
+            df_new = df.groupby(['日期', '店铺名称', '推广渠道', '营销场景'], as_index=False).agg(
                 **{
                     '花费': ('花费', np.sum),
                     '展现量': ('展现量', np.sum),
@@ -1232,7 +1243,7 @@ class GroupBy:
                 '品牌搜索人数': int,
             }, errors='raise')
             if is_maximize:
-                df = df.groupby(['日期', '报表类型', '花费', '展现量', '点击量'], as_index=False).agg(
+                df = df.groupby(['日期', '店铺名称', '报表类型', '花费', '展现量', '点击量'], as_index=False).agg(
                     **{
                         '加购量': ('加购量', np.max),
                         '成交笔数': ('成交笔数', np.max),
@@ -1242,7 +1253,7 @@ class GroupBy:
                        }
                 )
             else:
-                df = df.groupby(['日期', '报表类型', '花费', '展现量', '点击量'], as_index=False).agg(
+                df = df.groupby(['日期', '店铺名称', '报表类型', '花费', '展现量', '点击量'], as_index=False).agg(
                     **{
                         '加购量': ('加购量', np.min),
                         '成交笔数': ('成交笔数', np.min),
@@ -1253,7 +1264,7 @@ class GroupBy:
                 )
             df.insert(loc=1, column='推广渠道', value='品销宝')  # df中插入新列
             df.insert(loc=2, column='营销场景', value='品销宝')  # df中插入新列
-            df_new = df.groupby(['日期', '推广渠道', '营销场景'], as_index=False).agg(
+            df_new = df.groupby(['日期', '店铺名称', '推广渠道', '营销场景'], as_index=False).agg(
                 **{
                     '花费': ('花费', np.sum),
                     '展现量': ('展现量', np.sum),
@@ -1299,35 +1310,7 @@ class GroupBy:
                 }
             )
             return df
-        elif '店铺来源_日数据' in table_name and '旧版' not in table_name:
-            # 包含三级来源名称和预设索引值列
-            # 截取 从上月1日 至 今天的花费数据, 推广款式按此数据从高到低排序（商品图+排序）
-            df_visitor3 = df.groupby(['日期', '三级来源'], as_index=False).agg({'访客数': 'sum'})
-            df_visitor3 = df_visitor3[~df_visitor3['三级来源'].isin([''])]  # 指定列中删除包含空值的行
-            # df_visitor = df_visitor[(df_visitor['日期'] >= f'{year_my}-{last_month.month}-01')]
-            df_visitor3 = df_visitor3.groupby(['三级来源'], as_index=False).agg({'访客数': 'sum'})
-            df_visitor3.sort_values('访客数', ascending=False, ignore_index=True, inplace=True)
-            df_visitor3.reset_index(inplace=True)
-            df_visitor3['index'] = df_visitor3['index'] + 100
-            df_visitor3.rename(columns={'index': '三级访客索引'}, inplace=True)
-            df_visitor3 = df_visitor3[['三级来源', '三级访客索引']]
-            # 包含二级来源名称和预设索引值列
-            df_visitor2 = df.groupby(['日期', '二级来源'], as_index=False).agg({'访客数': 'sum'})
-            df_visitor2 = df_visitor2[~df_visitor2['二级来源'].isin([''])]  # 指定列中删除包含空值的行
-            # df_visitor2 = df_visitor2[(df_visitor2['日期'] >= f'{year_my}-{last_month.month}-01')]
-            df_visitor2 = df_visitor2.groupby(['二级来源'], as_index=False).agg({'访客数': 'sum'})
-            df_visitor2.sort_values('访客数', ascending=False, ignore_index=True, inplace=True)
-            df_visitor2.reset_index(inplace=True)
-            df_visitor2['index'] = df_visitor2['index'] + 100
-            df_visitor2.rename(columns={'index': '二级访客索引'}, inplace=True)
-            df_visitor2 = df_visitor2[['二级来源', '二级访客索引']]
-            df = pd.merge(df, df_visitor2, how='left', left_on='二级来源', right_on='二级来源')
-            df = pd.merge(df, df_visitor3, how='left', left_on='三级来源', right_on='三级来源')
-            return df
-        elif '天猫_店铺来源_日数据_旧版' in table_name:
+        elif '店铺流量来源构成' in table_name:
             # 包含三级来源名称和预设索引值列
             # 截取 从上月1日 至 今天的花费数据, 推广款式按此数据从高到低排序（商品图+排序）
             df_visitor3 = df.groupby(['日期', '三级来源'], as_index=False).agg({'访客数': 'sum'})
@@ -1409,7 +1392,7 @@ class GroupBy:
             )
             return df
         elif '京东_京准通' in table_name and '全站营销' not in table_name:
-            df = df.groupby(['日期', '产品线', '触发sku id', '跟单sku id', 'spu id', '花费', '展现数', '点击数'], as_index=False).agg(
+            df = df.groupby(['日期', '店铺名称', '产品线', '触发sku id', '跟单sku id', 'spu id', '花费', '展现数', '点击数'], as_index=False).agg(
                 **{'直接订单行': ('直接订单行', np.max),
                    '直接订单金额': ('直接订单金额', np.max),
                    '总订单行': ('总订单行', np.max),
@@ -1479,7 +1462,7 @@ class GroupBy:
                     '总订单行': ('总订单行', np.max),
                     '总订单金额': ('总订单金额', np.max),
                     '总加购数': ('总加购数', np.max),
-                    '下单新客数': ('下单新客数_去重', np.max),
+                    '下单新客数': ('下单新客数（去重）', np.max),
                     '领券数': ('领券数', np.max),
                     '商品关注数': ('商品关注数', np.max),
                     '店铺关注数': ('店铺关注数', np.max)
@@ -1493,7 +1476,7 @@ class GroupBy:
             return df
         elif '天猫店铺来源_手淘搜索' in table_name:
             df = df.groupby(
-                ['日期', '关键词'],
+                ['日期', '关键词', '店铺名称'],
                 as_index=False).agg(
                 **{
                     '访客数': ('访客数', np.max),
@@ -1512,7 +1495,7 @@ class GroupBy:
             return df
         elif '多店推广场景_按日聚合' in table_name:
             df = df.groupby(
-                ['日期', '店铺', '营销场景'],
+                ['日期', '店铺名称', '营销场景'],
                 as_index=False).agg(
                 **{
                     '花费': ('花费', np.sum),
@@ -1523,7 +1506,7 @@ class GroupBy:
                     '成交金额': ('成交金额', np.sum)
                 }
             )
-            df.sort_values(['日期', '店铺', '花费'], ascending=[False, False, False], ignore_index=True, inplace=True)
+            df.sort_values(['日期', '店铺名称', '花费'], ascending=[False, False, False], ignore_index=True, inplace=True)
             # df.to_csv('/Users/xigua/Downloads/test.csv', encoding='utf-8_sig', index=False, header=True)
             return df
         elif '达摩盘_人群报表' in table_name:
@@ -1835,7 +1818,7 @@ class GroupBy:
                 break
         return result
-    @try_except
+    # @try_except
     def performance(self, bb_tg=True):
          # print(self.data_tgyj)
         tg, syj, idbm, pic, cost = (
@@ -1861,7 +1844,7 @@ class GroupBy:
             # 推广表合并生意经 , 以推广数据为基准，销售数据不齐全
             df = pd.merge(df, syj, how='left', left_on=['日期', '商品id'], right_on=['日期', '宝贝id'])
             df.drop(labels='宝贝id', axis=1, inplace=True)
-        df.drop_duplicates(subset=['日期', '商品id', '花费', '销售额'], keep='last', inplace=True, ignore_index=True)
+        df.drop_duplicates(subset=['日期', '店铺名称', '商品id', '花费', '销售额'], keep='last', inplace=True, ignore_index=True)
         df.fillna(0, inplace=True)
         df['成本价'] = df['成本价'].astype('float64')
         df['销售额'] = df['销售额'].astype('float64')
@@ -2036,7 +2019,7 @@ class GroupBy:
             except:
                 print(f'{filename}: sort_values排序参数错误！')
         df.to_excel(os.path.join(path, filename + '.xlsx'), index=index, header=header, engine=engine, freeze_panes=freeze_panes)
 def g_group():
     pass
@@ -2120,16 +2103,10 @@ def data_aggregation(service_databases=[{}], months=1, is_juhe=True):
                 },
                 {
                     '数据库名': '聚合数据',
-                    '集合名': '天猫_店铺来源_日数据',
+                    '集合名': '店铺流量来源构成',
                     '唯一主键': ['日期', '一级来源', '二级来源', '三级来源', '访客数'],
                     '数据主体': sdq.dplyd(),
                 },
-                {
-                    '数据库名': '聚合数据',
-                    '集合名': '天猫_店铺来源_日数据_旧版',
-                    '唯一主键': ['日期', '一级来源', '二级来源', '三级来源'],
-                    '数据主体': sdq.dplyd_old(),
-                },
                 {
                     '数据库名': '聚合数据',
                     '集合名': '商品id编码表',
@@ -2144,7 +2121,7 @@ def data_aggregation(service_databases=[{}], months=1, is_juhe=True):
                 },
                 {
                     '数据库名': '聚合数据',
-                    '集合名': '商品成本',
+                    '集合名': '商品成本',  # 暂缺 10.31
                     '唯一主键': ['款号'],
                     '数据主体': sdq.sp_cost(),
                 },
@@ -2156,7 +2133,7 @@ def data_aggregation(service_databases=[{}], months=1, is_juhe=True):
                 },
                 {
                     '数据库名': '聚合数据',
-                    '集合名': '京东_京准通_全站营销',
+                    '集合名': '京东_京准通_全站营销',  # 暂缺
                     '唯一主键': ['日期', '产品线', '花费'],
                     '数据主体': sdq.jdqzyx(),
                 },
@@ -2204,13 +2181,13 @@ def data_aggregation(service_databases=[{}], months=1, is_juhe=True):
                 },
                 {
                     '数据库名': '聚合数据',
-                    '集合名': '天猫店铺来源_手淘搜索',
+                    '集合名': '天猫店铺来源_手淘搜索',  # 暂缺
                     '唯一主键': ['日期', '关键词', '访客数'],
                     '数据主体': sdq.tm_search(),
                 },
                 {
                     '数据库名': '聚合数据',
-                    '集合名': '生意参谋_直播场次分析',
+                    '集合名': '生意参谋_直播场次分析',  # 暂缺
                     '唯一主键': ['场次id'],
                     '数据主体': sdq.zb_ccfx(),
                 },
@@ -2240,8 +2217,8 @@ def data_aggregation(service_databases=[{}], months=1, is_juhe=True):
                     # 由推广主体报表，写入一个商品索引表，索引规则：从上月 1 号至今花费从高到低排序
                     m.df_to_mysql(
                         df=g.sp_index_datas,
-                        db_name='属性设置2',
-                        table_name='商品索引表',
+                        db_name='属性设置3',
+                        table_name='商品索引表_主推排序调用',
                         move_insert=False,  # 先删除，再插入
                         # df_sql=True,
                         drop_duplicates=False,
@@ -2249,7 +2226,7 @@ def data_aggregation(service_databases=[{}], months=1, is_juhe=True):
                         service_database=service_database,
                     )
                     g.sp_index_datas = pd.DataFrame()  # 重置，不然下个循环会继续刷入数据库
-                # # g.as_csv(df=df, filename=table_name + '.csv')  # 导出 csv
+                # g.as_csv(df=df, filename=table_name + '.csv')  # 导出 csv
                 if '日期' in df.columns.tolist():
                     m.df_to_mysql(
                         df=df,
@@ -2327,6 +2304,6 @@ def main():
 if __name__ == '__main__':
-    data_aggregation(service_databases=[{'company': 'mysql'}], months=0, is_juhe=False)  # 正常的聚合所有数据
+    data_aggregation(service_databases=[{'company': 'mysql'}], months=0, is_juhe=True)  # 正常的聚合所有数据
     # data_aggregation_one(service_databases=[{'company': 'mysql'}], months=1)  # 单独聚合某一个数据库，具体库进函数编辑
     # optimize_data.op_data(service_databases=[{'company': 'mysql'}], days=3650)  # 立即启动对聚合数据的清理工作

mdbq/clean/clean_upload.py CHANGED Viewed

@@ -99,19 +99,9 @@ class DataClean:
                 '集合名称': '店铺流量来源构成',
             },
             {
-                '文件简称': '商品类目属性_',  # 文件名中包含的字符
-                '数据库名': '生意参谋3',
-                '集合名称': '商品类目属性',
-            },
-            {
-                '文件简称': '商品主图视频_',  # 文件名中包含的字符
-                '数据库名': '生意参谋3',
-                '集合名称': '商品主图视频',
-            },
-            {
-                '文件简称': '商品sku属性_',  # 文件名中包含的字符
-                '数据库名': '生意参谋3',
-                '集合名称': '商品sku',
+                '文件简称': '爱库存_商品榜单_',  # 文件名中包含的字符
+                '数据库名': '爱库存2',
+                '集合名称': '商品spu榜单',
             },
         ]
         for root, dirs, files in os.walk(path, topdown=False):
@@ -160,10 +150,13 @@ class DataClean:
                     new_name = f'py_xg_{os.path.splitext(name)[0]}.csv'
                     self.save_to_csv(df, root, new_name, encoding='utf-8_sig')
                     os.remove(os.path.join(root, name))
-                elif name.endswith('.csv') and ('商品类目属性' in name or '商品主图视频' in name or '商品sku属性' in name):
+                elif name.endswith('.csv') and '爱库存_商品榜单_' in name:
                     df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=0, na_filter=False)
+                    if '店铺名称' not in df.columns.tolist():
+                        df.insert(loc=1, column='店铺名称', value='爱库存平台')  # df中插入新列
                     new_name = f'py_xg_{os.path.splitext(name)[0]}.csv'
-                    os.rename(os.path.join(root, name), os.path.join(root, new_name))
+                    self.save_to_csv(df, root, new_name, encoding='utf-8_sig')
+                    os.remove(os.path.join(root, name))
                 # 将数据传入 self.datas 等待更新进数据库
                 if not db_name or not collection_name:
@@ -245,67 +238,67 @@ class DataClean:
         report_names = [
             {
                 '文件简称': 'tg_report_主体报表',
-                '数据库名': '推广数据3',
+                '数据库名': '推广数据2',
                 '集合名称': '主体报表',
             },
             {
                 '文件简称': 'tg_report_创意报表_创意',
-                '数据库名': '推广数据3',
+                '数据库名': '推广数据2',
                 '集合名称': '创意报表_创意',
             },
             {
                 '文件简称': 'tg_report_创意报表_素材',
-                '数据库名': '推广数据3',
+                '数据库名': '推广数据2',
                 '集合名称': '创意报表_素材',
             },
             {
                 '文件简称': 'tg_report_单元报表',
-                '数据库名': '推广数据3',
+                '数据库名': '推广数据2',
                 '集合名称': '单元报表',
             },
             {
                 '文件简称': 'tg_report_地域报表_省份',
-                '数据库名': '推广数据3',
+                '数据库名': '推广数据2',
                 '集合名称': '地域报表_省份',
             },
             {
                 '文件简称': 'tg_report_地域报表_城市',
-                '数据库名': '推广数据3',
+                '数据库名': '推广数据2',
                 '集合名称': '地域报表_城市',
             },
             {
                 '文件简称': 'tg_report_关键词报表',
-                '数据库名': '推广数据3',
+                '数据库名': '推广数据2',
                 '集合名称': '关键词报表',
             },
             {
                 '文件简称': 'tg_report_计划报表',
-                '数据库名': '推广数据3',
+                '数据库名': '推广数据2',
                 '集合名称': '计划报表',
             },
             {
                 '文件简称': 'tg_report_权益报表',
-                '数据库名': '推广数据3',
+                '数据库名': '推广数据2',
                 '集合名称': '权益报表',
             },
             {
                 '文件简称': 'tg_report_人群报表',
-                '数据库名': '推广数据3',
+                '数据库名': '推广数据2',
                 '集合名称': '人群报表',
             },
             {
                 '文件简称': 'tg_report_营销场景报表',
-                '数据库名': '推广数据3',
+                '数据库名': '推广数据2',
                 '集合名称': '营销场景报表',
             },
             {
                 '文件简称': 'tg_report_超级直播报表_人群',
-                '数据库名': '推广数据3',
+                '数据库名': '推广数据2',
                 '集合名称': '超级直播',
             },
             {
                 '文件简称': 'tg_report_品销宝_明星店铺',
-                '数据库名': '推广数据3',
+                '数据库名': '推广数据2',
                 '集合名称': '品销宝',
             }
         ]
@@ -338,9 +331,9 @@ class DataClean:
                     continue
                 # 区分淘宝和天猫的报表
                 if '万里马官方旗舰店' in name:
-                    db_name = f'天猫_{db_name}'
+                    pass
                 elif '万里马官方企业店' in name:
-                    db_name = f'淘宝_{db_name}'
+                    db_name = '推广数据_淘宝店'
                 else:
                     print(f'报表名称错误，不属于天猫/淘宝店：{name}')
                     continue
@@ -407,22 +400,22 @@ class DataClean:
         report_names = [
             {
                 '文件简称': 'baobei',
-                '数据库名': '天猫_生意经3',
+                '数据库名': '生意经2',
                 '集合名称': '宝贝指标',
             },
             {
                 '文件简称': 'order',
-                '数据库名': '天猫_生意经3',
+                '数据库名': '生意经2',
                 '集合名称': '订单指标',
             },
             {
                 '文件简称': '省份城市分析',
-                '数据库名': '天猫_生意经3',
+                '数据库名': '生意经2',
                 '集合名称': '省份城市分析',
             },
             {
                 '文件简称': '店铺销售指标',
-                '数据库名': '天猫_生意经3',
+                '数据库名': '生意经2',
                 '集合名称': '店铺销售指标',
             },
         ]
@@ -803,6 +796,29 @@ class DataClean:
     def sp_scene_clean(self, path=None, is_except=[]):
         if not path:
             path = self.path
+        report_names = [
+            {
+                '文件简称': '商品素材_',  # 文件名中包含的字符
+                '数据库名': '属性设置3',
+                '集合名称': '商品素材中心',
+            },
+            {
+                '文件简称': '商品类目属性_',  # 文件名中包含的字符
+                '数据库名': '属性设置3',
+                '集合名称': '商品类目属性',
+            },
+            {
+                '文件简称': '商品主图视频_',  # 文件名中包含的字符
+                '数据库名': '属性设置3',
+                '集合名称': '商品主图视频',
+            },
+            {
+                '文件简称': '商品sku属性_',  # 文件名中包含的字符
+                '数据库名': '属性设置3',
+                '集合名称': '商品sku',
+            },
+        ]
         for root, dirs, files in os.walk(path, topdown=False):
             for name in files:
                 if '~$' in name or '.DS' in name or '.localized' in name or '.jpg' in name or '.png' in name:
@@ -820,18 +836,29 @@ class DataClean:
                     continue
                 db_name = None  # 初始化参数
                 collection_name = None
+                for item in report_names:
+                    if item['文件简称'] in name:
+                        db_name = item['数据库名']
+                        collection_name = item['集合名称']
+                        is_continue = True
+                if not is_continue:
+                    continue
                 if name.endswith('.xlsx') and '商品素材_' in name:
                     shop_name = re.findall(r'_([\u4e00-\u9fffA-Za-z]+店)_', name)[0]
                     df = pd.read_excel(os.path.join(root, name), header=0)
+                    if '日期' not in df.columns.tolist():
+                        df.insert(loc=0, column='日期', value=datetime.datetime.today().strftime('%Y-%m-%d'))
                     if '店铺名称' not in df.columns.tolist():
                         df.insert(loc=1, column='店铺名称', value=shop_name)
                     new_name = f'py_xg_{name}'
                     df.to_excel(os.path.join(upload_path, new_name),
                                 index=False, header=True, engine='openpyxl', freeze_panes=(1, 0))
-                    db_name = '属性设置3'
-                    collection_name = '商品素材'
                     os.remove(os.path.join(root, name))
+                elif name.endswith('.csv') and ('商品类目属性' in name or '商品主图视频' in name or '商品sku属性' in name):
+                    df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=0, na_filter=False)
+                    new_name = f'py_xg_{os.path.splitext(name)[0]}.csv'
+                    os.rename(os.path.join(root, name), os.path.join(root, new_name))
                 # 将数据传入 self.datas 等待更新进数据库
                 if not db_name or not collection_name:
@@ -908,6 +935,9 @@ class DataClean:
                         '商品类目属性' in name or '商品主图视频' in name or '商品sku属性' in name):
                     t_path = os.path.join(self.source_path, '生意参谋', '商品属性')
                     bib(t_path, _as_month=True)
+                elif name.endswith('.csv') and '爱库存_商品榜单_' in name:
+                    t_path = os.path.join(self.source_path, '爱库存', 'spu商品榜单')
+                    bib(t_path, _as_month=True)
     def move_dmp(self, path=None, is_except=[]):
         """ 达摩盘 """
@@ -936,7 +966,7 @@ class DataClean:
                     continue
                 if name.endswith('.csv') and '人群属性_万里马官方旗舰店' in name:
-                    t_path = os.path.join(self.source_path, '天猫_达摩盘', '我的人群属性')
+                    t_path = os.path.join(self.source_path, '达摩盘', '我的人群属性')
                     bib(t_path, _as_month=True)
@@ -1364,6 +1394,51 @@ class DataClean:
                 df_to_json.as_json_file()  # 写入 json 文件, 包含数据的 dtypes 信息
+def test():
+    # main_key = '单元报表'
+    path = f'/Users/xigua/数据中心/原始文件3/天猫推广报表/主体报表'
+    for root, dirs, files in os.walk(path, topdown=False):
+        for name in files:
+            if '~$' in name or '.DS' in name or '.localized' in name or '.jpg' in name or '.png' in name:
+                continue
+            # if 'py_xg' in name:
+            #     continue
+            # if 'TM_旧表_字段' in root:
+            #     continue
+            if name.endswith('.csv'):
+                print(name)
+                df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=0, na_filter=False)
+                # if '店铺名称' not in df.columns.tolist():
+                #     df.insert(loc=1, column='店铺名称', value='万里马官方旗舰店')
+                # df.replace(to_replace=['-'], value=0, regex=False, inplace=True)
+                # df.replace(to_replace=[','], value='', regex=True, inplace=True)
+                # if '统计日期' in df.columns.tolist() and '日期' not in df.columns.tolist():
+                #     df.rename(columns={'统计日期': '日期', '商品ID': '商品id'}, inplace=True)
+                # shop_name = re.findall(r'_([\u4e00-\u9fffA-Za-z]+店)', name)[0]
+                # df.insert(loc=1, column='店铺名称', value=shop_name)
+                date_all = re.findall(r'_(\d{4}-\d{2}-\d{2})_', name)[0]
+                date = re.findall(r'_(\d{4}-\d{2})-\d{2}', name)[0]
+                new_path = f'/Users/xigua/数据中心/原始文件3/天猫_生意参谋/商品排行/{date}'
+                # new_path = os.path.join(new_path, date)  # 添加 年月分类
+                if not os.path.exists(new_path):
+                    os.makedirs(new_path, exist_ok=True)
+                # print(date_all)
+                new_name = f'py_xg_商品排行_万里马官方旗舰店_{date_all}.csv'
+                # print(os.path.join(new_path, new_name))
+                # breakpoint()
+                df.to_csv(os.path.join(new_path, new_name), encoding='utf-8_sig', index=False, header=True)
+                # try:
+                #     df.to_excel(os.path.join(new_path, new_name),
+                #                 index=False, header=True, engine='openpyxl', freeze_panes=(1, 0))
+                # except Exception as e:
+                #     print(e)
 def main(service_databases=None, is_mysql=False):
     """
     is_mysql: 调试时加，False: 是否后续的聚合数据
@@ -1410,20 +1485,16 @@ def main(service_databases=None, is_mysql=False):
     # 清理所有非聚合数据的库
     optimize_data.op_data(
         db_name_lists=[
-            '京东数据2',
+            '京东数据3',
+            '属性设置3',
             '推广数据2',
-            '市场数据2',
-            '生意参谋2',
+            '生意参谋3',
+            '推广数据_淘宝店',
+            '爱库存2'
+            '生意参谋3',
             '生意经2',
-            '属性设置2',
             # '聚合数据',  # 不在这里清理聚合数据, 还未开始聚合呢
-            '京东数据3',
-            '天猫_推广数据3',
-            '淘宝_推广数据3',
-            # '市场数据3',
-            '生意参谋3',
-            '天猫_生意经3',
-            # '淘宝_生意经3',
+            '达摩盘3',
         ],
         days=100,
         is_mongo=True,
@@ -1445,63 +1516,16 @@ def main(service_databases=None, is_mysql=False):
     )
-def test():
-    # main_key = '单元报表'
-    path = f'/Users/xigua/数据中心/原始文件3/天猫推广报表/主体报表'
-    for root, dirs, files in os.walk(path, topdown=False):
-        for name in files:
-            if '~$' in name or '.DS' in name or '.localized' in name or '.jpg' in name or '.png' in name:
-                continue
-            # if 'py_xg' in name:
-            #     continue
-            # if 'TM_旧表_字段' in root:
-            #     continue
-            if name.endswith('.csv'):
-                print(name)
-                df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=0, na_filter=False)
-                # if '店铺名称' not in df.columns.tolist():
-                #     df.insert(loc=1, column='店铺名称', value='万里马官方旗舰店')
-                # df.replace(to_replace=['-'], value=0, regex=False, inplace=True)
-                # df.replace(to_replace=[','], value='', regex=True, inplace=True)
-                # if '统计日期' in df.columns.tolist() and '日期' not in df.columns.tolist():
-                #     df.rename(columns={'统计日期': '日期', '商品ID': '商品id'}, inplace=True)
-                # shop_name = re.findall(r'_([\u4e00-\u9fffA-Za-z]+店)', name)[0]
-                # df.insert(loc=1, column='店铺名称', value=shop_name)
-                date_all = re.findall(r'_(\d{4}-\d{2}-\d{2})_', name)[0]
-                date = re.findall(r'_(\d{4}-\d{2})-\d{2}', name)[0]
-                new_path = f'/Users/xigua/数据中心/原始文件3/天猫_生意参谋/商品排行/{date}'
-                # new_path = os.path.join(new_path, date)  # 添加 年月分类
-                if not os.path.exists(new_path):
-                    os.makedirs(new_path, exist_ok=True)
-                # print(date_all)
-                new_name = f'py_xg_商品排行_万里马官方旗舰店_{date_all}.csv'
-                # print(os.path.join(new_path, new_name))
-                # breakpoint()
-                df.to_csv(os.path.join(new_path, new_name), encoding='utf-8_sig', index=False, header=True)
-                # try:
-                #     df.to_excel(os.path.join(new_path, new_name),
-                #                 index=False, header=True, engine='openpyxl', freeze_panes=(1, 0))
-                # except Exception as e:
-                #     print(e)
 if __name__ == '__main__':
-    main(
-        service_databases = [
-            {'company': 'mysql'},
-            # {'home_lx': 'mysql'},
-            # {'home_lx': 'mongodb'},
-            # {'nas': 'mysql'},
-        ],
-        is_mysql = False,
-    )
+    # main(
+    #     service_databases = [
+    #         {'company': 'mysql'},
+    #         # {'home_lx': 'mysql'},
+    #         # {'home_lx': 'mongodb'},
+    #         # {'nas': 'mysql'},
+    #     ],
+    #     is_mysql = False,  # 清理聚合数据
+    # )
     # c = DataClean(
     #     path=upload_path,  # 源文件目录，下载文件夹
@@ -1512,4 +1536,4 @@ if __name__ == '__main__':
     # c.move_tg_tm(is_except=['临时文件', ])  # 天猫，移到文件到原始文件夹
-    # test()
+    test()

mdbq/spider/aikucun.py CHANGED Viewed

@@ -216,6 +216,7 @@ class AikuCun:
         today = datetime.date.today()
         for date_s in range(date_num):
             new_date = today - datetime.timedelta(days=date_s)  # 会用作文件名
+            print(f'正在下载爱库存文件 {date_s}/{date_num}: {new_date}')
             str_date = str(new_date)[2:]
             wait = WebDriverWait(_driver, timeout=15)  #
             elements = _driver.find_elements(
@@ -254,7 +255,7 @@ class AikuCun:
                 '//button[@class="el-button el-button--primary el-button--small is-plain"]/span[contains(text(), "下载数据")]')
             _driver.execute_script("arguments[0].click();", elements[0])  # 点击
             time.sleep(5)
-            self.clean_data(date=new_date)
+            self.clean_data(date=new_date)  # 每下载一个文件，需要立即清洗数据
         _driver.quit()
     def clean_data(self, date):
@@ -275,6 +276,7 @@ class AikuCun:
                         os.remove(os.path.join(root, name))
                         continue
                     df.insert(loc=0, column='日期', value=date)  # df中插入新列
+                    df.insert(loc=1, column='店铺名称', value='爱库存平台')  # df中插入新列
                     df.rename(columns={'spuId': 'spu_id'}, inplace=True)
                     df['数据更新时间'] = pd.to_datetime(df['数据更新时间'], format='%Y-%m-%d %H:%M:%S', errors='ignore')
                     # df['数据更新时间'] = df['数据更新时间'].apply(lambda x: re.sub('  ', ' ', str(x)) if x else x)
@@ -290,24 +292,24 @@ def akucun():
     akc.get_data(shop_name='aikucun', date_num=10)  # 获取最近 N 天数据，0表示今天
     # akc.clean_data()
-    # 新版 数据分类
-    dp = aggregation.DatabaseUpdate(path=upload_path)
-    dp.new_unzip(is_move=True)
-    dp.cleaning(is_move=False, is_except=['临时文件'])  # 清洗数据, 存入 self.datas, 不需要立即移除文件，仍保留文件到原始文件中
-    # 将 self.datas 更新至数据库
-    dp.upload_df(service_databases=[
-        # {'home_lx': 'mongodb'},
-        # {'home_lx': 'mysql'},
-        {'company': 'mysql'},
-        # {'nas': 'mysql'},
-    ])
-    # 数据分类
-    c = data_clean.DataClean(path=upload_path, source_path=Source_Path)
-    c.set_up_to_mogo = False  # 不再使用 data_clean 更新数据库，改为 aggregation.py
-    c.set_up_to_mysql = False  # 不再使用 data_clean 更新数据库，改为 aggregation.py
-    c.new_unzip(is_move=True, )  # 解压文件
-    c.change_and_sort(is_except=['临时文件'])
-    c.move_all(is_except=['临时文件'])  # 移到文件到原始文件夹
+    # # 新版 数据分类
+    # dp = aggregation.DatabaseUpdate(path=upload_path)
+    # dp.new_unzip(is_move=True)
+    # dp.cleaning(is_move=False, is_except=['临时文件'])  # 清洗数据, 存入 self.datas, 不需要立即移除文件，仍保留文件到原始文件中
+    # # 将 self.datas 更新至数据库
+    # dp.upload_df(service_databases=[
+    #     # {'home_lx': 'mongodb'},
+    #     # {'home_lx': 'mysql'},
+    #     {'company': 'mysql'},
+    #     # {'nas': 'mysql'},
+    # ])
+    # # 数据分类
+    # c = data_clean.DataClean(path=upload_path, source_path=Source_Path)
+    # c.set_up_to_mogo = False  # 不再使用 data_clean 更新数据库，改为 aggregation.py
+    # c.set_up_to_mysql = False  # 不再使用 data_clean 更新数据库，改为 aggregation.py
+    # c.new_unzip(is_move=True, )  # 解压文件
+    # c.change_and_sort(is_except=['临时文件'])
+    # c.move_all(is_except=['临时文件'])  # 移到文件到原始文件夹
 class AikuCunNew:
@@ -359,7 +361,7 @@ class AikuCunNew:
 if __name__ == '__main__':
     pass
-    # get_cookie_aikucun()
+    get_cookie_aikucun()
     akucun()
     # a = AikuCunNew(shop_name='aikucun')

{mdbq-2.6.2.dist-info → mdbq-2.6.4.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: mdbq
-Version: 2.6.2
+Version: 2.6.4
 Home-page: https://pypi.org/project/mdbsql
 Author: xigua,
 Author-email: 2587125111@qq.com

{mdbq-2.6.2.dist-info → mdbq-2.6.4.dist-info}/RECORD RENAMED Viewed

@@ -1,15 +1,15 @@
 mdbq/__init__.py,sha256=Il5Q9ATdX8yXqVxtP_nYqUhExzxPC_qk_WXQ_4h0exg,16
 mdbq/__version__.py,sha256=y9Mp_8x0BCZSHsdLT_q5tX9wZwd5QgqrSIENLrb6vXA,62
 mdbq/aggregation/__init__.py,sha256=EeDqX2Aml6SPx8363J-v1lz0EcZtgwIBYyCJV6CcEDU,40
-mdbq/aggregation/aggregation.py,sha256=ZBsaQbazp2J9rQDoTvwRNav1O4g3PrZue31_6iM4k5g,76166
+mdbq/aggregation/aggregation.py,sha256=YWfi6mhGAxEmY7DVIw--PimKYRx8wUhQYlz9zd-i1vk,76249
 mdbq/aggregation/df_types.py,sha256=U9i3q2eRPTDY8qAPTw7irzu-Tlg4CIySW9uYro81wdk,8125
 mdbq/aggregation/mysql_types.py,sha256=DQYROALDiwjJzjhaJfIIdnsrNs11i5BORlj_v6bp67Y,11062
 mdbq/aggregation/optimize_data.py,sha256=gdScrgTAb6RbXHZy1LitX7lggMGn1GTLhkYSgztfwew,4903
-mdbq/aggregation/query_data.py,sha256=6hEmrqPiI5yUuQyTP5_w9n9aVoOXutuJK6Z_jRlsV_s,104438
+mdbq/aggregation/query_data.py,sha256=0NGYmfl1klQryriHu4V6_Twi9WPERHbl56X3kUqmZaY,102619
 mdbq/bdup/__init__.py,sha256=AkhsGk81SkG1c8FqDH5tRq-8MZmFobVbN60DTyukYTY,28
 mdbq/bdup/bdup.py,sha256=LAV0TgnQpc-LB-YuJthxb0U42_VkPidzQzAagan46lU,4234
 mdbq/clean/__init__.py,sha256=A1d6x3L27j4NtLgiFV5TANwEkLuaDfPHDQNrPBbNWtU,41
-mdbq/clean/clean_upload.py,sha256=t_vUPUuDrWAKxdJO8Ptcu9H6aSGzAgBKg9sur-Mr0oM,77929
+mdbq/clean/clean_upload.py,sha256=ZiPuyLhdEkAVTiqMCXGw2TbIuJtQL6qzXS4qf5Lncus,79427
 mdbq/clean/data_clean.py,sha256=ucfslhqXVZoH2QaXHSAWDky0GhIvH9f4GeNaHg4SrFE,104790
 mdbq/company/__init__.py,sha256=qz8F_GsP_pMB5PblgJAUAMjasuZbOEp3qQOCB39E8f0,21
 mdbq/company/copysh.py,sha256=NvlXCBZBcO2GIT5nLRYYqhOyHWM1-1RE7DHvgbj6jmQ,19723
@@ -41,8 +41,8 @@ mdbq/pbix/refresh_all_old.py,sha256=_pq3WSQ728GPtEG5pfsZI2uTJhU8D6ra-htIk1JXYzw,
 mdbq/req_post/__init__.py,sha256=jso1oHcy6cJEfa7udS_9uO5X6kZLoPBF8l3wCYmr5dM,18
 mdbq/req_post/req_tb.py,sha256=PexWSCPJNM6Tv0ol4lAWIhlOwsAr_frnjtcdSHCFiek,36179
 mdbq/spider/__init__.py,sha256=RBMFXGy_jd1HXZhngB2T2XTvJqki8P_Fr-pBcwijnew,18
-mdbq/spider/aikucun.py,sha256=3EjeTPbwk_qLGMVqDhBZoEPGfD2oM-SBiODjxLL3A8U,16883
-mdbq-2.6.2.dist-info/METADATA,sha256=YWpQrR1j4lfvAEEea_-hzDw7IblqooNfsPi6JcB_d8M,245
-mdbq-2.6.2.dist-info/WHEEL,sha256=eOLhNAGa2EW3wWl_TU484h7q1UNgy0JXjjoqKoxAAQc,92
-mdbq-2.6.2.dist-info/top_level.txt,sha256=2FQ-uLnCSB-OwFiWntzmwosW3X2Xqsg0ewh1axsaylA,5
-mdbq-2.6.2.dist-info/RECORD,,
+mdbq/spider/aikucun.py,sha256=4Y5zd64hZUFtll8AdpUc2napDas-La-A6XzAhb2mLv0,17157
+mdbq-2.6.4.dist-info/METADATA,sha256=jxpJC0SoZbSmRSFQRw56smOeg_66YUnRBWT8bQl7L38,245
+mdbq-2.6.4.dist-info/WHEEL,sha256=eOLhNAGa2EW3wWl_TU484h7q1UNgy0JXjjoqKoxAAQc,92
+mdbq-2.6.4.dist-info/top_level.txt,sha256=2FQ-uLnCSB-OwFiWntzmwosW3X2Xqsg0ewh1axsaylA,5
+mdbq-2.6.4.dist-info/RECORD,,

{mdbq-2.6.2.dist-info → mdbq-2.6.4.dist-info}/WHEEL RENAMED Viewed

File without changes

{mdbq-2.6.2.dist-info → mdbq-2.6.4.dist-info}/top_level.txt RENAMED Viewed

File without changes

mdbq 2.6.2__py3-none-any.whl → 2.6.4__py3-none-any.whl

mdbq 2.6.2py3-none-any.whl → 2.6.4py3-none-any.whl