PyPI - mdbq - Versions diffs - 1.7.0__py3-none-any.whl → 1.7.2__py3-none-any.whl - Mend

mdbq 1.7.0py3-none-any.whl → 1.7.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

mdbq/aggregation/aggregation.py +20 -5
mdbq/aggregation/query_data.py +102 -102
mdbq/clean/data_clean.py +17 -0
{mdbq-1.7.0.dist-info → mdbq-1.7.2.dist-info}/METADATA +1 -1
{mdbq-1.7.0.dist-info → mdbq-1.7.2.dist-info}/RECORD +7 -7
{mdbq-1.7.0.dist-info → mdbq-1.7.2.dist-info}/WHEEL +0 -0
{mdbq-1.7.0.dist-info → mdbq-1.7.2.dist-info}/top_level.txt +0 -0

mdbq/aggregation/aggregation.py CHANGED Viewed

@@ -530,6 +530,17 @@ class DatabaseUpdate:
                     df.drop("'当前时间'", axis=1, inplace=True)
                     df.rename(columns={'全站ROI': '全站roi'}, inplace=True)
                     df.insert(loc=1, column='产品线', value='全站营销')
+                elif name.endswith('.csv') and '关键词点击成交报表_pbix同步_勿删改' in name:
+                    df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=0, na_filter=False)
+                    for col in df.columns.tolist():
+                        if '（' in col:
+                            new_col = re.sub('[（）]', '_', col)
+                            new_col = new_col.strip('_')
+                            df.rename(columns={col: new_col}, inplace=True)
+                    df['日期'] = df['日期'].apply(lambda x: f'{str(x)[:4]}-{str(x)[4:6]}-{str(x)[6:8]}')
+                    df['日期'] = pd.to_datetime(df['日期'], format='%Y-%m-%d', errors='ignore')
+                    # min_clm = str(df['日期'].min()).split(' ')[0]
+                    # max_clm = str(df['日期'].max()).split(' ')[0]
                 # 商品素材，必须保持放在最后处理
                 elif name.endswith('xlsx'):
@@ -960,7 +971,9 @@ def upload_dir(path, db_name, collection_name, dbs={'mysql': True, 'mongodb': Tr
                         d.df_to_mongo(df=df, db_name=db_name, collection_name=collection_name)
                     if dbs['mysql']:  # drop_duplicates: 值为 True 时检查重复数据再插入
                         m.df_to_mysql(df=df, db_name=db_name, table_name=collection_name,
-                                      drop_duplicates=True, filename=name, count=f'{i}/{count}')
+                                      df_sql = True,
+                                      drop_duplicates=False,
+                                      filename=name, count=f'{i}/{count}')
                         # nas.df_to_mysql(df=df, db_name=db_name, table_name=collection_name, drop_duplicates=True,)
                 except Exception as e:
                     print(name, e)
@@ -1068,11 +1081,13 @@ if __name__ == '__main__':
     #     target_service='company',
     #     database='mysql'
     # )
-    db_name = '市场数据2'
-    table_name = '类目洞察_属性分析_商品发现'
+    db_name = '京东数据2'
+    table_name = '推广数据_关键词报表'
     upload_dir(
-        path='/Users/xigua/Downloads/类目洞察/属性分析/商品发现',
+        path='/Users/xigua/数据中心/原始文件2/京东报表/JD推广_关键词报表',
         db_name=db_name,
         collection_name=table_name,
-        dbs={'mysql': False, 'mongodb': False},
+        dbs={'mysql': True, 'mongodb': False},
     )

mdbq/aggregation/query_data.py CHANGED Viewed

@@ -1099,72 +1099,72 @@ def data_aggregation(service_databases=[{}], months=1):
                     '唯一主键': ['日期', '推广渠道', '营销场景', '商品id', '花费'],
                     '数据主体': sdq.tg_wxt(),
                 },
-                # {
-                #     '数据库名': '聚合数据',
-                #     '集合名': '天猫生意经_宝贝指标',
-                #     '唯一主键': ['日期', '宝贝id'],
-                #     '数据主体': sdq.syj(),
-                # },
-                # {
-                #     '数据库名': '聚合数据',
-                #     '集合名': '天猫_店铺来源_日数据',
-                #     '唯一主键': ['日期', '一级来源', '二级来源', '三级来源'],
-                #     '数据主体': sdq.dplyd(),
-                # },
-                # {
-                #     '数据库名': '聚合数据',
-                #     '集合名': '天猫_店铺来源_日数据_旧版',
-                #     '唯一主键': ['日期', '一级来源', '二级来源', '三级来源'],
-                #     '数据主体': sdq.dplyd_old(),
-                # },
-                # {
-                #     '数据库名': '聚合数据',
-                #     '集合名': '商品id编码表',
-                #     '唯一主键': ['宝贝id'],
-                #     '数据主体': sdq.idbm(),
-                # },
-                # {
-                #     '数据库名': '聚合数据',
-                #     '集合名': '商品id图片对照表',
-                #     '唯一主键': ['商品id'],
-                #     '数据主体': sdq.sp_picture(),
-                # },
-                # {
-                #     '数据库名': '聚合数据',
-                #     '集合名': '商品成本',
-                #     '唯一主键': ['款号'],
-                #     '数据主体': sdq.sp_cost(),
-                # },
-                # {
-                #     '数据库名': '聚合数据',
-                #     '集合名': '京东_京准通',
-                #     '唯一主键': ['日期', '产品线', '触发sku id', '跟单sku id', '花费', ],
-                #     '数据主体': sdq.jdjzt(),
-                # },
-                # {
-                #     '数据库名': '聚合数据',
-                #     '集合名': '京东_京准通_全站营销',
-                #     '唯一主键': ['日期', '产品线', '花费'],
-                #     '数据主体': sdq.jdqzyx(),
-                # },
-                # {
-                #     '数据库名': '聚合数据',
-                #     '集合名': '京东_sku_商品明细',
-                #     '唯一主键': ['日期', '商品id', '成交单量'],
-                #     '数据主体': sdq.sku_sales(),
-                # },
-                # {
-                #     '数据库名': '聚合数据',
-                #     '集合名': '天猫_人群报表',
-                #     '唯一主键': ['日期', '推广渠道', '营销场景', '商品id', '花费', '人群名字'],
-                #     '数据主体': sdq.tg_rqbb(),
-                # },
-                # {
-                #     '数据库名': '聚合数据',
-                #     '集合名': '天猫_关键词报表',
-                #     '唯一主键': ['日期', '推广渠道', '营销场景', '商品id', '花费', '词类型', '词名字/词包名字',],
-                #     '数据主体': sdq.tg_gjc(),
-                # },
+                {
+                    '数据库名': '聚合数据',
+                    '集合名': '天猫生意经_宝贝指标',
+                    '唯一主键': ['日期', '宝贝id'],
+                    '数据主体': sdq.syj(),
+                },
+                {
+                    '数据库名': '聚合数据',
+                    '集合名': '天猫_店铺来源_日数据',
+                    '唯一主键': ['日期', '一级来源', '二级来源', '三级来源'],
+                    '数据主体': sdq.dplyd(),
+                },
+                {
+                    '数据库名': '聚合数据',
+                    '集合名': '天猫_店铺来源_日数据_旧版',
+                    '唯一主键': ['日期', '一级来源', '二级来源', '三级来源'],
+                    '数据主体': sdq.dplyd_old(),
+                },
+                {
+                    '数据库名': '聚合数据',
+                    '集合名': '商品id编码表',
+                    '唯一主键': ['宝贝id'],
+                    '数据主体': sdq.idbm(),
+                },
+                {
+                    '数据库名': '聚合数据',
+                    '集合名': '商品id图片对照表',
+                    '唯一主键': ['商品id'],
+                    '数据主体': sdq.sp_picture(),
+                },
+                {
+                    '数据库名': '聚合数据',
+                    '集合名': '商品成本',
+                    '唯一主键': ['款号'],
+                    '数据主体': sdq.sp_cost(),
+                },
+                {
+                    '数据库名': '聚合数据',
+                    '集合名': '京东_京准通',
+                    '唯一主键': ['日期', '产品线', '触发sku id', '跟单sku id', '花费', ],
+                    '数据主体': sdq.jdjzt(),
+                },
+                {
+                    '数据库名': '聚合数据',
+                    '集合名': '京东_京准通_全站营销',
+                    '唯一主键': ['日期', '产品线', '花费'],
+                    '数据主体': sdq.jdqzyx(),
+                },
+                {
+                    '数据库名': '聚合数据',
+                    '集合名': '京东_sku_商品明细',
+                    '唯一主键': ['日期', '商品id', '成交单量'],
+                    '数据主体': sdq.sku_sales(),
+                },
+                {
+                    '数据库名': '聚合数据',
+                    '集合名': '天猫_人群报表',
+                    '唯一主键': ['日期', '推广渠道', '营销场景', '商品id', '花费', '人群名字'],
+                    '数据主体': sdq.tg_rqbb(),
+                },
+                {
+                    '数据库名': '聚合数据',
+                    '集合名': '天猫_关键词报表',
+                    '唯一主键': ['日期', '推广渠道', '营销场景', '商品id', '花费', '词类型', '词名字/词包名字',],
+                    '数据主体': sdq.tg_gjc(),
+                },
                 {
                     '数据库名': '聚合数据',
                     '集合名': '天猫_超级直播',
@@ -1176,15 +1176,15 @@ def data_aggregation(service_databases=[{}], months=1):
                 db_name, table_name, unique_key_list, df = items['数据库名'], items['集合名'], items['唯一主键'], items['数据主体']
                 df = g.groupby(df=df, table_name=table_name, is_maximize=True)  # 2. 聚合数据
                 if len(g.sp_index_datas) != 0:
-                    # # 由推广主体报表，写入一个商品索引表，索引规则：从上月 1 号至今花费从高到低排序
-                    # m.df_to_mysql(
-                    #     df=g.sp_index_datas,
-                    #     db_name='属性设置2',
-                    #     table_name='商品索引表',
-                    #     drop_duplicates=False,
-                    #     icm_update=['商品id'],
-                    #     service_database=service_database,
-                    # )
+                    # 由推广主体报表，写入一个商品索引表，索引规则：从上月 1 号至今花费从高到低排序
+                    m.df_to_mysql(
+                        df=g.sp_index_datas,
+                        db_name='属性设置2',
+                        table_name='商品索引表',
+                        drop_duplicates=False,
+                        icm_update=['商品id'],
+                        service_database=service_database,
+                    )
                     g.sp_index_datas = pd.DataFrame()  # 重置，不然下个循环会继续刷入数据库
                 # g.as_csv(df=df, filename=table_name + '.csv')  # 导出 csv
                 m.df_to_mysql(
@@ -1195,24 +1195,24 @@ def data_aggregation(service_databases=[{}], months=1):
                     icm_update=unique_key_list,
                     service_database=service_database,
                 )  # 3. 回传数据库
-            # res = g.performance(bb_tg=True)   # 盈亏表，依赖其他表，单独做
-            # m.df_to_mysql(
-            #     df=res,
-            #     db_name='聚合数据',
-            #     table_name='_全店商品销售',
-            #     drop_duplicates=False,
-            #     icm_update=['日期', '商品id'],  # 设置唯一主键
-            #     service_database=service_database,
-            # )
-            # res = g.performance(bb_tg=False)  # 盈亏表，依赖其他表，单独做
-            # m.df_to_mysql(
-            #     df=res,
-            #     db_name='聚合数据',
-            #     table_name='_推广商品销售',
-            #     drop_duplicates=False,
-            #     icm_update=['日期', '商品id'],  # 设置唯一主键
-            #     service_database=service_database,
-            # )
+            res = g.performance(bb_tg=True)   # 盈亏表，依赖其他表，单独做
+            m.df_to_mysql(
+                df=res,
+                db_name='聚合数据',
+                table_name='_全店商品销售',
+                drop_duplicates=False,
+                icm_update=['日期', '商品id'],  # 设置唯一主键
+                service_database=service_database,
+            )
+            res = g.performance(bb_tg=False)  # 盈亏表，依赖其他表，单独做
+            m.df_to_mysql(
+                df=res,
+                db_name='聚合数据',
+                table_name='_推广商品销售',
+                drop_duplicates=False,
+                icm_update=['日期', '商品id'],  # 设置唯一主键
+                service_database=service_database,
+            )
             res = g.performance_concat(bb_tg=False)  # 推广主体合并直播表，依赖其他表，单独做
             m.df_to_mysql(
@@ -1225,15 +1225,15 @@ def data_aggregation(service_databases=[{}], months=1):
             )
-            # res = g.performance_jd(jd_tg=False)  # 盈亏表，依赖其他表，单独做
-            # m.df_to_mysql(
-            #     df=res,
-            #     db_name='聚合数据',
-            #     table_name='_京东_推广商品销售',
-            #     drop_duplicates=False,
-            #     icm_update=['日期', '跟单sku id', '货号', '花费'],  # 设置唯一主键
-            #     service_database=service_database,
-            # )
+            res = g.performance_jd(jd_tg=False)  # 盈亏表，依赖其他表，单独做
+            m.df_to_mysql(
+                df=res,
+                db_name='聚合数据',
+                table_name='_京东_推广商品销售',
+                drop_duplicates=False,
+                icm_update=['日期', '跟单sku id', '货号', '花费'],  # 设置唯一主键
+                service_database=service_database,
+            )
     # 这里要注释掉，不然 copysh.py 可能有问题，这里主要修改配置文件，后续触发 home_lx 的 optimize_datas.py(有s)程序进行全局清理

mdbq/clean/data_clean.py CHANGED Viewed

@@ -683,6 +683,20 @@ class DataClean:
                         m.df_to_mysql(df=df, db_name='天猫数据1', tabel_name='万相台_人群洞察')
                 # ----------------------- 京东数据处理分界线 -----------------------
+                elif name.endswith('.csv') and '关键词点击成交报表_pbix同步_勿删改' in name:
+                    df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=0, na_filter=False)
+                    for col in df.columns.tolist():
+                        if '（' in col:
+                            new_col = re.sub('[（）]', '_', col)
+                            new_col = new_col.strip('_')
+                            df.rename(columns={col: new_col}, inplace=True)
+                    df['日期'] = df['日期'].apply(lambda x: f'{str(x)[:4]}-{str(x)[4:6]}-{str(x)[6:8]}')
+                    df['日期'] = pd.to_datetime(df['日期'], format='%Y-%m-%d', errors='ignore')
+                    min_clm = str(df['日期'].min()).split(' ')[0]
+                    max_clm = str(df['日期'].max()).split(' ')[0]
+                    new_name = f'京东推广关键词点击成交报表_{min_clm}_{max_clm}.csv'
+                    self.save_to_csv(df, root, new_name)
+                    os.remove(os.path.join(root, name))
                 elif name.endswith('.csv') and '营销概况_全站营销' in name:
                     df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=1, na_filter=False)
                     df = df[(df['日期'] != '日期') & (df['日期'] != '汇总') & (df['日期'] != '0') & (df['花费'] != '0') & (df['花费'] != '0.00')]
@@ -1199,6 +1213,9 @@ class DataClean:
                 elif name.endswith('.csv') and '营销概况_全站营销' in name:
                     t_path = str(pathlib.Path(self.source_path, '京东报表/JD推广_全站营销报表'))
                     bib(t_path, _as_month=True)
+                elif name.endswith('.csv') and '京东推广关键词点击成交报表' in name:
+                    t_path = str(pathlib.Path(self.source_path, '京东报表/JD推广_关键词报表'))
+                    bib(t_path, _as_month=True)
                 #  京东分界线   ------- 结束标记
     def attribute(self, path=None, _str='商品素材导出', ):

{mdbq-1.7.0.dist-info → mdbq-1.7.2.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: mdbq
-Version: 1.7.0
+Version: 1.7.2
 Home-page: https://pypi.org/project/mdbsql
 Author: xigua,
 Author-email: 2587125111@qq.com

{mdbq-1.7.0.dist-info → mdbq-1.7.2.dist-info}/RECORD RENAMED Viewed

@@ -1,15 +1,15 @@
 mdbq/__init__.py,sha256=Il5Q9ATdX8yXqVxtP_nYqUhExzxPC_qk_WXQ_4h0exg,16
 mdbq/__version__.py,sha256=y9Mp_8x0BCZSHsdLT_q5tX9wZwd5QgqrSIENLrb6vXA,62
 mdbq/aggregation/__init__.py,sha256=EeDqX2Aml6SPx8363J-v1lz0EcZtgwIBYyCJV6CcEDU,40
-mdbq/aggregation/aggregation.py,sha256=S1ZH4EXsYJ2qWDBJVAHQ4oSgPegTm3UXqxF2CgajOYM,62019
+mdbq/aggregation/aggregation.py,sha256=cydwGivXyoLzvDrbhn8BR-rBRLnY8VjJK9R16pVkR4s,62979
 mdbq/aggregation/df_types.py,sha256=oQJS2IBU3_IO6GMgbssHuC2yCjNnbta0QPGrFOwNLnU,7591
 mdbq/aggregation/mysql_types.py,sha256=DQYROALDiwjJzjhaJfIIdnsrNs11i5BORlj_v6bp67Y,11062
 mdbq/aggregation/optimize_data.py,sha256=u2Kl_MFtZueXJ57ycy4H2OhXD431RctUYJYCl637uT0,4176
-mdbq/aggregation/query_data.py,sha256=jkuTJS2ucf2tFoLiEESJZtgXuRj7nH6vFMmd5fDXtkU,59352
+mdbq/aggregation/query_data.py,sha256=N7y9bzmoK3hnurpA2hbYSJ6IMznj3D7NzmrlQo5gGg0,59148
 mdbq/bdup/__init__.py,sha256=AkhsGk81SkG1c8FqDH5tRq-8MZmFobVbN60DTyukYTY,28
 mdbq/bdup/bdup.py,sha256=LAV0TgnQpc-LB-YuJthxb0U42_VkPidzQzAagan46lU,4234
 mdbq/clean/__init__.py,sha256=A1d6x3L27j4NtLgiFV5TANwEkLuaDfPHDQNrPBbNWtU,41
-mdbq/clean/data_clean.py,sha256=RtH51YY0ImeCW2DEPS0GU9dt1KfwMzUDSBK50yCXDeA,91225
+mdbq/clean/data_clean.py,sha256=dVycc_wyXH96hJvAXw-lVAZV-3eCEGD-o04oHxAecHs,92545
 mdbq/company/__init__.py,sha256=qz8F_GsP_pMB5PblgJAUAMjasuZbOEp3qQOCB39E8f0,21
 mdbq/company/copysh.py,sha256=WCZ92vCJAy6_ZFeOxWL-U9gArIpyga4xts-s1wKsspY,17268
 mdbq/config/__init__.py,sha256=jso1oHcy6cJEfa7udS_9uO5X6kZLoPBF8l3wCYmr5dM,18
@@ -35,7 +35,7 @@ mdbq/pbix/__init__.py,sha256=Trtfaynu9RjoTyLLYBN2xdRxTvm_zhCniUkVTAYwcjo,24
 mdbq/pbix/pbix_refresh.py,sha256=JUjKW3bNEyoMVfVfo77UhguvS5AWkixvVhDbw4_MHco,2396
 mdbq/pbix/refresh_all.py,sha256=tgy762608HMaXWynbOURIf2UVMuSPybzrDXQnOOcnZU,6102
 mdbq/spider/__init__.py,sha256=RBMFXGy_jd1HXZhngB2T2XTvJqki8P_Fr-pBcwijnew,18
-mdbq-1.7.0.dist-info/METADATA,sha256=PZcXGr17z5d-ZXC1qjuBc6JvUKZalgi3sjnqz1g3qSk,245
-mdbq-1.7.0.dist-info/WHEEL,sha256=eOLhNAGa2EW3wWl_TU484h7q1UNgy0JXjjoqKoxAAQc,92
-mdbq-1.7.0.dist-info/top_level.txt,sha256=2FQ-uLnCSB-OwFiWntzmwosW3X2Xqsg0ewh1axsaylA,5
-mdbq-1.7.0.dist-info/RECORD,,
+mdbq-1.7.2.dist-info/METADATA,sha256=oY3Kodabng2WfHmpryLIpCIry7d6w4Bt-F5KwwIzNfs,245
+mdbq-1.7.2.dist-info/WHEEL,sha256=eOLhNAGa2EW3wWl_TU484h7q1UNgy0JXjjoqKoxAAQc,92
+mdbq-1.7.2.dist-info/top_level.txt,sha256=2FQ-uLnCSB-OwFiWntzmwosW3X2Xqsg0ewh1axsaylA,5
+mdbq-1.7.2.dist-info/RECORD,,

{mdbq-1.7.0.dist-info → mdbq-1.7.2.dist-info}/WHEEL RENAMED Viewed

File without changes

{mdbq-1.7.0.dist-info → mdbq-1.7.2.dist-info}/top_level.txt RENAMED Viewed

File without changes

mdbq 1.7.0__py3-none-any.whl → 1.7.2__py3-none-any.whl

mdbq 1.7.0py3-none-any.whl → 1.7.2py3-none-any.whl