PyPI - mdbq - Versions diffs - 1.7.1__tar.gz → 1.7.3__tar.gz - Mend

mdbq 1.7.1tar.gz → 1.7.3tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (45) hide show

{mdbq-1.7.1 → mdbq-1.7.3}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: mdbq
-Version: 1.7.1
+Version: 1.7.3
 Home-page: https://pypi.org/project/mdbsql
 Author: xigua,
 Author-email: 2587125111@qq.com

{mdbq-1.7.1 → mdbq-1.7.3}/mdbq/aggregation/aggregation.py RENAMED Viewed

@@ -530,6 +530,17 @@ class DatabaseUpdate:
                     df.drop("'当前时间'", axis=1, inplace=True)
                     df.rename(columns={'全站ROI': '全站roi'}, inplace=True)
                     df.insert(loc=1, column='产品线', value='全站营销')
+                elif name.endswith('.csv') and '关键词点击成交报表_pbix同步_勿删改' in name:
+                    df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=0, na_filter=False)
+                    for col in df.columns.tolist():
+                        if '（' in col:
+                            new_col = re.sub('[（）]', '_', col)
+                            new_col = new_col.strip('_')
+                            df.rename(columns={col: new_col}, inplace=True)
+                    df['日期'] = df['日期'].apply(lambda x: f'{str(x)[:4]}-{str(x)[4:6]}-{str(x)[6:8]}')
+                    df['日期'] = pd.to_datetime(df['日期'], format='%Y-%m-%d', errors='ignore')
+                    # min_clm = str(df['日期'].min()).split(' ')[0]
+                    # max_clm = str(df['日期'].max()).split(' ')[0]
                 # 商品素材，必须保持放在最后处理
                 elif name.endswith('xlsx'):
@@ -901,7 +912,7 @@ def upload_dir(path, db_name, collection_name, dbs={'mysql': True, 'mongodb': Tr
     if dbs['mysql']:
         username, password, host, port = get_myconf.select_config_values(
-            target_service='home_lx',
+            target_service='company',
             database='mysql',
         )
         m = mysql.MysqlUpload(
@@ -960,7 +971,9 @@ def upload_dir(path, db_name, collection_name, dbs={'mysql': True, 'mongodb': Tr
                         d.df_to_mongo(df=df, db_name=db_name, collection_name=collection_name)
                     if dbs['mysql']:  # drop_duplicates: 值为 True 时检查重复数据再插入
                         m.df_to_mysql(df=df, db_name=db_name, table_name=collection_name,
-                                      drop_duplicates=True, filename=name, count=f'{i}/{count}')
+                                      df_sql = True,
+                                      drop_duplicates=False,
+                                      filename=name, count=f'{i}/{count}')
                         # nas.df_to_mysql(df=df, db_name=db_name, table_name=collection_name, drop_duplicates=True,)
                 except Exception as e:
                     print(name, e)
@@ -1068,11 +1081,13 @@ if __name__ == '__main__':
     #     target_service='company',
     #     database='mysql'
     # )
-    db_name = '市场数据2'
-    table_name = '类目洞察_属性分析_商品发现'
+    db_name = '京东数据2'
+    table_name = '推广数据_关键词报表'
     upload_dir(
-        path='/Users/xigua/Downloads/类目洞察/属性分析/商品发现',
+        path='/Users/xigua/数据中心/原始文件2/京东报表/JD推广_关键词报表/2024-09',
         db_name=db_name,
         collection_name=table_name,
-        dbs={'mysql': False, 'mongodb': False},
+        dbs={'mysql': True, 'mongodb': False},
     )

{mdbq-1.7.1 → mdbq-1.7.3}/mdbq/aggregation/query_data.py RENAMED Viewed

@@ -342,6 +342,39 @@ class MysqlDatasQuery:
             projection=projection,
         )
         return df
+    def jd_gjc(self):
+        start_date, end_date = self.months_data(num=self.months)
+        projection = {
+            '日期': 1,
+            '产品线': 1,
+            '计划类型': 1,
+            '计划id': 1,
+            '推广计划': 1,
+            '搜索词': 1,
+            '关键词': 1,
+            '关键词购买类型': 1,
+            '广告定向类型': 1,
+            '花费': 1,
+            '展现数': 1,
+            '点击数': 1,
+            '直接订单行': 1,
+            '直接订单金额': 1,
+            '总订单行': 1,
+            '总订单金额': 1,
+            '总加购数': 1,
+            '下单新客数_去重': 1,
+            '领券数': 1,
+            '商品关注数': 1,
+            '店铺关注数': 1
+        }
+        df = self.download.data_to_df(
+            db_name='京东数据2',
+            table_name='推广数据_关键词报表',
+            start_date=start_date,
+            end_date=end_date,
+            projection=projection,
+        )
+        return df
     def sku_sales(self):
         start_date, end_date = self.months_data(num=self.months)
         projection = {
@@ -541,7 +574,7 @@ class GroupBy:
                 )
             df.insert(loc=1, column='推广渠道', value='万相台无界版')  # df中插入新列
             return df
-        elif '关键词报表' in table_name:
+        elif '天猫_关键词报表' in table_name:
             df.rename(columns={
                 '场景名字': '营销场景',
                 '宝贝id': '商品id',
@@ -581,6 +614,8 @@ class GroupBy:
                        }
                 )
             df.insert(loc=1, column='推广渠道', value='万相台无界版')  # df中插入新列
+            df['是否品牌词'] = df['词名字/词包名字'].str.contains('万里马|wanlima', regex=True)
+            df['是否品牌词'] = df['是否品牌词'].apply(lambda x: '品牌词' if x else '')
             return df
         elif '天猫_超级直播' in table_name:
             df.rename(columns={
@@ -832,6 +867,29 @@ class GroupBy:
                 }
             )
             return df
+        elif '京东_关键词报表' in table_name:
+            df_lin = df[['计划id', '推广计划']]
+            df_lin.drop_duplicates(subset=['计划id'], keep='last', inplace=True, ignore_index=True)
+            df = df.groupby(['日期', '产品线', '计划类型', '计划id', '搜索词', '关键词', '关键词购买类型', '广告定向类型', '展现数', '点击数', '花费'],
+                            as_index=False).agg(
+                **{
+                    '直接订单行': ('直接订单行', np.max),
+                    '直接订单金额': ('直接订单金额', np.max),
+                    '总订单行': ('总订单行', np.max),
+                    '总订单金额': ('总订单金额', np.max),
+                    '总加购数': ('总加购数', np.max),
+                    '下单新客数': ('下单新客数_去重', np.max),
+                    '领券数': ('领券数', np.max),
+                    '商品关注数': ('商品关注数', np.max),
+                    '店铺关注数': ('店铺关注数', np.max)
+                }
+            )
+            df = pd.merge(df, df_lin, how='left', left_on='计划id', right_on='计划id')
+            df['k_是否品牌词'] = df['关键词'].str.contains('万里马|wanlima', regex=True)
+            df['k_是否品牌词'] = df['k_是否品牌词'].apply(lambda x: '品牌词' if x else '')
+            df['s_是否品牌词'] = df['搜索词'].str.contains('万里马|wanlima', regex=True)
+            df['s_是否品牌词'] = df['s_是否品牌词'].apply(lambda x: '品牌词' if x else '')
+            return df
         else:
             print(f'<{table_name}>: Groupby 类尚未配置，数据为空')
             return pd.DataFrame({})
@@ -1052,9 +1110,9 @@ def data_aggregation_one(service_databases=[{}], months=1):
             data_dict = [
                 {
                     '数据库名': '聚合数据',
-                    '集合名': '天猫_超级直播',
-                    '唯一主键': ['日期', '推广渠道', '营销场景', '花费'],
-                    '数据主体': sdq.tg_cjzb(),
+                    '集合名': '京东_关键词报表',
+                    '唯一主键': ['日期', '产品线', '搜索词',  '关键词', '展现数', '花费'],
+                    '数据主体': sdq.jd_gjc(),
                 },
             ]
             ######################################################
@@ -1069,8 +1127,9 @@ def data_aggregation_one(service_databases=[{}], months=1):
                     df=df,
                     db_name=db_name,
                     table_name=table_name,
+                    df_sql=True,
                     drop_duplicates=False,
-                    icm_update=unique_key_list,
+                    # icm_update=unique_key_list,
                     service_database=service_database,
                 )  # 3. 回传数据库
@@ -1171,6 +1230,12 @@ def data_aggregation(service_databases=[{}], months=1):
                     '唯一主键': ['日期', '推广渠道', '营销场景', '花费'],
                     '数据主体': sdq.tg_cjzb(),
                 },
+                {
+                    '数据库名': '聚合数据',
+                    '集合名': '京东_关键词报表',
+                    '唯一主键': ['日期', '产品线', '搜索词',  '关键词', '展现数', '花费'],
+                    '数据主体': sdq.jd_gjc(),
+                },
             ]
             for items in data_dict:  # 遍历返回结果
                 db_name, table_name, unique_key_list, df = items['数据库名'], items['集合名'], items['唯一主键'], items['数据主体']
@@ -1245,7 +1310,7 @@ def main():
 if __name__ == '__main__':
-    data_aggregation(service_databases=[{'company': 'mysql'}], months=24)  # 正常的聚合所有数据
-    # data_aggregation_one(service_databases=[{'company': 'mysql'}], months=1)  # 单独聚合某一个数据库，具体库进函数编辑
+    # data_aggregation(service_databases=[{'company': 'mysql'}], months=0)  # 正常的聚合所有数据
+    data_aggregation_one(service_databases=[{'company': 'mysql'}], months=1)  # 单独聚合某一个数据库，具体库进函数编辑
     # optimize_data.op_data(service_databases=[{'company': 'mysql'}], days=3650)  # 立即启动对聚合数据的清理工作

{mdbq-1.7.1 → mdbq-1.7.3}/mdbq/clean/data_clean.py RENAMED Viewed

@@ -683,6 +683,20 @@ class DataClean:
                         m.df_to_mysql(df=df, db_name='天猫数据1', tabel_name='万相台_人群洞察')
                 # ----------------------- 京东数据处理分界线 -----------------------
+                elif name.endswith('.csv') and '关键词点击成交报表_pbix同步_勿删改' in name:
+                    df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=0, na_filter=False)
+                    for col in df.columns.tolist():
+                        if '（' in col:
+                            new_col = re.sub('[（）]', '_', col)
+                            new_col = new_col.strip('_')
+                            df.rename(columns={col: new_col}, inplace=True)
+                    df['日期'] = df['日期'].apply(lambda x: f'{str(x)[:4]}-{str(x)[4:6]}-{str(x)[6:8]}')
+                    df['日期'] = pd.to_datetime(df['日期'], format='%Y-%m-%d', errors='ignore')
+                    min_clm = str(df['日期'].min()).split(' ')[0]
+                    max_clm = str(df['日期'].max()).split(' ')[0]
+                    new_name = f'京东推广关键词点击成交报表_{min_clm}_{max_clm}.csv'
+                    self.save_to_csv(df, root, new_name)
+                    os.remove(os.path.join(root, name))
                 elif name.endswith('.csv') and '营销概况_全站营销' in name:
                     df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=1, na_filter=False)
                     df = df[(df['日期'] != '日期') & (df['日期'] != '汇总') & (df['日期'] != '0') & (df['花费'] != '0') & (df['花费'] != '0.00')]
@@ -1199,6 +1213,9 @@ class DataClean:
                 elif name.endswith('.csv') and '营销概况_全站营销' in name:
                     t_path = str(pathlib.Path(self.source_path, '京东报表/JD推广_全站营销报表'))
                     bib(t_path, _as_month=True)
+                elif name.endswith('.csv') and '京东推广关键词点击成交报表' in name:
+                    t_path = str(pathlib.Path(self.source_path, '京东报表/JD推广_关键词报表'))
+                    bib(t_path, _as_month=True)
                 #  京东分界线   ------- 结束标记
     def attribute(self, path=None, _str='商品素材导出', ):

{mdbq-1.7.1 → mdbq-1.7.3}/mdbq.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: mdbq
-Version: 1.7.1
+Version: 1.7.3
 Home-page: https://pypi.org/project/mdbsql
 Author: xigua,
 Author-email: 2587125111@qq.com

{mdbq-1.7.1 → mdbq-1.7.3}/setup.py RENAMED Viewed

@@ -3,7 +3,7 @@
 from setuptools import setup, find_packages
 setup(name='mdbq',
-      version='1.7.1',
+      version='1.7.3',
       author='xigua, ',
       author_email="2587125111@qq.com",
       url='https://pypi.org/project/mdbsql',