PyPI - mdbq - Versions diffs - 1.9.1__tar.gz → 1.9.2__tar.gz - Mend

mdbq 1.9.1tar.gz → 1.9.2tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (46) hide show

{mdbq-1.9.1 → mdbq-1.9.2}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: mdbq
-Version: 1.9.1
+Version: 1.9.2
 Home-page: https://pypi.org/project/mdbsql
 Author: xigua,
 Author-email: 2587125111@qq.com

{mdbq-1.9.1 → mdbq-1.9.2}/mdbq/aggregation/aggregation.py RENAMED Viewed

@@ -61,7 +61,6 @@ class DatabaseUpdate:
             for name in files:
                 if '~$' in name or '.DS' in name or '.localized' in name or '.ini' in name or '$RECYCLE.BIN' in name or 'Icon' in name:
                     continue
                 db_name = None  # 初始化/重置变量，避免进入下一个循环
                 collection_name = None
                 for data in datas:  # 根据标题对照表适配 db_name 和 collection_name
@@ -189,6 +188,22 @@ class DatabaseUpdate:
                             collection_name='店铺来源_日数据_旧版'
                 elif name.endswith('.csv') and '客户运营平台_客户列表' in name:
                     df = pd.read_csv(os.path.join(root, name), encoding=encoding, header=0, na_filter=False)
+                elif name.endswith('.xlsx') and '直播分场次效果' in name:
+                    pattern = re.findall(r'(\d{4}-\d{2}-\d{2})_(\d{4}-\d{2}-\d{2})', name)
+                    if pattern:
+                        continue
+                    df = pd.read_excel(os.path.join(root, name), header=0)
+                    if len(df) == 0:
+                        print(f'{name} 报表数据为空')
+                        continue
+                    df.replace(to_replace=['--'], value='', regex=False, inplace=True)
+                    df.replace(to_replace=[','], value='', regex=True, inplace=True)
+                    df['直播开播时间'] = pd.to_datetime(df['直播开播时间'], format='%Y-%m-%d %H:%M:%S', errors='ignore')
+                    df.insert(loc=0, column='日期', value=df['直播开播时间'])
+                    df['日期'] = df['日期'].apply(
+                        lambda x: pd.to_datetime(str(x).split(' ')[0], format='%Y-%m-%d', errors='ignore') if x else x)
+                    df.insert(loc=1, column='店铺', value='万里马官方旗舰店')
                 elif name.endswith('.xls') and '生意参谋' in name and '无线店铺三级流量来源详情' in name:
                     # 店铺来源，手淘搜索，关键词
                     pattern = re.findall(r'(\d{4}-\d{2}-\d{2})_(\d{4}-\d{2}-\d{2})', name)
@@ -1115,12 +1130,23 @@ if __name__ == '__main__':
     #     database='mysql'
     # )
-    db_name = '生意经2'
-    table_name = '省份城市分析'
-    upload_dir(
-        path='/Users/xigua/数据中心/原始文件2/生意经/地域分布',
-        db_name=db_name,
-        collection_name=table_name,
-        dbs={'mysql': True, 'mongodb': False},
-    )
+    # db_name = '生意经2'
+    # table_name = '省份城市分析'
+    # upload_dir(
+    #     path='/Users/xigua/数据中心/原始文件2/生意经/地域分布',
+    #     db_name=db_name,
+    #     collection_name=table_name,
+    #     dbs={'mysql': True, 'mongodb': False},
+    # )
+    #
+    # 新版 数据分类
+    dp = DatabaseUpdate(path='/Users/xigua/Downloads')
+    dp.new_unzip(is_move=True)
+    dp.cleaning(is_move=False)  # 清洗数据, 存入 self.datas, 不需要立即移除文件，仍保留文件到原始文件中
+    # 将 self.datas 更新至数据库
+    dp.upload_df(service_databases=[
+        # {'home_lx': 'mongodb'},
+        {'company': 'mysql'},
+        # {'nas': 'mysql'},
+    ])

{mdbq-1.9.1 → mdbq-1.9.2}/mdbq/aggregation/query_data.py RENAMED Viewed

@@ -454,6 +454,50 @@ class MysqlDatasQuery:
         )
         return df
+    def zb_ccfx(self):
+        start_date, end_date = self.months_data(num=self.months)
+        projection = {
+            '日期': 1,
+            '店铺': 1,
+            '场次信息': 1,
+            '场次id': 1,
+            '直播开播时间': 1,
+            '开播时长': 1,
+            '封面图点击率': 1,
+            '观看人数': 1,
+            '观看次数': 1,
+            '新增粉丝数': 1,
+            '流量券消耗': 1,
+            '观看总时长（秒）': 1,
+            '人均观看时长（秒）': 1,
+            '次均观看时长（秒）': 1,
+            '商品点击人数': 1,
+            '商品点击次数': 1,
+            '商品点击率': 1,
+            '加购人数': 1,
+            '加购件数': 1,
+            '加购次数': 1,
+            '成交金额（元）': 1,
+            '成交人数': 1,
+            '成交件数': 1,
+            '成交笔数': 1,
+            '成交转化率': 1,
+            '退款人数': 1,
+            '退款笔数': 1,
+            '退款件数': 1,
+            '退款金额（元）': 1,
+            '预售定金支付金额（元）': 1,
+            '预售预估总金额（元）': 1,
+        }
+        df = self.download.data_to_df(
+            db_name='生意参谋2',
+            table_name='直播场次分析',
+            start_date=start_date,
+            end_date=end_date,
+            projection=projection,
+        )
+        return df
 class GroupBy:
     """
     数据聚合和导出
@@ -1016,6 +1060,9 @@ class GroupBy:
                 }
             )
             return df
+        elif '直播场次分析' in table_name:
+            df.drop_duplicates(subset=['日期', '直播开播时间', '观看人数'], keep='first', inplace=True, ignore_index=True)
+            return df
         else:
             print(f'<{table_name}>: Groupby 类尚未配置，数据为空')
             return pd.DataFrame({})
@@ -1056,7 +1103,6 @@ class GroupBy:
         df['毛利率'] = df.apply(lambda x: round((x['销售额'] - x['商品成本']) / x['销售额'], 4) if x['销售额'] > 0 else 0, axis=1)
         df['盈亏'] = df.apply(lambda x: x['商品毛利'] - x['花费'], axis=1)
         return df
     def performance_concat(self, bb_tg=True):
         tg,  zb, pxb = self.data_tgyj['天猫汇总表调用'], self.data_tgyj['天猫_超级直播'], self.data_tgyj['天猫_品销宝账户报表']
         zb.rename(columns={
@@ -1385,6 +1431,12 @@ def data_aggregation(service_databases=[{}], months=1):
                     '唯一主键': ['日期', '关键词', '访客数'],
                     '数据主体': sdq.tm_search(),
                 },
+                {
+                    '数据库名': '聚合数据',
+                    '集合名': '生意参谋_直播场次分析',
+                    '唯一主键': ['日期', '直播开播时间'],
+                    '数据主体': sdq.zb_ccfx(),
+                },
             ]
             for items in data_dict:  # 遍历返回结果
                 db_name, table_name, unique_key_list, df = items['数据库名'], items['集合名'], items['唯一主键'], items['数据主体']
@@ -1402,7 +1454,7 @@ def data_aggregation(service_databases=[{}], months=1):
                         service_database=service_database,
                     )
                     g.sp_index_datas = pd.DataFrame()  # 重置，不然下个循环会继续刷入数据库
-                # g.as_csv(df=df, filename=table_name + '.csv')  # 导出 csv
+                # # g.as_csv(df=df, filename=table_name + '.csv')  # 导出 csv
                 if '日期' in df.columns.tolist():
                     m.df_to_mysql(
                         df=df,
@@ -1483,7 +1535,7 @@ def main():
 if __name__ == '__main__':
-    data_aggregation(service_databases=[{'company': 'mysql'}], months=24)  # 正常的聚合所有数据
+    data_aggregation(service_databases=[{'company': 'mysql'}], months=1)  # 正常的聚合所有数据
     # data_aggregation_one(service_databases=[{'company': 'mysql'}], months=1)  # 单独聚合某一个数据库，具体库进函数编辑
     # optimize_data.op_data(service_databases=[{'company': 'mysql'}], days=3650)  # 立即启动对聚合数据的清理工作

{mdbq-1.9.1 → mdbq-1.9.2}/mdbq/clean/data_clean.py RENAMED Viewed

@@ -443,7 +443,26 @@ class DataClean:
                         if self.set_up_to_mysql:
                             m.df_to_mysql(df=df, db_name='生意参谋2', tabel_name='生意参谋_自助取数_店铺流量_月数据')
                         os.remove(os.path.join(root, name))
+                    elif name.endswith('.xlsx') and '直播分场次效果' in name:
+                        pattern = re.findall(r'(\d{4}-\d{2}-\d{2})_(\d{4}-\d{2}-\d{2})', name)
+                        if pattern:
+                            continue
+                        df = pd.read_excel(os.path.join(root, name), header=0)
+                        if len(df) == 0:
+                            print(f'{name} 报表数据为空')
+                            continue
+                        df.replace(to_replace=['--'], value='0', regex=False, inplace=True)
+                        df.replace(to_replace=[','], value='', regex=True, inplace=True)
+                        df['直播开播时间'] = pd.to_datetime(df['直播开播时间'], format='%Y-%m-%d %H:%M:%S', errors='ignore')
+                        df.insert(loc=0, column='日期', value=df['直播开播时间'])
+                        df['日期'] = df['日期'].apply(lambda x: pd.to_datetime(str(x).split(' ')[0], format='%Y-%m-%d', errors='ignore') if x else x)
+                        df.insert(loc=1, column='店铺', value='万里马官方旗舰店')
+                        min_clm = str(df.min()['直播开播时间']).split(' ')[0]
+                        max_clm = str(df.max()['直播开播时间']).split(' ')[0]
+                        new_name = f'{os.path.splitext(name)[0]}_{min_clm}_{max_clm}.csv'
+                        new_name = re.sub(r' ?(\(\d+\))', '',new_name)
+                        self.save_to_csv(df, root, new_name)  # mysql 可能改变 df 列名，所以在上传 mysql 前保存 csv
+                        os.remove(os.path.join(root, name))
                     elif name.endswith('.csv') and 'baobei' in name:
                         # 生意经宝贝指标日数据
                         # print(name)
@@ -1192,6 +1211,12 @@ class DataClean:
                 elif name.endswith('.csv') and '客户运营平台_客户列表' in name:
                     t_path = str(pathlib.Path(self.source_path, '生意参谋/客户运营平台'))
                     bib(t_path, _as_month=True)
+                elif name.endswith('.csv') and '直播分场次效果' in name:
+                    pattern = re.findall(r'(\d{4}-\d{2}-\d{2})_(\d{4}-\d{2}-\d{2})', name)
+                    if not pattern:
+                        continue
+                    t_path = str(pathlib.Path(self.source_path, '生意参谋/直播场次分析'))
+                    bib(t_path, _as_month=True)
                 #  京东分界线   ------- 开始标记
                 #  京东分界线
                 elif name.endswith('.csv') and '全部渠道_商品明细' in name:
@@ -1435,11 +1460,11 @@ def main():
     c.set_up_to_mysql = False
     c.new_unzip(is_move=True)  # 解压文件
     c.change_and_sort()
-    # c.move_all()  # 移到文件到原始文件夹
+    c.move_all()  # 移到文件到原始文件夹
     # c.attribute()  # 商品素材重命名和分类
 if __name__ == '__main__':
-    # main()
+    main()
     username, password, host, port = get_myconf.select_config_values(target_service='aliyun', database='mongodb')
     print(username, password, host, port)

{mdbq-1.9.1 → mdbq-1.9.2}/mdbq/mysql/mysql.py RENAMED Viewed

@@ -81,6 +81,9 @@ class MysqlUpload:
         else:
             print(f'{db_name}: {table_name} 传入的 df 不是有效的 dataframe 结构, {self.filename}')
             return
+        if not db_name or db_name == 'None':
+            print(f'{db_name} 不能为 None')
+            return
         cv = converter.DataFrameConverter()
         df = cv.convert_df_cols(df=df)  # 清理 dataframe 非法值

{mdbq-1.9.1 → mdbq-1.9.2}/mdbq.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: mdbq
-Version: 1.9.1
+Version: 1.9.2
 Home-page: https://pypi.org/project/mdbsql
 Author: xigua,
 Author-email: 2587125111@qq.com

{mdbq-1.9.1 → mdbq-1.9.2}/setup.py RENAMED Viewed

@@ -3,7 +3,7 @@
 from setuptools import setup, find_packages
 setup(name='mdbq',
-      version='1.9.1',
+      version='1.9.2',
       author='xigua, ',
       author_email="2587125111@qq.com",
       url='https://pypi.org/project/mdbsql',