PyPI - mdbq - Versions diffs - 1.9.0__py3-none-any.whl → 1.9.2__py3-none-any.whl - Mend

mdbq 1.9.0py3-none-any.whl → 1.9.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (8) hide show

mdbq/aggregation/aggregation.py +35 -9
mdbq/aggregation/query_data.py +55 -3
mdbq/clean/data_clean.py +903 -873
mdbq/mysql/mysql.py +3 -0
{mdbq-1.9.0.dist-info → mdbq-1.9.2.dist-info}/METADATA +1 -1
{mdbq-1.9.0.dist-info → mdbq-1.9.2.dist-info}/RECORD +8 -8
{mdbq-1.9.0.dist-info → mdbq-1.9.2.dist-info}/WHEEL +0 -0
{mdbq-1.9.0.dist-info → mdbq-1.9.2.dist-info}/top_level.txt +0 -0

mdbq/aggregation/aggregation.py CHANGED Viewed

@@ -61,7 +61,6 @@ class DatabaseUpdate:
             for name in files:
                 if '~$' in name or '.DS' in name or '.localized' in name or '.ini' in name or '$RECYCLE.BIN' in name or 'Icon' in name:
                     continue
                 db_name = None  # 初始化/重置变量，避免进入下一个循环
                 collection_name = None
                 for data in datas:  # 根据标题对照表适配 db_name 和 collection_name
@@ -189,6 +188,22 @@ class DatabaseUpdate:
                             collection_name='店铺来源_日数据_旧版'
                 elif name.endswith('.csv') and '客户运营平台_客户列表' in name:
                     df = pd.read_csv(os.path.join(root, name), encoding=encoding, header=0, na_filter=False)
+                elif name.endswith('.xlsx') and '直播分场次效果' in name:
+                    pattern = re.findall(r'(\d{4}-\d{2}-\d{2})_(\d{4}-\d{2}-\d{2})', name)
+                    if pattern:
+                        continue
+                    df = pd.read_excel(os.path.join(root, name), header=0)
+                    if len(df) == 0:
+                        print(f'{name} 报表数据为空')
+                        continue
+                    df.replace(to_replace=['--'], value='', regex=False, inplace=True)
+                    df.replace(to_replace=[','], value='', regex=True, inplace=True)
+                    df['直播开播时间'] = pd.to_datetime(df['直播开播时间'], format='%Y-%m-%d %H:%M:%S', errors='ignore')
+                    df.insert(loc=0, column='日期', value=df['直播开播时间'])
+                    df['日期'] = df['日期'].apply(
+                        lambda x: pd.to_datetime(str(x).split(' ')[0], format='%Y-%m-%d', errors='ignore') if x else x)
+                    df.insert(loc=1, column='店铺', value='万里马官方旗舰店')
                 elif name.endswith('.xls') and '生意参谋' in name and '无线店铺三级流量来源详情' in name:
                     # 店铺来源，手淘搜索，关键词
                     pattern = re.findall(r'(\d{4}-\d{2}-\d{2})_(\d{4}-\d{2}-\d{2})', name)
@@ -1115,12 +1130,23 @@ if __name__ == '__main__':
     #     database='mysql'
     # )
-    db_name = '生意经2'
-    table_name = '省份城市分析'
-    upload_dir(
-        path='/Users/xigua/数据中心/原始文件2/生意经/地域分布',
-        db_name=db_name,
-        collection_name=table_name,
-        dbs={'mysql': True, 'mongodb': False},
-    )
+    # db_name = '生意经2'
+    # table_name = '省份城市分析'
+    # upload_dir(
+    #     path='/Users/xigua/数据中心/原始文件2/生意经/地域分布',
+    #     db_name=db_name,
+    #     collection_name=table_name,
+    #     dbs={'mysql': True, 'mongodb': False},
+    # )
+    #
+    # 新版 数据分类
+    dp = DatabaseUpdate(path='/Users/xigua/Downloads')
+    dp.new_unzip(is_move=True)
+    dp.cleaning(is_move=False)  # 清洗数据, 存入 self.datas, 不需要立即移除文件，仍保留文件到原始文件中
+    # 将 self.datas 更新至数据库
+    dp.upload_df(service_databases=[
+        # {'home_lx': 'mongodb'},
+        {'company': 'mysql'},
+        # {'nas': 'mysql'},
+    ])

mdbq/aggregation/query_data.py CHANGED Viewed

@@ -454,6 +454,50 @@ class MysqlDatasQuery:
         )
         return df
+    def zb_ccfx(self):
+        start_date, end_date = self.months_data(num=self.months)
+        projection = {
+            '日期': 1,
+            '店铺': 1,
+            '场次信息': 1,
+            '场次id': 1,
+            '直播开播时间': 1,
+            '开播时长': 1,
+            '封面图点击率': 1,
+            '观看人数': 1,
+            '观看次数': 1,
+            '新增粉丝数': 1,
+            '流量券消耗': 1,
+            '观看总时长（秒）': 1,
+            '人均观看时长（秒）': 1,
+            '次均观看时长（秒）': 1,
+            '商品点击人数': 1,
+            '商品点击次数': 1,
+            '商品点击率': 1,
+            '加购人数': 1,
+            '加购件数': 1,
+            '加购次数': 1,
+            '成交金额（元）': 1,
+            '成交人数': 1,
+            '成交件数': 1,
+            '成交笔数': 1,
+            '成交转化率': 1,
+            '退款人数': 1,
+            '退款笔数': 1,
+            '退款件数': 1,
+            '退款金额（元）': 1,
+            '预售定金支付金额（元）': 1,
+            '预售预估总金额（元）': 1,
+        }
+        df = self.download.data_to_df(
+            db_name='生意参谋2',
+            table_name='直播场次分析',
+            start_date=start_date,
+            end_date=end_date,
+            projection=projection,
+        )
+        return df
 class GroupBy:
     """
     数据聚合和导出
@@ -1016,6 +1060,9 @@ class GroupBy:
                 }
             )
             return df
+        elif '直播场次分析' in table_name:
+            df.drop_duplicates(subset=['日期', '直播开播时间', '观看人数'], keep='first', inplace=True, ignore_index=True)
+            return df
         else:
             print(f'<{table_name}>: Groupby 类尚未配置，数据为空')
             return pd.DataFrame({})
@@ -1056,7 +1103,6 @@ class GroupBy:
         df['毛利率'] = df.apply(lambda x: round((x['销售额'] - x['商品成本']) / x['销售额'], 4) if x['销售额'] > 0 else 0, axis=1)
         df['盈亏'] = df.apply(lambda x: x['商品毛利'] - x['花费'], axis=1)
         return df
     def performance_concat(self, bb_tg=True):
         tg,  zb, pxb = self.data_tgyj['天猫汇总表调用'], self.data_tgyj['天猫_超级直播'], self.data_tgyj['天猫_品销宝账户报表']
         zb.rename(columns={
@@ -1385,6 +1431,12 @@ def data_aggregation(service_databases=[{}], months=1):
                     '唯一主键': ['日期', '关键词', '访客数'],
                     '数据主体': sdq.tm_search(),
                 },
+                {
+                    '数据库名': '聚合数据',
+                    '集合名': '生意参谋_直播场次分析',
+                    '唯一主键': ['日期', '直播开播时间'],
+                    '数据主体': sdq.zb_ccfx(),
+                },
             ]
             for items in data_dict:  # 遍历返回结果
                 db_name, table_name, unique_key_list, df = items['数据库名'], items['集合名'], items['唯一主键'], items['数据主体']
@@ -1402,7 +1454,7 @@ def data_aggregation(service_databases=[{}], months=1):
                         service_database=service_database,
                     )
                     g.sp_index_datas = pd.DataFrame()  # 重置，不然下个循环会继续刷入数据库
-                # g.as_csv(df=df, filename=table_name + '.csv')  # 导出 csv
+                # # g.as_csv(df=df, filename=table_name + '.csv')  # 导出 csv
                 if '日期' in df.columns.tolist():
                     m.df_to_mysql(
                         df=df,
@@ -1483,7 +1535,7 @@ def main():
 if __name__ == '__main__':
-    data_aggregation(service_databases=[{'company': 'mysql'}], months=24)  # 正常的聚合所有数据
+    data_aggregation(service_databases=[{'company': 'mysql'}], months=1)  # 正常的聚合所有数据
     # data_aggregation_one(service_databases=[{'company': 'mysql'}], months=1)  # 单独聚合某一个数据库，具体库进函数编辑
     # optimize_data.op_data(service_databases=[{'company': 'mysql'}], days=3650)  # 立即启动对聚合数据的清理工作

mdbq 1.9.0__py3-none-any.whl → 1.9.2__py3-none-any.whl

mdbq 1.9.0py3-none-any.whl → 1.9.2py3-none-any.whl