PyPI - mdbq - Versions diffs - 2.9.6__py3-none-any.whl → 2.9.8__py3-none-any.whl - Mend

mdbq 2.9.6py3-none-any.whl → 2.9.8py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (11) hide show

mdbq/aggregation/aggregation.py +34 -46
mdbq/aggregation/query_data.py +1287 -1176
mdbq/aggregation/query_data_bak.py +2423 -0
mdbq/dataframe/converter.py +3 -3
mdbq/mysql/mysql.py +60 -54
mdbq/mysql/s_query.py +1 -0
mdbq/spider/aikucun.py +41 -0
{mdbq-2.9.6.dist-info → mdbq-2.9.8.dist-info}/METADATA +1 -1
{mdbq-2.9.6.dist-info → mdbq-2.9.8.dist-info}/RECORD +11 -10
{mdbq-2.9.6.dist-info → mdbq-2.9.8.dist-info}/WHEEL +1 -1
{mdbq-2.9.6.dist-info → mdbq-2.9.8.dist-info}/top_level.txt +0 -0

mdbq/aggregation/aggregation.py CHANGED Viewed

@@ -1150,51 +1150,39 @@ def upload_dir(path, db_name, collection_name, json_path=None):
                 df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=0, na_filter=False)
             if name.endswith('.xlsx'):
                 df = pd.read_excel(os.path.join(root, name), sheet_name=0, header=0, engine='openpyxl')
-            try:
-                if len(df) == 0:
-                    continue
-                # if '新版' not in name:
-                #     continue
-                cv = converter.DataFrameConverter()
-                df = cv.convert_df_cols(df=df)  # 清理列名和 df 中的非法字符
-                try:
-                    df = df.astype(dtypes)  # 按本地文件更新 df 的数据类型, 可能因为字段不同产生异常
-                except Exception as e:
-                    print(name, e)
-                    # 如果发生异常，这将 df 的数据和 json 中的数据取交集
-                    old_dt = df.dtypes.apply(str).to_dict()  # 将 dataframe 数据类型转为字典形式
-                    intersection_keys = dtypes.keys() & old_dt.keys()  # 获取两个字典键的交集
-                    dtypes = {k: dtypes[k] for k in intersection_keys}  # 使用交集的键创建新字典
-                    df = df.astype(dtypes)  # 再次更新 df 的数据类型
-                df.fillna(0, inplace=True)
-                # for col in df.columns.tolist():
-                #     df[col] = df[col].apply(lambda x: 0 if str(x) == '' else x)
-                # print(f'{i}/{count}')
-                # sql_engine = create_engine(
-                #     f"mysql+pymysql://{username}:{password}@{host}:{port}/{db_name}")  # 创建数据库引擎
-                # df.to_sql(
-                #     name=collection_name,
-                #     con=sql_engine,
-                #     if_exists='append',
-                #     index=False,
-                #     chunksize=1000
-                # )
+            # try:
+            if len(df) == 0:
+                continue
+            # if '新版' not in name:
+            #     continue
+            # cv = converter.DataFrameConverter()
+            # df = cv.convert_df_cols(df=df)  # 清理列名和 df 中的非法字符
+            # try:
+            #     df = df.astype(dtypes)  # 按本地文件更新 df 的数据类型, 可能因为字段不同产生异常
+            # except Exception as e:
+            #     print(name, e)
+            #     # 如果发生异常，这将 df 的数据和 json 中的数据取交集
+            #     old_dt = df.dtypes.apply(str).to_dict()  # 将 dataframe 数据类型转为字典形式
+            #     intersection_keys = dtypes.keys() & old_dt.keys()  # 获取两个字典键的交集
+            #     dtypes = {k: dtypes[k] for k in intersection_keys}  # 使用交集的键创建新字典
+            #     df = df.astype(dtypes)  # 再次更新 df 的数据类型
+            df.fillna(0, inplace=True)
+            for col in df.columns.tolist():
+                df[col] = df[col].apply(lambda x: 0 if str(x) == '' else x)
+            # if '更新时间' not in df.columns.tolist():
+            #     df['更新时间'] = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')
+            #
+            m.df_to_mysql(df=df, db_name=db_name, table_name=collection_name,
+                          move_insert=False,  # 先删除，再插入
+                          df_sql = True,
+                          drop_duplicates=False,
+                          count=f'{i}/{count}',
+                          filename=name,
+                          )
+            # nas.df_to_mysql(df=df, db_name=db_name, table_name=collection_name, drop_duplicates=True,)
-                #
-                m.df_to_mysql(df=df, db_name=db_name, table_name=collection_name,
-                              move_insert=False,  # 先删除，再插入
-                              df_sql = True,
-                              drop_duplicates=False,
-                              count=f'{i}/{count}',
-                              filename=name,
-                              )
-                # nas.df_to_mysql(df=df, db_name=db_name, table_name=collection_name, drop_duplicates=True,)
-            except Exception as e:
-                print(name, e)
             i += 1
@@ -1282,13 +1270,13 @@ if __name__ == '__main__':
     # )
     # test()
-    col = 0
+    col = 1
     if col:
         # 上传一个目录到指定数据库
-        db_name = '生意参谋3'
-        table_name = '店铺流量来源构成'
+        db_name = '京东数据3'
+        table_name = '推广数据_全站营销'
         upload_dir(
-            path=r'/Users/xigua/数据中心/原始文件3/生意参谋/店铺流量来源',
+            path=r'/Users/xigua/数据中心/原始文件3/京东报表/京准通_全站营销',
             db_name=db_name,
             collection_name=table_name,
         )

mdbq 2.9.6__py3-none-any.whl → 2.9.8__py3-none-any.whl

mdbq 2.9.6py3-none-any.whl → 2.9.8py3-none-any.whl