PyPI - mdbq - Versions diffs - 2.6.9__tar.gz → 2.7.1__tar.gz - Mend

mdbq 2.6.9tar.gz → 2.7.1tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (54) hide show

{mdbq-2.6.9 → mdbq-2.7.1}/PKG-INFO RENAMED Viewed

@@ -1,7 +1,7 @@
 Metadata-Version: 2.1
 Name: mdbq
-Version: 2.6.9
-Home-page: https://pypi.org/project/mdbsql
+Version: 2.7.1
+Home-page: https://pypi.org/project/mdbq
 Author: xigua,
 Author-email: 2587125111@qq.com
 License: MIT

{mdbq-2.6.9 → mdbq-2.7.1}/mdbq/aggregation/aggregation.py RENAMED Viewed

@@ -1,5 +1,7 @@
 # -*- coding:utf-8 -*-
 import warnings
+from unittest.mock import inplace
 import pandas as pd
 import numpy as np
 import chardet
@@ -1288,29 +1290,40 @@ def file_dir(one_file=True, target_service='company'):
 def test():
-    path = '/Users/xigua/数据中心/原始文件2/京东报表/JD商品明细spu'
+    path = os.path.relpath(r'C:\Users\Administrator\Downloads\JD商品明细sku')
     for root, dirs, files in os.walk(path, topdown=False):
         for name in files:
             if name.endswith('.csv') and 'baidu' not in name and '~' not in name:
+                print(name)
+                # df = pd.read_excel(os.path.join(root, name), header=0)
                 df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=0, na_filter=False)
-                df['最近上架时间'].loc[0] = df['最近上架时间'].loc[1]
-                # print(df[['日期', '最近上架时间']])
+                cols = df.columns.tolist()
+                if '店铺名称' not in cols:
+                    df.insert(loc=1, column='店铺名称', value='京东箱包旗舰店')
+                if '曝光量' in cols:
+                    df.rename(columns={
+                        '曝光量': '搜索曝光量',
+                        '点击次数': '搜索点击次数',
+                        '点击率': '搜索点击率',
+                    }, inplace=True)
+                if '取消金额' in cols:
+                    df.rename(columns={
+                        '取消金额': '取消及售后退款金额',
+                        '取消商品件数': '取消及售后退款件数',
+                        '取消单量': '取消及售后退款单量',
+                    }, inplace=True)
+                if '取消及售后退款金额' not in cols:
+                    df['取消及售后退款金额'] = '0.0'
+                    df['取消及售后退款件数'] = 0
+                    df['取消及售后退款单量'] = 0
                 df.to_csv(os.path.join(root, name), encoding='utf-8_sig', index=False, header=True)
+                # new_name = f'{os.path.splitext(name)[0]}.xlsx'
+                # df.to_excel(os.path.join(root, name),
+                #             index=False, header=True, engine='openpyxl', freeze_panes=(1, 0))
         #         break
         # break
-def test2():
-    dp = DatabaseUpdate(path='/Users/xigua/Downloads')
-    dp.new_unzip(is_move=True)
-    dp.cleaning(is_move=False, )  # 清洗数据, 存入 self.datas
-    dp.upload_df(service_databases=[
-        # {'home_lx': 'mongodb'},
-        {'company': 'mysql'},
-        # {'nas': 'mysql'}
-    ], path=None, service_name=None)
 if __name__ == '__main__':
     username, password, host, port = get_myconf.select_config_values(target_service='nas', database='mysql')
     print(username, password, host, port)
@@ -1326,24 +1339,15 @@ if __name__ == '__main__':
     # )
     # 上传一个目录到指定数据库
-    db_name = '生意经2'
-    table_name = '省份城市分析'
+    db_name = '京东数据3'
+    table_name = '京东商智_spu_商品明细'
     upload_dir(
-        path='/Users/xigua/数据中心/原始文件2/生意经/地域分布',
+        path=os.path.relpath(r'C:\同步空间\BaiduSyncdisk\原始文件3\京东报表\京东商智_spu_商品明细'),
         db_name=db_name,
         collection_name=table_name,
         dbs={'mysql': True, 'mongodb': False},
-        target_service='company',
+        target_service='home_lx',
     )
-    # # 新版 数据分类
-    # dp = DatabaseUpdate(path='/Users/xigua/Downloads')
-    # dp.new_unzip(is_move=True)
-    # dp.cleaning(is_move=False)  # 清洗数据, 存入 self.datas, 不需要立即移除文件，仍保留文件到原始文件中
-    # # 将 self.datas 更新至数据库
-    # # dp.upload_df(service_databases=[
-    # #     # {'home_lx': 'mongodb'},
-    # #     {'company': 'mysql'},
-    # #     # {'nas': 'mysql'},
-    # # ])
+    # test()

{mdbq-2.6.9 → mdbq-2.7.1}/mdbq/clean/clean_upload.py RENAMED Viewed

@@ -145,6 +145,7 @@ class DataClean:
                     df = pd.read_excel(os.path.join(root, name), header=4)
                     if len(df) == 0:
                         print(f'{name} 报表数据不能为空')
+                        os.remove(os.path.join(root, name))
                         continue
                     df.replace(to_replace=['-'], value=0, regex=False, inplace=True)
                     df.replace(to_replace=[','], value='', regex=True, inplace=True)
@@ -159,6 +160,7 @@ class DataClean:
                     df = pd.read_excel(os.path.join(root, name), header=5, engine='xlrd')
                     if len(df) == 0:
                         print(f'{name} 报表数据不能为空')
+                        os.remove(os.path.join(root, name))
                         continue
                     df.replace(to_replace=['-'], value=0, regex=False, inplace=True)
                     df.replace(to_replace=[','], value='', regex=True, inplace=True)
@@ -255,6 +257,7 @@ class DataClean:
                     df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=0, na_filter=False)
                     if len(df) == 0:
                         print(f'{name} 报表数据为空')
+                        os.remove(os.path.join(root, name))
                         continue
                     new_name = f'py_xg_{os.path.splitext(name)[0]}.csv'
                     self.save_to_csv(df, root, new_name, encoding='utf-8_sig')
@@ -263,6 +266,7 @@ class DataClean:
                     df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=0, na_filter=False)
                     if len(df) == 0:
                         print(f'{name} 报表数据为空')
+                        os.remove(os.path.join(root, name))
                         continue
                     for col in df.columns.tolist():
                         if '(' in col or ')' in col:
@@ -563,6 +567,7 @@ class DataClean:
                     name_st = re.findall(r'([\u4e00-\u9fa5]+)\(分日', name)
                     if not name_st:
                         print(f'{name}  正则提取文件名失败')
+                        os.remove(os.path.join(root, name))
                         continue
                     encoding = self.get_encoding(file_path=os.path.join(root, name))
                     df = pd.read_csv(os.path.join(root, name), encoding=encoding, header=0, na_filter=False)
@@ -802,8 +807,9 @@ class DataClean:
                 if not is_continue:
                     continue
-                if name.endswith('.xlsx') and '京东推广_' in name:
-                    df = pd.read_excel(os.path.join(root, name), header=0, engine='openpyxl')
+                if name.endswith('.csv') and '京东推广_' in name:
+                    # df = pd.read_excel(os.path.join(root, name), header=0, engine='openpyxl')
+                    df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=0, na_filter=False)
                     new_name = f'py_xg_{name}'
                     os.rename(os.path.join(root, name), os.path.join(root, new_name))
                 elif name.endswith('.xlsx') and '京东商智_sku_商品明细' in name:
@@ -813,9 +819,10 @@ class DataClean:
                     df.insert(loc=0, column='日期', value=pattern)
                     df.insert(loc=1, column='店铺名称', value='京东箱包旗舰店')
                     df.fillna(0, inplace=True)
-                    new_name = f'py_xg_{name}'
-                    df.to_excel(os.path.join(upload_path, new_name),
-                                index=False, header=True, engine='openpyxl', freeze_panes=(1, 0))
+                    new_name = f'py_xg_{os.path.splitext(name)[0]}.csv'
+                    df.to_csv(os.path.join(root, new_name), encoding='utf-8_sig', index=False, header=True)
+                    # df.to_excel(os.path.join(upload_path, new_name),
+                    #             index=False, header=True, engine='openpyxl', freeze_panes=(1, 0))
                     os.remove(os.path.join(root, name))
                 elif name.endswith('.xlsx') and '京东商智_spu_商品明细' in name:
                     df = pd.read_excel(os.path.join(root, name), header=0, engine='openpyxl')
@@ -824,9 +831,10 @@ class DataClean:
                     df.insert(loc=0, column='日期', value=pattern)
                     df.insert(loc=1, column='店铺名称', value='京东箱包旗舰店')
                     df.fillna(0, inplace=True)
-                    new_name = f'py_xg_{name}'
-                    df.to_excel(os.path.join(upload_path, new_name),
-                                index=False, header=True, engine='openpyxl', freeze_panes=(1, 0))
+                    new_name = f'py_xg_{os.path.splitext(name)[0]}.csv'
+                    df.to_csv(os.path.join(root, new_name), encoding='utf-8_sig', index=False, header=True)
+                    # df.to_excel(os.path.join(upload_path, new_name),
+                    #             index=False, header=True, engine='openpyxl', freeze_panes=(1, 0))
                     os.remove(os.path.join(root, name))
                 elif name.endswith('.xlsx') and '京东商智_店铺来源_三级来源' in name:
                     df = pd.read_excel(os.path.join(root, name), header=0, engine='openpyxl')
@@ -836,9 +844,10 @@ class DataClean:
                         if '环比' in col or '同比' in col:
                             df.drop(col, axis=1, inplace=True)
                     df.fillna(0, inplace=True)
-                    new_name = f'py_xg_{name}'
-                    df.to_excel(os.path.join(upload_path, new_name),
-                                index=False, header=True, engine='openpyxl', freeze_panes=(1, 0))
+                    new_name = f'py_xg_{os.path.splitext(name)[0]}.csv'
+                    df.to_csv(os.path.join(root, new_name), encoding='utf-8_sig', index=False, header=True)
+                    # df.to_excel(os.path.join(upload_path, new_name),
+                    #             index=False, header=True, engine='openpyxl', freeze_panes=(1, 0))
                     os.remove(os.path.join(root, name))
                 # 将数据传入 self.datas 等待更新进数据库
@@ -1119,10 +1128,10 @@ class DataClean:
                     continue
                 if name.endswith('.xlsx') and '京东商智_spu_商品明细' in name:
-                    t_path = os.path.join(self.source_path, '京东报表', 'spu_商品明细')
+                    t_path = os.path.join(self.source_path, '京东报表', '京东商智_spu_商品明细')
                     bib(t_path, _as_month=True)
                 elif name.endswith('.xlsx') and '京东商智_sku_商品明细' in name:
-                    t_path = os.path.join(self.source_path, '京东报表', 'sku_商品明细')
+                    t_path = os.path.join(self.source_path, '京东报表', '京东商智_sku_商品明细')
                     bib(t_path, _as_month=True)
                 elif name.endswith('.xlsx') and '京东推广_搜索词' in name:
                     t_path = os.path.join(self.source_path, '京东报表', '搜索词报表')
@@ -1646,8 +1655,8 @@ def main(service_databases=None, is_mysql=False):
 if __name__ == '__main__':
     main(
         service_databases = [
-            {'company': 'mysql'},
-            # {'home_lx': 'mysql'},
+            # {'company': 'mysql'},
+            {'home_lx': 'mysql'},
             # {'home_lx': 'mongodb'},
             # {'nas': 'mysql'},
         ],

{mdbq-2.6.9 → mdbq-2.7.1}/mdbq.egg-info/PKG-INFO RENAMED Viewed

@@ -1,7 +1,7 @@
 Metadata-Version: 2.1
 Name: mdbq
-Version: 2.6.9
-Home-page: https://pypi.org/project/mdbsql
+Version: 2.7.1
+Home-page: https://pypi.org/project/mdbq
 Author: xigua,
 Author-email: 2587125111@qq.com
 License: MIT

{mdbq-2.6.9 → mdbq-2.7.1}/setup.py RENAMED Viewed

@@ -3,10 +3,10 @@
 from setuptools import setup, find_packages
 setup(name='mdbq',
-      version='2.6.9',
+      version='2.7.1',
       author='xigua, ',
       author_email="2587125111@qq.com",
-      url='https://pypi.org/project/mdbsql',
+      url='https://pypi.org/project/mdbq',
       long_description='''
       世界上最庄严的问题：我能做什么好事？
       ''',