PyPI - mdbq - Versions diffs - 1.1.1__tar.gz → 1.1.3__tar.gz - Mend

mdbq 1.1.1tar.gz → 1.1.3tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (47) hide show

{mdbq-1.1.1 → mdbq-1.1.3}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: mdbq
-Version: 1.1.1
+Version: 1.1.3
 Home-page: https://pypi.org/project/mdbsql
 Author: xigua,
 Author-email: 2587125111@qq.com

{mdbq-1.1.1 → mdbq-1.1.3}/mdbq/aggregation/aggregation.py RENAMED Viewed

@@ -23,6 +23,21 @@ import getpass
 warnings.filterwarnings('ignore')
 """
+建表规范:
+1. 先建 json 表，再批量上传数据;（非常重要）
+    在初创数据表时, 如果有不同类报表，新版和旧版都要取一个文件，先创建数据表，再导其他数据;
+    例如有的报表转化率是0%，数据类型会被识别为2位小数: decimal(10, 2)，正常值应类似 0.43%，应保留4个小数, 创建类型为 decimal(10, 4)
+    为了避免以上可能数据类型错误的情况，初创时要先检查一遍数据类型，确认没问题再导其他数据！
+    即导一个表，然后删除数据库，但保留 mysql_types.json，并检查表的数据类型（有问题就手动改 json 文件），之后会按 json 的 types 上传数据;
+2. 数据库和数据表名如果有字母，必须使用小写，大写在建库后会自动变小写，再次上传数据会找不到数据库(macos和linux都有这种情况)
+3. 无论是数据库/表/列名还是值，尽量避免特殊字符或者表情符号，数据库/表/列名尽量都使用 `列名` 转义，避免错误
+4. 小数必须使用 decimal, 禁止 float 和 double, 因为计算精度差异，后续需要聚合数据时会引发很多问题
+5. 日期类型暂时全部用 DATETIME，使用 DATE 在后续可能会重复插入不能排重，因为 df 进来的数据, 日期是带时间的，而数据库中日期不含时间
+6. 目前小数自动适配类型转换，对于文本或者大数全部用 mediumtext, 因为部分表涉及爬虫数据，进来的字符长度未知，暂时统一 mediumtext 避免入库失败
 1. DatabaseUpdate: 程序用于对爬虫下载的原始数据进行清洗并入库;
     数据清洗主要包括对字段名的非法字符处理，对 df 中的非法值进行预处理;
     数据入库时会较检并更新本地 json 文件的 dtypes 信息;
@@ -91,8 +106,8 @@ class DatabaseUpdate:
                         # df.replace(to_replace=['\\N'], value=0, regex=False, inplace=True)  # 替换掉特殊字符
                         # df.replace(to_replace=[''], value=0, regex=False, inplace=True)
                         # df.fillna(0, inplace=True)
-                        db_name = '天猫数据2'
-                        collection_name = f'推广数据_{tg_name}'
+                        db_name = '推广数据2'
+                        collection_name = f'{tg_name}'
                 if name.endswith('.csv') and '超级直播' in name:
                     # 超级直播
                     df = pd.read_csv(os.path.join(root, name), encoding=encoding, header=0, na_filter=False)
@@ -109,8 +124,8 @@ class DatabaseUpdate:
                         shop_name = ''
                     # df.replace(to_replace=['\\N'], value=0, regex=False, inplace=True)  # 替换掉特殊字符
                     # df.replace(to_replace=[''], value=0, regex=False, inplace=True)
-                    db_name = '天猫数据2'
-                    collection_name = '推广数据_超级直播'
+                    db_name = '推广数据2'
+                    collection_name = '超级直播'
                 elif name.endswith('.xls') and '短直联投' in name:
                     # 短直联投
                     df = pd.read_excel(os.path.join(root, name), sheet_name=None, header=0)
@@ -119,8 +134,8 @@ class DatabaseUpdate:
                         print(f'{name} 报表数据为空')
                         continue
                     # df.replace(to_replace=[''], value=0, regex=False, inplace=True)
-                    db_name = '天猫数据2'
-                    collection_name = '推广数据_短直联投'
+                    db_name = '推广数据2'
+                    collection_name = '短直联投'
                 elif name.endswith('.xls') and '视频加速推广' in name:
                     # 超级短视频
                     df = pd.read_excel(os.path.join(root, name), sheet_name=None, header=0)
@@ -129,15 +144,15 @@ class DatabaseUpdate:
                         print(f'{name} 报表数据为空')
                         continue
                     # df.replace(to_replace=[''], value=0, regex=False, inplace=True)
-                    db_name = '天猫数据2'
-                    collection_name = '推广数据_超级短视频'
+                    db_name = '推广数据2'
+                    collection_name = '超级短视频'
                 if '人群报表汇总' in name:
                     df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=1, na_filter=False)
                     if len(df) == 0:
                         print(f'{name} 报表数据为空')
                         continue
-                    db_name = '天猫数据2'
-                    collection_name = '天猫_达摩盘_DMP报表'
+                    db_name = '推广数据2'
+                    collection_name = '达摩盘_dmp报表'
                 # ----------------- 推广报表 分割线 -----------------
                 # ----------------- 推广报表 分割线 -----------------
                 date01 = re.findall(r'(\d{4}-\d{2}-\d{2})_\d{4}-\d{2}-\d{2}', str(name))
@@ -162,7 +177,7 @@ class DatabaseUpdate:
                         else '智能场景' if x == '智能场景(原万相台)'
                         else x
                     )
-                    db_name = '生意参谋数据2'
+                    db_name = '生意参谋2'
                     if '经营优势' in df['一级来源'].tolist():  # 新版流量
                         if '数据周期' in df.columns.tolist():
                             collection_name='店铺来源_月数据_新版'
@@ -185,7 +200,7 @@ class DatabaseUpdate:
                     if date01[0] != date02[0]:
                         data_lis = date01[0] + '_' + date02[0]
                         df.insert(loc=1, column='数据周期', value=data_lis)
-                    db_name = '生意参谋数据2'
+                    db_name = '生意参谋2'
                     collection_name = '商品排行'
                 elif name.endswith('.xls') and '参谋店铺整体日报' in name:
                     # 自助取数，店铺日报
@@ -194,7 +209,7 @@ class DatabaseUpdate:
                         print(f'{name} 报表数据为空')
                         continue
                     df.rename(columns={'统计日期': '日期'}, inplace=True)
-                    db_name = '生意参谋数据2'
+                    db_name = '生意参谋2'
                     collection_name = '自助取数_整体日报'
                 elif name.endswith('.xls') and '参谋每日流量_自助取数_新版' in name:
                     # 自助取数，每日流量
@@ -213,7 +228,7 @@ class DatabaseUpdate:
                         else '智能场景' if x == '智能场景(原万相台)'
                         else x
                     )
-                    db_name = '生意参谋数据2'
+                    db_name = '生意参谋2'
                     collection_name = '自助取数_每日流量'
                 elif name.endswith('.xls') and '商品sku' in name:
                     # 自助取数，商品sku
@@ -227,7 +242,7 @@ class DatabaseUpdate:
                         'SKU ID': 'sku id',
                         '商品SKU': '商品sku',
                     }, inplace=True)
-                    db_name = '生意参谋数据2'
+                    db_name = '生意参谋2'
                     collection_name = '自助取数_商品sku'
                 elif name.endswith('.xls') and '参谋店铺流量来源（月）' in name:
                     # 自助取数，月店铺流量来源
@@ -247,7 +262,7 @@ class DatabaseUpdate:
                         else x
                     )
                     df['日期'] = df['数据周期'].apply(lambda x: re.findall('(.*) ~', x)[0])
-                    db_name = '生意参谋数据2'
+                    db_name = '生意参谋2'
                     collection_name = '自助取数_店铺流量_月数据'
                 elif name.endswith('.csv') and 'baobei' in name:
                     # 生意经宝贝指标日数据
@@ -340,7 +355,7 @@ class DatabaseUpdate:
                         continue
                     df.rename(columns={'场次ID': '场次id', '商品ID': '商品id'}, inplace=True)
                     df['日期'] = df['支付时间'].apply(lambda x: x.strftime('%Y-%m-%d'))
-                    db_name = '生意参谋数据2'
+                    db_name = '生意参谋2'
                     collection_name = '直播间成交订单明细'
                 elif name.endswith('.xlsx') and '直播间大盘数据' in name:
                     # 直播间大盘数据
@@ -349,7 +364,7 @@ class DatabaseUpdate:
                         print(f'{name} 报表数据为空')
                         continue
                     df.rename(columns={'统计日期': '日期'}, inplace=True)
-                    db_name = '生意参谋数据2'
+                    db_name = '生意参谋2'
                     collection_name = '直播间大盘数据'
                 elif name.endswith('.xls') and '直播业绩-成交拆解' in name:
                     # 直播业绩-成交拆解
@@ -358,7 +373,7 @@ class DatabaseUpdate:
                         print(f'{name} 报表数据为空')
                         continue
                     df.rename(columns={'统计日期': '日期'}, inplace=True)
-                    db_name = '生意参谋数据2'
+                    db_name = '生意参谋2'
                     collection_name = '直播业绩'
                 elif name.endswith('.csv') and '淘宝店铺数据' in name:
                     df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=0, na_filter=False)
@@ -370,11 +385,11 @@ class DatabaseUpdate:
                     df = df[df['人群规模'] != '']
                     if len(df) == 0:
                         continue
-                    db_name = '天猫数据2'
+                    db_name = '推广数据2'
                     collection_name = '万相台_人群洞察'
                 elif name.endswith('.csv') and '客户_客户概况_画像' in name:
                     df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=0, na_filter=False)
-                    db_name = '生意参谋数据2'
+                    db_name = '生意参谋2'
                     collection_name = '客户_客户概况_画像'
                 elif name.endswith('.csv') and '市场排行_店铺' in name:
                     df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=0, na_filter=False)
@@ -556,7 +571,7 @@ class DatabaseUpdate:
                         continue
                     df = df[df['缩略图'] != '合计']
                     db_name = '生意经2'
-                    collection_name = 'E3_零售明细统计'
+                    collection_name = 'e3_零售明细统计'
                 # 商品素材，必须保持放在最后处理
                 elif name.endswith('xlsx'):
@@ -615,8 +630,8 @@ class DatabaseUpdate:
                             # print(f'{name}/{sheet4} 跳过')
                             continue
                         df.insert(loc=1, column='报表类型', value=sheet4)
-                        db_name = '天猫数据2'
-                        collection_name = f'推广数据_品销宝_{sheet4}'
+                        db_name = '推广数据2'
+                        collection_name = f'品销宝_{sheet4}'
                         self.datas.append(
                             {
                                 '数据库名': db_name,
@@ -834,7 +849,7 @@ class DatabaseUpdate:
         return df
-def upload(path, db_name, collection_name):
+def upload(path, db_name, collection_name, one_file=False):
     """ 上传一个文件夹到数据库 """
     username, password, host, port = get_myconf.select_config_values(
         target_service='home_lx',
@@ -874,12 +889,16 @@ def upload(path, db_name, collection_name):
         collection_name=collection_name,
     )
     # print(dtypes)
+    count = 0
+    for root, dirs, files in os.walk(path, topdown=False):
+        for name in files:
+            count += 1
+    i = 0  # 用来统计当前处理文件进度
     for root, dirs, files in os.walk(path, topdown=False):
         for name in files:
             if '~$' in name or '.DS' in name or '.localized' in name or 'baidu' in name:
                 continue
             if name.endswith('.csv'):
-                # print(name)
                 try:
                     df = pd.read_csv(os.path.join(root, name), encoding='utf-8_sig', header=0, na_filter=False)
                     if len(df) == 0:
@@ -896,14 +915,45 @@ def upload(path, db_name, collection_name):
                         df = df.astype(dtypes)
                     # d.df_to_mongo(df=df, db_name=db_name, collection_name=collection_name)
-                    m.df_to_mysql(df=df, db_name=db_name, table_name=collection_name)
+                    m.df_to_mysql(df=df, db_name=db_name, table_name=collection_name, filename=name, count=f'{i}/{count}')
                     # nas.df_to_mysql(df=df, db_name=db_name, table_name=collection_name)
                 except Exception as e:
                     print(name, e)
+            i += 1
+            if one_file:  # 给 file_dir 函数调用
+                break  # 每个文件夹只上传一个文件
     if d.client:
         d.client.close()  # 必须手动关闭数据库连接
+def file_dir():
+    """
+    按照文件记录对照表
+    批量上传数据库
+    """
+    filename = '文件目录对照表.csv'
+    if platform.system() == 'Windows':
+        path = 'C:\\同步空间\\BaiduSyncdisk\\原始文件2'
+    else:
+        path = '/Users/xigua/数据中心/原始文件2'
+    df = pd.read_csv(os.path.join(path, filename), encoding='utf-8_sig', header=0, na_filter=False)
+    datas = df.to_dict('records')  # 转字典
+    for data in datas:
+        # print(data)
+        if data['入库进度'] == 0:
+            sub_path, db_name, collection_name = data['子文件夹'], data['数据库名'], data['数据表']
+            # print(os.path.join(path, sub_path), db_name, collection_name)
+            upload(
+                path=dir_path,
+                db_name=db_name,
+                collection_name=collection_name,
+                one_file=True
+            )
+            data.update({'入库进度': 1})  # 更新进度
+    df = pd.DataFrame.from_dict(datas, orient='columns')
+    df.to_csv(os.path.join(path, filename), encoding='utf-8_sig', index=False, header=True)
 def main():
     d = DatabaseUpdate(path='/Users/xigua/Downloads')
     d.new_unzip(is_move=True)
@@ -919,8 +969,9 @@ def main():
 if __name__ == '__main__':
     # username, password, host, port = get_myconf.select_config_values(target_service='nas', database='mysql')
     # print(username, password, host, port)
-    upload(
-        path='/Users/xigua/数据中心/原始文件2/属性设置/商品素材',
-        db_name = '属性设置2',
-        collection_name = '商品素材导出',
-    )
+    # upload(
+    #     path='/Users/xigua/数据中心/原始文件2/生意经/E3零售明细统计',
+    #     db_name = '生意经2',
+    #     collection_name = 'e3_零售明细统计',
+    # )
+    file_dir()

{mdbq-1.1.1 → mdbq-1.1.3}/mdbq/aggregation/df_types.py RENAMED Viewed

@@ -80,7 +80,7 @@ class DataTypes:
             self.datas.update(dtypes)
             return self.datas[db_name][collection_name]
         else:  # 存在则读取，并更新 df 的 dtypes
-            if db_name in list(self.datas.keys()):  # ['京东数据2', '天猫数据2', '生意参谋数据2', '生意经2']
+            if db_name in list(self.datas.keys()):  # ['京东数据2', '推广数据2', '生意参谋2', '生意经2']
                 if collection_name in list(self.datas[db_name].keys()):
                     if is_file_dtype:  # 旧数据优先
                         # # 用 dtypes 更新, 允许手动指定 json 文件里面的数据类型

{mdbq-1.1.1 → mdbq-1.1.3}/mdbq/aggregation/mysql_types.py RENAMED Viewed

@@ -67,7 +67,7 @@ class DataTypes:
     def get_mysql_types(self, cl, dtypes, db_name, table_name, is_file_dtype=True):
         """ 更新 mysql 的 types 信息到 json 文件 """
         if cl in self.datas.keys():
-            if db_name in list(self.datas[cl].keys()):  # ['京东数据2', '天猫数据2', '生意参谋数据2', '生意经2']
+            if db_name in list(self.datas[cl].keys()):  # ['京东数据2', '推广数据2', '生意参谋2', '生意经2']
                 if table_name in list(self.datas[cl][db_name].keys()):
                     if is_file_dtype:  # 旧数据优先
                         # # 用 dtypes 更新, 允许手动指定 json 文件里面的数据类型
@@ -178,14 +178,14 @@ def mysql_all_dtypes(db_name=None, table_name=None, path=None):
     # db_name_lists = [
     #     '京东数据2',
-    #     '天猫数据2',
+    #     '推广数据2',
     #     '市场数据2',
-    #     '生意参谋数据2',
+    #     '生意参谋2',
     #     '生意经2',
     #     '属性设置2',
     #     '聚合数据',
     # ]
-    results = []
+    results = []  # 返回结果示例: [{'云电影': '电影更新'}, {'生意经2': 'e3_零售明细统计'}]
     for db_ in db_name_lists:
         config.update({'database': db_})  # 添加更新 config 字段
         connection = pymysql.connect(**config)  # 连接数据库
@@ -233,6 +233,7 @@ def mysql_all_dtypes(db_name=None, table_name=None, path=None):
                 )
             else:
                 print(f'数据库回传数据(name_type)为空')
+    # print(d.datas)
     d.as_json_file()
 if __name__ == '__main__':

{mdbq-1.1.1 → mdbq-1.1.3}/mdbq/aggregation/query_data.py RENAMED Viewed

@@ -48,8 +48,8 @@ class MongoDatasQuery:
             '直接成交金额': 1,
         }
         df = self.download.data_to_df(
-            db_name='天猫数据2',
-            collection_name='推广数据_宝贝主体报表',
+            db_name='推广数据2',
+            collection_name='宝贝主体报表',
             projection=projection,
         )
         return df
@@ -100,8 +100,8 @@ class MysqlDatasQuery:
             '直接成交金额': 1,
         }
         df = self.download.data_to_df(
-            db_name='天猫数据2',
-            table_name='推广数据_宝贝主体报表',
+            db_name='推广数据2',
+            table_name='宝贝主体报表',
             start_date=start_date,
             end_date=end_date,
             projection=projection,
@@ -377,7 +377,7 @@ class GroupBy:
     def performance(self, bb_tg=True):
          # print(self.data_tgyj)
         tg, syj, idbm, pic, cost = (
-            self.data_tgyj['推广数据_宝贝主体报表'],
+            self.data_tgyj['宝贝主体报表'],
             self.data_tgyj['天猫生意经_宝贝指标'],
             self.data_tgyj['商品id编码表'],
             self.data_tgyj['商品id图片对照表'],
@@ -502,7 +502,7 @@ def data_aggregation(service_databases=[{}]):
             data_dict = [
                 {
                     '数据库名': '聚合数据',
-                    '集合名': '推广数据_宝贝主体报表',
+                    '集合名': '宝贝主体报表',
                     '数据主体': sdq.tg_wxt(),
                 },
                 {

{mdbq-1.1.1 → mdbq-1.1.3}/mdbq/clean/data_clean.py RENAMED Viewed

@@ -1113,8 +1113,12 @@ class DataClean:
                     t_path = str(pathlib.Path(self.source_path, '京东报表/JD商家榜单'))
                     bib(t_path, _as_month=True)
                 elif name.endswith('.csv') and '导出-批量任务' in name:
-                    t_path = str(pathlib.Path(self.source_path, '京东报表/商品信息导出'))
-                    bib(t_path, _as_month=False)
+                    if 'SKU' in name:
+                        t_path = str(pathlib.Path(self.source_path, '京东报表/商品信息导出/sku'))
+                        bib(t_path, _as_month=False)
+                    elif 'SPU' in name:
+                        t_path = str(pathlib.Path(self.source_path, '京东报表/商品信息导出/spu'))
+                        bib(t_path, _as_month=False)
                 elif name.endswith('.csv') and '_行业分析_竞争分析' in name:
                     t_path = str(pathlib.Path(self.source_path, '京东报表/行业竞争分析'))
                     bib(t_path, _as_month=True)

{mdbq-1.1.1 → mdbq-1.1.3}/mdbq/config/get_myconf.py RENAMED Viewed

@@ -62,7 +62,7 @@ def select_config_values(target_service, database, path=None):
             if socket.gethostname() == 'xigua_lx':
                 # 本机自身运行使用 127.0.0.1
                 options = ['username_mysql_lx_nw', 'password_mysql_lx_nw', 'host_bd',  'port_mysql_lx_nw',]
-            elif socket.gethostname() == 'xigua1' or socket.gethostname() == 'macbook pro':
+            elif socket.gethostname() == 'xigua1' or socket.gethostname() == 'MacBook-Pro':
                 # 内网地址：正在运行的是 家里笔记本或者台式机，或者 macb    ook pro
                 options = ['username_mysql_lx_nw', 'password_mysql_lx_nw', 'host_mysql_lx_nw',  'port_mysql_lx_nw',]
             else:
@@ -126,6 +126,6 @@ def main():
 if __name__ == '__main__':
     # main()
-    r, d, s, g = select_config_values(target_service='home_lx', database='mongodb')
+    r, d, s, g = select_config_values(target_service='home_lx', database='mysql')
     print(r, d, s, g, type(r), type(d), type(s), type(g))
     print(f'本机: {platform.system()} // {socket.gethostname()}')

mdbq-1.1.3/mdbq/dataframe/converter.py ADDED Viewed

@@ -0,0 +1,81 @@
+# -*- coding:utf-8 -*-
+import pandas as pd
+import numpy as np
+from decimal import Decimal
+import re
+class DataFrameConverter(object):
+    def __init__(self, df=pd.DataFrame({})):
+        self.df = df
+    def convert_df_cols(self, df=pd.DataFrame({})):
+        """
+        清理 dataframe 非法值
+        对数据类型进行转换(尝试将 object 类型转为 int 或 float)
+        """
+        if len(df) == 0:
+            df = self.df
+            if len(df) == 0:
+                return
+        def find_longest_decimal_value(number_list):
+            # 取列表中小数位数最长的值
+            longest_value = None
+            max_decimals = 0
+            for num in number_list:
+                decimal_places = len(str(num).split('.')[1])
+                if decimal_places > max_decimals:
+                    max_decimals = decimal_places
+                    longest_value = num
+            return longest_value
+        # dtypes = df.dtypes.apply(str).to_dict()  # 将 dataframe 数据类型转为字典形式
+        df.replace([np.inf, -np.inf], 0, inplace=True)  # 清理一些非法值
+        df.replace(to_replace=['\\N', '-', '--', '', 'nan'], value=0, regex=False, inplace=True)  # 替换掉特殊字符
+        df.replace(to_replace=[','], value='', regex=True, inplace=True)
+        df.replace(to_replace=['="'], value='', regex=True, inplace=True)  # ="和"不可以放在一起清洗, 因为有: id=86785565
+        df.replace(to_replace=['"'], value='', regex=True, inplace=True)
+        cols = df.columns.tolist()
+        for col in cols:
+            # 百分比在某些数据库中不兼容, 转换百分比为小数
+            df[col] = df[col].apply(lambda x: float(float((str(x).rstrip("%"))) / 100) if str(x).endswith('%') and '~' not in str(x) else x)
+            # 尝试转换合适的数据类型
+            if df[col].dtype == 'object':
+                try:
+                    df[col] = df[col].apply(lambda x: int(x) if '_' not in str(x) else x)
+                except:
+                    try:
+                        df[col] = df[col].apply(lambda x: float(x) if '_' not in str(x) else x)
+                    except:
+                        pass
+            if df[col].dtype == 'float' or df[col].dtype == 'float64':  # 对于小数类型, 保留 6 位小数
+                df[col] = df[col].fillna(0.0).apply(lambda x: round(x, 6))
+                # df[col] = df[col].fillna(0.0).apply(lambda x: "{:.6f}".format(x))
+                # df[col] = df[col].apply('float64')
+            # 转换日期样式的列为日期类型
+            value = df.loc[0, col]
+            if value:
+                res = re.match(r'\d{4}-\d{2}-\d{2}|\d{4}-\d{2}-\d{2} |\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}', str(value))
+                if res:
+                    try:
+                        df[col] = df[col].apply(lambda x: pd.to_datetime(x))
+                    except:
+                        pass
+            new_col = col.lower()
+            df.rename(columns={col: new_col}, inplace=True)
+        df.fillna(0, inplace=True)
+        return df
+if __name__ == '__main__':
+    # df = pd.DataFrame(np.random.randn(5, 3), columns=['a', 'b', 'c'])
+    # converter = DataFrameConverter()
+    # df = converter.convert_df_cols(df)
+    # print(df['a'].dtype)
+    # print(df)
+    pattern = 'dfa_dfawr__'
+    pattern = re.sub(r'_+$', '', pattern)
+    print(pattern)

{mdbq-1.1.1 → mdbq-1.1.3}/mdbq/mongo/mongo.py RENAMED Viewed

@@ -658,7 +658,7 @@ class OptimizeDatas:
     def rename_column(self):
         """ 批量修改数据库的列名 """
         """
-        # for db_name in ['京东数据2', '天猫数据2', '市场数据2', '生意参谋数据2', '生意经2', '属性设置2',]:
+        # for db_name in ['京东数据2', '推广数据2', '市场数据2', '生意参谋2', '生意经2', '属性设置2',]:
         #     s = OptimizeDatas(username=username, password=password, host=host, port=port)
         #     s.db_name = db_name
         #     s.rename_column()
@@ -715,9 +715,9 @@ if __name__ == '__main__':
     # for db_name in [
     #         '京东数据2',
-    #         '天猫数据2',
+    #         '推广数据2',
     #         '市场数据2',
-    #         '生意参谋数据2',
+    #         '生意参谋2',
     #         '生意经2',
     #         '属性设置2',
     #     ]:

{mdbq-1.1.1 → mdbq-1.1.3}/mdbq/mysql/mysql.py RENAMED Viewed

@@ -35,20 +35,23 @@ class MysqlUpload:
             'charset': charset,  # utf8mb4 支持存储四字节的UTF-8字符集
             'cursorclass': pymysql.cursors.DictCursor,
         }
+        self.filename = None
-    def df_to_mysql(self, df, table_name, db_name='远程数据源', drop_duplicates=False):
+    def df_to_mysql(self, df, table_name, db_name='远程数据源', drop_duplicates=False, filename=None, count=None):
         """
         将 df 写入数据库
         db_name: 数据库名称
         table_name: 集合/表名称
         drop_duplicates：仅限于聚合数据使用，其他情况不要设置
+        filename: 传这个参数是方便定位产生错误的文件
         """
+        self.filename = filename
         if isinstance(df, pd.DataFrame):
             if len(df) == 0:
-                print(f'{db_name}: {table_name} 传入的 df 数据长度为0')
+                print(f'{db_name}: {table_name} 传入的 df 数据长度为0, {self.filename}')
                 return
         else:
-            print(f'{db_name}: {table_name} 传入的 df 不是有效的 dataframe 结构')
+            print(f'{db_name}: {table_name} 传入的 df 不是有效的 dataframe 结构, {self.filename}')
             return
         cv = converter.DataFrameConverter()
         df = cv.convert_df_cols(df=df)  # 清理 dataframe 非法值
@@ -95,7 +98,7 @@ class MysqlUpload:
                 for col in col_not_exist:
                     try:
                         #  创建列，需转义
-                        sql = f"ALTER TABLE `{table_name}` ADD COLUMN `{col}` {dtypes[col]} DEFAULT NULL;"
+                        sql = f"ALTER TABLE `{table_name}` ADD COLUMN `{col}` {dtypes[col]};"
                         cursor.execute(sql)
                         print(f"添加列: {col}({dtypes[col]})")  # 添加列并指定数据类型
@@ -105,8 +108,8 @@ class MysqlUpload:
                             result = cursor.fetchone()  # 检查索引是否存在
                             if not result:
                                 cursor.execute(f"CREATE INDEX index_name ON `{table_name}`(`{col}`)")
-                    except:
-                        pass
+                    except Exception as e:
+                        print(f'{self.filename}: {e}')
             connection.commit()  # 提交事务
             # 返回这些结果的目的是等添加完列再写 json 文件才能读到 types 信息
@@ -128,7 +131,7 @@ class MysqlUpload:
             # 5. 更新插入数据
             now = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S ")
-            print(f'{now}正在更新 mysql ({self.host}:{self.port}) {db_name}/{table_name}')
+            print(f'{now}正在更新 mysql ({self.host}:{self.port}) {db_name}/{table_name}, {count},{self.filename}')
             datas = df.to_dict(orient='records')
             for data in datas:
                 try:
@@ -142,13 +145,19 @@ class MysqlUpload:
                     # print(condition)
                     sql = f"SELECT {cols} FROM `{table_name}` WHERE {condition}"
+                    # sql = f"SELECT {cols} FROM `{table_name}` WHERE `创建时间` = '2014-09-19 14:32:33'"
                     cursor.execute(sql)
-                    result = cursor.fetchall()  # 获取查询结果, 如果有结果返回 list，没有则返回空元组 tuple
+                    result = cursor.fetchall()  # 获取查询结果, 有结果返回 list 表示数据已存在(不重复插入)，没有则返回空 tuple
                     if not result:  # 数据不存在则插入
                         sql = f"INSERT INTO `{table_name}` ({cols}) VALUES ({values});"
                         cursor.execute(sql)
+                    # else:
+                    #     print(f'重复数据不插入: {condition[:50]}...')
                 except Exception as e:
-                    print(f'mysql -> df_to_mysql 报错: {e}')
+                    # print(data)
+                    # print(values)
+                    print(f'mysql -> df_to_mysql 报错: {e}, {self.filename}')
+                    # breakpoint()
         connection.commit()  # 提交事务
     def convert_dtypes(self, df, db_name, table_name):
@@ -196,32 +205,35 @@ class MysqlUpload:
             return longest_value
         # 最优先处理 ID 类型, 在 mysql 里面, 有些列数字过长不能存储为 int 类型
-        if 'id' in col or 'ID' in col or 'Id' in col or '摘要' in col or '商家编码' in col or '单号' in col or '款号' in col:
-            return 'mediumtext'
+        # if 'id' in col or 'ID' in col or 'Id' in col or '摘要' in col or '商家编码' in col or '单号' in col or '款号' in col:
+        #     return 'mediumtext'
         if '商品编码' in col:  # 京东sku/spu商品信息
             return 'mediumtext'
         if '文件大小' in col:  # bw 程序
             return 'mediumtext'
-        elif '日期' in col or '时间' in col:
-            try:
-                k = pd.to_datetime(df[col].tolist()[0])  # 检查是否可以转为日期
-                return 'DATE'
-            except:
-                return 'mediumtext'
-        elif dtype == 'datetime64[ns]':  # 日期可能显示为数字, 因为放在判断 int 的前面
-            return 'DATE'
+        # elif '日期' in col or '时间' in col:
+        #     try:
+        #         k = pd.to_datetime(df[col].tolist()[0])  # 检查是否可以转为日期
+        #         return 'DATE'
+        #     except:
+        #         return 'mediumtext'
+        elif dtype == 'datetime64[ns]':
+            return 'DATETIME'  # 使用 DATE 后续排重可能会引发不能排重
         elif dtype == 'int32':
-            if len(str(max(df[col].tolist()))) >= 10:  # 数值长度超限转为 mediumtext
+            max_num = str(max(df[col].tolist()))
+            if len(max_num) >= 10:  # 数值长度超限转为 mediumtext
                 return 'mediumtext'
             return 'INT'
         elif dtype == 'int64':
-            if len(str(max(df[col].tolist()))) >= 10:
+            max_num = str(max(df[col].tolist()))
+            if len(max_num) >= 10:
                 return 'mediumtext'
             return 'INT'
         elif dtype == 'float64':
             res = find_longest_decimal_value(df[col].tolist())  # 取小数位数最长的值
             int_step = len(str(res).split('.')[0])   # 整数位数长度
             f_step = len(str(res).split('.')[1])  # 小数位数长度
             if int_step >= 12:
                 return 'mediumtext'  # mysql 中不要使用 float 和 double 类型，会影响计算结果
             elif int_step >= 8 and f_step >= 0:
@@ -231,14 +243,18 @@ class MysqlUpload:
             elif int_step >= 4 and f_step >= 0:
                 return 'decimal(10, 2)'
             elif int_step >= 2 and f_step >= 6:
-                return 'decimal(12, 4)'
-            elif int_step >= 2 and f_step >= 4:
+                return 'decimal(12, 6)'
+            elif int_step >= 2 and f_step > 4:
+                return 'decimal(10, 6)'
+            elif int_step >= 2 and f_step > 2:
                 return 'decimal(10, 4)'
             elif int_step >= 2 and f_step >= 0:
                 return 'decimal(10, 2)'
             elif int_step >= 1 and f_step >= 6:
                 return 'decimal(10, 6)'
-            elif int_step >= 1 and f_step >= 4:
+            elif int_step >= 1 and f_step > 4:
+                return 'decimal(10, 6)'
+            elif int_step >= 1 and f_step > 2:
                 return 'decimal(10, 4)'
             else:
                 return 'decimal(10, 2)'
@@ -619,7 +635,7 @@ class OptimizeDatas:
     def rename_column(self):
         """ 批量修改数据库的列名 """
         """
-        # for db_name in ['京东数据2', '天猫数据2', '市场数据2', '生意参谋数据2', '生意经2', '属性设置2',]:
+        # for db_name in ['京东数据2', '推广数据2', '市场数据2', '生意参谋2', '生意经2', '属性设置2',]:
         #     s = OptimizeDatas(username=username, password=password, host=host, port=port)
         #     s.db_name = db_name
         #     s.rename_column()
@@ -691,22 +707,22 @@ def download_datas(table_name, save_path, start_date):
 def one_file_to_mysql(file, db_name, table_name, target_service, database):
     username, password, host, port = get_myconf.select_config_values(target_service=target_service, database=database)
-    df = pd.read_csv(file, encoding='utf-8_sig', header=0, na_filter=False)
+    filename = os.path.basename(file)
+    df = pd.read_csv(file, encoding='utf-8_sig', header=0, na_filter=False, float_precision='high')
     m = MysqlUpload(username=username, password=password, host=host, port=port)
-    m.df_to_mysql(df=df, db_name=db_name, table_name=table_name)
+    m.df_to_mysql(df=df, db_name=db_name, table_name=table_name, filename=filename)
 if __name__ == '__main__':
-    username, password, host, port = get_myconf.select_config_values(target_service='company', database='mysql')
-    print(username, password, host, port)
+    # username, password, host, port = get_myconf.select_config_values(target_service='home_lx', database='mysql')
+    # print(username, password, host, port)
-    file = '/Users/xigua/数据中心/原始文件2/京东报表/JD商品明细spu/2024-08/spu_2024-08-18_全部渠道_商品明细.csv'
+    file = '/Users/xigua/数据中心/原始文件2/推广报表/创意报表/创意报表_万里马官方旗舰店_2024-07-05_2024-07-19.csv'
     one_file_to_mysql(
         file=file,
-        db_name='test',
-        table_name='余额查询',
-        target_service='company',
+        db_name='推广数据2',
+        table_name='创意报表',
+        target_service='home_lx',
         database='mysql'
     )

{mdbq-1.1.1 → mdbq-1.1.3}/mdbq.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: mdbq
-Version: 1.1.1
+Version: 1.1.3
 Home-page: https://pypi.org/project/mdbsql
 Author: xigua,
 Author-email: 2587125111@qq.com

{mdbq-1.1.1 → mdbq-1.1.3}/setup.py RENAMED Viewed

@@ -3,7 +3,7 @@
 from setuptools import setup, find_packages
 setup(name='mdbq',
-      version='1.1.1',
+      version='1.1.3',
       author='xigua, ',
       author_email="2587125111@qq.com",
       url='https://pypi.org/project/mdbsql',

mdbq-1.1.1/mdbq/dataframe/converter.py DELETED Viewed

@@ -1,112 +0,0 @@
-# -*- coding:utf-8 -*-
-import pandas as pd
-import numpy as np
-import re
-class DataFrameConverter(object):
-    def __init__(self, df=pd.DataFrame({})):
-        self.df = df
-    def convert_df_cols(self, df=pd.DataFrame({})):
-        """
-        清理 dataframe 非法值
-        对数据类型进行转换(尝试将 object 类型转为 int 或 float)
-        """
-        if len(df) == 0:
-            df = self.df
-            if len(df) == 0:
-                return
-        # dtypes = df.dtypes.apply(str).to_dict()  # 将 dataframe 数据类型转为字典形式
-        df.replace([np.inf, -np.inf], 0, inplace=True)  # 清理一些非法值
-        df.replace(to_replace=['\\N', '-', '--', '', 'nan'], value=0, regex=False, inplace=True)  # 替换掉特殊字符
-        df.replace(to_replace=[','], value='', regex=True, inplace=True)
-        df.replace(to_replace=['="'], value='', regex=True, inplace=True)  # ="和"不可以放在一起清洗, 因为有: id=86785565
-        df.replace(to_replace=['"'], value='', regex=True, inplace=True)
-        cols = df.columns.tolist()
-        for col in cols:
-            # df[col] = df[col].apply(lambda x: re.sub('[="]', '', str(x)) if '="' in str(x) else x)
-            # 百分比在某些数据库中不兼容, 转换百分比为小数
-            df[col] = df[col].apply(lambda x: float(float((str(x).rstrip("%"))) / 100) if str(x).endswith('%') and '~' not in str(x) else x)
-            # 尝试转换合适的数据类型
-            if df[col].dtype == 'object':
-                try:
-                    # df[col] = df[col].astype(int)  # 尝试转换 int
-                    df[col] = df[col].apply(lambda x: int(x) if '_' not in str(x) else x)
-                except:
-                    # df[col] = df[col].astype('float64', errors='ignore')    # 尝试转换 float, 报错则忽略
-                    try:
-                        df[col] = df[col].apply(lambda x: float(x) if '_' not in str(x) else x)
-                    except:
-                        pass
-            if df[col].dtype == 'float':  # 对于小数类型, 保留 6 位小数
-                df[col] = df[col].apply(lambda x: round(float(x), 6) if x != 0 else x)
-            # 清理列名, 在 mysql 里面列名不能含有某些特殊字符
-            if '日期' in col or '时间' in col:
-                try:
-                    df[col] = df[col].apply(lambda x: pd.to_datetime(x))
-                except:
-                    pass
-            new_col = col.lower()
-            df.rename(columns={col: new_col}, inplace=True)
-        df.fillna(0, inplace=True)
-        return df
-    def convert_df_cols_bak(self, df=pd.DataFrame({})):
-        """
-        清理 dataframe 列名的不合规字符(mysql)
-        对数据类型进行转换(尝试将 object 类型转为 int 或 float)
-        """
-        if len(df) == 0:
-            df = self.df
-            if len(df) == 0:
-                return
-        # dtypes = df.dtypes.apply(str).to_dict()  # 将 dataframe 数据类型转为字典形式
-        df.replace([np.inf, -np.inf], 0, inplace=True)  # 清理一些非法值
-        df.replace(to_replace=['\\N', '-', '--', '', 'nan'], value=0, regex=False, inplace=True)  # 替换掉特殊字符
-        df.replace(to_replace=[','], value='', regex=True, inplace=True)
-        df.replace(to_replace=['="'], value='', regex=True, inplace=True)  # ="和"不可以放在一起清洗, 因为有: id=86785565
-        df.replace(to_replace=['"'], value='', regex=True, inplace=True)
-        cols = df.columns.tolist()
-        for col in cols:
-            # df[col] = df[col].apply(lambda x: re.sub('[="]', '', str(x)) if '="' in str(x) else x)
-            # 百分比在某些数据库中不兼容, 转换百分比为小数
-            df[col] = df[col].apply(lambda x: float(float((str(x).rstrip("%"))) / 100) if str(x).endswith('%') and '~' not in str(x) else x)
-            # 尝试转换合适的数据类型
-            if df[col].dtype == 'object':
-                try:
-                    # df[col] = df[col].astype(int)  # 尝试转换 int
-                    df[col] = df[col].apply(lambda x: int(x) if '_' not in str(x) else x)
-                except:
-                    # df[col] = df[col].astype('float64', errors='ignore')    # 尝试转换 float, 报错则忽略
-                    try:
-                        df[col] = df[col].apply(lambda x: float(x) if '_' not in str(x) else x)
-                    except:
-                        pass
-            if df[col].dtype == 'float':  # 对于小数类型, 保留 6 位小数
-                df[col] = df[col].apply(lambda x: round(float(x), 6) if x != 0 else x)
-            # 清理列名, 在 mysql 里面列名不能含有某些特殊字符
-            if '日期' in col or '时间' in col:
-                try:
-                    df[col] = df[col].apply(lambda x: pd.to_datetime(x))
-                except:
-                    pass
-            new_col = col.lower()
-            new_col = re.sub(r'[\',，（）()/=<>+\-*^"’\[\]~#|&% .;]', '_', new_col)
-            new_col = re.sub(r'_+$', '', new_col)
-            df.rename(columns={col: new_col}, inplace=True)
-        df.fillna(0, inplace=True)
-        return df
-if __name__ == '__main__':
-    # df = pd.DataFrame(np.random.randn(5, 3), columns=['a', 'b', 'c'])
-    # converter = DataFrameConverter()
-    # df = converter.convert_df_cols(df)
-    # print(df['a'].dtype)
-    # print(df)
-    pattern = 'dfa_dfawr__'
-    pattern = re.sub(r'_+$', '', pattern)
-    print(pattern)