PyPI - mdbq - Versions diffs - 4.0.5__py3-none-any.whl → 4.0.7__py3-none-any.whl - Mend

mdbq 4.0.5py3-none-any.whl → 4.0.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (8) hide show

mdbq/__version__.py +1 -1
mdbq/aggregation/query_data.py +17 -142
mdbq/mysql/unique_.py +8 -8
mdbq/mysql/uploader.py +119 -33
{mdbq-4.0.5.dist-info → mdbq-4.0.7.dist-info}/METADATA +1 -1
{mdbq-4.0.5.dist-info → mdbq-4.0.7.dist-info}/RECORD +8 -8
{mdbq-4.0.5.dist-info → mdbq-4.0.7.dist-info}/WHEEL +0 -0
{mdbq-4.0.5.dist-info → mdbq-4.0.7.dist-info}/top_level.txt +0 -0

mdbq/__version__.py CHANGED Viewed

	@@ -1 +1 @@
1	- VERSION = '4.0.5'
1	+ VERSION = '4.0.7'

mdbq/aggregation/query_data.py CHANGED Viewed

@@ -180,21 +180,18 @@ class MysqlDatasQuery:
     从数据库中下载数据
     """
     def __init__(self, download_manager):
-        # target_service 从哪个服务器下载数据
         self.months = 0  # 下载几个月数据, 0 表示当月, 1 是上月 1 号至今
         self.download_manager = download_manager
-        self.update_service = True  # 调试时加，true: 将数据写入 mysql 服务器
         self.pf_datas = []
-        self.pf_datas_jd = []  # 京东聚合销售表
     @staticmethod
-    def try_except(func):  # 在类内部定义一个异常处理方法
+    def try_except(func):
         @wraps(func)
         def wrapper(*args, **kwargs):
             try:
                 return func(*args, **kwargs)
             except Exception as e:
-                logger.info('函数执行错误', {'函数': func.__name__, '错误': str(e)})  # 将异常信息返回
+                logger.info('函数执行错误', {'函数': func.__name__, '错误': str(e), 'args': args, 'kwargs': kwargs})
         return wrapper
@@ -227,7 +224,6 @@ class MysqlDatasQuery:
             )
             __res.append(df)
         df = pd.concat(__res, ignore_index=True)
         df.rename(columns={
             '场景名字': '营销场景',
             '主体id': '商品id',
@@ -235,7 +231,6 @@ class MysqlDatasQuery:
             '总成交笔数': '成交笔数',
             '总成交金额': '成交金额'
         }, inplace=True)
         df = df.astype({
             '商品id': str,
             '花费': 'float64',
@@ -273,7 +268,7 @@ class MysqlDatasQuery:
                     '直接成交金额': ('直接成交金额', np.max)
                 }
             )
-        df.insert(loc=1, column='推广渠道', value='万相台无界版')  # df中插入新列
+        df.insert(loc=1, column='推广渠道', value='万相台无界版')
         set_typ = {
             '日期': 'date',
             '推广渠道': 'varchar(100)',
@@ -290,7 +285,7 @@ class MysqlDatasQuery:
             '直接成交笔数': 'int',
             '直接成交金额': 'decimal(12,2)',
         }
+        # 制作其他聚合表
         self.pf_datas.append(
             {
                 '集合名称': '天猫汇总表调用',
@@ -298,7 +293,7 @@ class MysqlDatasQuery:
                     ['日期', '店铺名称', '推广渠道', '营销场景', '商品id', '花费', '展现量', '点击量', '加购量',
                      '成交笔数', '成交金额', '直接成交笔数', '直接成交金额', '自然流量曝光量']]
             }
-        )  # 制作其他聚合表
+        )
         logger.info('正在更新数据库', {'主机': f'{host}:{port}', '库': db_name, '表': table_name})
         uld.upload_data(
             db_name=db_name,
@@ -720,23 +715,11 @@ class MysqlDatasQuery:
             __res.append(df)
         df = pd.concat(__res, ignore_index=True)
         df['宝贝id'] = df['宝贝id'].astype(str)
-        # df = df.groupby(['日期', '店铺名称', '宝贝id', '行业类目'], as_index=False).agg(
-        #     **{
-        #         '销售额': ('销售额', np.min),
-        #         '销售量': ('销售量', np.min),
-        #         '订单数': ('订单数', np.min),
-        #         '退货量': ('退货量', np.max),
-        #         '退款额': ('退款额', np.max),
-        #         '退款额_发货后': ('退款额_发货后', np.max),
-        #         '退货量_发货后': ('退货量_发货后', np.max),
-        #        }
-        # )
         # 仅保留最新日期的数据
         idx = df.groupby(['日期', '店铺名称', '宝贝id'])['更新时间'].idxmax()
         df = df.loc[idx]
         df = df[['日期', '店铺名称', '宝贝id', '行业类目', '销售额', '销售量', '订单数', '退货量', '退款额', '退款额_发货后', '退货量_发货后']]
-        df['件均价'] = df.apply(lambda x: x['销售额'] / x['销售量'] if x['销售量'] > 0 else 0, axis=1).round(
-            0)  # 两列运算, 避免除以0
+        df['件均价'] = np.where(df['销售量'] > 0, df['销售额'] / df['销售量'], 0).round(0)
         df['价格带'] = df['件均价'].apply(
             lambda x: '2000+' if x >= 2000
             else '1000+' if x >= 1000
@@ -850,8 +833,7 @@ class MysqlDatasQuery:
                     '直接成交金额': ('直接成交金额', np.max)
                 }
             )
-        df.insert(loc=1, column='推广渠道', value='万相台无界版')  # df中插入新列
+        df.insert(loc=1, column='推广渠道', value='万相台无界版')
         # 开始处理用户特征
         df_sx = self.download_manager.data_to_df(
             db_name='达摩盘3',
@@ -860,7 +842,7 @@ class MysqlDatasQuery:
             end_date=end_date,
             projection={'人群名称': 1, '消费能力等级': 1, '用户年龄': 1},
         )
-        df_sx['人群名称'] = df_sx['人群名称'].apply(lambda x: f'达摩盘：{x}')
+        df_sx['人群名称'] = '达摩盘：' + df_sx['人群名称']
         df_sx.rename(columns={'消费能力等级': '消费力层级'}, inplace=True)
         df = pd.merge(df, df_sx, left_on=['人群名字'], right_on=['人群名称'], how='left')
         df.pop('人群名称')
@@ -869,10 +851,8 @@ class MysqlDatasQuery:
         df['用户年龄'] = df['用户年龄'].apply(
             lambda x: "~".join(re.findall(r'(\d{2})\D.*(\d{2})岁', str(x))[0])
             if str(x) != 'nan' and re.findall(r'(\d{2})\D.*(\d{2})岁', str(x)) else x)
         # 1. 匹配 L后面接 2 个或以上数字，不区分大小写，示例：L345
         # 2. 其余情况，L 后面接多个数字的都会被第一条 if 命中，不区分大小写
         df['消费力层级'] = df.apply(
             lambda x:
             ''.join(re.findall(r'(l\d+)', x['人群名字'].upper(), re.IGNORECASE))
@@ -883,12 +863,10 @@ class MysqlDatasQuery:
             else 'L2' if re.findall(r'(l\d*2)', x['人群名字'], re.IGNORECASE) and str(x['消费力层级']) == 'nan'
             else 'L1' if re.findall(r'(l\d*1)', x['人群名字'], re.IGNORECASE) and str(x['消费力层级']) == 'nan'
             else x['消费力层级'], axis=1)
         # 1. 匹配连续的 4 个数字且后面不能接数字或"元"或汉字，筛掉的人群示例：月均消费6000元｜受众20240729175213｜xxx2024真皮公文包
         # 2. 匹配 2数字_2数字且前面不能是数字，合法匹配：人群_30_50_促； 非法示例：L345_3040 避免识别出 35～20 岁用户的情况
         # pattern = r'(\d{4})(?!\d|[\u4e00-\u9fa5])'  # 匹配 4 个数字，后面不能接数字或汉字
         # pattern = r'(?<![\d\u4e00-\u9fa5])(\d{4})' # 匹配前面不是数字或汉字的 4 个连续数字
         # 匹配 4 个数字，前面和后面都不能是数字或汉字
         pattern1 = r'(?<![\d\u4e00-\u9fa5])(\d{4})(?!\d|[\u4e00-\u9fa5])'
         # 匹配指定字符，前面不能是数字或 l 或 L 开头
@@ -909,8 +887,7 @@ class MysqlDatasQuery:
             else x
         )
         # 年龄层不能是 0 开头
-        df['用户年龄'] = df['用户年龄'].apply(
-            lambda x: '' if str(x).startswith('0') else x)
+        df['用户年龄'] = np.where(df['用户年龄'].astype(str).str.startswith('0'), '', df['用户年龄'])
         df['用户年龄'] = df['用户年龄'].apply(
             lambda x:
             re.sub(f'~50', '~49' ,str(x)) if '~50' in str(x) else
@@ -919,10 +896,6 @@ class MysqlDatasQuery:
             re.sub(r'\d{4}~', '', str(x)) if str(x) != 'nan' else
             x
         )
-        # df = df.head(1000)
-        # df.to_csv('/Users/xigua/Downloads/test.csv', index=False, header=True, encoding='utf-8_sig')
-        # breakpoint()
         # 下面是添加人群 AIPL 分类
         dir_file = f'\\\\192.168.1.198\\时尚事业部\\01.运营部\\0-电商周报-每周五更新\\分类配置文件.xlsx'
         dir_file2 = '/Volumes/时尚事业部/01.运营部/0-电商周报-每周五更新/分类配置文件.xlsx'
@@ -1080,7 +1053,6 @@ class MysqlDatasQuery:
             dir_file = dir_file2
         if os.path.isfile(dir_file):
             df_fl = pd.read_excel(dir_file, sheet_name='关键词分类', header=0)
-            # df_fl.rename(columns={'分类1': '词分类'}, inplace=True)
             df_fl = df_fl[['关键词', '词分类']]
             # 合并并获取词分类信息
             df = pd.merge(df, df_fl, left_on=['词名字_词包名字'], right_on=['关键词'], how='left')
@@ -1159,7 +1131,6 @@ class MysqlDatasQuery:
             return pd.DataFrame()
         return df
     @try_except
     @upload_data_decorator()
     def tg_cjzb(self, db_name='聚合数据', table_name='天猫_超级直播', is_maximize=True):
@@ -1207,7 +1178,6 @@ class MysqlDatasQuery:
                 if col not in cjzb_qzt.columns.tolist():
                     cjzb_qzt[col] = 0
             df = pd.concat([df, cjzb_qzt], ignore_index=True)
         df.rename(columns={
             '观看次数': '观看次数',
             '总购物车数': '加购量',
@@ -1283,7 +1253,6 @@ class MysqlDatasQuery:
             '直接成交金额': 'decimal(12,2)',
         }
         logger.info('正在更新数据库', {'主机': f'{host}:{port}', '库': db_name, '表': table_name})
         return df, {
             'db_name': db_name,
             'table_name': table_name,
@@ -1406,57 +1375,7 @@ class MysqlDatasQuery:
             'partition_date_column': '日期',  # 用于分表的日期列名，默认为'日期'
             'indexes': [],  # 普通索引列
             'transaction_mode': 'batch',  # 事务模式
-            'unique_keys': [['日期', '推广渠道', '店铺名称', '营销场景', '报表类型']],  # 唯一约束列表
-        }
-    @try_except
-    @upload_data_decorator()
-    def idbm_bak(self, db_name='聚合数据', table_name='商品id编码表'):
-        """ 用生意经日数据制作商品 id 和编码对照表 """
-        year = datetime.datetime.today().year
-        data_values = []
-        for year in range(2022, year+1):
-            data_values += self.download_manager.columns_to_list(
-                db_name='生意经3',
-                table_name=f'宝贝指标_{year}',
-                columns_name=['宝贝id', '商家编码', '行业类目'],
-            )
-        df = pd.DataFrame(data=data_values)
-        df['宝贝id'] = df['宝贝id'].astype(str)
-        df.drop_duplicates(subset='宝贝id', keep='last', inplace=True, ignore_index=True)
-        # df['行业类目'] = df['行业类目'].apply(lambda x: re.sub(' ', '', x))
-        try:
-            df[['一级类目', '二级类目', '三级类目']] = df['行业类目'].str.split(' -> ', expand=True).loc[:, 0:2]
-        except:
-            try:
-                df[['一级类目', '二级类目']] = df['行业类目'].str.split(' -> ', expand=True).loc[:, 0:1]
-            except:
-                df['一级类目'] = df['行业类目']
-        df.drop('行业类目', axis=1, inplace=True)
-        df.sort_values('宝贝id', ascending=False, inplace=True)
-        df = df[(df['宝贝id'] != '973') & (df['宝贝id'] != 973) & (df['宝贝id'] != '0')]
-        set_typ = {
-            '宝贝id': 'bigint',
-            '商家编码': 'varchar(100)',
-            '一级类目': 'varchar(100)',
-            '二级类目': 'varchar(100)',
-            '三级类目': 'varchar(100)',
-        }
-        logger.info('正在更新数据库', {'主机': f'{host}:{port}', '库': db_name, '表': table_name})
-        return df, {
-            'db_name': db_name,
-            'table_name': table_name,
-            'set_typ': set_typ,
-            'primary_keys': [],  # 创建唯一主键
-            'check_duplicate': False,  # 检查重复数据
-            'duplicate_columns': [],  # 指定排重的组合键
-            'update_on_duplicate': True,  # 更新旧数据
-            'allow_null': False,  # 允许插入空值
-            'partition_by': None,  # 分表方式
-            'partition_date_column': '日期',  # 用于分表的日期列名，默认为'日期'
-            'indexes': [],  # 普通索引列
-            'transaction_mode': 'batch',  # 事务模式
-            'unique_keys': [['宝贝id']],  # 唯一约束列表
+            'unique_keys': [['日期', '推广渠道', '店铺名称', '营销场景', '报表类型', '花费', '展现量']],  # 唯一约束列表
         }
     @try_except
@@ -1650,9 +1569,6 @@ class MysqlDatasQuery:
             end_date=end_date,
             projection=projection,
         )
-        # df.drop_duplicates(
-        #     subset=['日期', '店铺名称', '商品id', '商品访客数'], keep='last',
-        #     inplace=True, ignore_index=True)
         # 保留最新日期的数据
         idx = df.groupby(['日期', '店铺名称', '商品id'])['更新时间'].idxmax()
         df = df.loc[idx]
@@ -1691,7 +1607,6 @@ class MysqlDatasQuery:
         df['上市季节'] = df['上市年月'].apply(lambda x: check_jijie(x))
         p = df.pop('上市季节')
         df.insert(loc=9, column='上市季节', value=p)
         set_typ = {
             '商品id': 'BIGINT',
             '店铺名称': 'varchar(100)',
@@ -1784,7 +1699,6 @@ class MysqlDatasQuery:
             )
             __res.append(df)
         df = pd.concat(__res, ignore_index=True)
-        # df['日期'] = pd.to_datetime(df['日期'], format='%Y-%m-%d', errors='ignore')  # 转换日期列
         df = df.astype({'访客数': 'int64'}, errors='ignore')
         df = df[df['访客数'] > 0]
         df.drop_duplicates(subset=['日期', '店铺名称', '类别', '来源构成', '一级来源', '二级来源', '三级来源', '访客数'], keep='last', inplace=True, ignore_index=True)
@@ -1800,7 +1714,6 @@ class MysqlDatasQuery:
         df_visitor3['index'] = df_visitor3['index'] + 100
         df_visitor3.rename(columns={'index': '三级来源索引'}, inplace=True)
         df_visitor3 = df_visitor3[['三级来源', '三级来源索引']]
         # 包含二级来源名称和预设索引值列
         df_visitor2 = df[df['日期'] >= pd.to_datetime(last_month)]
         df_visitor2 = df_visitor2[(df_visitor2['二级来源'] != '汇总') & (df_visitor2['二级来源'] != '0')]
@@ -1810,7 +1723,6 @@ class MysqlDatasQuery:
         df_visitor2['index'] = df_visitor2['index'] + 100
         df_visitor2.rename(columns={'index': '二级来源索引'}, inplace=True)
         df_visitor2 = df_visitor2[['二级来源', '二级来源索引']]
         # 包含一级来源名称和预设索引值列
         df_visitor1 = df[df['日期'] >= pd.to_datetime(last_month)]
         df_visitor1 = df_visitor1[(df_visitor1['一级来源'] != '汇总') & (df_visitor1['一级来源'] != '0')]
@@ -1939,7 +1851,6 @@ class MysqlDatasQuery:
                     projection=projection,
                 )
             __res.append(df)
         df = pd.concat(__res, ignore_index=True)
         df = df.groupby(
             ['日期', '店铺名称', '产品线', '触发sku_id', '跟单sku_id', 'spu_id', '花费', '展现数', '点击数'],
@@ -2201,13 +2112,6 @@ class MysqlDatasQuery:
             __res.append(df)
         df = pd.concat(__res, ignore_index=True)
         df = df[df['商品id'] != '合计']
-        # df = df.groupby(['日期', '店铺名称', '商品id', '货号', '访客数', '成交客户数', '加购商品件数', '加购人数'],
-        #                 as_index=False).agg(
-        #     **{
-        #         '成交单量': ('成交单量', np.max),
-        #         '成交金额': ('成交金额', np.max),
-        #     }
-        # )
         # 仅保留最新日期的数据
         idx = df.groupby(['日期', '店铺名称', '商品id', '货号', '访客数', '成交客户数', '加购商品件数', '加购人数'])['更新时间'].idxmax()
         df = df.loc[idx]
@@ -2271,13 +2175,6 @@ class MysqlDatasQuery:
             __res.append(df)
         df = pd.concat(__res, ignore_index=True)
         df = df[df['商品id'] != '合计']
-        # df = df.groupby(['日期', '店铺名称', '商品id', '货号', '访客数', '成交客户数', '加购商品件数', '加购人数'],
-        #                 as_index=False).agg(
-        #     **{
-        #         '成交单量': ('成交单量', np.max),
-        #         '成交金额': ('成交金额', np.max),
-        #     }
-        # )
         # 仅保留最新日期的数据
         idx = df.groupby(['日期', '店铺名称', '商品id', '货号', '访客数', '成交客户数', '加购商品件数', '加购人数'])['更新时间'].idxmax()
         df = df.loc[idx]
@@ -2544,7 +2441,6 @@ class MysqlDatasQuery:
         df_jd = pd.DataFrame()  # 京东推广
         df_jd_qzyx = pd.DataFrame()  # 京东全站推广
         df_jd_ziying = pd.DataFrame()  # 京东推广
         start_date, end_date = self.months_data(num=self.months)
         projection = {
             '日期': 1,
@@ -2659,7 +2555,6 @@ class MysqlDatasQuery:
                     '成交金额': ('总成交金额', np.max)
                 }
             )
         #  天猫的全站推广包含在营销场景报表中，淘宝店不包含
         df_tb_qzt = pd.DataFrame()
         if '全站推广' not in df_tb['营销场景'].tolist():
@@ -2711,7 +2606,6 @@ class MysqlDatasQuery:
                     }
                 )
                 df_tb_qzt['营销场景'] = '全站推广'
         # 品销宝报表
         projection = {
             '日期': 1,
@@ -2750,7 +2644,6 @@ class MysqlDatasQuery:
             )
             df_tm_pxb.rename(columns={'报表类型': '营销场景', '消耗': '花费'}, inplace=True)
             df_tm_pxb['营销场景'] = '品销宝'
         # 因为 2024.04.16及之前的营销场景报表不含超级直播，所以在此添加
         if start_date < pd.to_datetime('2024-04-17'):
             projection = {
@@ -2788,7 +2681,7 @@ class MysqlDatasQuery:
                         '成交金额': ('总成交金额', np.max)
                     }
                 )
+        # 京东数据
         projection = {
             '日期': 1,
             '产品线': 1,
@@ -2832,7 +2725,6 @@ class MysqlDatasQuery:
             df_jd = df_jd[['日期', '店铺名称', '产品线', '花费', '展现数', '点击数', '加购量', '成交笔数', '成交金额']]
             df_jd.rename(columns={'产品线': '营销场景', '展现数': '展现量', '点击数': '点击量'}, inplace=True)
             df_jd = df_jd[df_jd['花费'] > 0]
         projection = {
             '日期': 1,
             '产品线': 1,
@@ -2867,7 +2759,7 @@ class MysqlDatasQuery:
             df_jd_qzyx.rename(columns={'产品线': '营销场景'}, inplace=True)
             df_jd_qzyx = df_jd_qzyx[['日期', '店铺名称', '营销场景', '花费', '展现量', '点击量', '成交笔数', '成交金额']]
             df_jd_qzyx = df_jd_qzyx[df_jd_qzyx['花费'] > 0]
+        # 京东自营店数据
         projection = {
             '日期': 1,
             '产品线': 1,
@@ -3045,7 +2937,6 @@ class MysqlDatasQuery:
         )
         idx = df.groupby(['日期', '店铺名称', 'spuid'])['更新时间'].idxmax()
         df = df.loc[idx]
         # 调整列顺序, 定义需要前置的列
         cols_to_move = ['日期','平台','店铺名称','品牌名','商品名称', '商品款号','spuid', '一级类目名称', '二级类目名称', '三级类目名称']
         # 生成新的列顺序：前置列 + 剩余列（保持原顺序）
@@ -3146,7 +3037,6 @@ class MysqlDatasQuery:
             '消费能力等级': 1,
             '用户性别': 1,
         }
-        # projection = {}
         df_crowd = self.download_manager.data_to_df(
             db_name='达摩盘3',
             table_name='我的人群属性',
@@ -3158,7 +3048,6 @@ class MysqlDatasQuery:
         df_crowd.drop_duplicates(subset=['人群id',], keep='last', inplace=True, ignore_index=True)
         df_crowd.pop('日期')
         df_crowd = df_crowd.astype({'人群id': 'int64'}, errors='ignore')
         projection = {}
         __res = []
         for year in range(2024, datetime.datetime.today().year + 1):
@@ -3178,8 +3067,6 @@ class MysqlDatasQuery:
         # 清除一些不必要的字符
         df['用户年龄'] = df['用户年龄'].apply(lambda x: '~'.join(re.findall(r'^(\d+).*-(\d+)岁$', str(x))[0]) if '岁' in str(x) else x)
         df['消费能力等级'] = df['消费能力等级'].apply(lambda x: f'L{''.join(re.findall(r'(\d)', str(x)))}' if '购买力' in str(x) else x)
-        # df.to_csv('/Users/xigua/Downloads/test3.csv', index=False, header=True, encoding='utf-8_sig')
-        # breakpoint()
         df.rename(columns={'消耗_元': '消耗'}, inplace=True)
         set_typ = {
             '日期': 'date',
@@ -3416,7 +3303,6 @@ class MysqlDatasQuery:
         result_i = re.findall('_i$|_i_|^i_', str(keyword), re.IGNORECASE)
         result_p = re.findall('_p$|_p_|_pl|^p_||^pl_', str(keyword), re.IGNORECASE)
         result_l = re.findall('_l$|_l_|^l_', str(keyword), re.IGNORECASE)
         datas = [
             {
                 '类别': 'A',
@@ -3435,7 +3321,6 @@ class MysqlDatasQuery:
                 '值': result_l,
             }
         ]
         is_res = False
         for data in datas:
             if data['值']:
@@ -3568,7 +3453,6 @@ class MysqlDatasQuery:
                 '成交金额': ('成交金额', np.sum)
             }
         )
         zb.rename(columns={
             '观看次数': '点击量',
         }, inplace=True)
@@ -3596,16 +3480,13 @@ class MysqlDatasQuery:
             '直接成交金额': 'float64',
             '自然流量曝光量': 'int64',
         }, errors='raise')
         df = pd.concat([tg, zb, pxb], axis=0, ignore_index=True)
         df.fillna(0, inplace=True)  # concat 之后要填充空值
-        df = df.astype(
-            {
-                '商品id': str,
-                '自然流量曝光量': 'int64',
-        }
-        )
-        [df[col].apply(lambda x: '0' if str(x) == '' else x) for col in df.columns.tolist()]
+        df = df.astype({
+            '商品id': str,
+            '自然流量曝光量': 'int64',
+            })
+        df.replace(to_replace='', value=0, inplace=True)
         set_typ = {
             '日期': 'date',
             '店铺名称': 'varchar(100)',
@@ -3650,7 +3531,6 @@ def get_day_of_month(num):
     _, _lastDay = calendar.monthrange(months_ago.year, months_ago.month)  # 返回月的第一天的星期和当月总天数
     _firstDay = datetime.date(months_ago.year, months_ago.month, day=1).strftime('%Y-%m-%d')
     _lastDay = datetime.date(months_ago.year, months_ago.month, day=_lastDay).strftime('%Y-%m-%d')
     return _firstDay, _lastDay
@@ -3690,9 +3570,7 @@ def date_table():
         group['第n周_new'] = f'第{num}周'
         num += 1
         __res.append(group.copy())
-        # break
     df = pd.concat(__res, ignore_index=True)
-    # df['日期'] = df['日期'].apply(lambda x: pd.to_datetime(x))
     df['weekname'] = df['日期'].dt.day_name()
     dict_dt = {
         'Monday': '星期一',
@@ -3746,7 +3624,6 @@ def date_table():
 def query1(months=1, download_manager=None):
     sdq = MysqlDatasQuery(download_manager=download_manager)  # 实例化数据处理类
     sdq.months = months  # 设置数据周期， 1 表示近 2 个月
     # 依赖表  -- >>
     sdq.tg_wxt(db_name='聚合数据', table_name='天猫_主体报表')
     sdq.tg_cjzb(db_name='聚合数据', table_name='天猫_超级直播')
@@ -3792,7 +3669,6 @@ def query3(months=1, download_manager=None):
 def main(months=3):
     # 1. 更新日期表  更新货品年份基准表， 属性设置 3 - 货品年份基准
     date_table()
     # 2. 数据聚合
     download_manager = s_query.QueryDatas(
         username=username,
@@ -3808,5 +3684,4 @@ def main(months=3):
 if __name__ == '__main__':
     # main(months=3)
     pass

mdbq/mysql/unique_.py CHANGED Viewed

@@ -321,14 +321,14 @@ def main():
             #     "sku榜单": [['日期', '平台', '店铺名称', '条码']],
             #     "spu榜单": [['日期', '平台', '店铺名称', '商品款号', '访客量']],
             # },
-            # "生意参谋3": {
-            #     "crm成交客户": [['客户id']],
-            #     "商品排行": [['日期', '店铺名称', '商品id']],
-            #     "流量来源构成": [['日期', '店铺名称', '来源构成', '类别', '一级来源', '二级来源', '三级来源']],
-            #     "手淘搜索": [['日期', '店铺名称', '搜索词', '词类型', '访客数']],
-            #     "新品追踪": [['日期', '店铺名称', '商品id']],
-            #     "直播分场次效果": [['场次id']],
-            # },
+            "生意参谋3": {
+                # "crm成交客户": [['客户id']],
+                # "商品排行": [['日期', '店铺名称', '商品id']],
+                "流量来源构成": [['日期', '店铺名称', '来源构成', '类别', '一级来源', '二级来源', '三级来源']],
+                # "手淘搜索": [['日期', '店铺名称', '搜索词', '词类型', '访客数']],
+                # "新品追踪": [['日期', '店铺名称', '商品id']],
+                # "直播分场次效果": [['场次id']],
+            },
             # "生意经3": {
             #     "sku销量_按名称": [['日期', '店铺名称', '宝贝id', 'sku名称', '销售额']],
             #     "sku销量_按商家编码": [['日期', '店铺名称', '宝贝id', 'sku编码', '销售额']],

mdbq/mysql/uploader.py CHANGED Viewed

@@ -46,7 +46,7 @@ def count_decimal_places(num_str: str) -> Tuple[int, int]:
 class StatementCache(dict):
-    """简单LRU缓存实现，用于SQL语句缓存"""
+    """LRU缓存实现，用于SQL语句缓存"""
     def __init__(self, maxsize=100):
         super().__init__()
         self._maxsize = maxsize
@@ -71,10 +71,10 @@ class StatementCache(dict):
 class MySQLUploader:
     """
-    MySQL数据上传工具类
+    MySQL数据上传
-    提供了一系列方法用于将数据上传到MySQL数据库，支持自动建表、分表、数据验证等功能。
-    使用连接池管理数据库连接，提供错误重试机制。
+    用于将数据上传到MySQL数据库，支持自动建表、分表、数据验证等功能。
+    使用连接池管理数据库连接。
     """
     def __init__(
             self,
@@ -128,9 +128,7 @@ class MySQLUploader:
         self._max_cached_statements = 100  # 用于控制 StatementCache 类中缓存的 SQL 语句数量，最多缓存 100 条 SQL 语句
         self._table_metadata_cache = {}
         self.metadata_cache_ttl = 300  # 5分钟缓存时间
-        # 创建连接池
-        self.pool = self._create_connection_pool()
+        self.pool = self._create_connection_pool()  # 创建连接池
     def _create_connection_pool(self) -> PooledDB:
         """
@@ -584,6 +582,8 @@ class MySQLUploader:
             elif 'varchar' in column_type_lower:
                 if isinstance(value, str):
                     return value.replace('\\', '\\\\').replace("'", "\\'")
+                else:
+                    return str(value)
             elif 'text' in column_type_lower:
                 if isinstance(value, str):
                     max_length = 65535
@@ -592,7 +592,9 @@ class MySQLUploader:
                             '库': db_name, '表': table_name, '列': col_name, '原始值': f'{value[:50]}...', '截断后值': f'{value[:50]}...'
                         })
                         value = value[:max_length]
-                return value.replace('\\', '\\\\').replace("'", "\\'")
+                    return value.replace('\\', '\\\\').replace("'", "\\'")
+                else:
+                    return str(value)
             elif 'json' in column_type_lower:
                 return json.dumps(value) if value is not None else None
             else:
@@ -1200,6 +1202,9 @@ class MySQLUploader:
                 '失败': total_failed
             })
+        # 更新索引
+        self._update_indexes(db_name, table_name, indexes)
     @_execute_with_retry
     def _insert_data(
             self,
@@ -1492,25 +1497,6 @@ class MySQLUploader:
                             logger.error('单行插入失败', {'库': db_name, '表': table_name, '错误': str(e)})
         return total_inserted, total_skipped, total_failed
-    def close(self) -> None:
-        """
-        关闭连接池并清理资源
-        这个方法会安全地关闭数据库连接池，并清理相关资源。
-        建议结束时手动调用此方法。
-        :raises: 可能抛出关闭连接时的异常
-        """
-        try:
-            if hasattr(self, 'pool') and self.pool is not None:
-                try:
-                    # self.pool.close()  # PooledDB 没有 close 方法
-                    self.pool = None
-                except Exception as e:
-                    logger.warning('关闭连接池时出错', {'error': str(e)})
-                logger.debug('finished', {'uploader.py': '连接池关闭'})
-        except Exception as e:
-            logger.error('关闭连接池失败', {'uploader.py': str(e)})
-            raise
     def _check_pool_health(self) -> bool:
         """
         检查连接池健康状态，防止连接泄露
@@ -1583,12 +1569,6 @@ class MySQLUploader:
             # pandas DataFrame
             return f"DataFrame shape={obj.shape}, head={obj.head(1).to_dict()}"
         return obj
-    def __enter__(self):
-        return self
-    def __exit__(self, exc_type, exc_val, exc_tb):
-        self.close()
     def _normalize_col(self, col: str) -> str:
         """
@@ -1597,6 +1577,112 @@ class MySQLUploader:
         safe = self._validate_identifier(col)
         return safe if self.case_sensitive else safe.lower()
+    def _update_indexes(self, db_name: str, table_name: str, indexes: Optional[List[str]]):
+        """
+        更新索引，避免重复添加或更新，同时注意大小写一致性。
+        :param db_name: 数据库名
+        :param table_name: 表名
+        :param indexes: 需要更新的索引列列表
+        """
+        if not indexes:
+            return
+        # 规范化索引列名
+        normalized_indexes = [self._normalize_col(idx) for idx in indexes]
+        # 获取现有索引
+        try:
+            existing_indexes = self._get_existing_indexes(db_name, table_name)
+        except Exception as e:
+            logger.error('获取现有索引时发生错误', {'库': db_name, '表': table_name, '错误': str(e)})
+            raise
+        # 获取表中现有的列名
+        try:
+            existing_columns = self._get_existing_indexes(db_name, table_name)
+        except Exception as e:
+            logger.error('获取现有列时发生错误', {'库': db_name, '表': table_name, '错误': str(e)})
+            raise
+        # 找出需要添加的索引
+        indexes_to_add = [idx for idx in normalized_indexes if idx not in existing_indexes and idx in existing_columns]
+        # 添加新索引
+        for idx in indexes_to_add:
+            try:
+                self._add_index(db_name, table_name, idx)
+            except Exception as e:
+                logger.error('添加索引时发生错误', {'库': db_name, '表': table_name, '列': idx, '错误': str(e)})
+                raise
+    def _get_existing_indexes(self, db_name: str, table_name: str) -> Set[str]:
+        """
+        获取表中现有的索引列名。
+        :param db_name: 数据库名
+        :param table_name: 表名
+        :return: 现有索引列名的集合
+        """
+        sql = """
+        SELECT COLUMN_NAME
+        FROM INFORMATION_SCHEMA.STATISTICS
+        WHERE TABLE_SCHEMA = %s AND TABLE_NAME = %s
+        """
+        existing_indexes = set()
+        try:
+            with self._get_connection() as conn:
+                with conn.cursor() as cursor:
+                    cursor.execute(sql, (db_name, table_name))
+                    existing_indexes = {row['COLUMN_NAME'] for row in cursor.fetchall()}
+        except Exception as e:
+            logger.error('获取现有索引失败', {'库': db_name, '表': table_name, '错误': str(e)})
+            raise
+        return existing_indexes
+    def _add_index(self, db_name: str, table_name: str, column: str):
+        """
+        添加索引到指定列。
+        :param db_name: 数据库名
+        :param table_name: 表名
+        :param column: 需要添加索引的列名
+        """
+        sql = f'ALTER TABLE `{db_name}`.`{table_name}` ADD INDEX `idx_{column}` (`{column}`)'
+        try:
+            with self._get_connection() as conn:
+                with conn.cursor() as cursor:
+                    cursor.execute(sql)
+            conn.commit()
+            logger.debug('已为列创建索引', {'库': db_name, '表': table_name, '列': column})
+        except Exception as e:
+            logger.error('创建索引失败', {'库': db_name, '表': table_name, '列': column, '错误': str(e)})
+            raise
+    def __enter__(self):
+        return self
+    def close(self) -> None:
+        """
+        关闭连接池并清理资源
+        这个方法会安全地关闭数据库连接池，并清理相关资源。
+        建议结束时手动调用此方法。
+        :raises: 可能抛出关闭连接时的异常
+        """
+        try:
+            if hasattr(self, 'pool') and self.pool is not None:
+                try:
+                    self.pool = None
+                except Exception as e:
+                    logger.warning('关闭连接池时出错', {'error': str(e)})
+                logger.debug('finished', {'uploader.py': '连接池关闭'})
+        except Exception as e:
+            logger.error('关闭连接池失败', {'uploader.py': str(e)})
+            raise
+    def __exit__(self, exc_type, exc_val, exc_tb):
+        self.close()
 def main():
     dir_path = os.path.expanduser("~")

{mdbq-4.0.5.dist-info → mdbq-4.0.7.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.2
 Name: mdbq
-Version: 4.0.5
+Version: 4.0.7
 Home-page: https://pypi.org/project/mdbq
 Author: xigua,
 Author-email: 2587125111@qq.com

{mdbq-4.0.5.dist-info → mdbq-4.0.7.dist-info}/RECORD RENAMED Viewed

@@ -1,7 +1,7 @@
 mdbq/__init__.py,sha256=Il5Q9ATdX8yXqVxtP_nYqUhExzxPC_qk_WXQ_4h0exg,16
-mdbq/__version__.py,sha256=K0JdqT-aY_eW77ySyyxnpc599EoZ9CKOLZg_w5AvAnM,17
+mdbq/__version__.py,sha256=P_9fJTmoyR1p3XJm_JFEO3dJnSh6VG8WMZKVuiE0his,17
 mdbq/aggregation/__init__.py,sha256=EeDqX2Aml6SPx8363J-v1lz0EcZtgwIBYyCJV6CcEDU,40
-mdbq/aggregation/query_data.py,sha256=3GBdX0HWKvQ-B3NiZE_hzWbJ7sqClzCd8KTvXpVPnZ4,170452
+mdbq/aggregation/query_data.py,sha256=Y9AC6xJgZmyZAezz_faRxwo80ev1MxvFEfvzLT2mP_U,165403
 mdbq/config/__init__.py,sha256=jso1oHcy6cJEfa7udS_9uO5X6kZLoPBF8l3wCYmr5dM,18
 mdbq/config/config.py,sha256=eaTfrfXQ65xLqjr5I8-HkZd_jEY1JkGinEgv3TSLeoQ,3170
 mdbq/log/__init__.py,sha256=Mpbrav0s0ifLL7lVDAuePEi1hJKiSHhxcv1byBKDl5E,15
@@ -11,8 +11,8 @@ mdbq/mysql/__init__.py,sha256=A_DPJyAoEvTSFojiI2e94zP0FKtCkkwKP1kYUCSyQzo,11
 mdbq/mysql/deduplicator.py,sha256=8v3MC6TJ0YEiExWrTP9OXAxTYnL9XbpYL2vWaER1h2M,73099
 mdbq/mysql/mysql.py,sha256=pDg771xBugCMSTWeskIFTi3pFLgaqgyG3smzf-86Wn8,56772
 mdbq/mysql/s_query.py,sha256=RnVCwMQ_n9PcAimbMWbHe9k8eil8shtCfa3LwLBZi6c,41909
-mdbq/mysql/unique_.py,sha256=Wgqq_PjAAD757JTa10wjYaJgssZ_C_ypU6DW56jbuyw,21074
-mdbq/mysql/uploader.py,sha256=bYE_VGTeEigpRFYvZ9Ob3A9vxq21NuOdrXFkv8Bm_p8,74919
+mdbq/mysql/unique_.py,sha256=LZKa1LXQdy_aO78ekO1Ul2MNA-k3Sz4-4W5nF2gD8AM,21068
+mdbq/mysql/uploader.py,sha256=OtLWoGflmndc7z0A1aK1Qj-XVkWtGyN4Y5YnLsRovJc,78215
 mdbq/other/__init__.py,sha256=jso1oHcy6cJEfa7udS_9uO5X6kZLoPBF8l3wCYmr5dM,18
 mdbq/other/download_sku_picture.py,sha256=YU8DxKMXbdeE1OOKEA848WVp62jYHw5O4tXTjUdq9H0,44832
 mdbq/other/otk.py,sha256=iclBIFbQbhlqzUbcMMoePXBpcP1eZ06ZtjnhcA_EbmE,7241
@@ -25,7 +25,7 @@ mdbq/redis/__init__.py,sha256=YtgBlVSMDphtpwYX248wGge1x-Ex_mMufz4-8W0XRmA,12
 mdbq/redis/getredis.py,sha256=l3zBK7wrZl0oO42-_UGylyatnIp_SBw8wDDvof9fht4,23534
 mdbq/spider/__init__.py,sha256=RBMFXGy_jd1HXZhngB2T2XTvJqki8P_Fr-pBcwijnew,18
 mdbq/spider/aikucun.py,sha256=hPRzLQvFIF4ibN8aP3Dg_ru5meac90faPyzOB22cj-o,20965
-mdbq-4.0.5.dist-info/METADATA,sha256=boklJ7iCN4Uh-Czst1DiQlPrKKSawDIYknmipAd9w5A,363
-mdbq-4.0.5.dist-info/WHEEL,sha256=jB7zZ3N9hIM9adW7qlTAyycLYW9npaWKLRzaoVcLKcM,91
-mdbq-4.0.5.dist-info/top_level.txt,sha256=2FQ-uLnCSB-OwFiWntzmwosW3X2Xqsg0ewh1axsaylA,5
-mdbq-4.0.5.dist-info/RECORD,,
+mdbq-4.0.7.dist-info/METADATA,sha256=wEh7EHOSkdCJOlxYplcNOVPax8CBXEgGM3eKDL-EQaE,363
+mdbq-4.0.7.dist-info/WHEEL,sha256=jB7zZ3N9hIM9adW7qlTAyycLYW9npaWKLRzaoVcLKcM,91
+mdbq-4.0.7.dist-info/top_level.txt,sha256=2FQ-uLnCSB-OwFiWntzmwosW3X2Xqsg0ewh1axsaylA,5
+mdbq-4.0.7.dist-info/RECORD,,

{mdbq-4.0.5.dist-info → mdbq-4.0.7.dist-info}/WHEEL RENAMED Viewed

File without changes

{mdbq-4.0.5.dist-info → mdbq-4.0.7.dist-info}/top_level.txt RENAMED Viewed

File without changes

mdbq 4.0.5__py3-none-any.whl → 4.0.7__py3-none-any.whl

mdbq 4.0.5py3-none-any.whl → 4.0.7py3-none-any.whl