PyPI - mdbq - Versions diffs - 3.3.15__py3-none-any.whl → 3.3.16__py3-none-any.whl - Mend

mdbq 3.3.15py3-none-any.whl → 3.3.16py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

mdbq/aggregation/datashow.py CHANGED Viewed

@@ -1,5 +1,6 @@
 # -*- coding: UTF-8 –*-
 import os
+import re
 import socket
 import platform
 import datetime
@@ -444,7 +445,7 @@ class DataShow:
             yref='paper',
             showarrow=False,  # 显示箭头
             align="left",  # 文本对齐方式
-            font=dict(size=16),
+            font=dict(size=14),
         )
         fig.update_layout(
             title_text=f'多店推广花费_按日聚合',
@@ -499,12 +500,11 @@ class DataShow:
                 print(f'{table_name}: 数据长度不能为 0')
                 continue
             df['日期'] = pd.to_datetime(df['日期'])
             df['商品id'] = df['商品id'].astype('int64')
             df = df[df['商品id'] == int(item_id)]
-            last_date = df['日期'].max()
             # 对数据进行筛选
             df = df[
-                (df['日期'] == last_date) &
                 ~df['标签名称'].str.contains('unknown', case=False) &
                 (df['洞察类型'] == lab) &
                 (df['行为类型'] == option) &
@@ -515,6 +515,7 @@ class DataShow:
         fig = make_subplots(rows=2, cols=3)
         # 在每个子图中绘制柱形图
         count = 0
+        sv_date = {}
         for table_name, df in dict_list.items():
             if len(df) == 0:
                 count += 1
@@ -522,7 +523,12 @@ class DataShow:
             # print(count, table_name)
             if count > 5:
                 break
-            labels = df['标签名称'].tolist()
+            last_date = df['日期'].max()
+            sv_date.update({table_name: last_date.strftime('%Y-%m-%d')})
+            df = df[df['日期'] == last_date]
+            # 先进行排序，以便柱形图从高到底
+            df.sort_values(['标签人群数量'], ascending=[False], ignore_index=True, inplace=True)
+            labels = df['标签名称'].tolist()  # 由于上面有自定义排序，labels 和 values 要放在一起
             values = df['标签人群数量'].tolist()
             df['Percentage'] = df['标签人群数量'] / df['标签人群数量'].sum() * 100
             percentages = df['Percentage']
@@ -530,8 +536,10 @@ class DataShow:
                 x=labels,
                 y=values,
                 name=table_name,
+                orientation='v',  # 垂直柱形图
                 text=percentages.map('{:.2f}%'.format),  # 设置要显示的文本（百分比）
                 # textposition = 'outside',  # 设置文本位置在柱形图外部
+                width=0.55  # 调整柱子最大宽度
             )
             row = count // 3 + 1
             col = count % 3 + 1
@@ -541,20 +549,20 @@ class DataShow:
                 col=col,
             )
             if count < 3:
-                x = 0.01 + 0.395 * (count)
+                x = 0.01 + 0.385 * (count)
                 y = 1.04
             else:
-                x = 0.01 + 0.395 * (count % 3)
+                x = 0.01 + 0.385 * (count % 3)
                 y = 1.04 - 0.59 * (count // 3)
             fig.add_annotation(
-                text=table_name,
+                text=f'{table_name}',
                 x=x,
                 y=y,
                 xref='paper',  # # 相对于整个图表区域
                 yref='paper',
                 showarrow=False,  # 显示箭头
                 align="left",  # 文本对齐方式
-                font=dict(size=16),
+                font=dict(size=15),
             )
             count += 1
@@ -573,7 +581,7 @@ class DataShow:
             # legend=dict(orientation="h")
         )
         fig.add_annotation(
-            text=f'数据日期: {last_date.strftime('%Y-%m-%d')}    统计范围: {lab}/{option} {d_str}',
+            text=f'统计范围: {lab}/{option} {d_str}',
             x=0.5,
             y=-0.1,
             xref='paper',  # # 相对于整个图表区域
@@ -582,17 +590,166 @@ class DataShow:
             align="left",  # 文本对齐方式
             font=dict(size=14),
         )
+        fig.add_annotation(
+            text=re.sub('[{}\',]', '', str(sv_date)),
+            x=0.5,
+            y=-0.135,
+            xref='paper',  # # 相对于整个图表区域
+            yref='paper',
+            showarrow=False,  # 显示箭头
+            align="left",  # 文本对齐方式
+            font=dict(size=12),
+        )
+        fig.write_html(os.path.join(self.path, f'{filename}.html'))
+    def crowd(self, db_name='人群画像2', table_list=None, pro_list=None, filename='达摩盘人群画像', crowd_id=None, last_date=None):
+        # item_ids = [696017020186, 714066010148, 830890472575]
+        if not pro_list:
+            pro_list = ['日期', '店铺名称', '人群id', '人群名称', '标签名称', '标签人群数量']
+        if not table_list:
+            table_list = [
+                '消费能力等级',
+                '用户年龄',
+                '月均消费金额',
+                '大快消策略人群',
+                '店铺潜新老客',
+                '城市等级',
+                '用户职业',
+            ]
+        if not crowd_id:
+            crowd_id = 40457369
+        dict_list = {}
+        for table_name in table_list:
+            df = self.getdata(db_name=db_name, table_name=table_name, pro_list=pro_list)
+            if len(df) == 0:
+                print(f'{table_name}: 数据长度不能为 0')
+                continue
+            df['日期'] = pd.to_datetime(df['日期'])
+            df['人群id'] = df['人群id'].astype('int64')
+            df = df[df['人群id'] == int(crowd_id)]
+            # 对数据进行筛选
+            df = df[
+                (df['店铺名称'] == '万里马官方旗舰店')
+                # ~df['标签名称'].str.contains('unknown', case=False)
+            ]
+            dict_list.update({table_name: df})
+        crowd_name = df.head(1)['人群名称'].tolist()[0] # 随便取一条数据读取人群名称
+        fig = make_subplots(rows=2, cols=3)
+        # 在每个子图中绘制柱形图
+        count = 0
+        sv_date = {}
+        unknown_dict = {}
+        for table_name, df in dict_list.items():
+            if len(df) == 0:
+                count += 1
+                continue
+            # print(count, table_name)
+            if count > 5:
+                break
+            last_date = df['日期'].max()
+            df = df[df['日期'] == last_date]
+            unknown = df[df['标签名称'].str.contains('unknown', case=False)]
+            if len(unknown) > 0:
+                unknown = unknown['标签人群数量'].tolist()[0]  # 未知人群数量值
+            df = df[~df['标签名称'].str.contains('unknown', case=False)]
+            # 先进行排序，以便柱形图从高到底
+            df.sort_values(['标签人群数量'], ascending=[False], ignore_index=True, inplace=True)
+            labels = df['标签名称'].tolist()  # 由于上面有自定义排序，labels 和 values 要放在一起
+            values = df['标签人群数量'].tolist()
+            crowd_sum = df['标签人群数量'].values.sum()
+            sv_date.update({table_name: crowd_sum})
+            unknown_dict.update({table_name: unknown})
+            df['Percentage'] = df['标签人群数量'] / df['标签人群数量'].sum() * 100
+            percentages = df['Percentage']
+            bar = go.Bar(
+                x=labels,
+                y=values,
+                name=table_name,
+                orientation='v',  # 垂直柱形图
+                text=percentages.map('{:.2f}%'.format),  # 设置要显示的文本（百分比）
+                # textposition = 'outside',  # 设置文本位置在柱形图外部
+                width=0.55  # 调整柱子最大宽度
+            )
+            row = count // 3 + 1
+            col = count % 3 + 1
+            fig.add_trace(
+                bar,
+                row=row,
+                col=col,
+            )
+            if count < 3:
+                x = 0.01 + 0.42 * (count)
+                y = 1.04
+            else:
+                x = 0.01 + 0.42 * (count % 3)
+                y = 1.04 - 0.59 * (count // 3)
+            fig.add_annotation(
+                text=f'{table_name}  人群数量: {crowd_sum}',
+                x=x,
+                y=y,
+                xref='paper',  # # 相对于整个图表区域
+                yref='paper',
+                showarrow=False,  # 显示箭头
+                align="left",  # 文本对齐方式
+                font=dict(size=15),
+            )
+            count += 1
+        fig.update_layout(
+            title_text=f'达摩盘人群画像    人群id: {crowd_id} / 人群名字: 【{crowd_name}】',
+            xaxis_title='标签',
+            yaxis_title='人群数量',
+            # width=self.screen_width // 1.4,
+            # height=self.screen_width // 2,
+            margin=dict(
+                l=100,  # 左边距
+                r=100,
+                t=100,  # 上边距
+                b=100,
+            ),
+            # legend=dict(orientation="h")
+        )
+        res = {}
+        for k, v in sv_date.items():
+            res.update({k: int(v)})
+        unknown_res = {}
+        for k, v in unknown_dict.items():
+            unknown_res.update({k: int(v)})
+        fig.add_annotation(
+            text=f'分析人群数量:  {re.sub('[{}\',]', '', str(res))}',
+            x=0.5,
+            y=-0.1,
+            xref='paper',  # # 相对于整个图表区域
+            yref='paper',
+            showarrow=False,  # 显示箭头
+            align="left",  # 文本对齐方式
+            font=dict(size=12),
+        )
+        fig.add_annotation(
+            text=f'与官方统计存在差异，官方计算中包含未知人群，数量为:  {re.sub('[{}\',]', '', str(unknown_res))}，未知人群占比越大，同官方差异越大',
+            x=0.5,
+            y=-0.135,
+            xref='paper',  # # 相对于整个图表区域
+            yref='paper',
+            showarrow=False,  # 显示箭头
+            align="left",  # 文本对齐方式
+            font=dict(size=12),
+        )
         fig.write_html(os.path.join(self.path, f'{filename}.html'))
 def main():
     ds = DataShow()
-    # ds.dpll()
-    # ds.tg(
-    #     days=15,
-    #     # start_date='2024-11-01',
-    #     # end_date='2024-11-30',
-    # )
+    ds.dpll()
+    ds.tg(
+        days=15,
+        # start_date='2024-11-01',
+        # end_date='2024-11-30',
+    )
     ds.item_crowd(
         item_id=839148235697,
         lab='全部渠道',
@@ -600,6 +757,10 @@ def main():
         last_date=None,
         d_str='近30天',
     )
+    ds.crowd(
+        crowd_id=40457166,
+        last_date=None,
+    )
 if __name__ == '__main__':

mdbq/aggregation/query_data.py CHANGED Viewed

@@ -482,19 +482,37 @@ class MysqlDatasQuery:
                 }
             )
         df.insert(loc=1, column='推广渠道', value='万相台无界版')  # df中插入新列
+        # 开始处理用户特征
+        df_sx = self.download.data_to_df(
+            db_name='达摩盘3',
+            table_name=f'我的人群属性',
+            start_date=start_date,
+            end_date=end_date,
+            projection={'人群名称': 1, '消费能力等级': 1, '用户年龄': 1},
+        )
+        df_sx['人群名称'] = df_sx['人群名称'].apply(lambda x: f'达摩盘：{x}')
+        df_sx.rename(columns={'消费能力等级': '消费力层级'}, inplace=True)
+        df = pd.merge(df, df_sx, left_on=['人群名字'], right_on=['人群名称'], how='left')
+        df.pop('人群名称')
+        df['消费力层级'] = df['消费力层级'].apply(lambda x: f'L{"".join(re.findall(r'L(\d)', str(x)))}' if str(x) != 'nan'  else x)
+        df['用户年龄'] = df['用户年龄'].apply(lambda x: "~".join(re.findall(r'(\d{2})\D.*(\d{2})岁', str(x))[0]) if str(x) != 'nan' else x)
         # 1. 匹配 L后面接 2 个或以上数字，不区分大小写，示例：L345
         # 2. 其余情况，L 后面接多个数字的都会被第一条 if 命中，不区分大小写
         df['消费力层级'] = df.apply(
             lambda x:
             ''.join(re.findall(r'(l\d+)', x['人群名字'].upper(), re.IGNORECASE)) if re.findall(r'(l\d{2,})',
                                                                                                x['人群名字'],
-                                                                                               re.IGNORECASE)
-            else 'L5' if re.findall(r'(l\d*5)', x['人群名字'], re.IGNORECASE)
-            else 'L4' if re.findall(r'(l\d*4)', x['人群名字'], re.IGNORECASE)
-            else 'L3' if re.findall(r'(l\d*3)', x['人群名字'], re.IGNORECASE)
-            else 'L2' if re.findall(r'(l\d*2)', x['人群名字'], re.IGNORECASE)
-            else 'L1' if re.findall(r'(l\d*1)', x['人群名字'], re.IGNORECASE)
-            else '', axis=1)
+                                                                                               re.IGNORECASE) and str(x['消费力层级']) == 'nan'
+            else 'L5' if re.findall(r'(l\d*5)', x['人群名字'], re.IGNORECASE) and str(x['消费力层级']) == 'nan'
+            else 'L4' if re.findall(r'(l\d*4)', x['人群名字'], re.IGNORECASE) and str(x['消费力层级']) == 'nan'
+            else 'L3' if re.findall(r'(l\d*3)', x['人群名字'], re.IGNORECASE) and str(x['消费力层级']) == 'nan'
+            else 'L2' if re.findall(r'(l\d*2)', x['人群名字'], re.IGNORECASE) and str(x['消费力层级']) == 'nan'
+            else 'L1' if re.findall(r'(l\d*1)', x['人群名字'], re.IGNORECASE) and str(x['消费力层级']) == 'nan'
+            else x['消费力层级'], axis=1)
         # 1. 匹配连续的 4 个数字且后面不能接数字或"元"或汉字，筛掉的人群示例：月均消费6000元｜受众20240729175213｜xxx2024真皮公文包
         # 2. 匹配 2数字_2数字且前面不能是数字，合法匹配：人群_30_50_促； 非法示例：L345_3040 避免识别出 35～20 岁用户的情况
         # pattern = r'(\d{4})(?!\d|[\u4e00-\u9fa5])'  # 匹配 4 个数字，后面不能接数字或汉字
@@ -506,21 +524,29 @@ class MysqlDatasQuery:
         pattern2 = r'(?<![\dlL])(\d{2}_\d{2})'
         df['用户年龄'] = df.apply(
             lambda x:
-            ''.join(re.findall(pattern1, x['人群名字'].upper())) if re.findall(pattern1, x['人群名字'])
+            ''.join(re.findall(pattern1, x['人群名字'].upper())) if re.findall(pattern1, x['人群名字']) and str(x['用户年龄']) == 'nan'
             # else ''.join(re.findall(r'[^\d|l|L](\d{2}_\d{2})', x['人群名字'].upper())) if re.findall(r'[^\d|l|L](\d{2}_\d{2})', x['人群名字'])
-            else ''.join(re.findall(pattern2, x['人群名字'].upper())) if re.findall(pattern2, x['人群名字'])
+            else ''.join(re.findall(pattern2, x['人群名字'].upper())) if re.findall(pattern2, x['人群名字']) and str(x['用户年龄']) == 'nan'
             else ''.join(re.findall(r'(\d{2}-\d{2})岁', x['人群名字'].upper())) if re.findall(r'(\d{2}-\d{2})岁',
-                                                                                              x['人群名字'])
-            else '', axis=1)
+                                                                                              x['人群名字']) and str(x['用户年龄']) == 'nan'
+            else x['用户年龄'], axis=1)
         df['用户年龄'] = df['用户年龄'].apply(
             lambda x: f'{x[:2]}~{x[2:4]}' if str(x).isdigit()
-            else str(x).replace('_', '~') if '_' in x
-            else str(x).replace('-', '~') if '-' in x
+            else str(x).replace('_', '~') if '_' in str(x)
+            else str(x).replace('-', '~') if '-' in str(x)
             else x
         )
         # 年龄层不能是 0 开头
         df['用户年龄'] = df['用户年龄'].apply(
             lambda x: '' if str(x).startswith('0') else x)
+        df['用户年龄'] = df['用户年龄'].apply(
+            lambda x:
+            re.sub(f'~50', '~49' ,str(x)) if '~50' in str(x) else
+            re.sub(f'~40', '~39', str(x)) if '~40' in str(x) else
+            re.sub(f'~30', '~29' ,str(x)) if '~30' in str(x) else
+            re.sub(r'\d{4}~', '', str(x)) if str(x) != 'nan' else
+            x
+        )
         # df = df.head(1000)
         # df.to_csv('/Users/xigua/Downloads/test.csv', index=False, header=True, encoding='utf-8_sig')
         # breakpoint()
@@ -3809,6 +3835,10 @@ if __name__ == '__main__':
     # query3(months=2, less_dict=[])
     sdq = MysqlDatasQuery()  # 实例化数据处理类
-    sdq.months = 100  # 设置数据周期， 1 表示近 2 个月
+    sdq.months = 1  # 设置数据周期， 1 表示近 2 个月
     sdq.update_service = True  # 调试时加，true: 将数据写入 mysql 服务器
-    sdq.dplyd(db_name='聚合数据', table_name='店铺流量来源构成')
+    sdq.tg_rqbb(db_name='聚合数据', table_name='天猫_人群报表')
+    # string = '30-34岁,35-39岁,40-49岁'
+    # d = "~".join(re.findall(r'(\d+)\D.*\D(\d+)岁', string)[0])
+    # print(d)

{mdbq-3.3.15.dist-info → mdbq-3.3.16.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: mdbq
-Version: 3.3.15
+Version: 3.3.16
 Home-page: https://pypi.org/project/mdbq
 Author: xigua,
 Author-email: 2587125111@qq.com

{mdbq-3.3.15.dist-info → mdbq-3.3.16.dist-info}/RECORD RENAMED Viewed

@@ -2,9 +2,9 @@ mdbq/__init__.py,sha256=Il5Q9ATdX8yXqVxtP_nYqUhExzxPC_qk_WXQ_4h0exg,16
 mdbq/__version__.py,sha256=y9Mp_8x0BCZSHsdLT_q5tX9wZwd5QgqrSIENLrb6vXA,62
 mdbq/aggregation/__init__.py,sha256=EeDqX2Aml6SPx8363J-v1lz0EcZtgwIBYyCJV6CcEDU,40
 mdbq/aggregation/aggregation.py,sha256=-yzApnlqSN2L0E1YMu5ml-W827qpKQvWPCOI7jj2kzY,80264
-mdbq/aggregation/datashow.py,sha256=sNZYwhPraF3KmcYdBVKvVaVoN-jGjh7ALRRLpanzQ6w,25673
+mdbq/aggregation/datashow.py,sha256=2NzHGjGoUy2WG-MxmbilCj6KBAmVah3jqFuEd2zv9XU,32379
 mdbq/aggregation/optimize_data.py,sha256=RXIv7cACCgYyehAxMjUYi_S7rVyjIwXKWMaM3nduGtA,3068
-mdbq/aggregation/query_data.py,sha256=4Fd4dMGi6Cu-KgNTf1OBNYe8InjvpMA5JALxCwvsHyw,173841
+mdbq/aggregation/query_data.py,sha256=FcwaYUom2UGqCRsuGgwfuVdnY86PUOzkCivyoCY2oVQ,175663
 mdbq/bdup/__init__.py,sha256=AkhsGk81SkG1c8FqDH5tRq-8MZmFobVbN60DTyukYTY,28
 mdbq/bdup/bdup.py,sha256=LAV0TgnQpc-LB-YuJthxb0U42_VkPidzQzAagan46lU,4234
 mdbq/config/__init__.py,sha256=jso1oHcy6cJEfa7udS_9uO5X6kZLoPBF8l3wCYmr5dM,18
@@ -34,7 +34,7 @@ mdbq/pbix/refresh_all.py,sha256=OBT9EewSZ0aRS9vL_FflVn74d4l2G00wzHiikCC4TC0,5926
 mdbq/pbix/refresh_all_old.py,sha256=_pq3WSQ728GPtEG5pfsZI2uTJhU8D6ra-htIk1JXYzw,7192
 mdbq/spider/__init__.py,sha256=RBMFXGy_jd1HXZhngB2T2XTvJqki8P_Fr-pBcwijnew,18
 mdbq/spider/aikucun.py,sha256=eAIITxnbbxsR_EoohJ78CRw2dEdfSHOltfpxBrh0cvc,22207
-mdbq-3.3.15.dist-info/METADATA,sha256=ZoivLw_LLapTkSRtAZGP2xvD8jpaBpX53MrIGKJ_LkQ,244
-mdbq-3.3.15.dist-info/WHEEL,sha256=eOLhNAGa2EW3wWl_TU484h7q1UNgy0JXjjoqKoxAAQc,92
-mdbq-3.3.15.dist-info/top_level.txt,sha256=2FQ-uLnCSB-OwFiWntzmwosW3X2Xqsg0ewh1axsaylA,5
-mdbq-3.3.15.dist-info/RECORD,,
+mdbq-3.3.16.dist-info/METADATA,sha256=c2t76yzpaP9kkwDg5y3Ooam9oYe6p4ntlKjWFUjZ464,244
+mdbq-3.3.16.dist-info/WHEEL,sha256=eOLhNAGa2EW3wWl_TU484h7q1UNgy0JXjjoqKoxAAQc,92
+mdbq-3.3.16.dist-info/top_level.txt,sha256=2FQ-uLnCSB-OwFiWntzmwosW3X2Xqsg0ewh1axsaylA,5
+mdbq-3.3.16.dist-info/RECORD,,

{mdbq-3.3.15.dist-info → mdbq-3.3.16.dist-info}/WHEEL RENAMED Viewed

File without changes

{mdbq-3.3.15.dist-info → mdbq-3.3.16.dist-info}/top_level.txt RENAMED Viewed

File without changes

mdbq 3.3.15__py3-none-any.whl → 3.3.16__py3-none-any.whl

mdbq 3.3.15py3-none-any.whl → 3.3.16py3-none-any.whl