PyPI - mdbq - Versions diffs - 3.2.10__tar.gz → 3.2.12__tar.gz - Mend

mdbq 3.2.10tar.gz → 3.2.12tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (56) hide show

{mdbq-3.2.10 → mdbq-3.2.12}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: mdbq
-Version: 3.2.10
+Version: 3.2.12
 Home-page: https://pypi.org/project/mdbq
 Author: xigua,
 Author-email: 2587125111@qq.com

{mdbq-3.2.10 → mdbq-3.2.12}/mdbq/aggregation/aggregation.py RENAMED Viewed

@@ -52,6 +52,16 @@ if not username:
     print(f'找不到主机：')
+def get_encoding(path):
+    """
+    获取文件的编码方式, 读取速度比较慢，非必要不要使用
+    """
+    with open(path, 'rb') as f:
+        f1 = f.read()
+        encod = chardet.detect(f1).get('encoding')
+    return encod
 class DatabaseUpdateBak:
     """
     清洗文件，并入库，被 tg.py 调用
@@ -1236,20 +1246,22 @@ def one_file_to_mysql(file, db_name, table_name):
     if file.endswith('.xlsx'):
         df = pd.read_excel(file)
     else:
-        df = pd.read_csv(file, encoding='utf-8_sig', header=0, na_filter=False, float_precision='high')
+        encod = get_encoding(file)
+        df = pd.read_csv(file, encoding=encod, header=0, na_filter=False, float_precision='high')
     # df.replace(to_replace=[','], value='', regex=True, inplace=True)  # 替换掉特殊字符
     m = mysql.MysqlUpload(username=username, password=password, host=host, port=port)
+    # df.pop('id')
     m.df_to_mysql(
         df=df,
         db_name=db_name,
         table_name=table_name,
         # icm_update=['sku_id'],  # 增量更新, 在聚合数据中使用，其他不要用
-        move_insert=False,  # 先删除，再插入
+        move_insert=True,  # 先删除，再插入
         df_sql=False,  # 值为 True 时使用 df.to_sql 函数上传整个表, 不会排重
         drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
         count=None,
         filename=None,  # 用来追踪处理进度
-        # reset_id=False,  # 是否重置自增列
+        reset_id=True,  # 是否重置自增列
         # set_typ=set_typ,
     )
@@ -1312,32 +1324,115 @@ def cut_as_year_month(as_month=False):
                         df.to_csv(os.path.join(root, new_name), encoding='utf-8_sig', index=False, header=True)
+def doc_to_sql(write_data=False, read_data=False):
+    if not write_data and not read_data:
+        return
+    # filename = '关于做好2024年世界互联网大会乌镇峰会期间寄递渠道安全保障工作的通知.pdf'
+    path = '/Users/xigua/数据中心/微信pdf文件/2024-10'
+    if not os.path.isdir(path):
+        print(f'不存在的文件夹: {path}')
+        return
+    m_engine = mysql.MysqlUpload(
+        username=username,
+        password=password,
+        host=host,
+        port=port,
+        charset='utf8mb4'
+    )
+    if write_data:
+        for root, dirs, files in os.walk(path, topdown=False):
+            for name in files:
+                if '~$' in name or '.DS' in name or '.localized' in name or 'baidu' in name:
+                    continue
+                if name.endswith('.pdf') or name.endswith('.pptx'):
+                    file_size = os.stat(os.path.join(root, name)).st_size
+                    if file_size > 1024 * 1024 * 1024:
+                        file_size = file_size / 1024 / 1024 / 1024
+                        file_size = f'{file_size:.2f} GB'
+                    elif file_size > 1024 * 1024:
+                        file_size = file_size / 1024 / 1024
+                        file_size = f'{file_size:.2f} MB'
+                    else:
+                        file_size = file_size / 1024
+                        file_size = f'{file_size:.2f} KB'
+                    mod_time = os.path.getmtime(os.path.join(root, name))
+                    local_time = time.localtime(mod_time)
+                    mod_time_formatted = time.strftime('%Y-%m-%d %H:%M:%S', local_time)
+                    # 读取PDF文件为二进制数据
+                    with open(os.path.join(path, name), 'rb') as file:
+                        pdf_data = file.read()
+                    dict_data = {
+                        '日期': datetime.datetime.today().strftime('%Y-%m-%d'),
+                        '数据来源': '微信',
+                        '文件名称': name,
+                        '文件大小': file_size,
+                        '修改时间': mod_time_formatted,
+                        '数据主体': pdf_data,
+                        '扩展名': os.path.splitext(name)[-1],
+                        '更新时间': datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
+                    }
+                    set_typ = {
+                        '日期': 'date',
+                        '数据来源': 'varchar(100)',
+                        '文件名称': 'varchar(255)',
+                        '文件大小': 'varchar(20)',
+                        '修改时间': 'timestamp',
+                        '数据主体': 'longblob',
+                        '扩展名': 'varchar(50)',
+                        '更新时间': 'timestamp',
+                    }
+                    m_engine.doc_to_sql(
+                        db_name='pdf文件',
+                        table_name='微信pdf文件',
+                        remove_by_key=['文件名称'],
+                        dict_data=dict_data,
+                        set_typ=set_typ,
+                        allow_not_null=False,
+                        filename=name,
+                        reset_id=True,
+                    )
+    if read_data:
+        filename=''
+        save_path = '/Users/xigua/Downloads'
+        m_engine.read_doc_data(
+            db_name='pdf文件',
+            table_name='微信pdf文件',
+            column='文件名称',
+            filename=filename,
+            save_path=save_path,
+        )
 if __name__ == '__main__':
+    doc_to_sql(
+        write_data=True,
+        read_data=False,
+    )
     # cut_as_year_month(as_month=False)
     # username = 'root'
     # password = ''
     # host = ''
     # port = ''
-    #
     # # 上传 1 个文件到数据库
     # one_file_to_mysql(
-    #     file=r'/Users/xigua/Downloads/城市等级.csv',
-    #     db_name='属性设置3',
-    #     table_name='城市等级',
+    #     file=r'/Users/xigua/Downloads/日期表.csv',
+    #     db_name='聚合数据test',
+    #     table_name='日期表',
     # )
-    col = 1
-    if col:
-        # 上传一个目录到指定数据库
-        db_name = '爱库存2'
-        table_name = '商品spu榜单'
-        upload_dir(
-            path=r'/Users/xigua/Downloads/数据上传中心',
-            db_name=db_name,
-            collection_name=table_name,
-        )
+    # col = 1
+    # if col:
+    #     # 上传一个目录到指定数据库
+    #     db_name = '爱库存2'
+    #     table_name = '商品spu榜单'
+    #     upload_dir(
+    #         path=r'/Users/xigua/Downloads/数据上传中心',
+    #         db_name=db_name,
+    #         collection_name=table_name,
+    #     )

{mdbq-3.2.10 → mdbq-3.2.12}/mdbq/aggregation/query_data.py RENAMED Viewed

@@ -59,6 +59,7 @@ class MysqlDatasQuery:
         self.update_service = True  # 调试时加，true: 将数据写入 mysql 服务器
         self.pf_datas = []
         self.pf_datas_jd = []  # 京东聚合销售表
+        self.output = set_support.SetSupport(dirname='support')
     @staticmethod
     def try_except(func):  # 在类内部定义一个异常处理方法
@@ -196,9 +197,8 @@ class MysqlDatasQuery:
             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
             count=None,
             filename=None,  # 用来追踪处理进度
-            reset_id=False,  # 是否重置自增列
+            reset_id=True,  # 是否重置自增列
             set_typ=set_typ,
         )
         # df_pic：商品排序索引表, 给 powerbi 中的主推款排序用的,(从上月1号到今天的总花费进行排序)
@@ -337,7 +337,7 @@ class MysqlDatasQuery:
             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
             count=None,
             filename=None,  # 用来追踪处理进度
-            reset_id=False,  # 是否重置自增列
+            reset_id=True,  # 是否重置自增列
             set_typ=set_typ,
         )
         return True
@@ -477,7 +477,7 @@ class MysqlDatasQuery:
             df['人群分类'].fillna('', inplace=True)
         if '人群分类' in df.columns.tolist():
             # 这行决定了，从文件中读取的分类信息优先级高于内部函数的分类规则
-            # 这个 lambda 适配人群名字中带有特定标识的分类，强匹配
+            # 这个 lambda 适配人群名字中带有特定标识的分类，强匹配，自定义命名
             df['人群分类'] = df.apply(
                 lambda x: self.set_crowd(keyword=str(x['人群名字']), as_file=False) if x['人群分类'] == ''
                 else x['人群分类'], axis=1
@@ -527,7 +527,7 @@ class MysqlDatasQuery:
             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
             count=None,
             filename=None,  # 用来追踪处理进度
-            reset_id=False,  # 是否重置自增列
+            reset_id=True,  # 是否重置自增列
             set_typ=set_typ,
         )
         return True
@@ -663,7 +663,7 @@ class MysqlDatasQuery:
             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
             count=None,
             filename=None,  # 用来追踪处理进度
-            reset_id=False,  # 是否重置自增列
+            reset_id=True,  # 是否重置自增列
             set_typ=set_typ,
         )
         return True
@@ -787,7 +787,7 @@ class MysqlDatasQuery:
             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
             count=None,
             filename=None,  # 用来追踪处理进度
-            reset_id=False,  # 是否重置自增列
+            reset_id=True,  # 是否重置自增列
             set_typ=set_typ,
         )
         return True
@@ -900,7 +900,7 @@ class MysqlDatasQuery:
             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
             count=None,
             filename=None,  # 用来追踪处理进度
-            reset_id=False,  # 是否重置自增列
+            reset_id=True,  # 是否重置自增列
             set_typ=set_typ,
         )
         return True
@@ -957,7 +957,7 @@ class MysqlDatasQuery:
             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
             count=None,
             filename=None,  # 用来追踪处理进度
-            reset_id=False,  # 是否重置自增列
+            reset_id=True,  # 是否重置自增列
             set_typ=set_typ,
         )
         return True
@@ -1016,7 +1016,6 @@ class MysqlDatasQuery:
             filename=None,  # 用来追踪处理进度
             reset_id=False,  # 是否重置自增列
             set_typ=set_typ,
         )
         return True
@@ -1123,7 +1122,7 @@ class MysqlDatasQuery:
             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
             count=None,
             filename=None,  # 用来追踪处理进度
-            reset_id=False,  # 是否重置自增列
+            reset_id=True,  # 是否重置自增列
             set_typ=set_typ,
         )
         return True
@@ -1172,7 +1171,6 @@ class MysqlDatasQuery:
             filename=None,  # 用来追踪处理进度
             reset_id=False,  # 是否重置自增列
             set_typ=set_typ,
         )
         return True
@@ -1276,7 +1274,7 @@ class MysqlDatasQuery:
             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
             count=None,
             filename=None,  # 用来追踪处理进度
-            reset_id=False,  # 是否重置自增列
+            reset_id=True,  # 是否重置自增列
             set_typ=set_typ,
         )
@@ -1311,7 +1309,7 @@ class MysqlDatasQuery:
         #     drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
         #     count=None,
         #     filename=None,  # 用来追踪处理进度
-        #     reset_id=False,  # 是否重置自增列
+        #     reset_id=True,  # 是否重置自增列
         #     set_typ=set_typ,
         #
         # )
@@ -1380,7 +1378,7 @@ class MysqlDatasQuery:
             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
             count=None,
             filename=None,  # 用来追踪处理进度
-            reset_id=False,  # 是否重置自增列
+            reset_id=True,  # 是否重置自增列
             set_typ=set_typ,
         )
@@ -1482,7 +1480,7 @@ class MysqlDatasQuery:
             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
             count=None,
             filename=None,  # 用来追踪处理进度
-            reset_id=False,  # 是否重置自增列
+            reset_id=True,  # 是否重置自增列
             set_typ=set_typ,
         )
@@ -1557,7 +1555,7 @@ class MysqlDatasQuery:
             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
             count=None,
             filename=None,  # 用来追踪处理进度
-            reset_id=False,  # 是否重置自增列
+            reset_id=True,  # 是否重置自增列
             set_typ=set_typ,
         )
         return True
@@ -1623,7 +1621,7 @@ class MysqlDatasQuery:
             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
             count=None,
             filename=None,  # 用来追踪处理进度
-            reset_id=False,  # 是否重置自增列
+            reset_id=True,  # 是否重置自增列
             set_typ=set_typ,
         )
@@ -1707,9 +1705,8 @@ class MysqlDatasQuery:
             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
             count=None,
             filename=None,  # 用来追踪处理进度
-            reset_id=False,  # 是否重置自增列
+            reset_id=True,  # 是否重置自增列
             set_typ=set_typ,
         )
         return True
@@ -1898,6 +1895,7 @@ class MysqlDatasQuery:
         start_date, end_date = self.months_data(num=self.months)
         projection = {
             '日期': 1,
+            '场景id': 1,
             '场景名字': 1,
             '花费': 1,
             '展现量': 1,
@@ -1921,10 +1919,10 @@ class MysqlDatasQuery:
         if len(df_tm) > 0:
             df_tm.rename(columns={'场景名字': '营销场景'}, inplace=True)
             df_tm = df_tm.groupby(
-                ['日期', '店铺名称', '营销场景', '花费'],
+                ['日期', '店铺名称', '场景id', '营销场景', '花费', '展现量'],
                 as_index=False).agg(
                 **{
-                    '展现量': ('展现量', np.max),
+                    # '展现量': ('展现量', np.max),
                     '点击量': ('点击量', np.max),
                     '加购量': ('总购物车数', np.max),
                     '成交笔数': ('总成交笔数', np.max),
@@ -1945,10 +1943,10 @@ class MysqlDatasQuery:
         if len(df_tb) > 0:
             df_tb.rename(columns={'场景名字': '营销场景'}, inplace=True)
             df_tb = df_tb.groupby(
-                ['日期', '店铺名称', '营销场景', '花费'],
+                ['日期', '店铺名称', '场景id', '营销场景', '花费', '展现量'],
                 as_index=False).agg(
                 **{
-                    '展现量': ('展现量', np.max),
+                    # '展现量': ('展现量', np.max),
                     '点击量': ('点击量', np.max),
                     '加购量': ('总购物车数', np.max),
                     '成交笔数': ('总成交笔数', np.max),
@@ -2207,7 +2205,7 @@ class MysqlDatasQuery:
             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
             count=None,
             filename=None,  # 用来追踪处理进度
-            reset_id=False,  # 是否重置自增列
+            reset_id=True,  # 是否重置自增列
             set_typ=set_typ,
         )
@@ -2324,7 +2322,7 @@ class MysqlDatasQuery:
             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
             count=None,
             filename=None,  # 用来追踪处理进度
-            reset_id=False,  # 是否重置自增列
+            reset_id=True,  # 是否重置自增列
             set_typ=set_typ,
         )
@@ -2377,7 +2375,7 @@ class MysqlDatasQuery:
             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
             count=None,
             filename=None,  # 用来追踪处理进度
-            reset_id=False,  # 是否重置自增列
+            reset_id=True,  # 是否重置自增列
             set_typ=set_typ,
         )
@@ -2490,7 +2488,7 @@ class MysqlDatasQuery:
             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
             count=None,
             filename=None,  # 用来追踪处理进度
-            reset_id=False,  # 是否重置自增列
+            reset_id=True,  # 是否重置自增列
             set_typ=set_typ,
         )
         return True
@@ -2739,6 +2737,7 @@ class MysqlDatasQuery:
                     '机会',
                     '推荐',
                     '智能定向',
+                    'AI',
                 ]
             },
             {
@@ -2900,7 +2899,7 @@ class MysqlDatasQuery:
             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
             count=None,
             filename=None,  # 用来追踪处理进度
-            reset_id=False,  # 是否重置自增列
+            reset_id=True,  # 是否重置自增列
             set_typ=set_typ,
         )
         return True
@@ -3010,7 +3009,7 @@ class MysqlDatasQuery:
             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
             count=None,
             filename=None,  # 用来追踪处理进度
-            reset_id=False,  # 是否重置自增列
+            reset_id=True,  # 是否重置自增列
             set_typ=set_typ,
         )
         return True
@@ -3081,7 +3080,7 @@ class MysqlDatasQuery:
             drop_duplicates=False,  # 值为 True 时检查重复数据再插入，反之直接上传，会比较慢
             count=None,
             filename=None,  # 用来追踪处理进度
-            reset_id=False,  # 是否重置自增列
+            reset_id=True,  # 是否重置自增列
             set_typ=set_typ,
         )
         return True
@@ -3310,7 +3309,7 @@ if __name__ == '__main__':
     #         future_to_function = {
     #             executor.submit(
     #                 func_query,
-    #                 months=3,
+    #                 months=1,
     #                 less_dict=[],
     #             ),
     #         }

mdbq 3.2.10__tar.gz → 3.2.12__tar.gz

mdbq 3.2.10tar.gz → 3.2.12tar.gz