PyPI - mdbq - Versions diffs - 0.4.5__tar.gz → 1.0.0__tar.gz - Mend

mdbq 0.4.5tar.gz → 1.0.0tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (46) hide show

{mdbq-0.4.5 → mdbq-1.0.0}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: mdbq
-Version: 0.4.5
+Version: 1.0.0
 Home-page: https://pypi.org/project/mdbsql
 Author: xigua,
 Author-email: 2587125111@qq.com

{mdbq-0.4.5 → mdbq-1.0.0}/mdbq/aggregation/aggregation.py RENAMED Viewed

@@ -11,6 +11,7 @@ import platform
 import json
 from mdbq.mongo import mongo
 from mdbq.mysql import mysql
+from mdbq.aggregation import df_types
 from mdbq.config import get_myconf
 from mdbq.config import set_support
 from mdbq.dataframe import converter
@@ -25,109 +26,15 @@ warnings.filterwarnings('ignore')
 1. DatabaseUpdate: 程序用于对爬虫下载的原始数据进行清洗并入库;
     数据清洗主要包括对字段名的非法字符处理，对 df 中的非法值进行预处理;
     数据入库时会较检并更新本地 json 文件的 dtypes 信息;
-    若 json 缺失 dtypes 信息, 可用 update_dtypte 先更新, 或者手动修改添加本地 json 信息;
+    若 json 缺失 dtypes 信息, 可用 update_df_types_to_json 先更新, 或者手动修改添加本地 json 信息;
 2. DataTypes: 类用于将某个csv文件的 dtypes 信息存入本地 json 文件, 会调用 converter 对 df 预处理;
     作用于完善某个数据库 dtypes 信息，可以使用本函数更新;
-3. update_dtypte: 函数将一个 csv 文件的 dtypes 信息更新至本地 json 文件;
+3. update_df_types_to_json: 函数将一个 csv 文件的 dtypes 信息更新至本地 json 文件;
 4. upload: 函数将一个文件夹上传至数据库;
-    如果本地 json 中确实这个数据库的 dtypes 信息, 请用 update_dtypte 更新 json 文件再执行数据上传;
+    如果本地 json 中确实这个数据库的 dtypes 信息, 请用 update_df_types_to_json 更新 json 文件再执行数据上传;
 """
-class DataTypes:
-    """
-    将某表的列信息添加到 json 示例:
-    file = '/Users/xigua/Downloads/天猫直通车旧报表(未排重版本).csv'
-    df = pd.read_csv(file, encoding='utf-8_sig', header=0, na_filter=False)
-    d = DataTypes()
-    d.read_dtypes(
-        df=df,
-        db_name='天猫数据2',
-        collection_name='旧版报表',
-        is_file_dtype=False,  # 关闭文件优先
-    )
-    d.dtypes_to_file()
-    """
-    def __init__(self):
-        self.path = set_support.SetSupport(dirname='support').dirname
-        if not os.path.exists(self.path):
-            os.mkdir(self.path)
-        self.json_file = os.path.join(self.path, 'data_types.json')
-        # self.datas = json.loads('{}')  # 等待写入 json 文件的 dtypes 数据
-        self.datas = {'json统计': {'数据库量': 0, '集合数量': 0, '字段量': 0}}
-        self.json_before()
-    def json_before(self):
-        """ 本地 json 文件的 dtypes 信息, 初始化更新给 self.datas """
-        if os.path.isfile(self.json_file):
-            with open(self.json_file, 'r', encoding='utf-8_sig') as json_file:
-                json_ = json.load(json_file)
-                self.datas.update(json_)
-    def load_dtypes(self, db_name, collection_name, ):
-        return self.datas[db_name][collection_name]
-    def read_dtypes(self, db_name, collection_name, df=pd.DataFrame(), is_file_dtype=True):
-        """
-        读取 df 的 dtypes, 并更新本地 json 文件
-        期间会 清理不合规的列名, 并对数据类型进行转换(尝试将 object 类型转为 int 或 float)
-        返回: df 的 dtypes, 后续使用示例: df = df.astype(dtypes, errors='ignore')
-        is_file_dtype=True: 默认情况下以旧 json 优先, 即允许手动指定 json 文件里面的数据类型
-        """
-        if len(df) == 0:
-            return
-        cv = converter.DataFrameConverter()
-        df = cv.convert_df_cols(df=df)  # 清理 dataframe 列名的不合规字符
-        dtypes = df.dtypes.apply(str).to_dict()
-        dtypes = {db_name: {collection_name: dtypes}}
-        if not self.datas:  # 如果不存在本地 json 文件, 直接返回即可
-            self.datas.update(dtypes)
-            return self.datas[db_name][collection_name]
-        else:  # 存在则读取，并更新 df 的 dtypes
-            if db_name in list(self.datas.keys()):  # ['京东数据2', '天猫数据2', '生意参谋数据2', '生意经2']
-                if collection_name in list(self.datas[db_name].keys()):
-                    if is_file_dtype:  # 旧数据优先
-                        # # 用 dtypes 更新, 允许手动指定 json 文件里面的数据类型
-                        dtypes[db_name][collection_name].update(self.datas[db_name][collection_name])
-                        # 将 dtypes 更新进去，使 self.datas 包含新旧信息
-                        self.datas[db_name][collection_name].update(dtypes[db_name][collection_name])
-                    else:  # 新数据优先
-                        self.datas[db_name][collection_name].update(dtypes[db_name][collection_name])
-                else:
-                    if is_file_dtype:  # 旧数据优先
-                        dtypes[db_name].update(self.datas[db_name])
-                        self.datas[db_name].update(dtypes[db_name])
-                    else:
-                        self.datas[db_name].update(dtypes[db_name])
-            else:
-                # dtypes.update(self.datas)  # 可以注释掉, 因为旧数据 self.datas 是空的
-                self.datas.update(dtypes)
-            dbs = 0
-            collections = 0
-            cols = 0
-            # self.datas.pop('json统计')
-            for k, v in self.datas.items():
-                if k == 'json统计':
-                    continue
-                dbs += 1
-                for d, j in v.items():
-                    collections += 1
-                    for t, p in j.items():
-                        cols += 1
-            tips = {'json统计': {'数据库量': dbs, '集合数量': collections, '字段量': cols}}
-            self.datas.update(tips)
-            return self.datas[db_name][collection_name]  # 返回 df 的 dtypes
-    def dtypes_to_file(self):
-        """ 保存为本地 json 文件 """
-        # print(self.datas)
-        with open(self.json_file, 'w', encoding='utf-8_sig') as f:
-            json.dump(self.datas, f, ensure_ascii=False, sort_keys=True, indent=4)
-        time.sleep(1)
 class DatabaseUpdate:
     def __init__(self, path):
         self.path = path  # 数据所在目录, 即: 下载文件夹
@@ -142,7 +49,6 @@ class DatabaseUpdate:
             print(f'1.1.0 初始化时传入了不存在的目录: {self.path}')
             return
-        json_data = DataTypes()  # json 文件, 包含数据的 dtypes 信息
         for root, dirs, files in os.walk(self.path, topdown=False):
             for name in files:
                 if '~$' in name or '.DS' in name or '.localized' in name or '.ini' in name or '$RECYCLE.BIN' in name or 'Icon' in name:
@@ -680,13 +586,6 @@ class DatabaseUpdate:
                     except Exception as e:
                         print(f'{name},  {e}')
                 if len(df) > 0:
-                    # 创建包含 dtypes 信息的 json 文件
-                    json_data.read_dtypes(
-                        df=df,
-                        db_name=db_name,
-                        collection_name=collection_name,
-                        is_file_dtype=True,  # 默认本地文件优先: True
-                    )
                     # 将数据传入 self.datas 等待更新进数据库
                     self.datas.append(
                         {
@@ -695,10 +594,8 @@ class DatabaseUpdate:
                             '数据主体': df,
                         }
                     )
-        json_data.dtypes_to_file()  # 写入 json 文件, 包含数据的 dtypes 信息
         # 品销宝一个表格里面包含多个 sheet, 最好是单独处理
-        json_data = DataTypes()  # json 文件, 包含数据的 dtypes 信息
         for root, dirs, files in os.walk(self.path, topdown=False):
             for name in files:
                 if '~$' in name or '.DS' in name or '.localized' in name or '.jpg' in name or '.png' in name:
@@ -720,12 +617,6 @@ class DatabaseUpdate:
                         df.insert(loc=1, column='报表类型', value=sheet4)
                         db_name = '天猫数据2'
                         collection_name = f'推广数据_品销宝_{sheet4}'
-                        json_data.read_dtypes(
-                            df=df,
-                            db_name=db_name,
-                            collection_name=collection_name,
-                            is_file_dtype=False,
-                        )
                         self.datas.append(
                             {
                                 '数据库名': db_name,
@@ -735,7 +626,6 @@ class DatabaseUpdate:
                         )
                     if is_move:
                         os.remove(os.path.join(root, name))
-        json_data.dtypes_to_file()  # 写入 json 文件, 包含数据的 dtypes 信息
         df = self.date_table()  # 创建一个日期表
         self.datas.append(
@@ -750,6 +640,7 @@ class DatabaseUpdate:
         """
         将清洗后的 df 上传数据库
         """
+        df_to_json = dtypes.DataTypes()  # json 文件, 包含数据的 dtypes 信息
         for service_database in service_databases:
             for service_name, database in service_database.items():
                 # print(service_name, database)
@@ -766,7 +657,13 @@ class DatabaseUpdate:
                         drop_duplicates=False,
                     )
                     for data in self.datas:
-                        df, db_name, collection_name = data['数据主体'], data['数据库名'], data['集合名称']
+                        db_name, collection_name, df = data['数据库名'], data['集合名称'], data['数据主体']
+                        df_to_json.get_df_types(
+                            df=df,
+                            db_name=db_name,
+                            collection_name=collection_name,
+                            is_file_dtype=True,  # 默认本地文件优先: True
+                        )
                         d.df_to_mongo(df=df, db_name=db_name, collection_name=collection_name)
                 elif database == 'mysql':
@@ -782,7 +679,14 @@ class DatabaseUpdate:
                     )
                     for data in self.datas:
                         df, db_name, collection_name = data['数据主体'], data['数据库名'], data['集合名称']
+                        df_to_json.get_df_types(
+                            df=df,
+                            db_name=db_name,
+                            collection_name=collection_name,
+                            is_file_dtype=True,  # 默认本地文件优先: True
+                        )
                         m.df_to_mysql(df=df, db_name=db_name, tabel_name=collection_name)
+                df_to_json.as_json_file()  # 写入 json 文件, 包含数据的 dtypes 信息
     def new_unzip(self, path=None, is_move=None):
         """
@@ -929,26 +833,9 @@ class DatabaseUpdate:
         df.sort_values('日期', ascending=False, ignore_index=True, inplace=True)
         return df
-def update_dtypte():
-    """ 更新一个文件的 dtype 信息到 json 文件 """
-    file = '/Users/xigua/数据中心/原始文件2/月数据/流量来源/【生意参谋平台】无线店铺流量来源-2023-04-01_2023-04-30.csv'
-    df = pd.read_csv(file, encoding='utf-8_sig', header=0, na_filter=False)
-    d = DataTypes()
-    d.read_dtypes(
-        df=df,
-        db_name='生意参谋数据2',
-        collection_name='店铺来源_月数据',
-        is_file_dtype=True,  # 日常需开启文件优先, 正常不要让新文件修改 json 已有的类型
-    )
-    d.dtypes_to_file()
-def upload():
+def upload(path, db_name, collection_name):
     """ 上传一个文件夹到数据库 """
-    path = '/Users/xigua/数据中心/原始文件2/生意经/店铺指标'
-    db_name = '生意经2'
-    collection_name = '店铺指标'
     username, password, host, port = get_myconf.select_config_values(
         target_service='home_lx',
         database='mongodb',
@@ -981,8 +868,8 @@ def upload():
         port=port,
     )
-    dt = DataTypes()
-    dtypes = dt.load_dtypes(
+    df_to_json = df_types.DataTypes()
+    dtypes = df_to_json.load_dtypes(
         db_name=db_name,
         collection_name=collection_name,
     )
@@ -1007,8 +894,6 @@ def upload():
                         intersection_keys = dtypes.keys() & old_dt.keys()  # 获取两个字典键的交集
                         dtypes = {k: dtypes[k] for k in intersection_keys}  # 使用交集的键创建新字典
                         df = df.astype(dtypes)
-                        # print(intersection_dict)
-                    # print(df)
                     d.df_to_mongo(df=df, db_name=db_name, collection_name=collection_name)
                     m.df_to_mysql(df=df, db_name=db_name, tabel_name=collection_name)
@@ -1034,6 +919,8 @@ def main():
 if __name__ == '__main__':
     # username, password, host, port = get_myconf.select_config_values(target_service='nas', database='mysql')
     # print(username, password, host, port)
-    main()
-    # upload()
+    upload(
+        path='/Users/xigua/数据中心/原始文件2/生意经/地域分布',
+        db_name = '生意经2',
+        collection_name = '省份城市分析',
+    )

mdbq-1.0.0/mdbq/aggregation/df_types.py ADDED Viewed

@@ -0,0 +1,180 @@
+# -*- coding:utf-8 -*-
+import warnings
+import pandas as pd
+import numpy as np
+import chardet
+import zipfile
+from numpy import dtype
+from pandas.tseries.holiday import next_monday
+from pyzipper import PyZipFile
+import os
+import platform
+import json
+import pymysql
+from mdbq.mongo import mongo
+from mdbq.mysql import mysql
+from mdbq.mysql import s_query
+from mdbq.config import get_myconf
+from mdbq.config import set_support
+from mdbq.dataframe import converter
+import datetime
+import time
+import re
+import shutil
+import getpass
+from sqlalchemy.dialects.postgresql.pg_catalog import pg_get_serial_sequence
+warnings.filterwarnings('ignore')
+"""
+1. 记录 dataframe 或者数据库的列信息(dtypes)
+2. 更新 mysql 中所有数据库的 dtypes 信息到本地 json
+"""
+class DataTypes:
+    """
+     数据简介: 记录 dataframe 或者数据库的列信息(dtypes)，可以记录其信息或者加载相关信息用于入库使用，
+     第一字段为分类(如 dataframe/mysql)，第二字段为数据库名，第三字段为集合名，第四段列名及其数据类型
+    """
+    def __init__(self):
+        self.datas = {
+            "json统计":
+                {
+                    "字段量": 0,
+                    "数据库量": 0,
+                    "集合数量": 0
+                }
+        }
+        self.path = set_support.SetSupport(dirname='support').dirname
+        self.json_file = os.path.join(self.path, 'df_types.json')
+        if not os.path.isdir(self.path):
+            os.makedirs(self.path)
+        if not os.path.isfile(self.json_file):
+            with open(self.json_file, 'w', encoding='utf-8_sig') as f:
+                json.dump(self.datas, f, ensure_ascii=False, sort_keys=True, indent=4)
+        self.json_before()
+    def json_before(self):
+        """ 本地 json 文件的 dtypes 信息, 初始化更新给 self.datas """
+        with open(self.json_file, 'r', encoding='utf-8_sig') as f:
+            json_ = json.load(f)
+            self.datas.update(json_)
+    def get_df_types(self, db_name, collection_name, df=pd.DataFrame(), is_file_dtype=True):
+        """
+        读取 df 的 dtypes, 并更新本地 json 文件
+        期间会 清理不合规的列名, 并对数据类型进行转换(尝试将 object 类型转为 int 或 float)
+        返回: df 的 dtypes, 后续使用示例: df = df.astype(dtypes, errors='ignore')
+        is_file_dtype=True: 默认情况下以旧 json 优先, 即允许手动指定 json 文件里面的数据类型
+        """
+        if len(df) == 0:
+            return
+        cv = converter.DataFrameConverter()
+        df = cv.convert_df_cols(df=df)  # 清理 dataframe 非法值
+        dtypes = df.dtypes.apply(str).to_dict()
+        dtypes = {db_name: {collection_name: dtypes}}
+        if not self.datas:  # 如果不存在本地 json 文件, 直接返回即可
+            self.datas.update(dtypes)
+            return self.datas[db_name][collection_name]
+        else:  # 存在则读取，并更新 df 的 dtypes
+            if db_name in list(self.datas.keys()):  # ['京东数据2', '天猫数据2', '生意参谋数据2', '生意经2']
+                if collection_name in list(self.datas[db_name].keys()):
+                    if is_file_dtype:  # 旧数据优先
+                        # # 用 dtypes 更新, 允许手动指定 json 文件里面的数据类型
+                        dtypes[db_name][collection_name].update(self.datas[db_name][collection_name])
+                        # 将 dtypes 更新进去，使 self.datas 包含新旧信息
+                        self.datas[db_name][collection_name].update(dtypes[db_name][collection_name])
+                    else:  # 新数据优先
+                        self.datas[db_name][collection_name].update(dtypes[db_name][collection_name])
+                else:
+                    if is_file_dtype:  # 旧数据优先
+                        dtypes[db_name].update(self.datas[db_name])
+                        self.datas[db_name].update(dtypes[db_name])
+                    else:
+                        self.datas[db_name].update(dtypes[db_name])
+            else:
+                # dtypes.update(self.datas)  # 可以注释掉, 因为旧数据 self.datas 是空的
+                self.datas.update(dtypes)
+            dbs = 0
+            collections = 0
+            cols = 0
+            # self.datas.pop('json统计')
+            for k, v in self.datas.items():
+                if k == 'json统计':
+                    continue
+                dbs += 1
+                for d, j in v.items():
+                    collections += 1
+                    for t, p in j.items():
+                        cols += 1
+            tips = {'json统计': {'数据库量': dbs, '集合数量': collections, '字段量': cols}}
+            self.datas.update(tips)
+            return self.datas[db_name][collection_name]  # 返回 df 的 dtypes
+    def as_json_file(self):
+        """ 保存为本地 json 文件 """
+        with open(self.json_file, 'w', encoding='utf-8_sig') as f:
+            json.dump(
+                self.datas,
+                f,
+                ensure_ascii=False,  # 默认True，非ASCII字符将被转义。如为False，则非ASCII字符会以\uXXXX输出
+                sort_keys=True,  # 默认为False。如果为True，则字典的输出将按键排序。
+                indent=4,
+            )
+        time.sleep(1)
+    def df_dtypes_to_json(self, db_name, collection_name, path, df=pd.DataFrame(), is_file_dtype=True):
+        if len(df) == 0:
+            return
+        cv = converter.DataFrameConverter()
+        df = cv.convert_df_cols(df=df)  # 清理 dataframe 列名的不合规字符
+        dtypes = df.dtypes.apply(str).to_dict()
+        dtypes = {'dataframe': {db_name: {collection_name: dtypes}}}
+        self.dtypes_to_json(dtypes=dtypes, cl='dataframe', db_name=db_name, collection_name=collection_name, path=path, is_file_dtype=is_file_dtype)
+    def load_dtypes(self, db_name, collection_name):
+        if db_name in list(self.datas.keys()):
+            if collection_name in list(self.datas[db_name].keys()):
+                return self.datas[db_name][collection_name]
+            else:
+                print(f'不存在的集合名信息: {collection_name}, 文件位置: {self.json_file}')
+                return {}
+        else:
+            print(f'不存在的数据库信息: {db_name}, 文件位置: {self.json_file}')
+            return {}
+def update_df_types_to_json(file, db_name, collection_name, is_file_dtype=True):
+    """ 更新一个文件的 dtype 信息到 json 文件 """
+    df = pd.read_csv(file, encoding='utf-8_sig', header=0, na_filter=False)
+    df_to_json = DataTypes()
+    df_to_json.get_df_types(
+        df=df,
+        db_name=db_name,
+        collection_name=collection_name,
+        is_file_dtype=is_file_dtype,  # 日常需开启文件优先, 正常不要让新文件修改 json 已有的类型
+    )
+    df_to_json.as_json_file()
+    print(f'json文件已存储: {df_to_json.json_file}')
+def test_load_dtypes(db_name, collection_name):
+    d = DataTypes()
+    res = d.load_dtypes(db_name=db_name, collection_name=collection_name)
+    print(res)
+if __name__ == '__main__':
+    file = '/Users/xigua/数据中心/pandas数据源/店铺日报.csv'
+    update_df_types_to_json(
+        file=file,
+        db_name='pandas数据源',
+        collection_name='店铺日报',
+        is_file_dtype=True,
+    )
+    # test_load_dtypes(db_name='pandas数据源', collection_name='店铺日报')

mdbq 0.4.5__tar.gz → 1.0.0__tar.gz

mdbq 0.4.5tar.gz → 1.0.0tar.gz