PyPI - oafuncs - Versions diffs - 0.0.98.44__py3-none-any.whl → 0.0.98.46__py3-none-any.whl - Mend

oafuncs 0.0.98.44py3-none-any.whl → 0.0.98.46py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

oafuncs/__init__.py +3 -1
oafuncs/_script/email.py +5 -6
oafuncs/oa_cmap.py +3 -0
oafuncs/oa_down/literature.py +265 -41
oafuncs/oa_file.py +8 -4
oafuncs/oa_geo.py +58 -8
oafuncs/oa_linux.py +108 -0
{oafuncs-0.0.98.44.dist-info → oafuncs-0.0.98.46.dist-info}/METADATA +2 -2
{oafuncs-0.0.98.44.dist-info → oafuncs-0.0.98.46.dist-info}/RECORD +12 -11
{oafuncs-0.0.98.44.dist-info → oafuncs-0.0.98.46.dist-info}/WHEEL +0 -0
{oafuncs-0.0.98.44.dist-info → oafuncs-0.0.98.46.dist-info}/licenses/LICENSE.txt +0 -0
{oafuncs-0.0.98.44.dist-info → oafuncs-0.0.98.46.dist-info}/top_level.txt +0 -0

oafuncs/__init__.py CHANGED Viewed

@@ -42,4 +42,6 @@ from .oa_tool import *
 from .oa_date import *
 # ------------------- 2025-03-27 16:56:57 -------------------
 from .oa_geo import *
-# ------------------- 2025-09-04 14:08:26 -------------------
+# ------------------- 2025-09-04 14:08:26 -------------------
+from .oa_linux import *
+# ------------------- 2025-09-14 12:30:00 -------------------

oafuncs/_script/email.py CHANGED Viewed

@@ -1,14 +1,9 @@
-import random
-import smtplib
-from email.header import Header
-from email.mime.multipart import MIMEMultipart
-from email.mime.text import MIMEText
 from rich import print
 __all__ = ["send"]
 def _email_info():
+    import random
     email_dict = {
         "liukun0312@vip.qq.com": [4, 13, -10, 2, -10, 4, -7, -8, 8, -1, 3, -2, -11, -6, -9, -7],
         "756866877@qq.com": [4, -2, -3, 13, 12, 8, -6, 9, -12, 13, -10, -12, -11, -12, -4, -11],
@@ -26,6 +21,10 @@ def _decode_password(password):
 def _send_message(title, content, msg_to):
+    from email.header import Header
+    from email.mime.multipart import MIMEMultipart
+    from email.mime.text import MIMEText
+    import smtplib
     # 1. 连接邮箱服务器
     con = smtplib.SMTP_SSL("smtp.qq.com", 465)

oafuncs/oa_cmap.py CHANGED Viewed

@@ -271,6 +271,9 @@ def get(colormap_name: Optional[str] = None, show_available: bool = False) -> Op
         "diverging_4": ["#5DADE2", "#A2D9F7", "#D6EAF8", "#F2F3F4", "#FADBD8", "#F1948A", "#E74C3C"],
         # ----------------------------------------------------------------------------
         "colorful_1": ["#6d00db", "#9800cb", "#F2003C", "#ff4500", "#ff7f00", "#FE28A2", "#FFC0CB", "#DDA0DD", "#40E0D0", "#1a66f2", "#00f7fb", "#8fff88", "#E3FF00"],
+        # ----------------------------------------------------------------------------
+        "increasing_1": ["#FFFFFF", "#E6F7FF", "#A5E6F8", "#049CD4", "#11B5A3", "#04BC4C", "#74CC54", "#D9DD5C", "#FB922E", "#FC2224", "#E51C18", "#8B0000"],
+        # ----------------------------------------------------------------------------
     }
     if show_available:

oafuncs/oa_down/literature.py CHANGED Viewed

@@ -2,6 +2,7 @@ import os
 import re
 import time
 from pathlib import Path
+from urllib.parse import urljoin
 import pandas as pd
 import requests
@@ -11,7 +12,7 @@ from oafuncs.oa_down.user_agent import get_ua
 from oafuncs.oa_file import remove
 from oafuncs.oa_data import ensure_list
-__all__ = ["download5doi"]
+__all__ = ["download5doi", "download5doi_via_unpaywall"]
 def _get_file_size(file_path, unit="KB"):
@@ -46,75 +47,142 @@ class _Downloader:
     根据doi下载文献pdf
     """
-    def __init__(self, doi, store_path):
+    # 进程级缓存：首次探测后的可用镜像列表，后续复用
+    _alive_mirrors_cache: list[str] | None = None
+    def __init__(self, doi, store_path, *, min_size_kb=50, timeout_html=15, timeout_pdf=30, sleep_secs=5, tries_each_url=3, debug=False):
         self.url_list = [
             r"https://sci-hub.se",
             r"https://sci-hub.ren",
             r"https://sci-hub.st",
-            r"https://sci-hub.ru", # 最好用的一个网站
+            r"https://sci-hub.ru",  # 最好用的一个网站
             # ------------------------------------- 以下网站没验证
-            r"https://sci-hub.wf",
-            r"https://sci-hub.yt",
-            r"https://sci-hub.ee",
-            r"https://sci-hub.cat",
             r"https://sci-hub.in",
-            r"https://www.pismin.com",
-            r"https://sci-hub.vkif.top",
-            r"https://www.bothonce.com",
-            r"https://sci-hub.et-fine.com",
-            r"https://sci-hub.hkvisa.net",
-            # r"https://sci-hub.3800808.com", # 这个只能手动保存
-            r"https://sci-hub.zidianzhan.net",
-            r"https://sci-hub.usualwant.com",
+            r"https://sci-hub.hlgczx.com/",
         ]
         self.base_url = None
         self.url = None
         self.doi = doi
         self.pdf_url = None
         self.pdf_path = None
-        self.headers = {"User-Agent": get_ua().encode("utf-8")}
+        # requests 期望 header 值为 str，这里确保 UA 是字符串而不是 bytes
+        self.headers = {"User-Agent": str(get_ua())}
         # 10.1175/1520-0493(1997)125<0742:IODAOO>2.0.CO;2.pdf
         # self.fname = doi.replace(r'/', '_') + '.pdf'
         self.fname = re.sub(r'[/<>:"?*|]', "_", doi) + ".pdf"
         self.store_path = Path(store_path)
         self.fpath = self.store_path / self.fname
         self.wrong_record_file = self.store_path / "wrong_record.txt"
-        self.sleep = 5
+        self.sleep = sleep_secs
         self.cookies = None
-        self.check_size = 50
+        self.check_size = max(1, int(min_size_kb))
         self.url_index = 0
-        self.try_times_each_url_max = 3
+        self.try_times_each_url_max = max(1, int(tries_each_url))
         self.try_times = 0
+        self.timeout_html = max(5, int(timeout_html))
+        self.timeout_pdf = max(5, int(timeout_pdf))
+        self.debug = bool(debug)
+    # ---------------- 镜像可用性探测 ----------------
+    def _is_mirror_alive(self, base_url: str) -> bool:
+        """
+        仅检测镜像根路径是否可连通（HTTP 200 即认为可用）。
+        不访问具体 DOI，避免被动触发风控；只做连通性筛查。
+        """
+        try:
+            r = requests.get(base_url + "/", headers=self.headers, timeout=8, allow_redirects=True)
+            return 200 <= r.status_code < 400
+        except Exception:
+            return False
+    def _ensure_alive_mirrors(self):
+        # 若已经有进程级缓存，直接复用
+        if _Downloader._alive_mirrors_cache is not None:
+            self.url_list = list(_Downloader._alive_mirrors_cache)
+            return
+        print(f"[bold cyan]Probing mirrors connectivity (first run)...")
+        alive = []
+        for base in self.url_list:
+            ok = self._is_mirror_alive(base)
+            status = "OK" if ok else "DOWN"
+            print(f"  [{status}] {base}")
+            if ok:
+                alive.append(base)
+        if alive:
+            _Downloader._alive_mirrors_cache = alive
+            self.url_list = alive
+            print(f"[bold cyan]Alive mirrors: {len(alive)}; pruned {len(set(self.url_list)) - len(alive) if self.url_list else 0}.")
+        else:
+            print("[bold yellow]No mirror passed probe; keep original list for fallback attempts.")
+    def _extract_pdf_url_from_html(self, html: str) -> str | None:
+        """
+        从 Sci-Hub 页面 HTML 中尽可能稳健地提取 PDF 链接。
+        兼容多种模式：
+        - onclick="location.href='...pdf?download=true'"
+        - <iframe id="pdf" src="...pdf?...">
+        - <a ... href="...pdf?...">
+        - 其他出现 .pdf 的 src/href 场景
+        返回绝对 URL；若找不到返回 None。
+        """
+        text = html
+        # 先尝试常见 onclick 跳转
+        patterns = [
+            # onclick="location.href='...pdf?...'" 或 document.location
+            r"onclick\s*=\s*[\"']\s*(?:document\.)?location\.href\s*=\s*[\"']([^\"']+?\.pdf(?:[?#][^\"']*)?)[\"']",
+            # iframe id="pdf" src="...pdf?..."
+            r"<iframe[^>]+id\s*=\s*[\"']pdf[\"'][^>]+src\s*=\s*[\"']([^\"']+?\.pdf(?:[?#][^\"']*)?)[\"']",
+            # 通用 a 标签 href
+            r"<a[^>]+href\s*=\s*[\"']([^\"']+?\.pdf(?:[?#][^\"']*)?)[\"']",
+            # 通用任意 src/href
+            r"(?:src|href)\s*=\s*[\"']([^\"']+?\.pdf(?:[?#][^\"']*)?)[\"']",
+        ]
+        for pat in patterns:
+            m = re.search(pat, text, flags=re.IGNORECASE | re.DOTALL)
+            if m:
+                got_url = m.group(1)
+                # 规范化为绝对 URL
+                if got_url.startswith("//"):
+                    return "https:" + got_url
+                if got_url.startswith("http://") or got_url.startswith("https://"):
+                    return got_url
+                # 其余按相对路径处理
+                return urljoin(self.base_url + "/", got_url.lstrip("/"))
+        return None
     def get_pdf_url(self):
         print("[bold #E6E6FA]-" * 120)
         print(f"DOI: {self.doi}")
         print(f"Requesting: {self.url}...")
         try:
-            response = requests.get(self.url, headers=self.headers)
+            # 使用较小的超时时间避免长时间阻塞
+            response = requests.get(self.url, headers=self.headers, timeout=self.timeout_html)
             if response.status_code == 200:
                 self.cookies = response.cookies
-                text = response.text.replace("\\", "")
-                # text = text.replace(' ', '')  # It is important to remove the space
-                # print(text)
-                pattern = re.compile(r'onclick = "location.href=\'(.*?\.pdf\?download=true)\'"')
-                match = pattern.search(text)
-                if match:
-                    got_url = match.group(1)
-                    if r"http" not in got_url:
-                        if got_url[:2] == "//":
-                            self.pdf_url = "https:" + got_url
-                        else:
-                            self.pdf_url = self.base_url + got_url
+                text = response.text
+                # 去除转义反斜杠，提升正则匹配成功率
+                text = text.replace("\\", "")
+                self.pdf_url = self._extract_pdf_url_from_html(text)
+                if self.pdf_url:
+                    if self.debug:
+                        print(f"Found PDF link: {self.pdf_url}")
                     else:
-                        self.pdf_url = got_url
-                    print(f"URL: {self.pdf_url}")
+                        print(f"Found PDF link (masked): .../{Path(self.pdf_url).name}")
                 else:
-                    print(f"[bold #AFEEEE]The website {self.url_list[self.url_index]} do not inlcude the PDF file.")
+                    print(
+                        f"[bold #AFEEEE]The website {self.url_list[self.url_index]} does not expose a detectable PDF link (pattern mismatch)."
+                    )
                     self.try_times = self.try_times_each_url_max + 1
             else:
                 print(f"Failed to retrieve the webpage. Status code: {response.status_code}")
-                print(f"[bold #AFEEEE]The website {self.url_list[self.url_index]} do not inlcude the PDF file.")
+                print(f"[bold #AFEEEE]The website {self.url_list[self.url_index]} do not include the PDF file (HTTP error).")
                 self.try_times = self.try_times_each_url_max + 1
         except Exception as e:
             print(f"Failed to retrieve the webpage. Error: {e}")
@@ -178,7 +246,7 @@ class _Downloader:
                     return
             print(f"Downloading: {self.fname}...")
             try:
-                response = requests.get(self.pdf_url, headers=self.headers, cookies=self.cookies)
+                response = requests.get(self.pdf_url, headers=self.headers, cookies=self.cookies, timeout=self.timeout_pdf)
                 if response.status_code == 200:
                     with open(self.fpath, "wb") as f:
                         f.write(response.content)
@@ -224,7 +292,22 @@ def _read_txt(file):
     return lines
-def download5doi(store_path=None, doi_list=None, txt_file=None, excel_file=None, col_name=r"DOI"):
+def download5doi(
+    store_path=None,
+    doi_list=None,
+    txt_file=None,
+    excel_file=None,
+    col_name=r"DOI",
+    *,
+    probe_mirrors: bool = True,
+    min_size_kb: int = 50,
+    timeout_html: int = 15,
+    timeout_pdf: int = 30,
+    tries_each_url: int = 3,
+    sleep_secs: int = 5,
+    force: bool = False,
+    debug: bool = False,
+):
     """
     Description:
         Download PDF files by DOI.
@@ -260,11 +343,152 @@ def download5doi(store_path=None, doi_list=None, txt_file=None, excel_file=None,
         doi_list = _read_txt(txt_file)
     if excel_file:
         doi_list = _read_excel(excel_file, col_name)
-    remove(Path(store_path) / "wrong_record.txt")
+    # 去重并清洗
+    doi_list = [str(x).strip() for x in doi_list if str(x).strip()]
+    doi_list = list(dict.fromkeys(doi_list))  # 保序去重
+    # 只有在不是追加下载的场景下再清除 wrong_record
+    if not force:
+        remove(Path(store_path) / "wrong_record.txt")
     print(f"Downloading {len(doi_list)} PDF files...")
     for doi in track(doi_list, description="Downloading..."):
-        download = _Downloader(doi, store_path)
-        download.download_pdf()
+        dl = _Downloader(
+            doi,
+            store_path,
+            min_size_kb=min_size_kb,
+            timeout_html=timeout_html,
+            timeout_pdf=timeout_pdf,
+            sleep_secs=sleep_secs,
+            tries_each_url=tries_each_url,
+            debug=debug,
+        )
+        # 是否进行镜像探测
+        if probe_mirrors:
+            dl._ensure_alive_mirrors()
+        dl.download_pdf()
+# ------------------------------- 合规替代方案（Open Access 优先） -------------------------------
+def _get_oa_pdf_url_from_unpaywall(doi: str, email: str | None) -> str | None:
+    """
+    通过 Unpaywall 获取可开放访问的 PDF 链接（若存在）。
+    需要提供 email（Unpaywall 要求标识邮件）。
+    返回 PDF URL 或 None。
+    """
+    if not email:
+        print("[bold yellow]Unpaywall 需要 email 参数；请提供 email 以查询 OA 链接。")
+        return None
+    api = f"https://api.unpaywall.org/v2/{doi}?email={email}"
+    try:
+        r = requests.get(api, timeout=15)
+        if r.status_code != 200:
+            print(f"[bold yellow]Unpaywall 查询失败: HTTP {r.status_code}")
+            return None
+        data = r.json()
+        loc = data.get("best_oa_location") or {}
+        url_for_pdf = loc.get("url_for_pdf") or loc.get("url")
+        if url_for_pdf and url_for_pdf.lower().endswith(".pdf"):
+            return url_for_pdf
+        # 有些 OA 链接是落在 landing page，再尝试从记录的所有位置挑选 pdf
+        for k in ("oa_locations", "oa_location"):
+            entries = data.get(k) or []
+            if isinstance(entries, dict):
+                entries = [entries]
+            for e in entries:
+                u = e.get("url_for_pdf") or e.get("url")
+                if u and ".pdf" in u.lower():
+                    return u
+    except Exception as e:
+        print(f"[bold yellow]Unpaywall 查询异常: {e}")
+    return None
+def _download_pdf_from_url(url: str, dest_path: Path, headers: dict | None = None) -> bool:
+    """
+    给定合法的 PDF 下载 URL，下载保存到 dest_path。
+    返回 True/False 表示是否成功。
+    """
+    headers = headers or {"User-Agent": str(get_ua()), "Accept": "application/pdf"}
+    try:
+        with requests.get(url, headers=headers, stream=True, timeout=30) as r:
+            if r.status_code != 200 or "application/pdf" not in r.headers.get("Content-Type", "").lower():
+                # 仍可能是 PDF（某些服务器未正确设置头），尝试保存但标注提示
+                if r.status_code != 200:
+                    print(f"[bold yellow]下载失败: HTTP {r.status_code}")
+                    return False
+            dest_path.parent.mkdir(parents=True, exist_ok=True)
+            with open(dest_path, "wb") as f:
+                for chunk in r.iter_content(chunk_size=8192):
+                    if chunk:
+                        f.write(chunk)
+        return True
+    except Exception as e:
+        print(f"[bold yellow]下载异常: {e}")
+        return False
+def download5doi_via_unpaywall(
+    store_path=None,
+    doi_list=None,
+    txt_file=None,
+    excel_file=None,
+    col_name=r"DOI",
+    email: str | None = None,
+):
+    """
+    优先使用 Unpaywall 获取开放访问（OA）的 PDF 并下载，避免非合规站点。
+    参数：
+        store_path: 保存目录
+        doi_list/txt_file/excel_file/col_name: 同 download5doi
+        email: 用于访问 Unpaywall API 的邮箱（必填，否则无法查询）
+    """
+    if not store_path:
+        store_path = Path.cwd()
+    else:
+        store_path = Path(str(store_path))
+    store_path.mkdir(parents=True, exist_ok=True)
+    if doi_list:
+        doi_list = ensure_list(doi_list)
+    if txt_file:
+        doi_list = _read_txt(txt_file)
+    if excel_file:
+        doi_list = _read_excel(excel_file, col_name)
+    if not doi_list:
+        print("[bold yellow]未提供 DOI 列表。")
+        return
+    print(f"[bold cyan]通过 Unpaywall 尝试下载 {len(doi_list)} 篇 OA PDF...")
+    ok, miss = 0, 0
+    for doi in track(doi_list, description="OA downloading..."):
+        # 规范化文件名
+        fname = re.sub(r'[/<>:"?*|]', "_", str(doi)) + ".pdf"
+        dest = store_path / fname
+        if dest.exists() and _get_file_size(dest, unit="KB") > 10:
+            ok += 1
+            continue
+        pdf_url = _get_oa_pdf_url_from_unpaywall(str(doi), email=email)
+        if not pdf_url:
+            miss += 1
+            print(f"[bold yellow]未找到 OA PDF: {doi}")
+            continue
+        if _download_pdf_from_url(pdf_url, dest):
+            size_kb = _get_file_size(dest, unit="KB")
+            if isinstance(size_kb, (int, float)) and size_kb < 10:
+                dest.unlink(missing_ok=True)
+                miss += 1
+                print(f"[bold yellow]文件过小，疑似异常，已删除: {dest}")
+            else:
+                ok += 1
+                print(f"[bold green]已下载: {dest}")
+        else:
+            miss += 1
+    print(f"[bold]完成。成功 {ok} 篇，未获取 {miss} 篇（可能无 OA 版本或需机构访问）。")
 if __name__ == "__main__":

oafuncs/oa_file.py CHANGED Viewed

@@ -9,13 +9,14 @@ from rich import print
 __all__ = ["find_file", "link_file", "copy_file", "rename_file", "move_file", "clear_folder", "remove_empty_folder", "remove", "file_size", "mean_size", "make_dir", "replace_content"]
-def find_file(parent_dir: Union[str, os.PathLike], file_pattern: str, return_mode: str = "path") -> List[str]:
+def find_file(parent_dir: Union[str, os.PathLike], file_pattern: str, return_mode: str = "path", deep_find: bool = False) -> List[str]:
     """Finds files matching a specified pattern.
     Args:
         parent_dir: The parent directory where to search for files
         file_pattern: The file name pattern to search for
         return_mode: Return mode, 'path' to return full file paths, 'file' to return only file names. Defaults to 'path'
+        deep_find: Whether to search recursively in subdirectories. Defaults to False
     Returns:
         A list of file paths or file names if files are found, otherwise an empty list
@@ -24,9 +25,12 @@ def find_file(parent_dir: Union[str, os.PathLike], file_pattern: str, return_mod
     def natural_sort_key(s: str) -> List[Union[int, str]]:
         """Generate a key for natural sorting."""
         return [int(text) if text.isdigit() else text.lower() for text in re.split("([0-9]+)", s)]
-    search_pattern = os.path.join(str(parent_dir), file_pattern)
-    matched_files = glob.glob(search_pattern)
+    if deep_find:
+        search_pattern = os.path.join(str(parent_dir), "**", file_pattern)
+    else:
+        search_pattern = os.path.join(str(parent_dir), file_pattern)
+    matched_files = glob.glob(search_pattern, recursive=deep_find)
     if not matched_files:
         return []

oafuncs/oa_geo.py CHANGED Viewed

@@ -135,14 +135,64 @@ def mask_land_ocean(
     """
     mask = _land_sea_mask(lon, lat, keep)
-    # 用 apply_ufunc 自动对齐并广播掩膜
-    return xr.apply_ufunc(
-        lambda x, m: x.where(m),
-        data,
-        xr.DataArray(mask, dims=("lat", "lon")),
-        dask="parallelized",
-        keep_attrs=True,
-    )
+    # 将布尔掩膜转换为 xarray.DataArray
+    mask_da = xr.DataArray(mask, dims=("lat", "lon"))
+    # 如果输入已经是 xarray 对象，直接使用 where
+    if isinstance(data, (xr.DataArray, xr.Dataset)):
+        return data.where(mask_da)
+    # 如果输入是 numpy 数组，则假定最后两个维度是 (lat, lon)
+    if isinstance(data, np.ndarray):
+        arr = data
+        if arr.ndim < 2:
+            raise ValueError("numpy array 数据至少应包含 2 个维度 (lat, lon)")
+        if arr.ndim == 2:
+            lat_arr = np.asarray(lat)
+            lon_arr = np.asarray(lon)
+            # 支持 lat/lon 为 1D 或 2D
+            if lat_arr.ndim == 1 and lon_arr.ndim == 1:
+                da = xr.DataArray(arr, dims=("lat", "lon"), coords={"lat": lat_arr, "lon": lon_arr})
+            elif lat_arr.ndim == 2 and lon_arr.ndim == 2:
+                if lat_arr.shape != arr.shape or lon_arr.shape != arr.shape:
+                    raise ValueError("提供的二维经纬度数组形状必须匹配数据的 (lat, lon) 维度")
+                da = xr.DataArray(arr, dims=("lat", "lon"), coords={"lat": (("lat", "lon"), lat_arr), "lon": (("lat", "lon"), lon_arr)})
+            else:
+                raise ValueError("lat/lon 必须同时为 1D 或同时为 2D")
+        else:
+            # 为前面的维度生成占位名称，例如 dim_0, dim_1, ...
+            leading_dims = [f"dim_{i}" for i in range(arr.ndim - 2)]
+            dims = leading_dims + ["lat", "lon"]
+            coords = {f"dim_{i}": np.arange(arr.shape[i]) for i in range(arr.ndim - 2)}
+            lat_arr = np.asarray(lat)
+            lon_arr = np.asarray(lon)
+            # 如果 lat/lon 为 1D
+            if lat_arr.ndim == 1 and lon_arr.ndim == 1:
+                if lat_arr.shape[0] != arr.shape[-2] or lon_arr.shape[0] != arr.shape[-1]:
+                    raise ValueError("一维 lat/lon 长度必须匹配数据的最后两个维度")
+                coords.update({"lat": lat_arr, "lon": lon_arr})
+            # 如果 lat/lon 为 2D，要求其形状与数据最后两个维度一致
+            elif lat_arr.ndim == 2 and lon_arr.ndim == 2:
+                if lat_arr.shape != (arr.shape[-2], arr.shape[-1]) or lon_arr.shape != (arr.shape[-2], arr.shape[-1]):
+                    raise ValueError("二维 lat/lon 的形状必须匹配数据的最后两个维度")
+                coords.update({"lat": (("lat", "lon"), lat_arr), "lon": (("lat", "lon"), lon_arr)})
+            else:
+                raise ValueError("lat/lon 必须同时为 1D 或同时为 2D")
+            da = xr.DataArray(arr, dims=dims, coords=coords)
+        masked = da.where(mask_da)
+        # 返回与输入相同的类型：numpy -> numpy
+        return masked.values
+    # 其他类型尝试转换为 DataArray
+    try:
+        da = xr.DataArray(data)
+        return da.where(mask_da)
+    except Exception:
+        raise TypeError("data must be xr.DataArray, xr.Dataset, or numpy.ndarray")
 if __name__ == "__main__":
     pass

oafuncs/oa_linux.py ADDED Viewed

@@ -0,0 +1,108 @@
+from rich import print
+import time
+import os
+__all__ = ["os_command", "get_queue_node", "query_queue", "running_jobs", "submit_job"]
+# 负责执行命令并返回输出
+def os_command(cmd):
+    import subprocess
+    print(f'🔍 执行命令: {cmd}')
+    result = subprocess.run(
+        cmd, shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True
+    )
+    # 打印错误信息（若有，方便排查问题）
+    if result.stderr:
+        print(f'❌ 错误输出: {result.stderr.strip()}')
+    # 检查命令是否执行成功（非0为失败）
+    if result.returncode != 0:
+        print(f'❌ 命令执行失败，退出码: {result.returncode}')
+        return None
+    return result.stdout
+# 返回“队列名:节点数”的字典
+def get_queue_node():
+    import re
+    # 执行 sinfo | grep "idle" 获取空闲队列数据
+    cmd = 'sinfo | grep "idle"'
+    output = os_command(cmd)
+    if not output:  # 命令执行失败或无输出，返回空字典
+        return {}
+    # 初始化结果字典：键=队列名，值=节点数
+    queue_node_dict = {}
+    # 按行解析命令输出
+    for line in output.strip().split('\n'):
+        line = line.strip()
+        if not line:  # 跳过空行
+            continue
+        # 正则匹配：仅捕获“队列名”（第1组）和“节点数”（第2组）
+        # 末尾用 .* 忽略节点列表，不影响匹配
+        pattern = r"^(\S+)\s+\S+\s+\S+\s+(\d+)\s+idle\s+.*$"
+        match = re.match(pattern, line)
+        if match:
+            queue_name = match.group(1)    # 提取队列名作为字典的键
+            node_count = int(match.group(2))# 提取节点数作为字典的值（转为整数）
+            queue_node_dict[queue_name] = node_count  # 存入字典
+    return queue_node_dict
+def query_queue(need_node=1, queue_list =['dcu','bigmem','cpu_parallel','cpu_single']):
+    queue_dict = get_queue_node()
+    hs = None
+    for my_queue in queue_list:
+        if my_queue in queue_dict and queue_dict[my_queue] >= need_node:
+            # slurm_file = f'../run.slurm.{my_queue}'
+            hs = my_queue
+            break
+    return hs
+def running_jobs():
+    # 通过qstat判断任务状态，是否还在进行中
+    # status = os.popen('qstat').read()
+    status = os.popen('squeue').read()
+    Jobs = status.split('\n')[1:]
+    ids = [job.split()[0] for job in Jobs if job != '']
+    return ids
+def submit_job(working_dir, script_tmp='run.slurm', script_run='run.slurm', need_node=1, queue_tmp='<queue_name>', queue_list=['dcu', 'bigmem', 'cpu_parallel', 'cpu_single'], max_job=38):
+    from .oa_file import replace_content
+    import datetime
+    os.chdir(working_dir)
+    print(f'切换工作目录到: {working_dir}')
+    while True:
+        running_job = running_jobs()
+        if not running_job or len(running_job) < max_job:
+            queue = query_queue(need_node=need_node, queue_list=queue_list)
+            if queue:
+                replace_content(script_tmp, {f'{queue_tmp}': f"{queue}"}, False, f'{working_dir}', script_run)
+                print(f'找到计算资源，提交任务，队列：{queue}')
+                print(f'Time: {datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")}')
+                content_sub = os_command(f"sbatch {script_run}")
+                # 避免在 None 上使用 'in' 导致 TypeError：os_command 在失败时会返回 None
+                if not content_sub:
+                    print('提交任务命令没有返回输出或返回了错误，等待30秒后重试！')
+                    time.sleep(30)
+                else:
+                    content_sub_lower = content_sub.lower()
+                    if 'error' in content_sub_lower or 'failed' in content_sub_lower:
+                        print('提交任务时出现错误（从输出检测到 error/failed），等待30秒后重试！')
+                        print(f'命令输出: {content_sub.strip()}')
+                        time.sleep(30)
+                    else:
+                        print(f'提交任务成功，{content_sub.strip()}')
+                        break
+            else:
+                print('没有足够的计算资源，等待30秒后重试！')
+                time.sleep(30)
+        else:
+            print(f'当前系统任务数：{len(running_job)}，等待60秒后重试！')
+            time.sleep(60)
+    print(f'等待10秒后，继续检查任务状态！')
+    time.sleep(10)
+if __name__ == "__main__":
+    pass

{oafuncs-0.0.98.44.dist-info → oafuncs-0.0.98.46.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: oafuncs
-Version: 0.0.98.44
+Version: 0.0.98.46
 Summary: Oceanic and Atmospheric Functions
 Home-page: https://github.com/Industry-Pays/OAFuncs
 Author: Kun Liu
@@ -187,4 +187,4 @@ query()
 <img title="OAFuncs" src="https://raw.githubusercontent.com/Industry-Pays/OAFuncs/main/oafuncs/_data/oafuncs.png" alt="OAFuncs">
 ## Wiki
-更多内容，查看[wiki](https://opendeep.wiki/Industry-Pays/OAFuncs/introduction)
+更多内容，查看[wiki_old](https://opendeep.wiki/Industry-Pays/OAFuncs/introduction) or [wiki_new](https://deepwiki.com/Industry-Pays/OAFuncs)

{oafuncs-0.0.98.44.dist-info → oafuncs-0.0.98.46.dist-info}/RECORD RENAMED Viewed

@@ -1,11 +1,12 @@
-oafuncs/__init__.py,sha256=7630YgWbWGClu4Us1H2SAq-_eh9WzFHGxXkIXMcxRu0,1542
-oafuncs/oa_cmap.py,sha256=JwZMJ36uNwiCnzXqEtH2_PpeLtEaRaXP9YeGSl0PJSU,13886
+oafuncs/__init__.py,sha256=G523BFVPxmODwq8j_88NYEiKbCzdQ3jfy51cmLeh7kM,1630
+oafuncs/oa_cmap.py,sha256=Mru5XvvBTfYNq8xjsBAGWppI7RGKzSh94glxP2SXomc,14221
 oafuncs/oa_data.py,sha256=CG2YHY_R6MFrPw3UznT4T8BE8yXdgBMnmdUAEdh9GAo,6506
 oafuncs/oa_date.py,sha256=aU2wVIWXyWoRiSQ9dg8sHvShFTxw86RrgbV3Q6tDjD4,6841
 oafuncs/oa_draw.py,sha256=zal0Y3RPpN0TCGN4Gw9qLtjQdT6V0ZqpSUBFVOPL0x4,13952
-oafuncs/oa_file.py,sha256=l9HTAK8iC1Bp_K7Mk3AX1UKuTFZZ-2yq5Hq71hnigbo,17299
-oafuncs/oa_geo.py,sha256=BWkvV6nW_c-UKqbgaoy4U1YQYUMzAQOJlK--XppNIms,4371
+oafuncs/oa_file.py,sha256=j9NOjxPOeAJsD5Zk4ODmFdVSSgr1CHVPvM1IHXy9RQA,17546
+oafuncs/oa_geo.py,sha256=UbzvUqgT2QP_9B7XSJRL1HDmGu0HnLC5nSP6ZrA5WH4,7177
 oafuncs/oa_help.py,sha256=0J5VaZX-cB0c090KxgmktQJBc0o00FsY-4wB8l5y00k,4178
+oafuncs/oa_linux.py,sha256=eijpxTopzL3GpE5AIzis9vdrbm-A7QBeQesA-divBjE,4627
 oafuncs/oa_nc.py,sha256=j501NlTuvrDIwNLXbMfE7nPPXdbbL7u9PGDj2l5AtnI,16277
 oafuncs/oa_python.py,sha256=xYMQnM0cGq9xUCtcoMpnN0LG5Rc_s94tai5nC6CNJ3E,4831
 oafuncs/oa_tool.py,sha256=VHx15VqpbzNlVXh0-3nJqcDgLVaECMD1FvxJ_CrV39E,8046
@@ -13,7 +14,7 @@ oafuncs/_data/hycom.png,sha256=MadKs6Gyj5n9-TOu7L4atQfTXtF9dvN9w-tdU9IfygI,10945
 oafuncs/_data/oafuncs.png,sha256=o3VD7wm-kwDea5E98JqxXl04_78cBX7VcdUt7uQXGiU,3679898
 oafuncs/_script/cprogressbar.py,sha256=BZi3MzF4q2Yl6fdZcLnW8MdpgpLeldI5NvnWMr-ZS94,16023
 oafuncs/_script/data_interp.py,sha256=gr1coA2N1mxzS4iv6S0C4lZpEQbuuHHNW-08RrhgPAA,4774
-oafuncs/_script/email.py,sha256=l5xDgdVj8O5V0J2SwjsHKdUuxOH2jZvwdMO_P0dImHU,2684
+oafuncs/_script/email.py,sha256=57jhRflm5QsyIshGMqtlfC6qn3b86GyiL4RQxdCOgxU,2702
 oafuncs/_script/netcdf_merge.py,sha256=tM9ePqLiEsE7eIsNM5XjEYeXwxjYOdNz5ejnEuI7xKw,6066
 oafuncs/_script/netcdf_modify.py,sha256=XDlAEToe_lwfAetkBSENqU5df-wnH7MGuxNTjG1gwHY,4178
 oafuncs/_script/netcdf_write.py,sha256=EDNycnhlrW1c6zcpmpObQeszDRX_lRxjTL-j0G4HqjI,17420
@@ -25,7 +26,7 @@ oafuncs/oa_down/User_Agent-list.txt,sha256=pHaMlElMvZ8TG4vf4BqkZYKqe0JIGkr4kCN0l
 oafuncs/oa_down/__init__.py,sha256=IT6oTqaxuV_mC6AwBut0HtkmnVtEu1MyX0x0oS7TKoA,218
 oafuncs/oa_down/hycom_3hourly.py,sha256=dFXSC_5o-Dic616KrLXir4tEHvCiZt8vGKPEYpXFMmA,57356
 oafuncs/oa_down/idm.py,sha256=vAhRjt_Sb-rKhzFShmSf29QcFTqsHpHXCvTSD1uSXyQ,1455
-oafuncs/oa_down/literature.py,sha256=7Qy5OphcjdRwY2uZ5hmmgK36U_QtVmEUSW0vQaxihC8,10960
+oafuncs/oa_down/literature.py,sha256=umz8bqYoVJiFkFviK970iOL7sfwbVWuqHPgRs3a199I,19806
 oafuncs/oa_down/read_proxy.py,sha256=HQpr-Mwn0Z8ICAuf63NUUY9p05E_uNWyWmOK46-73Ec,2866
 oafuncs/oa_down/test_ua.py,sha256=l8MCD6yU2W75zRPTDKUZTJhCWNF9lfk-MiSFqAqKH1M,1398
 oafuncs/oa_down/user_agent.py,sha256=LCVQUA60ukUqeJXgLktDHB2sh-ngk7AiX4sKj8w-X4A,416
@@ -38,8 +39,8 @@ oafuncs/oa_sign/__init__.py,sha256=JSx1fcWpmNhQBvX_Bmq3xysfSkkFMrjbJASxV_V6aqE,1
 oafuncs/oa_sign/meteorological.py,sha256=3MSjy7HTcvz2zsITkjUMr_0Y027Gas1LFE9pk99990k,6110
 oafuncs/oa_sign/ocean.py,sha256=3uYEzaq-27yVy23IQoqy-clhWu1I_fhPFBAQyT-OF4M,5562
 oafuncs/oa_sign/scientific.py,sha256=moIl2MEY4uitbXoD596JmXookXGQtQsS-8_1NBBTx84,4689
-oafuncs-0.0.98.44.dist-info/licenses/LICENSE.txt,sha256=rMtLpVg8sKiSlwClfR9w_Dd_5WubTQgoOzE2PDFxzs4,1074
-oafuncs-0.0.98.44.dist-info/METADATA,sha256=yWxBsUGF1rlJBn42pXZyCUrgqhXWpyqc-l_CTyBEnSk,4384
-oafuncs-0.0.98.44.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
-oafuncs-0.0.98.44.dist-info/top_level.txt,sha256=bgC35QkXbN4EmPHEveg_xGIZ5i9NNPYWqtJqaKqTPsQ,8
-oafuncs-0.0.98.44.dist-info/RECORD,,
+oafuncs-0.0.98.46.dist-info/licenses/LICENSE.txt,sha256=rMtLpVg8sKiSlwClfR9w_Dd_5WubTQgoOzE2PDFxzs4,1074
+oafuncs-0.0.98.46.dist-info/METADATA,sha256=ZeQYycohu3zboTLafN-CHlEwkhmixvmazKaLAADhFpI,4446
+oafuncs-0.0.98.46.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
+oafuncs-0.0.98.46.dist-info/top_level.txt,sha256=bgC35QkXbN4EmPHEveg_xGIZ5i9NNPYWqtJqaKqTPsQ,8
+oafuncs-0.0.98.46.dist-info/RECORD,,

{oafuncs-0.0.98.44.dist-info → oafuncs-0.0.98.46.dist-info}/WHEEL RENAMED Viewed

File without changes

{oafuncs-0.0.98.44.dist-info → oafuncs-0.0.98.46.dist-info}/licenses/LICENSE.txt RENAMED Viewed

File without changes

{oafuncs-0.0.98.44.dist-info → oafuncs-0.0.98.46.dist-info}/top_level.txt RENAMED Viewed

File without changes

oafuncs 0.0.98.44__py3-none-any.whl → 0.0.98.46__py3-none-any.whl

oafuncs 0.0.98.44py3-none-any.whl → 0.0.98.46py3-none-any.whl