npm - openclaw-diag-cli - Versions diffs - 0.1.2 → 0.2.1 - Mend

openclaw-diag-cli 0.1.2 → 0.2.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (26) hide show

package/README.md +84 -71
package/bin/openclaw-diag.js +67 -178
package/diag/01_sys_health.py +0 -2
package/diag/02_environment.py +34 -8
package/diag/03_configuration.py +4 -1
package/diag/04_gateway.py +30 -8
package/diag/05_recent_errors.py +24 -14
package/diag/06_cron_jobs.py +4 -41
package/diag/07_performance.py +114 -42
package/diag/08_sessions.py +2 -54
package/diag/09_plugin_diag.py +52 -25
package/diag/10_shell_history.py +30 -12
package/lib/bundle.py +6 -13
package/ocdiag/__init__.py +1 -1
package/ocdiag/cli.py +16 -1
package/ocdiag/dispatcher.py +140 -53
package/ocdiag/doctor.py +162 -0
package/ocdiag/jsonlog.py +0 -5
package/ocdiag/paths.py +0 -1
package/ocdiag/recent_logs.py +0 -3
package/ocdiag/sensitive.py +95 -1
package/ocdiag/timeutil.py +0 -11
package/ocdiag/tokens.py +0 -4
package/package.json +2 -3
package/tools/oc_session_extract.py +75 -7
package/tools/oc_session_trace.py +31 -9

package/diag/02_environment.py CHANGED Viewed

@@ -7,7 +7,6 @@ import json
 import os
 import re
 import shlex
-import shutil
 import subprocess
 import sys
 from pathlib import Path
@@ -16,7 +15,7 @@ from typing import Optional
 sys.path.insert(0, str(Path(__file__).resolve().parent.parent))
 from ocdiag import cli, output, paths
-from ocdiag.sensitive import safe_val
+from ocdiag.sensitive import safe_val, sanitize_text
 def run(cmd, timeout=5):
@@ -110,7 +109,6 @@ def parse_proc_environ(pid: str) -> Optional[list]:
 def main() -> int:
     parser = cli.build_common_parser(
         description="模块 2：采集 OpenClaw 基础环境",
-        prog="02_environment",
     )
     args = parser.parse_args()
     out = output.init("environment", json_mode=args.json, no_color=args.no_color)
@@ -118,11 +116,17 @@ def main() -> int:
     oc_version = detect_oc_version()
     if oc_version:
-        out.item(f"ArkClaw 版本: {oc_version}")
+        out.item(f"OpenClaw 版本: {oc_version}")
     else:
-        out.item("ArkClaw 版本: 无法确定")
+        out.item("OpenClaw 版本: 无法确定")
         out.evidence("openclaw --version", "命令未找到或无输出")
     out.set_data("oc_version", oc_version)
+    if not oc_version:
+        out.set_data("oc_version_status", {
+            "found": False,
+            "reason": "command_not_found",
+            "checked": "openclaw --version + pnpm/global node_modules",
+        })
     service_file = paths.SERVICE_FILE
     svc_version = None
@@ -153,6 +157,10 @@ def main() -> int:
         out.item("Node.js: 未找到")
         out.evidence("node --version", "命令未找到")
     out.set_data("node_version", node_ver)
+    if not node_ver:
+        out.set_data("node_version_status", {
+            "found": False, "reason": "command_not_found", "checked": "node --version",
+        })
     rc, stdout, _ = run(["free", "-m"])
     mem_avail = ""
@@ -166,6 +174,10 @@ def main() -> int:
     if mem_avail:
         out.item(f"可用内存: {mem_avail} MB")
     out.set_data("memory_available_mb", mem_avail)
+    if not mem_avail:
+        out.set_data("memory_status", {
+            "found": False, "reason": "free_unavailable", "checked": "free -m",
+        })
     rc, stdout, _ = run(["df", "-m", paths.OPENCLAW_HOME])
     disk_avail = ""
@@ -178,6 +190,11 @@ def main() -> int:
     if disk_avail:
         out.item(f"磁盘可用 ({paths.OPENCLAW_HOME}): {disk_avail} MB")
     out.set_data("disk_available_mb", disk_avail)
+    if not disk_avail:
+        out.set_data("disk_status", {
+            "found": False, "reason": "df_unavailable",
+            "checked": f"df -m {paths.OPENCLAW_HOME}",
+        })
     gw_status = gateway_systemctl_status()
     if gw_status:
@@ -245,8 +262,16 @@ def main() -> int:
         out.set_data("gateway_env", [{"key": k, "value": v} for k, v in env_pairs])
     elif pid:
         out.item(f"无法读取 /proc/{pid}/environ（权限不足？）")
+        out.set_data("gateway_env_status", {
+            "found": False, "reason": "proc_unreadable",
+            "checked": f"/proc/{pid}/environ",
+        })
     else:
         out.item("Gateway 进程未运行，跳过")
+        out.set_data("gateway_env_status", {
+            "found": False, "reason": "process_not_running",
+            "checked": "pgrep -f openclaw.*gateway",
+        })
     if os.path.isfile(paths.SERVICE_ENV_FILE):
         out.line("")
@@ -281,9 +306,10 @@ def main() -> int:
         try:
             with open(service_file) as f:
                 for line in f:
-                    out.item(line.rstrip("\n"))
-        except OSError:
-            pass
+                    raw = line.rstrip("\n")
+                    out.item(raw if args.unmask else sanitize_text(raw))
+        except OSError as e:
+            out.item(f"读取失败: {e}")
     return out.done()

package/diag/03_configuration.py CHANGED Viewed

@@ -85,7 +85,6 @@ def emit_config(out: output.Output, data: list, obj, prefix: str = "") -> None:
 def main() -> int:
     parser = cli.build_common_parser(
         description="模块 3：采集 OpenClaw 配置（含敏感字段脱敏）",
-        prog="03_configuration",
     )
     args = parser.parse_args()
@@ -95,6 +94,10 @@ def main() -> int:
     config_path = args.config
     if not os.path.isfile(config_path):
         out.item(f"配置文件未找到: {config_path}")
+        out.line("  下一步：")
+        out.line("    1) 确认 OpenClaw 已经初始化（运行过 `openclaw` 即会生成配置）")
+        out.line("    2) 用 OPENCLAW_CONFIG=/path/to/openclaw.json 或 --config 指向正确路径")
+        out.line("    3) 在容器/远端诊断时，用 OPENCLAW_HOME=/path 整体覆盖")
         out.evidence(config_path, "<文件缺失>")
         out.set_data("config_path", config_path)
         out.set_data("found", False)

package/diag/04_gateway.py CHANGED Viewed

@@ -11,7 +11,6 @@ import sys
 from collections import defaultdict
 from datetime import datetime
 from pathlib import Path
-from typing import List, Optional
 sys.path.insert(0, str(Path(__file__).resolve().parent.parent))
@@ -146,11 +145,20 @@ def section_restart_events(out: output.Output) -> None:
 def section_model_api(out: output.Output, args) -> None:
     if not os.path.isfile(args.config):
+        out.item("模型 API: 配置文件未找到")
+        out.set_data("model_api_status", {
+            "found": False, "reason": "config_not_found", "checked": args.config,
+        })
         return
     try:
         with open(args.config) as f:
             cfg = json.load(f)
-    except Exception:
+    except (OSError, json.JSONDecodeError) as e:
+        out.item(f"模型 API: 配置读取失败 ({type(e).__name__})")
+        out.set_data("model_api_status", {
+            "found": False, "reason": "config_unreadable",
+            "checked": args.config, "error": str(e)[:200],
+        })
         return
     models = cfg.get("models", {}) or {}
     all_cfgs = {}
@@ -290,8 +298,12 @@ def section_ws_lifecycle(out: output.Output, app_log: str) -> None:
                 else:
                     continue
                 events.append((ts_dt, ts_str, account, kind, msg))
-    except OSError:
-        out.item("Channel WS: 读取应用日志失败")
+    except OSError as e:
+        out.item(f"Channel WS: 读取应用日志失败 ({type(e).__name__})")
+        out.set_data("ws_summary_status", {
+            "found": False, "reason": "log_unreadable",
+            "checked": app_log, "error": str(e)[:200],
+        })
         return
     if not events and not expired:
@@ -564,7 +576,12 @@ def section_gateway_errors(out: output.Output, app_log: str) -> None:
                     continue
                 kind, code, reason = r
                 events.append((ts, kind, code, reason or "(no reason)"))
-    except OSError:
+    except OSError as e:
+        out.item(f"Gateway 错误码: 读取应用日志失败 ({type(e).__name__})")
+        out.set_data("gateway_errors_status", {
+            "found": False, "reason": "log_unreadable",
+            "checked": app_log, "error": str(e)[:200],
+        })
         return
     if not events:
@@ -614,7 +631,6 @@ def section_gateway_errors(out: output.Output, app_log: str) -> None:
 def main() -> int:
     parser = cli.build_common_parser(
         description="模块 4：Gateway 状态采集",
-        prog="04_gateway",
     )
     args = parser.parse_args()
@@ -622,6 +638,7 @@ def main() -> int:
     out.section("模块 4：Gateway 状态")
     port = 18789
+    port_source = "default"
     if os.path.isfile(args.config):
         try:
             with open(args.config) as f:
@@ -629,8 +646,13 @@ def main() -> int:
             cp = cfg.get("gateway", {}).get("port")
             if cp:
                 port = int(cp)
-        except Exception:
-            pass
+                port_source = "config"
+        except (OSError, json.JSONDecodeError, ValueError) as e:
+            out.set_data("port_source_status", {
+                "found": False, "reason": "config_unreadable",
+                "checked": args.config, "error": str(e)[:200],
+            })
+    out.set_data("port_source", port_source)
     section_process_port(out, args, port)
     section_restart_events(out)

package/diag/05_recent_errors.py CHANGED Viewed

@@ -79,21 +79,25 @@ def render_log_line(line: str, max_len: int = 300) -> str:
         return line
-def collect_error_lines(log_files: List[str]) -> List[str]:
+def collect_error_lines(log_files: List[str]):
+    """Returns (matched_lines, unreadable_files). One unreadable file does not
+    abort the whole scan, but we tell the caller which paths failed."""
     out: List[str] = []
+    unreadable: List[dict] = []
     for lf in log_files:
         try:
             with open(lf, errors="replace") as f:
                 for ln in f:
                     if _ERR_RE.search(ln):
                         out.append(ln.rstrip("\n"))
-        except OSError:
-            continue
-    return out
+        except OSError as e:
+            unreadable.append({"path": lf, "error": f"{type(e).__name__}: {e}"})
+    return out, unreadable
-def collect_api_errors(log_files: List[str]) -> List[str]:
+def collect_api_errors(log_files: List[str]):
     out: List[str] = []
+    unreadable: List[dict] = []
     for lf in log_files:
         try:
             with open(lf, errors="replace") as f:
@@ -107,9 +111,9 @@ def collect_api_errors(log_files: List[str]) -> List[str]:
                     if _API_EXCLUDE_TXT_RE.search(ln):
                         continue
                     out.append(ln.rstrip("\n"))
-        except OSError:
-            continue
-    return out
+        except OSError as e:
+            unreadable.append({"path": lf, "error": f"{type(e).__name__}: {e}"})
+    return out, unreadable
 def journalctl_errors() -> str:
@@ -152,17 +156,21 @@ def tool_errors_from_session(session_path: str):
                 msg = obj.get("message", {}) or {}
                 if msg.get("isError"):
                     counts[msg.get("toolName", "unknown")] += 1
-            except Exception:
-                pass
+            except (json.JSONDecodeError, ValueError):
+                # Expected: session.jsonl can have malformed lines from
+                # interrupted writes; skip and keep counting.
+                continue
     except OSError:
-        pass
+        # Session file disappeared between glob() and open(). Caller already
+        # falls back to "no recent session"; reporting per-file unreadable
+        # would mostly add noise here.
+        return counts
     return counts
 def main() -> int:
     parser = cli.build_common_parser(
         description="模块 5：采集近期错误日志",
-        prog="05_recent_errors",
     )
     args = parser.parse_args()
@@ -187,8 +195,10 @@ def main() -> int:
     out.line("")
     if logs:
-        err_lines = collect_error_lines(logs)
+        err_lines, err_unreadable = collect_error_lines(logs)
         out.set_data("app_error_count", len(err_lines))
+        if err_unreadable:
+            out.set_data("app_log_unreadable", err_unreadable)
         if err_lines:
             out.item(f"应用日志 ERROR 级别: {len(err_lines)} 条 — Gateway 运行时报错，包括工具失败、模型异常等")
             rendered = []
@@ -202,7 +212,7 @@ def main() -> int:
         else:
             out.item("应用日志 ERROR 级别: 0 条 — Gateway 运行时报错")
-        api_lines = collect_api_errors(logs)
+        api_lines, _api_unreadable = collect_api_errors(logs)
         out.set_data("api_error_count", len(api_lines))
         if api_lines:
             out.item(f"模型 API HTTP 错误: {len(api_lines)} 条 ")

package/diag/06_cron_jobs.py CHANGED Viewed

@@ -13,11 +13,12 @@ import sys
 import time
 from collections import Counter, deque
 from pathlib import Path
-from typing import Optional
 sys.path.insert(0, str(Path(__file__).resolve().parent.parent))
-from ocdiag import cli, output, paths
+from ocdiag import cli, output
+from ocdiag.timeutil import fmt_age, fmt_ts
+from ocdiag.tokens import fmt_tokens, percentile
 try:
     from croniter import croniter  # type: ignore
@@ -26,15 +27,6 @@ except ImportError:
     HAS_CRONITER = False
-def fmt_ts(ms):
-    if not ms:
-        return "?"
-    try:
-        return datetime.datetime.fromtimestamp(ms / 1000).strftime("%Y-%m-%d %H:%M:%S")
-    except Exception:
-        return str(ms)
 def fmt_duration(ms):
     if ms is None:
         return "?"
@@ -46,24 +38,6 @@ def fmt_duration(ms):
     return f"{s/3600:.1f}h"
-def fmt_age(ms_delta):
-    s = abs(ms_delta) / 1000
-    if s < 60:
-        return f"{s:.0f}秒"
-    if s < 3600:
-        return f"{s/60:.0f}分钟"
-    if s < 86400:
-        return f"{s/3600:.1f}小时"
-    return f"{s/86400:.1f}天"
-def percentile(sorted_list, p):
-    if not sorted_list:
-        return None
-    k = max(0, min(len(sorted_list) - 1, int(len(sorted_list) * p)))
-    return sorted_list[k]
 def format_schedule(sched):
     k = sched.get("kind", "?")
     if k == "cron":
@@ -121,16 +95,6 @@ def load_runs(runs_dir, jid):
     return out
-def fmt_k(n):
-    if n is None:
-        return "?"
-    if n >= 1_000_000:
-        return f"{n/1_000_000:.1f}M"
-    if n >= 1000:
-        return f"{n/1000:.1f}K"
-    return str(n)
 def extract_usage(r):
     u = r.get("usage")
     if not u and isinstance(r.get("result"), dict):
@@ -463,7 +427,7 @@ def section_jobs(out: output.Output, jobs_file: str, state_file: str, runs_dir:
                 cost_sum += cost
                 has_cost = True
         if has_usage:
-            line = f"      tokens(最近{len(recent)}次): in={fmt_k(input_sum)} out={fmt_k(output_sum)}"
+            line = f"      tokens(最近{len(recent)}次): in={fmt_tokens(input_sum)} out={fmt_tokens(output_sum)}"
             if has_cost:
                 line += f" | cost=${cost_sum:.4f}"
             out.item(line)
@@ -671,7 +635,6 @@ def section_system_crontab(out: output.Output) -> None:
 def main() -> int:
     parser = cli.build_common_parser(
         description="模块 6：定时任务采集",
-        prog="06_cron_jobs",
     )
     args = parser.parse_args()