npm - @glassmkr/crucible - Versions diffs - 0.10.3 → 0.11.0 - Mend

@glassmkr/crucible 0.10.3 → 0.11.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (39) hide show

package/dist/collect/__tests__/c1-c6.test.d.ts +1 -0
package/dist/collect/__tests__/c1-c6.test.js +160 -0
package/dist/collect/__tests__/c1-c6.test.js.map +1 -0
package/dist/collect/__tests__/c7-c10.test.d.ts +1 -0
package/dist/collect/__tests__/c7-c10.test.js +271 -0
package/dist/collect/__tests__/c7-c10.test.js.map +1 -0
package/dist/collect/bonding.d.ts +37 -0
package/dist/collect/bonding.js +246 -0
package/dist/collect/bonding.js.map +1 -0
package/dist/collect/conntrack.d.ts +19 -0
package/dist/collect/conntrack.js +82 -1
package/dist/collect/conntrack.js.map +1 -1
package/dist/collect/edac.d.ts +2 -0
package/dist/collect/edac.js +104 -0
package/dist/collect/edac.js.map +1 -0
package/dist/collect/fd.d.ts +46 -0
package/dist/collect/fd.js +148 -0
package/dist/collect/fd.js.map +1 -1
package/dist/collect/hardware-raid.d.ts +2 -0
package/dist/collect/hardware-raid.js +152 -0
package/dist/collect/hardware-raid.js.map +1 -0
package/dist/collect/psi.d.ts +20 -0
package/dist/collect/psi.js +90 -0
package/dist/collect/psi.js.map +1 -0
package/dist/collect/reboot-evidence.d.ts +2 -0
package/dist/collect/reboot-evidence.js +109 -0
package/dist/collect/reboot-evidence.js.map +1 -0
package/dist/collect/tcp-stats.d.ts +37 -0
package/dist/collect/tcp-stats.js +153 -0
package/dist/collect/tcp-stats.js.map +1 -0
package/dist/collect/vmstat.d.ts +22 -0
package/dist/collect/vmstat.js +94 -0
package/dist/collect/vmstat.js.map +1 -0
package/dist/collect/zfs.js +94 -0
package/dist/collect/zfs.js.map +1 -1
package/dist/index.js +49 -1
package/dist/index.js.map +1 -1
package/dist/lib/types.d.ts +211 -0
package/package.json +1 -1

package/dist/lib/types.d.ts CHANGED Viewed

@@ -31,12 +31,200 @@ export interface Snapshot {
     file_descriptors?: FileDescriptorData;
     expected_reboot?: boolean;
     expected_reboot_reason?: string;
+    /** EDAC memory-error counters per memory controller + DIMM. */
+    ecc_edac?: EdacSnapshot;
+    /** PSI pressure-stall counters per resource (cpu, memory, io). */
+    psi?: PsiSnapshot;
+    /** /proc/vmstat swap-in/out rates. */
+    vmstat?: VmstatSnapshot;
+    /** pstore / kdump / wtmp signals corroborating a reboot. */
+    reboot_evidence?: RebootEvidence;
+    /** Hardware RAID controllers scraped via vendor CLIs. */
+    hardware_raid?: HardwareRaidSnapshot;
+    /** Per-process FD scan (top-50 consumers + RLIMIT_NOFILE). */
+    process_fd?: ProcessFdSnapshot;
+    /** LACP / bonding driver state from /proc/net/bonding. */
+    bonding?: BondingSnapshot;
+    /** TCP segment / retransmit / listen-queue counters from
+     *  /proc/net/snmp + /proc/net/netstat. */
+    tcp_stats?: TcpStatsSnapshot;
+}
+export interface EdacDimm {
+    /** dimm_label (vendor-defined string, e.g. "CPU1_DIMM_A1"). */
+    label: string;
+    /** dimm_location (slot number / chip-channel ordering). */
+    location: string;
+    /** DIMM size in MB; null if /sys did not report. */
+    size_mb: number | null;
+    ce_count: number;
+    ue_count: number;
+}
+export interface EdacSnapshot {
+    /** Sum of ce_count across all memory controllers. */
+    edac_corrected_total: number;
+    /** Sum of ue_count across all memory controllers. */
+    edac_uncorrected_total: number;
+    /** Per-DIMM detail. Empty array on hosts where dimm metadata
+     *  isn't exposed (older EDAC drivers). */
+    dimms: EdacDimm[];
+}
+export interface PsiResource {
+    /** Rolling average % over the last 10 / 60 / 300 seconds. */
+    avg10: number;
+    avg60: number;
+    avg300: number;
+    /** Cumulative microseconds stalled since boot. */
+    total: number;
+}
+export interface PsiSnapshot {
+    cpu?: {
+        some: PsiResource;
+        full?: PsiResource;
+    };
+    memory?: {
+        some: PsiResource;
+        full?: PsiResource;
+    };
+    io?: {
+        some: PsiResource;
+        full?: PsiResource;
+    };
+}
+export interface VmstatSnapshot {
+    /** Cumulative pswpin since boot. */
+    pswpin_total: number;
+    pswpout_total: number;
+    /** Per-second swap-in rate over the most recent interval; null on
+     *  the first snapshot (no baseline) or after a counter reset (host
+     *  reboot mid-session). */
+    pswpin_rate: number | null;
+    pswpout_rate: number | null;
+}
+export interface RebootEvidence {
+    /** True if /sys/fs/pstore/ contains any dmesg-* / console-* records
+     *  from the prior kernel. */
+    pstore_present: boolean;
+    /** Number of pstore records found (zero when pstore_present=false). */
+    pstore_record_count: number;
+    /** True if /var/crash/ contains a kdump vmcore. */
+    vmcore_present: boolean;
+    /** Most recent `last reboot -F` output line, verbatim. Null if
+     *  `last` is unavailable or wtmp is empty. */
+    wtmp_reboot_record: string | null;
+    /** Heuristic: true when wtmp shows a `shutdown` record before the
+     *  most recent reboot (suggests a clean shutdown). false when only
+     *  the boot record is present (suggests hard reset or power loss). */
+    prior_shutdown_clean: boolean;
+}
+export interface HardwareRaidController {
+    vendor: "dell" | "hpe" | "lsi" | "adaptec";
+    controller_id: string;
+    /** Vendor-reported overall state, e.g. "Optimal", "Degraded",
+     *  "Critical", "Failed", or "Unknown". The dashboard's
+     *  raid_degraded evaluator pages on any state != "Optimal". */
+    state: string;
+    /** Count of physical disks the controller flagged as failed /
+     *  degraded; null when the parser couldn't extract this. */
+    degraded_disks: number | null;
+    /** Optional vendor-text excerpt the dashboard can surface in
+     *  evidence; null when not captured. */
+    raw_summary: string | null;
+}
+export interface HardwareRaidSnapshot {
+    controllers: HardwareRaidController[];
 }
 export interface ConntrackData {
     available: boolean;
     count: number;
     max: number;
     percent: number;
+    /** C9 (2026-05-19): cumulative insert_failed counter (sum across CPUs)
+     *  from /proc/net/stat/nf_conntrack. Optional because pre-0.11.0
+     *  agents omit it. */
+    insert_failed_total?: number;
+    /** C9: cumulative drop counter from /proc/net/stat/nf_conntrack. */
+    drop_total?: number;
+    /** Per-second insert_failed rate over the most recent snapshot
+     *  interval. Null on first snapshot, on counter reset, or when the
+     *  stat file is unavailable. */
+    insert_failed_rate_per_sec?: number | null;
+    drop_rate_per_sec?: number | null;
+}
+export interface ProcessFdEntry {
+    pid: number;
+    comm: string;
+    fd_count: number;
+    rlimit_nofile_soft: number;
+    rlimit_nofile_hard: number;
+    /** fd_count / rlimit_nofile_soft * 100, rounded to one decimal. Zero
+     *  when soft limit is unlimited (no useful proximity signal). */
+    percent_of_soft_limit: number;
+}
+export interface ProcessFdSnapshot {
+    available: boolean;
+    reason?: string;
+    /** Top 50 processes by fd_count. */
+    top_consumers: ProcessFdEntry[];
+    /** Number of numeric /proc/<pid> entries we considered. */
+    total_processes_scanned: number;
+    /** Aggregate signal: max percent_of_soft_limit across top_consumers.
+     *  Null when top_consumers is empty. */
+    highest_percent_of_limit: number | null;
+}
+export interface BondSlave {
+    name: string;
+    mii_status: string;
+    link_failure_count: number;
+    permanent_hw_addr: string;
+    aggregator_id: number | null;
+    partner_churn_state: string | null;
+    partner_lacp_port_state: number | null;
+    /** Convenience flag derived from the LACP port-state bitfield's
+     *  synchronization bit (bit 3, 0x08). Null when the bond is not
+     *  LACP or partner state was not captured. */
+    partner_lacp_synchronized: boolean | null;
+}
+export interface BondAggregator {
+    id: number;
+    number_of_ports: number;
+    actor_key: number | null;
+    partner_key: number | null;
+    partner_mac_address: string | null;
+}
+export interface Bond {
+    name: string;
+    mode: string;
+    is_lacp: boolean;
+    lacp_rate: string | null;
+    slaves: BondSlave[];
+    /** Equal to slaves.length; surfaces the "configured" port count
+     *  alongside active_aggregator.number_of_ports so the dashboard can
+     *  compute a shortfall. */
+    configured_port_count: number;
+    active_aggregator: BondAggregator | null;
+}
+export interface BondingSnapshot {
+    available: boolean;
+    reason?: string;
+    bonds: Bond[];
+}
+export interface TcpStatsSnapshot {
+    available: boolean;
+    reason?: string;
+    out_segs_total?: number;
+    retrans_segs_total?: number;
+    in_segs_total?: number;
+    /** Retransmits divided by segments sent over the most recent
+     *  interval. Range 0.0 - 1.0. Null on first snapshot or counter
+     *  reset. Zero when no outbound traffic in the interval. */
+    retrans_ratio?: number | null;
+    retrans_rate_per_sec?: number | null;
+    /** Optional listen-queue counters from /proc/net/netstat TcpExt.
+     *  Absent when /proc/net/netstat is not readable. */
+    listen_overflows_total?: number;
+    listen_drops_total?: number;
+    listen_overflows_rate_per_sec?: number | null;
+    listen_drops_rate_per_sec?: number | null;
 }
 export interface SystemdData {
     failed_units: string[];
@@ -58,6 +246,21 @@ export interface FileDescriptorData {
     max: number;
     percent: number;
 }
+export interface ZfsVdev {
+    /** Vdev name, e.g. "raidz2-0", "mirror-0", or a raw device for
+     *  single-device top-level stripes. */
+    name: string;
+    /** Vdev state from `zpool status` (ONLINE, DEGRADED, FAULTED,
+     *  REMOVED, SUSPENDED, UNAVAIL). */
+    state: string;
+    /** Redundancy class. C6 addition (2026-05-19): scaled vdev severity
+     *  matrix on the dashboard side depends on this so a DEGRADED
+     *  raidz1 (zero remaining tolerance) pages differently from a
+     *  DEGRADED raidz2 (one disk-fault budget left). */
+    redundancy_class: "mirror" | "raidz1" | "raidz2" | "raidz3" | "draid" | "stripe";
+    /** Number of child devices under this vdev in a non-ONLINE state. */
+    degraded_disks_count: number;
+}
 export interface ZfsPool {
     name: string;
     state: string;
@@ -66,6 +269,14 @@ export interface ZfsPool {
     scrub_repaired?: string;
     last_scrub_date?: string;
     scrub_never_run?: boolean;
+    /** Top-level data vdevs. Always present from collector v0.10.4+.
+     *  Dashboard tolerates absent (older agents) via capability gates. */
+    vdevs: ZfsVdev[];
+    /** Separate log (SLOG / ZIL) vdevs. Empty array on pools without
+     *  a SLOG configured. */
+    slog_vdevs: ZfsVdev[];
+    /** Cache (L2ARC) vdevs. Empty array on pools without L2ARC. */
+    l2arc_vdevs: ZfsVdev[];
 }
 export interface ZfsData {
     pools: ZfsPool[];

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@glassmkr/crucible",
-  "version": "0.10.3",
+  "version": "0.11.0",
   "description": "Lightweight bare metal server monitoring. IPMI, SMART, OS, network. Opinionated alerts.",
   "type": "module",
   "main": "./dist/index.js",