npm - @d-zero/beholder - Versions diffs - 2.1.5 → 3.0.0 - Mend

@d-zero/beholder 2.1.5 → 3.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (37) hide show

package/CHANGELOG.md +44 -0
package/README.md +9 -276
package/dist/dom-evaluation.d.ts +100 -62
package/dist/dom-evaluation.js +498 -195
package/dist/index.d.ts +1 -1
package/dist/meta/classify.d.ts +52 -0
package/dist/meta/classify.js +731 -0
package/dist/meta/id-extractors.d.ts +40 -0
package/dist/meta/id-extractors.js +196 -0
package/dist/meta/keys.d.ts +41 -0
package/dist/meta/keys.js +507 -0
package/dist/meta/parsers.d.ts +74 -0
package/dist/meta/parsers.js +293 -0
package/dist/meta/tag-detection.d.ts +59 -0
package/dist/meta/tag-detection.js +120 -0
package/dist/meta/types.d.ts +874 -0
package/dist/meta/types.js +12 -0
package/dist/scraper.js +22 -18
package/dist/types.d.ts +8 -37
package/package.json +5 -4
package/src/dom-evaluation.spec.ts +521 -0
package/src/dom-evaluation.ts +655 -227
package/src/index.ts +43 -0
package/src/meta/classify.spec.ts +281 -0
package/src/meta/classify.ts +810 -0
package/src/meta/id-extractors.spec.ts +69 -0
package/src/meta/id-extractors.ts +206 -0
package/src/meta/keys.ts +568 -0
package/src/meta/parsers.spec.ts +178 -0
package/src/meta/parsers.ts +304 -0
package/src/meta/simple-wappalyzer.d.ts +37 -0
package/src/meta/tag-detection.spec.ts +134 -0
package/src/meta/tag-detection.ts +161 -0
package/src/meta/types.ts +949 -0
package/src/scraper.ts +32 -16
package/src/types.ts +54 -54
package/tsconfig.tsbuildinfo +1 -1

package/dist/meta/types.js ADDED Viewed

@@ -0,0 +1,12 @@
+/**
+ * Type definitions for the `Meta` data extracted from a page's `<head>` and full document.
+ *
+ * Structure follows the reference table in `frontmatter-keys.md`, with one dot-path
+ * field per category. Optional fields are absent when not detected on the page.
+ * Array fields are required and default to `[]` so consumers can iterate without
+ * null-checks.
+ * @see {@link ./classify.ts} for the function that builds `Meta` from raw head entries
+ * @see {@link ./parsers.ts} for the value normalizers used by `classify`
+ * @module
+ */
+export {};

package/dist/scraper.js CHANGED Viewed

@@ -42,9 +42,10 @@ import { detectCompress } from '@d-zero/shared/detect-compress';
 import { retry as retryable } from '@d-zero/shared/retry';
 import { TypedAwaitEventEmitter as EventEmitter } from '@d-zero/shared/typed-await-event-emitter';
 import { resourceLog, scraperLog } from './debug.js';
-import { getAnchorList, getImageList, getMeta } from './dom-evaluation.js';
+import { DEFAULT_DOM_EVALUATION_TIMEOUT, getAnchorList, getImageList, getMeta, } from './dom-evaluation.js';
 import { isError } from './is-error.js';
 import { keywordCheck } from './keyword-check.js';
+import { emptyMeta } from './meta/classify.js';
 import { findDisconnectionFailures } from './network-disconnection.js';
 import { parseUrl } from './parse-url.js';
 const pid = `${process.pid}`;
@@ -107,6 +108,7 @@ let Scraper = (() => {
                     const parseOpts = options?.disableQueries == null
                         ? undefined
                         : { disableQueries: options.disableQueries };
+                    const domEvaluationTimeout = options?.domEvaluationTimeout ?? DEFAULT_DOM_EVALUATION_TIMEOUT;
                     const networkLogs = {};
                     // Clear stale state from previous retries (@retryable may re-invoke this method
                     // with the same page and mutable arrays, so we must reset to avoid accumulation)
@@ -265,9 +267,7 @@ let Scraper = (() => {
                             contentType,
                             contentLength,
                             responseHeaders,
-                            meta: {
-                                title: '',
-                            },
+                            meta: emptyMeta(),
                             imageList: [],
                             anchorList: [],
                             html: '',
@@ -299,6 +299,8 @@ let Scraper = (() => {
                         };
                     });
                     if (isExternal) {
+                        const externalMeta = emptyMeta();
+                        externalMeta.title = title;
                         return {
                             url,
                             isTarget: false,
@@ -309,9 +311,7 @@ let Scraper = (() => {
                             contentType,
                             contentLength,
                             responseHeaders,
-                            meta: {
-                                title,
-                            },
+                            meta: externalMeta,
                             imageList: [],
                             anchorList: [],
                             html,
@@ -341,17 +341,22 @@ let Scraper = (() => {
                         name: 'getAnchors',
                         url,
                         isExternal,
-                        message: '',
+                        message: `%countdown(${domEvaluationTimeout},getAnchors_${url.withoutHash},s)%s`,
                     });
-                    const anchorList = await getAnchorList(page, parseOpts);
+                    const anchorList = await getAnchorList(page, parseOpts, domEvaluationTimeout);
                     void this.emit('changePhase', {
                         pid: process.pid,
                         name: 'getMeta',
                         url,
                         isExternal,
-                        message: '',
+                        message: `%countdown(${domEvaluationTimeout},getMeta_${url.withoutHash},s)%s`,
                     });
-                    const meta = await getMeta(page);
+                    const meta = await getMeta(page, {
+                        url: url.withoutHashAndAuth,
+                        html,
+                        statusCode: status,
+                        headers: responseHeaders ?? undefined,
+                    }, domEvaluationTimeout);
                     const imageList = captureImages
                         ? await (async () => {
                             void this.emit('changePhase', {
@@ -359,9 +364,9 @@ let Scraper = (() => {
                                 name: 'extractImages',
                                 url,
                                 isExternal,
-                                message: '',
+                                message: `%countdown(${domEvaluationTimeout},extractImages_${url.withoutHash},s)%s`,
                             });
-                            return this.#fetchImages(page, url.withoutHashAndAuth, isExternal, imageLoadTimeout);
+                            return this.#fetchImages(page, url.withoutHashAndAuth, isExternal, imageLoadTimeout, domEvaluationTimeout);
                         })()
                         : [];
                     return {
@@ -381,7 +386,7 @@ let Scraper = (() => {
                         isSkipped: false,
                     };
                 }, "#fetchData") }, _private_fetchData_decorators, { kind: "method", name: "#fetchData", static: false, private: true, access: { has: obj => #fetchData in obj, get: obj => obj.#fetchData }, metadata: _metadata }, null, _instanceExtraInitializers);
-            __esDecorate(this, _private_fetchImages_descriptor = { value: __setFunctionName(async function (page, url, isExternal, imageLoadTimeout) {
+            __esDecorate(this, _private_fetchImages_descriptor = { value: __setFunctionName(async function (page, url, isExternal, imageLoadTimeout, domEvaluationTimeout) {
                     const listener = this.#createPageScanListener(isExternal);
                     const devices = [
                         { key: 'desktop-compact', preset: devicePresets['desktop-compact'] },
@@ -423,7 +428,7 @@ let Scraper = (() => {
                                 isExternal,
                                 message: `📸 ${key}: Extracting images%dots%`,
                             });
-                            const images = await getImageList(page, preset.width);
+                            const images = await getImageList(page, preset.width, domEvaluationTimeout);
                             imageList.push(...images);
                         }
                         catch (error) {
@@ -509,9 +514,7 @@ let Scraper = (() => {
                     contentType: null,
                     contentLength: null,
                     responseHeaders: {},
-                    meta: {
-                        title: '',
-                    },
+                    meta: emptyMeta(),
                     imageList: [],
                     anchorList: [],
                     html: '',
@@ -705,6 +708,7 @@ let Scraper = (() => {
          * @param url - The page URL string (without hash and auth)
          * @param isExternal - Whether the page is external
          * @param imageLoadTimeout - Timeout (ms) for waiting images to complete loading
+         * @param domEvaluationTimeout - Timeout (ms) for the in-page image extraction `page.evaluate`
          * @returns Array of image elements from all device presets (may be partial if some viewports failed)
          */
         get #fetchImages() { return _private_fetchImages_descriptor.value; }

package/dist/types.d.ts CHANGED Viewed

@@ -7,6 +7,8 @@
 export type { ExURL, ParseURLOptions } from '@d-zero/shared/parse-url';
 export type { CompressType } from '@d-zero/shared/detect-compress';
 export type { CDNType } from '@d-zero/shared/detect-cdn';
+export type { Meta, OpenGraphMeta, OgArticleMeta, OgBookMeta, OgProfileMeta, OgMusicMeta, OgVideoNsMeta, TwitterMeta, FbMeta, FediverseMeta, AppleMeta, MsApplicationMeta, VerificationMeta, GoogleMeta, GeoMeta, CitationMeta, RdfaMeta, MicrodataMeta, AmpMeta, LegacyMeta, MobileMeta, MicroformatsMeta, PinterestMeta, SlackMeta, LinkedInMeta, ExperimentalMeta, WikiMeta, LinkMeta, LinkEntry, JsonLdEntry, OthersBucket, ScriptEntry, IframeEntry, TagsMeta, TagDetail, TagEntry, TagSource, ViewportMeta, RobotsMeta, ReferrerMeta, FormatDetectionMeta, HttpEquivMeta, HttpEquivRefresh, RawHeadEntry, } from './meta/types.js';
+import type { Meta } from './meta/types.js';
 import type { CDNType } from '@d-zero/shared/detect-cdn';
 import type { CompressType } from '@d-zero/shared/detect-compress';
 import type { ExURL } from '@d-zero/shared/parse-url';
@@ -134,43 +136,6 @@ export type AnchorData = {
      */
     isExternal?: boolean;
 };
-/**
- * Metadata extracted from a page's `<head>` element.
- */
-export type Meta = {
-    /** The `lang` attribute of the `<html>` element. */
-    lang?: string;
-    /** The text content of the `<title>` element. */
-    title: string;
-    /** The `content` attribute of `<meta name="description">`. */
-    description?: string;
-    /** The `content` attribute of `<meta name="keywords">`. */
-    keywords?: string;
-    /** Whether `noindex` is present in the robots meta tag. */
-    noindex?: boolean;
-    /** Whether `nofollow` is present in the robots meta tag. */
-    nofollow?: boolean;
-    /** Whether `noarchive` is present in the robots meta tag. */
-    noarchive?: boolean;
-    /** The canonical URL from `<link rel="canonical">`. */
-    canonical?: string;
-    /** The alternate URL from `<link rel="alternate">`. */
-    alternate?: string;
-    /** The Open Graph type (`og:type`). */
-    'og:type'?: string;
-    /** The Open Graph title (`og:title`). */
-    'og:title'?: string;
-    /** The Open Graph site name (`og:site_name`). */
-    'og:site_name'?: string;
-    /** The Open Graph description (`og:description`). */
-    'og:description'?: string;
-    /** The Open Graph URL (`og:url`). */
-    'og:url'?: string;
-    /** The Open Graph image URL (`og:image`). */
-    'og:image'?: string;
-    /** The Twitter Card type (`twitter:card`). */
-    'twitter:card'?: string;
-};
 /**
  * A network request/response log entry captured during page scraping via Puppeteer.
  */
@@ -345,4 +310,10 @@ export type ScraperOptions = {
     headCheckResult?: PageData;
     /** Timeout (ms) for page.goto(). Default: 60_000 (60s). */
     navigationTimeout?: number;
+    /**
+     * Timeout (ms) for DOM evaluation operations (meta/image/anchor extraction).
+     * Bounds how long extraction may hang on a page with an unresponsive main thread.
+     * Default: 180_000 (180s, aligned with the upstream retryable timeout).
+     */
+    domEvaluationTimeout?: number;
 };

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
 	"name": "@d-zero/beholder",
-	"version": "2.1.5",
+	"version": "3.0.0",
 	"description": "Page-level scraper for web crawling and auditing",
 	"author": "D-ZERO",
 	"license": "MIT",
@@ -20,10 +20,11 @@
 		"clean": "tsc --build --clean"
 	},
 	"dependencies": {
-		"@d-zero/puppeteer-page-scan": "4.5.0",
+		"@d-zero/puppeteer-page-scan": "4.5.2",
 		"@d-zero/shared": "0.22.0",
 		"debug": "4.4.3",
-		"puppeteer": "24.37.5"
+		"puppeteer": "24.37.5",
+		"simple-wappalyzer": "1.1.99"
 	},
 	"devDependencies": {
 		"@types/debug": "4.1.12"
@@ -33,5 +34,5 @@
 		"url": "https://github.com/d-zero-dev/tools.git",
 		"directory": "packages/@d-zero/beholder"
 	},
-	"gitHead": "2d24e08c0cb516b7ea9d07a4301eb991193cca11"
+	"gitHead": "16c831105a12bb635d49130e7f5add25b6643c40"
 }