npm - @intlayer/chokidar - Versions diffs - 8.12.4 → 9.0.0-canary.0 - Mend

@intlayer/chokidar 8.12.4 → 9.0.0-canary.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (88) hide show

package/dist/cjs/buildIntlayerDictionary/buildIntlayerDictionary.cjs +21 -4
package/dist/cjs/buildIntlayerDictionary/buildIntlayerDictionary.cjs.map +1 -1
package/dist/cjs/buildIntlayerDictionary/writeDynamicDictionary.cjs +94 -0
package/dist/cjs/buildIntlayerDictionary/writeDynamicDictionary.cjs.map +1 -1
package/dist/cjs/buildIntlayerDictionary/writeMergedDictionary.cjs +1 -1
package/dist/cjs/buildIntlayerDictionary/writeMergedDictionary.cjs.map +1 -1
package/dist/cjs/createType/createType.cjs.map +1 -1
package/dist/cjs/init/index.cjs +63 -9
package/dist/cjs/init/index.cjs.map +1 -1
package/dist/cjs/init/utils/configManipulation.cjs +196 -0
package/dist/cjs/init/utils/configManipulation.cjs.map +1 -1
package/dist/cjs/init/utils/fileSystem.cjs +84 -0
package/dist/cjs/init/utils/fileSystem.cjs.map +1 -1
package/dist/cjs/init/utils/index.cjs +12 -0
package/dist/cjs/init/utils/packageManager.cjs +187 -0
package/dist/cjs/init/utils/packageManager.cjs.map +1 -0
package/dist/cjs/scan/analyzeBundleContent.cjs +182 -0
package/dist/cjs/scan/analyzeBundleContent.cjs.map +1 -0
package/dist/cjs/scan/calculateScore.cjs +65 -0
package/dist/cjs/scan/calculateScore.cjs.map +1 -0
package/dist/cjs/scan/checks.cjs +274 -0
package/dist/cjs/scan/checks.cjs.map +1 -0
package/dist/cjs/scan/index.cjs +31 -0
package/dist/cjs/scan/parseHtml.cjs +127 -0
package/dist/cjs/scan/parseHtml.cjs.map +1 -0
package/dist/cjs/scan/scanWebsite.cjs +205 -0
package/dist/cjs/scan/scanWebsite.cjs.map +1 -0
package/dist/cjs/scan/types.cjs +0 -0
package/dist/esm/buildIntlayerDictionary/buildIntlayerDictionary.mjs +22 -5
package/dist/esm/buildIntlayerDictionary/buildIntlayerDictionary.mjs.map +1 -1
package/dist/esm/buildIntlayerDictionary/writeDynamicDictionary.mjs +93 -1
package/dist/esm/buildIntlayerDictionary/writeDynamicDictionary.mjs.map +1 -1
package/dist/esm/buildIntlayerDictionary/writeMergedDictionary.mjs +2 -2
package/dist/esm/buildIntlayerDictionary/writeMergedDictionary.mjs.map +1 -1
package/dist/esm/createType/createType.mjs.map +1 -1
package/dist/esm/init/index.mjs +65 -11
package/dist/esm/init/index.mjs.map +1 -1
package/dist/esm/init/utils/configManipulation.mjs +190 -1
package/dist/esm/init/utils/configManipulation.mjs.map +1 -1
package/dist/esm/init/utils/fileSystem.mjs +83 -1
package/dist/esm/init/utils/fileSystem.mjs.map +1 -1
package/dist/esm/init/utils/index.mjs +4 -3
package/dist/esm/init/utils/packageManager.mjs +183 -0
package/dist/esm/init/utils/packageManager.mjs.map +1 -0
package/dist/esm/scan/analyzeBundleContent.mjs +180 -0
package/dist/esm/scan/analyzeBundleContent.mjs.map +1 -0
package/dist/esm/scan/calculateScore.mjs +61 -0
package/dist/esm/scan/calculateScore.mjs.map +1 -0
package/dist/esm/scan/checks.mjs +265 -0
package/dist/esm/scan/checks.mjs.map +1 -0
package/dist/esm/scan/index.mjs +7 -0
package/dist/esm/scan/parseHtml.mjs +115 -0
package/dist/esm/scan/parseHtml.mjs.map +1 -0
package/dist/esm/scan/scanWebsite.mjs +203 -0
package/dist/esm/scan/scanWebsite.mjs.map +1 -0
package/dist/esm/scan/types.mjs +0 -0
package/dist/types/buildIntlayerDictionary/buildIntlayerDictionary.d.ts.map +1 -1
package/dist/types/buildIntlayerDictionary/writeDynamicDictionary.d.ts +31 -4
package/dist/types/buildIntlayerDictionary/writeDynamicDictionary.d.ts.map +1 -1
package/dist/types/buildIntlayerDictionary/writeMergedDictionary.d.ts +13 -3
package/dist/types/buildIntlayerDictionary/writeMergedDictionary.d.ts.map +1 -1
package/dist/types/createType/createType.d.ts +3 -3
package/dist/types/createType/createType.d.ts.map +1 -1
package/dist/types/formatDictionary.d.ts +9 -2
package/dist/types/formatDictionary.d.ts.map +1 -1
package/dist/types/init/index.d.ts.map +1 -1
package/dist/types/init/utils/configManipulation.d.ts +42 -1
package/dist/types/init/utils/configManipulation.d.ts.map +1 -1
package/dist/types/init/utils/fileSystem.d.ts +31 -1
package/dist/types/init/utils/fileSystem.d.ts.map +1 -1
package/dist/types/init/utils/index.d.ts +4 -3
package/dist/types/init/utils/packageManager.d.ts +59 -0
package/dist/types/init/utils/packageManager.d.ts.map +1 -0
package/dist/types/intlayer/dist/types/index.d.ts +4 -0
package/dist/types/scan/analyzeBundleContent.d.ts +16 -0
package/dist/types/scan/analyzeBundleContent.d.ts.map +1 -0
package/dist/types/scan/calculateScore.d.ts +65 -0
package/dist/types/scan/calculateScore.d.ts.map +1 -0
package/dist/types/scan/checks.d.ts +38 -0
package/dist/types/scan/checks.d.ts.map +1 -0
package/dist/types/scan/index.d.ts +7 -0
package/dist/types/scan/parseHtml.d.ts +54 -0
package/dist/types/scan/parseHtml.d.ts.map +1 -0
package/dist/types/scan/scanWebsite.d.ts +18 -0
package/dist/types/scan/scanWebsite.d.ts.map +1 -0
package/dist/types/scan/types.d.ts +76 -0
package/dist/types/scan/types.d.ts.map +1 -0
package/package.json +17 -9

package/dist/cjs/scan/checks.cjs ADDED Viewed

@@ -0,0 +1,274 @@
+Object.defineProperty(exports, Symbol.toStringTag, { value: 'Module' });
+const require_runtime = require('../_virtual/_rolldown/runtime.cjs');
+const require_scan_parseHtml = require('./parseHtml.cjs');
+const require_scan_analyzeBundleContent = require('./analyzeBundleContent.cjs');
+let _intlayer_types_allLocales = require("@intlayer/types/allLocales");
+//#region src/scan/checks.ts
+/** Format a byte count as a human-readable size. */
+const formatSize = (bytes) => {
+	if (bytes >= 1024 * 1024) return `${(bytes / (1024 * 1024)).toFixed(2)} MB`;
+	if (bytes >= 1024) return `${(bytes / 1024).toFixed(2)} KB`;
+	return `${bytes} B`;
+};
+/**
+* Check the `<html>` element attributes (`lang`, `dir`) and the resulting
+* current-locale signal. Returns the detected language tag.
+*/
+const checkHtmlAttributes = (html, targetUrl, events) => {
+	const langTag = require_scan_parseHtml.extractHtmlLang(html);
+	const dirTag = require_scan_parseHtml.extractHtmlDir(html);
+	events.push({
+		type: `url_htmlLang\\${targetUrl}`,
+		status: langTag ? "success" : "error",
+		details: {
+			success: langTag,
+			error: langTag ? void 0 : "Missing html lang attribute"
+		}
+	});
+	events.push({
+		type: `url_currentLocale\\${targetUrl}`,
+		status: langTag ? "success" : "warning",
+		details: {
+			success: langTag,
+			warning: langTag ? void 0 : "No locale detected"
+		}
+	});
+	events.push({
+		type: `url_htmlDir\\${targetUrl}`,
+		status: dirTag ? "success" : "warning",
+		details: {
+			success: dirTag,
+			warning: dirTag ? void 0 : "Missing html dir attribute"
+		}
+	});
+	return { langTag };
+};
+/** Check the presence of a canonical link. */
+const checkCanonical = (html, targetUrl, events) => {
+	const present = require_scan_parseHtml.hasCanonical(html);
+	events.push({
+		type: `url_hasCanonical\\${targetUrl}`,
+		status: present ? "success" : "warning",
+		details: { warning: present ? void 0 : "Missing canonical link" }
+	});
+};
+/**
+* Check the page's hreflang structure and collect discovered locales into
+* `localesSet`.
+*/
+const checkLinguisticStructure = (html, targetUrl, localesSet, events) => {
+	const langTag = require_scan_parseHtml.extractHtmlLang(html);
+	if (langTag) localesSet.add(langTag);
+	const hreflangs = require_scan_parseHtml.extractHreflangs(html);
+	for (const { hreflang } of hreflangs) if (hreflang !== "x-default") localesSet.add(hreflang);
+	const hasXDefault = hreflangs.some((h) => h.hreflang === "x-default");
+	events.push({
+		type: `url_hreflang\\${targetUrl}`,
+		status: hreflangs.length > 0 ? "success" : "warning",
+		details: {
+			success: hreflangs.length > 0 ? hreflangs : void 0,
+			warning: hreflangs.length === 0 ? "No hreflang tags found" : void 0
+		}
+	});
+	events.push({
+		type: `url_hasXDefault\\${targetUrl}`,
+		status: hasXDefault ? "success" : "error",
+		details: { error: hasXDefault ? void 0 : "Missing x-default hreflang link" }
+	});
+};
+const normalizeHost = (host) => host.startsWith("www.") ? host.slice(4) : host;
+const localeValues = Object.values(_intlayer_types_allLocales.ALL_LOCALES);
+/**
+* Check whether internal links carry a locale segment, mirroring the hosted
+* audit's URL-structure analysis but operating on parsed anchors instead of a
+* live DOM.
+*/
+const checkUrlStructure = (anchors, origin, targetUrl, events) => {
+	const targetHostname = normalizeHost(new URL(origin).hostname);
+	let localizedCount = 0;
+	let totalInternalCount = 0;
+	const nonLocalizedLinks = [];
+	for (const { href } of anchors) {
+		if (!href || href.startsWith("#") || href.startsWith("javascript:")) continue;
+		try {
+			const url = new URL(href, origin);
+			if (normalizeHost(url.hostname) !== targetHostname) continue;
+			totalInternalCount++;
+			const path = url.pathname.toLowerCase();
+			const hostname = url.hostname.toLowerCase();
+			const hasLocaleInPath = localeValues.some((locale) => {
+				const l = locale.toLowerCase();
+				return path === `/${l}` || path.includes(`/${l}/`);
+			});
+			const hasLocaleInSubdomain = localeValues.some((locale) => {
+				const l = locale.toLowerCase();
+				return hostname.startsWith(`${l}.`) || hostname.includes(`.${l}.`);
+			});
+			if (hasLocaleInPath || hasLocaleInSubdomain) localizedCount++;
+			else nonLocalizedLinks.push(href);
+		} catch {}
+	}
+	const hasLocalizedLinks = localizedCount > 0;
+	const allAnchorsLocalized = totalInternalCount === 0 || localizedCount === totalInternalCount;
+	events.push({
+		type: `url_hasLocalizedLinks\\${targetUrl}`,
+		status: hasLocalizedLinks ? "success" : "warning",
+		details: {
+			success: hasLocalizedLinks ? `${localizedCount} localized links found out of ${totalInternalCount} internal links` : void 0,
+			warning: hasLocalizedLinks ? void 0 : "No localized links found"
+		}
+	});
+	events.push({
+		type: `url_allAnchorsLocalized\\${targetUrl}`,
+		status: allAnchorsLocalized ? "success" : "warning",
+		details: { warning: allAnchorsLocalized ? void 0 : {
+			message: "Some internal links are not localized",
+			links: nonLocalizedLinks
+		} }
+	});
+};
+/**
+* Analyze the JavaScript bundles for unused locale content and emit the
+* corresponding event. Returns the analysis so callers can report on it.
+*/
+const checkBundleContent = (chunks, html, currentLocale, targetUrl, totalPageSize, events) => {
+	if (!currentLocale) {
+		events.push({
+			type: `url_unusedBundleContent\\${targetUrl}`,
+			status: "warning",
+			details: { warning: "Cannot analyse bundle content: page locale not detected" }
+		});
+		return;
+	}
+	const analysis = require_scan_analyzeBundleContent.analyzeBundleContent(chunks, html, currentLocale, totalPageSize);
+	const mainBundleMaxUnused = analysis.mainBundleChunks.reduce((max, c) => Math.max(max, c.unusedPercent), 0);
+	const status = mainBundleMaxUnused === 0 ? "success" : mainBundleMaxUnused <= 30 ? "warning" : "error";
+	events.push({
+		type: `url_unusedBundleContent\\${targetUrl}`,
+		status,
+		details: { [status]: analysis }
+	});
+	return analysis;
+};
+/** Fetch and check `robots.txt`, emitting robots-related events. */
+const checkRobots = async (origin, discoveredLocales, userAgent, events) => {
+	let robotsPresent = false;
+	let noLocalizedUrlsForgotten = true;
+	const errors = [];
+	try {
+		const response = await fetch(`${origin}/robots.txt`, { headers: { "User-Agent": userAgent } });
+		if (response.ok) {
+			robotsPresent = true;
+			const content = await response.text();
+			if (content && discoveredLocales.size > 0) {
+				const disallowedPaths = content.split("\n").map((line) => line.trim().toLowerCase()).filter((line) => line.startsWith("disallow:")).map((line) => line.slice(9).trim());
+				for (const locale of discoveredLocales) for (const path of disallowedPaths) if (path === `/${locale}` || path === `/${locale}/`) {
+					noLocalizedUrlsForgotten = false;
+					errors.push(`Locale path "${locale}" appears to be blocked in robots.txt: ${path}`);
+				}
+			}
+		}
+	} catch (error) {
+		errors.push(`Failed to fetch robots.txt: ${error instanceof Error ? error.message : "Unknown error"}`);
+	}
+	events.push({
+		type: "robots_robotsPresent",
+		status: robotsPresent ? "success" : "warning",
+		details: {
+			warning: robotsPresent ? void 0 : "No robots.txt found",
+			error: errors.length > 0 ? errors : void 0
+		}
+	});
+	if (robotsPresent) events.push({
+		type: "robots_noLocalizedUrlsForgotten",
+		status: noLocalizedUrlsForgotten ? "success" : "error",
+		details: { error: noLocalizedUrlsForgotten ? void 0 : errors }
+	});
+};
+/** Fetch and check `sitemap.xml`, emitting sitemap-related events. */
+const checkSitemap = async (origin, discoveredLocales, userAgent, events) => {
+	let sitemapPresent = false;
+	let hasXDefault = false;
+	let hasAlternates = false;
+	let noLocalizedUrlsForgotten = true;
+	const errors = [];
+	try {
+		const response = await fetch(`${origin}/sitemap.xml`, { headers: { "User-Agent": userAgent } });
+		if (response.ok) {
+			sitemapPresent = true;
+			const content = await response.text();
+			const hreflangs = (content.match(/hreflang\s*=\s*"([^"]+)"/gi) ?? []).map((m) => m.replace(/hreflang\s*=\s*"/i, "").replace(/"$/, ""));
+			hasAlternates = hreflangs.length > 0;
+			hasXDefault = hreflangs.includes("x-default");
+			if (discoveredLocales.size > 0) {
+				const urlBlocks = content.match(/<url\b[\s\S]*?<\/url>/gi) ?? [];
+				const allFoundLocales = /* @__PURE__ */ new Set();
+				let anyUrlMissingLocale = false;
+				for (const block of urlBlocks) {
+					const localesInUrl = /* @__PURE__ */ new Set();
+					for (const hreflang of block.match(/hreflang\s*=\s*"([^"]+)"/gi) ?? []) {
+						const value = hreflang.replace(/hreflang\s*=\s*"/i, "").replace(/"$/, "");
+						if (value !== "x-default") {
+							localesInUrl.add(value);
+							allFoundLocales.add(value);
+						}
+					}
+					const loc = block.match(/<loc>([\s\S]*?)<\/loc>/i)?.[1]?.trim();
+					if (loc) try {
+						const firstSegment = new URL(loc).pathname.split("/").filter(Boolean)[0];
+						if (firstSegment && discoveredLocales.has(firstSegment)) {
+							localesInUrl.add(firstSegment);
+							allFoundLocales.add(firstSegment);
+						}
+					} catch {}
+					const missing = [...discoveredLocales].filter((locale) => !localesInUrl.has(locale));
+					if (missing.length > 0 && missing.length < discoveredLocales.size) anyUrlMissingLocale = true;
+				}
+				const completelyMissing = [...discoveredLocales].filter((locale) => !allFoundLocales.has(locale));
+				if (anyUrlMissingLocale || completelyMissing.length > 0) {
+					noLocalizedUrlsForgotten = false;
+					if (completelyMissing.length > 0) errors.push(`The following locales are completely missing from the sitemap: ${completelyMissing.join(", ")}`);
+				}
+			}
+		}
+	} catch (error) {
+		errors.push(`Failed to fetch sitemap.xml: ${error instanceof Error ? error.message : "Unknown error"}`);
+	}
+	events.push({
+		type: "sitemap_sitemapPresent",
+		status: sitemapPresent ? "success" : "warning",
+		details: {
+			warning: sitemapPresent ? void 0 : "No sitemap.xml found",
+			error: errors.length > 0 ? errors : void 0
+		}
+	});
+	if (sitemapPresent) {
+		events.push({
+			type: "sitemap_noLocalizedUrlsForgotten",
+			status: noLocalizedUrlsForgotten ? "success" : "warning",
+			details: { warning: noLocalizedUrlsForgotten ? void 0 : errors }
+		});
+		events.push({
+			type: "sitemap_hasXDefault",
+			status: hasXDefault ? "success" : "warning",
+			details: { warning: hasXDefault ? void 0 : "No x-default hreflang in sitemap" }
+		});
+		events.push({
+			type: "sitemap_hasAlternates",
+			status: hasAlternates ? "success" : "warning",
+			details: { warning: hasAlternates ? void 0 : "No alternate language links found in sitemap" }
+		});
+	}
+};
+//#endregion
+exports.checkBundleContent = checkBundleContent;
+exports.checkCanonical = checkCanonical;
+exports.checkHtmlAttributes = checkHtmlAttributes;
+exports.checkLinguisticStructure = checkLinguisticStructure;
+exports.checkRobots = checkRobots;
+exports.checkSitemap = checkSitemap;
+exports.checkUrlStructure = checkUrlStructure;
+exports.formatSize = formatSize;
+//# sourceMappingURL=checks.cjs.map

package/dist/cjs/scan/checks.cjs.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"checks.cjs","names":["extractHtmlLang","extractHtmlDir","hasCanonical","extractHreflangs","ALL_LOCALES","analyzeBundleContent"],"sources":["../../../src/scan/checks.ts"],"sourcesContent":["import { ALL_LOCALES } from '@intlayer/types/allLocales';\nimport { analyzeBundleContent } from './analyzeBundleContent';\nimport {\n type Anchor,\n extractHreflangs,\n extractHtmlDir,\n extractHtmlLang,\n hasCanonical,\n} from './parseHtml';\nimport type {\n BundleChunkInput,\n BundleContentAnalysis,\n ScanEvent,\n} from './types';\n\n/** Format a byte count as a human-readable size. */\nexport const formatSize = (bytes: number): string => {\n if (bytes >= 1024 * 1024) return `${(bytes / (1024 * 1024)).toFixed(2)} MB`;\n if (bytes >= 1024) return `${(bytes / 1024).toFixed(2)} KB`;\n return `${bytes} B`;\n};\n\n/**\n * Check the `<html>` element attributes (`lang`, `dir`) and the resulting\n * current-locale signal. Returns the detected language tag.\n */\nexport const checkHtmlAttributes = (\n html: string,\n targetUrl: string,\n events: ScanEvent[]\n): { langTag: string | undefined } => {\n const langTag = extractHtmlLang(html);\n const dirTag = extractHtmlDir(html);\n\n events.push({\n type: `url_htmlLang\\\\${targetUrl}`,\n status: langTag ? 'success' : 'error',\n details: {\n success: langTag,\n error: langTag ? undefined : 'Missing html lang attribute',\n },\n });\n\n events.push({\n type: `url_currentLocale\\\\${targetUrl}`,\n status: langTag ? 'success' : 'warning',\n details: {\n success: langTag,\n warning: langTag ? undefined : 'No locale detected',\n },\n });\n\n events.push({\n type: `url_htmlDir\\\\${targetUrl}`,\n status: dirTag ? 'success' : 'warning',\n details: {\n success: dirTag,\n warning: dirTag ? undefined : 'Missing html dir attribute',\n },\n });\n\n return { langTag };\n};\n\n/** Check the presence of a canonical link. */\nexport const checkCanonical = (\n html: string,\n targetUrl: string,\n events: ScanEvent[]\n): void => {\n const present = hasCanonical(html);\n events.push({\n type: `url_hasCanonical\\\\${targetUrl}`,\n status: present ? 'success' : 'warning',\n details: { warning: present ? undefined : 'Missing canonical link' },\n });\n};\n\n/**\n * Check the page's hreflang structure and collect discovered locales into\n * `localesSet`.\n */\nexport const checkLinguisticStructure = (\n html: string,\n targetUrl: string,\n localesSet: Set<string>,\n events: ScanEvent[]\n): void => {\n const langTag = extractHtmlLang(html);\n if (langTag) localesSet.add(langTag);\n\n const hreflangs = extractHreflangs(html);\n for (const { hreflang } of hreflangs) {\n if (hreflang !== 'x-default') localesSet.add(hreflang);\n }\n\n const hasXDefault = hreflangs.some((h) => h.hreflang === 'x-default');\n\n events.push({\n type: `url_hreflang\\\\${targetUrl}`,\n status: hreflangs.length > 0 ? 'success' : 'warning',\n details: {\n success: hreflangs.length > 0 ? hreflangs : undefined,\n warning: hreflangs.length === 0 ? 'No hreflang tags found' : undefined,\n },\n });\n\n events.push({\n type: `url_hasXDefault\\\\${targetUrl}`,\n status: hasXDefault ? 'success' : 'error',\n details: {\n error: hasXDefault ? undefined : 'Missing x-default hreflang link',\n },\n });\n};\n\nconst normalizeHost = (host: string): string =>\n host.startsWith('www.') ? host.slice(4) : host;\n\nconst localeValues = Object.values(ALL_LOCALES) as string[];\n\n/**\n * Check whether internal links carry a locale segment, mirroring the hosted\n * audit's URL-structure analysis but operating on parsed anchors instead of a\n * live DOM.\n */\nexport const checkUrlStructure = (\n anchors: Anchor[],\n origin: string,\n targetUrl: string,\n events: ScanEvent[]\n): void => {\n const targetHostname = normalizeHost(new URL(origin).hostname);\n\n let localizedCount = 0;\n let totalInternalCount = 0;\n const nonLocalizedLinks: string[] = [];\n\n for (const { href } of anchors) {\n if (!href || href.startsWith('#') || href.startsWith('javascript:'))\n continue;\n\n try {\n const url = new URL(href, origin);\n if (normalizeHost(url.hostname) !== targetHostname) continue;\n\n totalInternalCount++;\n const path = url.pathname.toLowerCase();\n const hostname = url.hostname.toLowerCase();\n\n const hasLocaleInPath = localeValues.some((locale) => {\n const l = locale.toLowerCase();\n return path === `/${l}` || path.includes(`/${l}/`);\n });\n const hasLocaleInSubdomain = localeValues.some((locale) => {\n const l = locale.toLowerCase();\n return hostname.startsWith(`${l}.`) || hostname.includes(`.${l}.`);\n });\n\n if (hasLocaleInPath || hasLocaleInSubdomain) {\n localizedCount++;\n } else {\n nonLocalizedLinks.push(href);\n }\n } catch {\n /* ignore malformed URLs */\n }\n }\n\n const hasLocalizedLinks = localizedCount > 0;\n const allAnchorsLocalized =\n totalInternalCount === 0 || localizedCount === totalInternalCount;\n\n events.push({\n type: `url_hasLocalizedLinks\\\\${targetUrl}`,\n status: hasLocalizedLinks ? 'success' : 'warning',\n details: {\n success: hasLocalizedLinks\n ? `${localizedCount} localized links found out of ${totalInternalCount} internal links`\n : undefined,\n warning: hasLocalizedLinks ? undefined : 'No localized links found',\n },\n });\n\n events.push({\n type: `url_allAnchorsLocalized\\\\${targetUrl}`,\n status: allAnchorsLocalized ? 'success' : 'warning',\n details: {\n warning: allAnchorsLocalized\n ? undefined\n : {\n message: 'Some internal links are not localized',\n links: nonLocalizedLinks,\n },\n },\n });\n};\n\n/**\n * Analyze the JavaScript bundles for unused locale content and emit the\n * corresponding event. Returns the analysis so callers can report on it.\n */\nexport const checkBundleContent = (\n chunks: BundleChunkInput[],\n html: string,\n currentLocale: string | undefined,\n targetUrl: string,\n totalPageSize: number,\n events: ScanEvent[]\n): BundleContentAnalysis | undefined => {\n if (!currentLocale) {\n events.push({\n type: `url_unusedBundleContent\\\\${targetUrl}`,\n status: 'warning',\n details: {\n warning: 'Cannot analyse bundle content: page locale not detected',\n },\n });\n return undefined;\n }\n\n const analysis = analyzeBundleContent(\n chunks,\n html,\n currentLocale,\n totalPageSize\n );\n\n // Status is driven by the main bundle — lazy chunks with unused content are expected.\n const mainBundleMaxUnused = analysis.mainBundleChunks.reduce(\n (max, c) => Math.max(max, c.unusedPercent),\n 0\n );\n\n const status =\n mainBundleMaxUnused === 0\n ? 'success'\n : mainBundleMaxUnused <= 30\n ? 'warning'\n : 'error';\n\n events.push({\n type: `url_unusedBundleContent\\\\${targetUrl}`,\n status,\n details: { [status]: analysis },\n });\n\n return analysis;\n};\n\n/** Fetch and check `robots.txt`, emitting robots-related events. */\nexport const checkRobots = async (\n origin: string,\n discoveredLocales: Set<string>,\n userAgent: string,\n events: ScanEvent[]\n): Promise<void> => {\n let robotsPresent = false;\n let noLocalizedUrlsForgotten = true;\n const errors: string[] = [];\n\n try {\n const response = await fetch(`${origin}/robots.txt`, {\n headers: { 'User-Agent': userAgent },\n });\n\n if (response.ok) {\n robotsPresent = true;\n const content = await response.text();\n\n if (content && discoveredLocales.size > 0) {\n const disallowedPaths = content\n .split('\\n')\n .map((line) => line.trim().toLowerCase())\n .filter((line) => line.startsWith('disallow:'))\n .map((line) => line.slice('disallow:'.length).trim());\n\n for (const locale of discoveredLocales) {\n for (const path of disallowedPaths) {\n if (path === `/${locale}` || path === `/${locale}/`) {\n noLocalizedUrlsForgotten = false;\n errors.push(\n `Locale path \"${locale}\" appears to be blocked in robots.txt: ${path}`\n );\n }\n }\n }\n }\n }\n } catch (error) {\n errors.push(\n `Failed to fetch robots.txt: ${error instanceof Error ? error.message : 'Unknown error'}`\n );\n }\n\n events.push({\n type: 'robots_robotsPresent',\n status: robotsPresent ? 'success' : 'warning',\n details: {\n warning: robotsPresent ? undefined : 'No robots.txt found',\n error: errors.length > 0 ? errors : undefined,\n },\n });\n\n if (robotsPresent) {\n events.push({\n type: 'robots_noLocalizedUrlsForgotten',\n status: noLocalizedUrlsForgotten ? 'success' : 'error',\n details: { error: noLocalizedUrlsForgotten ? undefined : errors },\n });\n }\n};\n\n/** Fetch and check `sitemap.xml`, emitting sitemap-related events. */\nexport const checkSitemap = async (\n origin: string,\n discoveredLocales: Set<string>,\n userAgent: string,\n events: ScanEvent[]\n): Promise<void> => {\n let sitemapPresent = false;\n let hasXDefault = false;\n let hasAlternates = false;\n let noLocalizedUrlsForgotten = true;\n const errors: string[] = [];\n\n try {\n const response = await fetch(`${origin}/sitemap.xml`, {\n headers: { 'User-Agent': userAgent },\n });\n\n if (response.ok) {\n sitemapPresent = true;\n const content = await response.text();\n\n const hreflangMatches = content.match(/hreflang\\s*=\\s*\"([^\"]+)\"/gi) ?? [];\n const hreflangs = hreflangMatches.map((m) =>\n m.replace(/hreflang\\s*=\\s*\"/i, '').replace(/\"$/, '')\n );\n hasAlternates = hreflangs.length > 0;\n hasXDefault = hreflangs.includes('x-default');\n\n if (discoveredLocales.size > 0) {\n const urlBlocks = content.match(/<url\\b[\\s\\S]*?<\\/url>/gi) ?? [];\n const allFoundLocales = new Set<string>();\n let anyUrlMissingLocale = false;\n\n for (const block of urlBlocks) {\n const localesInUrl = new Set<string>();\n\n for (const hreflang of block.match(/hreflang\\s*=\\s*\"([^\"]+)\"/gi) ??\n []) {\n const value = hreflang\n .replace(/hreflang\\s*=\\s*\"/i, '')\n .replace(/\"$/, '');\n if (value !== 'x-default') {\n localesInUrl.add(value);\n allFoundLocales.add(value);\n }\n }\n\n const loc = block.match(/<loc>([\\s\\S]*?)<\\/loc>/i)?.[1]?.trim();\n if (loc) {\n try {\n const firstSegment = new URL(loc).pathname\n .split('/')\n .filter(Boolean)[0];\n if (firstSegment && discoveredLocales.has(firstSegment)) {\n localesInUrl.add(firstSegment);\n allFoundLocales.add(firstSegment);\n }\n } catch {\n /* invalid loc URL, skip */\n }\n }\n\n const missing = [...discoveredLocales].filter(\n (locale) => !localesInUrl.has(locale)\n );\n if (missing.length > 0 && missing.length < discoveredLocales.size) {\n anyUrlMissingLocale = true;\n }\n }\n\n const completelyMissing = [...discoveredLocales].filter(\n (locale) => !allFoundLocales.has(locale)\n );\n if (anyUrlMissingLocale || completelyMissing.length > 0) {\n noLocalizedUrlsForgotten = false;\n if (completelyMissing.length > 0) {\n errors.push(\n `The following locales are completely missing from the sitemap: ${completelyMissing.join(', ')}`\n );\n }\n }\n }\n }\n } catch (error) {\n errors.push(\n `Failed to fetch sitemap.xml: ${error instanceof Error ? error.message : 'Unknown error'}`\n );\n }\n\n events.push({\n type: 'sitemap_sitemapPresent',\n status: sitemapPresent ? 'success' : 'warning',\n details: {\n warning: sitemapPresent ? undefined : 'No sitemap.xml found',\n error: errors.length > 0 ? errors : undefined,\n },\n });\n\n if (sitemapPresent) {\n events.push({\n type: 'sitemap_noLocalizedUrlsForgotten',\n status: noLocalizedUrlsForgotten ? 'success' : 'warning',\n details: { warning: noLocalizedUrlsForgotten ? undefined : errors },\n });\n\n events.push({\n type: 'sitemap_hasXDefault',\n status: hasXDefault ? 'success' : 'warning',\n details: {\n warning: hasXDefault ? undefined : 'No x-default hreflang in sitemap',\n },\n });\n\n events.push({\n type: 'sitemap_hasAlternates',\n status: hasAlternates ? 'success' : 'warning',\n details: {\n warning: hasAlternates\n ? undefined\n : 'No alternate language links found in sitemap',\n },\n });\n }\n};\n"],"mappings":";;;;;;;;AAgBA,MAAa,cAAc,UAA0B;AACnD,KAAI,SAAS,OAAO,KAAM,QAAO,IAAI,SAAS,OAAO,OAAO,QAAQ,EAAE,CAAC;AACvE,KAAI,SAAS,KAAM,QAAO,IAAI,QAAQ,MAAM,QAAQ,EAAE,CAAC;AACvD,QAAO,GAAG,MAAM;;;;;;AAOlB,MAAa,uBACX,MACA,WACA,WACoC;CACpC,MAAM,UAAUA,uCAAgB,KAAK;CACrC,MAAM,SAASC,sCAAe,KAAK;AAEnC,QAAO,KAAK;EACV,MAAM,iBAAiB;EACvB,QAAQ,UAAU,YAAY;EAC9B,SAAS;GACP,SAAS;GACT,OAAO,UAAU,SAAY;GAC9B;EACF,CAAC;AAEF,QAAO,KAAK;EACV,MAAM,sBAAsB;EAC5B,QAAQ,UAAU,YAAY;EAC9B,SAAS;GACP,SAAS;GACT,SAAS,UAAU,SAAY;GAChC;EACF,CAAC;AAEF,QAAO,KAAK;EACV,MAAM,gBAAgB;EACtB,QAAQ,SAAS,YAAY;EAC7B,SAAS;GACP,SAAS;GACT,SAAS,SAAS,SAAY;GAC/B;EACF,CAAC;AAEF,QAAO,EAAE,SAAS;;;AAIpB,MAAa,kBACX,MACA,WACA,WACS;CACT,MAAM,UAAUC,oCAAa,KAAK;AAClC,QAAO,KAAK;EACV,MAAM,qBAAqB;EAC3B,QAAQ,UAAU,YAAY;EAC9B,SAAS,EAAE,SAAS,UAAU,SAAY,0BAA0B;EACrE,CAAC;;;;;;AAOJ,MAAa,4BACX,MACA,WACA,YACA,WACS;CACT,MAAM,UAAUF,uCAAgB,KAAK;AACrC,KAAI,QAAS,YAAW,IAAI,QAAQ;CAEpC,MAAM,YAAYG,wCAAiB,KAAK;AACxC,MAAK,MAAM,EAAE,cAAc,UACzB,KAAI,aAAa,YAAa,YAAW,IAAI,SAAS;CAGxD,MAAM,cAAc,UAAU,MAAM,MAAM,EAAE,aAAa,YAAY;AAErE,QAAO,KAAK;EACV,MAAM,iBAAiB;EACvB,QAAQ,UAAU,SAAS,IAAI,YAAY;EAC3C,SAAS;GACP,SAAS,UAAU,SAAS,IAAI,YAAY;GAC5C,SAAS,UAAU,WAAW,IAAI,2BAA2B;GAC9D;EACF,CAAC;AAEF,QAAO,KAAK;EACV,MAAM,oBAAoB;EAC1B,QAAQ,cAAc,YAAY;EAClC,SAAS,EACP,OAAO,cAAc,SAAY,mCAClC;EACF,CAAC;;AAGJ,MAAM,iBAAiB,SACrB,KAAK,WAAW,OAAO,GAAG,KAAK,MAAM,EAAE,GAAG;AAE5C,MAAM,eAAe,OAAO,OAAOC,uCAAY;;;;;;AAO/C,MAAa,qBACX,SACA,QACA,WACA,WACS;CACT,MAAM,iBAAiB,cAAc,IAAI,IAAI,OAAO,CAAC,SAAS;CAE9D,IAAI,iBAAiB;CACrB,IAAI,qBAAqB;CACzB,MAAM,oBAA8B,EAAE;AAEtC,MAAK,MAAM,EAAE,UAAU,SAAS;AAC9B,MAAI,CAAC,QAAQ,KAAK,WAAW,IAAI,IAAI,KAAK,WAAW,cAAc,CACjE;AAEF,MAAI;GACF,MAAM,MAAM,IAAI,IAAI,MAAM,OAAO;AACjC,OAAI,cAAc,IAAI,SAAS,KAAK,eAAgB;AAEpD;GACA,MAAM,OAAO,IAAI,SAAS,aAAa;GACvC,MAAM,WAAW,IAAI,SAAS,aAAa;GAE3C,MAAM,kBAAkB,aAAa,MAAM,WAAW;IACpD,MAAM,IAAI,OAAO,aAAa;AAC9B,WAAO,SAAS,IAAI,OAAO,KAAK,SAAS,IAAI,EAAE,GAAG;KAClD;GACF,MAAM,uBAAuB,aAAa,MAAM,WAAW;IACzD,MAAM,IAAI,OAAO,aAAa;AAC9B,WAAO,SAAS,WAAW,GAAG,EAAE,GAAG,IAAI,SAAS,SAAS,IAAI,EAAE,GAAG;KAClE;AAEF,OAAI,mBAAmB,qBACrB;OAEA,mBAAkB,KAAK,KAAK;UAExB;;CAKV,MAAM,oBAAoB,iBAAiB;CAC3C,MAAM,sBACJ,uBAAuB,KAAK,mBAAmB;AAEjD,QAAO,KAAK;EACV,MAAM,0BAA0B;EAChC,QAAQ,oBAAoB,YAAY;EACxC,SAAS;GACP,SAAS,oBACL,GAAG,eAAe,gCAAgC,mBAAmB,mBACrE;GACJ,SAAS,oBAAoB,SAAY;GAC1C;EACF,CAAC;AAEF,QAAO,KAAK;EACV,MAAM,4BAA4B;EAClC,QAAQ,sBAAsB,YAAY;EAC1C,SAAS,EACP,SAAS,sBACL,SACA;GACE,SAAS;GACT,OAAO;GACR,EACN;EACF,CAAC;;;;;;AAOJ,MAAa,sBACX,QACA,MACA,eACA,WACA,eACA,WACsC;AACtC,KAAI,CAAC,eAAe;AAClB,SAAO,KAAK;GACV,MAAM,4BAA4B;GAClC,QAAQ;GACR,SAAS,EACP,SAAS,2DACV;GACF,CAAC;AACF;;CAGF,MAAM,WAAWC,uDACf,QACA,MACA,eACA,cACD;CAGD,MAAM,sBAAsB,SAAS,iBAAiB,QACnD,KAAK,MAAM,KAAK,IAAI,KAAK,EAAE,cAAc,EAC1C,EACD;CAED,MAAM,SACJ,wBAAwB,IACpB,YACA,uBAAuB,KACrB,YACA;AAER,QAAO,KAAK;EACV,MAAM,4BAA4B;EAClC;EACA,SAAS,GAAG,SAAS,UAAU;EAChC,CAAC;AAEF,QAAO;;;AAIT,MAAa,cAAc,OACzB,QACA,mBACA,WACA,WACkB;CAClB,IAAI,gBAAgB;CACpB,IAAI,2BAA2B;CAC/B,MAAM,SAAmB,EAAE;AAE3B,KAAI;EACF,MAAM,WAAW,MAAM,MAAM,GAAG,OAAO,cAAc,EACnD,SAAS,EAAE,cAAc,WAAW,EACrC,CAAC;AAEF,MAAI,SAAS,IAAI;AACf,mBAAgB;GAChB,MAAM,UAAU,MAAM,SAAS,MAAM;AAErC,OAAI,WAAW,kBAAkB,OAAO,GAAG;IACzC,MAAM,kBAAkB,QACrB,MAAM,KAAK,CACX,KAAK,SAAS,KAAK,MAAM,CAAC,aAAa,CAAC,CACxC,QAAQ,SAAS,KAAK,WAAW,YAAY,CAAC,CAC9C,KAAK,SAAS,KAAK,MAAM,EAAmB,CAAC,MAAM,CAAC;AAEvD,SAAK,MAAM,UAAU,kBACnB,MAAK,MAAM,QAAQ,gBACjB,KAAI,SAAS,IAAI,YAAY,SAAS,IAAI,OAAO,IAAI;AACnD,gCAA2B;AAC3B,YAAO,KACL,gBAAgB,OAAO,yCAAyC,OACjE;;;;UAMJ,OAAO;AACd,SAAO,KACL,+BAA+B,iBAAiB,QAAQ,MAAM,UAAU,kBACzE;;AAGH,QAAO,KAAK;EACV,MAAM;EACN,QAAQ,gBAAgB,YAAY;EACpC,SAAS;GACP,SAAS,gBAAgB,SAAY;GACrC,OAAO,OAAO,SAAS,IAAI,SAAS;GACrC;EACF,CAAC;AAEF,KAAI,cACF,QAAO,KAAK;EACV,MAAM;EACN,QAAQ,2BAA2B,YAAY;EAC/C,SAAS,EAAE,OAAO,2BAA2B,SAAY,QAAQ;EAClE,CAAC;;;AAKN,MAAa,eAAe,OAC1B,QACA,mBACA,WACA,WACkB;CAClB,IAAI,iBAAiB;CACrB,IAAI,cAAc;CAClB,IAAI,gBAAgB;CACpB,IAAI,2BAA2B;CAC/B,MAAM,SAAmB,EAAE;AAE3B,KAAI;EACF,MAAM,WAAW,MAAM,MAAM,GAAG,OAAO,eAAe,EACpD,SAAS,EAAE,cAAc,WAAW,EACrC,CAAC;AAEF,MAAI,SAAS,IAAI;AACf,oBAAiB;GACjB,MAAM,UAAU,MAAM,SAAS,MAAM;GAGrC,MAAM,aADkB,QAAQ,MAAM,6BAA6B,IAAI,EAAE,EACvC,KAAK,MACrC,EAAE,QAAQ,qBAAqB,GAAG,CAAC,QAAQ,MAAM,GAAG,CACrD;AACD,mBAAgB,UAAU,SAAS;AACnC,iBAAc,UAAU,SAAS,YAAY;AAE7C,OAAI,kBAAkB,OAAO,GAAG;IAC9B,MAAM,YAAY,QAAQ,MAAM,0BAA0B,IAAI,EAAE;IAChE,MAAM,kCAAkB,IAAI,KAAa;IACzC,IAAI,sBAAsB;AAE1B,SAAK,MAAM,SAAS,WAAW;KAC7B,MAAM,+BAAe,IAAI,KAAa;AAEtC,UAAK,MAAM,YAAY,MAAM,MAAM,6BAA6B,IAC9D,EAAE,EAAE;MACJ,MAAM,QAAQ,SACX,QAAQ,qBAAqB,GAAG,CAChC,QAAQ,MAAM,GAAG;AACpB,UAAI,UAAU,aAAa;AACzB,oBAAa,IAAI,MAAM;AACvB,uBAAgB,IAAI,MAAM;;;KAI9B,MAAM,MAAM,MAAM,MAAM,0BAA0B,GAAG,IAAI,MAAM;AAC/D,SAAI,IACF,KAAI;MACF,MAAM,eAAe,IAAI,IAAI,IAAI,CAAC,SAC/B,MAAM,IAAI,CACV,OAAO,QAAQ,CAAC;AACnB,UAAI,gBAAgB,kBAAkB,IAAI,aAAa,EAAE;AACvD,oBAAa,IAAI,aAAa;AAC9B,uBAAgB,IAAI,aAAa;;aAE7B;KAKV,MAAM,UAAU,CAAC,GAAG,kBAAkB,CAAC,QACpC,WAAW,CAAC,aAAa,IAAI,OAAO,CACtC;AACD,SAAI,QAAQ,SAAS,KAAK,QAAQ,SAAS,kBAAkB,KAC3D,uBAAsB;;IAI1B,MAAM,oBAAoB,CAAC,GAAG,kBAAkB,CAAC,QAC9C,WAAW,CAAC,gBAAgB,IAAI,OAAO,CACzC;AACD,QAAI,uBAAuB,kBAAkB,SAAS,GAAG;AACvD,gCAA2B;AAC3B,SAAI,kBAAkB,SAAS,EAC7B,QAAO,KACL,kEAAkE,kBAAkB,KAAK,KAAK,GAC/F;;;;UAKF,OAAO;AACd,SAAO,KACL,gCAAgC,iBAAiB,QAAQ,MAAM,UAAU,kBAC1E;;AAGH,QAAO,KAAK;EACV,MAAM;EACN,QAAQ,iBAAiB,YAAY;EACrC,SAAS;GACP,SAAS,iBAAiB,SAAY;GACtC,OAAO,OAAO,SAAS,IAAI,SAAS;GACrC;EACF,CAAC;AAEF,KAAI,gBAAgB;AAClB,SAAO,KAAK;GACV,MAAM;GACN,QAAQ,2BAA2B,YAAY;GAC/C,SAAS,EAAE,SAAS,2BAA2B,SAAY,QAAQ;GACpE,CAAC;AAEF,SAAO,KAAK;GACV,MAAM;GACN,QAAQ,cAAc,YAAY;GAClC,SAAS,EACP,SAAS,cAAc,SAAY,oCACpC;GACF,CAAC;AAEF,SAAO,KAAK;GACV,MAAM;GACN,QAAQ,gBAAgB,YAAY;GACpC,SAAS,EACP,SAAS,gBACL,SACA,gDACL;GACF,CAAC"}

package/dist/cjs/scan/index.cjs ADDED Viewed

@@ -0,0 +1,31 @@
+Object.defineProperty(exports, Symbol.toStringTag, { value: 'Module' });
+const require_scan_calculateScore = require('./calculateScore.cjs');
+const require_scan_parseHtml = require('./parseHtml.cjs');
+const require_scan_analyzeBundleContent = require('./analyzeBundleContent.cjs');
+const require_scan_checks = require('./checks.cjs');
+const require_scan_scanWebsite = require('./scanWebsite.cjs');
+exports.analyzeBundleContent = require_scan_analyzeBundleContent.analyzeBundleContent;
+exports.byteLength = require_scan_parseHtml.byteLength;
+exports.checkBundleContent = require_scan_checks.checkBundleContent;
+exports.checkCanonical = require_scan_checks.checkCanonical;
+exports.checkHtmlAttributes = require_scan_checks.checkHtmlAttributes;
+exports.checkLinguisticStructure = require_scan_checks.checkLinguisticStructure;
+exports.checkRobots = require_scan_checks.checkRobots;
+exports.checkSitemap = require_scan_checks.checkSitemap;
+exports.checkUrlStructure = require_scan_checks.checkUrlStructure;
+exports.extractAnchors = require_scan_parseHtml.extractAnchors;
+exports.extractHreflangs = require_scan_parseHtml.extractHreflangs;
+exports.extractHtmlDir = require_scan_parseHtml.extractHtmlDir;
+exports.extractHtmlLang = require_scan_parseHtml.extractHtmlLang;
+exports.extractMetaDescription = require_scan_parseHtml.extractMetaDescription;
+exports.extractOgImage = require_scan_parseHtml.extractOgImage;
+exports.extractScriptUrls = require_scan_parseHtml.extractScriptUrls;
+exports.extractTitle = require_scan_parseHtml.extractTitle;
+exports.extractVisibleTextStrings = require_scan_parseHtml.extractVisibleTextStrings;
+exports.formatSize = require_scan_checks.formatSize;
+exports.hasCanonical = require_scan_parseHtml.hasCanonical;
+exports.mutateScore = require_scan_calculateScore.mutateScore;
+exports.scanWebsite = require_scan_scanWebsite.scanWebsite;
+exports.scoreRecord = require_scan_calculateScore.scoreRecord;
+exports.toScorePercent = require_scan_calculateScore.toScorePercent;

package/dist/cjs/scan/parseHtml.cjs ADDED Viewed

@@ -0,0 +1,127 @@
+Object.defineProperty(exports, Symbol.toStringTag, { value: 'Module' });
+//#region src/scan/parseHtml.ts
+/**
+* Tiny dependency-free HTML extraction helpers.
+*
+* The hosted backend audit relies on Cheerio + a real browser, but the CLI scan
+* must stay dependency-light. These regex-based helpers cover the handful of
+* head/anchor signals the score needs. They are intentionally forgiving: when a
+* tag can't be parsed it is simply skipped rather than throwing.
+*/
+/** Compute the UTF-8 byte length of a string in both Node and browser builds. */
+const byteLength = (text) => typeof Buffer !== "undefined" ? Buffer.byteLength(text, "utf-8") : new TextEncoder().encode(text).length;
+/** Read an attribute value off a single tag's attribute string. */
+const readAttribute = (attributes, attributeName) => {
+	const match = attributes.match(new RegExp(`${attributeName}\\s*=\\s*("([^"]*)"|'([^']*)'|([^\\s>]+))`, "i"));
+	if (!match) return void 0;
+	return match[2] ?? match[3] ?? match[4];
+};
+/** Extract the `lang` attribute of the `<html>` element, if present. */
+const extractHtmlLang = (html) => {
+	const htmlTag = html.match(/<html\b([^>]*)>/i);
+	return htmlTag ? readAttribute(htmlTag[1], "lang") : void 0;
+};
+/** Extract the `dir` attribute of the `<html>` element, if present. */
+const extractHtmlDir = (html) => {
+	const htmlTag = html.match(/<html\b([^>]*)>/i);
+	return htmlTag ? readAttribute(htmlTag[1], "dir") : void 0;
+};
+/** Extract the document `<title>` text. */
+const extractTitle = (html) => {
+	const match = html.match(/<title[^>]*>([\s\S]*?)<\/title>/i);
+	return match ? match[1].trim() : "";
+};
+/** Extract the `<meta name="description">` content. */
+const extractMetaDescription = (html) => {
+	const metas = html.match(/<meta\b[^>]*>/gi) ?? [];
+	for (const meta of metas) if (/name\s*=\s*("|')?description\1?/i.test(meta)) return readAttribute(meta, "content") ?? "";
+	return "";
+};
+/** Extract the `<meta property="og:image">` content. */
+const extractOgImage = (html) => {
+	const metas = html.match(/<meta\b[^>]*>/gi) ?? [];
+	for (const meta of metas) if (/property\s*=\s*("|')?og:image\1?/i.test(meta)) return readAttribute(meta, "content");
+};
+/** Whether a `<link rel="canonical">` element is present. */
+const hasCanonical = (html) => {
+	return (html.match(/<link\b[^>]*>/gi) ?? []).some((link) => /rel\s*=\s*("|')?canonical\1?/i.test(link));
+};
+/** Extract every `<link rel="alternate" hreflang="…" href="…">` element. */
+const extractHreflangs = (html) => {
+	const links = html.match(/<link\b[^>]*>/gi) ?? [];
+	const result = [];
+	for (const link of links) {
+		if (!/rel\s*=\s*("|')?alternate\1?/i.test(link)) continue;
+		const hreflang = readAttribute(link, "hreflang");
+		const href = readAttribute(link, "href");
+		if (hreflang && href) result.push({
+			hreflang,
+			href
+		});
+	}
+	return result;
+};
+/**
+* Extract every eagerly-loaded script URL: `<script src>`,
+* `<link rel="modulepreload">` and `<link rel="preload" as="script">`.
+*
+* @param html - The raw HTML document.
+* @param baseUrl - Base URL used to resolve relative script URLs.
+* @returns Absolute, de-duplicated script URLs.
+*/
+const extractScriptUrls = (html, baseUrl) => {
+	const urls = /* @__PURE__ */ new Set();
+	const add = (raw) => {
+		if (!raw) return;
+		try {
+			urls.add(new URL(raw, baseUrl).href);
+		} catch {}
+	};
+	for (const script of html.match(/<script\b[^>]*>/gi) ?? []) add(readAttribute(script, "src"));
+	for (const link of html.match(/<link\b[^>]*>/gi) ?? []) {
+		const rel = readAttribute(link, "rel")?.toLowerCase();
+		const as = readAttribute(link, "as")?.toLowerCase();
+		if (rel === "modulepreload" || rel === "preload" && as === "script") add(readAttribute(link, "href"));
+	}
+	return Array.from(urls);
+};
+/** Extract every `<a href="…">text</a>` anchor from the document. */
+const extractAnchors = (html) => {
+	const anchors = [];
+	const anchorPattern = /<a\b([^>]*)>([\s\S]*?)<\/a>/gi;
+	let match = anchorPattern.exec(html);
+	while (match !== null) {
+		const href = readAttribute(match[1], "href");
+		if (href) {
+			const text = match[2].replace(/<[^>]+>/g, " ").replace(/\s+/g, " ").trim();
+			anchors.push({
+				href,
+				text
+			});
+		}
+		match = anchorPattern.exec(html);
+	}
+	return anchors;
+};
+/**
+* Extract visible text snippets from an HTML document (scripts, styles and
+* tags stripped). Used to approximate the rendered content size without a DOM.
+*/
+const extractVisibleTextStrings = (html) => {
+	return html.replace(/<script[\s\S]*?<\/script>/gi, " ").replace(/<style[\s\S]*?<\/style>/gi, " ").replace(/<noscript[\s\S]*?<\/noscript>/gi, " ").replace(/<!--[\s\S]*?-->/g, " ").replace(/<[^>]+>/g, "\n").split("\n").map((line) => line.replace(/\s+/g, " ").trim()).filter((line) => line.length > 1);
+};
+//#endregion
+exports.byteLength = byteLength;
+exports.extractAnchors = extractAnchors;
+exports.extractHreflangs = extractHreflangs;
+exports.extractHtmlDir = extractHtmlDir;
+exports.extractHtmlLang = extractHtmlLang;
+exports.extractMetaDescription = extractMetaDescription;
+exports.extractOgImage = extractOgImage;
+exports.extractScriptUrls = extractScriptUrls;
+exports.extractTitle = extractTitle;
+exports.extractVisibleTextStrings = extractVisibleTextStrings;
+exports.hasCanonical = hasCanonical;
+//# sourceMappingURL=parseHtml.cjs.map

package/dist/cjs/scan/parseHtml.cjs.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"parseHtml.cjs","names":[],"sources":["../../../src/scan/parseHtml.ts"],"sourcesContent":["/**\n * Tiny dependency-free HTML extraction helpers.\n *\n * The hosted backend audit relies on Cheerio + a real browser, but the CLI scan\n * must stay dependency-light. These regex-based helpers cover the handful of\n * head/anchor signals the score needs. They are intentionally forgiving: when a\n * tag can't be parsed it is simply skipped rather than throwing.\n */\n\n/** Compute the UTF-8 byte length of a string in both Node and browser builds. */\nexport const byteLength = (text: string): number =>\n typeof Buffer !== 'undefined'\n ? Buffer.byteLength(text, 'utf-8')\n : new TextEncoder().encode(text).length;\n\n/** Read an attribute value off a single tag's attribute string. */\nconst readAttribute = (\n attributes: string,\n attributeName: string\n): string | undefined => {\n const match = attributes.match(\n new RegExp(`${attributeName}\\\\s*=\\\\s*(\"([^\"]*)\"|'([^']*)'|([^\\\\s>]+))`, 'i')\n );\n if (!match) return undefined;\n return match[2] ?? match[3] ?? match[4];\n};\n\n/** Extract the `lang` attribute of the `<html>` element, if present. */\nexport const extractHtmlLang = (html: string): string | undefined => {\n const htmlTag = html.match(/<html\\b([^>]*)>/i);\n return htmlTag ? readAttribute(htmlTag[1], 'lang') : undefined;\n};\n\n/** Extract the `dir` attribute of the `<html>` element, if present. */\nexport const extractHtmlDir = (html: string): string | undefined => {\n const htmlTag = html.match(/<html\\b([^>]*)>/i);\n return htmlTag ? readAttribute(htmlTag[1], 'dir') : undefined;\n};\n\n/** Extract the document `<title>` text. */\nexport const extractTitle = (html: string): string => {\n const match = html.match(/<title[^>]*>([\\s\\S]*?)<\\/title>/i);\n return match ? match[1].trim() : '';\n};\n\n/** Extract the `<meta name=\"description\">` content. */\nexport const extractMetaDescription = (html: string): string => {\n const metas = html.match(/<meta\\b[^>]*>/gi) ?? [];\n for (const meta of metas) {\n if (/name\\s*=\\s*(\"|')?description\\1?/i.test(meta)) {\n return readAttribute(meta, 'content') ?? '';\n }\n }\n return '';\n};\n\n/** Extract the `<meta property=\"og:image\">` content. */\nexport const extractOgImage = (html: string): string | undefined => {\n const metas = html.match(/<meta\\b[^>]*>/gi) ?? [];\n for (const meta of metas) {\n if (/property\\s*=\\s*(\"|')?og:image\\1?/i.test(meta)) {\n return readAttribute(meta, 'content');\n }\n }\n return undefined;\n};\n\n/** Whether a `<link rel=\"canonical\">` element is present. */\nexport const hasCanonical = (html: string): boolean => {\n const links = html.match(/<link\\b[^>]*>/gi) ?? [];\n return links.some((link) => /rel\\s*=\\s*(\"|')?canonical\\1?/i.test(link));\n};\n\n/** A parsed `<link rel=\"alternate\" hreflang>` element. */\nexport type HreflangLink = { hreflang: string; href: string };\n\n/** Extract every `<link rel=\"alternate\" hreflang=\"…\" href=\"…\">` element. */\nexport const extractHreflangs = (html: string): HreflangLink[] => {\n const links = html.match(/<link\\b[^>]*>/gi) ?? [];\n const result: HreflangLink[] = [];\n for (const link of links) {\n if (!/rel\\s*=\\s*(\"|')?alternate\\1?/i.test(link)) continue;\n const hreflang = readAttribute(link, 'hreflang');\n const href = readAttribute(link, 'href');\n if (hreflang && href) result.push({ hreflang, href });\n }\n return result;\n};\n\n/**\n * Extract every eagerly-loaded script URL: `<script src>`,\n * `<link rel=\"modulepreload\">` and `<link rel=\"preload\" as=\"script\">`.\n *\n * @param html - The raw HTML document.\n * @param baseUrl - Base URL used to resolve relative script URLs.\n * @returns Absolute, de-duplicated script URLs.\n */\nexport const extractScriptUrls = (html: string, baseUrl: string): string[] => {\n const urls = new Set<string>();\n\n const add = (raw: string | undefined) => {\n if (!raw) return;\n try {\n urls.add(new URL(raw, baseUrl).href);\n } catch {\n /* ignore malformed URLs */\n }\n };\n\n for (const script of html.match(/<script\\b[^>]*>/gi) ?? []) {\n add(readAttribute(script, 'src'));\n }\n\n for (const link of html.match(/<link\\b[^>]*>/gi) ?? []) {\n const rel = readAttribute(link, 'rel')?.toLowerCase();\n const as = readAttribute(link, 'as')?.toLowerCase();\n if (rel === 'modulepreload' || (rel === 'preload' && as === 'script')) {\n add(readAttribute(link, 'href'));\n }\n }\n\n return Array.from(urls);\n};\n\n/** A parsed `<a href>` anchor. */\nexport type Anchor = { href: string; text: string };\n\n/** Extract every `<a href=\"…\">text</a>` anchor from the document. */\nexport const extractAnchors = (html: string): Anchor[] => {\n const anchors: Anchor[] = [];\n const anchorPattern = /<a\\b([^>]*)>([\\s\\S]*?)<\\/a>/gi;\n let match = anchorPattern.exec(html);\n while (match !== null) {\n const href = readAttribute(match[1], 'href');\n if (href) {\n const text = match[2]\n .replace(/<[^>]+>/g, ' ')\n .replace(/\\s+/g, ' ')\n .trim();\n anchors.push({ href, text });\n }\n match = anchorPattern.exec(html);\n }\n return anchors;\n};\n\n/**\n * Extract visible text snippets from an HTML document (scripts, styles and\n * tags stripped). Used to approximate the rendered content size without a DOM.\n */\nexport const extractVisibleTextStrings = (html: string): string[] => {\n const withoutNonVisible = html\n .replace(/<script[\\s\\S]*?<\\/script>/gi, ' ')\n .replace(/<style[\\s\\S]*?<\\/style>/gi, ' ')\n .replace(/<noscript[\\s\\S]*?<\\/noscript>/gi, ' ')\n .replace(//g, ' ');\n\n return withoutNonVisible\n .replace(/<[^>]+>/g, '\\n')\n .split('\\n')\n .map((line) => line.replace(/\\s+/g, ' ').trim())\n .filter((line) => line.length > 1);\n};\n"],"mappings":";;;;;;;;;;;;AAUA,MAAa,cAAc,SACzB,OAAO,WAAW,cACd,OAAO,WAAW,MAAM,QAAQ,GAChC,IAAI,aAAa,CAAC,OAAO,KAAK,CAAC;;AAGrC,MAAM,iBACJ,YACA,kBACuB;CACvB,MAAM,QAAQ,WAAW,MACvB,IAAI,OAAO,GAAG,cAAc,4CAA4C,IAAI,CAC7E;AACD,KAAI,CAAC,MAAO,QAAO;AACnB,QAAO,MAAM,MAAM,MAAM,MAAM,MAAM;;;AAIvC,MAAa,mBAAmB,SAAqC;CACnE,MAAM,UAAU,KAAK,MAAM,mBAAmB;AAC9C,QAAO,UAAU,cAAc,QAAQ,IAAI,OAAO,GAAG;;;AAIvD,MAAa,kBAAkB,SAAqC;CAClE,MAAM,UAAU,KAAK,MAAM,mBAAmB;AAC9C,QAAO,UAAU,cAAc,QAAQ,IAAI,MAAM,GAAG;;;AAItD,MAAa,gBAAgB,SAAyB;CACpD,MAAM,QAAQ,KAAK,MAAM,mCAAmC;AAC5D,QAAO,QAAQ,MAAM,GAAG,MAAM,GAAG;;;AAInC,MAAa,0BAA0B,SAAyB;CAC9D,MAAM,QAAQ,KAAK,MAAM,kBAAkB,IAAI,EAAE;AACjD,MAAK,MAAM,QAAQ,MACjB,KAAI,mCAAmC,KAAK,KAAK,CAC/C,QAAO,cAAc,MAAM,UAAU,IAAI;AAG7C,QAAO;;;AAIT,MAAa,kBAAkB,SAAqC;CAClE,MAAM,QAAQ,KAAK,MAAM,kBAAkB,IAAI,EAAE;AACjD,MAAK,MAAM,QAAQ,MACjB,KAAI,oCAAoC,KAAK,KAAK,CAChD,QAAO,cAAc,MAAM,UAAU;;;AAO3C,MAAa,gBAAgB,SAA0B;AAErD,SADc,KAAK,MAAM,kBAAkB,IAAI,EAAE,EACpC,MAAM,SAAS,gCAAgC,KAAK,KAAK,CAAC;;;AAOzE,MAAa,oBAAoB,SAAiC;CAChE,MAAM,QAAQ,KAAK,MAAM,kBAAkB,IAAI,EAAE;CACjD,MAAM,SAAyB,EAAE;AACjC,MAAK,MAAM,QAAQ,OAAO;AACxB,MAAI,CAAC,gCAAgC,KAAK,KAAK,CAAE;EACjD,MAAM,WAAW,cAAc,MAAM,WAAW;EAChD,MAAM,OAAO,cAAc,MAAM,OAAO;AACxC,MAAI,YAAY,KAAM,QAAO,KAAK;GAAE;GAAU;GAAM,CAAC;;AAEvD,QAAO;;;;;;;;;;AAWT,MAAa,qBAAqB,MAAc,YAA8B;CAC5E,MAAM,uBAAO,IAAI,KAAa;CAE9B,MAAM,OAAO,QAA4B;AACvC,MAAI,CAAC,IAAK;AACV,MAAI;AACF,QAAK,IAAI,IAAI,IAAI,KAAK,QAAQ,CAAC,KAAK;UAC9B;;AAKV,MAAK,MAAM,UAAU,KAAK,MAAM,oBAAoB,IAAI,EAAE,CACxD,KAAI,cAAc,QAAQ,MAAM,CAAC;AAGnC,MAAK,MAAM,QAAQ,KAAK,MAAM,kBAAkB,IAAI,EAAE,EAAE;EACtD,MAAM,MAAM,cAAc,MAAM,MAAM,EAAE,aAAa;EACrD,MAAM,KAAK,cAAc,MAAM,KAAK,EAAE,aAAa;AACnD,MAAI,QAAQ,mBAAoB,QAAQ,aAAa,OAAO,SAC1D,KAAI,cAAc,MAAM,OAAO,CAAC;;AAIpC,QAAO,MAAM,KAAK,KAAK;;;AAOzB,MAAa,kBAAkB,SAA2B;CACxD,MAAM,UAAoB,EAAE;CAC5B,MAAM,gBAAgB;CACtB,IAAI,QAAQ,cAAc,KAAK,KAAK;AACpC,QAAO,UAAU,MAAM;EACrB,MAAM,OAAO,cAAc,MAAM,IAAI,OAAO;AAC5C,MAAI,MAAM;GACR,MAAM,OAAO,MAAM,GAChB,QAAQ,YAAY,IAAI,CACxB,QAAQ,QAAQ,IAAI,CACpB,MAAM;AACT,WAAQ,KAAK;IAAE;IAAM;IAAM,CAAC;;AAE9B,UAAQ,cAAc,KAAK,KAAK;;AAElC,QAAO;;;;;;AAOT,MAAa,6BAA6B,SAA2B;AAOnE,QAN0B,KACvB,QAAQ,+BAA+B,IAAI,CAC3C,QAAQ,6BAA6B,IAAI,CACzC,QAAQ,mCAAmC,IAAI,CAC/C,QAAQ,oBAAoB,IAEP,CACrB,QAAQ,YAAY,KAAK,CACzB,MAAM,KAAK,CACX,KAAK,SAAS,KAAK,QAAQ,QAAQ,IAAI,CAAC,MAAM,CAAC,CAC/C,QAAQ,SAAS,KAAK,SAAS,EAAE"}