npm - @intlayer/chokidar - Versions diffs - 8.12.4 → 9.0.0-canary.0 - Mend

@intlayer/chokidar 8.12.4 → 9.0.0-canary.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (88) hide show

package/dist/cjs/buildIntlayerDictionary/buildIntlayerDictionary.cjs +21 -4
package/dist/cjs/buildIntlayerDictionary/buildIntlayerDictionary.cjs.map +1 -1
package/dist/cjs/buildIntlayerDictionary/writeDynamicDictionary.cjs +94 -0
package/dist/cjs/buildIntlayerDictionary/writeDynamicDictionary.cjs.map +1 -1
package/dist/cjs/buildIntlayerDictionary/writeMergedDictionary.cjs +1 -1
package/dist/cjs/buildIntlayerDictionary/writeMergedDictionary.cjs.map +1 -1
package/dist/cjs/createType/createType.cjs.map +1 -1
package/dist/cjs/init/index.cjs +63 -9
package/dist/cjs/init/index.cjs.map +1 -1
package/dist/cjs/init/utils/configManipulation.cjs +196 -0
package/dist/cjs/init/utils/configManipulation.cjs.map +1 -1
package/dist/cjs/init/utils/fileSystem.cjs +84 -0
package/dist/cjs/init/utils/fileSystem.cjs.map +1 -1
package/dist/cjs/init/utils/index.cjs +12 -0
package/dist/cjs/init/utils/packageManager.cjs +187 -0
package/dist/cjs/init/utils/packageManager.cjs.map +1 -0
package/dist/cjs/scan/analyzeBundleContent.cjs +182 -0
package/dist/cjs/scan/analyzeBundleContent.cjs.map +1 -0
package/dist/cjs/scan/calculateScore.cjs +65 -0
package/dist/cjs/scan/calculateScore.cjs.map +1 -0
package/dist/cjs/scan/checks.cjs +274 -0
package/dist/cjs/scan/checks.cjs.map +1 -0
package/dist/cjs/scan/index.cjs +31 -0
package/dist/cjs/scan/parseHtml.cjs +127 -0
package/dist/cjs/scan/parseHtml.cjs.map +1 -0
package/dist/cjs/scan/scanWebsite.cjs +205 -0
package/dist/cjs/scan/scanWebsite.cjs.map +1 -0
package/dist/cjs/scan/types.cjs +0 -0
package/dist/esm/buildIntlayerDictionary/buildIntlayerDictionary.mjs +22 -5
package/dist/esm/buildIntlayerDictionary/buildIntlayerDictionary.mjs.map +1 -1
package/dist/esm/buildIntlayerDictionary/writeDynamicDictionary.mjs +93 -1
package/dist/esm/buildIntlayerDictionary/writeDynamicDictionary.mjs.map +1 -1
package/dist/esm/buildIntlayerDictionary/writeMergedDictionary.mjs +2 -2
package/dist/esm/buildIntlayerDictionary/writeMergedDictionary.mjs.map +1 -1
package/dist/esm/createType/createType.mjs.map +1 -1
package/dist/esm/init/index.mjs +65 -11
package/dist/esm/init/index.mjs.map +1 -1
package/dist/esm/init/utils/configManipulation.mjs +190 -1
package/dist/esm/init/utils/configManipulation.mjs.map +1 -1
package/dist/esm/init/utils/fileSystem.mjs +83 -1
package/dist/esm/init/utils/fileSystem.mjs.map +1 -1
package/dist/esm/init/utils/index.mjs +4 -3
package/dist/esm/init/utils/packageManager.mjs +183 -0
package/dist/esm/init/utils/packageManager.mjs.map +1 -0
package/dist/esm/scan/analyzeBundleContent.mjs +180 -0
package/dist/esm/scan/analyzeBundleContent.mjs.map +1 -0
package/dist/esm/scan/calculateScore.mjs +61 -0
package/dist/esm/scan/calculateScore.mjs.map +1 -0
package/dist/esm/scan/checks.mjs +265 -0
package/dist/esm/scan/checks.mjs.map +1 -0
package/dist/esm/scan/index.mjs +7 -0
package/dist/esm/scan/parseHtml.mjs +115 -0
package/dist/esm/scan/parseHtml.mjs.map +1 -0
package/dist/esm/scan/scanWebsite.mjs +203 -0
package/dist/esm/scan/scanWebsite.mjs.map +1 -0
package/dist/esm/scan/types.mjs +0 -0
package/dist/types/buildIntlayerDictionary/buildIntlayerDictionary.d.ts.map +1 -1
package/dist/types/buildIntlayerDictionary/writeDynamicDictionary.d.ts +31 -4
package/dist/types/buildIntlayerDictionary/writeDynamicDictionary.d.ts.map +1 -1
package/dist/types/buildIntlayerDictionary/writeMergedDictionary.d.ts +13 -3
package/dist/types/buildIntlayerDictionary/writeMergedDictionary.d.ts.map +1 -1
package/dist/types/createType/createType.d.ts +3 -3
package/dist/types/createType/createType.d.ts.map +1 -1
package/dist/types/formatDictionary.d.ts +9 -2
package/dist/types/formatDictionary.d.ts.map +1 -1
package/dist/types/init/index.d.ts.map +1 -1
package/dist/types/init/utils/configManipulation.d.ts +42 -1
package/dist/types/init/utils/configManipulation.d.ts.map +1 -1
package/dist/types/init/utils/fileSystem.d.ts +31 -1
package/dist/types/init/utils/fileSystem.d.ts.map +1 -1
package/dist/types/init/utils/index.d.ts +4 -3
package/dist/types/init/utils/packageManager.d.ts +59 -0
package/dist/types/init/utils/packageManager.d.ts.map +1 -0
package/dist/types/intlayer/dist/types/index.d.ts +4 -0
package/dist/types/scan/analyzeBundleContent.d.ts +16 -0
package/dist/types/scan/analyzeBundleContent.d.ts.map +1 -0
package/dist/types/scan/calculateScore.d.ts +65 -0
package/dist/types/scan/calculateScore.d.ts.map +1 -0
package/dist/types/scan/checks.d.ts +38 -0
package/dist/types/scan/checks.d.ts.map +1 -0
package/dist/types/scan/index.d.ts +7 -0
package/dist/types/scan/parseHtml.d.ts +54 -0
package/dist/types/scan/parseHtml.d.ts.map +1 -0
package/dist/types/scan/scanWebsite.d.ts +18 -0
package/dist/types/scan/scanWebsite.d.ts.map +1 -0
package/dist/types/scan/types.d.ts +76 -0
package/dist/types/scan/types.d.ts.map +1 -0
package/package.json +17 -9

package/dist/esm/scan/checks.mjs ADDED Viewed

@@ -0,0 +1,265 @@
+import { extractHreflangs, extractHtmlDir, extractHtmlLang, hasCanonical } from "./parseHtml.mjs";
+import { analyzeBundleContent } from "./analyzeBundleContent.mjs";
+import { ALL_LOCALES } from "@intlayer/types/allLocales";
+//#region src/scan/checks.ts
+/** Format a byte count as a human-readable size. */
+const formatSize = (bytes) => {
+	if (bytes >= 1024 * 1024) return `${(bytes / (1024 * 1024)).toFixed(2)} MB`;
+	if (bytes >= 1024) return `${(bytes / 1024).toFixed(2)} KB`;
+	return `${bytes} B`;
+};
+/**
+* Check the `<html>` element attributes (`lang`, `dir`) and the resulting
+* current-locale signal. Returns the detected language tag.
+*/
+const checkHtmlAttributes = (html, targetUrl, events) => {
+	const langTag = extractHtmlLang(html);
+	const dirTag = extractHtmlDir(html);
+	events.push({
+		type: `url_htmlLang\\${targetUrl}`,
+		status: langTag ? "success" : "error",
+		details: {
+			success: langTag,
+			error: langTag ? void 0 : "Missing html lang attribute"
+		}
+	});
+	events.push({
+		type: `url_currentLocale\\${targetUrl}`,
+		status: langTag ? "success" : "warning",
+		details: {
+			success: langTag,
+			warning: langTag ? void 0 : "No locale detected"
+		}
+	});
+	events.push({
+		type: `url_htmlDir\\${targetUrl}`,
+		status: dirTag ? "success" : "warning",
+		details: {
+			success: dirTag,
+			warning: dirTag ? void 0 : "Missing html dir attribute"
+		}
+	});
+	return { langTag };
+};
+/** Check the presence of a canonical link. */
+const checkCanonical = (html, targetUrl, events) => {
+	const present = hasCanonical(html);
+	events.push({
+		type: `url_hasCanonical\\${targetUrl}`,
+		status: present ? "success" : "warning",
+		details: { warning: present ? void 0 : "Missing canonical link" }
+	});
+};
+/**
+* Check the page's hreflang structure and collect discovered locales into
+* `localesSet`.
+*/
+const checkLinguisticStructure = (html, targetUrl, localesSet, events) => {
+	const langTag = extractHtmlLang(html);
+	if (langTag) localesSet.add(langTag);
+	const hreflangs = extractHreflangs(html);
+	for (const { hreflang } of hreflangs) if (hreflang !== "x-default") localesSet.add(hreflang);
+	const hasXDefault = hreflangs.some((h) => h.hreflang === "x-default");
+	events.push({
+		type: `url_hreflang\\${targetUrl}`,
+		status: hreflangs.length > 0 ? "success" : "warning",
+		details: {
+			success: hreflangs.length > 0 ? hreflangs : void 0,
+			warning: hreflangs.length === 0 ? "No hreflang tags found" : void 0
+		}
+	});
+	events.push({
+		type: `url_hasXDefault\\${targetUrl}`,
+		status: hasXDefault ? "success" : "error",
+		details: { error: hasXDefault ? void 0 : "Missing x-default hreflang link" }
+	});
+};
+const normalizeHost = (host) => host.startsWith("www.") ? host.slice(4) : host;
+const localeValues = Object.values(ALL_LOCALES);
+/**
+* Check whether internal links carry a locale segment, mirroring the hosted
+* audit's URL-structure analysis but operating on parsed anchors instead of a
+* live DOM.
+*/
+const checkUrlStructure = (anchors, origin, targetUrl, events) => {
+	const targetHostname = normalizeHost(new URL(origin).hostname);
+	let localizedCount = 0;
+	let totalInternalCount = 0;
+	const nonLocalizedLinks = [];
+	for (const { href } of anchors) {
+		if (!href || href.startsWith("#") || href.startsWith("javascript:")) continue;
+		try {
+			const url = new URL(href, origin);
+			if (normalizeHost(url.hostname) !== targetHostname) continue;
+			totalInternalCount++;
+			const path = url.pathname.toLowerCase();
+			const hostname = url.hostname.toLowerCase();
+			const hasLocaleInPath = localeValues.some((locale) => {
+				const l = locale.toLowerCase();
+				return path === `/${l}` || path.includes(`/${l}/`);
+			});
+			const hasLocaleInSubdomain = localeValues.some((locale) => {
+				const l = locale.toLowerCase();
+				return hostname.startsWith(`${l}.`) || hostname.includes(`.${l}.`);
+			});
+			if (hasLocaleInPath || hasLocaleInSubdomain) localizedCount++;
+			else nonLocalizedLinks.push(href);
+		} catch {}
+	}
+	const hasLocalizedLinks = localizedCount > 0;
+	const allAnchorsLocalized = totalInternalCount === 0 || localizedCount === totalInternalCount;
+	events.push({
+		type: `url_hasLocalizedLinks\\${targetUrl}`,
+		status: hasLocalizedLinks ? "success" : "warning",
+		details: {
+			success: hasLocalizedLinks ? `${localizedCount} localized links found out of ${totalInternalCount} internal links` : void 0,
+			warning: hasLocalizedLinks ? void 0 : "No localized links found"
+		}
+	});
+	events.push({
+		type: `url_allAnchorsLocalized\\${targetUrl}`,
+		status: allAnchorsLocalized ? "success" : "warning",
+		details: { warning: allAnchorsLocalized ? void 0 : {
+			message: "Some internal links are not localized",
+			links: nonLocalizedLinks
+		} }
+	});
+};
+/**
+* Analyze the JavaScript bundles for unused locale content and emit the
+* corresponding event. Returns the analysis so callers can report on it.
+*/
+const checkBundleContent = (chunks, html, currentLocale, targetUrl, totalPageSize, events) => {
+	if (!currentLocale) {
+		events.push({
+			type: `url_unusedBundleContent\\${targetUrl}`,
+			status: "warning",
+			details: { warning: "Cannot analyse bundle content: page locale not detected" }
+		});
+		return;
+	}
+	const analysis = analyzeBundleContent(chunks, html, currentLocale, totalPageSize);
+	const mainBundleMaxUnused = analysis.mainBundleChunks.reduce((max, c) => Math.max(max, c.unusedPercent), 0);
+	const status = mainBundleMaxUnused === 0 ? "success" : mainBundleMaxUnused <= 30 ? "warning" : "error";
+	events.push({
+		type: `url_unusedBundleContent\\${targetUrl}`,
+		status,
+		details: { [status]: analysis }
+	});
+	return analysis;
+};
+/** Fetch and check `robots.txt`, emitting robots-related events. */
+const checkRobots = async (origin, discoveredLocales, userAgent, events) => {
+	let robotsPresent = false;
+	let noLocalizedUrlsForgotten = true;
+	const errors = [];
+	try {
+		const response = await fetch(`${origin}/robots.txt`, { headers: { "User-Agent": userAgent } });
+		if (response.ok) {
+			robotsPresent = true;
+			const content = await response.text();
+			if (content && discoveredLocales.size > 0) {
+				const disallowedPaths = content.split("\n").map((line) => line.trim().toLowerCase()).filter((line) => line.startsWith("disallow:")).map((line) => line.slice(9).trim());
+				for (const locale of discoveredLocales) for (const path of disallowedPaths) if (path === `/${locale}` || path === `/${locale}/`) {
+					noLocalizedUrlsForgotten = false;
+					errors.push(`Locale path "${locale}" appears to be blocked in robots.txt: ${path}`);
+				}
+			}
+		}
+	} catch (error) {
+		errors.push(`Failed to fetch robots.txt: ${error instanceof Error ? error.message : "Unknown error"}`);
+	}
+	events.push({
+		type: "robots_robotsPresent",
+		status: robotsPresent ? "success" : "warning",
+		details: {
+			warning: robotsPresent ? void 0 : "No robots.txt found",
+			error: errors.length > 0 ? errors : void 0
+		}
+	});
+	if (robotsPresent) events.push({
+		type: "robots_noLocalizedUrlsForgotten",
+		status: noLocalizedUrlsForgotten ? "success" : "error",
+		details: { error: noLocalizedUrlsForgotten ? void 0 : errors }
+	});
+};
+/** Fetch and check `sitemap.xml`, emitting sitemap-related events. */
+const checkSitemap = async (origin, discoveredLocales, userAgent, events) => {
+	let sitemapPresent = false;
+	let hasXDefault = false;
+	let hasAlternates = false;
+	let noLocalizedUrlsForgotten = true;
+	const errors = [];
+	try {
+		const response = await fetch(`${origin}/sitemap.xml`, { headers: { "User-Agent": userAgent } });
+		if (response.ok) {
+			sitemapPresent = true;
+			const content = await response.text();
+			const hreflangs = (content.match(/hreflang\s*=\s*"([^"]+)"/gi) ?? []).map((m) => m.replace(/hreflang\s*=\s*"/i, "").replace(/"$/, ""));
+			hasAlternates = hreflangs.length > 0;
+			hasXDefault = hreflangs.includes("x-default");
+			if (discoveredLocales.size > 0) {
+				const urlBlocks = content.match(/<url\b[\s\S]*?<\/url>/gi) ?? [];
+				const allFoundLocales = /* @__PURE__ */ new Set();
+				let anyUrlMissingLocale = false;
+				for (const block of urlBlocks) {
+					const localesInUrl = /* @__PURE__ */ new Set();
+					for (const hreflang of block.match(/hreflang\s*=\s*"([^"]+)"/gi) ?? []) {
+						const value = hreflang.replace(/hreflang\s*=\s*"/i, "").replace(/"$/, "");
+						if (value !== "x-default") {
+							localesInUrl.add(value);
+							allFoundLocales.add(value);
+						}
+					}
+					const loc = block.match(/<loc>([\s\S]*?)<\/loc>/i)?.[1]?.trim();
+					if (loc) try {
+						const firstSegment = new URL(loc).pathname.split("/").filter(Boolean)[0];
+						if (firstSegment && discoveredLocales.has(firstSegment)) {
+							localesInUrl.add(firstSegment);
+							allFoundLocales.add(firstSegment);
+						}
+					} catch {}
+					const missing = [...discoveredLocales].filter((locale) => !localesInUrl.has(locale));
+					if (missing.length > 0 && missing.length < discoveredLocales.size) anyUrlMissingLocale = true;
+				}
+				const completelyMissing = [...discoveredLocales].filter((locale) => !allFoundLocales.has(locale));
+				if (anyUrlMissingLocale || completelyMissing.length > 0) {
+					noLocalizedUrlsForgotten = false;
+					if (completelyMissing.length > 0) errors.push(`The following locales are completely missing from the sitemap: ${completelyMissing.join(", ")}`);
+				}
+			}
+		}
+	} catch (error) {
+		errors.push(`Failed to fetch sitemap.xml: ${error instanceof Error ? error.message : "Unknown error"}`);
+	}
+	events.push({
+		type: "sitemap_sitemapPresent",
+		status: sitemapPresent ? "success" : "warning",
+		details: {
+			warning: sitemapPresent ? void 0 : "No sitemap.xml found",
+			error: errors.length > 0 ? errors : void 0
+		}
+	});
+	if (sitemapPresent) {
+		events.push({
+			type: "sitemap_noLocalizedUrlsForgotten",
+			status: noLocalizedUrlsForgotten ? "success" : "warning",
+			details: { warning: noLocalizedUrlsForgotten ? void 0 : errors }
+		});
+		events.push({
+			type: "sitemap_hasXDefault",
+			status: hasXDefault ? "success" : "warning",
+			details: { warning: hasXDefault ? void 0 : "No x-default hreflang in sitemap" }
+		});
+		events.push({
+			type: "sitemap_hasAlternates",
+			status: hasAlternates ? "success" : "warning",
+			details: { warning: hasAlternates ? void 0 : "No alternate language links found in sitemap" }
+		});
+	}
+};
+//#endregion
+export { checkBundleContent, checkCanonical, checkHtmlAttributes, checkLinguisticStructure, checkRobots, checkSitemap, checkUrlStructure, formatSize };
+//# sourceMappingURL=checks.mjs.map

package/dist/esm/scan/checks.mjs.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"checks.mjs","names":[],"sources":["../../../src/scan/checks.ts"],"sourcesContent":["import { ALL_LOCALES } from '@intlayer/types/allLocales';\nimport { analyzeBundleContent } from './analyzeBundleContent';\nimport {\n type Anchor,\n extractHreflangs,\n extractHtmlDir,\n extractHtmlLang,\n hasCanonical,\n} from './parseHtml';\nimport type {\n BundleChunkInput,\n BundleContentAnalysis,\n ScanEvent,\n} from './types';\n\n/** Format a byte count as a human-readable size. */\nexport const formatSize = (bytes: number): string => {\n if (bytes >= 1024 * 1024) return `${(bytes / (1024 * 1024)).toFixed(2)} MB`;\n if (bytes >= 1024) return `${(bytes / 1024).toFixed(2)} KB`;\n return `${bytes} B`;\n};\n\n/**\n * Check the `<html>` element attributes (`lang`, `dir`) and the resulting\n * current-locale signal. Returns the detected language tag.\n */\nexport const checkHtmlAttributes = (\n html: string,\n targetUrl: string,\n events: ScanEvent[]\n): { langTag: string | undefined } => {\n const langTag = extractHtmlLang(html);\n const dirTag = extractHtmlDir(html);\n\n events.push({\n type: `url_htmlLang\\\\${targetUrl}`,\n status: langTag ? 'success' : 'error',\n details: {\n success: langTag,\n error: langTag ? undefined : 'Missing html lang attribute',\n },\n });\n\n events.push({\n type: `url_currentLocale\\\\${targetUrl}`,\n status: langTag ? 'success' : 'warning',\n details: {\n success: langTag,\n warning: langTag ? undefined : 'No locale detected',\n },\n });\n\n events.push({\n type: `url_htmlDir\\\\${targetUrl}`,\n status: dirTag ? 'success' : 'warning',\n details: {\n success: dirTag,\n warning: dirTag ? undefined : 'Missing html dir attribute',\n },\n });\n\n return { langTag };\n};\n\n/** Check the presence of a canonical link. */\nexport const checkCanonical = (\n html: string,\n targetUrl: string,\n events: ScanEvent[]\n): void => {\n const present = hasCanonical(html);\n events.push({\n type: `url_hasCanonical\\\\${targetUrl}`,\n status: present ? 'success' : 'warning',\n details: { warning: present ? undefined : 'Missing canonical link' },\n });\n};\n\n/**\n * Check the page's hreflang structure and collect discovered locales into\n * `localesSet`.\n */\nexport const checkLinguisticStructure = (\n html: string,\n targetUrl: string,\n localesSet: Set<string>,\n events: ScanEvent[]\n): void => {\n const langTag = extractHtmlLang(html);\n if (langTag) localesSet.add(langTag);\n\n const hreflangs = extractHreflangs(html);\n for (const { hreflang } of hreflangs) {\n if (hreflang !== 'x-default') localesSet.add(hreflang);\n }\n\n const hasXDefault = hreflangs.some((h) => h.hreflang === 'x-default');\n\n events.push({\n type: `url_hreflang\\\\${targetUrl}`,\n status: hreflangs.length > 0 ? 'success' : 'warning',\n details: {\n success: hreflangs.length > 0 ? hreflangs : undefined,\n warning: hreflangs.length === 0 ? 'No hreflang tags found' : undefined,\n },\n });\n\n events.push({\n type: `url_hasXDefault\\\\${targetUrl}`,\n status: hasXDefault ? 'success' : 'error',\n details: {\n error: hasXDefault ? undefined : 'Missing x-default hreflang link',\n },\n });\n};\n\nconst normalizeHost = (host: string): string =>\n host.startsWith('www.') ? host.slice(4) : host;\n\nconst localeValues = Object.values(ALL_LOCALES) as string[];\n\n/**\n * Check whether internal links carry a locale segment, mirroring the hosted\n * audit's URL-structure analysis but operating on parsed anchors instead of a\n * live DOM.\n */\nexport const checkUrlStructure = (\n anchors: Anchor[],\n origin: string,\n targetUrl: string,\n events: ScanEvent[]\n): void => {\n const targetHostname = normalizeHost(new URL(origin).hostname);\n\n let localizedCount = 0;\n let totalInternalCount = 0;\n const nonLocalizedLinks: string[] = [];\n\n for (const { href } of anchors) {\n if (!href || href.startsWith('#') || href.startsWith('javascript:'))\n continue;\n\n try {\n const url = new URL(href, origin);\n if (normalizeHost(url.hostname) !== targetHostname) continue;\n\n totalInternalCount++;\n const path = url.pathname.toLowerCase();\n const hostname = url.hostname.toLowerCase();\n\n const hasLocaleInPath = localeValues.some((locale) => {\n const l = locale.toLowerCase();\n return path === `/${l}` || path.includes(`/${l}/`);\n });\n const hasLocaleInSubdomain = localeValues.some((locale) => {\n const l = locale.toLowerCase();\n return hostname.startsWith(`${l}.`) || hostname.includes(`.${l}.`);\n });\n\n if (hasLocaleInPath || hasLocaleInSubdomain) {\n localizedCount++;\n } else {\n nonLocalizedLinks.push(href);\n }\n } catch {\n /* ignore malformed URLs */\n }\n }\n\n const hasLocalizedLinks = localizedCount > 0;\n const allAnchorsLocalized =\n totalInternalCount === 0 || localizedCount === totalInternalCount;\n\n events.push({\n type: `url_hasLocalizedLinks\\\\${targetUrl}`,\n status: hasLocalizedLinks ? 'success' : 'warning',\n details: {\n success: hasLocalizedLinks\n ? `${localizedCount} localized links found out of ${totalInternalCount} internal links`\n : undefined,\n warning: hasLocalizedLinks ? undefined : 'No localized links found',\n },\n });\n\n events.push({\n type: `url_allAnchorsLocalized\\\\${targetUrl}`,\n status: allAnchorsLocalized ? 'success' : 'warning',\n details: {\n warning: allAnchorsLocalized\n ? undefined\n : {\n message: 'Some internal links are not localized',\n links: nonLocalizedLinks,\n },\n },\n });\n};\n\n/**\n * Analyze the JavaScript bundles for unused locale content and emit the\n * corresponding event. Returns the analysis so callers can report on it.\n */\nexport const checkBundleContent = (\n chunks: BundleChunkInput[],\n html: string,\n currentLocale: string | undefined,\n targetUrl: string,\n totalPageSize: number,\n events: ScanEvent[]\n): BundleContentAnalysis | undefined => {\n if (!currentLocale) {\n events.push({\n type: `url_unusedBundleContent\\\\${targetUrl}`,\n status: 'warning',\n details: {\n warning: 'Cannot analyse bundle content: page locale not detected',\n },\n });\n return undefined;\n }\n\n const analysis = analyzeBundleContent(\n chunks,\n html,\n currentLocale,\n totalPageSize\n );\n\n // Status is driven by the main bundle — lazy chunks with unused content are expected.\n const mainBundleMaxUnused = analysis.mainBundleChunks.reduce(\n (max, c) => Math.max(max, c.unusedPercent),\n 0\n );\n\n const status =\n mainBundleMaxUnused === 0\n ? 'success'\n : mainBundleMaxUnused <= 30\n ? 'warning'\n : 'error';\n\n events.push({\n type: `url_unusedBundleContent\\\\${targetUrl}`,\n status,\n details: { [status]: analysis },\n });\n\n return analysis;\n};\n\n/** Fetch and check `robots.txt`, emitting robots-related events. */\nexport const checkRobots = async (\n origin: string,\n discoveredLocales: Set<string>,\n userAgent: string,\n events: ScanEvent[]\n): Promise<void> => {\n let robotsPresent = false;\n let noLocalizedUrlsForgotten = true;\n const errors: string[] = [];\n\n try {\n const response = await fetch(`${origin}/robots.txt`, {\n headers: { 'User-Agent': userAgent },\n });\n\n if (response.ok) {\n robotsPresent = true;\n const content = await response.text();\n\n if (content && discoveredLocales.size > 0) {\n const disallowedPaths = content\n .split('\\n')\n .map((line) => line.trim().toLowerCase())\n .filter((line) => line.startsWith('disallow:'))\n .map((line) => line.slice('disallow:'.length).trim());\n\n for (const locale of discoveredLocales) {\n for (const path of disallowedPaths) {\n if (path === `/${locale}` || path === `/${locale}/`) {\n noLocalizedUrlsForgotten = false;\n errors.push(\n `Locale path \"${locale}\" appears to be blocked in robots.txt: ${path}`\n );\n }\n }\n }\n }\n }\n } catch (error) {\n errors.push(\n `Failed to fetch robots.txt: ${error instanceof Error ? error.message : 'Unknown error'}`\n );\n }\n\n events.push({\n type: 'robots_robotsPresent',\n status: robotsPresent ? 'success' : 'warning',\n details: {\n warning: robotsPresent ? undefined : 'No robots.txt found',\n error: errors.length > 0 ? errors : undefined,\n },\n });\n\n if (robotsPresent) {\n events.push({\n type: 'robots_noLocalizedUrlsForgotten',\n status: noLocalizedUrlsForgotten ? 'success' : 'error',\n details: { error: noLocalizedUrlsForgotten ? undefined : errors },\n });\n }\n};\n\n/** Fetch and check `sitemap.xml`, emitting sitemap-related events. */\nexport const checkSitemap = async (\n origin: string,\n discoveredLocales: Set<string>,\n userAgent: string,\n events: ScanEvent[]\n): Promise<void> => {\n let sitemapPresent = false;\n let hasXDefault = false;\n let hasAlternates = false;\n let noLocalizedUrlsForgotten = true;\n const errors: string[] = [];\n\n try {\n const response = await fetch(`${origin}/sitemap.xml`, {\n headers: { 'User-Agent': userAgent },\n });\n\n if (response.ok) {\n sitemapPresent = true;\n const content = await response.text();\n\n const hreflangMatches = content.match(/hreflang\\s*=\\s*\"([^\"]+)\"/gi) ?? [];\n const hreflangs = hreflangMatches.map((m) =>\n m.replace(/hreflang\\s*=\\s*\"/i, '').replace(/\"$/, '')\n );\n hasAlternates = hreflangs.length > 0;\n hasXDefault = hreflangs.includes('x-default');\n\n if (discoveredLocales.size > 0) {\n const urlBlocks = content.match(/<url\\b[\\s\\S]*?<\\/url>/gi) ?? [];\n const allFoundLocales = new Set<string>();\n let anyUrlMissingLocale = false;\n\n for (const block of urlBlocks) {\n const localesInUrl = new Set<string>();\n\n for (const hreflang of block.match(/hreflang\\s*=\\s*\"([^\"]+)\"/gi) ??\n []) {\n const value = hreflang\n .replace(/hreflang\\s*=\\s*\"/i, '')\n .replace(/\"$/, '');\n if (value !== 'x-default') {\n localesInUrl.add(value);\n allFoundLocales.add(value);\n }\n }\n\n const loc = block.match(/<loc>([\\s\\S]*?)<\\/loc>/i)?.[1]?.trim();\n if (loc) {\n try {\n const firstSegment = new URL(loc).pathname\n .split('/')\n .filter(Boolean)[0];\n if (firstSegment && discoveredLocales.has(firstSegment)) {\n localesInUrl.add(firstSegment);\n allFoundLocales.add(firstSegment);\n }\n } catch {\n /* invalid loc URL, skip */\n }\n }\n\n const missing = [...discoveredLocales].filter(\n (locale) => !localesInUrl.has(locale)\n );\n if (missing.length > 0 && missing.length < discoveredLocales.size) {\n anyUrlMissingLocale = true;\n }\n }\n\n const completelyMissing = [...discoveredLocales].filter(\n (locale) => !allFoundLocales.has(locale)\n );\n if (anyUrlMissingLocale || completelyMissing.length > 0) {\n noLocalizedUrlsForgotten = false;\n if (completelyMissing.length > 0) {\n errors.push(\n `The following locales are completely missing from the sitemap: ${completelyMissing.join(', ')}`\n );\n }\n }\n }\n }\n } catch (error) {\n errors.push(\n `Failed to fetch sitemap.xml: ${error instanceof Error ? error.message : 'Unknown error'}`\n );\n }\n\n events.push({\n type: 'sitemap_sitemapPresent',\n status: sitemapPresent ? 'success' : 'warning',\n details: {\n warning: sitemapPresent ? undefined : 'No sitemap.xml found',\n error: errors.length > 0 ? errors : undefined,\n },\n });\n\n if (sitemapPresent) {\n events.push({\n type: 'sitemap_noLocalizedUrlsForgotten',\n status: noLocalizedUrlsForgotten ? 'success' : 'warning',\n details: { warning: noLocalizedUrlsForgotten ? undefined : errors },\n });\n\n events.push({\n type: 'sitemap_hasXDefault',\n status: hasXDefault ? 'success' : 'warning',\n details: {\n warning: hasXDefault ? undefined : 'No x-default hreflang in sitemap',\n },\n });\n\n events.push({\n type: 'sitemap_hasAlternates',\n status: hasAlternates ? 'success' : 'warning',\n details: {\n warning: hasAlternates\n ? undefined\n : 'No alternate language links found in sitemap',\n },\n });\n }\n};\n"],"mappings":";;;;;;AAgBA,MAAa,cAAc,UAA0B;AACnD,KAAI,SAAS,OAAO,KAAM,QAAO,IAAI,SAAS,OAAO,OAAO,QAAQ,EAAE,CAAC;AACvE,KAAI,SAAS,KAAM,QAAO,IAAI,QAAQ,MAAM,QAAQ,EAAE,CAAC;AACvD,QAAO,GAAG,MAAM;;;;;;AAOlB,MAAa,uBACX,MACA,WACA,WACoC;CACpC,MAAM,UAAU,gBAAgB,KAAK;CACrC,MAAM,SAAS,eAAe,KAAK;AAEnC,QAAO,KAAK;EACV,MAAM,iBAAiB;EACvB,QAAQ,UAAU,YAAY;EAC9B,SAAS;GACP,SAAS;GACT,OAAO,UAAU,SAAY;GAC9B;EACF,CAAC;AAEF,QAAO,KAAK;EACV,MAAM,sBAAsB;EAC5B,QAAQ,UAAU,YAAY;EAC9B,SAAS;GACP,SAAS;GACT,SAAS,UAAU,SAAY;GAChC;EACF,CAAC;AAEF,QAAO,KAAK;EACV,MAAM,gBAAgB;EACtB,QAAQ,SAAS,YAAY;EAC7B,SAAS;GACP,SAAS;GACT,SAAS,SAAS,SAAY;GAC/B;EACF,CAAC;AAEF,QAAO,EAAE,SAAS;;;AAIpB,MAAa,kBACX,MACA,WACA,WACS;CACT,MAAM,UAAU,aAAa,KAAK;AAClC,QAAO,KAAK;EACV,MAAM,qBAAqB;EAC3B,QAAQ,UAAU,YAAY;EAC9B,SAAS,EAAE,SAAS,UAAU,SAAY,0BAA0B;EACrE,CAAC;;;;;;AAOJ,MAAa,4BACX,MACA,WACA,YACA,WACS;CACT,MAAM,UAAU,gBAAgB,KAAK;AACrC,KAAI,QAAS,YAAW,IAAI,QAAQ;CAEpC,MAAM,YAAY,iBAAiB,KAAK;AACxC,MAAK,MAAM,EAAE,cAAc,UACzB,KAAI,aAAa,YAAa,YAAW,IAAI,SAAS;CAGxD,MAAM,cAAc,UAAU,MAAM,MAAM,EAAE,aAAa,YAAY;AAErE,QAAO,KAAK;EACV,MAAM,iBAAiB;EACvB,QAAQ,UAAU,SAAS,IAAI,YAAY;EAC3C,SAAS;GACP,SAAS,UAAU,SAAS,IAAI,YAAY;GAC5C,SAAS,UAAU,WAAW,IAAI,2BAA2B;GAC9D;EACF,CAAC;AAEF,QAAO,KAAK;EACV,MAAM,oBAAoB;EAC1B,QAAQ,cAAc,YAAY;EAClC,SAAS,EACP,OAAO,cAAc,SAAY,mCAClC;EACF,CAAC;;AAGJ,MAAM,iBAAiB,SACrB,KAAK,WAAW,OAAO,GAAG,KAAK,MAAM,EAAE,GAAG;AAE5C,MAAM,eAAe,OAAO,OAAO,YAAY;;;;;;AAO/C,MAAa,qBACX,SACA,QACA,WACA,WACS;CACT,MAAM,iBAAiB,cAAc,IAAI,IAAI,OAAO,CAAC,SAAS;CAE9D,IAAI,iBAAiB;CACrB,IAAI,qBAAqB;CACzB,MAAM,oBAA8B,EAAE;AAEtC,MAAK,MAAM,EAAE,UAAU,SAAS;AAC9B,MAAI,CAAC,QAAQ,KAAK,WAAW,IAAI,IAAI,KAAK,WAAW,cAAc,CACjE;AAEF,MAAI;GACF,MAAM,MAAM,IAAI,IAAI,MAAM,OAAO;AACjC,OAAI,cAAc,IAAI,SAAS,KAAK,eAAgB;AAEpD;GACA,MAAM,OAAO,IAAI,SAAS,aAAa;GACvC,MAAM,WAAW,IAAI,SAAS,aAAa;GAE3C,MAAM,kBAAkB,aAAa,MAAM,WAAW;IACpD,MAAM,IAAI,OAAO,aAAa;AAC9B,WAAO,SAAS,IAAI,OAAO,KAAK,SAAS,IAAI,EAAE,GAAG;KAClD;GACF,MAAM,uBAAuB,aAAa,MAAM,WAAW;IACzD,MAAM,IAAI,OAAO,aAAa;AAC9B,WAAO,SAAS,WAAW,GAAG,EAAE,GAAG,IAAI,SAAS,SAAS,IAAI,EAAE,GAAG;KAClE;AAEF,OAAI,mBAAmB,qBACrB;OAEA,mBAAkB,KAAK,KAAK;UAExB;;CAKV,MAAM,oBAAoB,iBAAiB;CAC3C,MAAM,sBACJ,uBAAuB,KAAK,mBAAmB;AAEjD,QAAO,KAAK;EACV,MAAM,0BAA0B;EAChC,QAAQ,oBAAoB,YAAY;EACxC,SAAS;GACP,SAAS,oBACL,GAAG,eAAe,gCAAgC,mBAAmB,mBACrE;GACJ,SAAS,oBAAoB,SAAY;GAC1C;EACF,CAAC;AAEF,QAAO,KAAK;EACV,MAAM,4BAA4B;EAClC,QAAQ,sBAAsB,YAAY;EAC1C,SAAS,EACP,SAAS,sBACL,SACA;GACE,SAAS;GACT,OAAO;GACR,EACN;EACF,CAAC;;;;;;AAOJ,MAAa,sBACX,QACA,MACA,eACA,WACA,eACA,WACsC;AACtC,KAAI,CAAC,eAAe;AAClB,SAAO,KAAK;GACV,MAAM,4BAA4B;GAClC,QAAQ;GACR,SAAS,EACP,SAAS,2DACV;GACF,CAAC;AACF;;CAGF,MAAM,WAAW,qBACf,QACA,MACA,eACA,cACD;CAGD,MAAM,sBAAsB,SAAS,iBAAiB,QACnD,KAAK,MAAM,KAAK,IAAI,KAAK,EAAE,cAAc,EAC1C,EACD;CAED,MAAM,SACJ,wBAAwB,IACpB,YACA,uBAAuB,KACrB,YACA;AAER,QAAO,KAAK;EACV,MAAM,4BAA4B;EAClC;EACA,SAAS,GAAG,SAAS,UAAU;EAChC,CAAC;AAEF,QAAO;;;AAIT,MAAa,cAAc,OACzB,QACA,mBACA,WACA,WACkB;CAClB,IAAI,gBAAgB;CACpB,IAAI,2BAA2B;CAC/B,MAAM,SAAmB,EAAE;AAE3B,KAAI;EACF,MAAM,WAAW,MAAM,MAAM,GAAG,OAAO,cAAc,EACnD,SAAS,EAAE,cAAc,WAAW,EACrC,CAAC;AAEF,MAAI,SAAS,IAAI;AACf,mBAAgB;GAChB,MAAM,UAAU,MAAM,SAAS,MAAM;AAErC,OAAI,WAAW,kBAAkB,OAAO,GAAG;IACzC,MAAM,kBAAkB,QACrB,MAAM,KAAK,CACX,KAAK,SAAS,KAAK,MAAM,CAAC,aAAa,CAAC,CACxC,QAAQ,SAAS,KAAK,WAAW,YAAY,CAAC,CAC9C,KAAK,SAAS,KAAK,MAAM,EAAmB,CAAC,MAAM,CAAC;AAEvD,SAAK,MAAM,UAAU,kBACnB,MAAK,MAAM,QAAQ,gBACjB,KAAI,SAAS,IAAI,YAAY,SAAS,IAAI,OAAO,IAAI;AACnD,gCAA2B;AAC3B,YAAO,KACL,gBAAgB,OAAO,yCAAyC,OACjE;;;;UAMJ,OAAO;AACd,SAAO,KACL,+BAA+B,iBAAiB,QAAQ,MAAM,UAAU,kBACzE;;AAGH,QAAO,KAAK;EACV,MAAM;EACN,QAAQ,gBAAgB,YAAY;EACpC,SAAS;GACP,SAAS,gBAAgB,SAAY;GACrC,OAAO,OAAO,SAAS,IAAI,SAAS;GACrC;EACF,CAAC;AAEF,KAAI,cACF,QAAO,KAAK;EACV,MAAM;EACN,QAAQ,2BAA2B,YAAY;EAC/C,SAAS,EAAE,OAAO,2BAA2B,SAAY,QAAQ;EAClE,CAAC;;;AAKN,MAAa,eAAe,OAC1B,QACA,mBACA,WACA,WACkB;CAClB,IAAI,iBAAiB;CACrB,IAAI,cAAc;CAClB,IAAI,gBAAgB;CACpB,IAAI,2BAA2B;CAC/B,MAAM,SAAmB,EAAE;AAE3B,KAAI;EACF,MAAM,WAAW,MAAM,MAAM,GAAG,OAAO,eAAe,EACpD,SAAS,EAAE,cAAc,WAAW,EACrC,CAAC;AAEF,MAAI,SAAS,IAAI;AACf,oBAAiB;GACjB,MAAM,UAAU,MAAM,SAAS,MAAM;GAGrC,MAAM,aADkB,QAAQ,MAAM,6BAA6B,IAAI,EAAE,EACvC,KAAK,MACrC,EAAE,QAAQ,qBAAqB,GAAG,CAAC,QAAQ,MAAM,GAAG,CACrD;AACD,mBAAgB,UAAU,SAAS;AACnC,iBAAc,UAAU,SAAS,YAAY;AAE7C,OAAI,kBAAkB,OAAO,GAAG;IAC9B,MAAM,YAAY,QAAQ,MAAM,0BAA0B,IAAI,EAAE;IAChE,MAAM,kCAAkB,IAAI,KAAa;IACzC,IAAI,sBAAsB;AAE1B,SAAK,MAAM,SAAS,WAAW;KAC7B,MAAM,+BAAe,IAAI,KAAa;AAEtC,UAAK,MAAM,YAAY,MAAM,MAAM,6BAA6B,IAC9D,EAAE,EAAE;MACJ,MAAM,QAAQ,SACX,QAAQ,qBAAqB,GAAG,CAChC,QAAQ,MAAM,GAAG;AACpB,UAAI,UAAU,aAAa;AACzB,oBAAa,IAAI,MAAM;AACvB,uBAAgB,IAAI,MAAM;;;KAI9B,MAAM,MAAM,MAAM,MAAM,0BAA0B,GAAG,IAAI,MAAM;AAC/D,SAAI,IACF,KAAI;MACF,MAAM,eAAe,IAAI,IAAI,IAAI,CAAC,SAC/B,MAAM,IAAI,CACV,OAAO,QAAQ,CAAC;AACnB,UAAI,gBAAgB,kBAAkB,IAAI,aAAa,EAAE;AACvD,oBAAa,IAAI,aAAa;AAC9B,uBAAgB,IAAI,aAAa;;aAE7B;KAKV,MAAM,UAAU,CAAC,GAAG,kBAAkB,CAAC,QACpC,WAAW,CAAC,aAAa,IAAI,OAAO,CACtC;AACD,SAAI,QAAQ,SAAS,KAAK,QAAQ,SAAS,kBAAkB,KAC3D,uBAAsB;;IAI1B,MAAM,oBAAoB,CAAC,GAAG,kBAAkB,CAAC,QAC9C,WAAW,CAAC,gBAAgB,IAAI,OAAO,CACzC;AACD,QAAI,uBAAuB,kBAAkB,SAAS,GAAG;AACvD,gCAA2B;AAC3B,SAAI,kBAAkB,SAAS,EAC7B,QAAO,KACL,kEAAkE,kBAAkB,KAAK,KAAK,GAC/F;;;;UAKF,OAAO;AACd,SAAO,KACL,gCAAgC,iBAAiB,QAAQ,MAAM,UAAU,kBAC1E;;AAGH,QAAO,KAAK;EACV,MAAM;EACN,QAAQ,iBAAiB,YAAY;EACrC,SAAS;GACP,SAAS,iBAAiB,SAAY;GACtC,OAAO,OAAO,SAAS,IAAI,SAAS;GACrC;EACF,CAAC;AAEF,KAAI,gBAAgB;AAClB,SAAO,KAAK;GACV,MAAM;GACN,QAAQ,2BAA2B,YAAY;GAC/C,SAAS,EAAE,SAAS,2BAA2B,SAAY,QAAQ;GACpE,CAAC;AAEF,SAAO,KAAK;GACV,MAAM;GACN,QAAQ,cAAc,YAAY;GAClC,SAAS,EACP,SAAS,cAAc,SAAY,oCACpC;GACF,CAAC;AAEF,SAAO,KAAK;GACV,MAAM;GACN,QAAQ,gBAAgB,YAAY;GACpC,SAAS,EACP,SAAS,gBACL,SACA,gDACL;GACF,CAAC"}

package/dist/esm/scan/index.mjs ADDED Viewed

@@ -0,0 +1,7 @@
+import { mutateScore, scoreRecord, toScorePercent } from "./calculateScore.mjs";
+import { byteLength, extractAnchors, extractHreflangs, extractHtmlDir, extractHtmlLang, extractMetaDescription, extractOgImage, extractScriptUrls, extractTitle, extractVisibleTextStrings, hasCanonical } from "./parseHtml.mjs";
+import { analyzeBundleContent } from "./analyzeBundleContent.mjs";
+import { checkBundleContent, checkCanonical, checkHtmlAttributes, checkLinguisticStructure, checkRobots, checkSitemap, checkUrlStructure, formatSize } from "./checks.mjs";
+import { scanWebsite } from "./scanWebsite.mjs";
+export { analyzeBundleContent, byteLength, checkBundleContent, checkCanonical, checkHtmlAttributes, checkLinguisticStructure, checkRobots, checkSitemap, checkUrlStructure, extractAnchors, extractHreflangs, extractHtmlDir, extractHtmlLang, extractMetaDescription, extractOgImage, extractScriptUrls, extractTitle, extractVisibleTextStrings, formatSize, hasCanonical, mutateScore, scanWebsite, scoreRecord, toScorePercent };

package/dist/esm/scan/parseHtml.mjs ADDED Viewed

@@ -0,0 +1,115 @@
+//#region src/scan/parseHtml.ts
+/**
+* Tiny dependency-free HTML extraction helpers.
+*
+* The hosted backend audit relies on Cheerio + a real browser, but the CLI scan
+* must stay dependency-light. These regex-based helpers cover the handful of
+* head/anchor signals the score needs. They are intentionally forgiving: when a
+* tag can't be parsed it is simply skipped rather than throwing.
+*/
+/** Compute the UTF-8 byte length of a string in both Node and browser builds. */
+const byteLength = (text) => typeof Buffer !== "undefined" ? Buffer.byteLength(text, "utf-8") : new TextEncoder().encode(text).length;
+/** Read an attribute value off a single tag's attribute string. */
+const readAttribute = (attributes, attributeName) => {
+	const match = attributes.match(new RegExp(`${attributeName}\\s*=\\s*("([^"]*)"|'([^']*)'|([^\\s>]+))`, "i"));
+	if (!match) return void 0;
+	return match[2] ?? match[3] ?? match[4];
+};
+/** Extract the `lang` attribute of the `<html>` element, if present. */
+const extractHtmlLang = (html) => {
+	const htmlTag = html.match(/<html\b([^>]*)>/i);
+	return htmlTag ? readAttribute(htmlTag[1], "lang") : void 0;
+};
+/** Extract the `dir` attribute of the `<html>` element, if present. */
+const extractHtmlDir = (html) => {
+	const htmlTag = html.match(/<html\b([^>]*)>/i);
+	return htmlTag ? readAttribute(htmlTag[1], "dir") : void 0;
+};
+/** Extract the document `<title>` text. */
+const extractTitle = (html) => {
+	const match = html.match(/<title[^>]*>([\s\S]*?)<\/title>/i);
+	return match ? match[1].trim() : "";
+};
+/** Extract the `<meta name="description">` content. */
+const extractMetaDescription = (html) => {
+	const metas = html.match(/<meta\b[^>]*>/gi) ?? [];
+	for (const meta of metas) if (/name\s*=\s*("|')?description\1?/i.test(meta)) return readAttribute(meta, "content") ?? "";
+	return "";
+};
+/** Extract the `<meta property="og:image">` content. */
+const extractOgImage = (html) => {
+	const metas = html.match(/<meta\b[^>]*>/gi) ?? [];
+	for (const meta of metas) if (/property\s*=\s*("|')?og:image\1?/i.test(meta)) return readAttribute(meta, "content");
+};
+/** Whether a `<link rel="canonical">` element is present. */
+const hasCanonical = (html) => {
+	return (html.match(/<link\b[^>]*>/gi) ?? []).some((link) => /rel\s*=\s*("|')?canonical\1?/i.test(link));
+};
+/** Extract every `<link rel="alternate" hreflang="…" href="…">` element. */
+const extractHreflangs = (html) => {
+	const links = html.match(/<link\b[^>]*>/gi) ?? [];
+	const result = [];
+	for (const link of links) {
+		if (!/rel\s*=\s*("|')?alternate\1?/i.test(link)) continue;
+		const hreflang = readAttribute(link, "hreflang");
+		const href = readAttribute(link, "href");
+		if (hreflang && href) result.push({
+			hreflang,
+			href
+		});
+	}
+	return result;
+};
+/**
+* Extract every eagerly-loaded script URL: `<script src>`,
+* `<link rel="modulepreload">` and `<link rel="preload" as="script">`.
+*
+* @param html - The raw HTML document.
+* @param baseUrl - Base URL used to resolve relative script URLs.
+* @returns Absolute, de-duplicated script URLs.
+*/
+const extractScriptUrls = (html, baseUrl) => {
+	const urls = /* @__PURE__ */ new Set();
+	const add = (raw) => {
+		if (!raw) return;
+		try {
+			urls.add(new URL(raw, baseUrl).href);
+		} catch {}
+	};
+	for (const script of html.match(/<script\b[^>]*>/gi) ?? []) add(readAttribute(script, "src"));
+	for (const link of html.match(/<link\b[^>]*>/gi) ?? []) {
+		const rel = readAttribute(link, "rel")?.toLowerCase();
+		const as = readAttribute(link, "as")?.toLowerCase();
+		if (rel === "modulepreload" || rel === "preload" && as === "script") add(readAttribute(link, "href"));
+	}
+	return Array.from(urls);
+};
+/** Extract every `<a href="…">text</a>` anchor from the document. */
+const extractAnchors = (html) => {
+	const anchors = [];
+	const anchorPattern = /<a\b([^>]*)>([\s\S]*?)<\/a>/gi;
+	let match = anchorPattern.exec(html);
+	while (match !== null) {
+		const href = readAttribute(match[1], "href");
+		if (href) {
+			const text = match[2].replace(/<[^>]+>/g, " ").replace(/\s+/g, " ").trim();
+			anchors.push({
+				href,
+				text
+			});
+		}
+		match = anchorPattern.exec(html);
+	}
+	return anchors;
+};
+/**
+* Extract visible text snippets from an HTML document (scripts, styles and
+* tags stripped). Used to approximate the rendered content size without a DOM.
+*/
+const extractVisibleTextStrings = (html) => {
+	return html.replace(/<script[\s\S]*?<\/script>/gi, " ").replace(/<style[\s\S]*?<\/style>/gi, " ").replace(/<noscript[\s\S]*?<\/noscript>/gi, " ").replace(/<!--[\s\S]*?-->/g, " ").replace(/<[^>]+>/g, "\n").split("\n").map((line) => line.replace(/\s+/g, " ").trim()).filter((line) => line.length > 1);
+};
+//#endregion
+export { byteLength, extractAnchors, extractHreflangs, extractHtmlDir, extractHtmlLang, extractMetaDescription, extractOgImage, extractScriptUrls, extractTitle, extractVisibleTextStrings, hasCanonical };
+//# sourceMappingURL=parseHtml.mjs.map

package/dist/esm/scan/parseHtml.mjs.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"parseHtml.mjs","names":[],"sources":["../../../src/scan/parseHtml.ts"],"sourcesContent":["/**\n * Tiny dependency-free HTML extraction helpers.\n *\n * The hosted backend audit relies on Cheerio + a real browser, but the CLI scan\n * must stay dependency-light. These regex-based helpers cover the handful of\n * head/anchor signals the score needs. They are intentionally forgiving: when a\n * tag can't be parsed it is simply skipped rather than throwing.\n */\n\n/** Compute the UTF-8 byte length of a string in both Node and browser builds. */\nexport const byteLength = (text: string): number =>\n typeof Buffer !== 'undefined'\n ? Buffer.byteLength(text, 'utf-8')\n : new TextEncoder().encode(text).length;\n\n/** Read an attribute value off a single tag's attribute string. */\nconst readAttribute = (\n attributes: string,\n attributeName: string\n): string | undefined => {\n const match = attributes.match(\n new RegExp(`${attributeName}\\\\s*=\\\\s*(\"([^\"]*)\"|'([^']*)'|([^\\\\s>]+))`, 'i')\n );\n if (!match) return undefined;\n return match[2] ?? match[3] ?? match[4];\n};\n\n/** Extract the `lang` attribute of the `<html>` element, if present. */\nexport const extractHtmlLang = (html: string): string | undefined => {\n const htmlTag = html.match(/<html\\b([^>]*)>/i);\n return htmlTag ? readAttribute(htmlTag[1], 'lang') : undefined;\n};\n\n/** Extract the `dir` attribute of the `<html>` element, if present. */\nexport const extractHtmlDir = (html: string): string | undefined => {\n const htmlTag = html.match(/<html\\b([^>]*)>/i);\n return htmlTag ? readAttribute(htmlTag[1], 'dir') : undefined;\n};\n\n/** Extract the document `<title>` text. */\nexport const extractTitle = (html: string): string => {\n const match = html.match(/<title[^>]*>([\\s\\S]*?)<\\/title>/i);\n return match ? match[1].trim() : '';\n};\n\n/** Extract the `<meta name=\"description\">` content. */\nexport const extractMetaDescription = (html: string): string => {\n const metas = html.match(/<meta\\b[^>]*>/gi) ?? [];\n for (const meta of metas) {\n if (/name\\s*=\\s*(\"|')?description\\1?/i.test(meta)) {\n return readAttribute(meta, 'content') ?? '';\n }\n }\n return '';\n};\n\n/** Extract the `<meta property=\"og:image\">` content. */\nexport const extractOgImage = (html: string): string | undefined => {\n const metas = html.match(/<meta\\b[^>]*>/gi) ?? [];\n for (const meta of metas) {\n if (/property\\s*=\\s*(\"|')?og:image\\1?/i.test(meta)) {\n return readAttribute(meta, 'content');\n }\n }\n return undefined;\n};\n\n/** Whether a `<link rel=\"canonical\">` element is present. */\nexport const hasCanonical = (html: string): boolean => {\n const links = html.match(/<link\\b[^>]*>/gi) ?? [];\n return links.some((link) => /rel\\s*=\\s*(\"|')?canonical\\1?/i.test(link));\n};\n\n/** A parsed `<link rel=\"alternate\" hreflang>` element. */\nexport type HreflangLink = { hreflang: string; href: string };\n\n/** Extract every `<link rel=\"alternate\" hreflang=\"…\" href=\"…\">` element. */\nexport const extractHreflangs = (html: string): HreflangLink[] => {\n const links = html.match(/<link\\b[^>]*>/gi) ?? [];\n const result: HreflangLink[] = [];\n for (const link of links) {\n if (!/rel\\s*=\\s*(\"|')?alternate\\1?/i.test(link)) continue;\n const hreflang = readAttribute(link, 'hreflang');\n const href = readAttribute(link, 'href');\n if (hreflang && href) result.push({ hreflang, href });\n }\n return result;\n};\n\n/**\n * Extract every eagerly-loaded script URL: `<script src>`,\n * `<link rel=\"modulepreload\">` and `<link rel=\"preload\" as=\"script\">`.\n *\n * @param html - The raw HTML document.\n * @param baseUrl - Base URL used to resolve relative script URLs.\n * @returns Absolute, de-duplicated script URLs.\n */\nexport const extractScriptUrls = (html: string, baseUrl: string): string[] => {\n const urls = new Set<string>();\n\n const add = (raw: string | undefined) => {\n if (!raw) return;\n try {\n urls.add(new URL(raw, baseUrl).href);\n } catch {\n /* ignore malformed URLs */\n }\n };\n\n for (const script of html.match(/<script\\b[^>]*>/gi) ?? []) {\n add(readAttribute(script, 'src'));\n }\n\n for (const link of html.match(/<link\\b[^>]*>/gi) ?? []) {\n const rel = readAttribute(link, 'rel')?.toLowerCase();\n const as = readAttribute(link, 'as')?.toLowerCase();\n if (rel === 'modulepreload' || (rel === 'preload' && as === 'script')) {\n add(readAttribute(link, 'href'));\n }\n }\n\n return Array.from(urls);\n};\n\n/** A parsed `<a href>` anchor. */\nexport type Anchor = { href: string; text: string };\n\n/** Extract every `<a href=\"…\">text</a>` anchor from the document. */\nexport const extractAnchors = (html: string): Anchor[] => {\n const anchors: Anchor[] = [];\n const anchorPattern = /<a\\b([^>]*)>([\\s\\S]*?)<\\/a>/gi;\n let match = anchorPattern.exec(html);\n while (match !== null) {\n const href = readAttribute(match[1], 'href');\n if (href) {\n const text = match[2]\n .replace(/<[^>]+>/g, ' ')\n .replace(/\\s+/g, ' ')\n .trim();\n anchors.push({ href, text });\n }\n match = anchorPattern.exec(html);\n }\n return anchors;\n};\n\n/**\n * Extract visible text snippets from an HTML document (scripts, styles and\n * tags stripped). Used to approximate the rendered content size without a DOM.\n */\nexport const extractVisibleTextStrings = (html: string): string[] => {\n const withoutNonVisible = html\n .replace(/<script[\\s\\S]*?<\\/script>/gi, ' ')\n .replace(/<style[\\s\\S]*?<\\/style>/gi, ' ')\n .replace(/<noscript[\\s\\S]*?<\\/noscript>/gi, ' ')\n .replace(//g, ' ');\n\n return withoutNonVisible\n .replace(/<[^>]+>/g, '\\n')\n .split('\\n')\n .map((line) => line.replace(/\\s+/g, ' ').trim())\n .filter((line) => line.length > 1);\n};\n"],"mappings":";;;;;;;;;;AAUA,MAAa,cAAc,SACzB,OAAO,WAAW,cACd,OAAO,WAAW,MAAM,QAAQ,GAChC,IAAI,aAAa,CAAC,OAAO,KAAK,CAAC;;AAGrC,MAAM,iBACJ,YACA,kBACuB;CACvB,MAAM,QAAQ,WAAW,MACvB,IAAI,OAAO,GAAG,cAAc,4CAA4C,IAAI,CAC7E;AACD,KAAI,CAAC,MAAO,QAAO;AACnB,QAAO,MAAM,MAAM,MAAM,MAAM,MAAM;;;AAIvC,MAAa,mBAAmB,SAAqC;CACnE,MAAM,UAAU,KAAK,MAAM,mBAAmB;AAC9C,QAAO,UAAU,cAAc,QAAQ,IAAI,OAAO,GAAG;;;AAIvD,MAAa,kBAAkB,SAAqC;CAClE,MAAM,UAAU,KAAK,MAAM,mBAAmB;AAC9C,QAAO,UAAU,cAAc,QAAQ,IAAI,MAAM,GAAG;;;AAItD,MAAa,gBAAgB,SAAyB;CACpD,MAAM,QAAQ,KAAK,MAAM,mCAAmC;AAC5D,QAAO,QAAQ,MAAM,GAAG,MAAM,GAAG;;;AAInC,MAAa,0BAA0B,SAAyB;CAC9D,MAAM,QAAQ,KAAK,MAAM,kBAAkB,IAAI,EAAE;AACjD,MAAK,MAAM,QAAQ,MACjB,KAAI,mCAAmC,KAAK,KAAK,CAC/C,QAAO,cAAc,MAAM,UAAU,IAAI;AAG7C,QAAO;;;AAIT,MAAa,kBAAkB,SAAqC;CAClE,MAAM,QAAQ,KAAK,MAAM,kBAAkB,IAAI,EAAE;AACjD,MAAK,MAAM,QAAQ,MACjB,KAAI,oCAAoC,KAAK,KAAK,CAChD,QAAO,cAAc,MAAM,UAAU;;;AAO3C,MAAa,gBAAgB,SAA0B;AAErD,SADc,KAAK,MAAM,kBAAkB,IAAI,EAAE,EACpC,MAAM,SAAS,gCAAgC,KAAK,KAAK,CAAC;;;AAOzE,MAAa,oBAAoB,SAAiC;CAChE,MAAM,QAAQ,KAAK,MAAM,kBAAkB,IAAI,EAAE;CACjD,MAAM,SAAyB,EAAE;AACjC,MAAK,MAAM,QAAQ,OAAO;AACxB,MAAI,CAAC,gCAAgC,KAAK,KAAK,CAAE;EACjD,MAAM,WAAW,cAAc,MAAM,WAAW;EAChD,MAAM,OAAO,cAAc,MAAM,OAAO;AACxC,MAAI,YAAY,KAAM,QAAO,KAAK;GAAE;GAAU;GAAM,CAAC;;AAEvD,QAAO;;;;;;;;;;AAWT,MAAa,qBAAqB,MAAc,YAA8B;CAC5E,MAAM,uBAAO,IAAI,KAAa;CAE9B,MAAM,OAAO,QAA4B;AACvC,MAAI,CAAC,IAAK;AACV,MAAI;AACF,QAAK,IAAI,IAAI,IAAI,KAAK,QAAQ,CAAC,KAAK;UAC9B;;AAKV,MAAK,MAAM,UAAU,KAAK,MAAM,oBAAoB,IAAI,EAAE,CACxD,KAAI,cAAc,QAAQ,MAAM,CAAC;AAGnC,MAAK,MAAM,QAAQ,KAAK,MAAM,kBAAkB,IAAI,EAAE,EAAE;EACtD,MAAM,MAAM,cAAc,MAAM,MAAM,EAAE,aAAa;EACrD,MAAM,KAAK,cAAc,MAAM,KAAK,EAAE,aAAa;AACnD,MAAI,QAAQ,mBAAoB,QAAQ,aAAa,OAAO,SAC1D,KAAI,cAAc,MAAM,OAAO,CAAC;;AAIpC,QAAO,MAAM,KAAK,KAAK;;;AAOzB,MAAa,kBAAkB,SAA2B;CACxD,MAAM,UAAoB,EAAE;CAC5B,MAAM,gBAAgB;CACtB,IAAI,QAAQ,cAAc,KAAK,KAAK;AACpC,QAAO,UAAU,MAAM;EACrB,MAAM,OAAO,cAAc,MAAM,IAAI,OAAO;AAC5C,MAAI,MAAM;GACR,MAAM,OAAO,MAAM,GAChB,QAAQ,YAAY,IAAI,CACxB,QAAQ,QAAQ,IAAI,CACpB,MAAM;AACT,WAAQ,KAAK;IAAE;IAAM;IAAM,CAAC;;AAE9B,UAAQ,cAAc,KAAK,KAAK;;AAElC,QAAO;;;;;;AAOT,MAAa,6BAA6B,SAA2B;AAOnE,QAN0B,KACvB,QAAQ,+BAA+B,IAAI,CAC3C,QAAQ,6BAA6B,IAAI,CACzC,QAAQ,mCAAmC,IAAI,CAC/C,QAAQ,oBAAoB,IAEP,CACrB,QAAQ,YAAY,KAAK,CACzB,MAAM,KAAK,CACX,KAAK,SAAS,KAAK,QAAQ,QAAQ,IAAI,CAAC,MAAM,CAAC,CAC/C,QAAQ,SAAS,KAAK,SAAS,EAAE"}

package/dist/esm/scan/scanWebsite.mjs ADDED Viewed

@@ -0,0 +1,203 @@
+import { mutateScore, toScorePercent } from "./calculateScore.mjs";
+import { byteLength, extractAnchors, extractScriptUrls } from "./parseHtml.mjs";
+import { checkBundleContent, checkCanonical, checkHtmlAttributes, checkLinguisticStructure, checkRobots, checkSitemap, checkUrlStructure } from "./checks.mjs";
+import { colorize, logger } from "@intlayer/config/logger";
+import { GREY, GREY_LIGHT } from "@intlayer/config/colors";
+//#region src/scan/scanWebsite.ts
+const DEFAULT_USER_AGENT = "Mozilla/5.0 (compatible; IntlayerScanBot/1.0; +https://intlayer.org)";
+const DEFAULT_TIMEOUT_MS = 3e4;
+/**
+* Log a recommendation to install `puppeteer` for a deeper scan. Mirrors the
+* style used by other optional-dependency hints across the CLI.
+*/
+const logDeepScanRecommendation = () => {
+	logger([
+		colorize("Recommended: Install", GREY),
+		colorize("puppeteer", GREY_LIGHT),
+		colorize("package to enable a deeper scan (renders client-side content & lazy-loaded chunks). See documentation:", GREY),
+		colorize("https://intlayer.org/doc/concept/cli#scan", GREY_LIGHT)
+	]);
+};
+/**
+* Render the page with a locally installed `puppeteer` to capture
+* client-rendered content, the accurate transfer size, and lazy-loaded chunks.
+*
+* `puppeteer` is imported dynamically through a non-literal specifier so it is
+* never bundled and stays an optional dependency: when it is absent the import
+* rejects and the caller falls back to the basic scan.
+*
+* @returns The deep-scan result, or `null` when `puppeteer` is unavailable.
+*/
+const runDeepScan = async (targetUrl, userAgent, timeoutMs) => {
+	const moduleName = "puppeteer";
+	let puppeteer;
+	try {
+		const mod = await import(moduleName);
+		puppeteer = mod.default ?? mod;
+	} catch {
+		return null;
+	}
+	let browser;
+	try {
+		browser = await puppeteer.launch({
+			headless: true,
+			executablePath: process.env.PUPPETEER_EXECUTABLE_PATH,
+			args: [
+				"--no-sandbox",
+				"--disable-setuid-sandbox",
+				"--disable-dev-shm-usage",
+				"--disable-gpu"
+			]
+		});
+		const page = await browser.newPage();
+		await page.setUserAgent(userAgent);
+		await page.setExtraHTTPHeaders({ "Accept-Language": "en-US,en;q=0.9" });
+		const origin = new URL(targetUrl).origin;
+		const jsResponseMap = /* @__PURE__ */ new Map();
+		let totalPageSize = 0;
+		const pendingResponses = [];
+		page.on("response", (response) => {
+			pendingResponses.push((async () => {
+				try {
+					if (response.status() !== 200) return;
+					const buffer = await response.buffer();
+					totalPageSize += buffer.length;
+					const responseUrl = response.url();
+					if (((response.headers()["content-type"] ?? "").includes("javascript") || /\.(js|mjs|cjs)(\?|$)/.test(responseUrl)) && responseUrl.startsWith(origin)) jsResponseMap.set(responseUrl, buffer.toString("utf-8"));
+				} catch {}
+			})());
+		});
+		await page.goto(targetUrl, {
+			waitUntil: "domcontentloaded",
+			timeout: timeoutMs
+		});
+		await page.waitForNetworkIdle({
+			idleTime: 1e3,
+			timeout: 1e4
+		}).catch(() => {});
+		await Promise.allSettled(pendingResponses);
+		const html = await page.content();
+		const mainBundleUrls = new Set(extractScriptUrls(html, targetUrl));
+		const chunks = Array.from(jsResponseMap.entries()).map(([url, content]) => ({
+			url,
+			isMainBundle: mainBundleUrls.has(url),
+			content
+		}));
+		return {
+			html,
+			totalPageSize,
+			chunks
+		};
+	} finally {
+		if (browser) await browser.close();
+	}
+};
+/** Fetch the raw HTML document, measuring its byte size. */
+const fetchHtml = async (url, userAgent, timeoutMs) => {
+	const controller = new AbortController();
+	const timer = setTimeout(() => controller.abort(), timeoutMs);
+	try {
+		const response = await fetch(url, {
+			headers: {
+				"User-Agent": userAgent,
+				"Accept-Language": "en-US,en;q=0.9"
+			},
+			signal: controller.signal
+		});
+		return {
+			html: await response.text(),
+			finalUrl: response.url || url
+		};
+	} finally {
+		clearTimeout(timer);
+	}
+};
+/**
+* Fetch every eagerly-loaded script. Same-origin scripts keep their content so
+* their locale weight can be analyzed; third-party scripts only contribute to
+* the measured page size (their locale-like keys cause false positives).
+*/
+const fetchScripts = async (scriptUrls, origin, userAgent) => {
+	const chunks = [];
+	let scriptBytes = 0;
+	await Promise.all(scriptUrls.map(async (scriptUrl) => {
+		try {
+			const response = await fetch(scriptUrl, { headers: { "User-Agent": userAgent } });
+			if (!response.ok) return;
+			const content = await response.text();
+			scriptBytes += byteLength(content);
+			if (scriptUrl.startsWith(origin)) chunks.push({
+				url: scriptUrl,
+				isMainBundle: true,
+				content
+			});
+		} catch {}
+	}));
+	return {
+		chunks,
+		scriptBytes
+	};
+};
+/**
+* Scan a single web page for i18n/SEO health and bundle weight.
+*
+* In `deep` mode (default) the page is rendered with a locally installed
+* `puppeteer`; when `puppeteer` is missing the scan transparently falls back to
+* a `basic` fetch-based pass and logs a recommendation to install it.
+*
+* @param targetUrl - The absolute URL to scan.
+* @param options - {@link ScanOptions} controlling depth, timeout and UA.
+* @returns The {@link ScanResult} including score, page size and per-check events.
+*/
+const scanWebsite = async (targetUrl, options = {}) => {
+	const { deep = true, timeoutMs = DEFAULT_TIMEOUT_MS, userAgent = DEFAULT_USER_AGENT } = options;
+	const origin = new URL(targetUrl).origin;
+	let mode = "basic";
+	let html;
+	let totalPageSize;
+	let chunks;
+	const deepResult = deep ? await runDeepScan(targetUrl, userAgent, timeoutMs) : null;
+	if (deepResult) {
+		mode = "deep";
+		html = deepResult.html;
+		chunks = deepResult.chunks;
+		totalPageSize = deepResult.totalPageSize;
+	} else {
+		if (deep) logDeepScanRecommendation();
+		const { html: fetchedHtml, finalUrl } = await fetchHtml(targetUrl, userAgent, timeoutMs);
+		html = fetchedHtml;
+		const { chunks: fetchedChunks, scriptBytes } = await fetchScripts(extractScriptUrls(fetchedHtml, finalUrl), origin, userAgent);
+		chunks = fetchedChunks;
+		totalPageSize = byteLength(fetchedHtml) + scriptBytes;
+	}
+	const htmlSize = byteLength(html);
+	const events = [];
+	const localesSet = /* @__PURE__ */ new Set();
+	const { langTag } = checkHtmlAttributes(html, targetUrl, events);
+	checkCanonical(html, targetUrl, events);
+	checkLinguisticStructure(html, targetUrl, localesSet, events);
+	checkUrlStructure(extractAnchors(html), origin, targetUrl, events);
+	const bundle = checkBundleContent(chunks, html, langTag, targetUrl, totalPageSize, events);
+	await checkRobots(origin, localesSet, userAgent, events);
+	await checkSitemap(origin, localesSet, userAgent, events);
+	const rawScore = events.reduce((score, event) => mutateScore(score, event), {
+		score: 0,
+		totalScore: 0
+	});
+	return {
+		url: targetUrl,
+		mode,
+		totalPageSize,
+		htmlSize,
+		score: toScorePercent(rawScore),
+		rawScore,
+		events,
+		locales: Array.from(localesSet),
+		bundle
+	};
+};
+//#endregion
+export { scanWebsite };
+//# sourceMappingURL=scanWebsite.mjs.map