npm - @govtechsg/oobee - Versions diffs - 0.10.84 → 0.10.86 - Mend

@govtechsg/oobee 0.10.84 → 0.10.86

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (40) hide show

package/.github/workflows/image.yml +3 -2
package/.github/workflows/publish.yml +10 -0
package/DETAILS.md +29 -0
package/dist/cli.js +7 -6
package/dist/combine.js +1 -1
package/dist/constants/common.js +15 -4
package/dist/constants/constants.js +604 -1
package/dist/crawlers/commonCrawlerFunc.js +3 -2
package/dist/crawlers/crawlSitemap.js +98 -80
package/dist/crawlers/custom/utils.js +218 -71
package/dist/crawlers/guards/urlGuard.js +8 -15
package/dist/crawlers/runCustom.js +24 -15
package/dist/generateOobeeClientScanner.js +570 -0
package/dist/mergeAxeResults.js +49 -29
package/dist/npmIndex.js +10 -2
package/dist/proxyService.js +18 -3
package/dist/services/s3Uploader.js +21 -10
package/dist/static/ejs/partials/scripts/header/aboutScanModal/ScanConfiguration.ejs +2 -2
package/dist/static/ejs/partials/scripts/ruleModal/constants.ejs +1 -761
package/dist/static/ejs/summary.ejs +10 -5
package/oobee-client-scanner.js +34992 -0
package/package.json +3 -3
package/src/cli.ts +20 -15
package/src/combine.ts +3 -1
package/src/constants/common.ts +22 -10
package/src/constants/constants.ts +602 -1
package/src/crawlers/commonCrawlerFunc.ts +4 -3
package/src/crawlers/crawlSitemap.ts +116 -98
package/src/crawlers/custom/utils.ts +244 -84
package/src/crawlers/guards/urlGuard.ts +24 -31
package/src/crawlers/runCustom.ts +38 -15
package/src/generateOobeeClientScanner.ts +591 -0
package/src/mergeAxeResults.ts +48 -29
package/src/npmIndex.ts +12 -2
package/src/proxyService.ts +25 -4
package/src/services/s3Uploader.ts +23 -11
package/src/static/ejs/partials/scripts/header/aboutScanModal/ScanConfiguration.ejs +2 -2
package/src/static/ejs/partials/scripts/ruleModal/constants.ejs +1 -761
package/src/static/ejs/summary.ejs +10 -5
package/testStaticJSScanner.html +534 -0

package/src/crawlers/commonCrawlerFunc.ts CHANGED Viewed

@@ -196,7 +196,7 @@ export const filterAxeResults = (
     const conformance = tags.filter(tag => tag.startsWith('wcag') || tag === 'best-practice');
     nodes.forEach(node => {
-      const { html } = node;
+      const { html, target } = node;
       if (!(rule in passed.rules)) {
         passed.rules[rule] = {
           description,
@@ -207,9 +207,10 @@ export const filterAxeResults = (
           items: [],
         };
       }
       const finalHtml = truncateHtml(html);
-      passed.rules[rule].items.push({ html: finalHtml, screenshotPath: '', message: '', xpath: '' });
+      const xpath = target.length === 1 && typeof target[0] === 'string' ? target[0] : undefined;
+      passed.rules[rule].items.push({ html: finalHtml, screenshotPath: '', message: '', xpath: xpath || '' });
       passed.totalItems += 1;
       passed.rules[rule].totalItems += 1;

package/src/crawlers/crawlSitemap.ts CHANGED Viewed

@@ -76,6 +76,7 @@ const crawlSitemap = async ({
   let dataset: crawlee.Dataset;
   let urlsCrawled: UrlsCrawled;
   let durationExceeded = false;
+  let isAbortingScan = false;
   if (fromCrawlIntelligentSitemap) {
     dataset = datasetFromIntelligent;
@@ -244,135 +245,152 @@ const crawlSitemap = async ({
           return;
         }
-        await waitForPageLoaded(page, 10000);
+        try {
+          await waitForPageLoaded(page, 10000);
-        const actualUrl = page.url() || request.loadedUrl || request.url;
+          const actualUrl = page.url() || request.loadedUrl || request.url;
-        const hasExceededDuration =
-          scanDuration > 0 && Date.now() - crawlStartTime > scanDuration * 1000;
+          const hasExceededDuration =
+            scanDuration > 0 && Date.now() - crawlStartTime > scanDuration * 1000;
-        if (urlsCrawled.scanned.length >= maxRequestsPerCrawl || hasExceededDuration) {
-          if (hasExceededDuration) {
-            console.log(`Crawl duration of ${scanDuration}s exceeded. Aborting sitemap crawl.`);
-            durationExceeded = true;
+          if (urlsCrawled.scanned.length >= maxRequestsPerCrawl || hasExceededDuration) {
+            isAbortingScan = true;
+            if (hasExceededDuration) {
+              console.log(`Crawl duration of ${scanDuration}s exceeded. Aborting sitemap crawl.`);
+              durationExceeded = true;
+            }
+            crawler.autoscaledPool.abort(); // stops new requests
+            return;
           }
-          crawler.autoscaledPool.abort(); // stops new requests
-          return;
-        }
-        if (request.skipNavigation && actualUrl === 'about:blank') {
-          if (isScanPdfs) {
-            // pushes download promise into pdfDownloads
-            const { pdfFileName, url } = handlePdfDownload(
-              randomToken,
-              pdfDownloads,
-              request,
-              sendRequest,
-              urlsCrawled,
-            );
+          if (request.skipNavigation && actualUrl === 'about:blank') {
+            if (isScanPdfs) {
+              // pushes download promise into pdfDownloads
+              const { pdfFileName, url } = handlePdfDownload(
+                randomToken,
+                pdfDownloads,
+                request,
+                sendRequest,
+                urlsCrawled,
+              );
+              uuidToPdfMapping[pdfFileName] = url;
+              return;
+            }
+            guiInfoLog(guiInfoStatusTypes.SKIPPED, {
+              numScanned: urlsCrawled.scanned.length,
+              urlScanned: request.url,
+            });
+            urlsCrawled.userExcluded.push({
+              url: request.url,
+              pageTitle: request.url,
+              actualUrl: request.url, // because about:blank is not useful
+              metadata: STATUS_CODE_METADATA[1],
+              httpStatusCode: 1,
+            });
-            uuidToPdfMapping[pdfFileName] = url;
             return;
           }
-          guiInfoLog(guiInfoStatusTypes.SKIPPED, {
-            numScanned: urlsCrawled.scanned.length,
-            urlScanned: request.url,
-          });
-          urlsCrawled.userExcluded.push({
-            url: request.url,
-            pageTitle: request.url,
-            actualUrl: request.url, // because about:blank is not useful
-            metadata: STATUS_CODE_METADATA[1],
-            httpStatusCode: 1,
-          });
+          const contentType = response?.headers?.()['content-type'] || '';
+          const status = response ? response.status() : 0;
-          return;
-        }
+          if (isScanHtml && status < 300 && isWhitelistedContentType(contentType)) {
+            const isRedirected = !areLinksEqual(page.url(), request.url);
+            const isLoadedUrlInCrawledUrls = urlsCrawled.scanned.some(
+              item => (item.actualUrl || item.url) === page.url(),
+            );
-        const contentType = response?.headers?.()['content-type'] || '';
-        const status = response ? response.status() : 0;
+            if (isRedirected && isLoadedUrlInCrawledUrls) {
+              urlsCrawled.notScannedRedirects.push({
+                fromUrl: request.url,
+                toUrl: actualUrl, // i.e. actualUrl
+              });
+              return;
+            }
-        if (isScanHtml && status < 300 && isWhitelistedContentType(contentType)) {
-          const isRedirected = !areLinksEqual(page.url(), request.url);
-          const isLoadedUrlInCrawledUrls = urlsCrawled.scanned.some(
-            item => (item.actualUrl || item.url) === page.url(),
-          );
+            // This logic is different from crawlDomain, as it also checks if the pae is redirected before checking if it is excluded using exclusions.txt
+            if (isRedirected && blacklistedPatterns && isSkippedUrl(actualUrl, blacklistedPatterns)) {
+              urlsCrawled.userExcluded.push({
+                url: request.url,
+                pageTitle: request.url,
+                actualUrl,
+                metadata: STATUS_CODE_METADATA[0],
+                httpStatusCode: 0,
+              });
-          if (isRedirected && isLoadedUrlInCrawledUrls) {
-            urlsCrawled.notScannedRedirects.push({
-              fromUrl: request.url,
-              toUrl: actualUrl, // i.e. actualUrl
-            });
-            return;
-          }
+              guiInfoLog(guiInfoStatusTypes.SKIPPED, {
+                numScanned: urlsCrawled.scanned.length,
+                urlScanned: request.url,
+              });
+              return;
+            }
-          // This logic is different from crawlDomain, as it also checks if the pae is redirected before checking if it is excluded using exclusions.txt
-          if (isRedirected && blacklistedPatterns && isSkippedUrl(actualUrl, blacklistedPatterns)) {
-            urlsCrawled.userExcluded.push({
-              url: request.url,
-              pageTitle: request.url,
-              actualUrl,
-              metadata: STATUS_CODE_METADATA[0],
-              httpStatusCode: 0,
-            });
+            const results = await runAxeScript({ includeScreenshots, page, randomToken });
-            guiInfoLog(guiInfoStatusTypes.SKIPPED, {
+            guiInfoLog(guiInfoStatusTypes.SCANNED, {
               numScanned: urlsCrawled.scanned.length,
               urlScanned: request.url,
             });
-            return;
-          }
-          const results = await runAxeScript({ includeScreenshots, page, randomToken });
-          guiInfoLog(guiInfoStatusTypes.SCANNED, {
-            numScanned: urlsCrawled.scanned.length,
-            urlScanned: request.url,
-          });
-          urlsCrawled.scanned.push({
-            url: request.url,
-            pageTitle: results.pageTitle,
-            actualUrl, // i.e. actualUrl
-          });
+            urlsCrawled.scanned.push({
+              url: request.url,
+              pageTitle: results.pageTitle,
+              actualUrl, // i.e. actualUrl
+            });
-          urlsCrawled.scannedRedirects.push({
-            fromUrl: request.url,
-            toUrl: actualUrl,
-          });
+            urlsCrawled.scannedRedirects.push({
+              fromUrl: request.url,
+              toUrl: actualUrl,
+            });
-          results.url = request.url;
-          results.actualUrl = actualUrl;
+            results.url = request.url;
+            results.actualUrl = actualUrl;
-          await dataset.pushData(results);
-        } else {
-          guiInfoLog(guiInfoStatusTypes.SKIPPED, {
-            numScanned: urlsCrawled.scanned.length,
-            urlScanned: request.url,
-          });
+            await dataset.pushData(results);
+          } else {
+            guiInfoLog(guiInfoStatusTypes.SKIPPED, {
+              numScanned: urlsCrawled.scanned.length,
+              urlScanned: request.url,
+            });
-          if (isScanHtml) {
-            // carry through the HTTP status metadata
-            const status = response?.status();
-            const metadata =
-              typeof status === 'number'
-                ? STATUS_CODE_METADATA[status] || STATUS_CODE_METADATA[599]
-                : STATUS_CODE_METADATA[2];
+            if (isScanHtml) {
+              // carry through the HTTP status metadata
+              const status = response?.status();
+              const metadata =
+                typeof status === 'number'
+                  ? STATUS_CODE_METADATA[status] || STATUS_CODE_METADATA[599]
+                  : STATUS_CODE_METADATA[2];
+              urlsCrawled.invalid.push({
+                actualUrl,
+                url: request.url,
+                pageTitle: request.url,
+                metadata,
+                httpStatusCode: typeof status === 'number' ? status : 0,
+              });
+            }
+          }
+        } catch (e) {
+          if (!isAbortingScan) {
+            guiInfoLog(guiInfoStatusTypes.ERROR, {
+              numScanned: urlsCrawled.scanned.length,
+              urlScanned: request.url,
+            });
-            urlsCrawled.invalid.push({
-              actualUrl,
+            urlsCrawled.error.push({
               url: request.url,
               pageTitle: request.url,
-              metadata,
-              httpStatusCode: typeof status === 'number' ? status : 0,
+              actualUrl: request.url,
+              metadata: STATUS_CODE_METADATA[2],
+              httpStatusCode: 0,
             });
           }
         }
       },
       failedRequestHandler: async ({ request, response, error }) => {
-        // check if scanned pages have reached limit due to multi-instances of handler running
-        if (urlsCrawled.scanned.length >= maxRequestsPerCrawl) {
+        if (isAbortingScan) {
           return;
         }