npm - mx-cloud - Versions diffs - 0.0.27 → 0.0.30 - Mend

mx-cloud 0.0.27 → 0.0.30

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (4) hide show

package/build/interpret.js CHANGED Viewed

@@ -54,6 +54,7 @@ const concurrency_1 = __importDefault(require("./utils/concurrency"));
 const preprocessor_1 = __importDefault(require("./preprocessor"));
 const logger_1 = __importStar(require("./utils/logger"));
 const selector_1 = require("./selector");
+const markdown_1 = require("./utils/markdown");
 /**
  * Class for running the Smart Workflows.
  */
@@ -678,10 +679,8 @@ class Interpreter extends events_1.EventEmitter {
                     }
                     this.log('Starting crawl operation', logger_1.Level.LOG);
                     try {
-                        // Get current page URL and log it
                         const currentUrl = page.url();
                         this.log(`Current page URL: ${currentUrl}`, logger_1.Level.LOG);
-                        // If page is on about:blank or empty, we need to wait for navigation
                         if (!currentUrl || currentUrl === 'about:blank' || currentUrl === '') {
                             this.log('Page not yet navigated, waiting for navigation...', logger_1.Level.WARN);
                             yield page.waitForLoadState('load', { timeout: 10000 }).catch(() => { });
@@ -690,13 +689,306 @@ class Interpreter extends events_1.EventEmitter {
                         this.log(`Using base URL for crawl: ${baseUrl}`, logger_1.Level.LOG);
                         const parsedBase = new URL(baseUrl);
                         const baseDomain = parsedBase.hostname;
-                        let discoveredUrls = [];
-                        // Step 1: Sitemap discovery using XMLHttpRequest to avoid polyfills
+                        let robotRules = {
+                            disallowedPaths: [],
+                            allowedPaths: [],
+                            crawlDelay: null
+                        };
+                        if (crawlConfig.respectRobots) {
+                            this.log('Fetching robots.txt...', logger_1.Level.LOG);
+                            try {
+                                const robotsUrl = `${parsedBase.protocol}//${parsedBase.host}/robots.txt`;
+                                const robotsContent = yield page.evaluate((url) => {
+                                    return new Promise((resolve) => {
+                                        const xhr = new XMLHttpRequest();
+                                        xhr.open('GET', url, true);
+                                        xhr.onload = function () {
+                                            if (xhr.status === 200) {
+                                                resolve(xhr.responseText);
+                                            }
+                                            else {
+                                                resolve('');
+                                            }
+                                        };
+                                        xhr.onerror = function () {
+                                            resolve('');
+                                        };
+                                        xhr.send();
+                                    });
+                                }, robotsUrl);
+                                if (robotsContent) {
+                                    const lines = robotsContent.split('\n');
+                                    let isRelevantUserAgent = false;
+                                    let foundSpecificUserAgent = false;
+                                    for (const line of lines) {
+                                        const trimmedLine = line.trim().toLowerCase();
+                                        if (trimmedLine.startsWith('#') || trimmedLine === '') {
+                                            continue;
+                                        }
+                                        const colonIndex = line.indexOf(':');
+                                        if (colonIndex === -1)
+                                            continue;
+                                        const directive = line.substring(0, colonIndex).trim().toLowerCase();
+                                        const value = line.substring(colonIndex + 1).trim();
+                                        if (directive === 'user-agent') {
+                                            const agent = value.toLowerCase();
+                                            if (agent === '*' && !foundSpecificUserAgent) {
+                                                isRelevantUserAgent = true;
+                                            }
+                                            else if (agent.includes('bot') || agent.includes('crawler') || agent.includes('spider')) {
+                                                isRelevantUserAgent = true;
+                                                foundSpecificUserAgent = true;
+                                            }
+                                            else {
+                                                if (!foundSpecificUserAgent) {
+                                                    isRelevantUserAgent = false;
+                                                }
+                                            }
+                                        }
+                                        else if (isRelevantUserAgent) {
+                                            if (directive === 'disallow' && value) {
+                                                robotRules.disallowedPaths.push(value);
+                                            }
+                                            else if (directive === 'allow' && value) {
+                                                robotRules.allowedPaths.push(value);
+                                            }
+                                            else if (directive === 'crawl-delay' && value) {
+                                                const delay = parseFloat(value);
+                                                if (!isNaN(delay) && delay > 0) {
+                                                    robotRules.crawlDelay = delay * 1000;
+                                                }
+                                            }
+                                        }
+                                    }
+                                    this.log(`Robots.txt parsed: ${robotRules.disallowedPaths.length} disallowed paths, ${robotRules.allowedPaths.length} allowed paths, crawl-delay: ${robotRules.crawlDelay || 'none'}`, logger_1.Level.LOG);
+                                }
+                                else {
+                                    this.log('No robots.txt found or not accessible, proceeding without restrictions', logger_1.Level.WARN);
+                                }
+                            }
+                            catch (error) {
+                                this.log(`Failed to fetch robots.txt: ${error.message}, proceeding without restrictions`, logger_1.Level.WARN);
+                            }
+                        }
+                        const isUrlAllowedByRobots = (url) => {
+                            if (!crawlConfig.respectRobots)
+                                return true;
+                            try {
+                                const urlObj = new URL(url);
+                                const pathname = urlObj.pathname;
+                                for (const allowedPath of robotRules.allowedPaths) {
+                                    if (allowedPath === pathname || pathname.startsWith(allowedPath)) {
+                                        return true;
+                                    }
+                                    if (allowedPath.includes('*')) {
+                                        const regex = new RegExp('^' + allowedPath.replace(/\*/g, '.*').replace(/\?/g, '.') + '$');
+                                        if (regex.test(pathname)) {
+                                            return true;
+                                        }
+                                    }
+                                }
+                                for (const disallowedPath of robotRules.disallowedPaths) {
+                                    if (disallowedPath === '/') {
+                                        return false;
+                                    }
+                                    if (pathname.startsWith(disallowedPath)) {
+                                        return false;
+                                    }
+                                    if (disallowedPath.includes('*')) {
+                                        const regex = new RegExp('^' + disallowedPath.replace(/\*/g, '.*').replace(/\?/g, '.') + '$');
+                                        if (regex.test(pathname)) {
+                                            return false;
+                                        }
+                                    }
+                                    if (disallowedPath.endsWith('$')) {
+                                        const pattern = disallowedPath.slice(0, -1);
+                                        if (pathname === pattern || pathname.endsWith(pattern)) {
+                                            return false;
+                                        }
+                                    }
+                                }
+                                return true;
+                            }
+                            catch (error) {
+                                return true;
+                            }
+                        };
+                        const isUrlAllowedByConfig = (url) => {
+                            try {
+                                const urlObj = new URL(url);
+                                if (crawlConfig.mode === 'domain') {
+                                    if (urlObj.hostname !== baseDomain)
+                                        return false;
+                                }
+                                else if (crawlConfig.mode === 'subdomain') {
+                                    if (!urlObj.hostname.endsWith(baseDomain) && urlObj.hostname !== baseDomain)
+                                        return false;
+                                }
+                                else if (crawlConfig.mode === 'path') {
+                                    if (urlObj.hostname !== baseDomain || !urlObj.pathname.startsWith(parsedBase.pathname))
+                                        return false;
+                                }
+                                if (crawlConfig.includePaths && crawlConfig.includePaths.length > 0) {
+                                    const matches = crawlConfig.includePaths.some(pattern => {
+                                        try {
+                                            const regex = new RegExp(pattern);
+                                            return regex.test(url);
+                                        }
+                                        catch (_a) {
+                                            return url.includes(pattern);
+                                        }
+                                    });
+                                    if (!matches)
+                                        return false;
+                                }
+                                if (crawlConfig.excludePaths && crawlConfig.excludePaths.length > 0) {
+                                    const matches = crawlConfig.excludePaths.some(pattern => {
+                                        try {
+                                            const regex = new RegExp(pattern);
+                                            return regex.test(url);
+                                        }
+                                        catch (_a) {
+                                            return url.includes(pattern);
+                                        }
+                                    });
+                                    if (matches)
+                                        return false;
+                                }
+                                return true;
+                            }
+                            catch (error) {
+                                return false;
+                            }
+                        };
+                        const normalizeUrl = (url) => {
+                            return url.replace(/#.*$/, '').replace(/\/$/, '');
+                        };
+                        const extractLinksFromPage = () => __awaiter(this, void 0, void 0, function* () {
+                            try {
+                                yield page.waitForLoadState('load', { timeout: 15000 }).catch(() => { });
+                                yield page.waitForLoadState('networkidle', { timeout: 10000 }).catch(() => { });
+                                yield new Promise(resolve => setTimeout(resolve, 1000));
+                                const pageLinks = yield page.evaluate(() => {
+                                    const links = [];
+                                    const allAnchors = document.querySelectorAll('a');
+                                    for (let i = 0; i < allAnchors.length; i++) {
+                                        const anchor = allAnchors[i];
+                                        const fullHref = anchor.href;
+                                        if (fullHref && (fullHref.startsWith('http://') || fullHref.startsWith('https://'))) {
+                                            links.push(fullHref);
+                                        }
+                                    }
+                                    return links;
+                                });
+                                return pageLinks;
+                            }
+                            catch (error) {
+                                this.log(`Link extraction failed: ${error.message}`, logger_1.Level.WARN);
+                                return [];
+                            }
+                        });
+                        const scrapePageContent = (url) => __awaiter(this, void 0, void 0, function* () {
+                            const pageData = yield page.evaluate(() => {
+                                var _a, _b;
+                                const getMeta = (name) => {
+                                    const meta = document.querySelector(`meta[name="${name}"], meta[property="${name}"]`);
+                                    return (meta === null || meta === void 0 ? void 0 : meta.getAttribute('content')) || '';
+                                };
+                                const getAllMeta = () => {
+                                    const metadata = {};
+                                    const metaTags = document.querySelectorAll('meta');
+                                    metaTags.forEach(tag => {
+                                        const name = tag.getAttribute('name') || tag.getAttribute('property');
+                                        const content = tag.getAttribute('content');
+                                        if (name && content) {
+                                            metadata[name] = content;
+                                        }
+                                    });
+                                    return metadata;
+                                };
+                                const title = document.title || '';
+                                const bodyText = ((_a = document.body) === null || _a === void 0 ? void 0 : _a.innerText) || '';
+                                const elementsWithMxId = document.querySelectorAll('[data-mx-id]');
+                                elementsWithMxId.forEach(el => el.removeAttribute('data-mx-id'));
+                                const html = document.documentElement.outerHTML;
+                                const links = Array.from(document.querySelectorAll('a')).map(a => a.href);
+                                const allMetadata = getAllMeta();
+                                return {
+                                    title,
+                                    description: getMeta('description'),
+                                    text: bodyText,
+                                    html: html,
+                                    links: links,
+                                    wordCount: bodyText.split(/\s+/).filter(w => w.length > 0).length,
+                                    metadata: Object.assign(Object.assign({}, allMetadata), { title, language: document.documentElement.lang || '', favicon: ((_b = document.querySelector('link[rel="icon"], link[rel="shortcut icon"]')) === null || _b === void 0 ? void 0 : _b.href) || '', statusCode: 200 })
+                                };
+                            });
+                            const result = {
+                                metadata: Object.assign(Object.assign({}, pageData.metadata), { url: url, sourceURL: url }),
+                                scrapedAt: new Date().toISOString()
+                            };
+                            const formats = crawlConfig.outputFormats || [];
+                            if (formats.includes('text')) {
+                                result.text = pageData.text;
+                                result.wordCount = pageData.wordCount;
+                            }
+                            if (formats.includes('html')) {
+                                result.html = pageData.html;
+                                result.links = pageData.links;
+                            }
+                            if (formats.includes('markdown')) {
+                                try {
+                                    const markdown = yield (0, markdown_1.parseMarkdown)(pageData.html, url);
+                                    result.markdown = markdown;
+                                }
+                                catch (err) {
+                                    this.log(`Markdown conversion failed for ${url}: ${err.message}`, logger_1.Level.WARN);
+                                    result.markdown = '';
+                                }
+                            }
+                            if (formats.includes('screenshot-visible')) {
+                                try {
+                                    const screenshotBuffer = yield page.screenshot({ fullPage: false });
+                                    const screenshotName = `Crawl - ${crawlResults.length} - Visible`;
+                                    yield this.options.binaryCallback({
+                                        name: screenshotName,
+                                        data: screenshotBuffer,
+                                        mimeType: 'image/png'
+                                    }, 'image/png');
+                                    result.screenshotVisible = screenshotName;
+                                }
+                                catch (err) {
+                                    this.log(`Screenshot-visible failed for ${url}: ${err.message}`, logger_1.Level.WARN);
+                                }
+                            }
+                            if (formats.includes('screenshot-fullpage')) {
+                                try {
+                                    const screenshotBuffer = yield page.screenshot({ fullPage: true });
+                                    const screenshotName = `Crawl - ${crawlResults.length} - Full Page`;
+                                    yield this.options.binaryCallback({
+                                        name: screenshotName,
+                                        data: screenshotBuffer,
+                                        mimeType: 'image/png'
+                                    }, 'image/png');
+                                    result.screenshotFullpage = screenshotName;
+                                }
+                                catch (err) {
+                                    this.log(`Screenshot-fullpage failed for ${url}: ${err.message}`, logger_1.Level.WARN);
+                                }
+                            }
+                            return result;
+                        });
+                        const visitedUrls = new Set();
+                        const crawlResults = [];
+                        const crawlQueue = [];
+                        const normalizedBaseUrl = normalizeUrl(baseUrl);
+                        visitedUrls.add(normalizedBaseUrl);
+                        crawlQueue.push({ url: baseUrl, depth: 0 });
+                        this.log(`Starting breadth-first crawl with maxDepth: ${crawlConfig.maxDepth}, limit: ${crawlConfig.limit}`, logger_1.Level.LOG);
                         if (crawlConfig.useSitemap) {
                             this.log('Fetching sitemap URLs...', logger_1.Level.LOG);
                             try {
                                 const sitemapUrl = `${parsedBase.protocol}//${parsedBase.host}/sitemap.xml`;
-                                // Use XMLHttpRequest instead of fetch to avoid polyfills
                                 const sitemapUrls = yield page.evaluate((url) => {
                                     return new Promise((resolve) => {
                                         const xhr = new XMLHttpRequest();
@@ -721,7 +1013,13 @@ class Interpreter extends events_1.EventEmitter {
                                 if (sitemapUrls.length > 0) {
                                     const nestedSitemaps = sitemapUrls.filter(url => url.endsWith('/sitemap') || url.endsWith('sitemap.xml') || url.includes('/sitemap/'));
                                     const regularUrls = sitemapUrls.filter(url => !url.endsWith('/sitemap') && !url.endsWith('sitemap.xml') && !url.includes('/sitemap/'));
-                                    discoveredUrls.push(...regularUrls);
+                                    for (const sitemapPageUrl of regularUrls) {
+                                        const normalized = normalizeUrl(sitemapPageUrl);
+                                        if (!visitedUrls.has(normalized) && isUrlAllowedByConfig(sitemapPageUrl) && isUrlAllowedByRobots(sitemapPageUrl)) {
+                                            visitedUrls.add(normalized);
+                                            crawlQueue.push({ url: sitemapPageUrl, depth: 1 });
+                                        }
+                                    }
                                     this.log(`Found ${regularUrls.length} regular URLs from main sitemap`, logger_1.Level.LOG);
                                     for (const nestedUrl of nestedSitemaps.slice(0, 10)) {
                                         try {
@@ -747,16 +1045,20 @@ class Interpreter extends events_1.EventEmitter {
                                                     xhr.send();
                                                 });
                                             }, nestedUrl);
-                                            if (nestedUrls.length > 0) {
-                                                discoveredUrls.push(...nestedUrls);
-                                                this.log(`Found ${nestedUrls.length} URLs from nested sitemap ${nestedUrl}`, logger_1.Level.LOG);
+                                            for (const nestedPageUrl of nestedUrls) {
+                                                const normalized = normalizeUrl(nestedPageUrl);
+                                                if (!visitedUrls.has(normalized) && isUrlAllowedByConfig(nestedPageUrl) && isUrlAllowedByRobots(nestedPageUrl)) {
+                                                    visitedUrls.add(normalized);
+                                                    crawlQueue.push({ url: nestedPageUrl, depth: 1 });
+                                                }
                                             }
+                                            this.log(`Found ${nestedUrls.length} URLs from nested sitemap ${nestedUrl}`, logger_1.Level.LOG);
                                         }
                                         catch (error) {
                                             this.log(`Failed to fetch nested sitemap ${nestedUrl}: ${error.message}`, logger_1.Level.WARN);
                                         }
                                     }
-                                    this.log(`Total URLs from all sitemaps: ${discoveredUrls.length}`, logger_1.Level.LOG);
+                                    this.log(`Total URLs queued from sitemaps: ${crawlQueue.length - 1}`, logger_1.Level.LOG);
                                 }
                                 else {
                                     this.log('No URLs found in sitemap or sitemap not available', logger_1.Level.WARN);
@@ -766,167 +1068,76 @@ class Interpreter extends events_1.EventEmitter {
                                 this.log(`Sitemap fetch failed: ${error.message}`, logger_1.Level.WARN);
                             }
                         }
-                        if (crawlConfig.followLinks) {
-                            this.log('Extracting links from current page...', logger_1.Level.LOG);
-                            try {
-                                yield page.waitForLoadState('load', { timeout: 15000 }).catch(() => { });
-                                yield page.waitForLoadState('networkidle', { timeout: 10000 }).catch(() => {
-                                    this.log('Network did not become idle, continuing anyway', logger_1.Level.WARN);
-                                });
-                                yield new Promise(resolve => setTimeout(resolve, 5000));
-                                const anchorCount = yield page.evaluate(() => {
-                                    return document.querySelectorAll('a').length;
-                                });
-                                this.log(`Page has ${anchorCount} total anchor tags`, logger_1.Level.LOG);
-                                const pageLinks = yield page.evaluate(() => {
-                                    const links = [];
-                                    const allAnchors = document.querySelectorAll('a');
-                                    console.log('Total anchors found:', allAnchors.length);
-                                    for (let i = 0; i < allAnchors.length; i++) {
-                                        const anchor = allAnchors[i];
-                                        const href = anchor.getAttribute('href');
-                                        const fullHref = anchor.href;
-                                        if (fullHref && (fullHref.startsWith('http://') || fullHref.startsWith('https://'))) {
-                                            links.push(fullHref);
-                                        }
-                                    }
-                                    console.log('Links extracted:', links.length);
-                                    return links;
-                                });
-                                discoveredUrls.push(...pageLinks);
-                                this.log(`Found ${pageLinks.length} links from page`, logger_1.Level.LOG);
-                            }
-                            catch (error) {
-                                this.log(`Link extraction failed: ${error.message}`, logger_1.Level.WARN);
+                        let processedCount = 0;
+                        while (crawlQueue.length > 0 && crawlResults.length < crawlConfig.limit) {
+                            if (this.isAborted) {
+                                this.log('Workflow aborted during crawl', logger_1.Level.WARN);
+                                break;
                             }
-                        }
-                        const filteredUrls = discoveredUrls.filter(url => {
+                            const { url, depth } = crawlQueue.shift();
+                            processedCount++;
+                            this.log(`[${crawlResults.length + 1}/${crawlConfig.limit}] Crawling (depth ${depth}): ${url}`, logger_1.Level.LOG);
                             try {
-                                const urlObj = new URL(url);
-                                if (crawlConfig.mode === 'domain') {
-                                    if (urlObj.hostname !== baseDomain)
-                                        return false;
+                                if (robotRules.crawlDelay && crawlResults.length > 0) {
+                                    this.log(`Applying crawl delay: ${robotRules.crawlDelay}ms`, logger_1.Level.LOG);
+                                    yield new Promise(resolve => setTimeout(resolve, robotRules.crawlDelay));
                                 }
-                                else if (crawlConfig.mode === 'subdomain') {
-                                    if (!urlObj.hostname.endsWith(baseDomain) && urlObj.hostname !== baseDomain)
-                                        return false;
-                                }
-                                else if (crawlConfig.mode === 'path') {
-                                    if (urlObj.hostname !== baseDomain || !urlObj.pathname.startsWith(parsedBase.pathname))
-                                        return false;
-                                }
-                                if (crawlConfig.includePaths && crawlConfig.includePaths.length > 0) {
-                                    const matches = crawlConfig.includePaths.some(pattern => {
-                                        const regex = new RegExp(pattern);
-                                        return regex.test(url);
-                                    });
-                                    if (!matches)
-                                        return false;
-                                }
-                                if (crawlConfig.excludePaths && crawlConfig.excludePaths.length > 0) {
-                                    const matches = crawlConfig.excludePaths.some(pattern => {
-                                        const regex = new RegExp(pattern);
-                                        return regex.test(url);
-                                    });
-                                    if (matches)
-                                        return false;
-                                }
-                                return true;
-                            }
-                            catch (error) {
-                                return false;
-                            }
-                        });
-                        const uniqueUrls = Array.from(new Set(filteredUrls.map(url => {
-                            return url.replace(/#.*$/, '').replace(/\/$/, '');
-                        })));
-                        const basePathname = parsedBase.pathname;
-                        const prioritizedUrls = uniqueUrls.sort((a, b) => {
-                            try {
-                                const aUrl = new URL(a);
-                                const bUrl = new URL(b);
-                                const aMatchesBase = aUrl.pathname.startsWith(basePathname);
-                                const bMatchesBase = bUrl.pathname.startsWith(basePathname);
-                                if (aMatchesBase && !bMatchesBase)
-                                    return -1;
-                                if (!aMatchesBase && bMatchesBase)
-                                    return 1;
-                                return 0;
-                            }
-                            catch (error) {
-                                return 0;
-                            }
-                        });
-                        const finalUrls = prioritizedUrls.slice(0, crawlConfig.limit);
-                        this.log(`Crawl discovered ${finalUrls.length} URLs (from ${discoveredUrls.length} total)`, logger_1.Level.LOG);
-                        this.log(`Starting to scrape content from ${finalUrls.length} discovered URLs...`, logger_1.Level.LOG);
-                        const crawlResults = [];
-                        for (let i = 0; i < finalUrls.length; i++) {
-                            const url = finalUrls[i];
-                            try {
-                                this.log(`[${i + 1}/${finalUrls.length}] Scraping: ${url}`, logger_1.Level.LOG);
                                 yield page.goto(url, {
-                                    waitUntil: 'domcontentloaded',
-                                    timeout: 30000
-                                }).catch(() => {
-                                    this.log(`Failed to navigate to ${url}, skipping...`, logger_1.Level.WARN);
-                                });
-                                yield page.waitForLoadState('load', { timeout: 10000 }).catch(() => { });
-                                const pageData = yield page.evaluate(() => {
-                                    var _a, _b;
-                                    const getMeta = (name) => {
-                                        const meta = document.querySelector(`meta[name="${name}"], meta[property="${name}"]`);
-                                        return (meta === null || meta === void 0 ? void 0 : meta.getAttribute('content')) || '';
-                                    };
-                                    const getAllMeta = () => {
-                                        const metadata = {};
-                                        const metaTags = document.querySelectorAll('meta');
-                                        metaTags.forEach(tag => {
-                                            const name = tag.getAttribute('name') || tag.getAttribute('property');
-                                            const content = tag.getAttribute('content');
-                                            if (name && content) {
-                                                metadata[name] = content;
-                                            }
-                                        });
-                                        return metadata;
-                                    };
-                                    const title = document.title || '';
-                                    const bodyText = ((_a = document.body) === null || _a === void 0 ? void 0 : _a.innerText) || '';
-                                    const elementsWithMxId = document.querySelectorAll('[data-mx-id]');
-                                    elementsWithMxId.forEach(el => el.removeAttribute('data-mx-id'));
-                                    const html = document.documentElement.outerHTML;
-                                    const links = Array.from(document.querySelectorAll('a')).map(a => a.href);
-                                    const allMetadata = getAllMeta();
-                                    return {
-                                        title,
-                                        description: getMeta('description'),
-                                        text: bodyText,
-                                        html: html,
-                                        links: links,
-                                        wordCount: bodyText.split(/\s+/).filter(w => w.length > 0).length,
-                                        metadata: Object.assign(Object.assign({}, allMetadata), { title, language: document.documentElement.lang || '', favicon: ((_b = document.querySelector('link[rel="icon"], link[rel="shortcut icon"]')) === null || _b === void 0 ? void 0 : _b.href) || '', statusCode: 200 })
-                                    };
+                                    waitUntil: 'load',
+                                    timeout: 60000
+                                }).catch((err) => {
+                                    throw new Error(`Navigation failed: ${err.message}`);
                                 });
-                                crawlResults.push({
-                                    metadata: Object.assign(Object.assign({}, pageData.metadata), { url: url, sourceURL: url }),
-                                    html: pageData.html,
-                                    text: pageData.text,
-                                    links: pageData.links,
-                                    wordCount: pageData.wordCount,
-                                    scrapedAt: new Date().toISOString()
+                                yield page.waitForLoadState('networkidle', { timeout: 15000 }).catch(() => { });
+                                const pageResult = yield scrapePageContent(url);
+                                pageResult.metadata.depth = depth;
+                                crawlResults.push(pageResult);
+                                const actionType = "crawl";
+                                const actionName = "Crawl Results";
+                                if (!this.serializableDataByType[actionType]) {
+                                    this.serializableDataByType[actionType] = {};
+                                }
+                                this.serializableDataByType[actionType][actionName] = [...crawlResults];
+                                yield this.options.serializableCallback({
+                                    crawl: this.serializableDataByType.crawl
                                 });
-                                this.log(`✓ Scraped ${url} (${pageData.wordCount} words)`, logger_1.Level.LOG);
+                                if (this.isAborted) {
+                                    this.log(`Run aborted after scraping ${url}, stopping crawl`, logger_1.Level.WARN);
+                                    break;
+                                }
+                                this.log(`✓ Scraped ${url} (${pageResult.wordCount} words, depth ${depth})`, logger_1.Level.LOG);
+                                if (crawlConfig.followLinks && depth < crawlConfig.maxDepth) {
+                                    const newLinks = yield extractLinksFromPage();
+                                    let addedCount = 0;
+                                    for (const link of newLinks) {
+                                        const normalized = normalizeUrl(link);
+                                        if (!visitedUrls.has(normalized) &&
+                                            isUrlAllowedByConfig(link) &&
+                                            isUrlAllowedByRobots(link)) {
+                                            visitedUrls.add(normalized);
+                                            crawlQueue.push({ url: link, depth: depth + 1 });
+                                            addedCount++;
+                                        }
+                                    }
+                                    if (addedCount > 0) {
+                                        this.log(`Added ${addedCount} new URLs to queue at depth ${depth + 1}`, logger_1.Level.LOG);
+                                    }
+                                }
                             }
                             catch (error) {
-                                this.log(`Failed to scrape ${url}: ${error.message}`, logger_1.Level.WARN);
+                                this.log(`Failed to crawl ${url}: ${error.message}`, logger_1.Level.WARN);
                                 crawlResults.push({
-                                    url: url,
+                                    metadata: {
+                                        url: url,
+                                        sourceURL: url,
+                                        depth: depth
+                                    },
                                     error: error.message,
                                     scrapedAt: new Date().toISOString()
                                 });
                             }
                         }
-                        this.log(`Successfully scraped ${crawlResults.length} pages`, logger_1.Level.LOG);
+                        this.log(`Crawl completed: ${crawlResults.length} pages scraped (${processedCount} URLs processed, ${visitedUrls.size} URLs discovered)`, logger_1.Level.LOG);
                         const actionType = "crawl";
                         const actionName = "Crawl Results";
                         if (!this.serializableDataByType[actionType]) {
@@ -1157,6 +1368,7 @@ class Interpreter extends events_1.EventEmitter {
                                 filters: searchConfig.filters || {},
                                 resultsCount: searchResults.length,
                                 results: searchResults,
+                                mode: searchConfig.mode,
                                 searchedAt: new Date().toISOString()
                             };
                             this.serializableDataByType[actionType][actionName] = searchData;
@@ -1172,16 +1384,25 @@ class Interpreter extends events_1.EventEmitter {
                         this.log(`Starting to scrape content from ${searchResults.length} search results...`, logger_1.Level.LOG);
                         const scrapedResults = [];
                         for (let i = 0; i < searchResults.length; i++) {
+                            if (this.isAborted) {
+                                this.log(`Run aborted, stopping search scraping at result ${i + 1}/${searchResults.length}`, logger_1.Level.WARN);
+                                break;
+                            }
                             const result = searchResults[i];
                             try {
                                 this.log(`[${i + 1}/${searchResults.length}] Scraping: ${result.url}`, logger_1.Level.LOG);
+                                let navigationFailed = false;
                                 yield page.goto(result.url, {
-                                    waitUntil: 'domcontentloaded',
-                                    timeout: 30000
+                                    waitUntil: 'load',
+                                    timeout: 60000
                                 }).catch(() => {
                                     this.log(`Failed to navigate to ${result.url}, skipping...`, logger_1.Level.WARN);
+                                    navigationFailed = true;
                                 });
-                                yield page.waitForLoadState('load', { timeout: 10000 }).catch(() => { });
+                                if (navigationFailed) {
+                                    continue;
+                                }
+                                yield page.waitForLoadState('networkidle', { timeout: 15000 }).catch(() => { });
                                 const pageData = yield page.evaluate(() => {
                                     var _a, _b;
                                     const getMeta = (name) => {
@@ -1217,7 +1438,7 @@ class Interpreter extends events_1.EventEmitter {
                                         metadata: Object.assign(Object.assign({}, allMetadata), { title, language: document.documentElement.lang || '', favicon: ((_b = document.querySelector('link[rel="icon"], link[rel="shortcut icon"]')) === null || _b === void 0 ? void 0 : _b.href) || '', statusCode: 200 })
                                     };
                                 });
-                                scrapedResults.push({
+                                const scrapedResult = {
                                     searchResult: {
                                         query: searchConfig.query,
                                         position: result.position,
@@ -1225,12 +1446,79 @@ class Interpreter extends events_1.EventEmitter {
                                         searchDescription: result.description,
                                     },
                                     metadata: Object.assign(Object.assign({}, pageData.metadata), { url: result.url, sourceURL: result.url }),
-                                    html: pageData.html,
-                                    text: pageData.text,
-                                    links: pageData.links,
-                                    wordCount: pageData.wordCount,
                                     scrapedAt: new Date().toISOString()
+                                };
+                                const formats = searchConfig.outputFormats || [];
+                                if (formats.includes('text')) {
+                                    scrapedResult.text = pageData.text;
+                                    scrapedResult.wordCount = pageData.wordCount;
+                                }
+                                if (formats.includes('html')) {
+                                    scrapedResult.html = pageData.html;
+                                    scrapedResult.links = pageData.links;
+                                }
+                                if (formats.includes('markdown')) {
+                                    try {
+                                        const markdown = yield (0, markdown_1.parseMarkdown)(pageData.html, result.url);
+                                        scrapedResult.markdown = markdown;
+                                    }
+                                    catch (err) {
+                                        this.log(`Markdown conversion failed for ${result.url}: ${err.message}`, logger_1.Level.WARN);
+                                        scrapedResult.markdown = '';
+                                    }
+                                }
+                                if (formats.includes('screenshot-visible')) {
+                                    try {
+                                        const screenshotBuffer = yield page.screenshot({ fullPage: false });
+                                        const screenshotName = `Search - ${i} - Visible`;
+                                        yield this.options.binaryCallback({
+                                            name: screenshotName,
+                                            data: screenshotBuffer,
+                                            mimeType: 'image/png'
+                                        }, 'image/png');
+                                        scrapedResult.screenshotVisible = screenshotName;
+                                    }
+                                    catch (err) {
+                                        this.log(`Screenshot-visible failed for ${result.url}: ${err.message}`, logger_1.Level.WARN);
+                                    }
+                                }
+                                if (formats.includes('screenshot-fullpage')) {
+                                    try {
+                                        const screenshotBuffer = yield page.screenshot({ fullPage: true });
+                                        const screenshotName = `Search - ${i} - Full Page`;
+                                        yield this.options.binaryCallback({
+                                            name: screenshotName,
+                                            data: screenshotBuffer,
+                                            mimeType: 'image/png'
+                                        }, 'image/png');
+                                        scrapedResult.screenshotFullpage = screenshotName;
+                                    }
+                                    catch (err) {
+                                        this.log(`Screenshot-fullpage failed for ${result.url}: ${err.message}`, logger_1.Level.WARN);
+                                    }
+                                }
+                                scrapedResults.push(scrapedResult);
+                                const actionType = "search";
+                                const actionName = "Search Results";
+                                if (!this.serializableDataByType[actionType]) {
+                                    this.serializableDataByType[actionType] = {};
+                                }
+                                this.serializableDataByType[actionType][actionName] = {
+                                    query: searchConfig.query,
+                                    provider: searchConfig.provider,
+                                    filters: searchConfig.filters || {},
+                                    resultsCount: scrapedResults.length,
+                                    results: scrapedResults,
+                                    mode: searchConfig.mode,
+                                    searchedAt: new Date().toISOString()
+                                };
+                                yield this.options.serializableCallback({
+                                    search: this.serializableDataByType.search
                                 });
+                                if (this.isAborted) {
+                                    this.log(`Run aborted after scraping ${result.url}, stopping search`, logger_1.Level.WARN);
+                                    break;
+                                }
                                 this.log(`✓ Scraped ${result.url} (${pageData.wordCount} words)`, logger_1.Level.LOG);
                             }
                             catch (error) {

package/build/utils/markdown.d.ts ADDED Viewed

	@@ -0,0 +1 @@
1	+ export declare function parseMarkdown(html: string \| null \| undefined, baseUrl?: string \| null): Promise<string>;

package/build/utils/markdown.js ADDED Viewed

@@ -0,0 +1,153 @@
+"use strict";
+var __awaiter = (this && this.__awaiter) || function (thisArg, _arguments, P, generator) {
+    function adopt(value) { return value instanceof P ? value : new P(function (resolve) { resolve(value); }); }
+    return new (P || (P = Promise))(function (resolve, reject) {
+        function fulfilled(value) { try { step(generator.next(value)); } catch (e) { reject(e); } }
+        function rejected(value) { try { step(generator["throw"](value)); } catch (e) { reject(e); } }
+        function step(result) { result.done ? resolve(result.value) : adopt(result.value).then(fulfilled, rejected); }
+        step((generator = generator.apply(thisArg, _arguments || [])).next());
+    });
+};
+Object.defineProperty(exports, "__esModule", { value: true });
+exports.parseMarkdown = parseMarkdown;
+function parseMarkdown(html, baseUrl) {
+    return __awaiter(this, void 0, void 0, function* () {
+        const TurndownService = require("turndown");
+        const { gfm } = require("joplin-turndown-plugin-gfm");
+        const cheerio = require("cheerio");
+        const { URL } = require("url");
+        if (!html)
+            return "";
+        const tidiedHtml = tidyHtml(html);
+        const t = new TurndownService({
+            headingStyle: "atx", // ensures #### instead of ------
+            codeBlockStyle: "fenced",
+        });
+        // ---------------------------------------------
+        // Proper ATX headings #### instead of underline-style
+        // ---------------------------------------------
+        t.addRule("forceAtxHeadings", {
+            filter: ["h1", "h2", "h3", "h4", "h5", "h6"],
+            replacement: (content, node) => {
+                const level = Number(node.nodeName.charAt(1));
+                const clean = content.trim();
+                return `\n${"#".repeat(level)} ${clean}\n`;
+            },
+        });
+        // ---------------------------------------------
+        // Remove SVGs
+        // ---------------------------------------------
+        t.addRule("truncate-svg", {
+            filter: "svg",
+            replacement: () => "",
+        });
+        // ---------------------------------------------
+        // Improved paragraph cleanup
+        // ---------------------------------------------
+        t.addRule("improved-paragraph", {
+            filter: "p",
+            replacement: (innerText) => {
+                const trimmed = innerText.trim();
+                if (!trimmed)
+                    return "";
+                return `${trimmed.replace(/\n{3,}/g, "\n\n")}\n\n`;
+            },
+        });
+        // ---------------------------------------------
+        // Inline link with fallback text
+        // ---------------------------------------------
+        t.addRule("inlineLink", {
+            filter: (node, opts) => node.nodeName === "A" && node.getAttribute("href"),
+            replacement: (content, node) => {
+                var _a, _b;
+                let text = content.trim();
+                // Fallback: aria-label → title → domain
+                if (!text) {
+                    text =
+                        ((_a = node.getAttribute("aria-label")) === null || _a === void 0 ? void 0 : _a.trim()) ||
+                            ((_b = node.getAttribute("title")) === null || _b === void 0 ? void 0 : _b.trim()) ||
+                            getDomainFromUrl(node.getAttribute("href")) ||
+                            "link";
+                }
+                let href = node.getAttribute("href").trim();
+                // relative → absolute
+                if (baseUrl && isRelativeUrl(href)) {
+                    try {
+                        const u = new URL(href, baseUrl);
+                        href = u.toString();
+                    }
+                    catch (_c) { }
+                }
+                href = cleanUrl(href);
+                return `[${text}](${href})`;
+            },
+        });
+        t.use(gfm);
+        // Convert HTML → Markdown
+        try {
+            let out = yield t.turndown(tidiedHtml);
+            out = fixBrokenLinks(out);
+            out = stripSkipLinks(out);
+            return out.trim();
+        }
+        catch (err) {
+            console.error("HTML→Markdown failed", { err });
+            return "";
+        }
+    });
+}
+// -----------------------------------------------------
+// Helpers
+// -----------------------------------------------------
+function isRelativeUrl(url) {
+    return !url.includes("://") && !url.startsWith("mailto:") && !url.startsWith("tel:");
+}
+function getDomainFromUrl(url) {
+    try {
+        const u = new URL(url);
+        return u.hostname.replace("www.", "");
+    }
+    catch (_a) {
+        return null;
+    }
+}
+function cleanUrl(u) {
+    return u;
+}
+function cleanAttribute(attr) {
+    return attr ? attr.replace(/(\n+\s*)+/g, "\n") : "";
+}
+function tidyHtml(html) {
+    const cheerio = require("cheerio");
+    const $ = cheerio.load(html);
+    const manuallyCleanedElements = [
+        "script",
+        "style",
+        "iframe",
+        "noscript",
+        "meta",
+        "link",
+        "object",
+        "embed",
+        "canvas",
+        "audio",
+        "video",
+    ];
+    manuallyCleanedElements.forEach((tag) => $(tag).remove());
+    return $("body").html();
+}
+function fixBrokenLinks(md) {
+    let depth = 0;
+    let result = "";
+    for (const ch of md) {
+        if (ch === "[")
+            depth++;
+        if (ch === "]")
+            depth = Math.max(0, depth - 1);
+        result += depth > 0 && ch === "\n" ? "\\\n" : ch;
+    }
+    return result;
+}
+function stripSkipLinks(md) {
+    return md.replace(/\[Skip to Content\]\(#[^\)]*\)/gi, "");
+}

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "mx-cloud",
-  "version": "0.0.27",
+  "version": "0.0.30",
   "description": "mx cloud",
   "main": "build/index.js",
   "typings": "build/index.d.ts",
@@ -17,9 +17,16 @@
   "license": "AGPL-3.0-or-later",
   "dependencies": {
     "@cliqz/adblocker-playwright": "^1.31.3",
+    "cheerio": "^1.1.2",
     "cross-fetch": "^4.0.0",
     "joi": "^17.6.0",
+    "joplin-turndown-plugin-gfm": "^1.0.12",
     "nodemailer": "^6.10.0",
-    "playwright-core": "^1.57.0"
+    "playwright-core": "^1.57.0",
+    "rimraf": "^6.1.2",
+    "turndown": "^7.2.0"
+  },
+  "devDependencies": {
+    "@types/turndown": "^5.0.6"
   }
 }