npm - @intuned/browser-dev - Versions diffs - 2.2.3-test-build.0 - Mend

@intuned/browser-dev 2.2.3-test-build.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (206) hide show

package/.babelrc +21 -0
package/.eslintignore +10 -0
package/.eslintrc.js +39 -0
package/LICENSE +43 -0
package/dist/ai/export.d.js +5 -0
package/dist/ai/export.d.ts +641 -0
package/dist/ai/extractStructuredData.js +320 -0
package/dist/ai/extractStructuredDataUsingAi.js +139 -0
package/dist/ai/extractionHelpers/screenshotHelpers.js +56 -0
package/dist/ai/extractionHelpers/validateSchema.js +148 -0
package/dist/ai/index.d.ts +641 -0
package/dist/ai/index.js +19 -0
package/dist/ai/isPageLoaded.js +77 -0
package/dist/ai/prompt.js +39 -0
package/dist/ai/tests/testCheckAllTypesAreStrings.spec.js +137 -0
package/dist/ai/tests/testExtractFromContent.spec.js +372 -0
package/dist/ai/tests/testExtractStructuredData.spec.js +646 -0
package/dist/ai/tests/testIsPageLoaded.spec.js +277 -0
package/dist/ai/tools/index.js +48 -0
package/dist/ai/types/errors.js +67 -0
package/dist/ai/types/models.js +45 -0
package/dist/ai/types/types.js +48 -0
package/dist/ai/validators.js +167 -0
package/dist/common/Logger/index.js +60 -0
package/dist/common/Logger/types.js +5 -0
package/dist/common/SdkError.js +50 -0
package/dist/common/aiModelsValidations.js +32 -0
package/dist/common/browser_scripts.js +2596 -0
package/dist/common/ensureBrowserScripts.js +18 -0
package/dist/common/extendedTest.js +148 -0
package/dist/common/extractionHelpers.js +19 -0
package/dist/common/formatZodError.js +18 -0
package/dist/common/fuzzySearch/fuzzySearch.test.js +250 -0
package/dist/common/fuzzySearch/levenshtein-search.js +298 -0
package/dist/common/fuzzySearch/utils.js +23 -0
package/dist/common/getModelProvider.js +18 -0
package/dist/common/getSimplifiedHtml.js +122 -0
package/dist/common/hashObject.js +32 -0
package/dist/common/html2markdown/convertElementToMarkdown.js +469 -0
package/dist/common/html2markdown/index.js +19 -0
package/dist/common/jwtTokenManager.js +18 -0
package/dist/common/loadRuntime.js +16 -0
package/dist/common/locatorHelpers.js +41 -0
package/dist/common/matching/collectStrings.js +32 -0
package/dist/common/matching/levenshtein.js +40 -0
package/dist/common/matching/matching.js +317 -0
package/dist/common/matching/types.js +1 -0
package/dist/common/noEmpty.js +9 -0
package/dist/common/saveSnapshotWithExamples.js +60 -0
package/dist/common/tests/testEnsureBrowserScript.spec.js +31 -0
package/dist/common/xpathMapping.js +107 -0
package/dist/helpers/clickUntilExhausted.js +85 -0
package/dist/helpers/downloadFile.js +125 -0
package/dist/helpers/export.d.js +5 -0
package/dist/helpers/export.d.ts +1220 -0
package/dist/helpers/extractMarkdown.js +35 -0
package/dist/helpers/filterEmptyValues.js +54 -0
package/dist/helpers/gotoUrl.js +98 -0
package/dist/helpers/index.d.ts +1220 -0
package/dist/helpers/index.js +128 -0
package/dist/helpers/processDate.js +25 -0
package/dist/helpers/resolveUrl.js +64 -0
package/dist/helpers/sanitizeHtml.js +74 -0
package/dist/helpers/saveFileToS3.js +50 -0
package/dist/helpers/scrollToLoadContent.js +57 -0
package/dist/helpers/tests/extendedTest.js +130 -0
package/dist/helpers/tests/testClickUntilExhausted.spec.js +387 -0
package/dist/helpers/tests/testDownloadFile.spec.js +204 -0
package/dist/helpers/tests/testExtractMarkdown.spec.js +290 -0
package/dist/helpers/tests/testFilterEmptyValues.spec.js +151 -0
package/dist/helpers/tests/testGoToUrl.spec.js +37 -0
package/dist/helpers/tests/testProcessDate.spec.js +13 -0
package/dist/helpers/tests/testResolveUrl.spec.js +341 -0
package/dist/helpers/tests/testSanitizeHtml.spec.js +330 -0
package/dist/helpers/tests/testScrollToLoadContent.spec.js +163 -0
package/dist/helpers/tests/testValidateDataUsingSchema.spec.js +342 -0
package/dist/helpers/tests/testWithDomSettledWait.spec.js +164 -0
package/dist/helpers/tests/testWithNetworkIdleWait.spec.js +114 -0
package/dist/helpers/types/Attachment.js +115 -0
package/dist/helpers/types/CustomTypeRegistry.js +48 -0
package/dist/helpers/types/RunEnvironment.js +18 -0
package/dist/helpers/types/ValidationError.js +17 -0
package/dist/helpers/types/index.js +51 -0
package/dist/helpers/uploadFileToS3.js +154 -0
package/dist/helpers/utils/getS3Client.js +22 -0
package/dist/helpers/utils/index.js +73 -0
package/dist/helpers/utils/isDownload.js +10 -0
package/dist/helpers/utils/isGenerateCodeMode.js +9 -0
package/dist/helpers/utils/isLocator.js +9 -0
package/dist/helpers/utils/jwtTokenManager.js +18 -0
package/dist/helpers/validateDataUsingSchema.js +103 -0
package/dist/helpers/waitForDomSettled.js +90 -0
package/dist/helpers/withNetworkSettledWait.js +91 -0
package/dist/index.d.js +16 -0
package/dist/index.d.ts +10 -0
package/dist/index.js +16 -0
package/dist/intunedServices/ApiGateway/aiApiGateway.js +99 -0
package/dist/intunedServices/ApiGateway/factory.js +13 -0
package/dist/intunedServices/ApiGateway/providers/Anthropic.js +26 -0
package/dist/intunedServices/ApiGateway/providers/Gemini.js +29 -0
package/dist/intunedServices/ApiGateway/providers/OpenAI.js +29 -0
package/dist/intunedServices/ApiGateway/tests/testApiGateway.spec.js +224 -0
package/dist/intunedServices/ApiGateway/types.js +11 -0
package/dist/intunedServices/cache/cache.js +61 -0
package/dist/intunedServices/cache/index.js +12 -0
package/dist/intunedServices/cache/tests/testCache.spec.js +117 -0
package/dist/optimized-extractors/common/buildExamplesPrompt.js +12 -0
package/dist/optimized-extractors/common/buildImagesFromPage.js +55 -0
package/dist/optimized-extractors/common/extractStructuredDataUsingClaude.js +135 -0
package/dist/optimized-extractors/common/extractStructuredDataUsingGoogle.js +37 -0
package/dist/optimized-extractors/common/extractStructuredDataUsingOpenAi.js +132 -0
package/dist/optimized-extractors/common/extractStrucutredDataUsingAiInstance.js +122 -0
package/dist/optimized-extractors/common/findTableHeaders.js +162 -0
package/dist/optimized-extractors/common/index.js +55 -0
package/dist/optimized-extractors/common/isTableHeaderOrFooter.js +84 -0
package/dist/optimized-extractors/common/matching/matching.js +212 -0
package/dist/optimized-extractors/common/matching/matching.test.js +655 -0
package/dist/optimized-extractors/common/matching/types.js +18 -0
package/dist/optimized-extractors/common/matching/utils.js +184 -0
package/dist/optimized-extractors/common/utils.js +58 -0
package/dist/optimized-extractors/export.d.js +5 -0
package/dist/optimized-extractors/export.d.ts +397 -0
package/dist/optimized-extractors/extractArray.js +120 -0
package/dist/optimized-extractors/extractObject.js +104 -0
package/dist/optimized-extractors/index.d.ts +397 -0
package/dist/optimized-extractors/index.js +31 -0
package/dist/optimized-extractors/listExtractionHelpers/__tests__/dynamicListExtractor.spec.js +312 -0
package/dist/optimized-extractors/listExtractionHelpers/__tests__/findSetOfXpathsToCreateAnArrayExtractor.test.js +22 -0
package/dist/optimized-extractors/listExtractionHelpers/__tests__/getContainerElement.test.js +21 -0
package/dist/optimized-extractors/listExtractionHelpers/__tests__/partOfSameArrayXpath.test.js +42 -0
package/dist/optimized-extractors/listExtractionHelpers/__tests__/verifyThatAllXpathsArePartOfSameArray.test.js +9 -0
package/dist/optimized-extractors/listExtractionHelpers/dynamicListExtractor.js +152 -0
package/dist/optimized-extractors/listExtractionHelpers/errors.js +46 -0
package/dist/optimized-extractors/listExtractionHelpers/getListMatches.js +14 -0
package/dist/optimized-extractors/listExtractionHelpers/runAiExtraction.js +240 -0
package/dist/optimized-extractors/listExtractionHelpers/typesAndSchema.js +5 -0
package/dist/optimized-extractors/listExtractionHelpers/utils/extractPropertiesUsingGPTFromArray.js +277 -0
package/dist/optimized-extractors/listExtractionHelpers/utils/extractStructuredListUsingAi.js +44 -0
package/dist/optimized-extractors/listExtractionHelpers/utils/getListContainerXpath.js +94 -0
package/dist/optimized-extractors/listExtractionHelpers/utils/getRelativeContainerXpathSelector.js +20 -0
package/dist/optimized-extractors/listExtractionHelpers/utils/getSimplifiedHtmlPerListItem.js +21 -0
package/dist/optimized-extractors/listExtractionHelpers/utils/tablesUtils.js +48 -0
package/dist/optimized-extractors/listExtractionHelpers/utils/validateOptions.js +52 -0
package/dist/optimized-extractors/models/anthropicModel.js +23 -0
package/dist/optimized-extractors/models/openaiModel.js +23 -0
package/dist/optimized-extractors/objectExtractionHelpers/AIExtractors.js +73 -0
package/dist/optimized-extractors/objectExtractionHelpers/__tests__/checksumUtils.test.js +103 -0
package/dist/optimized-extractors/objectExtractionHelpers/__tests__/testObjectExtractorFromLocator.spec.js +107 -0
package/dist/optimized-extractors/objectExtractionHelpers/__tests__/testObjectExtractorFromPage.spec.js +107 -0
package/dist/optimized-extractors/objectExtractionHelpers/calculateObjectExampleHash.js +28 -0
package/dist/optimized-extractors/objectExtractionHelpers/captureSnapshot.js +26 -0
package/dist/optimized-extractors/objectExtractionHelpers/checksumUtils.js +32 -0
package/dist/optimized-extractors/objectExtractionHelpers/constants.js +7 -0
package/dist/optimized-extractors/objectExtractionHelpers/dynamicObjectExtractor.js +106 -0
package/dist/optimized-extractors/objectExtractionHelpers/errors.js +42 -0
package/dist/optimized-extractors/objectExtractionHelpers/findDomMatches.js +54 -0
package/dist/optimized-extractors/objectExtractionHelpers/getSimplifiedHtml.js +122 -0
package/dist/optimized-extractors/objectExtractionHelpers/typesAndSchemas.js +5 -0
package/dist/optimized-extractors/objectExtractionHelpers/validateDynamicObjectExtractorOptions.js +52 -0
package/dist/optimized-extractors/types/aiModelsValidation.js +45 -0
package/dist/optimized-extractors/types/errors.js +42 -0
package/dist/optimized-extractors/types/jsonSchema.d.js +5 -0
package/dist/optimized-extractors/types/jsonSchema.d.ts +50 -0
package/dist/optimized-extractors/types/types.js +5 -0
package/dist/optimized-extractors/validators.js +152 -0
package/dist/vite-env.d.js +1 -0
package/dist/vite-env.d.ts +9 -0
package/docs.md +14 -0
package/generated-docs/ai/functions/extractStructuredData.mdx +255 -0
package/generated-docs/ai/functions/isPageLoaded.mdx +88 -0
package/generated-docs/ai/interfaces/ArraySchema.mdx +36 -0
package/generated-docs/ai/interfaces/BasicSchema.mdx +14 -0
package/generated-docs/ai/interfaces/BooleanSchema.mdx +28 -0
package/generated-docs/ai/interfaces/ImageBufferContentItem.mdx +16 -0
package/generated-docs/ai/interfaces/ImageUrlContentItem.mdx +16 -0
package/generated-docs/ai/interfaces/NumberSchema.mdx +35 -0
package/generated-docs/ai/interfaces/ObjectSchema.mdx +39 -0
package/generated-docs/ai/interfaces/StringSchema.mdx +35 -0
package/generated-docs/ai/interfaces/TextContentItem.mdx +14 -0
package/generated-docs/ai/type-aliases/ContentItem.mdx +12 -0
package/generated-docs/ai/type-aliases/JsonSchema.mdx +47 -0
package/generated-docs/ai/type-aliases/SUPPORTED_MODELS.mdx +85 -0
package/generated-docs/helpers/functions/downloadFile.mdx +99 -0
package/generated-docs/helpers/functions/extractMarkdown.mdx +56 -0
package/generated-docs/helpers/functions/filterEmptyValues.mdx +51 -0
package/generated-docs/helpers/functions/goToUrl.mdx +124 -0
package/generated-docs/helpers/functions/processDate.mdx +55 -0
package/generated-docs/helpers/functions/resolveUrl.mdx +165 -0
package/generated-docs/helpers/functions/sanitizeHtml.mdx +113 -0
package/generated-docs/helpers/functions/saveFileToS3.mdx +127 -0
package/generated-docs/helpers/functions/scrollToLoadContent.mdx +89 -0
package/generated-docs/helpers/functions/uploadFileToS3.mdx +121 -0
package/generated-docs/helpers/functions/validateDataUsingSchema.mdx +90 -0
package/generated-docs/helpers/functions/waitForDomSettled.mdx +91 -0
package/generated-docs/helpers/functions/withNetworkSettledWait.mdx +76 -0
package/generated-docs/helpers/interfaces/Attachment.mdx +56 -0
package/generated-docs/helpers/interfaces/S3Configs.mdx +52 -0
package/generated-docs/helpers/interfaces/SanitizeHtmlOptions.mdx +22 -0
package/generated-docs/helpers/type-aliases/AttachmentType.mdx +10 -0
package/generated-docs/helpers/type-aliases/FileType.mdx +61 -0
package/generated-docs/helpers/type-aliases/Trigger.mdx +62 -0
package/how-to-run-tests.md +10 -0
package/intuned-runtime-setup.md +13 -0
package/package.json +119 -0
package/tsconfig.eslint.json +5 -0
package/tsconfig.json +26 -0

package/dist/intunedServices/cache/cache.js ADDED Viewed

@@ -0,0 +1,61 @@
+"use strict";
+Object.defineProperty(exports, "__esModule", {
+  value: true
+});
+exports.cache = void 0;
+var _zod = require("zod");
+var _jwtTokenManager = require("../../common/jwtTokenManager");
+var _Logger = require("../../common/Logger");
+const forbiddenCharacters = /[:#]/g;
+const keySchema = _zod.z.string().min(1, "Key must be at least 1 character long").refine(key => {
+  var _key$match;
+  return (((_key$match = key.match(forbiddenCharacters)) === null || _key$match === void 0 ? void 0 : _key$match.length) ?? 0) === 0;
+}, 'Key cannot contain the following characters: ":" or "#"');
+class Cache {
+  async get(key) {
+    try {
+      const parsedKey = keySchema.parse(key);
+      const response = await (0, _jwtTokenManager.callBackendFunctionWithToken)(`cache/${parsedKey}`, {
+        method: "GET"
+      });
+      const contentType = response.headers.get("content-type");
+      if (!(contentType !== null && contentType !== void 0 && contentType.includes("application/json"))) {
+        const responseText = await response.text();
+        throw new Error(`Server returned ${contentType} instead of JSON. This usually indicates an authentication issue or wrong endpoint. Response: ${responseText.substring(0, 200)}...`);
+      }
+      const json = await response.json();
+      if (!response.ok) {
+        throw new Error(`Failed to get cache value for key ${parsedKey}: ${json.message}`);
+      }
+      return json.value;
+    } catch (error) {
+      throw new Error(`Failed to get cache value for key ${key}: ${error}`);
+    }
+  }
+  async set(key, value) {
+    try {
+      const keyResult = keySchema.parse(key);
+      const response = await (0, _jwtTokenManager.callBackendFunctionWithToken)(`cache/${keyResult}`, {
+        method: "PUT",
+        body: JSON.stringify(value),
+        headers: {
+          "Content-Type": "application/json"
+        }
+      });
+      const contentType = response.headers.get("content-type");
+      if (!(contentType !== null && contentType !== void 0 && contentType.includes("application/json"))) {
+        const responseText = await response.text();
+        _Logger.logger.error(`Expected JSON but got content-type: ${contentType}`);
+        throw new Error(`Server returned ${contentType} instead of JSON. This usually indicates an authentication issue or wrong endpoint. Response: ${responseText.substring(0, 200)}...`);
+      }
+      const json = await response.json();
+      if (!response.ok) {
+        throw new Error(`Failed to set cache value for key ${keyResult}: ${json.message}`);
+      }
+    } catch (error) {
+      throw new Error(`Failed to set cache value for key ${key}: ${error}`);
+    }
+  }
+}
+const cache = exports.cache = new Cache();

package/dist/intunedServices/cache/index.js ADDED Viewed

@@ -0,0 +1,12 @@
+"use strict";
+Object.defineProperty(exports, "__esModule", {
+  value: true
+});
+Object.defineProperty(exports, "cache", {
+  enumerable: true,
+  get: function () {
+    return _cache.cache;
+  }
+});
+var _cache = require("./cache");

package/dist/intunedServices/cache/tests/testCache.spec.js ADDED Viewed

@@ -0,0 +1,117 @@
+"use strict";
+var _extendedTest = require("../../../common/extendedTest");
+var _cache = require("../cache");
+var _vitest = require("vitest");
+var _jwtTokenManager = require("../../../common/jwtTokenManager");
+_vitest.vi.mock("../../../common/jwtTokenManager", () => ({
+  callBackendFunctionWithToken: _vitest.vi.fn()
+}));
+const mockCallBackendFunction = _vitest.vi.mocked(_jwtTokenManager.callBackendFunctionWithToken);
+(0, _extendedTest.describe)("Cache", () => {
+  (0, _extendedTest.beforeEach)(() => {
+    _vitest.vi.clearAllMocks();
+  });
+  (0, _extendedTest.describe)("get", () => {
+    (0, _extendedTest.it)("should return value when successful", async () => {
+      const mockResponse = {
+        ok: true,
+        headers: {
+          get: _vitest.vi.fn().mockReturnValue("application/json")
+        },
+        json: _vitest.vi.fn().mockResolvedValue({
+          value: "cached_data"
+        })
+      };
+      mockCallBackendFunction.mockResolvedValue(mockResponse);
+      const result = await _cache.cache.get("test_key");
+      (0, _extendedTest.expect)(result).toBe("cached_data");
+      (0, _extendedTest.expect)(mockCallBackendFunction).toHaveBeenCalledWith("cache/test_key", {
+        method: "GET"
+      });
+      (0, _extendedTest.expect)(mockResponse.json).toHaveBeenCalled();
+    });
+    (0, _extendedTest.it)("should throw error when response is not ok", async () => {
+      const mockResponse = {
+        ok: false,
+        headers: {
+          get: _vitest.vi.fn().mockReturnValue("application/json")
+        },
+        json: _vitest.vi.fn().mockResolvedValue({
+          message: "Cache miss"
+        })
+      };
+      mockCallBackendFunction.mockResolvedValue(mockResponse);
+      await (0, _extendedTest.expect)(_cache.cache.get("test_key")).rejects.toThrow("Failed to get cache value for key test_key: Cache miss");
+    });
+    (0, _extendedTest.it)("should throw error for empty key", async () => {
+      await (0, _extendedTest.expect)(_cache.cache.get("")).rejects.toThrow("Failed to get cache value for key : [");
+    });
+    (0, _extendedTest.it)("should throw error for key with colon", async () => {
+      await (0, _extendedTest.expect)(_cache.cache.get("invalid:key")).rejects.toThrow("Failed to get cache value for key invalid:key: [");
+    });
+    (0, _extendedTest.it)("should throw error for key with hash", async () => {
+      await (0, _extendedTest.expect)(_cache.cache.get("invalid#key")).rejects.toThrow("Failed to get cache value for key invalid#key: [");
+    });
+  });
+  (0, _extendedTest.describe)("set", () => {
+    (0, _extendedTest.it)("should call backend correctly when successful", async () => {
+      const mockResponse = {
+        ok: true,
+        headers: {
+          get: _vitest.vi.fn().mockReturnValue("application/json")
+        },
+        json: _vitest.vi.fn().mockResolvedValue({})
+      };
+      mockCallBackendFunction.mockResolvedValue(mockResponse);
+      const testValue = {
+        data: "test"
+      };
+      await _cache.cache.set("test_key", testValue);
+      (0, _extendedTest.expect)(mockCallBackendFunction).toHaveBeenCalledWith("cache/test_key", {
+        method: "PUT",
+        body: JSON.stringify(testValue),
+        headers: {
+          "Content-Type": "application/json"
+        }
+      });
+      (0, _extendedTest.expect)(mockResponse.json).toHaveBeenCalled();
+    });
+    (0, _extendedTest.it)("should throw error when response is not ok", async () => {
+      const mockResponse = {
+        ok: false,
+        headers: {
+          get: _vitest.vi.fn().mockReturnValue("application/json")
+        },
+        json: _vitest.vi.fn().mockResolvedValue({
+          message: "Set failed"
+        })
+      };
+      mockCallBackendFunction.mockResolvedValue(mockResponse);
+      await (0, _extendedTest.expect)(_cache.cache.set("test_key", "value")).rejects.toThrow("Failed to set cache value for key test_key: Set failed");
+    });
+    (0, _extendedTest.it)("should throw error for empty key", async () => {
+      await (0, _extendedTest.expect)(_cache.cache.set("", "value")).rejects.toThrow("Failed to set cache value for key : [");
+    });
+    (0, _extendedTest.it)("should throw error for key with forbidden characters", async () => {
+      await (0, _extendedTest.expect)(_cache.cache.set("invalid:key", "value")).rejects.toThrow("Failed to set cache value for key invalid:key: [");
+      await (0, _extendedTest.expect)(_cache.cache.set("invalid#key", "value")).rejects.toThrow("Failed to set cache value for key invalid#key: [");
+    });
+    (0, _extendedTest.it)("should handle different value types", async () => {
+      const mockResponse = {
+        ok: true,
+        headers: {
+          get: _vitest.vi.fn().mockReturnValue("application/json")
+        },
+        json: _vitest.vi.fn().mockResolvedValue({})
+      };
+      mockCallBackendFunction.mockResolvedValue(mockResponse);
+      await _cache.cache.set("key1", "string_value");
+      await _cache.cache.set("key2", {
+        object: "value"
+      });
+      await _cache.cache.set("key3", 123);
+      (0, _extendedTest.expect)(mockCallBackendFunction).toHaveBeenCalledTimes(3);
+    });
+  });
+});

package/dist/optimized-extractors/common/buildExamplesPrompt.js ADDED Viewed

@@ -0,0 +1,12 @@
+"use strict";
+Object.defineProperty(exports, "__esModule", {
+  value: true
+});
+exports.buildExamplesPrompt = buildExamplesPrompt;
+function buildExamplesPrompt({
+  entityName,
+  examples
+}) {
+  return `Ensure your extraction of ` + entityName + ` matches these examples in format and content. Follow these guidelines:` + "\n" + `1. **String Data**: Match the formatting and any transformations applied in the examples. If strings were reformed or parts were removed in the examples, apply the same changes to your extraction,.` + "\n" + `2. **Numerical Data**: Keep numbers in the same format as the examples. Ensure consistency in units, rounding, and notation.` + "\n" + `3. **Date Data**: Align the date format with the examples provided. Maintain the same order, separators, and any additional formatting rules.` + "\n" + `Consistency with these examples is crucial for accurate data extraction:` + "\n" + examples.map((e, index) => `${index}. ` + JSON.stringify(e)).join("\n");
+}

package/dist/optimized-extractors/common/buildImagesFromPage.js ADDED Viewed

@@ -0,0 +1,55 @@
+"use strict";
+Object.defineProperty(exports, "__esModule", {
+  value: true
+});
+exports.buildImagesFromPageOrHandle = buildImagesFromPageOrHandle;
+exports.captureFullPageImagesWithOverlap = captureFullPageImagesWithOverlap;
+var _neverthrow = require("neverthrow");
+var errors = _interopRequireWildcard(require("../types/errors"));
+function _interopRequireWildcard(e, t) { if ("function" == typeof WeakMap) var r = new WeakMap(), n = new WeakMap(); return (_interopRequireWildcard = function (e, t) { if (!t && e && e.__esModule) return e; var o, i, f = { __proto__: null, default: e }; if (null === e || "object" != typeof e && "function" != typeof e) return f; if (o = t ? n : r) { if (o.has(e)) return o.get(e); o.set(e, f); } for (const t in e) "default" !== t && {}.hasOwnProperty.call(e, t) && ((i = (o = Object.defineProperty) && Object.getOwnPropertyDescriptor(e, t)) && (i.get || i.set) ? o(f, t, i) : f[t] = e[t]); return f; })(e, t); }
+async function captureFullPageImagesWithOverlap(page, options = {
+  overlap: 200,
+  sliceHeight: 1000
+}) {
+  const totalHeight = await page.evaluate(() => document.body.scrollHeight);
+  let currentHeight = 0;
+  const buffers = [];
+  while (currentHeight < totalHeight) {
+    if (buffers.length > 10) {
+      console.info(`the page is too long, only first ${totalHeight} px of the page will be captured.`);
+      break;
+    }
+    await page.setViewportSize({
+      width: 1200,
+      height: options.sliceHeight
+    });
+    await page.evaluate(y => window.scrollTo(0, y), currentHeight - (currentHeight > 0 ? options.overlap : 0));
+    await page.waitForTimeout(500);
+    const buffer = await page.screenshot();
+    buffers.push(buffer);
+    currentHeight += options.sliceHeight - options.overlap;
+  }
+  return buffers;
+}
+async function buildImagesFromPageOrHandle(page, searchRegionHandler) {
+  const originalViewPortSize = page.viewportSize();
+  await page.setViewportSize({
+    width: 1200,
+    height: 800
+  });
+  if (searchRegionHandler) {
+    const size = await searchRegionHandler.boundingBox();
+    if (!size) {
+      return (0, _neverthrow.err)(errors.other("the provided search region is very large, image extraction support up to 5000px height."));
+    }
+    return (0, _neverthrow.ok)([await searchRegionHandler.screenshot({
+      type: "png"
+    })]);
+  }
+  const fullPageImages = await captureFullPageImagesWithOverlap(page);
+  if (originalViewPortSize) {
+    await page.setViewportSize(originalViewPortSize);
+  }
+  return (0, _neverthrow.ok)(fullPageImages);
+}

package/dist/optimized-extractors/common/extractStructuredDataUsingClaude.js ADDED Viewed

@@ -0,0 +1,135 @@
+"use strict";
+Object.defineProperty(exports, "__esModule", {
+  value: true
+});
+exports.extractStructuredDataUsingClaude = extractStructuredDataUsingClaude;
+var _anthropicModel = require("../models/anthropicModel");
+var _neverthrow = require("neverthrow");
+var Errors = _interopRequireWildcard(require("../types/errors"));
+var _utils = require("./utils");
+var _Logger = require("../../common/Logger");
+var _aiModelsValidations = require("../../common/aiModelsValidations");
+function _interopRequireWildcard(e, t) { if ("function" == typeof WeakMap) var r = new WeakMap(), n = new WeakMap(); return (_interopRequireWildcard = function (e, t) { if (!t && e && e.__esModule) return e; var o, i, f = { __proto__: null, default: e }; if (null === e || "object" != typeof e && "function" != typeof e) return f; if (o = t ? n : r) { if (o.has(e)) return o.get(e); o.set(e, f); } for (const t in e) "default" !== t && {}.hasOwnProperty.call(e, t) && ((i = (o = Object.defineProperty) && Object.getOwnPropertyDescriptor(e, t)) && (i.get || i.set) ? o(f, t, i) : f[t] = e[t]); return f; })(e, t); }
+async function extractStructuredDataUsingClaude(input) {
+  const {
+    entityName,
+    model,
+    jsonSchema: originalJsonSchema,
+    systemMessage,
+    text,
+    extraUserMessages,
+    images,
+    apiKey
+  } = input;
+  const processedJsonSchema = (0, _utils.processInputSchema)(originalJsonSchema, entityName);
+  const toolName = `extract_${entityName}`;
+  const content = [];
+  if (extraUserMessages) {
+    const mappedExtraMessages = extraUserMessages.map(message => ({
+      type: "text",
+      text: message
+    }));
+    content.push(...mappedExtraMessages);
+  }
+  content.push({
+    type: "text",
+    text: `extract ` + entityName + ` from the text and images, Use must the ` + toolName + ` tool, ` + (originalJsonSchema.description ? entityName + ` is ` + originalJsonSchema.description : "")
+  });
+  if (text) {
+    content.push(...text.map(t => ({
+      type: "text",
+      text: t
+    })));
+  }
+  if (images) {
+    const imagesContent = images.map(image => ({
+      type: "image",
+      source: {
+        data: image.data.toString("base64"),
+        media_type: `image/${image.image_type}`,
+        type: "base64"
+      }
+    }));
+    content.push(...imagesContent);
+  }
+  const anthropic = (0, _anthropicModel.createAnthropicInstance)({
+    apiKey
+  });
+  const modelName = _aiModelsValidations.CLAUDE_MODELS_MAPPINGS[model] ?? model;
+  const maxTokens = _aiModelsValidations.MAX_TOKENS_OVERRIDES[modelName] ?? 4096;
+  const response = await (0, _neverthrow.fromPromise)(anthropic.messages.create({
+    max_tokens: maxTokens,
+    temperature: 0,
+    system: `${systemMessage ?? ""}`,
+    messages: [{
+      role: "user",
+      content
+    }],
+    model: modelName,
+    tools: [{
+      input_schema: processedJsonSchema,
+      name: toolName,
+      description: `Extract ` + entityName + ` mentioned in the text or images. Relay on the parameters for more info. always use this tool when you are asked to extract data. you should respect the provided schema even if it was multiple levels deep, undefined is not an accepted input, please never respond with it.`
+    }, {
+      name: "no_data_found",
+      description: `you should call this tool you are asked to extract data using ` + toolName + ` and you couldn't find any data, make this your last resort, if you are sure that there is no data in the text or images.`,
+      input_schema: {
+        type: "object",
+        properties: null
+      }
+    }]
+  }).withResponse(), error => {
+    var _typedError$error, _typedError$error2;
+    const typedError = error;
+    if ((typedError === null || typedError === void 0 ? void 0 : typedError.status) === 449) {
+      return Errors.insufficientAiCredits(typedError.error.error);
+    }
+    if ((typedError === null || typedError === void 0 ? void 0 : typedError.status) === 413) {
+      return Errors.AiCallFailed("content should not exceed 10mb", error);
+    }
+    if ((typedError === null || typedError === void 0 ? void 0 : typedError.status) === 400 && typeof (typedError === null || typedError === void 0 || (_typedError$error = typedError.error) === null || _typedError$error === void 0 ? void 0 : _typedError$error.error) === "object" && typedError !== null && typedError !== void 0 && (_typedError$error2 = typedError.error) !== null && _typedError$error2 !== void 0 && (_typedError$error2 = _typedError$error2.error) !== null && _typedError$error2 !== void 0 && (_typedError$error2 = _typedError$error2.message) !== null && _typedError$error2 !== void 0 && _typedError$error2.includes("prompt is too long:")) {
+      return Errors.AiCallFailed("content exceeded model max capacity", error);
+    }
+    return Errors.AiCallFailed(`Failed to call claude api with status ${typedError === null || typedError === void 0 ? void 0 : typedError.status}: ${error.message}`, error);
+  });
+  if (response.isErr()) {
+    return (0, _neverthrow.err)(response.error);
+  }
+  const unwrappedResponse = response.value.data;
+  if (unwrappedResponse.stop_reason === "max_tokens") {
+    return (0, _neverthrow.err)(Errors.AiCallFailed("response from ai exceeds model maximum output tokens, try to be more specific with what data you need to extract"));
+  }
+  if (unwrappedResponse.stop_reason !== "tool_use") {
+    return (0, _neverthrow.err)(Errors.NoToolUsage("the model was not able to extract data correctly, please try to modify your prompt and schema to give more context."));
+  }
+  const noDataFound = unwrappedResponse.content.some(content => content.type === "tool_use" && content.name == "no_data_found");
+  if (noDataFound) {
+    return (0, _neverthrow.err)(Errors.NoDataFound("data isn't found in the text or images."));
+  }
+  const tool = unwrappedResponse.content.find(content => content.type === "tool_use" && content.name == toolName);
+  if (!tool) {
+    return (0, _neverthrow.err)(Errors.NoToolUsage("the model was not able to extract data correctly, please try to modify your prompt and schema to give more context."));
+  }
+  if (!tool.input) {
+    return (0, _neverthrow.err)(Errors.invalidExtractionResult("the model was not able to extract data correctly, please try to modify your prompt and schema to give more context."));
+  }
+  if (originalJsonSchema.type === "array" && tool.input[entityName] === "undefined") {
+    return (0, _neverthrow.err)(Errors.invalidExtractionResult("the model was not able to extract data correctly"));
+  }
+  const result = (0, _utils.getResultFromOutputSchema)(originalJsonSchema, entityName, tool.input);
+  const callCost = response.value.response.headers.get("x-ai-cost-in-cents");
+  if (input.logAiCallCost) {
+    if (apiKey) {
+      _Logger.logger.info(`extractor ${input.identifier}: AI cost is not calculated (using custom API key)`);
+    } else if (callCost) {
+      const cost = parseFloat(callCost);
+      if (!isNaN(cost)) {
+        _Logger.logger.info(`extractor ${input.identifier}: AI cost is $${cost / 100}`);
+      }
+    }
+  }
+  return (0, _neverthrow.ok)({
+    result
+  });
+}

package/dist/optimized-extractors/common/extractStructuredDataUsingGoogle.js ADDED Viewed

@@ -0,0 +1,37 @@
+"use strict";
+Object.defineProperty(exports, "__esModule", {
+  value: true
+});
+exports.extractStructuredDataUsingGoogle = extractStructuredDataUsingGoogle;
+var _aiModelsValidations = require("../../common/aiModelsValidations");
+var _extractStrucutredDataUsingAiInstance = require("./extractStrucutredDataUsingAiInstance");
+var Errors = _interopRequireWildcard(require("../types/errors"));
+var _neverthrow = require("neverthrow");
+var _google = require("@ai-sdk/google");
+function _interopRequireWildcard(e, t) { if ("function" == typeof WeakMap) var r = new WeakMap(), n = new WeakMap(); return (_interopRequireWildcard = function (e, t) { if (!t && e && e.__esModule) return e; var o, i, f = { __proto__: null, default: e }; if (null === e || "object" != typeof e && "function" != typeof e) return f; if (o = t ? n : r) { if (o.has(e)) return o.get(e); o.set(e, f); } for (const t in e) "default" !== t && {}.hasOwnProperty.call(e, t) && ((i = (o = Object.defineProperty) && Object.getOwnPropertyDescriptor(e, t)) && (i.get || i.set) ? o(f, t, i) : f[t] = e[t]); return f; })(e, t); }
+async function extractStructuredDataUsingGoogle(input) {
+  var _input$text;
+  if (!input.apiKey) {
+    return (0, _neverthrow.err)(Errors.invalidInput("Google AI is only supported with a custom API key. Please provide it or use a different AI provider."));
+  }
+  let model = input.model;
+  if (input.model in _aiModelsValidations.MODELS_MAPPINGS) {
+    model = _aiModelsValidations.MODELS_MAPPINGS[input.model];
+  }
+  const googleGenAi = (0, _google.createGoogleGenerativeAI)({
+    apiKey: input.apiKey
+  });
+  const extraMessages = input.extraUserMessages ?? [];
+  if (extraMessages.length === 0 && (((_input$text = input.text) === null || _input$text === void 0 ? void 0 : _input$text.length) ?? 0) === 0) {
+    var _input$images;
+    extraMessages.push("Use the following image" + ((((_input$images = input.images) === null || _input$images === void 0 ? void 0 : _input$images.length) ?? 0) > 1 ? "s" : ""));
+  }
+  return (0, _extractStrucutredDataUsingAiInstance.extractStructuredDataUsingAiInstance)({
+    ...input,
+    extraUserMessages: extraMessages,
+    model: googleGenAi(model),
+    apiName: "google",
+    maxTokens: _aiModelsValidations.MAX_TOKENS_OVERRIDES[model]
+  });
+}

package/dist/optimized-extractors/common/extractStructuredDataUsingOpenAi.js ADDED Viewed

@@ -0,0 +1,132 @@
+"use strict";
+Object.defineProperty(exports, "__esModule", {
+  value: true
+});
+exports.extractStructuredDataUsingOpenAi = extractStructuredDataUsingOpenAi;
+var _neverthrow = require("neverthrow");
+var Errors = _interopRequireWildcard(require("../types/errors"));
+var _utils = require("./utils");
+var _Logger = require("../../common/Logger");
+var _aiModelsValidations = require("../../common/aiModelsValidations");
+var _openaiModel = require("../models/openaiModel");
+function _interopRequireWildcard(e, t) { if ("function" == typeof WeakMap) var r = new WeakMap(), n = new WeakMap(); return (_interopRequireWildcard = function (e, t) { if (!t && e && e.__esModule) return e; var o, i, f = { __proto__: null, default: e }; if (null === e || "object" != typeof e && "function" != typeof e) return f; if (o = t ? n : r) { if (o.has(e)) return o.get(e); o.set(e, f); } for (const t in e) "default" !== t && {}.hasOwnProperty.call(e, t) && ((i = (o = Object.defineProperty) && Object.getOwnPropertyDescriptor(e, t)) && (i.get || i.set) ? o(f, t, i) : f[t] = e[t]); return f; })(e, t); }
+async function extractStructuredDataUsingOpenAi(input) {
+  var _completion$value$dat, _completion$value$dat2;
+  const {
+    entityName,
+    model,
+    jsonSchema: originalJsonSchema,
+    systemMessage,
+    text,
+    extraUserMessages,
+    images,
+    apiKey
+  } = input;
+  if (images && images.length > 0 && model === "gpt3.5-turbo") {
+    return (0, _neverthrow.err)(Errors.invalidInput("Images are only supported for gpt4-turbo and gpt-4o models"));
+  }
+  const processedJsonSchema = (0, _utils.processInputSchema)(originalJsonSchema, entityName);
+  const content = [];
+  if (extraUserMessages) {
+    content.push(...extraUserMessages.map(message => ({
+      type: "text",
+      text: message
+    })));
+  }
+  if (text) {
+    content.push(...text.map(t => ({
+      type: "text",
+      text: t
+    })));
+  }
+  if (images) {
+    const imageContent = images.map(image => ({
+      type: "image_url",
+      image_url: {
+        url: `data:image/${image.image_type};base64,${image.data.toString("base64")}`,
+        detail: "high"
+      }
+    }));
+    content.push(...imageContent);
+  }
+  const modelName = _aiModelsValidations.MODELS_MAPPINGS[input.model] ?? input.model;
+  const toolName = `extract_${entityName}`;
+  const openAiInstance = (0, _openaiModel.createOpenAIInstance)({
+    apiKey
+  });
+  const completion = await (0, _neverthrow.fromPromise)(openAiInstance.chat.completions.create({
+    max_tokens: 4000,
+    temperature: 0,
+    model: modelName,
+    messages: [{
+      role: "system",
+      content: `${systemMessage ?? ""}, ` + `using the ` + (originalJsonSchema.description ? `. Here is more info about the entity that we are trying to extract: ` + originalJsonSchema.description : "")
+    }, {
+      role: "user",
+      content
+    }],
+    function_call: {
+      name: toolName
+    },
+    functions: [{
+      name: "no_data_found",
+      description: `you should call this tool you are asked to extract data using ` + toolName + ` and you couldn't find any data, make this your last resort, if you are sure that there is no data in the text or images`
+    }, {
+      name: toolName,
+      description: `Extract ` + entityName + ` mentioned in the text and images. Relay on the parameters for more info.`,
+      parameters: processedJsonSchema
+    }]
+  }).withResponse(), error => {
+    const typedError = error;
+    if ((typedError === null || typedError === void 0 ? void 0 : typedError.status) === 449) {
+      var _typedError$error;
+      return Errors.insufficientAiCredits(typedError === null || typedError === void 0 || (_typedError$error = typedError.error) === null || _typedError$error === void 0 ? void 0 : _typedError$error.error);
+    }
+    if ((error === null || error === void 0 ? void 0 : error.status) === 400 && ["context_length_exceeded", "string_above_max_length"].includes(error === null || error === void 0 ? void 0 : error.code)) {
+      return Errors.AiCallFailed("content exceeded model max capacity", error);
+    }
+    return Errors.AiCallFailed(`Failed to call openai api with status ${typedError === null || typedError === void 0 ? void 0 : typedError.status}: ${error.message}`, error);
+  });
+  if (completion.isErr()) {
+    return (0, _neverthrow.err)(completion.error);
+  }
+  if (completion.value.data.choices[0].finish_reason === "length") {
+    return (0, _neverthrow.err)(Errors.AiCallFailed("response from ai exceeds model maximum output tokens, try to be more specific with what data you need to extract"));
+  }
+  const noDataFound = (_completion$value$dat = completion.value.data.choices[0].message.tool_calls) === null || _completion$value$dat === void 0 ? void 0 : _completion$value$dat.some(content => content.type === "function" && content.function.name == "no_data_found");
+  if (noDataFound) {
+    return (0, _neverthrow.err)(Errors.NoDataFound("data isn't found in the text or images."));
+  }
+  let functionCall = (_completion$value$dat2 = completion.value.data.choices[0].message.tool_calls) === null || _completion$value$dat2 === void 0 || (_completion$value$dat2 = _completion$value$dat2.find(t => t.type === "function" && t.function.name === toolName)) === null || _completion$value$dat2 === void 0 ? void 0 : _completion$value$dat2.function;
+  if (!functionCall) {
+    functionCall = completion.value.data.choices[0].message.function_call;
+    if (!functionCall) {
+      return (0, _neverthrow.err)(Errors.NoToolUsage("the model was not able to extract data correctly."));
+    }
+  }
+  const extractedData = functionCall.arguments;
+  if (!extractedData) return (0, _neverthrow.err)(Errors.invalidExtractionResult("No extraction result found."));
+  const escapedString = extractedData.replace(/[\t\n\r\f\v]/g, " ");
+  const jsonParse = (0, _neverthrow.fromThrowable)(JSON.parse, () => Errors.invalidExtractionResult("Failed to parse extraction result."));
+  const parsedData = jsonParse(escapedString);
+  if (parsedData.isErr()) {
+    return (0, _neverthrow.err)(parsedData.error);
+  }
+  const result = (0, _utils.getResultFromOutputSchema)(originalJsonSchema, entityName, parsedData.value);
+  const formatted = (0, _utils.cleanupAiResult)(result);
+  const callCost = completion.value.response.headers.get("x-ai-cost-in-cents");
+  if (input.logAiCallCost) {
+    if (apiKey) {
+      _Logger.logger.info(`extractor ${input.identifier}: AI cost is not calculated (using custom API key)`);
+    } else if (callCost) {
+      const cost = parseFloat(callCost);
+      if (!isNaN(cost)) {
+        _Logger.logger.info(`extractor ${input.identifier}: AI cost is $${cost / 100}`);
+      }
+    }
+  }
+  return (0, _neverthrow.ok)({
+    result: formatted
+  });
+}