npm - @heripo/pdf-parser - Versions diffs - 0.1.12 → 0.1.14 - Mend

@heripo/pdf-parser 0.1.12 → 0.1.14

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

package/dist/index.cjs CHANGED Viewed

@@ -1780,7 +1780,8 @@ var VlmTextCorrector = class {
               },
               {
                 type: "image",
-                image: `data:image/png;base64,${imageBase64}`
+                image: imageBase64,
+                mediaType: "image/png"
               }
             ]
           }
@@ -1992,7 +1993,7 @@ var VlmTextCorrector = class {
    */
   readPageImage(outputDir, pageNo) {
     const imagePath = (0, import_node_path4.join)(outputDir, "pages", `page_${pageNo - 1}.png`);
-    return (0, import_node_fs4.readFileSync)(imagePath).toString("base64");
+    return new Uint8Array((0, import_node_fs4.readFileSync)(imagePath));
   }
   /**
    * Apply VLM corrections to the DoclingDocument.
@@ -2069,8 +2070,9 @@ Note: Hanja are Chinese characters used in Korean documents, different from mode
 Answer whether any Hanja characters are present on this page.
-Also identify all languages present on this page. Return an array of BCP 47 language tags ordered by prevalence (primary language first).
-Examples: ["ko-KR", "en-US"], ["ja-JP"], ["zh-TW", "en-US"]`;
+Also identify all languages present on this page. Return an array of ocrmac-compatible language tags ordered by prevalence (primary language first).
+Supported tags: ar-SA, ars-SA, cs-CZ, da-DK, de-DE, en-US, es-ES, fr-FR, id-ID, it-IT, ja-JP, ko-KR, ms-MY, nb-NO, nl-NL, nn-NO, no-NO, pl-PL, pt-BR, ro-RO, ru-RU, sv-SE, th-TH, tr-TR, uk-UA, vi-VT, yue-Hans, yue-Hant, zh-Hans, zh-Hant.
+Examples: ["ko-KR", "en-US"], ["ja-JP"], ["zh-Hant", "en-US"]`;
 var OcrStrategySampler = class {
   logger;
   pageRenderer;
@@ -2261,7 +2263,7 @@ var OcrStrategySampler = class {
     this.logger.debug(
       `[OcrStrategySampler] Analyzing page ${pageNo} for Korean-Hanja mix and language...`
     );
-    const base64Image = (0, import_node_fs5.readFileSync)(pageFile).toString("base64");
+    const imageData = new Uint8Array((0, import_node_fs5.readFileSync)(pageFile));
     const messages = [
       {
         role: "user",
@@ -2269,7 +2271,8 @@ var OcrStrategySampler = class {
           { type: "text", text: KOREAN_HANJA_MIX_PROMPT },
           {
             type: "image",
-            image: `data:image/png;base64,${base64Image}`
+            image: imageData,
+            mediaType: "image/png"
           }
         ]
       }
@@ -2367,6 +2370,36 @@ var LocalFileServer = class {
   }
 };
+// src/utils/task-failure-details.ts
+var MAX_RESULT_RETRIES = 3;
+var RESULT_RETRY_DELAY_MS = 2e3;
+async function getTaskFailureDetails(task, logger, logPrefix) {
+  for (let attempt = 0; attempt < MAX_RESULT_RETRIES; attempt++) {
+    try {
+      if (attempt > 0) {
+        await new Promise((r) => setTimeout(r, RESULT_RETRY_DELAY_MS));
+      }
+      const result = await task.getResult();
+      if (result.errors?.length) {
+        return result.errors.map((e) => e.message).join("; ");
+      }
+      return `status: ${result.status ?? "unknown"}`;
+    } catch (err) {
+      if (attempt === MAX_RESULT_RETRIES - 1) {
+        logger.error(
+          `${logPrefix} Failed to retrieve task result after ${MAX_RESULT_RETRIES} attempts:`,
+          err
+        );
+        return "unable to retrieve error details";
+      }
+      logger.warn(
+        `${logPrefix} Result not available yet, retrying (${attempt + 1}/${MAX_RESULT_RETRIES})...`
+      );
+    }
+  }
+  return "unable to retrieve error details";
+}
 // src/core/chunked-pdf-converter.ts
 var import_node_fs7 = require("fs");
 var import_promises4 = require("fs/promises");
@@ -2712,14 +2745,15 @@ var ChunkedPDFConverter = class {
       const status = await task.poll();
       if (status.task_status === "success") return;
       if (status.task_status === "failure") {
-        let details = "unknown";
-        try {
-          const result = await task.getResult();
-          if (result.errors?.length) {
-            details = result.errors.map((e) => e.message).join("; ");
-          }
-        } catch {
-        }
+        const elapsed = ((Date.now() - startTime) / 1e3).toFixed(1);
+        this.logger.error(
+          `[ChunkedPDFConverter] Task ${task.taskId} failed after ${elapsed}s`
+        );
+        const details = await getTaskFailureDetails(
+          task,
+          this.logger,
+          "[ChunkedPDFConverter]"
+        );
         throw new Error(`[ChunkedPDFConverter] Chunk task failed: ${details}`);
       }
       await new Promise(
@@ -3356,6 +3390,7 @@ var PDFConverter = class {
     return {
       ...(0, import_es_toolkit.omit)(options, [
         "num_threads",
+        "document_timeout",
         "forceImagePdf",
         "strategySamplerModel",
         "vlmProcessorModel",
@@ -3377,6 +3412,8 @@ var PDFConverter = class {
         framework: "livetext"
       },
       generate_picture_images: true,
+      do_picture_classification: true,
+      do_picture_description: true,
       generate_page_images: false,
       // Page images are rendered by PageRenderer (ImageMagick) after conversion
       images_scale: 2,
@@ -3391,6 +3428,9 @@ var PDFConverter = class {
       accelerator_options: {
         device: "mps",
         num_threads: options.num_threads
+      },
+      ...options.document_timeout !== void 0 && {
+        document_timeout: options.document_timeout
       }
     };
   }
@@ -3477,16 +3517,7 @@ var PDFConverter = class {
    * Fetch detailed error information from a failed task result.
    */
   async getTaskFailureDetails(task) {
-    try {
-      const result = await task.getResult();
-      if (result.errors?.length) {
-        return result.errors.map((e) => e.message).join("; ");
-      }
-      return `status: ${result.status ?? "unknown"}`;
-    } catch (err) {
-      this.logger.error("[PDFConverter] Failed to retrieve task result:", err);
-      return "unable to retrieve error details";
-    }
+    return getTaskFailureDetails(task, this.logger, "[PDFConverter]");
   }
   async downloadResult(taskId) {
     this.logger.info(