npm - @heripo/pdf-parser - Versions diffs - 0.1.12 → 0.1.14 - Mend

@heripo/pdf-parser 0.1.12 → 0.1.14

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

package/dist/index.d.cts CHANGED Viewed

@@ -33,6 +33,8 @@ type PDFConvertOptions = Omit<ConversionOptions, 'to_formats' | 'image_export_mo
     aggregator?: LLMTokenUsageAggregator;
     /** Callback fired after each batch of VLM pages completes, with cumulative token usage */
     onTokenUsage?: (report: TokenUsageReport) => void;
+    /** Document processing timeout in seconds for the Docling server (default: server default) */
+    document_timeout?: number;
     /** Enable chunked conversion for large PDFs (local files only) */
     chunkedConversion?: boolean;
     /** Pages per chunk (default: CHUNKED_CONVERSION.DEFAULT_CHUNK_SIZE) */

package/dist/index.d.ts CHANGED Viewed

@@ -33,6 +33,8 @@ type PDFConvertOptions = Omit<ConversionOptions, 'to_formats' | 'image_export_mo
     aggregator?: LLMTokenUsageAggregator;
     /** Callback fired after each batch of VLM pages completes, with cumulative token usage */
     onTokenUsage?: (report: TokenUsageReport) => void;
+    /** Document processing timeout in seconds for the Docling server (default: server default) */
+    document_timeout?: number;
     /** Enable chunked conversion for large PDFs (local files only) */
     chunkedConversion?: boolean;
     /** Pages per chunk (default: CHUNKED_CONVERSION.DEFAULT_CHUNK_SIZE) */

package/dist/index.js CHANGED Viewed

@@ -1756,7 +1756,8 @@ var VlmTextCorrector = class {
               },
               {
                 type: "image",
-                image: `data:image/png;base64,${imageBase64}`
+                image: imageBase64,
+                mediaType: "image/png"
               }
             ]
           }
@@ -1968,7 +1969,7 @@ var VlmTextCorrector = class {
    */
   readPageImage(outputDir, pageNo) {
     const imagePath = join4(outputDir, "pages", `page_${pageNo - 1}.png`);
-    return readFileSync(imagePath).toString("base64");
+    return new Uint8Array(readFileSync(imagePath));
   }
   /**
    * Apply VLM corrections to the DoclingDocument.
@@ -2045,8 +2046,9 @@ Note: Hanja are Chinese characters used in Korean documents, different from mode
 Answer whether any Hanja characters are present on this page.
-Also identify all languages present on this page. Return an array of BCP 47 language tags ordered by prevalence (primary language first).
-Examples: ["ko-KR", "en-US"], ["ja-JP"], ["zh-TW", "en-US"]`;
+Also identify all languages present on this page. Return an array of ocrmac-compatible language tags ordered by prevalence (primary language first).
+Supported tags: ar-SA, ars-SA, cs-CZ, da-DK, de-DE, en-US, es-ES, fr-FR, id-ID, it-IT, ja-JP, ko-KR, ms-MY, nb-NO, nl-NL, nn-NO, no-NO, pl-PL, pt-BR, ro-RO, ru-RU, sv-SE, th-TH, tr-TR, uk-UA, vi-VT, yue-Hans, yue-Hant, zh-Hans, zh-Hant.
+Examples: ["ko-KR", "en-US"], ["ja-JP"], ["zh-Hant", "en-US"]`;
 var OcrStrategySampler = class {
   logger;
   pageRenderer;
@@ -2237,7 +2239,7 @@ var OcrStrategySampler = class {
     this.logger.debug(
       `[OcrStrategySampler] Analyzing page ${pageNo} for Korean-Hanja mix and language...`
     );
-    const base64Image = readFileSync2(pageFile).toString("base64");
+    const imageData = new Uint8Array(readFileSync2(pageFile));
     const messages = [
       {
         role: "user",
@@ -2245,7 +2247,8 @@ var OcrStrategySampler = class {
           { type: "text", text: KOREAN_HANJA_MIX_PROMPT },
           {
             type: "image",
-            image: `data:image/png;base64,${base64Image}`
+            image: imageData,
+            mediaType: "image/png"
           }
         ]
       }
@@ -2343,6 +2346,36 @@ var LocalFileServer = class {
   }
 };
+// src/utils/task-failure-details.ts
+var MAX_RESULT_RETRIES = 3;
+var RESULT_RETRY_DELAY_MS = 2e3;
+async function getTaskFailureDetails(task, logger, logPrefix) {
+  for (let attempt = 0; attempt < MAX_RESULT_RETRIES; attempt++) {
+    try {
+      if (attempt > 0) {
+        await new Promise((r) => setTimeout(r, RESULT_RETRY_DELAY_MS));
+      }
+      const result = await task.getResult();
+      if (result.errors?.length) {
+        return result.errors.map((e) => e.message).join("; ");
+      }
+      return `status: ${result.status ?? "unknown"}`;
+    } catch (err) {
+      if (attempt === MAX_RESULT_RETRIES - 1) {
+        logger.error(
+          `${logPrefix} Failed to retrieve task result after ${MAX_RESULT_RETRIES} attempts:`,
+          err
+        );
+        return "unable to retrieve error details";
+      }
+      logger.warn(
+        `${logPrefix} Result not available yet, retrying (${attempt + 1}/${MAX_RESULT_RETRIES})...`
+      );
+    }
+  }
+  return "unable to retrieve error details";
+}
 // src/core/chunked-pdf-converter.ts
 import {
   copyFileSync,
@@ -2697,14 +2730,15 @@ var ChunkedPDFConverter = class {
       const status = await task.poll();
       if (status.task_status === "success") return;
       if (status.task_status === "failure") {
-        let details = "unknown";
-        try {
-          const result = await task.getResult();
-          if (result.errors?.length) {
-            details = result.errors.map((e) => e.message).join("; ");
-          }
-        } catch {
-        }
+        const elapsed = ((Date.now() - startTime) / 1e3).toFixed(1);
+        this.logger.error(
+          `[ChunkedPDFConverter] Task ${task.taskId} failed after ${elapsed}s`
+        );
+        const details = await getTaskFailureDetails(
+          task,
+          this.logger,
+          "[ChunkedPDFConverter]"
+        );
         throw new Error(`[ChunkedPDFConverter] Chunk task failed: ${details}`);
       }
       await new Promise(
@@ -3341,6 +3375,7 @@ var PDFConverter = class {
     return {
       ...omit(options, [
         "num_threads",
+        "document_timeout",
         "forceImagePdf",
         "strategySamplerModel",
         "vlmProcessorModel",
@@ -3362,6 +3397,8 @@ var PDFConverter = class {
         framework: "livetext"
       },
       generate_picture_images: true,
+      do_picture_classification: true,
+      do_picture_description: true,
       generate_page_images: false,
       // Page images are rendered by PageRenderer (ImageMagick) after conversion
       images_scale: 2,
@@ -3376,6 +3413,9 @@ var PDFConverter = class {
       accelerator_options: {
         device: "mps",
         num_threads: options.num_threads
+      },
+      ...options.document_timeout !== void 0 && {
+        document_timeout: options.document_timeout
       }
     };
   }
@@ -3462,16 +3502,7 @@ var PDFConverter = class {
    * Fetch detailed error information from a failed task result.
    */
   async getTaskFailureDetails(task) {
-    try {
-      const result = await task.getResult();
-      if (result.errors?.length) {
-        return result.errors.map((e) => e.message).join("; ");
-      }
-      return `status: ${result.status ?? "unknown"}`;
-    } catch (err) {
-      this.logger.error("[PDFConverter] Failed to retrieve task result:", err);
-      return "unable to retrieve error details";
-    }
+    return getTaskFailureDetails(task, this.logger, "[PDFConverter]");
   }
   async downloadResult(taskId) {
     this.logger.info(