npm - @open-mercato/core - Versions diffs - 0.6.4-develop.4299.1.af24e08431 → 0.6.4-develop.4305.1.efaf0ebab1 - Mend

@open-mercato/core 0.6.4-develop.4299.1.af24e08431 → 0.6.4-develop.4305.1.efaf0ebab1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

package/dist/modules/attachments/lib/pdfProcessing.js CHANGED Viewed

@@ -87,7 +87,7 @@ async function preparePdfPagesForOcr(filePath) {
       pages
     };
   } finally {
-    await pdfDocument.destroy();
+    await loadingTask.destroy();
   }
 }
 export {

package/dist/modules/attachments/lib/pdfProcessing.js.map CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "version": 3,
   "sources": ["../../../../src/modules/attachments/lib/pdfProcessing.ts"],
-  "sourcesContent": ["import fs from 'fs/promises'\nimport path from 'path'\nimport { createRequire } from 'module'\n\nconst moduleRequire = createRequire(path.join(process.cwd(), 'package.json'))\nconst pdfJsPackageRoot = path.dirname(moduleRequire.resolve('pdfjs-dist/package.json'))\nconst cMapUrl = `${path.join(pdfJsPackageRoot, 'cmaps')}${path.sep}`\nconst standardFontDataUrl = `${path.join(pdfJsPackageRoot, 'standard_fonts')}${path.sep}`\n\nconst MIN_RENDER_SCALE = 2\nconst MAX_RENDER_SCALE = 4\nconst MAX_RENDER_DIMENSION = 2200\nconst MAX_RENDER_PIXELS = 8_000_000\n\ntype PdfPageProxyLike = {\n  cleanup: () => void\n  getTextContent: () => Promise<{ items?: Array<{ str?: string }> }>\n  getViewport: (args: { scale: number }) => { width: number; height: number }\n  render: (args: { canvasContext: unknown; viewport: { width: number; height: number } }) => { promise: Promise<void> }\n}\n\ntype PdfCanvasFactoryLike = {\n  create: (width: number, height: number) => {\n    canvas: { toBuffer: (mimeType: string) => Buffer | Uint8Array }\n    context: unknown\n  }\n  destroy: (canvasAndContext: {\n    canvas: { toBuffer: (mimeType: string) => Buffer | Uint8Array } | null\n    context: unknown\n  }) => void\n}\n\ntype PdfDocumentProxyLike = {\n  numPages: number\n  canvasFactory: PdfCanvasFactoryLike\n  getPage: (pageNumber: number) => Promise<PdfPageProxyLike>\n  destroy: () => Promise<void>\n}\n\nexport type PdfPageOcrInput = {\n  pageNumber: number\n  extractedText: string | null\n  imageBuffer: Buffer | null\n}\n\nexport type PdfOcrPreparationResult = {\n  pageCount: number\n  pages: PdfPageOcrInput[]\n}\n\nfunction normalizePdfText(rawText: string): string | null {\n  const normalized = rawText.replace(/\\s+/g, ' ').trim()\n  return normalized.length > 0 ? normalized : null\n}\n\nfunction extractPdfTextContent(items: Array<{ str?: string }> | undefined): string | null {\n  if (!Array.isArray(items) || items.length === 0) return null\n  const collected = items\n    .map((item) => (typeof item?.str === 'string' ? item.str : ''))\n    .filter((value) => value.length > 0)\n    .join(' ')\n  return normalizePdfText(collected)\n}\n\nfunction resolvePdfRenderScale(page: PdfPageProxyLike): number {\n  const baseViewport = page.getViewport({ scale: 1 })\n  const baseLargestDimension = Math.max(baseViewport.width, baseViewport.height)\n  let scale = Math.min(\n    MAX_RENDER_SCALE,\n    Math.max(MIN_RENDER_SCALE, MAX_RENDER_DIMENSION / Math.max(baseLargestDimension, 1)),\n  )\n\n  let viewport = page.getViewport({ scale })\n  const pixelCount = viewport.width * viewport.height\n  if (pixelCount > MAX_RENDER_PIXELS) {\n    scale *= Math.sqrt(MAX_RENDER_PIXELS / pixelCount)\n    viewport = page.getViewport({ scale })\n  }\n\n  return Math.max(1, scale)\n}\n\nasync function renderPdfPageToImageBuffer(\n  page: PdfPageProxyLike,\n  canvasFactory: PdfCanvasFactoryLike,\n): Promise<Buffer> {\n  const viewport = page.getViewport({ scale: resolvePdfRenderScale(page) })\n  const canvasAndContext = canvasFactory.create(viewport.width, viewport.height)\n\n  try {\n    const renderTask = page.render({\n      canvasContext: canvasAndContext.context,\n      viewport,\n    })\n    await renderTask.promise\n    const imageBuffer = canvasAndContext.canvas.toBuffer('image/png')\n    return Buffer.isBuffer(imageBuffer) ? imageBuffer : Buffer.from(imageBuffer)\n  } finally {\n    canvasFactory.destroy(canvasAndContext)\n  }\n}\n\nexport async function preparePdfPagesForOcr(filePath: string): Promise<PdfOcrPreparationResult> {\n  const { getDocument } = await import('pdfjs-dist/legacy/build/pdf.mjs')\n  const data = new Uint8Array(await fs.readFile(filePath))\n  const loadingTask = getDocument({\n    data,\n    cMapUrl,\n    cMapPacked: true,\n    standardFontDataUrl,\n  })\n\n  const pdfDocument = (await loadingTask.promise) as unknown as PdfDocumentProxyLike\n\n  try {\n    const pages: PdfPageOcrInput[] = []\n\n    for (let pageNumber = 1; pageNumber <= pdfDocument.numPages; pageNumber += 1) {\n      const page = await pdfDocument.getPage(pageNumber)\n\n      try {\n        const textContent = await page.getTextContent()\n        const extractedText = extractPdfTextContent(textContent.items)\n\n        if (extractedText) {\n          pages.push({\n            pageNumber,\n            extractedText,\n            imageBuffer: null,\n          })\n          continue\n        }\n\n        pages.push({\n          pageNumber,\n          extractedText: null,\n          imageBuffer: await renderPdfPageToImageBuffer(page, pdfDocument.canvasFactory),\n        })\n      } finally {\n        page.cleanup()\n      }\n    }\n\n    return {\n      pageCount: pdfDocument.numPages,\n      pages,\n    }\n  } finally {\n    await pdfDocument.destroy()\n  }\n}\n"],
-  "mappings": "AAAA,OAAO,QAAQ;AACf,OAAO,UAAU;AACjB,SAAS,qBAAqB;AAE9B,MAAM,gBAAgB,cAAc,KAAK,KAAK,QAAQ,IAAI,GAAG,cAAc,CAAC;AAC5E,MAAM,mBAAmB,KAAK,QAAQ,cAAc,QAAQ,yBAAyB,CAAC;AACtF,MAAM,UAAU,GAAG,KAAK,KAAK,kBAAkB,OAAO,CAAC,GAAG,KAAK,GAAG;AAClE,MAAM,sBAAsB,GAAG,KAAK,KAAK,kBAAkB,gBAAgB,CAAC,GAAG,KAAK,GAAG;AAEvF,MAAM,mBAAmB;AACzB,MAAM,mBAAmB;AACzB,MAAM,uBAAuB;AAC7B,MAAM,oBAAoB;AAsC1B,SAAS,iBAAiB,SAAgC;AACxD,QAAM,aAAa,QAAQ,QAAQ,QAAQ,GAAG,EAAE,KAAK;AACrD,SAAO,WAAW,SAAS,IAAI,aAAa;AAC9C;AAEA,SAAS,sBAAsB,OAA2D;AACxF,MAAI,CAAC,MAAM,QAAQ,KAAK,KAAK,MAAM,WAAW,EAAG,QAAO;AACxD,QAAM,YAAY,MACf,IAAI,CAAC,SAAU,OAAO,MAAM,QAAQ,WAAW,KAAK,MAAM,EAAG,EAC7D,OAAO,CAAC,UAAU,MAAM,SAAS,CAAC,EAClC,KAAK,GAAG;AACX,SAAO,iBAAiB,SAAS;AACnC;AAEA,SAAS,sBAAsB,MAAgC;AAC7D,QAAM,eAAe,KAAK,YAAY,EAAE,OAAO,EAAE,CAAC;AAClD,QAAM,uBAAuB,KAAK,IAAI,aAAa,OAAO,aAAa,MAAM;AAC7E,MAAI,QAAQ,KAAK;AAAA,IACf;AAAA,IACA,KAAK,IAAI,kBAAkB,uBAAuB,KAAK,IAAI,sBAAsB,CAAC,CAAC;AAAA,EACrF;AAEA,MAAI,WAAW,KAAK,YAAY,EAAE,MAAM,CAAC;AACzC,QAAM,aAAa,SAAS,QAAQ,SAAS;AAC7C,MAAI,aAAa,mBAAmB;AAClC,aAAS,KAAK,KAAK,oBAAoB,UAAU;AACjD,eAAW,KAAK,YAAY,EAAE,MAAM,CAAC;AAAA,EACvC;AAEA,SAAO,KAAK,IAAI,GAAG,KAAK;AAC1B;AAEA,eAAe,2BACb,MACA,eACiB;AACjB,QAAM,WAAW,KAAK,YAAY,EAAE,OAAO,sBAAsB,IAAI,EAAE,CAAC;AACxE,QAAM,mBAAmB,cAAc,OAAO,SAAS,OAAO,SAAS,MAAM;AAE7E,MAAI;AACF,UAAM,aAAa,KAAK,OAAO;AAAA,MAC7B,eAAe,iBAAiB;AAAA,MAChC;AAAA,IACF,CAAC;AACD,UAAM,WAAW;AACjB,UAAM,cAAc,iBAAiB,OAAO,SAAS,WAAW;AAChE,WAAO,OAAO,SAAS,WAAW,IAAI,cAAc,OAAO,KAAK,WAAW;AAAA,EAC7E,UAAE;AACA,kBAAc,QAAQ,gBAAgB;AAAA,EACxC;AACF;AAEA,eAAsB,sBAAsB,UAAoD;AAC9F,QAAM,EAAE,YAAY,IAAI,MAAM,OAAO,iCAAiC;AACtE,QAAM,OAAO,IAAI,WAAW,MAAM,GAAG,SAAS,QAAQ,CAAC;AACvD,QAAM,cAAc,YAAY;AAAA,IAC9B;AAAA,IACA;AAAA,IACA,YAAY;AAAA,IACZ;AAAA,EACF,CAAC;AAED,QAAM,cAAe,MAAM,YAAY;AAEvC,MAAI;AACF,UAAM,QAA2B,CAAC;AAElC,aAAS,aAAa,GAAG,cAAc,YAAY,UAAU,cAAc,GAAG;AAC5E,YAAM,OAAO,MAAM,YAAY,QAAQ,UAAU;AAEjD,UAAI;AACF,cAAM,cAAc,MAAM,KAAK,eAAe;AAC9C,cAAM,gBAAgB,sBAAsB,YAAY,KAAK;AAE7D,YAAI,eAAe;AACjB,gBAAM,KAAK;AAAA,YACT;AAAA,YACA;AAAA,YACA,aAAa;AAAA,UACf,CAAC;AACD;AAAA,QACF;AAEA,cAAM,KAAK;AAAA,UACT;AAAA,UACA,eAAe;AAAA,UACf,aAAa,MAAM,2BAA2B,MAAM,YAAY,aAAa;AAAA,QAC/E,CAAC;AAAA,MACH,UAAE;AACA,aAAK,QAAQ;AAAA,MACf;AAAA,IACF;AAEA,WAAO;AAAA,MACL,WAAW,YAAY;AAAA,MACvB;AAAA,IACF;AAAA,EACF,UAAE;AACA,UAAM,YAAY,QAAQ;AAAA,EAC5B;AACF;",
+  "sourcesContent": ["import fs from 'fs/promises'\nimport path from 'path'\nimport { createRequire } from 'module'\n\nconst moduleRequire = createRequire(path.join(process.cwd(), 'package.json'))\nconst pdfJsPackageRoot = path.dirname(moduleRequire.resolve('pdfjs-dist/package.json'))\nconst cMapUrl = `${path.join(pdfJsPackageRoot, 'cmaps')}${path.sep}`\nconst standardFontDataUrl = `${path.join(pdfJsPackageRoot, 'standard_fonts')}${path.sep}`\n\nconst MIN_RENDER_SCALE = 2\nconst MAX_RENDER_SCALE = 4\nconst MAX_RENDER_DIMENSION = 2200\nconst MAX_RENDER_PIXELS = 8_000_000\n\ntype PdfPageProxyLike = {\n  cleanup: () => void\n  getTextContent: () => Promise<{ items?: Array<{ str?: string }> }>\n  getViewport: (args: { scale: number }) => { width: number; height: number }\n  render: (args: { canvasContext: unknown; viewport: { width: number; height: number } }) => { promise: Promise<void> }\n}\n\ntype PdfCanvasFactoryLike = {\n  create: (width: number, height: number) => {\n    canvas: { toBuffer: (mimeType: string) => Buffer | Uint8Array }\n    context: unknown\n  }\n  destroy: (canvasAndContext: {\n    canvas: { toBuffer: (mimeType: string) => Buffer | Uint8Array } | null\n    context: unknown\n  }) => void\n}\n\ntype PdfDocumentProxyLike = {\n  numPages: number\n  canvasFactory: PdfCanvasFactoryLike\n  getPage: (pageNumber: number) => Promise<PdfPageProxyLike>\n}\n\nexport type PdfPageOcrInput = {\n  pageNumber: number\n  extractedText: string | null\n  imageBuffer: Buffer | null\n}\n\nexport type PdfOcrPreparationResult = {\n  pageCount: number\n  pages: PdfPageOcrInput[]\n}\n\nfunction normalizePdfText(rawText: string): string | null {\n  const normalized = rawText.replace(/\\s+/g, ' ').trim()\n  return normalized.length > 0 ? normalized : null\n}\n\nfunction extractPdfTextContent(items: Array<{ str?: string }> | undefined): string | null {\n  if (!Array.isArray(items) || items.length === 0) return null\n  const collected = items\n    .map((item) => (typeof item?.str === 'string' ? item.str : ''))\n    .filter((value) => value.length > 0)\n    .join(' ')\n  return normalizePdfText(collected)\n}\n\nfunction resolvePdfRenderScale(page: PdfPageProxyLike): number {\n  const baseViewport = page.getViewport({ scale: 1 })\n  const baseLargestDimension = Math.max(baseViewport.width, baseViewport.height)\n  let scale = Math.min(\n    MAX_RENDER_SCALE,\n    Math.max(MIN_RENDER_SCALE, MAX_RENDER_DIMENSION / Math.max(baseLargestDimension, 1)),\n  )\n\n  let viewport = page.getViewport({ scale })\n  const pixelCount = viewport.width * viewport.height\n  if (pixelCount > MAX_RENDER_PIXELS) {\n    scale *= Math.sqrt(MAX_RENDER_PIXELS / pixelCount)\n    viewport = page.getViewport({ scale })\n  }\n\n  return Math.max(1, scale)\n}\n\nasync function renderPdfPageToImageBuffer(\n  page: PdfPageProxyLike,\n  canvasFactory: PdfCanvasFactoryLike,\n): Promise<Buffer> {\n  const viewport = page.getViewport({ scale: resolvePdfRenderScale(page) })\n  const canvasAndContext = canvasFactory.create(viewport.width, viewport.height)\n\n  try {\n    const renderTask = page.render({\n      canvasContext: canvasAndContext.context,\n      viewport,\n    })\n    await renderTask.promise\n    const imageBuffer = canvasAndContext.canvas.toBuffer('image/png')\n    return Buffer.isBuffer(imageBuffer) ? imageBuffer : Buffer.from(imageBuffer)\n  } finally {\n    canvasFactory.destroy(canvasAndContext)\n  }\n}\n\nexport async function preparePdfPagesForOcr(filePath: string): Promise<PdfOcrPreparationResult> {\n  const { getDocument } = await import('pdfjs-dist/legacy/build/pdf.mjs')\n  const data = new Uint8Array(await fs.readFile(filePath))\n  const loadingTask = getDocument({\n    data,\n    cMapUrl,\n    cMapPacked: true,\n    standardFontDataUrl,\n  })\n\n  const pdfDocument = (await loadingTask.promise) as unknown as PdfDocumentProxyLike\n\n  try {\n    const pages: PdfPageOcrInput[] = []\n\n    for (let pageNumber = 1; pageNumber <= pdfDocument.numPages; pageNumber += 1) {\n      const page = await pdfDocument.getPage(pageNumber)\n\n      try {\n        const textContent = await page.getTextContent()\n        const extractedText = extractPdfTextContent(textContent.items)\n\n        if (extractedText) {\n          pages.push({\n            pageNumber,\n            extractedText,\n            imageBuffer: null,\n          })\n          continue\n        }\n\n        pages.push({\n          pageNumber,\n          extractedText: null,\n          imageBuffer: await renderPdfPageToImageBuffer(page, pdfDocument.canvasFactory),\n        })\n      } finally {\n        page.cleanup()\n      }\n    }\n\n    return {\n      pageCount: pdfDocument.numPages,\n      pages,\n    }\n  } finally {\n    await loadingTask.destroy()\n  }\n}\n"],
+  "mappings": "AAAA,OAAO,QAAQ;AACf,OAAO,UAAU;AACjB,SAAS,qBAAqB;AAE9B,MAAM,gBAAgB,cAAc,KAAK,KAAK,QAAQ,IAAI,GAAG,cAAc,CAAC;AAC5E,MAAM,mBAAmB,KAAK,QAAQ,cAAc,QAAQ,yBAAyB,CAAC;AACtF,MAAM,UAAU,GAAG,KAAK,KAAK,kBAAkB,OAAO,CAAC,GAAG,KAAK,GAAG;AAClE,MAAM,sBAAsB,GAAG,KAAK,KAAK,kBAAkB,gBAAgB,CAAC,GAAG,KAAK,GAAG;AAEvF,MAAM,mBAAmB;AACzB,MAAM,mBAAmB;AACzB,MAAM,uBAAuB;AAC7B,MAAM,oBAAoB;AAqC1B,SAAS,iBAAiB,SAAgC;AACxD,QAAM,aAAa,QAAQ,QAAQ,QAAQ,GAAG,EAAE,KAAK;AACrD,SAAO,WAAW,SAAS,IAAI,aAAa;AAC9C;AAEA,SAAS,sBAAsB,OAA2D;AACxF,MAAI,CAAC,MAAM,QAAQ,KAAK,KAAK,MAAM,WAAW,EAAG,QAAO;AACxD,QAAM,YAAY,MACf,IAAI,CAAC,SAAU,OAAO,MAAM,QAAQ,WAAW,KAAK,MAAM,EAAG,EAC7D,OAAO,CAAC,UAAU,MAAM,SAAS,CAAC,EAClC,KAAK,GAAG;AACX,SAAO,iBAAiB,SAAS;AACnC;AAEA,SAAS,sBAAsB,MAAgC;AAC7D,QAAM,eAAe,KAAK,YAAY,EAAE,OAAO,EAAE,CAAC;AAClD,QAAM,uBAAuB,KAAK,IAAI,aAAa,OAAO,aAAa,MAAM;AAC7E,MAAI,QAAQ,KAAK;AAAA,IACf;AAAA,IACA,KAAK,IAAI,kBAAkB,uBAAuB,KAAK,IAAI,sBAAsB,CAAC,CAAC;AAAA,EACrF;AAEA,MAAI,WAAW,KAAK,YAAY,EAAE,MAAM,CAAC;AACzC,QAAM,aAAa,SAAS,QAAQ,SAAS;AAC7C,MAAI,aAAa,mBAAmB;AAClC,aAAS,KAAK,KAAK,oBAAoB,UAAU;AACjD,eAAW,KAAK,YAAY,EAAE,MAAM,CAAC;AAAA,EACvC;AAEA,SAAO,KAAK,IAAI,GAAG,KAAK;AAC1B;AAEA,eAAe,2BACb,MACA,eACiB;AACjB,QAAM,WAAW,KAAK,YAAY,EAAE,OAAO,sBAAsB,IAAI,EAAE,CAAC;AACxE,QAAM,mBAAmB,cAAc,OAAO,SAAS,OAAO,SAAS,MAAM;AAE7E,MAAI;AACF,UAAM,aAAa,KAAK,OAAO;AAAA,MAC7B,eAAe,iBAAiB;AAAA,MAChC;AAAA,IACF,CAAC;AACD,UAAM,WAAW;AACjB,UAAM,cAAc,iBAAiB,OAAO,SAAS,WAAW;AAChE,WAAO,OAAO,SAAS,WAAW,IAAI,cAAc,OAAO,KAAK,WAAW;AAAA,EAC7E,UAAE;AACA,kBAAc,QAAQ,gBAAgB;AAAA,EACxC;AACF;AAEA,eAAsB,sBAAsB,UAAoD;AAC9F,QAAM,EAAE,YAAY,IAAI,MAAM,OAAO,iCAAiC;AACtE,QAAM,OAAO,IAAI,WAAW,MAAM,GAAG,SAAS,QAAQ,CAAC;AACvD,QAAM,cAAc,YAAY;AAAA,IAC9B;AAAA,IACA;AAAA,IACA,YAAY;AAAA,IACZ;AAAA,EACF,CAAC;AAED,QAAM,cAAe,MAAM,YAAY;AAEvC,MAAI;AACF,UAAM,QAA2B,CAAC;AAElC,aAAS,aAAa,GAAG,cAAc,YAAY,UAAU,cAAc,GAAG;AAC5E,YAAM,OAAO,MAAM,YAAY,QAAQ,UAAU;AAEjD,UAAI;AACF,cAAM,cAAc,MAAM,KAAK,eAAe;AAC9C,cAAM,gBAAgB,sBAAsB,YAAY,KAAK;AAE7D,YAAI,eAAe;AACjB,gBAAM,KAAK;AAAA,YACT;AAAA,YACA;AAAA,YACA,aAAa;AAAA,UACf,CAAC;AACD;AAAA,QACF;AAEA,cAAM,KAAK;AAAA,UACT;AAAA,UACA,eAAe;AAAA,UACf,aAAa,MAAM,2BAA2B,MAAM,YAAY,aAAa;AAAA,QAC/E,CAAC;AAAA,MACH,UAAE;AACA,aAAK,QAAQ;AAAA,MACf;AAAA,IACF;AAEA,WAAO;AAAA,MACL,WAAW,YAAY;AAAA,MACvB;AAAA,IACF;AAAA,EACF,UAAE;AACA,UAAM,YAAY,QAAQ;AAAA,EAC5B;AACF;",
   "names": []
 }

package/dist/modules/attachments/lib/textExtraction.js CHANGED Viewed

@@ -59,7 +59,7 @@ async function extractPdfText(filePath) {
         }
       }
     } finally {
-      await pdfDocument.destroy();
+      await loadingTask.destroy();
     }
     const result = textParts.join("\n").trim();
     return result.length > 0 ? result : null;

package/dist/modules/attachments/lib/textExtraction.js.map CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "version": 3,
   "sources": ["../../../../src/modules/attachments/lib/textExtraction.ts"],
-  "sourcesContent": ["import fs from 'fs/promises'\nimport path from 'path'\nimport { createRequire } from 'module'\n\n// NOTE: child_process is intentionally NOT imported here.\n// This module MUST NOT shell out to any external binary for content extraction.\n// All extraction must use pure-JS libraries. See HUNT-PARSER-01.\n\nconst moduleRequire = createRequire(path.join(process.cwd(), 'package.json'))\nconst pdfJsPackageRoot = path.dirname(moduleRequire.resolve('pdfjs-dist/package.json'))\nconst PDF_CMAP_URL = `${path.join(pdfJsPackageRoot, 'cmaps')}${path.sep}`\nconst PDF_STANDARD_FONT_DATA_URL = `${path.join(pdfJsPackageRoot, 'standard_fonts')}${path.sep}`\n\ntype ExtractParams = {\n  filePath: string\n  mimeType?: string | null\n}\n\nfunction isImage(mimeType?: string | null, filePath?: string | null): boolean {\n  const normalized = (mimeType || '').toLowerCase()\n  if (normalized.startsWith('image/')) return true\n  if (filePath) {\n    const ext = path.extname(filePath).toLowerCase()\n    return ['.png', '.jpg', '.jpeg', '.gif', '.bmp', '.webp', '.tiff'].includes(ext)\n  }\n  return false\n}\n\nfunction isPlainText(mimeType: string, ext: string): boolean {\n  return mimeType.startsWith('text/')\n    || ext === '.txt'\n    || ext === '.md'\n    || ext === '.csv'\n    || ext === '.log'\n}\n\nfunction isPdf(mimeType: string, ext: string): boolean {\n  return mimeType === 'application/pdf' || ext === '.pdf'\n}\n\nfunction isDocx(mimeType: string, ext: string): boolean {\n  // mammoth supports only Open XML .docx, not legacy binary .doc files.\n  return (\n    mimeType === 'application/vnd.openxmlformats-officedocument.wordprocessingml.document'\n    || ext === '.docx'\n  )\n}\n\nasync function extractPlainText(filePath: string): Promise<string | null> {\n  try {\n    const text = await fs.readFile(filePath, 'utf8')\n    const trimmed = text.trim()\n    return trimmed.length > 0 ? trimmed : null\n  } catch {\n    return null\n  }\n}\n\nasync function extractPdfText(filePath: string): Promise<string | null> {\n  try {\n    const { getDocument } = await import('pdfjs-dist/legacy/build/pdf.mjs')\n    const data = new Uint8Array(await fs.readFile(filePath))\n    const loadingTask = getDocument({\n      data,\n      cMapUrl: PDF_CMAP_URL,\n      cMapPacked: true,\n      standardFontDataUrl: PDF_STANDARD_FONT_DATA_URL,\n    })\n    const pdfDocument = await loadingTask.promise\n    const textParts: string[] = []\n    try {\n      for (let pageNumber = 1; pageNumber <= pdfDocument.numPages; pageNumber += 1) {\n        const page = await pdfDocument.getPage(pageNumber)\n        try {\n          const textContent = await page.getTextContent()\n          const items = (textContent as any).items as Array<{ str?: string }> | undefined\n          if (Array.isArray(items)) {\n            const pageText = items\n              .map((item) => (typeof item?.str === 'string' ? item.str : ''))\n              .filter((s) => s.length > 0)\n              .join(' ')\n            if (pageText.trim()) textParts.push(pageText.trim())\n          }\n        } finally {\n          page.cleanup()\n        }\n      }\n    } finally {\n      await pdfDocument.destroy()\n    }\n    const result = textParts.join('\\n').trim()\n    return result.length > 0 ? result : null\n  } catch {\n    return null\n  }\n}\n\nasync function extractDocxText(filePath: string): Promise<string | null> {\n  try {\n    const mammoth = await import('mammoth')\n    const result = await mammoth.extractRawText({ path: filePath })\n    const trimmed = result.value.trim()\n    return trimmed.length > 0 ? trimmed : null\n  } catch {\n    return null\n  }\n}\n\nexport async function extractAttachmentContent(params: ExtractParams): Promise<string | null> {\n  const { filePath, mimeType } = params\n  if (!filePath) return null\n  if (isImage(mimeType, filePath)) return null\n\n  const normalized = (mimeType || '').toLowerCase()\n  const ext = path.extname(filePath).toLowerCase()\n\n  if (isPlainText(normalized, ext)) {\n    return extractPlainText(filePath)\n  }\n\n  if (isPdf(normalized, ext)) {\n    return extractPdfText(filePath)\n  }\n\n  if (isDocx(normalized, ext)) {\n    return extractDocxText(filePath)\n  }\n\n  // XLSX, PPTX, MSG and other Office formats: no safe pure-JS extractor available yet.\n  // Return null rather than shelling out to an external binary.\n  return null\n}\n"],
+  "sourcesContent": ["import fs from 'fs/promises'\nimport path from 'path'\nimport { createRequire } from 'module'\n\n// NOTE: child_process is intentionally NOT imported here.\n// This module MUST NOT shell out to any external binary for content extraction.\n// All extraction must use pure-JS libraries. See HUNT-PARSER-01.\n\nconst moduleRequire = createRequire(path.join(process.cwd(), 'package.json'))\nconst pdfJsPackageRoot = path.dirname(moduleRequire.resolve('pdfjs-dist/package.json'))\nconst PDF_CMAP_URL = `${path.join(pdfJsPackageRoot, 'cmaps')}${path.sep}`\nconst PDF_STANDARD_FONT_DATA_URL = `${path.join(pdfJsPackageRoot, 'standard_fonts')}${path.sep}`\n\ntype ExtractParams = {\n  filePath: string\n  mimeType?: string | null\n}\n\nfunction isImage(mimeType?: string | null, filePath?: string | null): boolean {\n  const normalized = (mimeType || '').toLowerCase()\n  if (normalized.startsWith('image/')) return true\n  if (filePath) {\n    const ext = path.extname(filePath).toLowerCase()\n    return ['.png', '.jpg', '.jpeg', '.gif', '.bmp', '.webp', '.tiff'].includes(ext)\n  }\n  return false\n}\n\nfunction isPlainText(mimeType: string, ext: string): boolean {\n  return mimeType.startsWith('text/')\n    || ext === '.txt'\n    || ext === '.md'\n    || ext === '.csv'\n    || ext === '.log'\n}\n\nfunction isPdf(mimeType: string, ext: string): boolean {\n  return mimeType === 'application/pdf' || ext === '.pdf'\n}\n\nfunction isDocx(mimeType: string, ext: string): boolean {\n  // mammoth supports only Open XML .docx, not legacy binary .doc files.\n  return (\n    mimeType === 'application/vnd.openxmlformats-officedocument.wordprocessingml.document'\n    || ext === '.docx'\n  )\n}\n\nasync function extractPlainText(filePath: string): Promise<string | null> {\n  try {\n    const text = await fs.readFile(filePath, 'utf8')\n    const trimmed = text.trim()\n    return trimmed.length > 0 ? trimmed : null\n  } catch {\n    return null\n  }\n}\n\nasync function extractPdfText(filePath: string): Promise<string | null> {\n  try {\n    const { getDocument } = await import('pdfjs-dist/legacy/build/pdf.mjs')\n    const data = new Uint8Array(await fs.readFile(filePath))\n    const loadingTask = getDocument({\n      data,\n      cMapUrl: PDF_CMAP_URL,\n      cMapPacked: true,\n      standardFontDataUrl: PDF_STANDARD_FONT_DATA_URL,\n    })\n    const pdfDocument = await loadingTask.promise\n    const textParts: string[] = []\n    try {\n      for (let pageNumber = 1; pageNumber <= pdfDocument.numPages; pageNumber += 1) {\n        const page = await pdfDocument.getPage(pageNumber)\n        try {\n          const textContent = await page.getTextContent()\n          const items = (textContent as any).items as Array<{ str?: string }> | undefined\n          if (Array.isArray(items)) {\n            const pageText = items\n              .map((item) => (typeof item?.str === 'string' ? item.str : ''))\n              .filter((s) => s.length > 0)\n              .join(' ')\n            if (pageText.trim()) textParts.push(pageText.trim())\n          }\n        } finally {\n          page.cleanup()\n        }\n      }\n    } finally {\n      await loadingTask.destroy()\n    }\n    const result = textParts.join('\\n').trim()\n    return result.length > 0 ? result : null\n  } catch {\n    return null\n  }\n}\n\nasync function extractDocxText(filePath: string): Promise<string | null> {\n  try {\n    const mammoth = await import('mammoth')\n    const result = await mammoth.extractRawText({ path: filePath })\n    const trimmed = result.value.trim()\n    return trimmed.length > 0 ? trimmed : null\n  } catch {\n    return null\n  }\n}\n\nexport async function extractAttachmentContent(params: ExtractParams): Promise<string | null> {\n  const { filePath, mimeType } = params\n  if (!filePath) return null\n  if (isImage(mimeType, filePath)) return null\n\n  const normalized = (mimeType || '').toLowerCase()\n  const ext = path.extname(filePath).toLowerCase()\n\n  if (isPlainText(normalized, ext)) {\n    return extractPlainText(filePath)\n  }\n\n  if (isPdf(normalized, ext)) {\n    return extractPdfText(filePath)\n  }\n\n  if (isDocx(normalized, ext)) {\n    return extractDocxText(filePath)\n  }\n\n  // XLSX, PPTX, MSG and other Office formats: no safe pure-JS extractor available yet.\n  // Return null rather than shelling out to an external binary.\n  return null\n}\n"],
   "mappings": "AAAA,OAAO,QAAQ;AACf,OAAO,UAAU;AACjB,SAAS,qBAAqB;AAM9B,MAAM,gBAAgB,cAAc,KAAK,KAAK,QAAQ,IAAI,GAAG,cAAc,CAAC;AAC5E,MAAM,mBAAmB,KAAK,QAAQ,cAAc,QAAQ,yBAAyB,CAAC;AACtF,MAAM,eAAe,GAAG,KAAK,KAAK,kBAAkB,OAAO,CAAC,GAAG,KAAK,GAAG;AACvE,MAAM,6BAA6B,GAAG,KAAK,KAAK,kBAAkB,gBAAgB,CAAC,GAAG,KAAK,GAAG;AAO9F,SAAS,QAAQ,UAA0B,UAAmC;AAC5E,QAAM,cAAc,YAAY,IAAI,YAAY;AAChD,MAAI,WAAW,WAAW,QAAQ,EAAG,QAAO;AAC5C,MAAI,UAAU;AACZ,UAAM,MAAM,KAAK,QAAQ,QAAQ,EAAE,YAAY;AAC/C,WAAO,CAAC,QAAQ,QAAQ,SAAS,QAAQ,QAAQ,SAAS,OAAO,EAAE,SAAS,GAAG;AAAA,EACjF;AACA,SAAO;AACT;AAEA,SAAS,YAAY,UAAkB,KAAsB;AAC3D,SAAO,SAAS,WAAW,OAAO,KAC7B,QAAQ,UACR,QAAQ,SACR,QAAQ,UACR,QAAQ;AACf;AAEA,SAAS,MAAM,UAAkB,KAAsB;AACrD,SAAO,aAAa,qBAAqB,QAAQ;AACnD;AAEA,SAAS,OAAO,UAAkB,KAAsB;AAEtD,SACE,aAAa,6EACV,QAAQ;AAEf;AAEA,eAAe,iBAAiB,UAA0C;AACxE,MAAI;AACF,UAAM,OAAO,MAAM,GAAG,SAAS,UAAU,MAAM;AAC/C,UAAM,UAAU,KAAK,KAAK;AAC1B,WAAO,QAAQ,SAAS,IAAI,UAAU;AAAA,EACxC,QAAQ;AACN,WAAO;AAAA,EACT;AACF;AAEA,eAAe,eAAe,UAA0C;AACtE,MAAI;AACF,UAAM,EAAE,YAAY,IAAI,MAAM,OAAO,iCAAiC;AACtE,UAAM,OAAO,IAAI,WAAW,MAAM,GAAG,SAAS,QAAQ,CAAC;AACvD,UAAM,cAAc,YAAY;AAAA,MAC9B;AAAA,MACA,SAAS;AAAA,MACT,YAAY;AAAA,MACZ,qBAAqB;AAAA,IACvB,CAAC;AACD,UAAM,cAAc,MAAM,YAAY;AACtC,UAAM,YAAsB,CAAC;AAC7B,QAAI;AACF,eAAS,aAAa,GAAG,cAAc,YAAY,UAAU,cAAc,GAAG;AAC5E,cAAM,OAAO,MAAM,YAAY,QAAQ,UAAU;AACjD,YAAI;AACF,gBAAM,cAAc,MAAM,KAAK,eAAe;AAC9C,gBAAM,QAAS,YAAoB;AACnC,cAAI,MAAM,QAAQ,KAAK,GAAG;AACxB,kBAAM,WAAW,MACd,IAAI,CAAC,SAAU,OAAO,MAAM,QAAQ,WAAW,KAAK,MAAM,EAAG,EAC7D,OAAO,CAAC,MAAM,EAAE,SAAS,CAAC,EAC1B,KAAK,GAAG;AACX,gBAAI,SAAS,KAAK,EAAG,WAAU,KAAK,SAAS,KAAK,CAAC;AAAA,UACrD;AAAA,QACF,UAAE;AACA,eAAK,QAAQ;AAAA,QACf;AAAA,MACF;AAAA,IACF,UAAE;AACA,YAAM,YAAY,QAAQ;AAAA,IAC5B;AACA,UAAM,SAAS,UAAU,KAAK,IAAI,EAAE,KAAK;AACzC,WAAO,OAAO,SAAS,IAAI,SAAS;AAAA,EACtC,QAAQ;AACN,WAAO;AAAA,EACT;AACF;AAEA,eAAe,gBAAgB,UAA0C;AACvE,MAAI;AACF,UAAM,UAAU,MAAM,OAAO,SAAS;AACtC,UAAM,SAAS,MAAM,QAAQ,eAAe,EAAE,MAAM,SAAS,CAAC;AAC9D,UAAM,UAAU,OAAO,MAAM,KAAK;AAClC,WAAO,QAAQ,SAAS,IAAI,UAAU;AAAA,EACxC,QAAQ;AACN,WAAO;AAAA,EACT;AACF;AAEA,eAAsB,yBAAyB,QAA+C;AAC5F,QAAM,EAAE,UAAU,SAAS,IAAI;AAC/B,MAAI,CAAC,SAAU,QAAO;AACtB,MAAI,QAAQ,UAAU,QAAQ,EAAG,QAAO;AAExC,QAAM,cAAc,YAAY,IAAI,YAAY;AAChD,QAAM,MAAM,KAAK,QAAQ,QAAQ,EAAE,YAAY;AAE/C,MAAI,YAAY,YAAY,GAAG,GAAG;AAChC,WAAO,iBAAiB,QAAQ;AAAA,EAClC;AAEA,MAAI,MAAM,YAAY,GAAG,GAAG;AAC1B,WAAO,eAAe,QAAQ;AAAA,EAChC;AAEA,MAAI,OAAO,YAAY,GAAG,GAAG;AAC3B,WAAO,gBAAgB,QAAQ;AAAA,EACjC;AAIA,SAAO;AACT;",
   "names": []
 }

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@open-mercato/core",
-  "version": "0.6.4-develop.4299.1.af24e08431",
+  "version": "0.6.4-develop.4305.1.efaf0ebab1",
   "type": "module",
   "main": "./dist/index.js",
   "scripts": {
@@ -227,46 +227,46 @@
     }
   },
   "dependencies": {
-    "@mikro-orm/core": "^7.1.1",
-    "@mikro-orm/decorators": "^7.1.1",
-    "@mikro-orm/postgresql": "^7.1.1",
-    "@xyflow/react": "^12.10.2",
-    "ai": "^6.0.191",
-    "date-fns": "4.3.0",
+    "@mikro-orm/core": "^7.1.3",
+    "@mikro-orm/decorators": "^7.1.3",
+    "@mikro-orm/postgresql": "^7.1.3",
+    "@xyflow/react": "^12.11.0",
+    "ai": "^6.0.194",
+    "date-fns": "4.4.0",
     "date-fns-tz": "^3.2.0",
     "html-to-text": "^10.0.0",
     "mammoth": "^1.9.0",
-    "pdfjs-dist": "^5.7.284",
+    "pdfjs-dist": "^6.0.227",
     "semver": "^7.8.1",
-    "svix": "^1.92.2",
+    "svix": "^1.95.1",
     "ts-pattern": "^5.0.0",
     "zod": "^4.4.3"
   },
   "peerDependencies": {
-    "@open-mercato/ai-assistant": "0.6.4-develop.4299.1.af24e08431",
-    "@open-mercato/shared": "0.6.4-develop.4299.1.af24e08431",
-    "@open-mercato/ui": "0.6.4-develop.4299.1.af24e08431",
+    "@open-mercato/ai-assistant": "0.6.4-develop.4305.1.efaf0ebab1",
+    "@open-mercato/shared": "0.6.4-develop.4305.1.efaf0ebab1",
+    "@open-mercato/ui": "0.6.4-develop.4305.1.efaf0ebab1",
     "react": "^19.0.0",
     "react-dom": "^19.0.0"
   },
   "devDependencies": {
-    "@open-mercato/ai-assistant": "0.6.4-develop.4299.1.af24e08431",
-    "@open-mercato/shared": "0.6.4-develop.4299.1.af24e08431",
-    "@open-mercato/ui": "0.6.4-develop.4299.1.af24e08431",
+    "@open-mercato/ai-assistant": "0.6.4-develop.4305.1.efaf0ebab1",
+    "@open-mercato/shared": "0.6.4-develop.4305.1.efaf0ebab1",
+    "@open-mercato/ui": "0.6.4-develop.4305.1.efaf0ebab1",
     "@testing-library/dom": "^10.4.1",
     "@testing-library/jest-dom": "^6.9.1",
     "@testing-library/react": "^16.3.1",
     "@types/chance": "^1.1.8",
     "@types/html-to-text": "^9.0.4",
     "@types/jest": "^30.0.0",
-    "@types/react": "^19.2.15",
+    "@types/react": "^19.2.16",
     "@types/react-dom": "^19.2.3",
     "@types/semver": "^7.5.8",
     "chance": "^1.1.13",
     "jest": "^30.4.2",
     "jest-environment-jsdom": "^30.4.1",
-    "react": "19.2.6",
-    "react-dom": "19.2.6",
+    "react": "19.2.7",
+    "react-dom": "19.2.7",
     "ts-jest": "^29.4.11"
   },
   "publishConfig": {

package/src/modules/attachments/lib/pdfProcessing.ts CHANGED Viewed

@@ -34,7 +34,6 @@ type PdfDocumentProxyLike = {
   numPages: number
   canvasFactory: PdfCanvasFactoryLike
   getPage: (pageNumber: number) => Promise<PdfPageProxyLike>
-  destroy: () => Promise<void>
 }
 export type PdfPageOcrInput = {
@@ -146,6 +145,6 @@ export async function preparePdfPagesForOcr(filePath: string): Promise<PdfOcrPre
       pages,
     }
   } finally {
-    await pdfDocument.destroy()
+    await loadingTask.destroy()
   }
 }

package/src/modules/attachments/lib/textExtraction.ts CHANGED Viewed

@@ -86,7 +86,7 @@ async function extractPdfText(filePath: string): Promise<string | null> {
         }
       }
     } finally {
-      await pdfDocument.destroy()
+      await loadingTask.destroy()
     }
     const result = textParts.join('\n').trim()
     return result.length > 0 ? result : null