npm - @absolutejs/absolute - Versions diffs - 0.19.0-beta.473 → 0.19.0-beta.474 - Mend

@absolutejs/absolute 0.19.0-beta.473 → 0.19.0-beta.474

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (11) hide show

package/dist/ai/index.js +57 -6
package/dist/ai/index.js.map +3 -3
package/dist/angular/index.js +2 -2
package/dist/angular/index.js.map +1 -1
package/dist/angular/server.js +2 -2
package/dist/angular/server.js.map +1 -1
package/dist/build.js +2 -2
package/dist/build.js.map +1 -1
package/dist/index.js +2 -2
package/dist/index.js.map +1 -1
package/package.json +7 -7

package/dist/ai/index.js CHANGED Viewed

@@ -2455,6 +2455,11 @@ var extractTextFromPDFBytes = (data) => {
 `);
   return normalizeWhitespace(combined);
 };
+var estimatePDFPageCount = (data) => {
+  const raw = Buffer.from(data).toString("latin1");
+  const count = [...raw.matchAll(/\/Type\s*\/Page\b/g)].length;
+  return count > 0 ? count : 1;
+};
 var readUInt16LE = (data, offset) => data[offset] | data[offset + 1] << 8;
 var readUInt32LE = (data, offset) => (data[offset] | data[offset + 1] << 8 | data[offset + 2] << 16 | data[offset + 3] << 24) >>> 0;
 var decodeUtf8 = (data) => Buffer.from(data).toString("utf8");
@@ -2545,6 +2550,14 @@ var officeDocumentText = (entries) => {
   }
   return extractXmlText(decodeUtf8(documentEntry.data));
 };
+var officeDocumentSectionCount = (entries) => {
+  const documentEntry = entries.find((entry) => entry.path === "word/document.xml");
+  if (!documentEntry) {
+    return;
+  }
+  const count = [...decodeUtf8(documentEntry.data).matchAll(/<w:p\b/g)].length;
+  return count > 0 ? count : undefined;
+};
 var spreadsheetText = (entries) => {
   const sharedStrings = entries.filter((entry) => entry.path === "xl/sharedStrings.xml").flatMap((entry) => [
     ...decodeUtf8(entry.data).matchAll(/<t[^>]*>([\s\S]*?)<\/t>/g)
@@ -2558,12 +2571,16 @@ var spreadsheetText = (entries) => {
   return normalizeWhitespace(sheetValues.join(`
 `));
 };
+var spreadsheetSheetNames = (entries) => entries.filter((entry) => entry.path === "xl/workbook.xml").flatMap((entry) => [
+  ...decodeUtf8(entry.data).matchAll(/<sheet[^>]*name="([^"]+)"/g)
+].map((match) => match[1] ?? "")).filter(Boolean);
 var presentationText = (entries) => {
   const slides = entries.filter((entry) => entry.path.startsWith("ppt/slides/") && entry.path.endsWith(".xml")).map((entry) => extractXmlText(decodeUtf8(entry.data)));
   return normalizeWhitespace(slides.join(`
 `));
 };
+var presentationSlideCount = (entries) => entries.filter((entry) => entry.path.startsWith("ppt/slides/") && entry.path.endsWith(".xml")).length;
 var epubText = (entries) => {
   const htmlEntries = entries.filter((entry) => /\.(xhtml|html|htm)$/i.test(entry.path));
   return normalizeWhitespace(htmlEntries.map((entry) => stripHtml(decodeUtf8(entry.data))).join(`
@@ -2588,6 +2605,23 @@ var extractEmailText = (raw) => {
   }
   return normalizeWhitespace(body);
 };
+var parseEmailHeaders = (raw) => {
+  const normalized = raw.replace(/\r\n?/g, `
+`);
+  const [headerBlock = ""] = normalized.split(`
+`);
+  const getHeader = (name) => {
+    const match = headerBlock.match(new RegExp(`^${name}:\\s*(.+)$`, "im"));
+    return match?.[1]?.trim();
+  };
+  return {
+    from: getHeader("From"),
+    subject: getHeader("Subject"),
+    threadTopic: getHeader("Thread-Topic") ?? getHeader("Subject"),
+    to: getHeader("To")
+  };
+};
 var stripRTF = (value) => {
   const withoutBinary = value.replace(/\\bin\d+ [\s\S]*?(?=[\\}])/g, " ");
   const withoutControls = withoutBinary.replace(/\\par[d]?/g, `
@@ -2750,12 +2784,22 @@ var createOfficeDocumentExtractor = () => ({
     const extension = inferExtensionFromInput(input);
     const entries = unzipEntries(input.data);
     let text = "";
+    let officeMetadata = {};
     if (extension === ".docx" || extension === ".odt") {
       text = officeDocumentText(entries);
+      officeMetadata = {
+        sectionCount: officeDocumentSectionCount(entries)
+      };
     } else if (extension === ".xlsx" || extension === ".ods") {
       text = spreadsheetText(entries);
+      officeMetadata = {
+        sheetNames: spreadsheetSheetNames(entries)
+      };
     } else if (extension === ".pptx" || extension === ".odp") {
       text = presentationText(entries);
+      officeMetadata = {
+        slideCount: presentationSlideCount(entries)
+      };
     }
     if (!text) {
       throw new Error(`AbsoluteJS could not extract readable text from ${inferNameFromInput(input)}`);
@@ -2766,7 +2810,8 @@ var createOfficeDocumentExtractor = () => ({
       format: "text",
       metadata: {
         ...input.metadata ?? {},
-        fileKind: "office"
+        fileKind: "office",
+        ...officeMetadata
       },
       source: input.source ?? input.path ?? input.name ?? `${slugify(input.title ?? DEFAULT_BINARY_NAME)}${extension || ".office"}`,
       text,
@@ -2801,18 +2846,21 @@ var createEmailExtractor = () => ({
   supports: emailExtractorSupports,
   extract: (input) => {
     const raw = decodeUtf8(input.data);
-    const subjectMatch = raw.match(/^Subject:\s*(.+)$/im);
+    const headers = parseEmailHeaders(raw);
     return {
       chunking: input.chunking,
       contentType: input.contentType,
       format: "text",
       metadata: {
         ...input.metadata ?? {},
-        fileKind: "email"
+        fileKind: "email",
+        from: headers.from,
+        threadTopic: headers.subject,
+        to: headers.to
       },
       source: input.source ?? input.path ?? input.name ?? `${slugify(input.title ?? DEFAULT_BINARY_NAME)}.eml`,
       text: extractEmailText(raw),
-      title: input.title ?? subjectMatch?.[1]?.trim()
+      title: input.title ?? headers.subject
     };
   }
 });
@@ -2889,7 +2937,8 @@ var createPDFFileExtractor = () => ({
       format: "text",
       metadata: {
         ...input.metadata ?? {},
-        fileKind: "pdf"
+        fileKind: "pdf",
+        pageCount: estimatePDFPageCount(input.data)
       },
       source: input.source ?? input.path ?? input.name ?? `${slugify(input.title ?? DEFAULT_BINARY_NAME)}.pdf`,
       text,
@@ -2912,6 +2961,7 @@ var createRAGPDFOCRExtractor = (options) => ({
         metadata: {
           ...input.metadata ?? {},
           fileKind: "pdf",
+          pageCount: estimatePDFPageCount(input.data),
           pdfTextMode: "native"
         },
         source: input.source ?? input.path ?? input.name ?? `${slugify(input.title ?? DEFAULT_BINARY_NAME)}.pdf`,
@@ -2931,6 +2981,7 @@ var createRAGPDFOCRExtractor = (options) => ({
         ...input.metadata ?? {},
         ...ocr.metadata ?? {},
         fileKind: "pdf",
+        pageCount: estimatePDFPageCount(input.data),
         pdfTextMode: "ocr"
       },
       source: input.source ?? input.path ?? input.name ?? `${slugify(input.title ?? DEFAULT_BINARY_NAME)}.pdf`,
@@ -6437,5 +6488,5 @@ export {
   aiChat
 };
-//# debugId=C9D2C43A1F5E327064756E2164756E21
+//# debugId=4C8CFD94D17CA32664756E2164756E21
 //# sourceMappingURL=index.js.map