npm - @cj-tech-master/excelts - Versions diffs - 8.0.0 → 8.1.0 - Mend

@cj-tech-master/excelts 8.0.0 → 8.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (106) hide show

package/README.md +14 -1
package/README_zh.md +6 -0
package/dist/browser/modules/archive/zip/stream.d.ts +4 -0
package/dist/browser/modules/archive/zip/stream.js +53 -0
package/dist/browser/modules/pdf/core/crypto.d.ts +65 -0
package/dist/browser/modules/pdf/core/crypto.js +637 -0
package/dist/browser/modules/pdf/core/encryption.d.ts +23 -20
package/dist/browser/modules/pdf/core/encryption.js +88 -261
package/dist/browser/modules/pdf/core/pdf-writer.d.ts +6 -4
package/dist/browser/modules/pdf/core/pdf-writer.js +19 -10
package/dist/browser/modules/pdf/index.d.ts +23 -2
package/dist/browser/modules/pdf/index.js +21 -3
package/dist/browser/modules/pdf/reader/annotation-extractor.d.ts +63 -0
package/dist/browser/modules/pdf/reader/annotation-extractor.js +155 -0
package/dist/browser/modules/pdf/reader/cmap-parser.d.ts +70 -0
package/dist/browser/modules/pdf/reader/cmap-parser.js +321 -0
package/dist/browser/modules/pdf/reader/content-interpreter.d.ts +57 -0
package/dist/browser/modules/pdf/reader/content-interpreter.js +715 -0
package/dist/browser/modules/pdf/reader/font-decoder.d.ts +58 -0
package/dist/browser/modules/pdf/reader/font-decoder.js +1513 -0
package/dist/browser/modules/pdf/reader/form-extractor.d.ts +48 -0
package/dist/browser/modules/pdf/reader/form-extractor.js +355 -0
package/dist/browser/modules/pdf/reader/image-extractor.d.ts +55 -0
package/dist/browser/modules/pdf/reader/image-extractor.js +220 -0
package/dist/browser/modules/pdf/reader/metadata-reader.d.ts +56 -0
package/dist/browser/modules/pdf/reader/metadata-reader.js +275 -0
package/dist/browser/modules/pdf/reader/pdf-decrypt.d.ts +26 -0
package/dist/browser/modules/pdf/reader/pdf-decrypt.js +443 -0
package/dist/browser/modules/pdf/reader/pdf-document.d.ts +191 -0
package/dist/browser/modules/pdf/reader/pdf-document.js +818 -0
package/dist/browser/modules/pdf/reader/pdf-parser.d.ts +65 -0
package/dist/browser/modules/pdf/reader/pdf-parser.js +285 -0
package/dist/browser/modules/pdf/reader/pdf-reader.d.ts +143 -0
package/dist/browser/modules/pdf/reader/pdf-reader.js +200 -0
package/dist/browser/modules/pdf/reader/pdf-tokenizer.d.ts +101 -0
package/dist/browser/modules/pdf/reader/pdf-tokenizer.js +543 -0
package/dist/browser/modules/pdf/reader/reader-utils.d.ts +15 -0
package/dist/browser/modules/pdf/reader/reader-utils.js +27 -0
package/dist/browser/modules/pdf/reader/stream-filters.d.ts +20 -0
package/dist/browser/modules/pdf/reader/stream-filters.js +456 -0
package/dist/browser/modules/pdf/reader/text-reconstruction.d.ts +44 -0
package/dist/browser/modules/pdf/reader/text-reconstruction.js +463 -0
package/dist/cjs/modules/archive/zip/stream.js +53 -0
package/dist/cjs/modules/pdf/core/crypto.js +649 -0
package/dist/cjs/modules/pdf/core/encryption.js +88 -263
package/dist/cjs/modules/pdf/core/pdf-writer.js +19 -10
package/dist/cjs/modules/pdf/index.js +23 -4
package/dist/cjs/modules/pdf/reader/annotation-extractor.js +158 -0
package/dist/cjs/modules/pdf/reader/cmap-parser.js +326 -0
package/dist/cjs/modules/pdf/reader/content-interpreter.js +718 -0
package/dist/cjs/modules/pdf/reader/font-decoder.js +1518 -0
package/dist/cjs/modules/pdf/reader/form-extractor.js +358 -0
package/dist/cjs/modules/pdf/reader/image-extractor.js +223 -0
package/dist/cjs/modules/pdf/reader/metadata-reader.js +278 -0
package/dist/cjs/modules/pdf/reader/pdf-decrypt.js +447 -0
package/dist/cjs/modules/pdf/reader/pdf-document.js +822 -0
package/dist/cjs/modules/pdf/reader/pdf-parser.js +301 -0
package/dist/cjs/modules/pdf/reader/pdf-reader.js +203 -0
package/dist/cjs/modules/pdf/reader/pdf-tokenizer.js +517 -0
package/dist/cjs/modules/pdf/reader/reader-utils.js +30 -0
package/dist/cjs/modules/pdf/reader/stream-filters.js +459 -0
package/dist/cjs/modules/pdf/reader/text-reconstruction.js +467 -0
package/dist/esm/modules/archive/zip/stream.js +53 -0
package/dist/esm/modules/pdf/core/crypto.js +637 -0
package/dist/esm/modules/pdf/core/encryption.js +88 -261
package/dist/esm/modules/pdf/core/pdf-writer.js +19 -10
package/dist/esm/modules/pdf/index.js +21 -3
package/dist/esm/modules/pdf/reader/annotation-extractor.js +155 -0
package/dist/esm/modules/pdf/reader/cmap-parser.js +321 -0
package/dist/esm/modules/pdf/reader/content-interpreter.js +715 -0
package/dist/esm/modules/pdf/reader/font-decoder.js +1513 -0
package/dist/esm/modules/pdf/reader/form-extractor.js +355 -0
package/dist/esm/modules/pdf/reader/image-extractor.js +220 -0
package/dist/esm/modules/pdf/reader/metadata-reader.js +275 -0
package/dist/esm/modules/pdf/reader/pdf-decrypt.js +443 -0
package/dist/esm/modules/pdf/reader/pdf-document.js +818 -0
package/dist/esm/modules/pdf/reader/pdf-parser.js +285 -0
package/dist/esm/modules/pdf/reader/pdf-reader.js +200 -0
package/dist/esm/modules/pdf/reader/pdf-tokenizer.js +543 -0
package/dist/esm/modules/pdf/reader/reader-utils.js +27 -0
package/dist/esm/modules/pdf/reader/stream-filters.js +456 -0
package/dist/esm/modules/pdf/reader/text-reconstruction.js +463 -0
package/dist/iife/excelts.iife.js +703 -267
package/dist/iife/excelts.iife.js.map +1 -1
package/dist/iife/excelts.iife.min.js +35 -35
package/dist/types/modules/archive/zip/stream.d.ts +4 -0
package/dist/types/modules/pdf/core/crypto.d.ts +65 -0
package/dist/types/modules/pdf/core/encryption.d.ts +23 -20
package/dist/types/modules/pdf/core/pdf-writer.d.ts +6 -4
package/dist/types/modules/pdf/index.d.ts +23 -2
package/dist/types/modules/pdf/reader/annotation-extractor.d.ts +63 -0
package/dist/types/modules/pdf/reader/cmap-parser.d.ts +70 -0
package/dist/types/modules/pdf/reader/content-interpreter.d.ts +57 -0
package/dist/types/modules/pdf/reader/font-decoder.d.ts +58 -0
package/dist/types/modules/pdf/reader/form-extractor.d.ts +48 -0
package/dist/types/modules/pdf/reader/image-extractor.d.ts +55 -0
package/dist/types/modules/pdf/reader/metadata-reader.d.ts +56 -0
package/dist/types/modules/pdf/reader/pdf-decrypt.d.ts +26 -0
package/dist/types/modules/pdf/reader/pdf-document.d.ts +191 -0
package/dist/types/modules/pdf/reader/pdf-parser.d.ts +65 -0
package/dist/types/modules/pdf/reader/pdf-reader.d.ts +143 -0
package/dist/types/modules/pdf/reader/pdf-tokenizer.d.ts +101 -0
package/dist/types/modules/pdf/reader/reader-utils.d.ts +15 -0
package/dist/types/modules/pdf/reader/stream-filters.d.ts +20 -0
package/dist/types/modules/pdf/reader/text-reconstruction.d.ts +44 -0
package/package.json +1 -1

package/dist/esm/modules/pdf/reader/cmap-parser.js ADDED Viewed

@@ -0,0 +1,321 @@
+/**
+ * CMap parser for PDF text extraction.
+ *
+ * Parses /ToUnicode CMap programs to build character code → Unicode mappings.
+ * This is essential for extracting text from PDFs that use CIDFonts or
+ * custom encodings.
+ *
+ * Supports:
+ * - beginbfchar / endbfchar (single character mappings)
+ * - beginbfrange / endbfrange (range mappings, including array form)
+ * - begincodespacerange / endcodespacerange
+ * - Multi-byte character codes (1-4 bytes)
+ * - UTF-16BE encoded target strings (including surrogate pairs)
+ *
+ * @see PDF Reference 1.7, §5.9 - ToUnicode CMaps
+ * @see Adobe Technical Note #5411 - CMap Resources
+ */
+import { PdfTokenizer, TokenType } from "./pdf-tokenizer.js";
+// =============================================================================
+// Public API
+// =============================================================================
+/**
+ * A parsed CMap that maps character codes to Unicode strings.
+ */
+export class CMap {
+    constructor() {
+        this.codeSpaceRanges = [];
+        this.bfChars = new Map();
+        this.bfRanges = [];
+        this.bytesPerCode = 1;
+    }
+    /**
+     * Look up the Unicode string for a character code.
+     * Uses binary search over sorted bfRanges for efficient lookup.
+     */
+    lookup(code) {
+        // Check bfchar mappings first (exact match)
+        const charMapping = this.bfChars.get(code);
+        if (charMapping !== undefined) {
+            return charMapping;
+        }
+        // Check bfrange mappings using binary search
+        const ranges = this.bfRanges;
+        let lo = 0;
+        let hi = ranges.length - 1;
+        while (lo <= hi) {
+            const mid = (lo + hi) >>> 1;
+            const range = ranges[mid];
+            if (code < range.low) {
+                hi = mid - 1;
+            }
+            else if (code > range.high) {
+                lo = mid + 1;
+            }
+            else {
+                // code is within this range
+                if (typeof range.mapping === "string") {
+                    // Single base string — offset the code point
+                    const offset = code - range.low;
+                    const baseCode = stringToCodePoint(range.mapping);
+                    return String.fromCodePoint(baseCode + offset);
+                }
+                // Array mapping
+                const index = code - range.low;
+                if (index < range.mapping.length) {
+                    return range.mapping[index];
+                }
+                return undefined;
+            }
+        }
+        return undefined;
+    }
+    /**
+     * Add a code space range.
+     */
+    addCodeSpaceRange(low, high, bytes) {
+        this.codeSpaceRanges.push({ low, high, bytes });
+        if (bytes > this.bytesPerCode) {
+            this.bytesPerCode = bytes;
+        }
+    }
+    /**
+     * Add a bfchar mapping.
+     */
+    addBfChar(code, unicode) {
+        this.bfChars.set(code, unicode);
+    }
+    /**
+     * Add a bfrange mapping.
+     */
+    addBfRange(low, high, mapping) {
+        this.bfRanges.push({ low, high, mapping });
+    }
+    /**
+     * Sort bfRanges by low value for binary search.
+     * Should be called after all ranges have been added.
+     */
+    sortRanges() {
+        this.bfRanges.sort((a, b) => a.low - b.low);
+    }
+    /**
+     * Determine the code length (in bytes) for a given first byte,
+     * using the codespace ranges. When multiple ranges match (e.g. a 1-byte
+     * range covering 0x00-0xFF and a 2-byte range whose first byte overlaps),
+     * returns the longest match per the PDF spec's greedy matching rule.
+     * Falls back to bytesPerCode if no range matches.
+     */
+    getCodeLength(firstByte) {
+        let bestLen = 0;
+        for (const range of this.codeSpaceRanges) {
+            if (range.bytes === 1) {
+                if (firstByte >= (range.low & 0xff) && firstByte <= (range.high & 0xff)) {
+                    if (bestLen < 1) {
+                        bestLen = 1;
+                    }
+                }
+            }
+            else if (range.bytes === 2) {
+                const highByteLow = (range.low >> 8) & 0xff;
+                const highByteHigh = (range.high >> 8) & 0xff;
+                if (firstByte >= highByteLow && firstByte <= highByteHigh) {
+                    if (bestLen < 2) {
+                        bestLen = 2;
+                    }
+                }
+            }
+            else {
+                // For multi-byte ranges (3+ bytes), check the high byte
+                const hiLow = range.low >>> ((range.bytes - 1) * 8);
+                const hiHigh = range.high >>> ((range.bytes - 1) * 8);
+                if (firstByte >= hiLow && firstByte <= hiHigh) {
+                    if (range.bytes > bestLen) {
+                        bestLen = range.bytes;
+                    }
+                }
+            }
+        }
+        return bestLen > 0 ? bestLen : this.bytesPerCode; // fallback
+    }
+    /**
+     * Check if this CMap has any mappings.
+     */
+    get isEmpty() {
+        return this.bfChars.size === 0 && this.bfRanges.length === 0;
+    }
+    /**
+     * Check if this CMap has codespace ranges defined.
+     */
+    get hasCodeSpaceRanges() {
+        return this.codeSpaceRanges.length > 0;
+    }
+}
+// =============================================================================
+// CMap Parser
+// =============================================================================
+/**
+ * Parse a CMap program (typically from a /ToUnicode stream).
+ */
+export function parseCMap(data) {
+    const cmap = new CMap();
+    const tokenizer = new PdfTokenizer(data);
+    while (true) {
+        const token = tokenizer.next();
+        if (token.type === TokenType.EOF) {
+            break;
+        }
+        if (token.type === TokenType.Keyword) {
+            const kw = token.strValue;
+            if (kw === "begincodespacerange") {
+                parseCodeSpaceRange(tokenizer, cmap);
+            }
+            else if (kw === "beginbfchar") {
+                parseBfChar(tokenizer, cmap);
+            }
+            else if (kw === "beginbfrange") {
+                parseBfRange(tokenizer, cmap);
+            }
+        }
+    }
+    // Sort bfRanges for binary search lookup
+    cmap.sortRanges();
+    return cmap;
+}
+/**
+ * Parse codespacerange section.
+ */
+function parseCodeSpaceRange(tokenizer, cmap) {
+    while (true) {
+        const token = tokenizer.next();
+        if (token.type === TokenType.EOF) {
+            break;
+        }
+        if (token.type === TokenType.Keyword && token.strValue === "endcodespacerange") {
+            break;
+        }
+        // Expect two hex strings: low high
+        if (token.type === TokenType.HexString) {
+            const lowBytes = token.rawBytes;
+            const highToken = tokenizer.next();
+            if (highToken.type === TokenType.HexString) {
+                const highBytes = highToken.rawBytes;
+                const low = bytesToInt(lowBytes);
+                const high = bytesToInt(highBytes);
+                cmap.addCodeSpaceRange(low, high, lowBytes.length);
+            }
+        }
+    }
+}
+/**
+ * Parse bfchar section.
+ * Format: <srcCode> <dstString>
+ */
+function parseBfChar(tokenizer, cmap) {
+    while (true) {
+        const token = tokenizer.next();
+        if (token.type === TokenType.EOF) {
+            break;
+        }
+        if (token.type === TokenType.Keyword && token.strValue === "endbfchar") {
+            break;
+        }
+        if (token.type === TokenType.HexString) {
+            const code = bytesToInt(token.rawBytes);
+            const target = tokenizer.next();
+            if (target.type === TokenType.HexString) {
+                const unicode = decodeUtf16BE(target.rawBytes);
+                cmap.addBfChar(code, unicode);
+            }
+        }
+    }
+}
+/**
+ * Parse bfrange section.
+ * Formats:
+ *   <low> <high> <dstString>           — sequential mapping
+ *   <low> <high> [<str1> <str2> ...]   — array mapping
+ */
+function parseBfRange(tokenizer, cmap) {
+    while (true) {
+        const token = tokenizer.next();
+        if (token.type === TokenType.EOF) {
+            break;
+        }
+        if (token.type === TokenType.Keyword && token.strValue === "endbfrange") {
+            break;
+        }
+        if (token.type === TokenType.HexString) {
+            const low = bytesToInt(token.rawBytes);
+            const highToken = tokenizer.next();
+            if (highToken.type !== TokenType.HexString) {
+                continue;
+            }
+            const high = bytesToInt(highToken.rawBytes);
+            const mappingToken = tokenizer.next();
+            if (mappingToken.type === TokenType.HexString) {
+                // Sequential mapping from base string
+                const unicode = decodeUtf16BE(mappingToken.rawBytes);
+                cmap.addBfRange(low, high, unicode);
+            }
+            else if (mappingToken.type === TokenType.ArrayBegin) {
+                // Array of individual mappings
+                const mappings = [];
+                while (true) {
+                    const elem = tokenizer.next();
+                    if (elem.type === TokenType.ArrayEnd || elem.type === TokenType.EOF) {
+                        break;
+                    }
+                    if (elem.type === TokenType.HexString) {
+                        mappings.push(decodeUtf16BE(elem.rawBytes));
+                    }
+                }
+                cmap.addBfRange(low, high, mappings);
+            }
+        }
+    }
+}
+// =============================================================================
+// Helpers
+// =============================================================================
+/**
+ * Convert a byte array to a big-endian integer.
+ * Uses multiplication instead of bitshift to avoid overflow for large codes.
+ */
+function bytesToInt(bytes) {
+    let result = 0;
+    for (let i = 0; i < bytes.length; i++) {
+        result = result * 256 + bytes[i];
+    }
+    return result;
+}
+/**
+ * Decode a UTF-16BE byte array to a JavaScript string.
+ */
+function decodeUtf16BE(bytes) {
+    let result = "";
+    for (let i = 0; i + 1 < bytes.length; i += 2) {
+        const code = (bytes[i] << 8) | bytes[i + 1];
+        // Handle surrogate pairs
+        if (code >= 0xd800 && code <= 0xdbff && i + 3 < bytes.length) {
+            const low = (bytes[i + 2] << 8) | bytes[i + 3];
+            if (low >= 0xdc00 && low <= 0xdfff) {
+                const cp = 0x10000 + ((code - 0xd800) << 10) + (low - 0xdc00);
+                result += String.fromCodePoint(cp);
+                i += 2;
+                continue;
+            }
+        }
+        result += String.fromCharCode(code);
+    }
+    // Single-byte code: treat as direct character code
+    if (bytes.length === 1) {
+        return String.fromCharCode(bytes[0]);
+    }
+    return result;
+}
+/**
+ * Get the first code point from a string.
+ */
+function stringToCodePoint(str) {
+    return str.codePointAt(0) ?? 0;
+}