npm - @kreuzberg/node - Versions diffs - 4.0.0-rc.16 → 4.0.0-rc.18 - Mend

@kreuzberg/node 4.0.0-rc.16 → 4.0.0-rc.18

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (8) hide show

package/dist/index.d.mts CHANGED Viewed

@@ -1,7 +1,7 @@
 import { PanicContext } from './errors.mjs';
 export { CacheError, ErrorCode, ImageProcessingError, KreuzbergError, MissingDependencyError, OcrError, ParsingError, PluginError, ValidationError } from './errors.mjs';
-import { ExtractionConfig as ExtractionConfig$1, ExtractionResult, PostProcessorProtocol, ValidatorProtocol, OcrBackendProtocol, ErrorClassification } from './types.mjs';
-export { ArchiveMetadata, Chunk, ChunkMetadata, ChunkingConfig, EmailMetadata, ErrorMetadata, ExcelMetadata, ExtractedImage, HtmlConversionOptions, HtmlMetadata, HtmlPreprocessingOptions, ImageExtractionConfig, ImageMetadata, ImagePreprocessingMetadata, KeywordAlgorithm, KeywordConfig, LanguageDetectionConfig, Metadata, OcrConfig, OcrMetadata, PageBoundary, PageConfig, PageContent, PageInfo, PageStructure, PageUnitType, PdfConfig, PdfMetadata, PostProcessorConfig, PptxMetadata, ProcessingStage, RakeParams, Table, TesseractConfig, TextMetadata, TokenReductionConfig, XmlMetadata, YakeParams } from './types.mjs';
+import { ExtractionConfig as ExtractionConfig$1, ExtractionResult, PostProcessorProtocol, ValidatorProtocol, OcrBackendProtocol, OcrConfig, ChunkingConfig, ImageExtractionConfig, PdfConfig, KeywordConfig, LanguageDetectionConfig, ErrorClassification } from './types.mjs';
+export { ArchiveMetadata, Chunk, ChunkMetadata, EmailMetadata, ErrorMetadata, ExcelMetadata, ExtractedImage, HtmlConversionOptions, HtmlMetadata, HtmlPreprocessingOptions, ImageMetadata, ImagePreprocessingMetadata, KeywordAlgorithm, Metadata, OcrMetadata, PageBoundary, PageConfig, PageContent, PageInfo, PageStructure, PageUnitType, PdfMetadata, PostProcessorConfig, PptxMetadata, ProcessingStage, RakeParams, Table, TesseractConfig, TextMetadata, TokenReductionConfig, XmlMetadata, YakeParams } from './types.mjs';
 export { GutenOcrBackend } from './ocr/guten-ocr.mjs';
 /**
@@ -97,7 +97,7 @@ declare function __resetBindingForTests(): void;
  * const result2 = extractFileSync('scanned.pdf', null, config);
  * ```
  */
-declare function extractFileSync(filePath: string, mimeType?: string | null, config?: ExtractionConfig$1 | null): ExtractionResult;
+declare function extractFileSync(filePath: string, mimeTypeOrConfig?: string | null | ExtractionConfig$1, maybeConfig?: ExtractionConfig$1 | null): ExtractionResult;
 /**
  * Extract content from a single file (asynchronous).
  *
@@ -133,7 +133,7 @@ declare function extractFileSync(filePath: string, mimeType?: string | null, con
  * console.log(result2.chunks); // Array of text chunks
  * ```
  */
-declare function extractFile(filePath: string, mimeType?: string | null, config?: ExtractionConfig$1 | null): Promise<ExtractionResult>;
+declare function extractFile(filePath: string, mimeTypeOrConfig?: string | null | ExtractionConfig$1, maybeConfig?: ExtractionConfig$1 | null): Promise<ExtractionResult>;
 /**
  * Extract content from raw bytes (synchronous).
  *
@@ -161,7 +161,7 @@ declare function extractFile(filePath: string, mimeType?: string | null, config?
  * console.log(result.content);
  * ```
  */
-declare function extractBytesSync(data: Uint8Array, mimeType: string, config?: ExtractionConfig$1 | null): ExtractionResult;
+declare function extractBytesSync(dataOrPath: Uint8Array | string, mimeType: string, config?: ExtractionConfig$1 | null): ExtractionResult;
 /**
  * Extract content from raw bytes (asynchronous).
  *
@@ -189,7 +189,7 @@ declare function extractBytesSync(data: Uint8Array, mimeType: string, config?: E
  * console.log(result.content);
  * ```
  */
-declare function extractBytes(data: Uint8Array, mimeType: string, config?: ExtractionConfig$1 | null): Promise<ExtractionResult>;
+declare function extractBytes(dataOrPath: Uint8Array | string, mimeType: string, config?: ExtractionConfig$1 | null): Promise<ExtractionResult>;
 /**
  * Extract content from multiple files in parallel (synchronous).
  *
@@ -610,23 +610,109 @@ declare function unregisterDocumentExtractor(name: string): void;
  */
 declare function clearDocumentExtractors(): void;
 /**
- * ExtractionConfig namespace with static methods for loading configuration from files.
+ * Builder class for creating ExtractionConfig objects with a fluent API.
  *
- * Provides a factory method to load extraction configuration from TOML, YAML, or JSON files.
- * The file format is automatically detected based on the file extension.
+ * Provides a convenient way to build extraction configurations using method chaining.
+ *
+ * @example
+ * ```typescript
+ * import { ExtractionConfig, extractFile } from '@kreuzberg/node';
+ *
+ * // Create with builder pattern
+ * const config = ExtractionConfig.default()
+ *   .withChunking({ maxChars: 2048 })
+ *   .withOcr({ backend: 'tesseract', language: 'eng' })
+ *   .build();
+ *
+ * const result = await extractFile('document.pdf', null, config);
+ * ```
+ */
+declare class ExtractionConfigBuilder {
+    private config;
+    /**
+     * Create a new builder with default configuration.
+     */
+    static default(): ExtractionConfigBuilder;
+    /**
+     * Set OCR configuration.
+     */
+    withOcr(ocr: OcrConfig): ExtractionConfigBuilder;
+    /**
+     * Set chunking configuration.
+     */
+    withChunking(chunking: ChunkingConfig): ExtractionConfigBuilder;
+    /**
+     * Set image extraction configuration.
+     */
+    withImageExtraction(images: ImageExtractionConfig): ExtractionConfigBuilder;
+    /**
+     * Set PDF configuration.
+     */
+    withPdf(pdf: PdfConfig): ExtractionConfigBuilder;
+    /**
+     * Set keyword extraction configuration.
+     */
+    withKeywords(keywords: KeywordConfig): ExtractionConfigBuilder;
+    /**
+     * Set language detection configuration.
+     */
+    withLanguageDetection(languageDetection: LanguageDetectionConfig): ExtractionConfigBuilder;
+    /**
+     * Set whether to enable metadata extraction.
+     */
+    withMetadataExtraction(enabled: boolean): ExtractionConfigBuilder;
+    /**
+     * Set whether to enable quality mode.
+     */
+    withQualityMode(enabled: boolean): ExtractionConfigBuilder;
+    /**
+     * Build and return the final ExtractionConfig object.
+     */
+    build(): ExtractionConfig$1;
+}
+/**
+ * ExtractionConfig namespace with static methods for loading configuration from files
+ * and creating new configurations with the builder pattern.
+ *
+ * Provides factory methods to load extraction configuration from TOML, YAML, or JSON files,
+ * or to create configurations using a fluent builder API.
  *
  * @example
  * ```typescript
  * import { ExtractionConfig, extractFile } from '@kreuzberg/node';
  *
  * // Load configuration from file
- * const config = ExtractionConfig.fromFile('config.toml');
+ * const config1 = ExtractionConfig.fromFile('config.toml');
+ *
+ * // Create with builder pattern
+ * const config2 = ExtractionConfig.default()
+ *   .withChunking({ maxChars: 2048 })
+ *   .build();
  *
  * // Use with extraction
- * const result = await extractFile('document.pdf', null, config);
+ * const result = await extractFile('document.pdf', null, config2);
  * ```
  */
 declare const ExtractionConfig: {
+    /**
+     * Create a default extraction configuration using the builder pattern.
+     *
+     * Returns a builder object that allows you to configure extraction settings
+     * using method chaining.
+     *
+     * @returns ExtractionConfigBuilder for chaining configuration calls
+     *
+     * @example
+     * ```typescript
+     * import { ExtractionConfig } from '@kreuzberg/node';
+     *
+     * const config = ExtractionConfig.default()
+     *   .withChunking({ maxChars: 2048 })
+     *   .withOcr({ backend: 'tesseract', language: 'eng' })
+     *   .build();
+     * ```
+     */
+    default(): ExtractionConfigBuilder;
     /**
      * Load extraction configuration from a file.
      *
@@ -711,28 +797,30 @@ declare function detectMimeType(bytes: Buffer): string;
 /**
  * Detect MIME type from a file path.
  *
- * Uses file extension to determine MIME type. Falls back to `mime_guess` crate
- * if extension-based detection fails.
+ * Determines the MIME type based on the file extension in the provided path.
+ * By default, checks if the file exists; can be disabled with checkExists parameter.
  *
- * @param path - Path to the file (string)
- * @returns The detected MIME type string
+ * @param filePath - The file path to detect MIME type from (e.g., 'document.pdf')
+ * @param checkExists - Whether to verify the file exists (default: true)
+ * @returns The detected MIME type as a string (e.g., 'application/pdf')
  *
- * @throws {Error} If MIME type cannot be determined from path/extension
- * @throws {Error} If extension is unknown
+ * @throws {Error} If MIME type cannot be determined from the file extension,
+ * or if checkExists is true and the file does not exist
  *
  * @example
  * ```typescript
  * import { detectMimeTypeFromPath } from '@kreuzberg/node';
  *
- * // Detect from existing file
- * const mimeType = detectMimeTypeFromPath('document.pdf');
+ * // Detect MIME type from existing file
+ * const mimeType = detectMimeTypeFromPath('/path/to/document.pdf');
  * console.log(mimeType); // 'application/pdf'
  *
- * const mimeType2 = detectMimeTypeFromPath('document.docx');
+ * // Detect without checking file existence
+ * const mimeType2 = detectMimeTypeFromPath('document.docx', false);
  * console.log(mimeType2); // 'application/vnd.openxmlformats-officedocument.wordprocessingml.document'
  * ```
  */
-declare function detectMimeTypeFromPath(path: string): string;
+declare function detectMimeTypeFromPath(filePath: string, checkExists?: boolean): string;
 /**
  * Validate that a MIME type is supported by Kreuzberg.
  *
@@ -972,6 +1060,6 @@ declare function getErrorCodeDescription(code: number): string;
  * ```
  */
 declare function classifyError(errorMessage: string): ErrorClassification;
-declare const __version__ = "4.0.0-rc.16";
+declare const __version__ = "4.0.0-rc.18";
-export { type EmbeddingPreset, ErrorClassification, ExtractionConfig, ExtractionResult, OcrBackendProtocol, PanicContext, PostProcessorProtocol, ValidatorProtocol, __resetBindingForTests, __setBindingForTests, __version__, batchExtractBytes, batchExtractBytesSync, batchExtractFiles, batchExtractFilesSync, classifyError, clearDocumentExtractors, clearOcrBackends, clearPostProcessors, clearValidators, detectMimeType, detectMimeTypeFromPath, extractBytes, extractBytesSync, extractFile, extractFileSync, getEmbeddingPreset, getErrorCodeDescription, getErrorCodeName, getExtensionsForMime, getLastErrorCode, getLastPanicContext, listDocumentExtractors, listEmbeddingPresets, listOcrBackends, listPostProcessors, listValidators, registerOcrBackend, registerPostProcessor, registerValidator, unregisterDocumentExtractor, unregisterOcrBackend, unregisterPostProcessor, unregisterValidator, validateMimeType };
+export { ChunkingConfig, type EmbeddingPreset, ErrorClassification, ExtractionConfig, ExtractionResult, ImageExtractionConfig, KeywordConfig, LanguageDetectionConfig, OcrBackendProtocol, OcrConfig, PanicContext, PdfConfig, PostProcessorProtocol, ValidatorProtocol, __resetBindingForTests, __setBindingForTests, __version__, batchExtractBytes, batchExtractBytesSync, batchExtractFiles, batchExtractFilesSync, classifyError, clearDocumentExtractors, clearOcrBackends, clearPostProcessors, clearValidators, detectMimeType, detectMimeTypeFromPath, extractBytes, extractBytesSync, extractFile, extractFileSync, getEmbeddingPreset, getErrorCodeDescription, getErrorCodeName, getExtensionsForMime, getLastErrorCode, getLastPanicContext, listDocumentExtractors, listEmbeddingPresets, listOcrBackends, listPostProcessors, listValidators, registerOcrBackend, registerPostProcessor, registerValidator, unregisterDocumentExtractor, unregisterOcrBackend, unregisterPostProcessor, unregisterValidator, validateMimeType };

package/dist/index.d.ts CHANGED Viewed

@@ -1,7 +1,7 @@
 import { PanicContext } from './errors.js';
 export { CacheError, ErrorCode, ImageProcessingError, KreuzbergError, MissingDependencyError, OcrError, ParsingError, PluginError, ValidationError } from './errors.js';
-import { ExtractionConfig as ExtractionConfig$1, ExtractionResult, PostProcessorProtocol, ValidatorProtocol, OcrBackendProtocol, ErrorClassification } from './types.js';
-export { ArchiveMetadata, Chunk, ChunkMetadata, ChunkingConfig, EmailMetadata, ErrorMetadata, ExcelMetadata, ExtractedImage, HtmlConversionOptions, HtmlMetadata, HtmlPreprocessingOptions, ImageExtractionConfig, ImageMetadata, ImagePreprocessingMetadata, KeywordAlgorithm, KeywordConfig, LanguageDetectionConfig, Metadata, OcrConfig, OcrMetadata, PageBoundary, PageConfig, PageContent, PageInfo, PageStructure, PageUnitType, PdfConfig, PdfMetadata, PostProcessorConfig, PptxMetadata, ProcessingStage, RakeParams, Table, TesseractConfig, TextMetadata, TokenReductionConfig, XmlMetadata, YakeParams } from './types.js';
+import { ExtractionConfig as ExtractionConfig$1, ExtractionResult, PostProcessorProtocol, ValidatorProtocol, OcrBackendProtocol, OcrConfig, ChunkingConfig, ImageExtractionConfig, PdfConfig, KeywordConfig, LanguageDetectionConfig, ErrorClassification } from './types.js';
+export { ArchiveMetadata, Chunk, ChunkMetadata, EmailMetadata, ErrorMetadata, ExcelMetadata, ExtractedImage, HtmlConversionOptions, HtmlMetadata, HtmlPreprocessingOptions, ImageMetadata, ImagePreprocessingMetadata, KeywordAlgorithm, Metadata, OcrMetadata, PageBoundary, PageConfig, PageContent, PageInfo, PageStructure, PageUnitType, PdfMetadata, PostProcessorConfig, PptxMetadata, ProcessingStage, RakeParams, Table, TesseractConfig, TextMetadata, TokenReductionConfig, XmlMetadata, YakeParams } from './types.js';
 export { GutenOcrBackend } from './ocr/guten-ocr.js';
 /**
@@ -97,7 +97,7 @@ declare function __resetBindingForTests(): void;
  * const result2 = extractFileSync('scanned.pdf', null, config);
  * ```
  */
-declare function extractFileSync(filePath: string, mimeType?: string | null, config?: ExtractionConfig$1 | null): ExtractionResult;
+declare function extractFileSync(filePath: string, mimeTypeOrConfig?: string | null | ExtractionConfig$1, maybeConfig?: ExtractionConfig$1 | null): ExtractionResult;
 /**
  * Extract content from a single file (asynchronous).
  *
@@ -133,7 +133,7 @@ declare function extractFileSync(filePath: string, mimeType?: string | null, con
  * console.log(result2.chunks); // Array of text chunks
  * ```
  */
-declare function extractFile(filePath: string, mimeType?: string | null, config?: ExtractionConfig$1 | null): Promise<ExtractionResult>;
+declare function extractFile(filePath: string, mimeTypeOrConfig?: string | null | ExtractionConfig$1, maybeConfig?: ExtractionConfig$1 | null): Promise<ExtractionResult>;
 /**
  * Extract content from raw bytes (synchronous).
  *
@@ -161,7 +161,7 @@ declare function extractFile(filePath: string, mimeType?: string | null, config?
  * console.log(result.content);
  * ```
  */
-declare function extractBytesSync(data: Uint8Array, mimeType: string, config?: ExtractionConfig$1 | null): ExtractionResult;
+declare function extractBytesSync(dataOrPath: Uint8Array | string, mimeType: string, config?: ExtractionConfig$1 | null): ExtractionResult;
 /**
  * Extract content from raw bytes (asynchronous).
  *
@@ -189,7 +189,7 @@ declare function extractBytesSync(data: Uint8Array, mimeType: string, config?: E
  * console.log(result.content);
  * ```
  */
-declare function extractBytes(data: Uint8Array, mimeType: string, config?: ExtractionConfig$1 | null): Promise<ExtractionResult>;
+declare function extractBytes(dataOrPath: Uint8Array | string, mimeType: string, config?: ExtractionConfig$1 | null): Promise<ExtractionResult>;
 /**
  * Extract content from multiple files in parallel (synchronous).
  *
@@ -610,23 +610,109 @@ declare function unregisterDocumentExtractor(name: string): void;
  */
 declare function clearDocumentExtractors(): void;
 /**
- * ExtractionConfig namespace with static methods for loading configuration from files.
+ * Builder class for creating ExtractionConfig objects with a fluent API.
  *
- * Provides a factory method to load extraction configuration from TOML, YAML, or JSON files.
- * The file format is automatically detected based on the file extension.
+ * Provides a convenient way to build extraction configurations using method chaining.
+ *
+ * @example
+ * ```typescript
+ * import { ExtractionConfig, extractFile } from '@kreuzberg/node';
+ *
+ * // Create with builder pattern
+ * const config = ExtractionConfig.default()
+ *   .withChunking({ maxChars: 2048 })
+ *   .withOcr({ backend: 'tesseract', language: 'eng' })
+ *   .build();
+ *
+ * const result = await extractFile('document.pdf', null, config);
+ * ```
+ */
+declare class ExtractionConfigBuilder {
+    private config;
+    /**
+     * Create a new builder with default configuration.
+     */
+    static default(): ExtractionConfigBuilder;
+    /**
+     * Set OCR configuration.
+     */
+    withOcr(ocr: OcrConfig): ExtractionConfigBuilder;
+    /**
+     * Set chunking configuration.
+     */
+    withChunking(chunking: ChunkingConfig): ExtractionConfigBuilder;
+    /**
+     * Set image extraction configuration.
+     */
+    withImageExtraction(images: ImageExtractionConfig): ExtractionConfigBuilder;
+    /**
+     * Set PDF configuration.
+     */
+    withPdf(pdf: PdfConfig): ExtractionConfigBuilder;
+    /**
+     * Set keyword extraction configuration.
+     */
+    withKeywords(keywords: KeywordConfig): ExtractionConfigBuilder;
+    /**
+     * Set language detection configuration.
+     */
+    withLanguageDetection(languageDetection: LanguageDetectionConfig): ExtractionConfigBuilder;
+    /**
+     * Set whether to enable metadata extraction.
+     */
+    withMetadataExtraction(enabled: boolean): ExtractionConfigBuilder;
+    /**
+     * Set whether to enable quality mode.
+     */
+    withQualityMode(enabled: boolean): ExtractionConfigBuilder;
+    /**
+     * Build and return the final ExtractionConfig object.
+     */
+    build(): ExtractionConfig$1;
+}
+/**
+ * ExtractionConfig namespace with static methods for loading configuration from files
+ * and creating new configurations with the builder pattern.
+ *
+ * Provides factory methods to load extraction configuration from TOML, YAML, or JSON files,
+ * or to create configurations using a fluent builder API.
  *
  * @example
  * ```typescript
  * import { ExtractionConfig, extractFile } from '@kreuzberg/node';
  *
  * // Load configuration from file
- * const config = ExtractionConfig.fromFile('config.toml');
+ * const config1 = ExtractionConfig.fromFile('config.toml');
+ *
+ * // Create with builder pattern
+ * const config2 = ExtractionConfig.default()
+ *   .withChunking({ maxChars: 2048 })
+ *   .build();
  *
  * // Use with extraction
- * const result = await extractFile('document.pdf', null, config);
+ * const result = await extractFile('document.pdf', null, config2);
  * ```
  */
 declare const ExtractionConfig: {
+    /**
+     * Create a default extraction configuration using the builder pattern.
+     *
+     * Returns a builder object that allows you to configure extraction settings
+     * using method chaining.
+     *
+     * @returns ExtractionConfigBuilder for chaining configuration calls
+     *
+     * @example
+     * ```typescript
+     * import { ExtractionConfig } from '@kreuzberg/node';
+     *
+     * const config = ExtractionConfig.default()
+     *   .withChunking({ maxChars: 2048 })
+     *   .withOcr({ backend: 'tesseract', language: 'eng' })
+     *   .build();
+     * ```
+     */
+    default(): ExtractionConfigBuilder;
     /**
      * Load extraction configuration from a file.
      *
@@ -711,28 +797,30 @@ declare function detectMimeType(bytes: Buffer): string;
 /**
  * Detect MIME type from a file path.
  *
- * Uses file extension to determine MIME type. Falls back to `mime_guess` crate
- * if extension-based detection fails.
+ * Determines the MIME type based on the file extension in the provided path.
+ * By default, checks if the file exists; can be disabled with checkExists parameter.
  *
- * @param path - Path to the file (string)
- * @returns The detected MIME type string
+ * @param filePath - The file path to detect MIME type from (e.g., 'document.pdf')
+ * @param checkExists - Whether to verify the file exists (default: true)
+ * @returns The detected MIME type as a string (e.g., 'application/pdf')
  *
- * @throws {Error} If MIME type cannot be determined from path/extension
- * @throws {Error} If extension is unknown
+ * @throws {Error} If MIME type cannot be determined from the file extension,
+ * or if checkExists is true and the file does not exist
  *
  * @example
  * ```typescript
  * import { detectMimeTypeFromPath } from '@kreuzberg/node';
  *
- * // Detect from existing file
- * const mimeType = detectMimeTypeFromPath('document.pdf');
+ * // Detect MIME type from existing file
+ * const mimeType = detectMimeTypeFromPath('/path/to/document.pdf');
  * console.log(mimeType); // 'application/pdf'
  *
- * const mimeType2 = detectMimeTypeFromPath('document.docx');
+ * // Detect without checking file existence
+ * const mimeType2 = detectMimeTypeFromPath('document.docx', false);
  * console.log(mimeType2); // 'application/vnd.openxmlformats-officedocument.wordprocessingml.document'
  * ```
  */
-declare function detectMimeTypeFromPath(path: string): string;
+declare function detectMimeTypeFromPath(filePath: string, checkExists?: boolean): string;
 /**
  * Validate that a MIME type is supported by Kreuzberg.
  *
@@ -972,6 +1060,6 @@ declare function getErrorCodeDescription(code: number): string;
  * ```
  */
 declare function classifyError(errorMessage: string): ErrorClassification;
-declare const __version__ = "4.0.0-rc.16";
+declare const __version__ = "4.0.0-rc.18";
-export { type EmbeddingPreset, ErrorClassification, ExtractionConfig, ExtractionResult, OcrBackendProtocol, PanicContext, PostProcessorProtocol, ValidatorProtocol, __resetBindingForTests, __setBindingForTests, __version__, batchExtractBytes, batchExtractBytesSync, batchExtractFiles, batchExtractFilesSync, classifyError, clearDocumentExtractors, clearOcrBackends, clearPostProcessors, clearValidators, detectMimeType, detectMimeTypeFromPath, extractBytes, extractBytesSync, extractFile, extractFileSync, getEmbeddingPreset, getErrorCodeDescription, getErrorCodeName, getExtensionsForMime, getLastErrorCode, getLastPanicContext, listDocumentExtractors, listEmbeddingPresets, listOcrBackends, listPostProcessors, listValidators, registerOcrBackend, registerPostProcessor, registerValidator, unregisterDocumentExtractor, unregisterOcrBackend, unregisterPostProcessor, unregisterValidator, validateMimeType };
+export { ChunkingConfig, type EmbeddingPreset, ErrorClassification, ExtractionConfig, ExtractionResult, ImageExtractionConfig, KeywordConfig, LanguageDetectionConfig, OcrBackendProtocol, OcrConfig, PanicContext, PdfConfig, PostProcessorProtocol, ValidatorProtocol, __resetBindingForTests, __setBindingForTests, __version__, batchExtractBytes, batchExtractBytesSync, batchExtractFiles, batchExtractFilesSync, classifyError, clearDocumentExtractors, clearOcrBackends, clearPostProcessors, clearValidators, detectMimeType, detectMimeTypeFromPath, extractBytes, extractBytesSync, extractFile, extractFileSync, getEmbeddingPreset, getErrorCodeDescription, getErrorCodeName, getExtensionsForMime, getLastErrorCode, getLastPanicContext, listDocumentExtractors, listEmbeddingPresets, listOcrBackends, listPostProcessors, listValidators, registerOcrBackend, registerPostProcessor, registerValidator, unregisterDocumentExtractor, unregisterOcrBackend, unregisterPostProcessor, unregisterValidator, validateMimeType };