RubyGems - kreuzberg - Versions diffs - 4.0.0.rc1 - Mend

kreuzberg 4.0.0.rc1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (265) hide show

checksums.yaml +7 -0
data/.gitignore +8 -0
data/.rspec +3 -0
data/.rubocop.yaml +534 -0
data/Gemfile +9 -0
data/Gemfile.lock +157 -0
data/README.md +421 -0
data/Rakefile +25 -0
data/Steepfile +47 -0
data/examples/async_patterns.rb +340 -0
data/ext/kreuzberg_rb/extconf.rb +35 -0
data/ext/kreuzberg_rb/native/Cargo.toml +36 -0
data/ext/kreuzberg_rb/native/README.md +425 -0
data/ext/kreuzberg_rb/native/build.rs +17 -0
data/ext/kreuzberg_rb/native/include/ieeefp.h +11 -0
data/ext/kreuzberg_rb/native/include/msvc_compat/strings.h +14 -0
data/ext/kreuzberg_rb/native/include/strings.h +20 -0
data/ext/kreuzberg_rb/native/include/unistd.h +47 -0
data/ext/kreuzberg_rb/native/src/lib.rs +2939 -0
data/extconf.rb +28 -0
data/kreuzberg.gemspec +105 -0
data/lib/kreuzberg/api_proxy.rb +142 -0
data/lib/kreuzberg/cache_api.rb +45 -0
data/lib/kreuzberg/cli.rb +55 -0
data/lib/kreuzberg/cli_proxy.rb +127 -0
data/lib/kreuzberg/config.rb +684 -0
data/lib/kreuzberg/errors.rb +50 -0
data/lib/kreuzberg/extraction_api.rb +84 -0
data/lib/kreuzberg/mcp_proxy.rb +186 -0
data/lib/kreuzberg/ocr_backend_protocol.rb +113 -0
data/lib/kreuzberg/post_processor_protocol.rb +86 -0
data/lib/kreuzberg/result.rb +216 -0
data/lib/kreuzberg/setup_lib_path.rb +79 -0
data/lib/kreuzberg/validator_protocol.rb +89 -0
data/lib/kreuzberg/version.rb +5 -0
data/lib/kreuzberg.rb +82 -0
data/pkg/kreuzberg-4.0.0.rc1.gem +0 -0
data/sig/kreuzberg/internal.rbs +184 -0
data/sig/kreuzberg.rbs +468 -0
data/spec/binding/cache_spec.rb +227 -0
data/spec/binding/cli_proxy_spec.rb +87 -0
data/spec/binding/cli_spec.rb +54 -0
data/spec/binding/config_spec.rb +345 -0
data/spec/binding/config_validation_spec.rb +283 -0
data/spec/binding/error_handling_spec.rb +213 -0
data/spec/binding/errors_spec.rb +66 -0
data/spec/binding/plugins/ocr_backend_spec.rb +307 -0
data/spec/binding/plugins/postprocessor_spec.rb +269 -0
data/spec/binding/plugins/validator_spec.rb +274 -0
data/spec/examples.txt +104 -0
data/spec/fixtures/config.toml +39 -0
data/spec/fixtures/config.yaml +42 -0
data/spec/fixtures/invalid_config.toml +4 -0
data/spec/smoke/package_spec.rb +178 -0
data/spec/spec_helper.rb +42 -0
data/vendor/kreuzberg/Cargo.toml +134 -0
data/vendor/kreuzberg/README.md +175 -0
data/vendor/kreuzberg/build.rs +460 -0
data/vendor/kreuzberg/src/api/error.rs +81 -0
data/vendor/kreuzberg/src/api/handlers.rs +199 -0
data/vendor/kreuzberg/src/api/mod.rs +79 -0
data/vendor/kreuzberg/src/api/server.rs +353 -0
data/vendor/kreuzberg/src/api/types.rs +170 -0
data/vendor/kreuzberg/src/bin/profile_extract.rs +455 -0
data/vendor/kreuzberg/src/cache/mod.rs +1143 -0
data/vendor/kreuzberg/src/chunking/mod.rs +677 -0
data/vendor/kreuzberg/src/core/batch_mode.rs +35 -0
data/vendor/kreuzberg/src/core/config.rs +1032 -0
data/vendor/kreuzberg/src/core/extractor.rs +903 -0
data/vendor/kreuzberg/src/core/io.rs +327 -0
data/vendor/kreuzberg/src/core/mime.rs +615 -0
data/vendor/kreuzberg/src/core/mod.rs +42 -0
data/vendor/kreuzberg/src/core/pipeline.rs +906 -0
data/vendor/kreuzberg/src/embeddings.rs +323 -0
data/vendor/kreuzberg/src/error.rs +431 -0
data/vendor/kreuzberg/src/extraction/archive.rs +954 -0
data/vendor/kreuzberg/src/extraction/docx.rs +40 -0
data/vendor/kreuzberg/src/extraction/email.rs +854 -0
data/vendor/kreuzberg/src/extraction/excel.rs +688 -0
data/vendor/kreuzberg/src/extraction/html.rs +553 -0
data/vendor/kreuzberg/src/extraction/image.rs +368 -0
data/vendor/kreuzberg/src/extraction/libreoffice.rs +564 -0
data/vendor/kreuzberg/src/extraction/mod.rs +77 -0
data/vendor/kreuzberg/src/extraction/office_metadata/app_properties.rs +398 -0
data/vendor/kreuzberg/src/extraction/office_metadata/core_properties.rs +247 -0
data/vendor/kreuzberg/src/extraction/office_metadata/custom_properties.rs +240 -0
data/vendor/kreuzberg/src/extraction/office_metadata/mod.rs +128 -0
data/vendor/kreuzberg/src/extraction/pandoc/batch.rs +275 -0
data/vendor/kreuzberg/src/extraction/pandoc/mime_types.rs +178 -0
data/vendor/kreuzberg/src/extraction/pandoc/mod.rs +491 -0
data/vendor/kreuzberg/src/extraction/pandoc/server.rs +496 -0
data/vendor/kreuzberg/src/extraction/pandoc/subprocess.rs +1188 -0
data/vendor/kreuzberg/src/extraction/pandoc/version.rs +162 -0
data/vendor/kreuzberg/src/extraction/pptx.rs +3000 -0
data/vendor/kreuzberg/src/extraction/structured.rs +490 -0
data/vendor/kreuzberg/src/extraction/table.rs +328 -0
data/vendor/kreuzberg/src/extraction/text.rs +269 -0
data/vendor/kreuzberg/src/extraction/xml.rs +333 -0
data/vendor/kreuzberg/src/extractors/archive.rs +425 -0
data/vendor/kreuzberg/src/extractors/docx.rs +479 -0
data/vendor/kreuzberg/src/extractors/email.rs +129 -0
data/vendor/kreuzberg/src/extractors/excel.rs +344 -0
data/vendor/kreuzberg/src/extractors/html.rs +410 -0
data/vendor/kreuzberg/src/extractors/image.rs +195 -0
data/vendor/kreuzberg/src/extractors/mod.rs +268 -0
data/vendor/kreuzberg/src/extractors/pandoc.rs +201 -0
data/vendor/kreuzberg/src/extractors/pdf.rs +496 -0
data/vendor/kreuzberg/src/extractors/pptx.rs +234 -0
data/vendor/kreuzberg/src/extractors/structured.rs +126 -0
data/vendor/kreuzberg/src/extractors/text.rs +242 -0
data/vendor/kreuzberg/src/extractors/xml.rs +128 -0
data/vendor/kreuzberg/src/image/dpi.rs +164 -0
data/vendor/kreuzberg/src/image/mod.rs +6 -0
data/vendor/kreuzberg/src/image/preprocessing.rs +417 -0
data/vendor/kreuzberg/src/image/resize.rs +89 -0
data/vendor/kreuzberg/src/keywords/config.rs +154 -0
data/vendor/kreuzberg/src/keywords/mod.rs +237 -0
data/vendor/kreuzberg/src/keywords/processor.rs +267 -0
data/vendor/kreuzberg/src/keywords/rake.rs +294 -0
data/vendor/kreuzberg/src/keywords/types.rs +68 -0
data/vendor/kreuzberg/src/keywords/yake.rs +163 -0
data/vendor/kreuzberg/src/language_detection/mod.rs +942 -0
data/vendor/kreuzberg/src/lib.rs +102 -0
data/vendor/kreuzberg/src/mcp/mod.rs +32 -0
data/vendor/kreuzberg/src/mcp/server.rs +1966 -0
data/vendor/kreuzberg/src/ocr/cache.rs +469 -0
data/vendor/kreuzberg/src/ocr/error.rs +37 -0
data/vendor/kreuzberg/src/ocr/hocr.rs +216 -0
data/vendor/kreuzberg/src/ocr/mod.rs +58 -0
data/vendor/kreuzberg/src/ocr/processor.rs +847 -0
data/vendor/kreuzberg/src/ocr/table/mod.rs +4 -0
data/vendor/kreuzberg/src/ocr/table/tsv_parser.rs +144 -0
data/vendor/kreuzberg/src/ocr/tesseract_backend.rs +450 -0
data/vendor/kreuzberg/src/ocr/types.rs +393 -0
data/vendor/kreuzberg/src/ocr/utils.rs +47 -0
data/vendor/kreuzberg/src/ocr/validation.rs +206 -0
data/vendor/kreuzberg/src/pdf/error.rs +122 -0
data/vendor/kreuzberg/src/pdf/images.rs +139 -0
data/vendor/kreuzberg/src/pdf/metadata.rs +346 -0
data/vendor/kreuzberg/src/pdf/mod.rs +50 -0
data/vendor/kreuzberg/src/pdf/rendering.rs +369 -0
data/vendor/kreuzberg/src/pdf/table.rs +420 -0
data/vendor/kreuzberg/src/pdf/text.rs +161 -0
data/vendor/kreuzberg/src/plugins/extractor.rs +1010 -0
data/vendor/kreuzberg/src/plugins/mod.rs +209 -0
data/vendor/kreuzberg/src/plugins/ocr.rs +629 -0
data/vendor/kreuzberg/src/plugins/processor.rs +641 -0
data/vendor/kreuzberg/src/plugins/registry.rs +1324 -0
data/vendor/kreuzberg/src/plugins/traits.rs +258 -0
data/vendor/kreuzberg/src/plugins/validator.rs +955 -0
data/vendor/kreuzberg/src/stopwords/mod.rs +1470 -0
data/vendor/kreuzberg/src/text/mod.rs +19 -0
data/vendor/kreuzberg/src/text/quality.rs +697 -0
data/vendor/kreuzberg/src/text/string_utils.rs +217 -0
data/vendor/kreuzberg/src/text/token_reduction/cjk_utils.rs +164 -0
data/vendor/kreuzberg/src/text/token_reduction/config.rs +100 -0
data/vendor/kreuzberg/src/text/token_reduction/core.rs +796 -0
data/vendor/kreuzberg/src/text/token_reduction/filters.rs +902 -0
data/vendor/kreuzberg/src/text/token_reduction/mod.rs +160 -0
data/vendor/kreuzberg/src/text/token_reduction/semantic.rs +619 -0
data/vendor/kreuzberg/src/text/token_reduction/simd_text.rs +147 -0
data/vendor/kreuzberg/src/types.rs +873 -0
data/vendor/kreuzberg/src/utils/mod.rs +17 -0
data/vendor/kreuzberg/src/utils/quality.rs +959 -0
data/vendor/kreuzberg/src/utils/string_utils.rs +381 -0
data/vendor/kreuzberg/stopwords/af_stopwords.json +53 -0
data/vendor/kreuzberg/stopwords/ar_stopwords.json +482 -0
data/vendor/kreuzberg/stopwords/bg_stopwords.json +261 -0
data/vendor/kreuzberg/stopwords/bn_stopwords.json +400 -0
data/vendor/kreuzberg/stopwords/br_stopwords.json +1205 -0
data/vendor/kreuzberg/stopwords/ca_stopwords.json +280 -0
data/vendor/kreuzberg/stopwords/cs_stopwords.json +425 -0
data/vendor/kreuzberg/stopwords/da_stopwords.json +172 -0
data/vendor/kreuzberg/stopwords/de_stopwords.json +622 -0
data/vendor/kreuzberg/stopwords/el_stopwords.json +849 -0
data/vendor/kreuzberg/stopwords/en_stopwords.json +1300 -0
data/vendor/kreuzberg/stopwords/eo_stopwords.json +175 -0
data/vendor/kreuzberg/stopwords/es_stopwords.json +734 -0
data/vendor/kreuzberg/stopwords/et_stopwords.json +37 -0
data/vendor/kreuzberg/stopwords/eu_stopwords.json +100 -0
data/vendor/kreuzberg/stopwords/fa_stopwords.json +801 -0
data/vendor/kreuzberg/stopwords/fi_stopwords.json +849 -0
data/vendor/kreuzberg/stopwords/fr_stopwords.json +693 -0
data/vendor/kreuzberg/stopwords/ga_stopwords.json +111 -0
data/vendor/kreuzberg/stopwords/gl_stopwords.json +162 -0
data/vendor/kreuzberg/stopwords/gu_stopwords.json +226 -0
data/vendor/kreuzberg/stopwords/ha_stopwords.json +41 -0
data/vendor/kreuzberg/stopwords/he_stopwords.json +196 -0
data/vendor/kreuzberg/stopwords/hi_stopwords.json +227 -0
data/vendor/kreuzberg/stopwords/hr_stopwords.json +181 -0
data/vendor/kreuzberg/stopwords/hu_stopwords.json +791 -0
data/vendor/kreuzberg/stopwords/hy_stopwords.json +47 -0
data/vendor/kreuzberg/stopwords/id_stopwords.json +760 -0
data/vendor/kreuzberg/stopwords/it_stopwords.json +634 -0
data/vendor/kreuzberg/stopwords/ja_stopwords.json +136 -0
data/vendor/kreuzberg/stopwords/kn_stopwords.json +84 -0
data/vendor/kreuzberg/stopwords/ko_stopwords.json +681 -0
data/vendor/kreuzberg/stopwords/ku_stopwords.json +64 -0
data/vendor/kreuzberg/stopwords/la_stopwords.json +51 -0
data/vendor/kreuzberg/stopwords/lt_stopwords.json +476 -0
data/vendor/kreuzberg/stopwords/lv_stopwords.json +163 -0
data/vendor/kreuzberg/stopwords/ml_stopwords.json +1 -0
data/vendor/kreuzberg/stopwords/mr_stopwords.json +101 -0
data/vendor/kreuzberg/stopwords/ms_stopwords.json +477 -0
data/vendor/kreuzberg/stopwords/ne_stopwords.json +490 -0
data/vendor/kreuzberg/stopwords/nl_stopwords.json +415 -0
data/vendor/kreuzberg/stopwords/no_stopwords.json +223 -0
data/vendor/kreuzberg/stopwords/pl_stopwords.json +331 -0
data/vendor/kreuzberg/stopwords/pt_stopwords.json +562 -0
data/vendor/kreuzberg/stopwords/ro_stopwords.json +436 -0
data/vendor/kreuzberg/stopwords/ru_stopwords.json +561 -0
data/vendor/kreuzberg/stopwords/si_stopwords.json +193 -0
data/vendor/kreuzberg/stopwords/sk_stopwords.json +420 -0
data/vendor/kreuzberg/stopwords/sl_stopwords.json +448 -0
data/vendor/kreuzberg/stopwords/so_stopwords.json +32 -0
data/vendor/kreuzberg/stopwords/st_stopwords.json +33 -0
data/vendor/kreuzberg/stopwords/sv_stopwords.json +420 -0
data/vendor/kreuzberg/stopwords/sw_stopwords.json +76 -0
data/vendor/kreuzberg/stopwords/ta_stopwords.json +129 -0
data/vendor/kreuzberg/stopwords/te_stopwords.json +54 -0
data/vendor/kreuzberg/stopwords/th_stopwords.json +118 -0
data/vendor/kreuzberg/stopwords/tl_stopwords.json +149 -0
data/vendor/kreuzberg/stopwords/tr_stopwords.json +506 -0
data/vendor/kreuzberg/stopwords/uk_stopwords.json +75 -0
data/vendor/kreuzberg/stopwords/ur_stopwords.json +519 -0
data/vendor/kreuzberg/stopwords/vi_stopwords.json +647 -0
data/vendor/kreuzberg/stopwords/yo_stopwords.json +62 -0
data/vendor/kreuzberg/stopwords/zh_stopwords.json +796 -0
data/vendor/kreuzberg/stopwords/zu_stopwords.json +31 -0
data/vendor/kreuzberg/tests/api_tests.rs +966 -0
data/vendor/kreuzberg/tests/archive_integration.rs +543 -0
data/vendor/kreuzberg/tests/batch_orchestration.rs +542 -0
data/vendor/kreuzberg/tests/batch_processing.rs +304 -0
data/vendor/kreuzberg/tests/chunking_offset_demo.rs +92 -0
data/vendor/kreuzberg/tests/concurrency_stress.rs +509 -0
data/vendor/kreuzberg/tests/config_features.rs +580 -0
data/vendor/kreuzberg/tests/config_loading_tests.rs +439 -0
data/vendor/kreuzberg/tests/core_integration.rs +493 -0
data/vendor/kreuzberg/tests/csv_integration.rs +424 -0
data/vendor/kreuzberg/tests/docx_metadata_extraction_test.rs +124 -0
data/vendor/kreuzberg/tests/email_integration.rs +325 -0
data/vendor/kreuzberg/tests/error_handling.rs +393 -0
data/vendor/kreuzberg/tests/format_integration.rs +159 -0
data/vendor/kreuzberg/tests/helpers/mod.rs +142 -0
data/vendor/kreuzberg/tests/image_integration.rs +253 -0
data/vendor/kreuzberg/tests/keywords_integration.rs +479 -0
data/vendor/kreuzberg/tests/keywords_quality.rs +509 -0
data/vendor/kreuzberg/tests/mime_detection.rs +428 -0
data/vendor/kreuzberg/tests/ocr_configuration.rs +510 -0
data/vendor/kreuzberg/tests/ocr_errors.rs +676 -0
data/vendor/kreuzberg/tests/ocr_quality.rs +627 -0
data/vendor/kreuzberg/tests/ocr_stress.rs +469 -0
data/vendor/kreuzberg/tests/pandoc_integration.rs +503 -0
data/vendor/kreuzberg/tests/pdf_integration.rs +43 -0
data/vendor/kreuzberg/tests/pipeline_integration.rs +1412 -0
data/vendor/kreuzberg/tests/plugin_ocr_backend_test.rs +771 -0
data/vendor/kreuzberg/tests/plugin_postprocessor_test.rs +561 -0
data/vendor/kreuzberg/tests/plugin_system.rs +921 -0
data/vendor/kreuzberg/tests/plugin_validator_test.rs +783 -0
data/vendor/kreuzberg/tests/registry_integration_tests.rs +607 -0
data/vendor/kreuzberg/tests/security_validation.rs +404 -0
data/vendor/kreuzberg/tests/stopwords_integration_test.rs +888 -0
data/vendor/kreuzberg/tests/test_fastembed.rs +609 -0
data/vendor/kreuzberg/tests/xlsx_metadata_extraction_test.rs +87 -0
metadata +471 -0

data/vendor/kreuzberg/src/extractors/mod.rs ADDED Viewed

@@ -0,0 +1,268 @@
+//! Built-in document extractors.
+//!
+//! This module contains the default extractors that ship with Kreuzberg.
+//! All extractors implement the `DocumentExtractor` plugin trait.
+use crate::Result;
+use crate::plugins::registry::get_document_extractor_registry;
+use once_cell::sync::Lazy;
+use std::sync::Arc;
+pub mod structured;
+pub mod text;
+#[cfg(feature = "ocr")]
+pub mod image;
+#[cfg(feature = "archives")]
+pub mod archive;
+#[cfg(feature = "email")]
+pub mod email;
+#[cfg(feature = "excel")]
+pub mod excel;
+#[cfg(feature = "html")]
+pub mod html;
+#[cfg(feature = "office")]
+pub mod docx;
+#[cfg(feature = "office")]
+pub mod pandoc;
+#[cfg(feature = "pdf")]
+pub mod pdf;
+#[cfg(feature = "office")]
+pub mod pptx;
+#[cfg(feature = "xml")]
+pub mod xml;
+pub use structured::StructuredExtractor;
+pub use text::{MarkdownExtractor, PlainTextExtractor};
+#[cfg(feature = "ocr")]
+pub use image::ImageExtractor;
+#[cfg(feature = "archives")]
+pub use archive::{SevenZExtractor, TarExtractor, ZipExtractor};
+#[cfg(feature = "email")]
+pub use email::EmailExtractor;
+#[cfg(feature = "excel")]
+pub use excel::ExcelExtractor;
+#[cfg(feature = "html")]
+pub use html::HtmlExtractor;
+#[cfg(feature = "office")]
+pub use docx::DocxExtractor;
+#[cfg(feature = "office")]
+pub use pandoc::PandocExtractor;
+#[cfg(feature = "pdf")]
+pub use pdf::PdfExtractor;
+#[cfg(feature = "office")]
+pub use pptx::PptxExtractor;
+#[cfg(feature = "xml")]
+pub use xml::XmlExtractor;
+/// Lazy-initialized flag that ensures extractors are registered exactly once.
+///
+/// This static is accessed on first extraction operation to automatically
+/// register all built-in extractors with the plugin registry.
+static EXTRACTORS_INITIALIZED: Lazy<Result<()>> = Lazy::new(register_default_extractors);
+/// Ensure built-in extractors are registered.
+///
+/// This function is called automatically on first extraction operation.
+/// It's safe to call multiple times - registration only happens once,
+/// unless the registry was cleared, in which case extractors are re-registered.
+pub fn ensure_initialized() -> Result<()> {
+    // First, try the lazy initialization
+    EXTRACTORS_INITIALIZED
+        .as_ref()
+        .map(|_| ())
+        .map_err(|e| crate::KreuzbergError::Plugin {
+            message: format!("Failed to register default extractors: {}", e),
+            plugin_name: "built-in-extractors".to_string(),
+        })?;
+    // Check if registry is empty (e.g., after clear_document_extractors)
+    // If so, re-register the default extractors
+    let registry = get_document_extractor_registry();
+    let registry_guard = registry
+        .read()
+        .map_err(|e| crate::KreuzbergError::Other(format!("Document extractor registry lock poisoned: {}", e)))?;
+    if registry_guard.list().is_empty() {
+        // Drop read lock before acquiring write lock
+        drop(registry_guard);
+        register_default_extractors()?;
+    }
+    Ok(())
+}
+/// Register all built-in extractors with the global registry.
+///
+/// This function should be called once at application startup to register
+/// the default extractors (PlainText, Markdown, XML, etc.).
+///
+/// **Note:** This is called automatically on first extraction operation.
+/// Explicit calling is optional.
+///
+/// # Example
+///
+/// ```rust
+/// use kreuzberg::extractors::register_default_extractors;
+///
+/// # fn main() -> kreuzberg::Result<()> {
+/// register_default_extractors()?;
+/// # Ok(())
+/// # }
+/// ```
+pub fn register_default_extractors() -> Result<()> {
+    let registry = get_document_extractor_registry();
+    let mut registry = registry
+        .write()
+        .map_err(|e| crate::KreuzbergError::Other(format!("Document extractor registry lock poisoned: {}", e)))?;
+    registry.register(Arc::new(PlainTextExtractor::new()))?;
+    registry.register(Arc::new(MarkdownExtractor::new()))?;
+    registry.register(Arc::new(StructuredExtractor::new()))?;
+    #[cfg(feature = "ocr")]
+    registry.register(Arc::new(ImageExtractor::new()))?;
+    #[cfg(feature = "xml")]
+    registry.register(Arc::new(XmlExtractor::new()))?;
+    #[cfg(feature = "pdf")]
+    registry.register(Arc::new(PdfExtractor::new()))?;
+    #[cfg(feature = "excel")]
+    registry.register(Arc::new(ExcelExtractor::new()))?;
+    #[cfg(feature = "office")]
+    {
+        registry.register(Arc::new(DocxExtractor::new()))?;
+        registry.register(Arc::new(PptxExtractor::new()))?;
+        registry.register(Arc::new(PandocExtractor::new()))?;
+    }
+    #[cfg(feature = "email")]
+    registry.register(Arc::new(EmailExtractor::new()))?;
+    #[cfg(feature = "html")]
+    registry.register(Arc::new(HtmlExtractor::new()))?;
+    #[cfg(feature = "archives")]
+    {
+        registry.register(Arc::new(ZipExtractor::new()))?;
+        registry.register(Arc::new(TarExtractor::new()))?;
+        registry.register(Arc::new(SevenZExtractor::new()))?;
+    }
+    Ok(())
+}
+#[cfg(test)]
+mod tests {
+    use super::*;
+    #[test]
+    fn test_register_default_extractors() {
+        let registry = get_document_extractor_registry();
+        {
+            let mut reg = registry
+                .write()
+                .expect("Failed to acquire write lock on registry in test");
+            *reg = crate::plugins::registry::DocumentExtractorRegistry::new();
+        }
+        register_default_extractors().expect("Failed to register extractors");
+        let reg = registry
+            .read()
+            .expect("Failed to acquire read lock on registry in test");
+        let extractor_names = reg.list();
+        #[allow(unused_mut)]
+        let mut expected_count = 3;
+        assert!(extractor_names.contains(&"plain-text-extractor".to_string()));
+        assert!(extractor_names.contains(&"markdown-extractor".to_string()));
+        assert!(extractor_names.contains(&"structured-extractor".to_string()));
+        #[cfg(feature = "ocr")]
+        {
+            expected_count += 1;
+            assert!(extractor_names.contains(&"image-extractor".to_string()));
+        }
+        #[cfg(feature = "xml")]
+        {
+            expected_count += 1;
+            assert!(extractor_names.contains(&"xml-extractor".to_string()));
+        }
+        #[cfg(feature = "pdf")]
+        {
+            expected_count += 1;
+            assert!(extractor_names.contains(&"pdf-extractor".to_string()));
+        }
+        #[cfg(feature = "excel")]
+        {
+            expected_count += 1;
+            assert!(extractor_names.contains(&"excel-extractor".to_string()));
+        }
+        #[cfg(feature = "office")]
+        {
+            expected_count += 3;
+            assert!(extractor_names.contains(&"docx-extractor".to_string()));
+            assert!(extractor_names.contains(&"pptx-extractor".to_string()));
+            assert!(extractor_names.contains(&"pandoc-extractor".to_string()));
+        }
+        #[cfg(feature = "email")]
+        {
+            expected_count += 1;
+            assert!(extractor_names.contains(&"email-extractor".to_string()));
+        }
+        #[cfg(feature = "html")]
+        {
+            expected_count += 1;
+            assert!(extractor_names.contains(&"html-extractor".to_string()));
+        }
+        #[cfg(feature = "archives")]
+        {
+            expected_count += 3;
+            assert!(extractor_names.contains(&"zip-extractor".to_string()));
+            assert!(extractor_names.contains(&"tar-extractor".to_string()));
+            assert!(extractor_names.contains(&"7z-extractor".to_string()));
+        }
+        assert_eq!(
+            extractor_names.len(),
+            expected_count,
+            "Expected {} extractors based on enabled features",
+            expected_count
+        );
+    }
+    #[test]
+    fn test_ensure_initialized() {
+        ensure_initialized().expect("Failed to ensure extractors initialized");
+    }
+}

data/vendor/kreuzberg/src/extractors/pandoc.rs ADDED Viewed

@@ -0,0 +1,201 @@
+//! Pandoc-based extractors for various document formats.
+//!
+//! Supports: DOCX, ODT, EPUB, LaTeX, RST, RTF, and many more formats via Pandoc.
+use crate::Result;
+use crate::core::config::ExtractionConfig;
+use crate::extraction::pandoc::extract_bytes_from_mime;
+use crate::plugins::{DocumentExtractor, Plugin};
+use crate::types::{ExtractionResult, Metadata};
+use async_trait::async_trait;
+/// Generic Pandoc extractor for all Pandoc-supported formats.
+///
+/// This extractor handles all document formats supported by Pandoc, including:
+/// - Microsoft Word (DOCX)
+/// - OpenDocument Text (ODT)
+/// - EPUB
+/// - LaTeX
+/// - reStructuredText (RST)
+/// - RTF
+/// - And many more
+pub struct PandocExtractor;
+impl PandocExtractor {
+    /// Create a new Pandoc extractor.
+    pub fn new() -> Self {
+        Self
+    }
+}
+impl Default for PandocExtractor {
+    fn default() -> Self {
+        Self::new()
+    }
+}
+impl Plugin for PandocExtractor {
+    fn name(&self) -> &str {
+        "pandoc-extractor"
+    }
+    fn version(&self) -> String {
+        env!("CARGO_PKG_VERSION").to_string()
+    }
+    fn initialize(&self) -> Result<()> {
+        Ok(())
+    }
+    fn shutdown(&self) -> Result<()> {
+        Ok(())
+    }
+    fn description(&self) -> &str {
+        "Extracts content from Pandoc-supported formats (DOCX, ODT, EPUB, LaTeX, RST, RTF, etc.)"
+    }
+    fn author(&self) -> &str {
+        "Kreuzberg Team"
+    }
+}
+#[async_trait]
+impl DocumentExtractor for PandocExtractor {
+    async fn extract_bytes(
+        &self,
+        content: &[u8],
+        mime_type: &str,
+        _config: &ExtractionConfig,
+    ) -> Result<ExtractionResult> {
+        let pandoc_result = extract_bytes_from_mime(content, mime_type).await?;
+        let mut additional = std::collections::HashMap::new();
+        for (key, value) in pandoc_result.metadata {
+            additional.insert(key, value);
+        }
+        Ok(ExtractionResult {
+            content: pandoc_result.content,
+            mime_type: mime_type.to_string(),
+            metadata: Metadata {
+                additional,
+                ..Default::default()
+            },
+            tables: vec![],
+            detected_languages: None,
+            chunks: None,
+            images: None,
+        })
+    }
+    fn supported_mime_types(&self) -> &[&str] {
+        &[
+            "application/vnd.openxmlformats-officedocument.wordprocessingml.document",
+            "application/vnd.oasis.opendocument.text",
+            "application/epub+zip",
+            "application/x-latex",
+            "text/x-tex",
+            "text/x-rst",
+            "text/prs.fallenstein.rst",
+            "application/rtf",
+            "text/rtf",
+            "application/x-typst",
+            "application/x-ipynb+json",
+            "application/x-fictionbook+xml",
+            "text/x-org",
+            "text/x-commonmark",
+            "text/x-gfm",
+            "text/x-multimarkdown",
+            "text/x-markdown-extra",
+            "application/docbook+xml",
+            "application/x-jats+xml",
+            "application/x-opml+xml",
+        ]
+    }
+    fn priority(&self) -> i32 {
+        40
+    }
+}
+#[cfg(test)]
+mod tests {
+    use super::*;
+    use crate::extraction::pandoc::validate_pandoc_version;
+    #[tokio::test]
+    async fn test_pandoc_extractor_plugin_interface() {
+        let extractor = PandocExtractor::new();
+        assert_eq!(extractor.name(), "pandoc-extractor");
+        assert_eq!(extractor.version(), env!("CARGO_PKG_VERSION"));
+        assert_eq!(extractor.priority(), 40);
+        assert!(!extractor.supported_mime_types().is_empty());
+    }
+    #[tokio::test]
+    async fn test_pandoc_extractor_supports_docx() {
+        let extractor = PandocExtractor::new();
+        assert!(
+            extractor
+                .supported_mime_types()
+                .contains(&"application/vnd.openxmlformats-officedocument.wordprocessingml.document")
+        );
+    }
+    #[tokio::test]
+    async fn test_pandoc_extractor_supports_odt() {
+        let extractor = PandocExtractor::new();
+        assert!(
+            extractor
+                .supported_mime_types()
+                .contains(&"application/vnd.oasis.opendocument.text")
+        );
+    }
+    #[tokio::test]
+    async fn test_pandoc_extractor_supports_epub() {
+        let extractor = PandocExtractor::new();
+        assert!(extractor.supported_mime_types().contains(&"application/epub+zip"));
+    }
+    #[tokio::test]
+    async fn test_pandoc_extractor_supports_latex() {
+        let extractor = PandocExtractor::new();
+        assert!(extractor.supported_mime_types().contains(&"application/x-latex"));
+    }
+    #[tokio::test]
+    async fn test_pandoc_extractor_supports_rst() {
+        let extractor = PandocExtractor::new();
+        assert!(extractor.supported_mime_types().contains(&"text/x-rst"));
+    }
+    #[tokio::test]
+    async fn test_pandoc_extractor_markdown() {
+        if validate_pandoc_version().await.is_err() {
+            return;
+        }
+        let extractor = PandocExtractor::new();
+        let markdown = b"# Hello World\n\nThis is a test.";
+        let config = ExtractionConfig::default();
+        let result = extractor.extract_bytes(markdown, "text/x-rst", &config).await;
+        let _ = result;
+    }
+    #[tokio::test]
+    async fn test_pandoc_extractor_default() {
+        let extractor = PandocExtractor;
+        assert_eq!(extractor.name(), "pandoc-extractor");
+    }
+    #[tokio::test]
+    async fn test_pandoc_extractor_initialize_shutdown() {
+        let extractor = PandocExtractor::new();
+        assert!(extractor.initialize().is_ok());
+        assert!(extractor.shutdown().is_ok());
+    }
+}