RubyGems - kreuzberg - Versions diffs - 4.0.0.pre.rc.6 → 4.0.0.pre.rc.7 - Mend

kreuzberg 4.0.0.pre.rc.6 → 4.0.0.pre.rc.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (126) hide show

checksums.yaml +4 -4
data/Gemfile.lock +5 -3
data/README.md +15 -9
data/ext/kreuzberg_rb/native/.cargo/config.toml +2 -0
data/ext/kreuzberg_rb/native/Cargo.lock +516 -324
data/ext/kreuzberg_rb/native/Cargo.toml +13 -3
data/ext/kreuzberg_rb/native/src/lib.rs +139 -2
data/kreuzberg.gemspec +38 -4
data/lib/kreuzberg/config.rb +34 -1
data/lib/kreuzberg/result.rb +77 -14
data/lib/kreuzberg/version.rb +1 -1
data/sig/kreuzberg.rbs +23 -6
data/vendor/kreuzberg/Cargo.toml +25 -11
data/vendor/kreuzberg/README.md +13 -8
data/vendor/kreuzberg/build.rs +17 -6
data/vendor/kreuzberg/src/api/mod.rs +2 -0
data/vendor/kreuzberg/src/chunking/mod.rs +1279 -79
data/vendor/kreuzberg/src/chunking/processor.rs +220 -0
data/vendor/kreuzberg/src/core/config.rs +49 -1
data/vendor/kreuzberg/src/core/extractor.rs +134 -2
data/vendor/kreuzberg/src/core/mod.rs +4 -2
data/vendor/kreuzberg/src/core/pipeline.rs +188 -1
data/vendor/kreuzberg/src/extraction/docx.rs +358 -0
data/vendor/kreuzberg/src/extraction/html.rs +24 -8
data/vendor/kreuzberg/src/extraction/image.rs +124 -1
data/vendor/kreuzberg/src/extraction/libreoffice.rs +1 -2
data/vendor/kreuzberg/src/extraction/office_metadata/odt_properties.rs +0 -3
data/vendor/kreuzberg/src/extraction/pptx.rs +187 -87
data/vendor/kreuzberg/src/extractors/archive.rs +1 -0
data/vendor/kreuzberg/src/extractors/bibtex.rs +1 -0
data/vendor/kreuzberg/src/extractors/docbook.rs +2 -0
data/vendor/kreuzberg/src/extractors/docx.rs +50 -17
data/vendor/kreuzberg/src/extractors/email.rs +29 -15
data/vendor/kreuzberg/src/extractors/epub.rs +1 -0
data/vendor/kreuzberg/src/extractors/excel.rs +2 -0
data/vendor/kreuzberg/src/extractors/fictionbook.rs +1 -0
data/vendor/kreuzberg/src/extractors/html.rs +29 -15
data/vendor/kreuzberg/src/extractors/image.rs +25 -4
data/vendor/kreuzberg/src/extractors/jats.rs +3 -0
data/vendor/kreuzberg/src/extractors/jupyter.rs +1 -0
data/vendor/kreuzberg/src/extractors/latex.rs +1 -0
data/vendor/kreuzberg/src/extractors/markdown.rs +1 -0
data/vendor/kreuzberg/src/extractors/mod.rs +78 -14
data/vendor/kreuzberg/src/extractors/odt.rs +3 -3
data/vendor/kreuzberg/src/extractors/opml.rs +1 -0
data/vendor/kreuzberg/src/extractors/orgmode.rs +1 -0
data/vendor/kreuzberg/src/extractors/pdf.rs +194 -17
data/vendor/kreuzberg/src/extractors/pptx.rs +32 -13
data/vendor/kreuzberg/src/extractors/rst.rs +1 -0
data/vendor/kreuzberg/src/extractors/rtf.rs +3 -4
data/vendor/kreuzberg/src/extractors/structured.rs +2 -0
data/vendor/kreuzberg/src/extractors/text.rs +7 -2
data/vendor/kreuzberg/src/extractors/typst.rs +1 -0
data/vendor/kreuzberg/src/extractors/xml.rs +27 -15
data/vendor/kreuzberg/src/keywords/processor.rs +9 -1
data/vendor/kreuzberg/src/language_detection/mod.rs +43 -0
data/vendor/kreuzberg/src/language_detection/processor.rs +219 -0
data/vendor/kreuzberg/src/lib.rs +10 -2
data/vendor/kreuzberg/src/mcp/mod.rs +2 -0
data/vendor/kreuzberg/src/mcp/server.rs +14 -12
data/vendor/kreuzberg/src/ocr/tesseract_backend.rs +2 -0
data/vendor/kreuzberg/src/pdf/error.rs +8 -0
data/vendor/kreuzberg/src/pdf/metadata.rs +238 -95
data/vendor/kreuzberg/src/pdf/mod.rs +14 -2
data/vendor/kreuzberg/src/pdf/rendering.rs +1 -2
data/vendor/kreuzberg/src/pdf/table.rs +26 -2
data/vendor/kreuzberg/src/pdf/text.rs +89 -7
data/vendor/kreuzberg/src/plugins/extractor.rs +34 -3
data/vendor/kreuzberg/src/plugins/mod.rs +3 -0
data/vendor/kreuzberg/src/plugins/ocr.rs +22 -3
data/vendor/kreuzberg/src/plugins/processor.rs +8 -0
data/vendor/kreuzberg/src/plugins/registry.rs +2 -0
data/vendor/kreuzberg/src/plugins/validator.rs +11 -0
data/vendor/kreuzberg/src/text/mod.rs +6 -0
data/vendor/kreuzberg/src/text/quality_processor.rs +219 -0
data/vendor/kreuzberg/src/types.rs +173 -21
data/vendor/kreuzberg/tests/archive_integration.rs +2 -0
data/vendor/kreuzberg/tests/batch_processing.rs +5 -3
data/vendor/kreuzberg/tests/concurrency_stress.rs +14 -6
data/vendor/kreuzberg/tests/config_features.rs +15 -1
data/vendor/kreuzberg/tests/config_loading_tests.rs +1 -0
data/vendor/kreuzberg/tests/docbook_extractor_tests.rs +2 -0
data/vendor/kreuzberg/tests/email_integration.rs +2 -0
data/vendor/kreuzberg/tests/error_handling.rs +43 -34
data/vendor/kreuzberg/tests/format_integration.rs +2 -0
data/vendor/kreuzberg/tests/image_integration.rs +2 -0
data/vendor/kreuzberg/tests/mime_detection.rs +17 -16
data/vendor/kreuzberg/tests/ocr_configuration.rs +4 -0
data/vendor/kreuzberg/tests/ocr_errors.rs +22 -0
data/vendor/kreuzberg/tests/ocr_quality.rs +2 -0
data/vendor/kreuzberg/tests/odt_extractor_tests.rs +0 -21
data/vendor/kreuzberg/tests/pdf_integration.rs +2 -0
data/vendor/kreuzberg/tests/pipeline_integration.rs +25 -0
data/vendor/kreuzberg/tests/plugin_ocr_backend_test.rs +5 -0
data/vendor/kreuzberg/tests/plugin_system.rs +6 -0
data/vendor/kreuzberg/tests/registry_integration_tests.rs +1 -0
data/vendor/kreuzberg/tests/rst_extractor_tests.rs +2 -0
data/vendor/kreuzberg/tests/rtf_extractor_tests.rs +0 -1
data/vendor/kreuzberg/tests/security_validation.rs +1 -0
data/vendor/kreuzberg/tests/test_fastembed.rs +45 -23
data/vendor/kreuzberg/tests/typst_behavioral_tests.rs +1 -0
data/vendor/kreuzberg/tests/typst_extractor_tests.rs +3 -2
data/vendor/rb-sys/.cargo_vcs_info.json +2 -2
data/vendor/rb-sys/Cargo.lock +15 -15
data/vendor/rb-sys/Cargo.toml +4 -4
data/vendor/rb-sys/Cargo.toml.orig +4 -4
data/vendor/rb-sys/bin/release.sh +9 -8
data/vendor/rb-sys/build/features.rs +5 -2
data/vendor/rb-sys/build/main.rs +55 -15
data/vendor/rb-sys/build/stable_api_config.rs +4 -2
data/vendor/rb-sys/build/version.rs +3 -1
data/vendor/rb-sys/src/macros.rs +2 -2
data/vendor/rb-sys/src/special_consts.rs +1 -1
data/vendor/rb-sys/src/stable_api/compiled.rs +1 -1
data/vendor/rb-sys/src/stable_api/ruby_2_7.rs +12 -4
data/vendor/rb-sys/src/stable_api/ruby_3_0.rs +12 -4
data/vendor/rb-sys/src/stable_api/ruby_3_1.rs +12 -4
data/vendor/rb-sys/src/stable_api/ruby_3_2.rs +12 -4
data/vendor/rb-sys/src/stable_api/ruby_3_3.rs +19 -6
data/vendor/rb-sys/src/stable_api/ruby_3_4.rs +17 -5
data/vendor/rb-sys/src/stable_api.rs +0 -1
data/vendor/rb-sys/src/tracking_allocator.rs +1 -3
metadata +11 -10
data/vendor/kreuzberg/src/extractors/fictionbook.rs.backup2 +0 -738
data/vendor/rb-sys/.cargo-ok +0 -1
data/vendor/rb-sys/src/stable_api/ruby_2_6.rs +0 -316

data/vendor/kreuzberg/src/extractors/docbook.rs CHANGED Viewed

@@ -23,6 +23,7 @@ use crate::types::{ExtractionResult, Metadata, Table};
 use async_trait::async_trait;
 use quick_xml::Reader;
 use quick_xml::events::Event;
+#[cfg(feature = "tokio-runtime")]
 use std::path::Path;
 /// Strip namespace prefix from XML tag names.
@@ -403,6 +404,7 @@ impl DocumentExtractor for DocbookExtractor {
             detected_languages: None,
             chunks: None,
             images: None,
+            pages: None,
         })
     }

data/vendor/kreuzberg/src/extractors/docx.rs CHANGED Viewed

@@ -1,3 +1,5 @@
+#![cfg(all(feature = "tokio-runtime", feature = "office"))]
 //! DOCX extractor using docx-lite for high-performance text extraction.
 //!
 //! Supports: Microsoft Word (.docx)
@@ -6,7 +8,7 @@ use crate::Result;
 use crate::core::config::ExtractionConfig;
 use crate::extraction::{cells_to_markdown, office_metadata};
 use crate::plugins::{DocumentExtractor, Plugin};
-use crate::types::{ExtractionResult, Metadata, Table};
+use crate::types::{ExtractionResult, Metadata, PageBoundary, PageInfo, PageStructure, PageUnitType, Table};
 use async_trait::async_trait;
 use std::io::Cursor;
@@ -116,26 +118,30 @@ impl DocumentExtractor for DocxExtractor {
         mime_type: &str,
         _config: &ExtractionConfig,
     ) -> Result<ExtractionResult> {
-        let (text, tables) = if crate::core::batch_mode::is_batch_mode() {
+        let (text, tables, page_boundaries) = if crate::core::batch_mode::is_batch_mode() {
             let content_owned = content.to_vec();
             let span = tracing::Span::current();
-            tokio::task::spawn_blocking(move || -> crate::error::Result<(String, Vec<Table>)> {
-                let _guard = span.entered();
-                let cursor = Cursor::new(&content_owned);
-                let doc = docx_lite::parse_document(cursor)
-                    .map_err(|e| crate::error::KreuzbergError::parsing(format!("DOCX parsing failed: {}", e)))?;
+            tokio::task::spawn_blocking(
+                move || -> crate::error::Result<(String, Vec<Table>, Option<Vec<PageBoundary>>)> {
+                    let _guard = span.entered();
+                    let cursor = Cursor::new(&content_owned);
+                    let doc = docx_lite::parse_document(cursor)
+                        .map_err(|e| crate::error::KreuzbergError::parsing(format!("DOCX parsing failed: {}", e)))?;
-                let text = doc.extract_text();
+                    let text = doc.extract_text();
-                let tables: Vec<Table> = doc
-                    .tables
-                    .iter()
-                    .enumerate()
-                    .map(|(idx, table)| convert_docx_table_to_table(table, idx))
-                    .collect();
+                    let tables: Vec<Table> = doc
+                        .tables
+                        .iter()
+                        .enumerate()
+                        .map(|(idx, table)| convert_docx_table_to_table(table, idx))
+                        .collect();
-                Ok((text, tables))
-            })
+                    let page_boundaries = crate::extraction::docx::detect_page_breaks_from_docx(&content_owned)?;
+                    Ok((text, tables, page_boundaries))
+                },
+            )
             .await
             .map_err(|e| crate::error::KreuzbergError::parsing(format!("DOCX extraction task failed: {}", e)))??
         } else {
@@ -152,7 +158,9 @@ impl DocumentExtractor for DocxExtractor {
                 .map(|(idx, table)| convert_docx_table_to_table(table, idx))
                 .collect();
-            (text, tables)
+            let page_boundaries = crate::extraction::docx::detect_page_breaks_from_docx(content)?;
+            (text, tables, page_boundaries)
         };
         let mut archive = if crate::core::batch_mode::is_batch_mode() {
@@ -260,13 +268,38 @@ impl DocumentExtractor for DocxExtractor {
             }
         }
+        let page_structure = if let Some(boundaries) = page_boundaries {
+            let total_count = boundaries.len();
+            Some(PageStructure {
+                total_count,
+                unit_type: PageUnitType::Page,
+                boundaries: Some(boundaries),
+                pages: Some(
+                    (1..=total_count)
+                        .map(|page_num| PageInfo {
+                            number: page_num,
+                            title: None,
+                            dimensions: None,
+                            image_count: None,
+                            table_count: None,
+                            hidden: None,
+                        })
+                        .collect(),
+                ),
+            })
+        } else {
+            None
+        };
         Ok(ExtractionResult {
             content: text,
             mime_type: mime_type.to_string(),
             metadata: Metadata {
+                pages: page_structure,
                 additional: metadata_map,
                 ..Default::default()
             },
+            pages: None,
             tables,
             detected_languages: None,
             chunks: None,

data/vendor/kreuzberg/src/extractors/email.rs CHANGED Viewed

@@ -2,9 +2,11 @@
 use crate::Result;
 use crate::core::config::ExtractionConfig;
+use crate::extractors::SyncExtractor;
 use crate::plugins::{DocumentExtractor, Plugin};
 use crate::types::{EmailMetadata, ExtractionResult, Metadata};
 use async_trait::async_trait;
+#[cfg(feature = "tokio-runtime")]
 use std::path::Path;
 /// Email message extractor.
@@ -42,21 +44,8 @@ impl Plugin for EmailExtractor {
     }
 }
-#[async_trait]
-impl DocumentExtractor for EmailExtractor {
-    #[cfg_attr(feature = "otel", tracing::instrument(
-        skip(self, content, _config),
-        fields(
-            extractor.name = self.name(),
-            content.size_bytes = content.len(),
-        )
-    ))]
-    async fn extract_bytes(
-        &self,
-        content: &[u8],
-        mime_type: &str,
-        _config: &ExtractionConfig,
-    ) -> Result<ExtractionResult> {
+impl SyncExtractor for EmailExtractor {
+    fn extract_sync(&self, content: &[u8], mime_type: &str, _config: &ExtractionConfig) -> Result<ExtractionResult> {
         let email_result = crate::extraction::email::extract_email_content(content, mime_type)?;
         let text = crate::extraction::email::build_email_text_output(&email_result);
@@ -96,8 +85,28 @@ impl DocumentExtractor for EmailExtractor {
             detected_languages: None,
             chunks: None,
             images: None,
+            pages: None,
         })
     }
+}
+#[async_trait]
+impl DocumentExtractor for EmailExtractor {
+    #[cfg_attr(feature = "otel", tracing::instrument(
+        skip(self, content, config),
+        fields(
+            extractor.name = self.name(),
+            content.size_bytes = content.len(),
+        )
+    ))]
+    async fn extract_bytes(
+        &self,
+        content: &[u8],
+        mime_type: &str,
+        config: &ExtractionConfig,
+    ) -> Result<ExtractionResult> {
+        self.extract_sync(content, mime_type, config)
+    }
     #[cfg(feature = "tokio-runtime")]
     #[cfg_attr(feature = "otel", tracing::instrument(
@@ -106,6 +115,7 @@ impl DocumentExtractor for EmailExtractor {
             extractor.name = self.name(),
         )
     ))]
+    #[cfg(feature = "tokio-runtime")]
     async fn extract_file(&self, path: &Path, mime_type: &str, config: &ExtractionConfig) -> Result<ExtractionResult> {
         let bytes = tokio::fs::read(path).await?;
         self.extract_bytes(&bytes, mime_type, config).await
@@ -118,6 +128,10 @@ impl DocumentExtractor for EmailExtractor {
     fn priority(&self) -> i32 {
         50
     }
+    fn as_sync_extractor(&self) -> Option<&dyn crate::extractors::SyncExtractor> {
+        Some(self)
+    }
 }
 #[cfg(test)]

data/vendor/kreuzberg/src/extractors/epub.rs CHANGED Viewed

@@ -574,6 +574,7 @@ impl DocumentExtractor for EpubExtractor {
                 additional: metadata_map,
                 ..Default::default()
             },
+            pages: None,
             tables: vec![],
             detected_languages: None,
             chunks: None,

data/vendor/kreuzberg/src/extractors/excel.rs CHANGED Viewed

@@ -150,6 +150,7 @@ impl DocumentExtractor for ExcelExtractor {
                 additional,
                 ..Default::default()
             },
+            pages: None,
             tables,
             detected_languages: None,
             chunks: None,
@@ -193,6 +194,7 @@ impl DocumentExtractor for ExcelExtractor {
                 additional,
                 ..Default::default()
             },
+            pages: None,
             tables,
             detected_languages: None,
             chunks: None,

data/vendor/kreuzberg/src/extractors/fictionbook.rs CHANGED Viewed

@@ -440,6 +440,7 @@ impl DocumentExtractor for FictionBookExtractor {
             detected_languages: None,
             chunks: None,
             images: None,
+            pages: None,
         })
     }

data/vendor/kreuzberg/src/extractors/html.rs CHANGED Viewed

@@ -2,9 +2,11 @@
 use crate::Result;
 use crate::core::config::ExtractionConfig;
+use crate::extractors::SyncExtractor;
 use crate::plugins::{DocumentExtractor, Plugin};
 use crate::types::{ExtractionResult, Metadata, Table};
 use async_trait::async_trait;
+#[cfg(feature = "tokio-runtime")]
 use std::path::Path;
 // NOTE: scraper dependency has been removed in favor of html-to-markdown-rs
@@ -193,21 +195,8 @@ impl Plugin for HtmlExtractor {
     }
 }
-#[async_trait]
-impl DocumentExtractor for HtmlExtractor {
-    #[cfg_attr(feature = "otel", tracing::instrument(
-        skip(self, content, config),
-        fields(
-            extractor.name = self.name(),
-            content.size_bytes = content.len(),
-        )
-    ))]
-    async fn extract_bytes(
-        &self,
-        content: &[u8],
-        mime_type: &str,
-        config: &ExtractionConfig,
-    ) -> Result<ExtractionResult> {
+impl SyncExtractor for HtmlExtractor {
+    fn extract_sync(&self, content: &[u8], mime_type: &str, config: &ExtractionConfig) -> Result<ExtractionResult> {
         let html = std::str::from_utf8(content)
             .map(|s| s.to_string())
             .unwrap_or_else(|_| String::from_utf8_lossy(content).to_string());
@@ -225,12 +214,32 @@ impl DocumentExtractor for HtmlExtractor {
                 format: html_metadata.map(|m| crate::types::FormatMetadata::Html(Box::new(m))),
                 ..Default::default()
             },
+            pages: None,
             tables,
             detected_languages: None,
             chunks: None,
             images: None,
         })
     }
+}
+#[async_trait]
+impl DocumentExtractor for HtmlExtractor {
+    #[cfg_attr(feature = "otel", tracing::instrument(
+        skip(self, content, config),
+        fields(
+            extractor.name = self.name(),
+            content.size_bytes = content.len(),
+        )
+    ))]
+    async fn extract_bytes(
+        &self,
+        content: &[u8],
+        mime_type: &str,
+        config: &ExtractionConfig,
+    ) -> Result<ExtractionResult> {
+        self.extract_sync(content, mime_type, config)
+    }
     #[cfg(feature = "tokio-runtime")]
     #[cfg_attr(feature = "otel", tracing::instrument(
@@ -239,6 +248,7 @@ impl DocumentExtractor for HtmlExtractor {
             extractor.name = self.name(),
         )
     ))]
+    #[cfg(feature = "tokio-runtime")]
     async fn extract_file(&self, path: &Path, mime_type: &str, config: &ExtractionConfig) -> Result<ExtractionResult> {
         let bytes = tokio::fs::read(path).await?;
         self.extract_bytes(&bytes, mime_type, config).await
@@ -251,6 +261,10 @@ impl DocumentExtractor for HtmlExtractor {
     fn priority(&self) -> i32 {
         50
     }
+    fn as_sync_extractor(&self) -> Option<&dyn crate::extractors::SyncExtractor> {
+        Some(self)
+    }
 }
 #[cfg(test)]

data/vendor/kreuzberg/src/extractors/image.rs CHANGED Viewed

@@ -20,9 +20,14 @@ impl ImageExtractor {
         Self
     }
-    /// Extract text from image using OCR.
+    /// Extract text from image using OCR with optional page tracking for multi-frame TIFFs.
     #[cfg(feature = "ocr")]
-    async fn extract_with_ocr(&self, content: &[u8], config: &ExtractionConfig) -> Result<ExtractionResult> {
+    async fn extract_with_ocr(
+        &self,
+        content: &[u8],
+        mime_type: &str,
+        config: &ExtractionConfig,
+    ) -> Result<ExtractionResult> {
         use crate::plugins::registry::get_ocr_backend_registry;
         let ocr_config = config.ocr.as_ref().ok_or_else(|| crate::KreuzbergError::Parsing {
@@ -39,7 +44,21 @@ impl ImageExtractor {
             registry.get(&ocr_config.backend)?
         };
-        backend.process_image(content, ocr_config).await
+        let ocr_result = backend.process_image(content, ocr_config).await?;
+        let ocr_text = ocr_result.content.clone();
+        let ocr_extraction_result = crate::extraction::image::extract_text_from_image_with_ocr(
+            content,
+            mime_type,
+            ocr_text,
+            config.pages.as_ref(),
+        )?;
+        let mut result = ocr_result;
+        result.content = ocr_extraction_result.content;
+        result.pages = ocr_extraction_result.page_contents;
+        Ok(result)
     }
 }
@@ -102,7 +121,7 @@ impl DocumentExtractor for ImageExtractor {
         if config.ocr.is_some() {
             #[cfg(feature = "ocr")]
             {
-                let mut ocr_result = self.extract_with_ocr(content, config).await?;
+                let mut ocr_result = self.extract_with_ocr(content, mime_type, config).await?;
                 ocr_result.metadata.format = Some(crate::types::FormatMetadata::Image(image_metadata));
                 ocr_result.mime_type = mime_type.to_string();
@@ -123,6 +142,7 @@ impl DocumentExtractor for ImageExtractor {
                         format: Some(crate::types::FormatMetadata::Image(image_metadata)),
                         ..Default::default()
                     },
+                    pages: None,
                     tables: vec![],
                     detected_languages: None,
                     chunks: None,
@@ -141,6 +161,7 @@ impl DocumentExtractor for ImageExtractor {
                 format: Some(crate::types::FormatMetadata::Image(image_metadata)),
                 ..Default::default()
             },
+            pages: None,
             tables: vec![],
             detected_languages: None,
             chunks: None,

data/vendor/kreuzberg/src/extractors/jats.rs CHANGED Viewed

@@ -21,6 +21,7 @@ use crate::types::{ExtractionResult, Metadata, Table};
 use async_trait::async_trait;
 use quick_xml::Reader;
 use quick_xml::events::Event;
+#[cfg(feature = "tokio-runtime")]
 use std::path::Path;
 /// JATS document extractor.
@@ -569,6 +570,7 @@ impl DocumentExtractor for JatsExtractor {
             detected_languages: None,
             chunks: None,
             images: None,
+            pages: None,
         })
     }
@@ -582,6 +584,7 @@ impl DocumentExtractor for JatsExtractor {
             )
         )
     )]
+    #[cfg(feature = "tokio-runtime")]
     async fn extract_file(&self, path: &Path, mime_type: &str, config: &ExtractionConfig) -> Result<ExtractionResult> {
         let bytes = tokio::fs::read(path).await?;
         self.extract_bytes(&bytes, mime_type, config).await

data/vendor/kreuzberg/src/extractors/jupyter.rs CHANGED Viewed

@@ -336,6 +336,7 @@ impl DocumentExtractor for JupyterExtractor {
                 additional: metadata_additional,
                 ..Default::default()
             },
+            pages: None,
             tables: vec![],
             detected_languages: None,
             chunks: None,

data/vendor/kreuzberg/src/extractors/latex.rs CHANGED Viewed

@@ -93,6 +93,7 @@ impl DocumentExtractor for LatexExtractor {
             detected_languages: None,
             chunks: None,
             images: None,
+            pages: None,
         })
     }

data/vendor/kreuzberg/src/extractors/markdown.rs CHANGED Viewed

@@ -365,6 +365,7 @@ impl DocumentExtractor for MarkdownExtractor {
             detected_languages: None,
             chunks: None,
             images: None,
+            pages: None,
         })
     }

data/vendor/kreuzberg/src/extractors/mod.rs CHANGED Viewed

@@ -4,14 +4,69 @@
 //! All extractors implement the `DocumentExtractor` plugin trait.
 use crate::Result;
+use crate::core::config::ExtractionConfig;
 use crate::plugins::registry::get_document_extractor_registry;
+use crate::types::ExtractionResult;
 use once_cell::sync::Lazy;
 use std::sync::Arc;
-pub mod security;
+/// Trait for extractors that can work synchronously (WASM-compatible).
+///
+/// This trait defines the synchronous extraction interface for WASM targets and other
+/// environments where async/tokio runtimes are not available or desirable.
+///
+/// # Implementation
+///
+/// Extractors that need to support WASM should implement this trait in addition to
+/// the async `DocumentExtractor` trait. This allows the same extractor to work in both
+/// environments by delegating to the sync implementation.
+///
+/// # MIME Type Validation
+///
+/// The `mime_type` parameter is guaranteed to be already validated.
+///
+/// # Example
+///
+/// ```rust,ignore
+/// impl SyncExtractor for PlainTextExtractor {
+///     fn extract_sync(&self, content: &[u8], config: &ExtractionConfig) -> Result<ExtractionResult> {
+///         let text = String::from_utf8_lossy(content).to_string();
+///         Ok(ExtractionResult {
+///             content: text,
+///             mime_type: "text/plain".to_string(),
+///             metadata: Metadata::default(),
+///             tables: vec![],
+///             detected_languages: None,
+///             chunks: None,
+///             images: None,
+///         })
+///     }
+/// }
+/// ```
+pub trait SyncExtractor {
+    /// Extract content from a byte array synchronously.
+    ///
+    /// This method performs extraction without requiring an async runtime.
+    /// It is called by `extract_bytes_sync()` when the `tokio-runtime` feature is disabled.
+    ///
+    /// # Arguments
+    ///
+    /// * `content` - Raw document bytes
+    /// * `mime_type` - MIME type of the document (already validated)
+    /// * `config` - Extraction configuration
+    ///
+    /// # Returns
+    ///
+    /// An `ExtractionResult` containing the extracted content and metadata.
+    fn extract_sync(&self, content: &[u8], mime_type: &str, config: &ExtractionConfig) -> Result<ExtractionResult>;
+}
 pub mod structured;
 pub mod text;
+#[cfg(feature = "archives")]
+pub mod security;
 #[cfg(feature = "ocr")]
 pub mod image;
@@ -30,7 +85,7 @@ pub mod html;
 #[cfg(feature = "office")]
 pub mod bibtex;
-#[cfg(feature = "office")]
+#[cfg(all(feature = "tokio-runtime", feature = "office"))]
 pub mod docx;
 #[cfg(feature = "office")]
@@ -54,7 +109,7 @@ pub mod jupyter;
 #[cfg(feature = "office")]
 pub mod orgmode;
-#[cfg(feature = "office")]
+#[cfg(all(feature = "tokio-runtime", feature = "office"))]
 pub mod odt;
 #[cfg(feature = "office")]
@@ -69,7 +124,7 @@ pub mod jats;
 #[cfg(feature = "pdf")]
 pub mod pdf;
-#[cfg(feature = "office")]
+#[cfg(all(feature = "tokio-runtime", feature = "office"))]
 pub mod pptx;
 #[cfg(feature = "office")]
@@ -102,7 +157,7 @@ pub use html::HtmlExtractor;
 #[cfg(feature = "office")]
 pub use bibtex::BibtexExtractor;
-#[cfg(feature = "office")]
+#[cfg(all(feature = "tokio-runtime", feature = "office"))]
 pub use docx::DocxExtractor;
 #[cfg(feature = "office")]
@@ -126,7 +181,7 @@ pub use jupyter::JupyterExtractor;
 #[cfg(feature = "office")]
 pub use orgmode::OrgModeExtractor;
-#[cfg(feature = "office")]
+#[cfg(all(feature = "tokio-runtime", feature = "office"))]
 pub use odt::OdtExtractor;
 #[cfg(feature = "xml")]
@@ -141,7 +196,7 @@ pub use typst::TypstExtractor;
 #[cfg(feature = "pdf")]
 pub use pdf::PdfExtractor;
-#[cfg(feature = "office")]
+#[cfg(all(feature = "tokio-runtime", feature = "office"))]
 pub use pptx::PptxExtractor;
 #[cfg(feature = "office")]
@@ -230,11 +285,8 @@ pub fn register_default_extractors() -> Result<()> {
     {
         registry.register(Arc::new(EnhancedMarkdownExtractor::new()))?;
         registry.register(Arc::new(BibtexExtractor::new()))?;
-        registry.register(Arc::new(DocxExtractor::new()))?;
         registry.register(Arc::new(EpubExtractor::new()))?;
         registry.register(Arc::new(FictionBookExtractor::new()))?;
-        registry.register(Arc::new(PptxExtractor::new()))?;
-        registry.register(Arc::new(OdtExtractor::new()))?;
         registry.register(Arc::new(RtfExtractor::new()))?;
         registry.register(Arc::new(RstExtractor::new()))?;
         registry.register(Arc::new(LatexExtractor::new()))?;
@@ -244,6 +296,13 @@ pub fn register_default_extractors() -> Result<()> {
         registry.register(Arc::new(TypstExtractor::new()))?;
     }
+    #[cfg(all(feature = "tokio-runtime", feature = "office"))]
+    {
+        registry.register(Arc::new(DocxExtractor::new()))?;
+        registry.register(Arc::new(PptxExtractor::new()))?;
+        registry.register(Arc::new(OdtExtractor::new()))?;
+    }
     #[cfg(feature = "email")]
     registry.register(Arc::new(EmailExtractor::new()))?;
@@ -313,14 +372,11 @@ mod tests {
         #[cfg(feature = "office")]
         {
-            expected_count += 13;
+            expected_count += 10;
             assert!(extractor_names.contains(&"markdown-extractor".to_string()));
             assert!(extractor_names.contains(&"bibtex-extractor".to_string()));
-            assert!(extractor_names.contains(&"docx-extractor".to_string()));
             assert!(extractor_names.contains(&"epub-extractor".to_string()));
             assert!(extractor_names.contains(&"fictionbook-extractor".to_string()));
-            assert!(extractor_names.contains(&"pptx-extractor".to_string()));
-            assert!(extractor_names.contains(&"odt-extractor".to_string()));
             assert!(extractor_names.contains(&"rtf-extractor".to_string()));
             assert!(extractor_names.contains(&"rst-extractor".to_string()));
             assert!(extractor_names.contains(&"latex-extractor".to_string()));
@@ -330,6 +386,14 @@ mod tests {
             assert!(extractor_names.contains(&"typst-extractor".to_string()));
         }
+        #[cfg(all(feature = "tokio-runtime", feature = "office"))]
+        {
+            expected_count += 3;
+            assert!(extractor_names.contains(&"docx-extractor".to_string()));
+            assert!(extractor_names.contains(&"pptx-extractor".to_string()));
+            assert!(extractor_names.contains(&"odt-extractor".to_string()));
+        }
         #[cfg(feature = "email")]
         {
             expected_count += 1;

data/vendor/kreuzberg/src/extractors/odt.rs CHANGED Viewed

@@ -1,3 +1,5 @@
+#![cfg(all(feature = "tokio-runtime", feature = "office"))]
 //! ODT (OpenDocument Text) extractor using native Rust parsing.
 //!
 //! Supports: OpenDocument Text (.odt)
@@ -169,13 +171,10 @@ fn extract_content_text(archive: &mut zip::ZipArchive<Cursor<Vec<u8>>>) -> crate
     let mut text_parts: Vec<String> = Vec::new();
-    // Find the office:text or text body element - this is the main document body
     for body_child in root.children() {
         if body_child.tag_name().name() == "body" {
-            // Process the text element inside body
             for text_elem in body_child.children() {
                 if text_elem.tag_name().name() == "text" {
-                    // Now process only direct children of the text element
                     process_document_elements(text_elem, &mut text_parts);
                 }
             }
@@ -563,6 +562,7 @@ impl DocumentExtractor for OdtExtractor {
                 additional: metadata_map,
                 ..Default::default()
             },
+            pages: None,
             tables,
             detected_languages: None,
             chunks: None,

data/vendor/kreuzberg/src/extractors/opml.rs CHANGED Viewed

@@ -191,6 +191,7 @@ impl DocumentExtractor for OpmlExtractor {
                 additional: metadata_map,
                 ..Default::default()
             },
+            pages: None,
             tables: vec![],
             detected_languages: None,
             chunks: None,

data/vendor/kreuzberg/src/extractors/orgmode.rs CHANGED Viewed

@@ -304,6 +304,7 @@ impl DocumentExtractor for OrgModeExtractor {
             detected_languages: None,
             chunks: None,
             images: None,
+            pages: None,
         })
     }