RubyGems - kreuzberg - Versions diffs - 4.0.8 → 4.1.0 - Mend

kreuzberg 4.0.8 → 4.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (308) hide show

checksums.yaml +4 -4
data/Gemfile.lock +2 -2
data/README.md +1 -1
data/ext/kreuzberg_rb/native/Cargo.lock +94 -98
data/ext/kreuzberg_rb/native/Cargo.toml +4 -2
data/ext/kreuzberg_rb/native/src/batch.rs +139 -0
data/ext/kreuzberg_rb/native/src/config/mod.rs +10 -0
data/ext/kreuzberg_rb/native/src/config/types.rs +1058 -0
data/ext/kreuzberg_rb/native/src/error_handling.rs +125 -0
data/ext/kreuzberg_rb/native/src/extraction.rs +79 -0
data/ext/kreuzberg_rb/native/src/gc_guarded_value.rs +35 -0
data/ext/kreuzberg_rb/native/src/helpers.rs +176 -0
data/ext/kreuzberg_rb/native/src/lib.rs +342 -3622
data/ext/kreuzberg_rb/native/src/metadata.rs +34 -0
data/ext/kreuzberg_rb/native/src/plugins/mod.rs +92 -0
data/ext/kreuzberg_rb/native/src/plugins/ocr_backend.rs +159 -0
data/ext/kreuzberg_rb/native/src/plugins/post_processor.rs +126 -0
data/ext/kreuzberg_rb/native/src/plugins/validator.rs +99 -0
data/ext/kreuzberg_rb/native/src/result.rs +326 -0
data/ext/kreuzberg_rb/native/src/validation.rs +4 -0
data/lib/kreuzberg/config.rb +66 -0
data/lib/kreuzberg/result.rb +107 -2
data/lib/kreuzberg/types.rb +104 -0
data/lib/kreuzberg/version.rb +1 -1
data/lib/kreuzberg.rb +0 -4
data/sig/kreuzberg.rbs +105 -1
data/vendor/Cargo.toml +3 -3
data/vendor/kreuzberg/Cargo.toml +4 -3
data/vendor/kreuzberg/README.md +1 -1
data/vendor/kreuzberg/src/api/config.rs +69 -0
data/vendor/kreuzberg/src/api/handlers.rs +99 -2
data/vendor/kreuzberg/src/api/mod.rs +14 -7
data/vendor/kreuzberg/src/api/router.rs +214 -0
data/vendor/kreuzberg/src/api/startup.rs +243 -0
data/vendor/kreuzberg/src/api/types.rs +78 -0
data/vendor/kreuzberg/src/cache/cleanup.rs +277 -0
data/vendor/kreuzberg/src/cache/core.rs +428 -0
data/vendor/kreuzberg/src/cache/mod.rs +21 -843
data/vendor/kreuzberg/src/cache/utilities.rs +156 -0
data/vendor/kreuzberg/src/chunking/boundaries.rs +301 -0
data/vendor/kreuzberg/src/chunking/builder.rs +294 -0
data/vendor/kreuzberg/src/chunking/config.rs +52 -0
data/vendor/kreuzberg/src/chunking/core.rs +1017 -0
data/vendor/kreuzberg/src/chunking/mod.rs +14 -2211
data/vendor/kreuzberg/src/chunking/processor.rs +10 -0
data/vendor/kreuzberg/src/chunking/validation.rs +686 -0
data/vendor/kreuzberg/src/core/config/extraction/core.rs +169 -0
data/vendor/kreuzberg/src/core/config/extraction/env.rs +179 -0
data/vendor/kreuzberg/src/core/config/extraction/loaders.rs +204 -0
data/vendor/kreuzberg/src/core/config/extraction/mod.rs +42 -0
data/vendor/kreuzberg/src/core/config/extraction/types.rs +93 -0
data/vendor/kreuzberg/src/core/config/formats.rs +135 -0
data/vendor/kreuzberg/src/core/config/mod.rs +20 -0
data/vendor/kreuzberg/src/core/config/ocr.rs +73 -0
data/vendor/kreuzberg/src/core/config/page.rs +57 -0
data/vendor/kreuzberg/src/core/config/pdf.rs +111 -0
data/vendor/kreuzberg/src/core/config/processing.rs +312 -0
data/vendor/kreuzberg/src/core/config_validation/dependencies.rs +187 -0
data/vendor/kreuzberg/src/core/config_validation/mod.rs +386 -0
data/vendor/kreuzberg/src/core/config_validation/sections.rs +401 -0
data/vendor/kreuzberg/src/core/extractor/batch.rs +246 -0
data/vendor/kreuzberg/src/core/extractor/bytes.rs +116 -0
data/vendor/kreuzberg/src/core/extractor/file.rs +240 -0
data/vendor/kreuzberg/src/core/extractor/helpers.rs +71 -0
data/vendor/kreuzberg/src/core/extractor/legacy.rs +62 -0
data/vendor/kreuzberg/src/core/extractor/mod.rs +490 -0
data/vendor/kreuzberg/src/core/extractor/sync.rs +208 -0
data/vendor/kreuzberg/src/core/mod.rs +4 -1
data/vendor/kreuzberg/src/core/pipeline/cache.rs +60 -0
data/vendor/kreuzberg/src/core/pipeline/execution.rs +89 -0
data/vendor/kreuzberg/src/core/pipeline/features.rs +108 -0
data/vendor/kreuzberg/src/core/pipeline/format.rs +392 -0
data/vendor/kreuzberg/src/core/pipeline/initialization.rs +67 -0
data/vendor/kreuzberg/src/core/pipeline/mod.rs +135 -0
data/vendor/kreuzberg/src/core/pipeline/tests.rs +975 -0
data/vendor/kreuzberg/src/core/server_config/env.rs +90 -0
data/vendor/kreuzberg/src/core/server_config/loader.rs +202 -0
data/vendor/kreuzberg/src/core/server_config/mod.rs +380 -0
data/vendor/kreuzberg/src/core/server_config/tests/basic_tests.rs +124 -0
data/vendor/kreuzberg/src/core/server_config/tests/env_tests.rs +216 -0
data/vendor/kreuzberg/src/core/server_config/tests/file_loading_tests.rs +341 -0
data/vendor/kreuzberg/src/core/server_config/tests/mod.rs +5 -0
data/vendor/kreuzberg/src/core/server_config/validation.rs +17 -0
data/vendor/kreuzberg/src/embeddings.rs +136 -13
data/vendor/kreuzberg/src/extraction/{archive.rs → archive/mod.rs} +45 -239
data/vendor/kreuzberg/src/extraction/archive/sevenz.rs +98 -0
data/vendor/kreuzberg/src/extraction/archive/tar.rs +118 -0
data/vendor/kreuzberg/src/extraction/archive/zip.rs +101 -0
data/vendor/kreuzberg/src/extraction/html/converter.rs +592 -0
data/vendor/kreuzberg/src/extraction/html/image_handling.rs +95 -0
data/vendor/kreuzberg/src/extraction/html/mod.rs +53 -0
data/vendor/kreuzberg/src/extraction/html/processor.rs +659 -0
data/vendor/kreuzberg/src/extraction/html/stack_management.rs +103 -0
data/vendor/kreuzberg/src/extraction/html/types.rs +28 -0
data/vendor/kreuzberg/src/extraction/mod.rs +6 -2
data/vendor/kreuzberg/src/extraction/pptx/container.rs +159 -0
data/vendor/kreuzberg/src/extraction/pptx/content_builder.rs +168 -0
data/vendor/kreuzberg/src/extraction/pptx/elements.rs +132 -0
data/vendor/kreuzberg/src/extraction/pptx/image_handling.rs +57 -0
data/vendor/kreuzberg/src/extraction/pptx/metadata.rs +160 -0
data/vendor/kreuzberg/src/extraction/pptx/mod.rs +558 -0
data/vendor/kreuzberg/src/extraction/pptx/parser.rs +379 -0
data/vendor/kreuzberg/src/extraction/transform/content.rs +205 -0
data/vendor/kreuzberg/src/extraction/transform/elements.rs +211 -0
data/vendor/kreuzberg/src/extraction/transform/mod.rs +480 -0
data/vendor/kreuzberg/src/extraction/transform/types.rs +27 -0
data/vendor/kreuzberg/src/extractors/archive.rs +2 -0
data/vendor/kreuzberg/src/extractors/bibtex.rs +2 -0
data/vendor/kreuzberg/src/extractors/djot_format/attributes.rs +134 -0
data/vendor/kreuzberg/src/extractors/djot_format/conversion.rs +223 -0
data/vendor/kreuzberg/src/extractors/djot_format/extractor.rs +172 -0
data/vendor/kreuzberg/src/extractors/djot_format/mod.rs +24 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/block_handlers.rs +271 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/content_extraction.rs +257 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/event_handlers.rs +101 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/inline_handlers.rs +201 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/mod.rs +16 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/state.rs +78 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/table_extraction.rs +68 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/text_extraction.rs +61 -0
data/vendor/kreuzberg/src/extractors/djot_format/rendering.rs +452 -0
data/vendor/kreuzberg/src/extractors/docbook.rs +2 -0
data/vendor/kreuzberg/src/extractors/docx.rs +12 -1
data/vendor/kreuzberg/src/extractors/email.rs +2 -0
data/vendor/kreuzberg/src/extractors/epub/content.rs +333 -0
data/vendor/kreuzberg/src/extractors/epub/metadata.rs +137 -0
data/vendor/kreuzberg/src/extractors/epub/mod.rs +186 -0
data/vendor/kreuzberg/src/extractors/epub/parsing.rs +86 -0
data/vendor/kreuzberg/src/extractors/excel.rs +4 -0
data/vendor/kreuzberg/src/extractors/fictionbook.rs +2 -0
data/vendor/kreuzberg/src/extractors/frontmatter_utils.rs +466 -0
data/vendor/kreuzberg/src/extractors/html.rs +80 -8
data/vendor/kreuzberg/src/extractors/image.rs +8 -1
data/vendor/kreuzberg/src/extractors/jats/elements.rs +350 -0
data/vendor/kreuzberg/src/extractors/jats/metadata.rs +21 -0
data/vendor/kreuzberg/src/extractors/{jats.rs → jats/mod.rs} +10 -412
data/vendor/kreuzberg/src/extractors/jats/parser.rs +52 -0
data/vendor/kreuzberg/src/extractors/jupyter.rs +2 -0
data/vendor/kreuzberg/src/extractors/latex/commands.rs +93 -0
data/vendor/kreuzberg/src/extractors/latex/environments.rs +157 -0
data/vendor/kreuzberg/src/extractors/latex/metadata.rs +27 -0
data/vendor/kreuzberg/src/extractors/latex/mod.rs +146 -0
data/vendor/kreuzberg/src/extractors/latex/parser.rs +231 -0
data/vendor/kreuzberg/src/extractors/latex/utilities.rs +126 -0
data/vendor/kreuzberg/src/extractors/markdown.rs +39 -162
data/vendor/kreuzberg/src/extractors/mod.rs +9 -1
data/vendor/kreuzberg/src/extractors/odt.rs +2 -0
data/vendor/kreuzberg/src/extractors/opml/core.rs +165 -0
data/vendor/kreuzberg/src/extractors/opml/mod.rs +31 -0
data/vendor/kreuzberg/src/extractors/opml/parser.rs +479 -0
data/vendor/kreuzberg/src/extractors/orgmode.rs +2 -0
data/vendor/kreuzberg/src/extractors/pdf/extraction.rs +106 -0
data/vendor/kreuzberg/src/extractors/{pdf.rs → pdf/mod.rs} +25 -324
data/vendor/kreuzberg/src/extractors/pdf/ocr.rs +214 -0
data/vendor/kreuzberg/src/extractors/pdf/pages.rs +51 -0
data/vendor/kreuzberg/src/extractors/pptx.rs +9 -2
data/vendor/kreuzberg/src/extractors/rst.rs +2 -0
data/vendor/kreuzberg/src/extractors/rtf/encoding.rs +116 -0
data/vendor/kreuzberg/src/extractors/rtf/formatting.rs +24 -0
data/vendor/kreuzberg/src/extractors/rtf/images.rs +72 -0
data/vendor/kreuzberg/src/extractors/rtf/metadata.rs +216 -0
data/vendor/kreuzberg/src/extractors/rtf/mod.rs +142 -0
data/vendor/kreuzberg/src/extractors/rtf/parser.rs +259 -0
data/vendor/kreuzberg/src/extractors/rtf/tables.rs +83 -0
data/vendor/kreuzberg/src/extractors/structured.rs +2 -0
data/vendor/kreuzberg/src/extractors/text.rs +4 -0
data/vendor/kreuzberg/src/extractors/typst.rs +2 -0
data/vendor/kreuzberg/src/extractors/xml.rs +2 -0
data/vendor/kreuzberg/src/keywords/processor.rs +14 -0
data/vendor/kreuzberg/src/language_detection/processor.rs +10 -0
data/vendor/kreuzberg/src/lib.rs +2 -2
data/vendor/kreuzberg/src/mcp/errors.rs +312 -0
data/vendor/kreuzberg/src/mcp/format.rs +211 -0
data/vendor/kreuzberg/src/mcp/mod.rs +9 -3
data/vendor/kreuzberg/src/mcp/params.rs +196 -0
data/vendor/kreuzberg/src/mcp/server.rs +39 -1438
data/vendor/kreuzberg/src/mcp/tools/cache.rs +179 -0
data/vendor/kreuzberg/src/mcp/tools/extraction.rs +403 -0
data/vendor/kreuzberg/src/mcp/tools/mime.rs +150 -0
data/vendor/kreuzberg/src/mcp/tools/mod.rs +11 -0
data/vendor/kreuzberg/src/ocr/backends/easyocr.rs +96 -0
data/vendor/kreuzberg/src/ocr/backends/mod.rs +7 -0
data/vendor/kreuzberg/src/ocr/backends/paddleocr.rs +27 -0
data/vendor/kreuzberg/src/ocr/backends/tesseract.rs +134 -0
data/vendor/kreuzberg/src/ocr/hocr.rs +60 -16
data/vendor/kreuzberg/src/ocr/language_registry.rs +11 -235
data/vendor/kreuzberg/src/ocr/mod.rs +1 -0
data/vendor/kreuzberg/src/ocr/processor/config.rs +203 -0
data/vendor/kreuzberg/src/ocr/processor/execution.rs +494 -0
data/vendor/kreuzberg/src/ocr/processor/mod.rs +265 -0
data/vendor/kreuzberg/src/ocr/processor/validation.rs +145 -0
data/vendor/kreuzberg/src/ocr/tesseract_backend.rs +41 -24
data/vendor/kreuzberg/src/pdf/bindings.rs +21 -8
data/vendor/kreuzberg/src/pdf/hierarchy/bounding_box.rs +289 -0
data/vendor/kreuzberg/src/pdf/hierarchy/clustering.rs +199 -0
data/vendor/kreuzberg/src/pdf/{hierarchy.rs → hierarchy/extraction.rs} +6 -346
data/vendor/kreuzberg/src/pdf/hierarchy/mod.rs +18 -0
data/vendor/kreuzberg/src/plugins/extractor/mod.rs +319 -0
data/vendor/kreuzberg/src/plugins/extractor/registry.rs +434 -0
data/vendor/kreuzberg/src/plugins/extractor/trait.rs +391 -0
data/vendor/kreuzberg/src/plugins/mod.rs +13 -0
data/vendor/kreuzberg/src/plugins/ocr.rs +11 -0
data/vendor/kreuzberg/src/plugins/processor/mod.rs +365 -0
data/vendor/kreuzberg/src/plugins/processor/registry.rs +37 -0
data/vendor/kreuzberg/src/plugins/processor/trait.rs +284 -0
data/vendor/kreuzberg/src/plugins/registry/extractor.rs +416 -0
data/vendor/kreuzberg/src/plugins/registry/mod.rs +116 -0
data/vendor/kreuzberg/src/plugins/registry/ocr.rs +293 -0
data/vendor/kreuzberg/src/plugins/registry/processor.rs +304 -0
data/vendor/kreuzberg/src/plugins/registry/validator.rs +238 -0
data/vendor/kreuzberg/src/plugins/validator/mod.rs +424 -0
data/vendor/kreuzberg/src/plugins/validator/registry.rs +355 -0
data/vendor/kreuzberg/src/plugins/validator/trait.rs +276 -0
data/vendor/kreuzberg/src/stopwords/languages/asian.rs +40 -0
data/vendor/kreuzberg/src/stopwords/languages/germanic.rs +36 -0
data/vendor/kreuzberg/src/stopwords/languages/mod.rs +10 -0
data/vendor/kreuzberg/src/stopwords/languages/other.rs +44 -0
data/vendor/kreuzberg/src/stopwords/languages/romance.rs +36 -0
data/vendor/kreuzberg/src/stopwords/languages/slavic.rs +36 -0
data/vendor/kreuzberg/src/stopwords/mod.rs +7 -33
data/vendor/kreuzberg/src/text/quality.rs +1 -1
data/vendor/kreuzberg/src/text/quality_processor.rs +10 -0
data/vendor/kreuzberg/src/text/token_reduction/core/analysis.rs +238 -0
data/vendor/kreuzberg/src/text/token_reduction/core/mod.rs +8 -0
data/vendor/kreuzberg/src/text/token_reduction/core/punctuation.rs +54 -0
data/vendor/kreuzberg/src/text/token_reduction/core/reducer.rs +384 -0
data/vendor/kreuzberg/src/text/token_reduction/core/sentence_selection.rs +68 -0
data/vendor/kreuzberg/src/text/token_reduction/core/word_filtering.rs +156 -0
data/vendor/kreuzberg/src/text/token_reduction/filters/general.rs +377 -0
data/vendor/kreuzberg/src/text/token_reduction/filters/html.rs +51 -0
data/vendor/kreuzberg/src/text/token_reduction/filters/markdown.rs +285 -0
data/vendor/kreuzberg/src/text/token_reduction/filters.rs +131 -246
data/vendor/kreuzberg/src/types/djot.rs +209 -0
data/vendor/kreuzberg/src/types/extraction.rs +301 -0
data/vendor/kreuzberg/src/types/formats.rs +443 -0
data/vendor/kreuzberg/src/types/metadata.rs +560 -0
data/vendor/kreuzberg/src/types/mod.rs +281 -0
data/vendor/kreuzberg/src/types/page.rs +182 -0
data/vendor/kreuzberg/src/types/serde_helpers.rs +132 -0
data/vendor/kreuzberg/src/types/tables.rs +39 -0
data/vendor/kreuzberg/src/utils/quality/heuristics.rs +58 -0
data/vendor/kreuzberg/src/utils/{quality.rs → quality/mod.rs} +168 -489
data/vendor/kreuzberg/src/utils/quality/patterns.rs +117 -0
data/vendor/kreuzberg/src/utils/quality/scoring.rs +178 -0
data/vendor/kreuzberg/src/utils/string_pool/buffer_pool.rs +325 -0
data/vendor/kreuzberg/src/utils/string_pool/interned.rs +102 -0
data/vendor/kreuzberg/src/utils/string_pool/language_pool.rs +119 -0
data/vendor/kreuzberg/src/utils/string_pool/mime_pool.rs +235 -0
data/vendor/kreuzberg/src/utils/string_pool/mod.rs +41 -0
data/vendor/kreuzberg/tests/api_chunk.rs +313 -0
data/vendor/kreuzberg/tests/api_embed.rs +6 -9
data/vendor/kreuzberg/tests/batch_orchestration.rs +1 -0
data/vendor/kreuzberg/tests/concurrency_stress.rs +7 -0
data/vendor/kreuzberg/tests/core_integration.rs +1 -0
data/vendor/kreuzberg/tests/docx_metadata_extraction_test.rs +130 -0
data/vendor/kreuzberg/tests/epub_native_extractor_tests.rs +5 -14
data/vendor/kreuzberg/tests/format_integration.rs +2 -0
data/vendor/kreuzberg/tests/helpers/mod.rs +1 -0
data/vendor/kreuzberg/tests/html_table_test.rs +11 -11
data/vendor/kreuzberg/tests/ocr_configuration.rs +16 -0
data/vendor/kreuzberg/tests/ocr_errors.rs +18 -0
data/vendor/kreuzberg/tests/ocr_quality.rs +9 -0
data/vendor/kreuzberg/tests/ocr_stress.rs +1 -0
data/vendor/kreuzberg/tests/pipeline_integration.rs +50 -0
data/vendor/kreuzberg/tests/plugin_ocr_backend_test.rs +13 -0
data/vendor/kreuzberg/tests/plugin_system.rs +12 -0
data/vendor/kreuzberg/tests/registry_integration_tests.rs +2 -0
data/vendor/kreuzberg-ffi/Cargo.toml +2 -1
data/vendor/kreuzberg-ffi/benches/result_view_benchmark.rs +2 -0
data/vendor/kreuzberg-ffi/kreuzberg.h +347 -178
data/vendor/kreuzberg-ffi/src/config/html.rs +318 -0
data/vendor/kreuzberg-ffi/src/config/loader.rs +154 -0
data/vendor/kreuzberg-ffi/src/config/merge.rs +104 -0
data/vendor/kreuzberg-ffi/src/config/mod.rs +385 -0
data/vendor/kreuzberg-ffi/src/config/parse.rs +91 -0
data/vendor/kreuzberg-ffi/src/config/serialize.rs +118 -0
data/vendor/kreuzberg-ffi/src/config_builder.rs +598 -0
data/vendor/kreuzberg-ffi/src/error.rs +46 -14
data/vendor/kreuzberg-ffi/src/helpers.rs +10 -0
data/vendor/kreuzberg-ffi/src/html_options.rs +421 -0
data/vendor/kreuzberg-ffi/src/lib.rs +16 -0
data/vendor/kreuzberg-ffi/src/panic_shield.rs +11 -0
data/vendor/kreuzberg-ffi/src/plugins/ocr_backend.rs +2 -0
data/vendor/kreuzberg-ffi/src/result.rs +148 -122
data/vendor/kreuzberg-ffi/src/result_view.rs +4 -0
data/vendor/kreuzberg-tesseract/Cargo.toml +2 -2
metadata +200 -28
data/vendor/kreuzberg/src/api/server.rs +0 -518
data/vendor/kreuzberg/src/core/config.rs +0 -1914
data/vendor/kreuzberg/src/core/config_validation.rs +0 -949
data/vendor/kreuzberg/src/core/extractor.rs +0 -1200
data/vendor/kreuzberg/src/core/pipeline.rs +0 -1223
data/vendor/kreuzberg/src/core/server_config.rs +0 -1220
data/vendor/kreuzberg/src/extraction/html.rs +0 -1830
data/vendor/kreuzberg/src/extraction/pptx.rs +0 -3102
data/vendor/kreuzberg/src/extractors/epub.rs +0 -696
data/vendor/kreuzberg/src/extractors/latex.rs +0 -653
data/vendor/kreuzberg/src/extractors/opml.rs +0 -635
data/vendor/kreuzberg/src/extractors/rtf.rs +0 -809
data/vendor/kreuzberg/src/ocr/processor.rs +0 -858
data/vendor/kreuzberg/src/plugins/extractor.rs +0 -1042
data/vendor/kreuzberg/src/plugins/processor.rs +0 -650
data/vendor/kreuzberg/src/plugins/registry.rs +0 -1339
data/vendor/kreuzberg/src/plugins/validator.rs +0 -967
data/vendor/kreuzberg/src/text/token_reduction/core.rs +0 -832
data/vendor/kreuzberg/src/types.rs +0 -1713
data/vendor/kreuzberg/src/utils/string_pool.rs +0 -762
data/vendor/kreuzberg-ffi/src/config.rs +0 -1341

data/vendor/kreuzberg/src/extractors/{pdf.rs → pdf/mod.rs} RENAMED Viewed

@@ -1,233 +1,31 @@
 //! PDF document extractor.
+//!
+//! Provides extraction of text, metadata, tables, and images from PDF documents
+//! using pypdfium2 and playa-pdf. Supports both native text extraction and OCR fallback.
+mod extraction;
+mod ocr;
+mod pages;
 use crate::Result;
 use crate::core::config::ExtractionConfig;
 use crate::plugins::{DocumentExtractor, Plugin};
-use crate::types::{ExtractionResult, Metadata, PageContent};
+use crate::types::{ExtractionResult, Metadata};
 use async_trait::async_trait;
 #[cfg(feature = "tokio-runtime")]
 use std::path::Path;
 #[cfg(feature = "pdf")]
 use crate::pdf::error::PdfError;
-#[cfg(feature = "ocr")]
-use crate::pdf::rendering::{PageRenderOptions, PdfRenderer};
-#[cfg(feature = "pdf")]
-use crate::types::Table;
-#[cfg(feature = "pdf")]
-use pdfium_render::prelude::*;
-#[cfg(feature = "pdf")]
-type PdfExtractionPhaseResult = (
-    crate::pdf::metadata::PdfExtractionMetadata,
-    String,
-    Vec<Table>,
-    Option<Vec<PageContent>>,
-);
+// Re-export for backward compatibility
 #[cfg(feature = "ocr")]
-const MIN_TOTAL_NON_WHITESPACE: usize = 64;
-#[cfg(feature = "ocr")]
-const MIN_NON_WHITESPACE_PER_PAGE: f64 = 32.0;
-#[cfg(feature = "ocr")]
-const MIN_MEANINGFUL_WORD_LEN: usize = 4;
-#[cfg(feature = "ocr")]
-const MIN_MEANINGFUL_WORDS: usize = 3;
-#[cfg(feature = "ocr")]
-const MIN_ALNUM_RATIO: f64 = 0.3;
-#[cfg(feature = "ocr")]
-struct NativeTextStats {
-    non_whitespace: usize,
-    alnum: usize,
-    meaningful_words: usize,
-    alnum_ratio: f64,
-}
-#[cfg(feature = "ocr")]
-struct OcrFallbackDecision {
-    stats: NativeTextStats,
-    avg_non_whitespace: f64,
-    avg_alnum: f64,
-    fallback: bool,
-}
-#[cfg(feature = "ocr")]
-impl NativeTextStats {
-    fn from(text: &str) -> Self {
-        let mut non_whitespace = 0usize;
-        let mut alnum = 0usize;
-        for ch in text.chars() {
-            if !ch.is_whitespace() {
-                non_whitespace += 1;
-                if ch.is_alphanumeric() {
-                    alnum += 1;
-                }
-            }
-        }
-        let meaningful_words = text
-            .split_whitespace()
-            .filter(|word| {
-                word.chars()
-                    .filter(|c| c.is_alphanumeric())
-                    .take(MIN_MEANINGFUL_WORD_LEN)
-                    .count()
-                    >= MIN_MEANINGFUL_WORD_LEN
-            })
-            .take(MIN_MEANINGFUL_WORDS)
-            .count();
-        let alnum_ratio = if non_whitespace == 0 {
-            0.0
-        } else {
-            alnum as f64 / non_whitespace as f64
-        };
-        Self {
-            non_whitespace,
-            alnum,
-            meaningful_words,
-            alnum_ratio,
-        }
-    }
-}
+pub use ocr::{NativeTextStats, OcrFallbackDecision, evaluate_native_text_for_ocr};
+use extraction::extract_all_from_document;
 #[cfg(feature = "ocr")]
-fn evaluate_native_text_for_ocr(native_text: &str, page_count: Option<usize>) -> OcrFallbackDecision {
-    let trimmed = native_text.trim();
-    if trimmed.is_empty() {
-        let empty_stats = NativeTextStats {
-            non_whitespace: 0,
-            alnum: 0,
-            meaningful_words: 0,
-            alnum_ratio: 0.0,
-        };
-        return OcrFallbackDecision {
-            stats: empty_stats,
-            avg_non_whitespace: 0.0,
-            avg_alnum: 0.0,
-            fallback: true,
-        };
-    }
-    let stats = NativeTextStats::from(trimmed);
-    let pages = page_count.unwrap_or(1).max(1) as f64;
-    let avg_non_whitespace = stats.non_whitespace as f64 / pages;
-    let avg_alnum = stats.alnum as f64 / pages;
-    let has_substantial_text = stats.non_whitespace >= MIN_TOTAL_NON_WHITESPACE
-        && avg_non_whitespace >= MIN_NON_WHITESPACE_PER_PAGE
-        && stats.meaningful_words >= MIN_MEANINGFUL_WORDS;
-    let fallback = if stats.non_whitespace == 0 || stats.alnum == 0 {
-        true
-    } else if has_substantial_text {
-        false
-    } else if (stats.alnum_ratio < MIN_ALNUM_RATIO && avg_alnum < MIN_NON_WHITESPACE_PER_PAGE)
-        || (stats.non_whitespace < MIN_TOTAL_NON_WHITESPACE && avg_non_whitespace < MIN_NON_WHITESPACE_PER_PAGE)
-    {
-        true
-    } else {
-        stats.meaningful_words == 0 && avg_non_whitespace < MIN_NON_WHITESPACE_PER_PAGE
-    };
-    OcrFallbackDecision {
-        stats,
-        avg_non_whitespace,
-        avg_alnum,
-        fallback,
-    }
-}
-/// Extract tables from PDF document using native text positions.
-///
-/// This function converts PDF character positions to HocrWord format,
-/// then uses the existing table reconstruction logic to detect tables.
-///
-/// Uses the shared PdfDocument reference (wrapped in Arc<RwLock<>> for thread-safety).
-#[cfg(all(feature = "pdf", feature = "ocr"))]
-fn extract_tables_from_document(
-    document: &PdfDocument,
-    _metadata: &crate::pdf::metadata::PdfExtractionMetadata,
-) -> Result<Vec<Table>> {
-    use crate::ocr::table::{reconstruct_table, table_to_markdown};
-    use crate::pdf::table::extract_words_from_page;
-    let mut all_tables = Vec::new();
-    for (page_index, page) in document.pages().iter().enumerate() {
-        let words = extract_words_from_page(&page, 0.0)?;
-        if words.is_empty() {
-            continue;
-        }
-        let column_threshold = 50;
-        let row_threshold_ratio = 0.5;
-        let table_cells = reconstruct_table(&words, column_threshold, row_threshold_ratio);
-        if !table_cells.is_empty() {
-            let markdown = table_to_markdown(&table_cells);
-            all_tables.push(Table {
-                cells: table_cells,
-                markdown,
-                page_number: page_index + 1,
-            });
-        }
-    }
-    Ok(all_tables)
-}
-/// Fallback for when OCR feature is not enabled - returns empty tables.
-#[cfg(all(feature = "pdf", not(feature = "ocr")))]
-fn extract_tables_from_document(
-    _document: &PdfDocument,
-    _metadata: &crate::pdf::metadata::PdfExtractionMetadata,
-) -> Result<Vec<crate::types::Table>> {
-    Ok(vec![])
-}
-/// Helper function to assign tables and images to pages.
-///
-/// If page_contents is None, returns None (no per-page tracking enabled).
-/// Otherwise, iterates through tables and images, assigning them to pages based on page_number.
-///
-/// # Performance
-///
-/// Uses Arc::new to wrap tables and images, avoiding expensive copies.
-/// This reduces memory overhead by enabling zero-copy sharing of table/image data
-/// across multiple references (e.g., when the same table appears on multiple pages).
-fn assign_tables_and_images_to_pages(
-    mut page_contents: Option<Vec<PageContent>>,
-    tables: &[crate::types::Table],
-    images: &[crate::types::ExtractedImage],
-) -> Option<Vec<PageContent>> {
-    let pages = page_contents.take()?;
-    let mut updated_pages = pages;
-    for table in tables {
-        if let Some(page) = updated_pages.iter_mut().find(|p| p.page_number == table.page_number) {
-            page.tables.push(std::sync::Arc::new(table.clone()));
-        }
-    }
-    for image in images {
-        if let Some(page_num) = image.page_number
-            && let Some(page) = updated_pages.iter_mut().find(|p| p.page_number == page_num)
-        {
-            page.images.push(std::sync::Arc::new(image.clone()));
-        }
-    }
-    Some(updated_pages)
-}
+use ocr::extract_with_ocr;
+use pages::assign_tables_and_images_to_pages;
 /// PDF document extractor using pypdfium2 and playa-pdf.
 pub struct PdfExtractor;
@@ -242,105 +40,6 @@ impl PdfExtractor {
     pub fn new() -> Self {
         Self
     }
-    /// Extract text, metadata, and tables from a PDF document using a single shared instance.
-    ///
-    /// This method consolidates all PDF extraction phases (text, metadata, tables) into a single
-    /// operation using a single PdfDocument instance. This avoids redundant document parsing
-    /// and pdfium initialization overhead.
-    ///
-    /// # Performance
-    ///
-    /// By reusing a single document instance across all extraction phases, we eliminate:
-    /// - Duplicate document parsing overhead (25-40ms saved)
-    /// - Redundant pdfium bindings initialization
-    /// - Multiple page tree traversals
-    ///
-    /// Expected improvement: 20-30% faster PDF processing.
-    ///
-    /// # Returns
-    ///
-    /// A tuple containing:
-    /// - PDF metadata (title, authors, dates, page structure, etc.)
-    /// - Native extracted text (or empty if using OCR)
-    /// - Extracted tables (if OCR feature enabled)
-    /// - Per-page content (if page extraction configured)
-    #[cfg(feature = "pdf")]
-    fn extract_all_from_document(
-        document: &PdfDocument,
-        config: &ExtractionConfig,
-    ) -> Result<PdfExtractionPhaseResult> {
-        let (native_text, _boundaries, page_contents, pdf_metadata) =
-            crate::pdf::text::extract_text_and_metadata_from_pdf_document(document, Some(config))?;
-        let tables = extract_tables_from_document(document, &pdf_metadata)?;
-        Ok((pdf_metadata, native_text, tables, page_contents))
-    }
-    /// Extract text from PDF using OCR.
-    ///
-    /// Renders all pages to images and processes them with OCR.
-    #[cfg(feature = "ocr")]
-    async fn extract_with_ocr(&self, content: &[u8], config: &ExtractionConfig) -> Result<String> {
-        use crate::plugins::registry::get_ocr_backend_registry;
-        use image::ImageEncoder;
-        use image::codecs::png::PngEncoder;
-        use std::io::Cursor;
-        let ocr_config = config.ocr.as_ref().ok_or_else(|| crate::KreuzbergError::Parsing {
-            message: "OCR config required for force_ocr".to_string(),
-            source: None,
-        })?;
-        let backend = {
-            let registry = get_ocr_backend_registry();
-            let registry = registry.read().map_err(|e| crate::KreuzbergError::Plugin {
-                message: format!("Failed to acquire read lock on OCR backend registry: {}", e),
-                plugin_name: "ocr-registry".to_string(),
-            })?;
-            registry.get(&ocr_config.backend)?
-        };
-        let images = {
-            let render_options = PageRenderOptions::default();
-            let renderer = PdfRenderer::new().map_err(|e| crate::KreuzbergError::Parsing {
-                message: format!("Failed to initialize PDF renderer: {}", e),
-                source: None,
-            })?;
-            renderer
-                .render_all_pages(content, &render_options)
-                .map_err(|e| crate::KreuzbergError::Parsing {
-                    message: format!("Failed to render PDF pages: {}", e),
-                    source: None,
-                })?
-        };
-        let mut page_texts = Vec::with_capacity(images.len());
-        for image in images {
-            let rgb_image = image.to_rgb8();
-            let (width, height) = rgb_image.dimensions();
-            let mut image_bytes = Cursor::new(Vec::new());
-            let encoder = PngEncoder::new(&mut image_bytes);
-            encoder
-                .write_image(&rgb_image, width, height, image::ColorType::Rgb8.into())
-                .map_err(|e| crate::KreuzbergError::Parsing {
-                    message: format!("Failed to encode image: {}", e),
-                    source: None,
-                })?;
-            let image_data = image_bytes.into_inner();
-            let ocr_result = backend.process_image(&image_data, ocr_config).await?;
-            page_texts.push(ocr_result.content);
-        }
-        Ok(page_texts.join("\n\n"))
-    }
 }
 impl Plugin for PdfExtractor {
@@ -404,7 +103,7 @@ impl DocumentExtractor for PdfExtractor {
                     }
                 })?;
-                Self::extract_all_from_document(&document, config)?
+                extract_all_from_document(&document, config)?
             }
             #[cfg(all(not(target_arch = "wasm32"), feature = "tokio-runtime"))]
             {
@@ -428,7 +127,7 @@ impl DocumentExtractor for PdfExtractor {
                         })?;
                         let (pdf_metadata, native_text, tables, page_contents) =
-                            Self::extract_all_from_document(&document, &config_owned)?;
+                            extract_all_from_document(&document, &config_owned)?;
                         if let Some(page_cfg) = config_owned.pages.as_ref()
                             && page_cfg.extract_pages
@@ -458,7 +157,7 @@ impl DocumentExtractor for PdfExtractor {
                         }
                     })?;
-                    Self::extract_all_from_document(&document, config)?
+                    extract_all_from_document(&document, config)?
                 }
             }
             #[cfg(all(not(target_arch = "wasm32"), not(feature = "tokio-runtime")))]
@@ -475,19 +174,19 @@ impl DocumentExtractor for PdfExtractor {
                     }
                 })?;
-                Self::extract_all_from_document(&document, config)?
+                extract_all_from_document(&document, config)?
             }
         };
         #[cfg(feature = "ocr")]
         let text = if config.force_ocr {
             if config.ocr.is_some() {
-                self.extract_with_ocr(content, config).await?
+                extract_with_ocr(content, config).await?
             } else {
                 native_text
             }
         } else if config.ocr.is_some() {
-            let decision = evaluate_native_text_for_ocr(&native_text, None);
+            let decision = ocr::evaluate_native_text_for_ocr(&native_text, None);
             if std::env::var("KREUZBERG_DEBUG_OCR").is_ok() {
                 eprintln!(
@@ -504,7 +203,7 @@ impl DocumentExtractor for PdfExtractor {
             }
             if decision.fallback {
-                self.extract_with_ocr(content, config).await?
+                extract_with_ocr(content, config).await?
             } else {
                 native_text
             }
@@ -593,6 +292,8 @@ impl DocumentExtractor for PdfExtractor {
             detected_languages: None,
             chunks: None,
             images,
+            djot_content: None,
+            elements: None,
         })
     }
@@ -640,21 +341,21 @@ mod tests {
     #[cfg(feature = "ocr")]
     #[test]
     fn test_should_fallback_to_ocr_for_empty_text() {
-        assert!(evaluate_native_text_for_ocr("", Some(1)).fallback);
+        assert!(ocr::evaluate_native_text_for_ocr("", Some(1)).fallback);
     }
     #[cfg(feature = "ocr")]
     #[test]
     fn test_should_not_fallback_for_meaningful_text() {
         let sample = "This page has searchable vector text and should avoid OCR.";
-        assert!(!evaluate_native_text_for_ocr(sample, Some(1)).fallback);
+        assert!(!ocr::evaluate_native_text_for_ocr(sample, Some(1)).fallback);
     }
     #[cfg(feature = "ocr")]
     #[test]
     fn test_should_fallback_for_punctuation_only_text() {
         let sample = " . , ; : -- -- ";
-        assert!(evaluate_native_text_for_ocr(sample, Some(2)).fallback);
+        assert!(ocr::evaluate_native_text_for_ocr(sample, Some(2)).fallback);
     }
     #[tokio::test]

data/vendor/kreuzberg/src/extractors/pdf/ocr.rs ADDED Viewed

@@ -0,0 +1,214 @@
+//! OCR functionality for PDF extraction.
+//!
+//! Handles text quality evaluation, OCR fallback decision logic, and OCR processing.
+#[cfg(feature = "ocr")]
+use crate::core::config::ExtractionConfig;
+#[cfg(feature = "ocr")]
+pub(crate) const MIN_TOTAL_NON_WHITESPACE: usize = 64;
+#[cfg(feature = "ocr")]
+pub(crate) const MIN_NON_WHITESPACE_PER_PAGE: f64 = 32.0;
+#[cfg(feature = "ocr")]
+pub(crate) const MIN_MEANINGFUL_WORD_LEN: usize = 4;
+#[cfg(feature = "ocr")]
+pub(crate) const MIN_MEANINGFUL_WORDS: usize = 3;
+#[cfg(feature = "ocr")]
+pub(crate) const MIN_ALNUM_RATIO: f64 = 0.3;
+#[cfg(feature = "ocr")]
+pub struct NativeTextStats {
+    pub non_whitespace: usize,
+    pub alnum: usize,
+    pub meaningful_words: usize,
+    pub alnum_ratio: f64,
+}
+#[cfg(feature = "ocr")]
+pub struct OcrFallbackDecision {
+    pub stats: NativeTextStats,
+    pub avg_non_whitespace: f64,
+    pub avg_alnum: f64,
+    pub fallback: bool,
+}
+#[cfg(feature = "ocr")]
+impl NativeTextStats {
+    pub fn from(text: &str) -> Self {
+        let mut non_whitespace = 0usize;
+        let mut alnum = 0usize;
+        for ch in text.chars() {
+            if !ch.is_whitespace() {
+                non_whitespace += 1;
+                if ch.is_alphanumeric() {
+                    alnum += 1;
+                }
+            }
+        }
+        let meaningful_words = text
+            .split_whitespace()
+            .filter(|word| {
+                word.chars()
+                    .filter(|c| c.is_alphanumeric())
+                    .take(MIN_MEANINGFUL_WORD_LEN)
+                    .count()
+                    >= MIN_MEANINGFUL_WORD_LEN
+            })
+            .take(MIN_MEANINGFUL_WORDS)
+            .count();
+        let alnum_ratio = if non_whitespace == 0 {
+            0.0
+        } else {
+            alnum as f64 / non_whitespace as f64
+        };
+        Self {
+            non_whitespace,
+            alnum,
+            meaningful_words,
+            alnum_ratio,
+        }
+    }
+}
+/// Evaluates native PDF text quality to determine if OCR fallback is needed.
+///
+/// Analyzes text characteristics (whitespace, alphanumeric ratio, meaningful words)
+/// to detect cases where native text extraction produced poor results (e.g., scanned
+/// PDFs with garbled text).
+///
+/// # Arguments
+///
+/// * `native_text` - The text extracted from the PDF using native methods
+/// * `page_count` - Optional page count for per-page average calculations
+///
+/// # Returns
+///
+/// An `OcrFallbackDecision` containing:
+/// - Statistics about the text quality
+/// - Per-page averages
+/// - Boolean decision on whether to use OCR
+#[cfg(feature = "ocr")]
+pub fn evaluate_native_text_for_ocr(native_text: &str, page_count: Option<usize>) -> OcrFallbackDecision {
+    let trimmed = native_text.trim();
+    if trimmed.is_empty() {
+        let empty_stats = NativeTextStats {
+            non_whitespace: 0,
+            alnum: 0,
+            meaningful_words: 0,
+            alnum_ratio: 0.0,
+        };
+        return OcrFallbackDecision {
+            stats: empty_stats,
+            avg_non_whitespace: 0.0,
+            avg_alnum: 0.0,
+            fallback: true,
+        };
+    }
+    let stats = NativeTextStats::from(trimmed);
+    let pages = page_count.unwrap_or(1).max(1) as f64;
+    let avg_non_whitespace = stats.non_whitespace as f64 / pages;
+    let avg_alnum = stats.alnum as f64 / pages;
+    let has_substantial_text = stats.non_whitespace >= MIN_TOTAL_NON_WHITESPACE
+        && avg_non_whitespace >= MIN_NON_WHITESPACE_PER_PAGE
+        && stats.meaningful_words >= MIN_MEANINGFUL_WORDS;
+    let fallback = if stats.non_whitespace == 0 || stats.alnum == 0 {
+        true
+    } else if has_substantial_text {
+        false
+    } else if (stats.alnum_ratio < MIN_ALNUM_RATIO && avg_alnum < MIN_NON_WHITESPACE_PER_PAGE)
+        || (stats.non_whitespace < MIN_TOTAL_NON_WHITESPACE && avg_non_whitespace < MIN_NON_WHITESPACE_PER_PAGE)
+    {
+        true
+    } else {
+        stats.meaningful_words == 0 && avg_non_whitespace < MIN_NON_WHITESPACE_PER_PAGE
+    };
+    OcrFallbackDecision {
+        stats,
+        avg_non_whitespace,
+        avg_alnum,
+        fallback,
+    }
+}
+/// Extract text from PDF using OCR.
+///
+/// Renders all pages to images and processes them with OCR backend.
+///
+/// # Arguments
+///
+/// * `content` - Raw PDF bytes
+/// * `config` - Extraction configuration including OCR settings
+///
+/// # Returns
+///
+/// Concatenated text from all pages, separated by double newlines
+#[cfg(feature = "ocr")]
+pub(crate) async fn extract_with_ocr(content: &[u8], config: &ExtractionConfig) -> crate::Result<String> {
+    use crate::pdf::rendering::{PageRenderOptions, PdfRenderer};
+    use crate::plugins::registry::get_ocr_backend_registry;
+    use image::ImageEncoder;
+    use image::codecs::png::PngEncoder;
+    use std::io::Cursor;
+    let ocr_config = config.ocr.as_ref().ok_or_else(|| crate::KreuzbergError::Parsing {
+        message: "OCR config required for force_ocr".to_string(),
+        source: None,
+    })?;
+    let backend = {
+        let registry = get_ocr_backend_registry();
+        let registry = registry.read().map_err(|e| crate::KreuzbergError::Plugin {
+            message: format!("Failed to acquire read lock on OCR backend registry: {}", e),
+            plugin_name: "ocr-registry".to_string(),
+        })?;
+        registry.get(&ocr_config.backend)?
+    };
+    let images = {
+        let render_options = PageRenderOptions::default();
+        let renderer = PdfRenderer::new().map_err(|e| crate::KreuzbergError::Parsing {
+            message: format!("Failed to initialize PDF renderer: {}", e),
+            source: None,
+        })?;
+        renderer
+            .render_all_pages(content, &render_options)
+            .map_err(|e| crate::KreuzbergError::Parsing {
+                message: format!("Failed to render PDF pages: {}", e),
+                source: None,
+            })?
+    };
+    let mut page_texts = Vec::with_capacity(images.len());
+    for image in images {
+        let rgb_image = image.to_rgb8();
+        let (width, height) = rgb_image.dimensions();
+        let mut image_bytes = Cursor::new(Vec::new());
+        let encoder = PngEncoder::new(&mut image_bytes);
+        encoder
+            .write_image(&rgb_image, width, height, image::ColorType::Rgb8.into())
+            .map_err(|e| crate::KreuzbergError::Parsing {
+                message: format!("Failed to encode image: {}", e),
+                source: None,
+            })?;
+        let image_data = image_bytes.into_inner();
+        let ocr_result = backend.process_image(&image_data, ocr_config).await?;
+        page_texts.push(ocr_result.content);
+    }
+    Ok(page_texts.join("\n\n"))
+}

data/vendor/kreuzberg/src/extractors/pdf/pages.rs ADDED Viewed

@@ -0,0 +1,51 @@
+//! Page content management for PDF extraction.
+//!
+//! Handles assignment of tables and images to specific pages.
+use crate::types::PageContent;
+/// Helper function to assign tables and images to pages.
+///
+/// If page_contents is None, returns None (no per-page tracking enabled).
+/// Otherwise, iterates through tables and images, assigning them to pages based on page_number.
+///
+/// # Performance
+///
+/// Uses Arc::new to wrap tables and images, avoiding expensive copies.
+/// This reduces memory overhead by enabling zero-copy sharing of table/image data
+/// across multiple references (e.g., when the same table appears on multiple pages).
+///
+/// # Arguments
+///
+/// * `page_contents` - Optional vector of page contents to populate
+/// * `tables` - Slice of tables to assign to pages
+/// * `images` - Slice of images to assign to pages
+///
+/// # Returns
+///
+/// Updated page contents with tables and images assigned, or None if page tracking disabled
+pub(crate) fn assign_tables_and_images_to_pages(
+    mut page_contents: Option<Vec<PageContent>>,
+    tables: &[crate::types::Table],
+    images: &[crate::types::ExtractedImage],
+) -> Option<Vec<PageContent>> {
+    let pages = page_contents.take()?;
+    let mut updated_pages = pages;
+    for table in tables {
+        if let Some(page) = updated_pages.iter_mut().find(|p| p.page_number == table.page_number) {
+            page.tables.push(std::sync::Arc::new(table.clone()));
+        }
+    }
+    for image in images {
+        if let Some(page_num) = image.page_number
+            && let Some(page) = updated_pages.iter_mut().find(|p| p.page_number == page_num)
+        {
+            page.images.push(std::sync::Arc::new(image.clone()));
+        }
+    }
+    Some(updated_pages)
+}