RubyGems - kreuzberg - Versions diffs - 4.0.0.rc1 - Mend

kreuzberg 4.0.0.rc1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (265) hide show

checksums.yaml +7 -0
data/.gitignore +8 -0
data/.rspec +3 -0
data/.rubocop.yaml +534 -0
data/Gemfile +9 -0
data/Gemfile.lock +157 -0
data/README.md +421 -0
data/Rakefile +25 -0
data/Steepfile +47 -0
data/examples/async_patterns.rb +340 -0
data/ext/kreuzberg_rb/extconf.rb +35 -0
data/ext/kreuzberg_rb/native/Cargo.toml +36 -0
data/ext/kreuzberg_rb/native/README.md +425 -0
data/ext/kreuzberg_rb/native/build.rs +17 -0
data/ext/kreuzberg_rb/native/include/ieeefp.h +11 -0
data/ext/kreuzberg_rb/native/include/msvc_compat/strings.h +14 -0
data/ext/kreuzberg_rb/native/include/strings.h +20 -0
data/ext/kreuzberg_rb/native/include/unistd.h +47 -0
data/ext/kreuzberg_rb/native/src/lib.rs +2939 -0
data/extconf.rb +28 -0
data/kreuzberg.gemspec +105 -0
data/lib/kreuzberg/api_proxy.rb +142 -0
data/lib/kreuzberg/cache_api.rb +45 -0
data/lib/kreuzberg/cli.rb +55 -0
data/lib/kreuzberg/cli_proxy.rb +127 -0
data/lib/kreuzberg/config.rb +684 -0
data/lib/kreuzberg/errors.rb +50 -0
data/lib/kreuzberg/extraction_api.rb +84 -0
data/lib/kreuzberg/mcp_proxy.rb +186 -0
data/lib/kreuzberg/ocr_backend_protocol.rb +113 -0
data/lib/kreuzberg/post_processor_protocol.rb +86 -0
data/lib/kreuzberg/result.rb +216 -0
data/lib/kreuzberg/setup_lib_path.rb +79 -0
data/lib/kreuzberg/validator_protocol.rb +89 -0
data/lib/kreuzberg/version.rb +5 -0
data/lib/kreuzberg.rb +82 -0
data/pkg/kreuzberg-4.0.0.rc1.gem +0 -0
data/sig/kreuzberg/internal.rbs +184 -0
data/sig/kreuzberg.rbs +468 -0
data/spec/binding/cache_spec.rb +227 -0
data/spec/binding/cli_proxy_spec.rb +87 -0
data/spec/binding/cli_spec.rb +54 -0
data/spec/binding/config_spec.rb +345 -0
data/spec/binding/config_validation_spec.rb +283 -0
data/spec/binding/error_handling_spec.rb +213 -0
data/spec/binding/errors_spec.rb +66 -0
data/spec/binding/plugins/ocr_backend_spec.rb +307 -0
data/spec/binding/plugins/postprocessor_spec.rb +269 -0
data/spec/binding/plugins/validator_spec.rb +274 -0
data/spec/examples.txt +104 -0
data/spec/fixtures/config.toml +39 -0
data/spec/fixtures/config.yaml +42 -0
data/spec/fixtures/invalid_config.toml +4 -0
data/spec/smoke/package_spec.rb +178 -0
data/spec/spec_helper.rb +42 -0
data/vendor/kreuzberg/Cargo.toml +134 -0
data/vendor/kreuzberg/README.md +175 -0
data/vendor/kreuzberg/build.rs +460 -0
data/vendor/kreuzberg/src/api/error.rs +81 -0
data/vendor/kreuzberg/src/api/handlers.rs +199 -0
data/vendor/kreuzberg/src/api/mod.rs +79 -0
data/vendor/kreuzberg/src/api/server.rs +353 -0
data/vendor/kreuzberg/src/api/types.rs +170 -0
data/vendor/kreuzberg/src/bin/profile_extract.rs +455 -0
data/vendor/kreuzberg/src/cache/mod.rs +1143 -0
data/vendor/kreuzberg/src/chunking/mod.rs +677 -0
data/vendor/kreuzberg/src/core/batch_mode.rs +35 -0
data/vendor/kreuzberg/src/core/config.rs +1032 -0
data/vendor/kreuzberg/src/core/extractor.rs +903 -0
data/vendor/kreuzberg/src/core/io.rs +327 -0
data/vendor/kreuzberg/src/core/mime.rs +615 -0
data/vendor/kreuzberg/src/core/mod.rs +42 -0
data/vendor/kreuzberg/src/core/pipeline.rs +906 -0
data/vendor/kreuzberg/src/embeddings.rs +323 -0
data/vendor/kreuzberg/src/error.rs +431 -0
data/vendor/kreuzberg/src/extraction/archive.rs +954 -0
data/vendor/kreuzberg/src/extraction/docx.rs +40 -0
data/vendor/kreuzberg/src/extraction/email.rs +854 -0
data/vendor/kreuzberg/src/extraction/excel.rs +688 -0
data/vendor/kreuzberg/src/extraction/html.rs +553 -0
data/vendor/kreuzberg/src/extraction/image.rs +368 -0
data/vendor/kreuzberg/src/extraction/libreoffice.rs +564 -0
data/vendor/kreuzberg/src/extraction/mod.rs +77 -0
data/vendor/kreuzberg/src/extraction/office_metadata/app_properties.rs +398 -0
data/vendor/kreuzberg/src/extraction/office_metadata/core_properties.rs +247 -0
data/vendor/kreuzberg/src/extraction/office_metadata/custom_properties.rs +240 -0
data/vendor/kreuzberg/src/extraction/office_metadata/mod.rs +128 -0
data/vendor/kreuzberg/src/extraction/pandoc/batch.rs +275 -0
data/vendor/kreuzberg/src/extraction/pandoc/mime_types.rs +178 -0
data/vendor/kreuzberg/src/extraction/pandoc/mod.rs +491 -0
data/vendor/kreuzberg/src/extraction/pandoc/server.rs +496 -0
data/vendor/kreuzberg/src/extraction/pandoc/subprocess.rs +1188 -0
data/vendor/kreuzberg/src/extraction/pandoc/version.rs +162 -0
data/vendor/kreuzberg/src/extraction/pptx.rs +3000 -0
data/vendor/kreuzberg/src/extraction/structured.rs +490 -0
data/vendor/kreuzberg/src/extraction/table.rs +328 -0
data/vendor/kreuzberg/src/extraction/text.rs +269 -0
data/vendor/kreuzberg/src/extraction/xml.rs +333 -0
data/vendor/kreuzberg/src/extractors/archive.rs +425 -0
data/vendor/kreuzberg/src/extractors/docx.rs +479 -0
data/vendor/kreuzberg/src/extractors/email.rs +129 -0
data/vendor/kreuzberg/src/extractors/excel.rs +344 -0
data/vendor/kreuzberg/src/extractors/html.rs +410 -0
data/vendor/kreuzberg/src/extractors/image.rs +195 -0
data/vendor/kreuzberg/src/extractors/mod.rs +268 -0
data/vendor/kreuzberg/src/extractors/pandoc.rs +201 -0
data/vendor/kreuzberg/src/extractors/pdf.rs +496 -0
data/vendor/kreuzberg/src/extractors/pptx.rs +234 -0
data/vendor/kreuzberg/src/extractors/structured.rs +126 -0
data/vendor/kreuzberg/src/extractors/text.rs +242 -0
data/vendor/kreuzberg/src/extractors/xml.rs +128 -0
data/vendor/kreuzberg/src/image/dpi.rs +164 -0
data/vendor/kreuzberg/src/image/mod.rs +6 -0
data/vendor/kreuzberg/src/image/preprocessing.rs +417 -0
data/vendor/kreuzberg/src/image/resize.rs +89 -0
data/vendor/kreuzberg/src/keywords/config.rs +154 -0
data/vendor/kreuzberg/src/keywords/mod.rs +237 -0
data/vendor/kreuzberg/src/keywords/processor.rs +267 -0
data/vendor/kreuzberg/src/keywords/rake.rs +294 -0
data/vendor/kreuzberg/src/keywords/types.rs +68 -0
data/vendor/kreuzberg/src/keywords/yake.rs +163 -0
data/vendor/kreuzberg/src/language_detection/mod.rs +942 -0
data/vendor/kreuzberg/src/lib.rs +102 -0
data/vendor/kreuzberg/src/mcp/mod.rs +32 -0
data/vendor/kreuzberg/src/mcp/server.rs +1966 -0
data/vendor/kreuzberg/src/ocr/cache.rs +469 -0
data/vendor/kreuzberg/src/ocr/error.rs +37 -0
data/vendor/kreuzberg/src/ocr/hocr.rs +216 -0
data/vendor/kreuzberg/src/ocr/mod.rs +58 -0
data/vendor/kreuzberg/src/ocr/processor.rs +847 -0
data/vendor/kreuzberg/src/ocr/table/mod.rs +4 -0
data/vendor/kreuzberg/src/ocr/table/tsv_parser.rs +144 -0
data/vendor/kreuzberg/src/ocr/tesseract_backend.rs +450 -0
data/vendor/kreuzberg/src/ocr/types.rs +393 -0
data/vendor/kreuzberg/src/ocr/utils.rs +47 -0
data/vendor/kreuzberg/src/ocr/validation.rs +206 -0
data/vendor/kreuzberg/src/pdf/error.rs +122 -0
data/vendor/kreuzberg/src/pdf/images.rs +139 -0
data/vendor/kreuzberg/src/pdf/metadata.rs +346 -0
data/vendor/kreuzberg/src/pdf/mod.rs +50 -0
data/vendor/kreuzberg/src/pdf/rendering.rs +369 -0
data/vendor/kreuzberg/src/pdf/table.rs +420 -0
data/vendor/kreuzberg/src/pdf/text.rs +161 -0
data/vendor/kreuzberg/src/plugins/extractor.rs +1010 -0
data/vendor/kreuzberg/src/plugins/mod.rs +209 -0
data/vendor/kreuzberg/src/plugins/ocr.rs +629 -0
data/vendor/kreuzberg/src/plugins/processor.rs +641 -0
data/vendor/kreuzberg/src/plugins/registry.rs +1324 -0
data/vendor/kreuzberg/src/plugins/traits.rs +258 -0
data/vendor/kreuzberg/src/plugins/validator.rs +955 -0
data/vendor/kreuzberg/src/stopwords/mod.rs +1470 -0
data/vendor/kreuzberg/src/text/mod.rs +19 -0
data/vendor/kreuzberg/src/text/quality.rs +697 -0
data/vendor/kreuzberg/src/text/string_utils.rs +217 -0
data/vendor/kreuzberg/src/text/token_reduction/cjk_utils.rs +164 -0
data/vendor/kreuzberg/src/text/token_reduction/config.rs +100 -0
data/vendor/kreuzberg/src/text/token_reduction/core.rs +796 -0
data/vendor/kreuzberg/src/text/token_reduction/filters.rs +902 -0
data/vendor/kreuzberg/src/text/token_reduction/mod.rs +160 -0
data/vendor/kreuzberg/src/text/token_reduction/semantic.rs +619 -0
data/vendor/kreuzberg/src/text/token_reduction/simd_text.rs +147 -0
data/vendor/kreuzberg/src/types.rs +873 -0
data/vendor/kreuzberg/src/utils/mod.rs +17 -0
data/vendor/kreuzberg/src/utils/quality.rs +959 -0
data/vendor/kreuzberg/src/utils/string_utils.rs +381 -0
data/vendor/kreuzberg/stopwords/af_stopwords.json +53 -0
data/vendor/kreuzberg/stopwords/ar_stopwords.json +482 -0
data/vendor/kreuzberg/stopwords/bg_stopwords.json +261 -0
data/vendor/kreuzberg/stopwords/bn_stopwords.json +400 -0
data/vendor/kreuzberg/stopwords/br_stopwords.json +1205 -0
data/vendor/kreuzberg/stopwords/ca_stopwords.json +280 -0
data/vendor/kreuzberg/stopwords/cs_stopwords.json +425 -0
data/vendor/kreuzberg/stopwords/da_stopwords.json +172 -0
data/vendor/kreuzberg/stopwords/de_stopwords.json +622 -0
data/vendor/kreuzberg/stopwords/el_stopwords.json +849 -0
data/vendor/kreuzberg/stopwords/en_stopwords.json +1300 -0
data/vendor/kreuzberg/stopwords/eo_stopwords.json +175 -0
data/vendor/kreuzberg/stopwords/es_stopwords.json +734 -0
data/vendor/kreuzberg/stopwords/et_stopwords.json +37 -0
data/vendor/kreuzberg/stopwords/eu_stopwords.json +100 -0
data/vendor/kreuzberg/stopwords/fa_stopwords.json +801 -0
data/vendor/kreuzberg/stopwords/fi_stopwords.json +849 -0
data/vendor/kreuzberg/stopwords/fr_stopwords.json +693 -0
data/vendor/kreuzberg/stopwords/ga_stopwords.json +111 -0
data/vendor/kreuzberg/stopwords/gl_stopwords.json +162 -0
data/vendor/kreuzberg/stopwords/gu_stopwords.json +226 -0
data/vendor/kreuzberg/stopwords/ha_stopwords.json +41 -0
data/vendor/kreuzberg/stopwords/he_stopwords.json +196 -0
data/vendor/kreuzberg/stopwords/hi_stopwords.json +227 -0
data/vendor/kreuzberg/stopwords/hr_stopwords.json +181 -0
data/vendor/kreuzberg/stopwords/hu_stopwords.json +791 -0
data/vendor/kreuzberg/stopwords/hy_stopwords.json +47 -0
data/vendor/kreuzberg/stopwords/id_stopwords.json +760 -0
data/vendor/kreuzberg/stopwords/it_stopwords.json +634 -0
data/vendor/kreuzberg/stopwords/ja_stopwords.json +136 -0
data/vendor/kreuzberg/stopwords/kn_stopwords.json +84 -0
data/vendor/kreuzberg/stopwords/ko_stopwords.json +681 -0
data/vendor/kreuzberg/stopwords/ku_stopwords.json +64 -0
data/vendor/kreuzberg/stopwords/la_stopwords.json +51 -0
data/vendor/kreuzberg/stopwords/lt_stopwords.json +476 -0
data/vendor/kreuzberg/stopwords/lv_stopwords.json +163 -0
data/vendor/kreuzberg/stopwords/ml_stopwords.json +1 -0
data/vendor/kreuzberg/stopwords/mr_stopwords.json +101 -0
data/vendor/kreuzberg/stopwords/ms_stopwords.json +477 -0
data/vendor/kreuzberg/stopwords/ne_stopwords.json +490 -0
data/vendor/kreuzberg/stopwords/nl_stopwords.json +415 -0
data/vendor/kreuzberg/stopwords/no_stopwords.json +223 -0
data/vendor/kreuzberg/stopwords/pl_stopwords.json +331 -0
data/vendor/kreuzberg/stopwords/pt_stopwords.json +562 -0
data/vendor/kreuzberg/stopwords/ro_stopwords.json +436 -0
data/vendor/kreuzberg/stopwords/ru_stopwords.json +561 -0
data/vendor/kreuzberg/stopwords/si_stopwords.json +193 -0
data/vendor/kreuzberg/stopwords/sk_stopwords.json +420 -0
data/vendor/kreuzberg/stopwords/sl_stopwords.json +448 -0
data/vendor/kreuzberg/stopwords/so_stopwords.json +32 -0
data/vendor/kreuzberg/stopwords/st_stopwords.json +33 -0
data/vendor/kreuzberg/stopwords/sv_stopwords.json +420 -0
data/vendor/kreuzberg/stopwords/sw_stopwords.json +76 -0
data/vendor/kreuzberg/stopwords/ta_stopwords.json +129 -0
data/vendor/kreuzberg/stopwords/te_stopwords.json +54 -0
data/vendor/kreuzberg/stopwords/th_stopwords.json +118 -0
data/vendor/kreuzberg/stopwords/tl_stopwords.json +149 -0
data/vendor/kreuzberg/stopwords/tr_stopwords.json +506 -0
data/vendor/kreuzberg/stopwords/uk_stopwords.json +75 -0
data/vendor/kreuzberg/stopwords/ur_stopwords.json +519 -0
data/vendor/kreuzberg/stopwords/vi_stopwords.json +647 -0
data/vendor/kreuzberg/stopwords/yo_stopwords.json +62 -0
data/vendor/kreuzberg/stopwords/zh_stopwords.json +796 -0
data/vendor/kreuzberg/stopwords/zu_stopwords.json +31 -0
data/vendor/kreuzberg/tests/api_tests.rs +966 -0
data/vendor/kreuzberg/tests/archive_integration.rs +543 -0
data/vendor/kreuzberg/tests/batch_orchestration.rs +542 -0
data/vendor/kreuzberg/tests/batch_processing.rs +304 -0
data/vendor/kreuzberg/tests/chunking_offset_demo.rs +92 -0
data/vendor/kreuzberg/tests/concurrency_stress.rs +509 -0
data/vendor/kreuzberg/tests/config_features.rs +580 -0
data/vendor/kreuzberg/tests/config_loading_tests.rs +439 -0
data/vendor/kreuzberg/tests/core_integration.rs +493 -0
data/vendor/kreuzberg/tests/csv_integration.rs +424 -0
data/vendor/kreuzberg/tests/docx_metadata_extraction_test.rs +124 -0
data/vendor/kreuzberg/tests/email_integration.rs +325 -0
data/vendor/kreuzberg/tests/error_handling.rs +393 -0
data/vendor/kreuzberg/tests/format_integration.rs +159 -0
data/vendor/kreuzberg/tests/helpers/mod.rs +142 -0
data/vendor/kreuzberg/tests/image_integration.rs +253 -0
data/vendor/kreuzberg/tests/keywords_integration.rs +479 -0
data/vendor/kreuzberg/tests/keywords_quality.rs +509 -0
data/vendor/kreuzberg/tests/mime_detection.rs +428 -0
data/vendor/kreuzberg/tests/ocr_configuration.rs +510 -0
data/vendor/kreuzberg/tests/ocr_errors.rs +676 -0
data/vendor/kreuzberg/tests/ocr_quality.rs +627 -0
data/vendor/kreuzberg/tests/ocr_stress.rs +469 -0
data/vendor/kreuzberg/tests/pandoc_integration.rs +503 -0
data/vendor/kreuzberg/tests/pdf_integration.rs +43 -0
data/vendor/kreuzberg/tests/pipeline_integration.rs +1412 -0
data/vendor/kreuzberg/tests/plugin_ocr_backend_test.rs +771 -0
data/vendor/kreuzberg/tests/plugin_postprocessor_test.rs +561 -0
data/vendor/kreuzberg/tests/plugin_system.rs +921 -0
data/vendor/kreuzberg/tests/plugin_validator_test.rs +783 -0
data/vendor/kreuzberg/tests/registry_integration_tests.rs +607 -0
data/vendor/kreuzberg/tests/security_validation.rs +404 -0
data/vendor/kreuzberg/tests/stopwords_integration_test.rs +888 -0
data/vendor/kreuzberg/tests/test_fastembed.rs +609 -0
data/vendor/kreuzberg/tests/xlsx_metadata_extraction_test.rs +87 -0
metadata +471 -0

data/vendor/kreuzberg/src/pdf/table.rs ADDED Viewed

@@ -0,0 +1,420 @@
+//! PDF table extraction using pdfium character positions.
+//!
+//! This module converts pdfium character data to HocrWord format,
+//! allowing us to reuse the existing table reconstruction logic.
+use super::error::{PdfError, Result};
+use crate::ocr::table::HocrWord;
+use pdfium_render::prelude::*;
+/// Spacing threshold for word boundary detection (in PDF units).
+///
+/// Characters separated by more than this distance are considered separate words.
+const WORD_SPACING_THRESHOLD: f32 = 3.0;
+/// Minimum word length for table detection (filter out noise).
+const MIN_WORD_LENGTH: usize = 1;
+/// Extract words with positions from PDF page for table detection.
+///
+/// Groups adjacent characters into words based on spacing heuristics,
+/// then converts to HocrWord format for table reconstruction.
+///
+/// # Arguments
+///
+/// * `page` - PDF page to extract words from
+/// * `min_confidence` - Minimum confidence threshold (0.0-100.0). PDF text has high confidence (95.0).
+///
+/// # Returns
+///
+/// Vector of HocrWord objects with text and bounding box information.
+///
+/// # Example
+///
+/// ```rust,no_run
+/// use kreuzberg::pdf::table::extract_words_from_page;
+/// use pdfium_render::prelude::*;
+///
+/// let pdfium = Pdfium::default();
+/// let document = pdfium.load_pdf_from_file("example.pdf", None)?;
+/// let page = document.pages().get(0)?;
+/// let words = extract_words_from_page(&page, 90.0)?;
+/// ```
+pub fn extract_words_from_page(page: &PdfPage, min_confidence: f64) -> Result<Vec<HocrWord>> {
+    // Get page dimensions for coordinate system
+    let page_width = page.width().value as i32;
+    let page_height = page.height().value as i32;
+    // Get all text from page
+    let page_text = page
+        .text()
+        .map_err(|e| PdfError::TextExtractionFailed(format!("Failed to get page text: {}", e)))?;
+    // Extract character-level information
+    let chars = page_text.chars();
+    // Group characters into words based on spacing
+    let words = group_chars_into_words(chars, page_width, page_height, min_confidence)?;
+    Ok(words)
+}
+/// Character with position information extracted from PDF.
+#[derive(Debug, Clone)]
+struct CharInfo {
+    text: char,
+    x: f32,
+    y: f32,
+    width: f32,
+    height: f32,
+}
+/// Group PDF characters into words based on spacing heuristics.
+///
+/// Characters are grouped into the same word if they are:
+/// 1. On the same horizontal line (similar y-coordinate)
+/// 2. Close together horizontally (spacing < WORD_SPACING_THRESHOLD)
+///
+/// # Arguments
+///
+/// * `chars` - Iterator of PDF page characters
+/// * `page_width` - Page width in PDF units
+/// * `page_height` - Page height in PDF units
+/// * `min_confidence` - Minimum confidence threshold (PDF text uses 95.0)
+fn group_chars_into_words(
+    chars: PdfPageTextChars,
+    _page_width: i32,
+    page_height: i32,
+    min_confidence: f64,
+) -> Result<Vec<HocrWord>> {
+    let mut words: Vec<HocrWord> = Vec::new();
+    let mut current_word_chars: Vec<CharInfo> = Vec::new();
+    for pdf_char in chars.iter() {
+        // Get character bounds (use loose_bounds for table detection)
+        let bounds = pdf_char
+            .loose_bounds()
+            .map_err(|e| PdfError::TextExtractionFailed(format!("Failed to get char bounds: {}", e)))?;
+        // Get unicode character (skip if invalid)
+        let Some(ch) = pdf_char.unicode_char() else {
+            continue;
+        };
+        // Extract character information
+        let char_info = CharInfo {
+            text: ch,
+            x: bounds.left().value,
+            y: bounds.bottom().value, // PDF coordinates: bottom-left origin
+            width: bounds.width().value,
+            height: bounds.height().value,
+        };
+        // Skip whitespace characters (they're used for word boundaries)
+        if char_info.text.is_whitespace() {
+            if !current_word_chars.is_empty() {
+                if let Some(word) = finalize_word(&current_word_chars, page_height, min_confidence) {
+                    words.push(word);
+                }
+                current_word_chars.clear();
+            }
+            continue;
+        }
+        // Check if this character should start a new word
+        if should_start_new_word(&current_word_chars, &char_info) && !current_word_chars.is_empty() {
+            if let Some(word) = finalize_word(&current_word_chars, page_height, min_confidence) {
+                words.push(word);
+            }
+            current_word_chars.clear();
+        }
+        current_word_chars.push(char_info);
+    }
+    // Finalize last word
+    if !current_word_chars.is_empty() {
+        if let Some(word) = finalize_word(&current_word_chars, page_height, min_confidence) {
+            words.push(word);
+        }
+    }
+    Ok(words)
+}
+/// Determine if a new character should start a new word.
+///
+/// Returns true if the character is far from the previous character
+/// (indicating a word boundary) or on a different line.
+fn should_start_new_word(current_word_chars: &[CharInfo], new_char: &CharInfo) -> bool {
+    if current_word_chars.is_empty() {
+        return false;
+    }
+    let last_char = &current_word_chars[current_word_chars.len() - 1];
+    // Check vertical distance (different lines)
+    let vertical_distance = (new_char.y - last_char.y).abs();
+    if vertical_distance > last_char.height * 0.5 {
+        return true;
+    }
+    // Check horizontal distance (word spacing)
+    let horizontal_gap = new_char.x - (last_char.x + last_char.width);
+    horizontal_gap > WORD_SPACING_THRESHOLD
+}
+/// Convert a group of characters into a HocrWord.
+///
+/// Calculates bounding box and confidence for the word.
+/// Returns None if the word doesn't meet minimum criteria.
+fn finalize_word(chars: &[CharInfo], page_height: i32, min_confidence: f64) -> Option<HocrWord> {
+    if chars.is_empty() {
+        return None;
+    }
+    // Build word text
+    let text: String = chars.iter().map(|c| c.text).collect();
+    if text.len() < MIN_WORD_LENGTH {
+        return None;
+    }
+    // Calculate bounding box (encompassing all characters)
+    let left = chars
+        .iter()
+        .map(|c| c.x)
+        .min_by(|a, b| a.partial_cmp(b).unwrap())
+        .unwrap_or(0.0);
+    let right = chars
+        .iter()
+        .map(|c| c.x + c.width)
+        .max_by(|a, b| a.partial_cmp(b).unwrap())
+        .unwrap_or(0.0);
+    let bottom = chars
+        .iter()
+        .map(|c| c.y)
+        .min_by(|a, b| a.partial_cmp(b).unwrap())
+        .unwrap_or(0.0);
+    let top = chars
+        .iter()
+        .map(|c| c.y + c.height)
+        .max_by(|a, b| a.partial_cmp(b).unwrap())
+        .unwrap_or(0.0);
+    let width = (right - left).round() as i32;
+    let height = (top - bottom).round() as i32;
+    // Convert PDF coordinates (bottom-left origin) to image coordinates (top-left origin)
+    // HocrWord expects top-left origin like images/OCR output
+    let top_in_image_coords = (page_height as f32 - top).round() as i32;
+    // PDF text has high confidence (no OCR uncertainty)
+    let confidence = 95.0;
+    // Apply confidence threshold
+    if confidence < min_confidence {
+        return None;
+    }
+    Some(HocrWord {
+        text,
+        left: left.round().max(0.0) as u32,
+        top: top_in_image_coords.max(0) as u32,
+        width: width.max(0) as u32,
+        height: height.max(0) as u32,
+        confidence,
+    })
+}
+#[cfg(test)]
+mod tests {
+    use super::*;
+    #[test]
+    fn test_char_info_creation() {
+        let char_info = CharInfo {
+            text: 'A',
+            x: 100.0,
+            y: 50.0,
+            width: 10.0,
+            height: 12.0,
+        };
+        assert_eq!(char_info.text, 'A');
+        assert_eq!(char_info.x, 100.0);
+        assert_eq!(char_info.width, 10.0);
+    }
+    #[test]
+    fn test_should_start_new_word_empty() {
+        let chars: Vec<CharInfo> = vec![];
+        let new_char = CharInfo {
+            text: 'A',
+            x: 100.0,
+            y: 50.0,
+            width: 10.0,
+            height: 12.0,
+        };
+        assert!(!should_start_new_word(&chars, &new_char));
+    }
+    #[test]
+    fn test_should_start_new_word_spacing() {
+        let chars = vec![CharInfo {
+            text: 'A',
+            x: 100.0,
+            y: 50.0,
+            width: 10.0,
+            height: 12.0,
+        }];
+        // Close character - same word
+        let close_char = CharInfo {
+            text: 'B',
+            x: 111.0, // 1 unit gap
+            y: 50.0,
+            width: 10.0,
+            height: 12.0,
+        };
+        assert!(!should_start_new_word(&chars, &close_char));
+        // Far character - new word
+        let far_char = CharInfo {
+            text: 'C',
+            x: 120.0, // 10 unit gap (> WORD_SPACING_THRESHOLD)
+            y: 50.0,
+            width: 10.0,
+            height: 12.0,
+        };
+        assert!(should_start_new_word(&chars, &far_char));
+    }
+    #[test]
+    fn test_should_start_new_word_different_line() {
+        let chars = vec![CharInfo {
+            text: 'A',
+            x: 100.0,
+            y: 50.0,
+            width: 10.0,
+            height: 12.0,
+        }];
+        // Character on different line
+        let new_line_char = CharInfo {
+            text: 'B',
+            x: 100.0,
+            y: 70.0, // Different y
+            width: 10.0,
+            height: 12.0,
+        };
+        assert!(should_start_new_word(&chars, &new_line_char));
+    }
+    #[test]
+    fn test_finalize_word_basic() {
+        let chars = vec![
+            CharInfo {
+                text: 'H',
+                x: 100.0,
+                y: 50.0,
+                width: 10.0,
+                height: 12.0,
+            },
+            CharInfo {
+                text: 'i',
+                x: 110.0,
+                y: 50.0,
+                width: 8.0,
+                height: 12.0,
+            },
+        ];
+        let page_height = 800;
+        let word = finalize_word(&chars, page_height, 0.0).unwrap();
+        assert_eq!(word.text, "Hi");
+        assert_eq!(word.left, 100);
+        assert_eq!(word.width, 18); // 110 + 8 - 100
+        assert_eq!(word.height, 12);
+        assert_eq!(word.confidence, 95.0);
+    }
+    #[test]
+    fn test_finalize_word_empty() {
+        let chars: Vec<CharInfo> = vec![];
+        let word = finalize_word(&chars, 800, 0.0);
+        assert!(word.is_none());
+    }
+    #[test]
+    fn test_finalize_word_confidence_filter() {
+        let chars = vec![CharInfo {
+            text: 'A',
+            x: 100.0,
+            y: 50.0,
+            width: 10.0,
+            height: 12.0,
+        }];
+        // Low threshold - should pass
+        let word = finalize_word(&chars, 800, 90.0);
+        assert!(word.is_some());
+        // High threshold - should fail
+        let word = finalize_word(&chars, 800, 96.0);
+        assert!(word.is_none());
+    }
+    #[test]
+    fn test_coordinate_conversion() {
+        // Test PDF coordinate (bottom-left origin) to image coordinate (top-left origin)
+        let chars = vec![CharInfo {
+            text: 'A',
+            x: 100.0,
+            y: 700.0, // PDF coordinates: bottom-left origin
+            width: 10.0,
+            height: 12.0,
+        }];
+        let page_height = 800;
+        let word = finalize_word(&chars, page_height, 0.0).unwrap();
+        // top_in_image_coords = page_height - (y + height) = 800 - (700 + 12) = 88
+        assert_eq!(word.top, 88);
+    }
+    #[test]
+    fn test_word_bounding_box() {
+        // Test that bounding box encompasses all characters
+        let chars = vec![
+            CharInfo {
+                text: 'A',
+                x: 100.0,
+                y: 50.0,
+                width: 10.0,
+                height: 12.0,
+            },
+            CharInfo {
+                text: 'B',
+                x: 110.0,
+                y: 51.0, // Slightly different y
+                width: 10.0,
+                height: 13.0, // Slightly different height
+            },
+        ];
+        let word = finalize_word(&chars, 800, 0.0).unwrap();
+        // Left should be minimum x
+        assert_eq!(word.left, 100);
+        // Width should span from leftmost to rightmost character
+        assert_eq!(word.width, 20); // 120 - 100
+        // Height should encompass both characters
+        // max(y+height) - min(y) = max(51+13, 50+12) - 50 = 64 - 50 = 14
+        assert_eq!(word.height, 14);
+    }
+}

data/vendor/kreuzberg/src/pdf/text.rs ADDED Viewed

@@ -0,0 +1,161 @@
+use super::error::{PdfError, Result};
+use pdfium_render::prelude::*;
+pub struct PdfTextExtractor {
+    pdfium: Pdfium,
+}
+impl PdfTextExtractor {
+    pub fn new() -> Result<Self> {
+        let binding = Pdfium::bind_to_library(Pdfium::pdfium_platform_library_name_at_path("./"))
+            .or_else(|_| Pdfium::bind_to_system_library())
+            .map_err(|e| PdfError::TextExtractionFailed(format!("Failed to initialize Pdfium: {}", e)))?;
+        let pdfium = Pdfium::new(binding);
+        Ok(Self { pdfium })
+    }
+    pub fn extract_text(&self, pdf_bytes: &[u8]) -> Result<String> {
+        self.extract_text_with_password(pdf_bytes, None)
+    }
+    pub fn extract_text_with_password(&self, pdf_bytes: &[u8], password: Option<&str>) -> Result<String> {
+        let document = self.pdfium.load_pdf_from_byte_slice(pdf_bytes, password).map_err(|e| {
+            let err_msg = e.to_string();
+            if (err_msg.contains("password") || err_msg.contains("Password")) && password.is_some() {
+                PdfError::InvalidPassword
+            } else if err_msg.contains("password") || err_msg.contains("Password") {
+                PdfError::PasswordRequired
+            } else {
+                PdfError::InvalidPdf(err_msg)
+            }
+        })?;
+        extract_text_from_pdf_document(&document)
+    }
+    pub fn extract_text_with_passwords(&self, pdf_bytes: &[u8], passwords: &[&str]) -> Result<String> {
+        let mut last_error = None;
+        for password in passwords {
+            match self.extract_text_with_password(pdf_bytes, Some(password)) {
+                Ok(text) => return Ok(text),
+                Err(e) => {
+                    last_error = Some(e);
+                    continue;
+                }
+            }
+        }
+        if let Some(err) = last_error {
+            return Err(err);
+        }
+        self.extract_text(pdf_bytes)
+    }
+    pub fn get_page_count(&self, pdf_bytes: &[u8]) -> Result<usize> {
+        let document = self.pdfium.load_pdf_from_byte_slice(pdf_bytes, None).map_err(|e| {
+            let err_msg = e.to_string();
+            if err_msg.contains("password") || err_msg.contains("Password") {
+                PdfError::PasswordRequired
+            } else {
+                PdfError::InvalidPdf(err_msg)
+            }
+        })?;
+        Ok(document.pages().len() as usize)
+    }
+}
+impl Default for PdfTextExtractor {
+    fn default() -> Self {
+        Self::new().expect("Failed to create PDF text extractor")
+    }
+}
+pub fn extract_text_from_pdf(pdf_bytes: &[u8]) -> Result<String> {
+    let extractor = PdfTextExtractor::new()?;
+    extractor.extract_text(pdf_bytes)
+}
+pub fn extract_text_from_pdf_with_password(pdf_bytes: &[u8], password: &str) -> Result<String> {
+    let extractor = PdfTextExtractor::new()?;
+    extractor.extract_text_with_password(pdf_bytes, Some(password))
+}
+pub fn extract_text_from_pdf_with_passwords(pdf_bytes: &[u8], passwords: &[&str]) -> Result<String> {
+    let extractor = PdfTextExtractor::new()?;
+    extractor.extract_text_with_passwords(pdf_bytes, passwords)
+}
+pub fn extract_text_from_pdf_document(document: &PdfDocument<'_>) -> Result<String> {
+    let page_count = document.pages().len() as usize;
+    // Pre-allocate capacity based on estimated page size (average 2KB per page)
+    // This reduces memory reallocations during string concatenation
+    let estimated_size = page_count * 2048;
+    let mut content = String::with_capacity(estimated_size);
+    for page in document.pages().iter() {
+        let text = page
+            .text()
+            .map_err(|e| PdfError::TextExtractionFailed(format!("Page text extraction failed: {}", e)))?;
+        let page_text = text.all();
+        if !content.is_empty() {
+            content.push_str("\n\n");
+        }
+        content.push_str(&page_text);
+    }
+    // Shrink to actual size to free unused capacity
+    content.shrink_to_fit();
+    Ok(content)
+}
+#[cfg(test)]
+mod tests {
+    use super::*;
+    #[test]
+    fn test_extractor_creation() {
+        let result = PdfTextExtractor::new();
+        assert!(result.is_ok());
+    }
+    #[test]
+    fn test_extract_empty_pdf() {
+        let extractor = PdfTextExtractor::new().unwrap();
+        let result = extractor.extract_text(b"");
+        assert!(result.is_err());
+    }
+    #[test]
+    fn test_extract_invalid_pdf() {
+        let extractor = PdfTextExtractor::new().unwrap();
+        let result = extractor.extract_text(b"not a pdf");
+        assert!(result.is_err());
+        assert!(matches!(result.unwrap_err(), PdfError::InvalidPdf(_)));
+    }
+    #[test]
+    fn test_password_required_detection() {
+        let extractor = PdfTextExtractor::new().unwrap();
+        let encrypted_pdf = b"%PDF-1.4\n%\xE2\xE3\xCF\xD3\n";
+        let result = extractor.extract_text(encrypted_pdf);
+        if let Err(err) = result {
+            assert!(matches!(err, PdfError::PasswordRequired | PdfError::InvalidPdf(_)));
+        }
+    }
+    #[test]
+    fn test_extract_text_with_passwords_empty_list() {
+        let extractor = PdfTextExtractor::new().unwrap();
+        let result = extractor.extract_text_with_passwords(b"not a pdf", &[]);
+        assert!(result.is_err());
+    }
+}