RubyGems - kreuzberg - Versions diffs - 4.0.0.pre.rc.6 - Mend

kreuzberg 4.0.0.pre.rc.6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (330) hide show

checksums.yaml +7 -0
data/.gitignore +14 -0
data/.rspec +3 -0
data/.rubocop.yaml +1 -0
data/.rubocop.yml +538 -0
data/Gemfile +8 -0
data/Gemfile.lock +157 -0
data/README.md +426 -0
data/Rakefile +25 -0
data/Steepfile +47 -0
data/examples/async_patterns.rb +341 -0
data/ext/kreuzberg_rb/extconf.rb +45 -0
data/ext/kreuzberg_rb/native/Cargo.lock +6535 -0
data/ext/kreuzberg_rb/native/Cargo.toml +44 -0
data/ext/kreuzberg_rb/native/README.md +425 -0
data/ext/kreuzberg_rb/native/build.rs +15 -0
data/ext/kreuzberg_rb/native/include/ieeefp.h +11 -0
data/ext/kreuzberg_rb/native/include/msvc_compat/strings.h +14 -0
data/ext/kreuzberg_rb/native/include/strings.h +20 -0
data/ext/kreuzberg_rb/native/include/unistd.h +47 -0
data/ext/kreuzberg_rb/native/src/lib.rs +2998 -0
data/extconf.rb +28 -0
data/kreuzberg.gemspec +148 -0
data/lib/kreuzberg/api_proxy.rb +142 -0
data/lib/kreuzberg/cache_api.rb +46 -0
data/lib/kreuzberg/cli.rb +55 -0
data/lib/kreuzberg/cli_proxy.rb +127 -0
data/lib/kreuzberg/config.rb +691 -0
data/lib/kreuzberg/error_context.rb +32 -0
data/lib/kreuzberg/errors.rb +118 -0
data/lib/kreuzberg/extraction_api.rb +85 -0
data/lib/kreuzberg/mcp_proxy.rb +186 -0
data/lib/kreuzberg/ocr_backend_protocol.rb +113 -0
data/lib/kreuzberg/post_processor_protocol.rb +86 -0
data/lib/kreuzberg/result.rb +216 -0
data/lib/kreuzberg/setup_lib_path.rb +80 -0
data/lib/kreuzberg/validator_protocol.rb +89 -0
data/lib/kreuzberg/version.rb +5 -0
data/lib/kreuzberg.rb +103 -0
data/sig/kreuzberg/internal.rbs +184 -0
data/sig/kreuzberg.rbs +520 -0
data/spec/binding/cache_spec.rb +227 -0
data/spec/binding/cli_proxy_spec.rb +85 -0
data/spec/binding/cli_spec.rb +55 -0
data/spec/binding/config_spec.rb +345 -0
data/spec/binding/config_validation_spec.rb +283 -0
data/spec/binding/error_handling_spec.rb +213 -0
data/spec/binding/errors_spec.rb +66 -0
data/spec/binding/plugins/ocr_backend_spec.rb +307 -0
data/spec/binding/plugins/postprocessor_spec.rb +269 -0
data/spec/binding/plugins/validator_spec.rb +274 -0
data/spec/fixtures/config.toml +39 -0
data/spec/fixtures/config.yaml +41 -0
data/spec/fixtures/invalid_config.toml +4 -0
data/spec/smoke/package_spec.rb +178 -0
data/spec/spec_helper.rb +42 -0
data/vendor/kreuzberg/Cargo.toml +204 -0
data/vendor/kreuzberg/README.md +175 -0
data/vendor/kreuzberg/benches/otel_overhead.rs +48 -0
data/vendor/kreuzberg/build.rs +474 -0
data/vendor/kreuzberg/src/api/error.rs +81 -0
data/vendor/kreuzberg/src/api/handlers.rs +199 -0
data/vendor/kreuzberg/src/api/mod.rs +79 -0
data/vendor/kreuzberg/src/api/server.rs +353 -0
data/vendor/kreuzberg/src/api/types.rs +170 -0
data/vendor/kreuzberg/src/cache/mod.rs +1167 -0
data/vendor/kreuzberg/src/chunking/mod.rs +677 -0
data/vendor/kreuzberg/src/core/batch_mode.rs +95 -0
data/vendor/kreuzberg/src/core/config.rs +1032 -0
data/vendor/kreuzberg/src/core/extractor.rs +1024 -0
data/vendor/kreuzberg/src/core/io.rs +329 -0
data/vendor/kreuzberg/src/core/mime.rs +605 -0
data/vendor/kreuzberg/src/core/mod.rs +45 -0
data/vendor/kreuzberg/src/core/pipeline.rs +984 -0
data/vendor/kreuzberg/src/embeddings.rs +432 -0
data/vendor/kreuzberg/src/error.rs +431 -0
data/vendor/kreuzberg/src/extraction/archive.rs +954 -0
data/vendor/kreuzberg/src/extraction/docx.rs +40 -0
data/vendor/kreuzberg/src/extraction/email.rs +854 -0
data/vendor/kreuzberg/src/extraction/excel.rs +688 -0
data/vendor/kreuzberg/src/extraction/html.rs +553 -0
data/vendor/kreuzberg/src/extraction/image.rs +368 -0
data/vendor/kreuzberg/src/extraction/libreoffice.rs +563 -0
data/vendor/kreuzberg/src/extraction/markdown.rs +213 -0
data/vendor/kreuzberg/src/extraction/mod.rs +81 -0
data/vendor/kreuzberg/src/extraction/office_metadata/app_properties.rs +398 -0
data/vendor/kreuzberg/src/extraction/office_metadata/core_properties.rs +247 -0
data/vendor/kreuzberg/src/extraction/office_metadata/custom_properties.rs +240 -0
data/vendor/kreuzberg/src/extraction/office_metadata/mod.rs +130 -0
data/vendor/kreuzberg/src/extraction/office_metadata/odt_properties.rs +287 -0
data/vendor/kreuzberg/src/extraction/pptx.rs +3000 -0
data/vendor/kreuzberg/src/extraction/structured.rs +490 -0
data/vendor/kreuzberg/src/extraction/table.rs +328 -0
data/vendor/kreuzberg/src/extraction/text.rs +269 -0
data/vendor/kreuzberg/src/extraction/xml.rs +333 -0
data/vendor/kreuzberg/src/extractors/archive.rs +446 -0
data/vendor/kreuzberg/src/extractors/bibtex.rs +469 -0
data/vendor/kreuzberg/src/extractors/docbook.rs +502 -0
data/vendor/kreuzberg/src/extractors/docx.rs +367 -0
data/vendor/kreuzberg/src/extractors/email.rs +143 -0
data/vendor/kreuzberg/src/extractors/epub.rs +707 -0
data/vendor/kreuzberg/src/extractors/excel.rs +343 -0
data/vendor/kreuzberg/src/extractors/fictionbook.rs +491 -0
data/vendor/kreuzberg/src/extractors/fictionbook.rs.backup2 +738 -0
data/vendor/kreuzberg/src/extractors/html.rs +393 -0
data/vendor/kreuzberg/src/extractors/image.rs +198 -0
data/vendor/kreuzberg/src/extractors/jats.rs +1051 -0
data/vendor/kreuzberg/src/extractors/jupyter.rs +367 -0
data/vendor/kreuzberg/src/extractors/latex.rs +652 -0
data/vendor/kreuzberg/src/extractors/markdown.rs +700 -0
data/vendor/kreuzberg/src/extractors/mod.rs +365 -0
data/vendor/kreuzberg/src/extractors/odt.rs +628 -0
data/vendor/kreuzberg/src/extractors/opml.rs +634 -0
data/vendor/kreuzberg/src/extractors/orgmode.rs +528 -0
data/vendor/kreuzberg/src/extractors/pdf.rs +493 -0
data/vendor/kreuzberg/src/extractors/pptx.rs +248 -0
data/vendor/kreuzberg/src/extractors/rst.rs +576 -0
data/vendor/kreuzberg/src/extractors/rtf.rs +810 -0
data/vendor/kreuzberg/src/extractors/security.rs +484 -0
data/vendor/kreuzberg/src/extractors/security_tests.rs +367 -0
data/vendor/kreuzberg/src/extractors/structured.rs +140 -0
data/vendor/kreuzberg/src/extractors/text.rs +260 -0
data/vendor/kreuzberg/src/extractors/typst.rs +650 -0
data/vendor/kreuzberg/src/extractors/xml.rs +135 -0
data/vendor/kreuzberg/src/image/dpi.rs +164 -0
data/vendor/kreuzberg/src/image/mod.rs +6 -0
data/vendor/kreuzberg/src/image/preprocessing.rs +417 -0
data/vendor/kreuzberg/src/image/resize.rs +89 -0
data/vendor/kreuzberg/src/keywords/config.rs +154 -0
data/vendor/kreuzberg/src/keywords/mod.rs +237 -0
data/vendor/kreuzberg/src/keywords/processor.rs +267 -0
data/vendor/kreuzberg/src/keywords/rake.rs +293 -0
data/vendor/kreuzberg/src/keywords/types.rs +68 -0
data/vendor/kreuzberg/src/keywords/yake.rs +163 -0
data/vendor/kreuzberg/src/language_detection/mod.rs +942 -0
data/vendor/kreuzberg/src/lib.rs +105 -0
data/vendor/kreuzberg/src/mcp/mod.rs +32 -0
data/vendor/kreuzberg/src/mcp/server.rs +1968 -0
data/vendor/kreuzberg/src/ocr/cache.rs +469 -0
data/vendor/kreuzberg/src/ocr/error.rs +37 -0
data/vendor/kreuzberg/src/ocr/hocr.rs +216 -0
data/vendor/kreuzberg/src/ocr/mod.rs +58 -0
data/vendor/kreuzberg/src/ocr/processor.rs +863 -0
data/vendor/kreuzberg/src/ocr/table/mod.rs +4 -0
data/vendor/kreuzberg/src/ocr/table/tsv_parser.rs +144 -0
data/vendor/kreuzberg/src/ocr/tesseract_backend.rs +450 -0
data/vendor/kreuzberg/src/ocr/types.rs +393 -0
data/vendor/kreuzberg/src/ocr/utils.rs +47 -0
data/vendor/kreuzberg/src/ocr/validation.rs +206 -0
data/vendor/kreuzberg/src/panic_context.rs +154 -0
data/vendor/kreuzberg/src/pdf/error.rs +122 -0
data/vendor/kreuzberg/src/pdf/images.rs +139 -0
data/vendor/kreuzberg/src/pdf/metadata.rs +346 -0
data/vendor/kreuzberg/src/pdf/mod.rs +50 -0
data/vendor/kreuzberg/src/pdf/rendering.rs +369 -0
data/vendor/kreuzberg/src/pdf/table.rs +393 -0
data/vendor/kreuzberg/src/pdf/text.rs +158 -0
data/vendor/kreuzberg/src/plugins/extractor.rs +1013 -0
data/vendor/kreuzberg/src/plugins/mod.rs +209 -0
data/vendor/kreuzberg/src/plugins/ocr.rs +620 -0
data/vendor/kreuzberg/src/plugins/processor.rs +642 -0
data/vendor/kreuzberg/src/plugins/registry.rs +1337 -0
data/vendor/kreuzberg/src/plugins/traits.rs +258 -0
data/vendor/kreuzberg/src/plugins/validator.rs +956 -0
data/vendor/kreuzberg/src/stopwords/mod.rs +1470 -0
data/vendor/kreuzberg/src/text/mod.rs +19 -0
data/vendor/kreuzberg/src/text/quality.rs +697 -0
data/vendor/kreuzberg/src/text/string_utils.rs +217 -0
data/vendor/kreuzberg/src/text/token_reduction/cjk_utils.rs +164 -0
data/vendor/kreuzberg/src/text/token_reduction/config.rs +100 -0
data/vendor/kreuzberg/src/text/token_reduction/core.rs +796 -0
data/vendor/kreuzberg/src/text/token_reduction/filters.rs +902 -0
data/vendor/kreuzberg/src/text/token_reduction/mod.rs +160 -0
data/vendor/kreuzberg/src/text/token_reduction/semantic.rs +619 -0
data/vendor/kreuzberg/src/text/token_reduction/simd_text.rs +147 -0
data/vendor/kreuzberg/src/types.rs +903 -0
data/vendor/kreuzberg/src/utils/mod.rs +17 -0
data/vendor/kreuzberg/src/utils/quality.rs +959 -0
data/vendor/kreuzberg/src/utils/string_utils.rs +381 -0
data/vendor/kreuzberg/stopwords/af_stopwords.json +53 -0
data/vendor/kreuzberg/stopwords/ar_stopwords.json +482 -0
data/vendor/kreuzberg/stopwords/bg_stopwords.json +261 -0
data/vendor/kreuzberg/stopwords/bn_stopwords.json +400 -0
data/vendor/kreuzberg/stopwords/br_stopwords.json +1205 -0
data/vendor/kreuzberg/stopwords/ca_stopwords.json +280 -0
data/vendor/kreuzberg/stopwords/cs_stopwords.json +425 -0
data/vendor/kreuzberg/stopwords/da_stopwords.json +172 -0
data/vendor/kreuzberg/stopwords/de_stopwords.json +622 -0
data/vendor/kreuzberg/stopwords/el_stopwords.json +849 -0
data/vendor/kreuzberg/stopwords/en_stopwords.json +1300 -0
data/vendor/kreuzberg/stopwords/eo_stopwords.json +175 -0
data/vendor/kreuzberg/stopwords/es_stopwords.json +734 -0
data/vendor/kreuzberg/stopwords/et_stopwords.json +37 -0
data/vendor/kreuzberg/stopwords/eu_stopwords.json +100 -0
data/vendor/kreuzberg/stopwords/fa_stopwords.json +801 -0
data/vendor/kreuzberg/stopwords/fi_stopwords.json +849 -0
data/vendor/kreuzberg/stopwords/fr_stopwords.json +693 -0
data/vendor/kreuzberg/stopwords/ga_stopwords.json +111 -0
data/vendor/kreuzberg/stopwords/gl_stopwords.json +162 -0
data/vendor/kreuzberg/stopwords/gu_stopwords.json +226 -0
data/vendor/kreuzberg/stopwords/ha_stopwords.json +41 -0
data/vendor/kreuzberg/stopwords/he_stopwords.json +196 -0
data/vendor/kreuzberg/stopwords/hi_stopwords.json +227 -0
data/vendor/kreuzberg/stopwords/hr_stopwords.json +181 -0
data/vendor/kreuzberg/stopwords/hu_stopwords.json +791 -0
data/vendor/kreuzberg/stopwords/hy_stopwords.json +47 -0
data/vendor/kreuzberg/stopwords/id_stopwords.json +760 -0
data/vendor/kreuzberg/stopwords/it_stopwords.json +634 -0
data/vendor/kreuzberg/stopwords/ja_stopwords.json +136 -0
data/vendor/kreuzberg/stopwords/kn_stopwords.json +84 -0
data/vendor/kreuzberg/stopwords/ko_stopwords.json +681 -0
data/vendor/kreuzberg/stopwords/ku_stopwords.json +64 -0
data/vendor/kreuzberg/stopwords/la_stopwords.json +51 -0
data/vendor/kreuzberg/stopwords/lt_stopwords.json +476 -0
data/vendor/kreuzberg/stopwords/lv_stopwords.json +163 -0
data/vendor/kreuzberg/stopwords/ml_stopwords.json +1 -0
data/vendor/kreuzberg/stopwords/mr_stopwords.json +101 -0
data/vendor/kreuzberg/stopwords/ms_stopwords.json +477 -0
data/vendor/kreuzberg/stopwords/ne_stopwords.json +490 -0
data/vendor/kreuzberg/stopwords/nl_stopwords.json +415 -0
data/vendor/kreuzberg/stopwords/no_stopwords.json +223 -0
data/vendor/kreuzberg/stopwords/pl_stopwords.json +331 -0
data/vendor/kreuzberg/stopwords/pt_stopwords.json +562 -0
data/vendor/kreuzberg/stopwords/ro_stopwords.json +436 -0
data/vendor/kreuzberg/stopwords/ru_stopwords.json +561 -0
data/vendor/kreuzberg/stopwords/si_stopwords.json +193 -0
data/vendor/kreuzberg/stopwords/sk_stopwords.json +420 -0
data/vendor/kreuzberg/stopwords/sl_stopwords.json +448 -0
data/vendor/kreuzberg/stopwords/so_stopwords.json +32 -0
data/vendor/kreuzberg/stopwords/st_stopwords.json +33 -0
data/vendor/kreuzberg/stopwords/sv_stopwords.json +420 -0
data/vendor/kreuzberg/stopwords/sw_stopwords.json +76 -0
data/vendor/kreuzberg/stopwords/ta_stopwords.json +129 -0
data/vendor/kreuzberg/stopwords/te_stopwords.json +54 -0
data/vendor/kreuzberg/stopwords/th_stopwords.json +118 -0
data/vendor/kreuzberg/stopwords/tl_stopwords.json +149 -0
data/vendor/kreuzberg/stopwords/tr_stopwords.json +506 -0
data/vendor/kreuzberg/stopwords/uk_stopwords.json +75 -0
data/vendor/kreuzberg/stopwords/ur_stopwords.json +519 -0
data/vendor/kreuzberg/stopwords/vi_stopwords.json +647 -0
data/vendor/kreuzberg/stopwords/yo_stopwords.json +62 -0
data/vendor/kreuzberg/stopwords/zh_stopwords.json +796 -0
data/vendor/kreuzberg/stopwords/zu_stopwords.json +31 -0
data/vendor/kreuzberg/tests/api_extract_multipart.rs +52 -0
data/vendor/kreuzberg/tests/api_tests.rs +966 -0
data/vendor/kreuzberg/tests/archive_integration.rs +543 -0
data/vendor/kreuzberg/tests/batch_orchestration.rs +556 -0
data/vendor/kreuzberg/tests/batch_processing.rs +316 -0
data/vendor/kreuzberg/tests/bibtex_parity_test.rs +421 -0
data/vendor/kreuzberg/tests/concurrency_stress.rs +525 -0
data/vendor/kreuzberg/tests/config_features.rs +598 -0
data/vendor/kreuzberg/tests/config_loading_tests.rs +415 -0
data/vendor/kreuzberg/tests/core_integration.rs +510 -0
data/vendor/kreuzberg/tests/csv_integration.rs +414 -0
data/vendor/kreuzberg/tests/docbook_extractor_tests.rs +498 -0
data/vendor/kreuzberg/tests/docx_metadata_extraction_test.rs +122 -0
data/vendor/kreuzberg/tests/docx_vs_pandoc_comparison.rs +370 -0
data/vendor/kreuzberg/tests/email_integration.rs +325 -0
data/vendor/kreuzberg/tests/epub_native_extractor_tests.rs +275 -0
data/vendor/kreuzberg/tests/error_handling.rs +393 -0
data/vendor/kreuzberg/tests/fictionbook_extractor_tests.rs +228 -0
data/vendor/kreuzberg/tests/format_integration.rs +159 -0
data/vendor/kreuzberg/tests/helpers/mod.rs +142 -0
data/vendor/kreuzberg/tests/html_table_test.rs +551 -0
data/vendor/kreuzberg/tests/image_integration.rs +253 -0
data/vendor/kreuzberg/tests/instrumentation_test.rs +139 -0
data/vendor/kreuzberg/tests/jats_extractor_tests.rs +639 -0
data/vendor/kreuzberg/tests/jupyter_extractor_tests.rs +704 -0
data/vendor/kreuzberg/tests/keywords_integration.rs +479 -0
data/vendor/kreuzberg/tests/keywords_quality.rs +509 -0
data/vendor/kreuzberg/tests/latex_extractor_tests.rs +496 -0
data/vendor/kreuzberg/tests/markdown_extractor_tests.rs +490 -0
data/vendor/kreuzberg/tests/mime_detection.rs +428 -0
data/vendor/kreuzberg/tests/ocr_configuration.rs +510 -0
data/vendor/kreuzberg/tests/ocr_errors.rs +676 -0
data/vendor/kreuzberg/tests/ocr_quality.rs +627 -0
data/vendor/kreuzberg/tests/ocr_stress.rs +469 -0
data/vendor/kreuzberg/tests/odt_extractor_tests.rs +695 -0
data/vendor/kreuzberg/tests/opml_extractor_tests.rs +616 -0
data/vendor/kreuzberg/tests/orgmode_extractor_tests.rs +822 -0
data/vendor/kreuzberg/tests/pdf_integration.rs +43 -0
data/vendor/kreuzberg/tests/pipeline_integration.rs +1411 -0
data/vendor/kreuzberg/tests/plugin_ocr_backend_test.rs +771 -0
data/vendor/kreuzberg/tests/plugin_postprocessor_test.rs +560 -0
data/vendor/kreuzberg/tests/plugin_system.rs +921 -0
data/vendor/kreuzberg/tests/plugin_validator_test.rs +783 -0
data/vendor/kreuzberg/tests/registry_integration_tests.rs +586 -0
data/vendor/kreuzberg/tests/rst_extractor_tests.rs +692 -0
data/vendor/kreuzberg/tests/rtf_extractor_tests.rs +776 -0
data/vendor/kreuzberg/tests/security_validation.rs +415 -0
data/vendor/kreuzberg/tests/stopwords_integration_test.rs +888 -0
data/vendor/kreuzberg/tests/test_fastembed.rs +609 -0
data/vendor/kreuzberg/tests/typst_behavioral_tests.rs +1259 -0
data/vendor/kreuzberg/tests/typst_extractor_tests.rs +647 -0
data/vendor/kreuzberg/tests/xlsx_metadata_extraction_test.rs +87 -0
data/vendor/rb-sys/.cargo-ok +1 -0
data/vendor/rb-sys/.cargo_vcs_info.json +6 -0
data/vendor/rb-sys/Cargo.lock +393 -0
data/vendor/rb-sys/Cargo.toml +70 -0
data/vendor/rb-sys/Cargo.toml.orig +57 -0
data/vendor/rb-sys/LICENSE-APACHE +190 -0
data/vendor/rb-sys/LICENSE-MIT +21 -0
data/vendor/rb-sys/bin/release.sh +21 -0
data/vendor/rb-sys/build/features.rs +108 -0
data/vendor/rb-sys/build/main.rs +246 -0
data/vendor/rb-sys/build/stable_api_config.rs +153 -0
data/vendor/rb-sys/build/version.rs +48 -0
data/vendor/rb-sys/readme.md +36 -0
data/vendor/rb-sys/src/bindings.rs +21 -0
data/vendor/rb-sys/src/hidden.rs +11 -0
data/vendor/rb-sys/src/lib.rs +34 -0
data/vendor/rb-sys/src/macros.rs +371 -0
data/vendor/rb-sys/src/memory.rs +53 -0
data/vendor/rb-sys/src/ruby_abi_version.rs +38 -0
data/vendor/rb-sys/src/special_consts.rs +31 -0
data/vendor/rb-sys/src/stable_api/compiled.c +179 -0
data/vendor/rb-sys/src/stable_api/compiled.rs +257 -0
data/vendor/rb-sys/src/stable_api/ruby_2_6.rs +316 -0
data/vendor/rb-sys/src/stable_api/ruby_2_7.rs +316 -0
data/vendor/rb-sys/src/stable_api/ruby_3_0.rs +324 -0
data/vendor/rb-sys/src/stable_api/ruby_3_1.rs +317 -0
data/vendor/rb-sys/src/stable_api/ruby_3_2.rs +315 -0
data/vendor/rb-sys/src/stable_api/ruby_3_3.rs +326 -0
data/vendor/rb-sys/src/stable_api/ruby_3_4.rs +327 -0
data/vendor/rb-sys/src/stable_api.rs +261 -0
data/vendor/rb-sys/src/symbol.rs +31 -0
data/vendor/rb-sys/src/tracking_allocator.rs +332 -0
data/vendor/rb-sys/src/utils.rs +89 -0
data/vendor/rb-sys/src/value_type.rs +7 -0
metadata +536 -0

data/vendor/kreuzberg/src/extractors/rtf.rs ADDED Viewed

@@ -0,0 +1,810 @@
+//! RTF (Rich Text Format) extractor.
+//!
+//! Supports: Rich Text Format (.rtf)
+//!
+//! This native Rust extractor provides text extraction from RTF documents with:
+//! - Character encoding support (Windows-1252 for 0x80-0x9F range)
+//! - Common RTF control words (paragraph breaks, tabs, bullets, quotes, dashes)
+//! - Unicode escape sequences
+//! - Image metadata extraction
+//! - Whitespace normalization
+use crate::Result;
+use crate::core::config::ExtractionConfig;
+use crate::extraction::cells_to_markdown;
+use crate::plugins::{DocumentExtractor, Plugin};
+use crate::types::{ExtractionResult, Metadata, Table};
+use async_trait::async_trait;
+use serde_json::Value;
+use std::collections::HashMap;
+/// Native Rust RTF extractor.
+///
+/// Extracts text content, metadata, and structure from RTF documents
+pub struct RtfExtractor;
+impl RtfExtractor {
+    /// Create a new RTF extractor.
+    pub fn new() -> Self {
+        Self
+    }
+}
+impl Default for RtfExtractor {
+    fn default() -> Self {
+        Self::new()
+    }
+}
+impl Plugin for RtfExtractor {
+    fn name(&self) -> &str {
+        "rtf-extractor"
+    }
+    fn version(&self) -> String {
+        env!("CARGO_PKG_VERSION").to_string()
+    }
+    fn initialize(&self) -> Result<()> {
+        Ok(())
+    }
+    fn shutdown(&self) -> Result<()> {
+        Ok(())
+    }
+    fn description(&self) -> &str {
+        "Extracts content from RTF (Rich Text Format) files with native Rust parsing"
+    }
+    fn author(&self) -> &str {
+        "Kreuzberg Team"
+    }
+}
+/// Convert a hex digit character to its numeric value.
+///
+/// Returns None if the character is not a valid hex digit.
+#[inline]
+fn hex_digit_to_u8(c: char) -> Option<u8> {
+    match c {
+        '0'..='9' => Some((c as u8) - b'0'),
+        'a'..='f' => Some((c as u8) - b'a' + 10),
+        'A'..='F' => Some((c as u8) - b'A' + 10),
+        _ => None,
+    }
+}
+/// Parse a hex-encoded byte from two characters.
+///
+/// Returns the decoded byte if both characters are valid hex digits.
+#[inline]
+fn parse_hex_byte(h1: char, h2: char) -> Option<u8> {
+    let high = hex_digit_to_u8(h1)?;
+    let low = hex_digit_to_u8(h2)?;
+    Some((high << 4) | low)
+}
+/// Parse an RTF control word and extract its value.
+///
+/// Returns a tuple of (control_word, optional_numeric_value)
+fn parse_rtf_control_word(chars: &mut std::iter::Peekable<std::str::Chars>) -> (String, Option<i32>) {
+    let mut word = String::new();
+    let mut num_str = String::new();
+    let mut is_negative = false;
+    while let Some(&c) = chars.peek() {
+        if c.is_alphabetic() {
+            word.push(c);
+            chars.next();
+        } else {
+            break;
+        }
+    }
+    if let Some(&c) = chars.peek()
+        && c == '-'
+    {
+        is_negative = true;
+        chars.next();
+    }
+    while let Some(&c) = chars.peek() {
+        if c.is_ascii_digit() {
+            num_str.push(c);
+            chars.next();
+        } else {
+            break;
+        }
+    }
+    let num_value = if !num_str.is_empty() {
+        let val = num_str.parse::<i32>().unwrap_or(0);
+        Some(if is_negative { -val } else { val })
+    } else {
+        None
+    };
+    (word, num_value)
+}
+/// Extract text and image metadata from RTF document.
+///
+/// This function extracts plain text from an RTF document by:
+/// 1. Tokenizing control sequences and text
+/// 2. Converting encoded characters to Unicode
+/// 3. Extracting text while skipping formatting groups
+/// 4. Detecting and extracting image metadata (\pict sections)
+/// 5. Normalizing whitespace
+fn extract_text_from_rtf(content: &str) -> (String, Vec<Table>) {
+    struct TableState {
+        rows: Vec<Vec<String>>,
+        current_row: Vec<String>,
+        current_cell: String,
+        in_row: bool,
+    }
+    fn push_cell(state: &mut TableState) {
+        let cell = state.current_cell.trim().to_string();
+        state.current_row.push(cell);
+        state.current_cell.clear();
+    }
+    fn push_row(state: &mut TableState) {
+        if state.in_row || !state.current_cell.is_empty() {
+            push_cell(state);
+            state.in_row = false;
+        }
+        if !state.current_row.is_empty() {
+            state.rows.push(state.current_row.clone());
+            state.current_row.clear();
+        }
+    }
+    fn finalize_table(state_opt: &mut Option<TableState>, tables: &mut Vec<Table>) {
+        if let Some(mut state) = state_opt.take() {
+            if state.in_row || !state.current_cell.is_empty() || !state.current_row.is_empty() {
+                push_row(&mut state);
+            }
+            if !state.rows.is_empty() {
+                let markdown = cells_to_markdown(&state.rows);
+                tables.push(Table {
+                    cells: state.rows,
+                    markdown,
+                    page_number: 1,
+                });
+            }
+        }
+    }
+    let mut result = String::new();
+    let mut chars = content.chars().peekable();
+    let mut tables: Vec<Table> = Vec::new();
+    let mut table_state: Option<TableState> = None;
+    let ensure_table = |table_state: &mut Option<TableState>| {
+        if table_state.is_none() {
+            *table_state = Some(TableState {
+                rows: Vec::new(),
+                current_row: Vec::new(),
+                current_cell: String::new(),
+                in_row: false,
+            });
+        }
+    };
+    while let Some(ch) = chars.next() {
+        match ch {
+            '\\' => {
+                if let Some(&next_ch) = chars.peek() {
+                    match next_ch {
+                        '\\' | '{' | '}' => {
+                            chars.next();
+                            result.push(next_ch);
+                        }
+                        '\'' => {
+                            chars.next();
+                            let hex1 = chars.next();
+                            let hex2 = chars.next();
+                            if let (Some(h1), Some(h2)) = (hex1, hex2)
+                                && let Some(byte) = parse_hex_byte(h1, h2)
+                            {
+                                let decoded = match byte {
+                                    0x80 => '\u{20AC}',
+                                    0x81 => '?',
+                                    0x82 => '\u{201A}',
+                                    0x83 => '\u{0192}',
+                                    0x84 => '\u{201E}',
+                                    0x85 => '\u{2026}',
+                                    0x86 => '\u{2020}',
+                                    0x87 => '\u{2021}',
+                                    0x88 => '\u{02C6}',
+                                    0x89 => '\u{2030}',
+                                    0x8A => '\u{0160}',
+                                    0x8B => '\u{2039}',
+                                    0x8C => '\u{0152}',
+                                    0x8D => '?',
+                                    0x8E => '\u{017D}',
+                                    0x8F => '?',
+                                    0x90 => '?',
+                                    0x91 => '\u{2018}',
+                                    0x92 => '\u{2019}',
+                                    0x93 => '\u{201C}',
+                                    0x94 => '\u{201D}',
+                                    0x95 => '\u{2022}',
+                                    0x96 => '\u{2013}',
+                                    0x97 => '\u{2014}',
+                                    0x98 => '\u{02DC}',
+                                    0x99 => '\u{2122}',
+                                    0x9A => '\u{0161}',
+                                    0x9B => '\u{203A}',
+                                    0x9C => '\u{0153}',
+                                    0x9D => '?',
+                                    0x9E => '\u{017E}',
+                                    0x9F => '\u{0178}',
+                                    _ => byte as char,
+                                };
+                                result.push(decoded);
+                                if let Some(state) = table_state.as_mut()
+                                    && state.in_row
+                                {
+                                    state.current_cell.push(decoded);
+                                }
+                            }
+                        }
+                        'u' => {
+                            chars.next();
+                            let mut num_str = String::new();
+                            while let Some(&c) = chars.peek() {
+                                if c.is_ascii_digit() || c == '-' {
+                                    num_str.push(c);
+                                    chars.next();
+                                } else {
+                                    break;
+                                }
+                            }
+                            if let Ok(code_num) = num_str.parse::<i32>() {
+                                let code_u = if code_num < 0 {
+                                    (code_num + 65536) as u32
+                                } else {
+                                    code_num as u32
+                                };
+                                if let Some(c) = char::from_u32(code_u) {
+                                    result.push(c);
+                                    if let Some(state) = table_state.as_mut()
+                                        && state.in_row
+                                    {
+                                        state.current_cell.push(c);
+                                    }
+                                }
+                            }
+                        }
+                        _ => {
+                            let (control_word, _) = parse_rtf_control_word(&mut chars);
+                            match control_word.as_str() {
+                                "pict" => {
+                                    let image_metadata = extract_image_metadata(&mut chars);
+                                    if !image_metadata.is_empty() {
+                                        result.push('!');
+                                        result.push('[');
+                                        result.push_str("image");
+                                        result.push(']');
+                                        result.push('(');
+                                        result.push_str(&image_metadata);
+                                        result.push(')');
+                                        result.push(' ');
+                                        if let Some(state) = table_state.as_mut()
+                                            && state.in_row
+                                        {
+                                            state.current_cell.push('!');
+                                            state.current_cell.push('[');
+                                            state.current_cell.push_str("image");
+                                            state.current_cell.push(']');
+                                            state.current_cell.push('(');
+                                            state.current_cell.push_str(&image_metadata);
+                                            state.current_cell.push(')');
+                                            state.current_cell.push(' ');
+                                        }
+                                    }
+                                }
+                                "par" => {
+                                    if table_state.is_some() {
+                                        finalize_table(&mut table_state, &mut tables);
+                                    }
+                                    if !result.is_empty() && !result.ends_with('\n') {
+                                        result.push('\n');
+                                        result.push('\n');
+                                    }
+                                }
+                                "tab" => {
+                                    result.push('\t');
+                                    if let Some(state) = table_state.as_mut()
+                                        && state.in_row
+                                    {
+                                        state.current_cell.push('\t');
+                                    }
+                                }
+                                "bullet" => {
+                                    result.push('•');
+                                }
+                                "lquote" => {
+                                    result.push('\u{2018}');
+                                }
+                                "rquote" => {
+                                    result.push('\u{2019}');
+                                }
+                                "ldblquote" => {
+                                    result.push('\u{201C}');
+                                }
+                                "rdblquote" => {
+                                    result.push('\u{201D}');
+                                }
+                                "endash" => {
+                                    result.push('\u{2013}');
+                                }
+                                "emdash" => {
+                                    result.push('\u{2014}');
+                                }
+                                "trowd" => {
+                                    ensure_table(&mut table_state);
+                                    if let Some(state) = table_state.as_mut() {
+                                        if state.in_row {
+                                            push_row(state);
+                                        }
+                                        state.in_row = true;
+                                        state.current_cell.clear();
+                                        state.current_row.clear();
+                                    }
+                                    if !result.is_empty() && !result.ends_with('\n') {
+                                        result.push('\n');
+                                    }
+                                    if !result.ends_with('|') {
+                                        result.push('|');
+                                        result.push(' ');
+                                    }
+                                }
+                                "cell" => {
+                                    if !result.ends_with('|') {
+                                        if !result.ends_with(' ') && !result.is_empty() {
+                                            result.push(' ');
+                                        }
+                                        result.push('|');
+                                    }
+                                    if !result.ends_with(' ') {
+                                        result.push(' ');
+                                    }
+                                }
+                                "row" => {
+                                    ensure_table(&mut table_state);
+                                    if let Some(state) = table_state.as_mut()
+                                        && (state.in_row || !state.current_cell.is_empty())
+                                    {
+                                        push_row(state);
+                                    }
+                                    if !result.ends_with('|') {
+                                        result.push('|');
+                                    }
+                                    if !result.ends_with('\n') {
+                                        result.push('\n');
+                                    }
+                                    if let Some(state) = table_state.as_ref()
+                                        && !state.in_row
+                                        && !state.rows.is_empty()
+                                    {
+                                        // We'll finalize once we see content outside the table
+                                    }
+                                }
+                                _ => {}
+                            }
+                        }
+                    }
+                }
+            }
+            '{' | '}' => {
+                if !result.is_empty() && !result.ends_with(' ') {
+                    result.push(' ');
+                }
+            }
+            ' ' | '\t' | '\n' | '\r' => {
+                if !result.is_empty() && !result.ends_with(' ') {
+                    result.push(' ');
+                }
+                if let Some(state) = table_state.as_mut()
+                    && state.in_row
+                    && !state.current_cell.ends_with(' ')
+                {
+                    state.current_cell.push(' ');
+                }
+            }
+            _ => {
+                if let Some(state) = table_state.as_ref()
+                    && !state.in_row
+                    && !state.rows.is_empty()
+                {
+                    finalize_table(&mut table_state, &mut tables);
+                }
+                result.push(ch);
+                if let Some(state) = table_state.as_mut()
+                    && state.in_row
+                {
+                    state.current_cell.push(ch);
+                }
+            }
+        }
+    }
+    if table_state.is_some() {
+        finalize_table(&mut table_state, &mut tables);
+    }
+    (normalize_whitespace(&result), tables)
+}
+/// Normalize whitespace in a string using a single-pass algorithm.
+///
+/// Collapses multiple consecutive whitespace characters into single spaces
+/// and trims leading/trailing whitespace.
+fn normalize_whitespace(s: &str) -> String {
+    let mut result = String::with_capacity(s.len());
+    let mut last_was_space = false;
+    for ch in s.chars() {
+        if ch.is_whitespace() {
+            if !last_was_space {
+                result.push(' ');
+                last_was_space = true;
+            }
+        } else {
+            result.push(ch);
+            last_was_space = false;
+        }
+    }
+    result.trim().to_string()
+}
+/// Parse a `{\\creatim ...}` or `{\\revtim ...}` RTF info block into ISO 8601 format.
+fn parse_rtf_datetime(segment: &str) -> Option<String> {
+    let mut year: Option<i32> = None;
+    let mut month: Option<i32> = None;
+    let mut day: Option<i32> = None;
+    let mut hour: Option<i32> = None;
+    let mut minute: Option<i32> = None;
+    let mut chars = segment.chars().peekable();
+    while let Some(&ch) = chars.peek() {
+        if ch != '\\' {
+            chars.next();
+            continue;
+        }
+        chars.next();
+        let (word, value) = parse_rtf_control_word(&mut chars);
+        if let Some(v) = value {
+            match word.as_str() {
+                "yr" => year = Some(v),
+                "mo" => month = Some(v),
+                "dy" => day = Some(v),
+                "hr" => hour = Some(v),
+                "min" => minute = Some(v),
+                _ => {}
+            }
+        }
+    }
+    let year = year?;
+    let month = month.unwrap_or(1).max(1) as u32;
+    let day = day.unwrap_or(1).max(1) as u32;
+    let hour = hour.unwrap_or(0).max(0) as u32;
+    let minute = minute.unwrap_or(0).max(0) as u32;
+    Some(format!(
+        "{:04}-{:02}-{:02}T{:02}:{:02}:00Z",
+        year, month, day, hour, minute
+    ))
+}
+/// Extract metadata from the RTF `\\info` block and augment with computed statistics.
+fn extract_rtf_metadata(rtf_content: &str, extracted_text: &str) -> HashMap<String, Value> {
+    let mut metadata: HashMap<String, Value> = HashMap::new();
+    if let Some(start) = rtf_content.find("{\\info") {
+        let slice = &rtf_content[start..];
+        let mut depth = 0usize;
+        let mut end_offset: Option<usize> = None;
+        for (idx, ch) in slice.char_indices() {
+            match ch {
+                '{' => depth += 1,
+                '}' => {
+                    if depth == 0 {
+                        break;
+                    }
+                    depth -= 1;
+                    if depth == 0 {
+                        end_offset = Some(idx + 1);
+                        break;
+                    }
+                }
+                _ => {}
+            }
+        }
+        let info_block = end_offset.map(|end| &slice[..end]).unwrap_or(slice);
+        let mut segments: Vec<String> = Vec::new();
+        let mut seg_depth = 0usize;
+        let mut current = String::new();
+        let mut in_segment = false;
+        for ch in info_block.chars() {
+            if ch == '{' {
+                seg_depth += 1;
+                if seg_depth == 2 {
+                    in_segment = true;
+                    current.clear();
+                    continue;
+                }
+            } else if ch == '}' {
+                if seg_depth == 2 && in_segment {
+                    segments.push(current.clone());
+                    in_segment = false;
+                }
+                seg_depth = seg_depth.saturating_sub(1);
+                continue;
+            }
+            if in_segment {
+                current.push(ch);
+            }
+        }
+        for segment in segments {
+            if !segment.starts_with('\\') {
+                continue;
+            }
+            let cleaned_segment = if segment.starts_with("\\*\\") {
+                segment.replacen("\\*\\", "\\", 1)
+            } else {
+                segment.clone()
+            };
+            let mut chars = cleaned_segment.chars().peekable();
+            chars.next(); // consume the leading backslash
+            let (keyword, numeric) = parse_rtf_control_word(&mut chars);
+            let remaining: String = chars.collect();
+            let trimmed = remaining.trim();
+            match keyword.as_str() {
+                "author" => {
+                    if !trimmed.is_empty() {
+                        let author = trimmed.to_string();
+                        metadata.insert("created_by".to_string(), Value::String(author.clone()));
+                        metadata.insert("authors".to_string(), Value::Array(vec![Value::String(author)]));
+                    }
+                }
+                "operator" => {
+                    if !trimmed.is_empty() {
+                        metadata.insert("modified_by".to_string(), Value::String(trimmed.to_string()));
+                    }
+                }
+                "title" => {
+                    if !trimmed.is_empty() {
+                        metadata.insert("title".to_string(), Value::String(trimmed.to_string()));
+                    }
+                }
+                "subject" => {
+                    if !trimmed.is_empty() {
+                        metadata.insert("subject".to_string(), Value::String(trimmed.to_string()));
+                    }
+                }
+                "generator" => {
+                    if !trimmed.is_empty() {
+                        metadata.insert("generator".to_string(), Value::String(trimmed.to_string()));
+                    }
+                }
+                "creatim" => {
+                    if let Some(dt) = parse_rtf_datetime(trimmed) {
+                        metadata.insert("created_at".to_string(), Value::String(dt));
+                    }
+                }
+                "revtim" => {
+                    if let Some(dt) = parse_rtf_datetime(trimmed) {
+                        metadata.insert("modified_at".to_string(), Value::String(dt));
+                    }
+                }
+                "version" => {
+                    if let Some(val) = numeric.or_else(|| trimmed.parse::<i32>().ok()) {
+                        metadata.insert("revision".to_string(), Value::String(val.to_string()));
+                    }
+                }
+                "nofpages" => {
+                    if let Some(val) = numeric.or_else(|| trimmed.parse::<i32>().ok()) {
+                        metadata.insert("page_count".to_string(), Value::Number(val.into()));
+                    }
+                }
+                "nofwords" => {
+                    if let Some(val) = numeric.or_else(|| trimmed.parse::<i32>().ok()) {
+                        metadata.insert("word_count".to_string(), Value::Number(val.into()));
+                    }
+                }
+                "nofchars" => {
+                    if let Some(val) = numeric.or_else(|| trimmed.parse::<i32>().ok()) {
+                        metadata.insert("character_count".to_string(), Value::Number(val.into()));
+                    }
+                }
+                "lines" => {
+                    if let Some(val) = numeric.or_else(|| trimmed.parse::<i32>().ok()) {
+                        metadata.insert("line_count".to_string(), Value::Number(val.into()));
+                    }
+                }
+                "paragraphs" => {
+                    if let Some(val) = numeric.or_else(|| trimmed.parse::<i32>().ok()) {
+                        metadata.insert("paragraph_count".to_string(), Value::Number(val.into()));
+                    }
+                }
+                _ => {}
+            }
+        }
+    }
+    let cleaned_text = extracted_text.trim();
+    if !cleaned_text.is_empty() {
+        let word_count = cleaned_text.split_whitespace().count() as i64;
+        metadata
+            .entry("word_count".to_string())
+            .or_insert(Value::Number(word_count.into()));
+        let character_count = cleaned_text.chars().count() as i64;
+        metadata
+            .entry("character_count".to_string())
+            .or_insert(Value::Number(character_count.into()));
+        let line_count = cleaned_text.lines().count() as i64;
+        metadata
+            .entry("line_count".to_string())
+            .or_insert(Value::Number(line_count.into()));
+        let paragraph_count = cleaned_text.split("\n\n").filter(|p| !p.trim().is_empty()).count() as i64;
+        metadata
+            .entry("paragraph_count".to_string())
+            .or_insert(Value::Number(paragraph_count.into()));
+    }
+    metadata
+}
+/// Extract image metadata from within a \pict group.
+///
+/// Looks for image type (jpegblip, pngblip, etc.) and dimensions.
+fn extract_image_metadata(chars: &mut std::iter::Peekable<std::str::Chars>) -> String {
+    let mut metadata = String::new();
+    let mut image_type: Option<&str> = None;
+    let mut width_goal: Option<i32> = None;
+    let mut height_goal: Option<i32> = None;
+    let mut depth = 0;
+    while let Some(&ch) = chars.peek() {
+        match ch {
+            '{' => {
+                depth += 1;
+                chars.next();
+            }
+            '}' => {
+                if depth == 0 {
+                    break;
+                }
+                depth -= 1;
+                chars.next();
+            }
+            '\\' => {
+                chars.next();
+                let (control_word, value) = parse_rtf_control_word(chars);
+                match control_word.as_str() {
+                    "jpegblip" => image_type = Some("jpg"),
+                    "pngblip" => image_type = Some("png"),
+                    "wmetafile" => image_type = Some("wmf"),
+                    "dibitmap" => image_type = Some("bmp"),
+                    "picwgoal" => width_goal = value,
+                    "pichgoal" => height_goal = value,
+                    "bin" => break,
+                    _ => {}
+                }
+            }
+            ' ' => {
+                chars.next();
+            }
+            _ => {
+                chars.next();
+            }
+        }
+    }
+    if let Some(itype) = image_type {
+        metadata.push_str("image.");
+        metadata.push_str(itype);
+    }
+    if let Some(width) = width_goal {
+        let width_inches = f64::from(width) / 1440.0;
+        metadata.push_str(&format!(" width=\"{:.1}in\"", width_inches));
+    }
+    if let Some(height) = height_goal {
+        let height_inches = f64::from(height) / 1440.0;
+        metadata.push_str(&format!(" height=\"{:.1}in\"", height_inches));
+    }
+    if metadata.is_empty() {
+        metadata.push_str("image.jpg");
+    }
+    metadata
+}
+#[async_trait]
+impl DocumentExtractor for RtfExtractor {
+    #[cfg_attr(feature = "otel", tracing::instrument(
+        skip(self, content, _config),
+        fields(
+            extractor.name = self.name(),
+            content.size_bytes = content.len(),
+        )
+    ))]
+    async fn extract_bytes(
+        &self,
+        content: &[u8],
+        mime_type: &str,
+        _config: &ExtractionConfig,
+    ) -> Result<ExtractionResult> {
+        let rtf_content = String::from_utf8_lossy(content);
+        let (extracted_text, tables) = extract_text_from_rtf(&rtf_content);
+        let metadata_map = extract_rtf_metadata(&rtf_content, &extracted_text);
+        Ok(ExtractionResult {
+            content: extracted_text,
+            mime_type: mime_type.to_string(),
+            metadata: Metadata {
+                additional: metadata_map,
+                ..Default::default()
+            },
+            tables,
+            detected_languages: None,
+            chunks: None,
+            images: None,
+        })
+    }
+    fn supported_mime_types(&self) -> &[&str] {
+        &["application/rtf", "text/rtf"]
+    }
+    fn priority(&self) -> i32 {
+        50
+    }
+}
+#[cfg(test)]
+mod tests {
+    use super::*;
+    #[tokio::test]
+    async fn test_rtf_extractor_plugin_interface() {
+        let extractor = RtfExtractor::new();
+        assert_eq!(extractor.name(), "rtf-extractor");
+        assert_eq!(extractor.version(), env!("CARGO_PKG_VERSION"));
+        assert!(extractor.supported_mime_types().contains(&"application/rtf"));
+        assert_eq!(extractor.priority(), 50);
+    }
+    #[test]
+    fn test_simple_rtf_extraction() {
+        let _extractor = RtfExtractor;
+        let rtf_content = r#"{\rtf1 Hello World}"#;
+        let (extracted, _) = extract_text_from_rtf(rtf_content);
+        assert!(extracted.contains("Hello") || extracted.contains("World"));
+    }
+}