RubyGems - kreuzberg - Versions diffs - 4.0.0.rc1 - Mend

kreuzberg 4.0.0.rc1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (265) hide show

checksums.yaml +7 -0
data/.gitignore +8 -0
data/.rspec +3 -0
data/.rubocop.yaml +534 -0
data/Gemfile +9 -0
data/Gemfile.lock +157 -0
data/README.md +421 -0
data/Rakefile +25 -0
data/Steepfile +47 -0
data/examples/async_patterns.rb +340 -0
data/ext/kreuzberg_rb/extconf.rb +35 -0
data/ext/kreuzberg_rb/native/Cargo.toml +36 -0
data/ext/kreuzberg_rb/native/README.md +425 -0
data/ext/kreuzberg_rb/native/build.rs +17 -0
data/ext/kreuzberg_rb/native/include/ieeefp.h +11 -0
data/ext/kreuzberg_rb/native/include/msvc_compat/strings.h +14 -0
data/ext/kreuzberg_rb/native/include/strings.h +20 -0
data/ext/kreuzberg_rb/native/include/unistd.h +47 -0
data/ext/kreuzberg_rb/native/src/lib.rs +2939 -0
data/extconf.rb +28 -0
data/kreuzberg.gemspec +105 -0
data/lib/kreuzberg/api_proxy.rb +142 -0
data/lib/kreuzberg/cache_api.rb +45 -0
data/lib/kreuzberg/cli.rb +55 -0
data/lib/kreuzberg/cli_proxy.rb +127 -0
data/lib/kreuzberg/config.rb +684 -0
data/lib/kreuzberg/errors.rb +50 -0
data/lib/kreuzberg/extraction_api.rb +84 -0
data/lib/kreuzberg/mcp_proxy.rb +186 -0
data/lib/kreuzberg/ocr_backend_protocol.rb +113 -0
data/lib/kreuzberg/post_processor_protocol.rb +86 -0
data/lib/kreuzberg/result.rb +216 -0
data/lib/kreuzberg/setup_lib_path.rb +79 -0
data/lib/kreuzberg/validator_protocol.rb +89 -0
data/lib/kreuzberg/version.rb +5 -0
data/lib/kreuzberg.rb +82 -0
data/pkg/kreuzberg-4.0.0.rc1.gem +0 -0
data/sig/kreuzberg/internal.rbs +184 -0
data/sig/kreuzberg.rbs +468 -0
data/spec/binding/cache_spec.rb +227 -0
data/spec/binding/cli_proxy_spec.rb +87 -0
data/spec/binding/cli_spec.rb +54 -0
data/spec/binding/config_spec.rb +345 -0
data/spec/binding/config_validation_spec.rb +283 -0
data/spec/binding/error_handling_spec.rb +213 -0
data/spec/binding/errors_spec.rb +66 -0
data/spec/binding/plugins/ocr_backend_spec.rb +307 -0
data/spec/binding/plugins/postprocessor_spec.rb +269 -0
data/spec/binding/plugins/validator_spec.rb +274 -0
data/spec/examples.txt +104 -0
data/spec/fixtures/config.toml +39 -0
data/spec/fixtures/config.yaml +42 -0
data/spec/fixtures/invalid_config.toml +4 -0
data/spec/smoke/package_spec.rb +178 -0
data/spec/spec_helper.rb +42 -0
data/vendor/kreuzberg/Cargo.toml +134 -0
data/vendor/kreuzberg/README.md +175 -0
data/vendor/kreuzberg/build.rs +460 -0
data/vendor/kreuzberg/src/api/error.rs +81 -0
data/vendor/kreuzberg/src/api/handlers.rs +199 -0
data/vendor/kreuzberg/src/api/mod.rs +79 -0
data/vendor/kreuzberg/src/api/server.rs +353 -0
data/vendor/kreuzberg/src/api/types.rs +170 -0
data/vendor/kreuzberg/src/bin/profile_extract.rs +455 -0
data/vendor/kreuzberg/src/cache/mod.rs +1143 -0
data/vendor/kreuzberg/src/chunking/mod.rs +677 -0
data/vendor/kreuzberg/src/core/batch_mode.rs +35 -0
data/vendor/kreuzberg/src/core/config.rs +1032 -0
data/vendor/kreuzberg/src/core/extractor.rs +903 -0
data/vendor/kreuzberg/src/core/io.rs +327 -0
data/vendor/kreuzberg/src/core/mime.rs +615 -0
data/vendor/kreuzberg/src/core/mod.rs +42 -0
data/vendor/kreuzberg/src/core/pipeline.rs +906 -0
data/vendor/kreuzberg/src/embeddings.rs +323 -0
data/vendor/kreuzberg/src/error.rs +431 -0
data/vendor/kreuzberg/src/extraction/archive.rs +954 -0
data/vendor/kreuzberg/src/extraction/docx.rs +40 -0
data/vendor/kreuzberg/src/extraction/email.rs +854 -0
data/vendor/kreuzberg/src/extraction/excel.rs +688 -0
data/vendor/kreuzberg/src/extraction/html.rs +553 -0
data/vendor/kreuzberg/src/extraction/image.rs +368 -0
data/vendor/kreuzberg/src/extraction/libreoffice.rs +564 -0
data/vendor/kreuzberg/src/extraction/mod.rs +77 -0
data/vendor/kreuzberg/src/extraction/office_metadata/app_properties.rs +398 -0
data/vendor/kreuzberg/src/extraction/office_metadata/core_properties.rs +247 -0
data/vendor/kreuzberg/src/extraction/office_metadata/custom_properties.rs +240 -0
data/vendor/kreuzberg/src/extraction/office_metadata/mod.rs +128 -0
data/vendor/kreuzberg/src/extraction/pandoc/batch.rs +275 -0
data/vendor/kreuzberg/src/extraction/pandoc/mime_types.rs +178 -0
data/vendor/kreuzberg/src/extraction/pandoc/mod.rs +491 -0
data/vendor/kreuzberg/src/extraction/pandoc/server.rs +496 -0
data/vendor/kreuzberg/src/extraction/pandoc/subprocess.rs +1188 -0
data/vendor/kreuzberg/src/extraction/pandoc/version.rs +162 -0
data/vendor/kreuzberg/src/extraction/pptx.rs +3000 -0
data/vendor/kreuzberg/src/extraction/structured.rs +490 -0
data/vendor/kreuzberg/src/extraction/table.rs +328 -0
data/vendor/kreuzberg/src/extraction/text.rs +269 -0
data/vendor/kreuzberg/src/extraction/xml.rs +333 -0
data/vendor/kreuzberg/src/extractors/archive.rs +425 -0
data/vendor/kreuzberg/src/extractors/docx.rs +479 -0
data/vendor/kreuzberg/src/extractors/email.rs +129 -0
data/vendor/kreuzberg/src/extractors/excel.rs +344 -0
data/vendor/kreuzberg/src/extractors/html.rs +410 -0
data/vendor/kreuzberg/src/extractors/image.rs +195 -0
data/vendor/kreuzberg/src/extractors/mod.rs +268 -0
data/vendor/kreuzberg/src/extractors/pandoc.rs +201 -0
data/vendor/kreuzberg/src/extractors/pdf.rs +496 -0
data/vendor/kreuzberg/src/extractors/pptx.rs +234 -0
data/vendor/kreuzberg/src/extractors/structured.rs +126 -0
data/vendor/kreuzberg/src/extractors/text.rs +242 -0
data/vendor/kreuzberg/src/extractors/xml.rs +128 -0
data/vendor/kreuzberg/src/image/dpi.rs +164 -0
data/vendor/kreuzberg/src/image/mod.rs +6 -0
data/vendor/kreuzberg/src/image/preprocessing.rs +417 -0
data/vendor/kreuzberg/src/image/resize.rs +89 -0
data/vendor/kreuzberg/src/keywords/config.rs +154 -0
data/vendor/kreuzberg/src/keywords/mod.rs +237 -0
data/vendor/kreuzberg/src/keywords/processor.rs +267 -0
data/vendor/kreuzberg/src/keywords/rake.rs +294 -0
data/vendor/kreuzberg/src/keywords/types.rs +68 -0
data/vendor/kreuzberg/src/keywords/yake.rs +163 -0
data/vendor/kreuzberg/src/language_detection/mod.rs +942 -0
data/vendor/kreuzberg/src/lib.rs +102 -0
data/vendor/kreuzberg/src/mcp/mod.rs +32 -0
data/vendor/kreuzberg/src/mcp/server.rs +1966 -0
data/vendor/kreuzberg/src/ocr/cache.rs +469 -0
data/vendor/kreuzberg/src/ocr/error.rs +37 -0
data/vendor/kreuzberg/src/ocr/hocr.rs +216 -0
data/vendor/kreuzberg/src/ocr/mod.rs +58 -0
data/vendor/kreuzberg/src/ocr/processor.rs +847 -0
data/vendor/kreuzberg/src/ocr/table/mod.rs +4 -0
data/vendor/kreuzberg/src/ocr/table/tsv_parser.rs +144 -0
data/vendor/kreuzberg/src/ocr/tesseract_backend.rs +450 -0
data/vendor/kreuzberg/src/ocr/types.rs +393 -0
data/vendor/kreuzberg/src/ocr/utils.rs +47 -0
data/vendor/kreuzberg/src/ocr/validation.rs +206 -0
data/vendor/kreuzberg/src/pdf/error.rs +122 -0
data/vendor/kreuzberg/src/pdf/images.rs +139 -0
data/vendor/kreuzberg/src/pdf/metadata.rs +346 -0
data/vendor/kreuzberg/src/pdf/mod.rs +50 -0
data/vendor/kreuzberg/src/pdf/rendering.rs +369 -0
data/vendor/kreuzberg/src/pdf/table.rs +420 -0
data/vendor/kreuzberg/src/pdf/text.rs +161 -0
data/vendor/kreuzberg/src/plugins/extractor.rs +1010 -0
data/vendor/kreuzberg/src/plugins/mod.rs +209 -0
data/vendor/kreuzberg/src/plugins/ocr.rs +629 -0
data/vendor/kreuzberg/src/plugins/processor.rs +641 -0
data/vendor/kreuzberg/src/plugins/registry.rs +1324 -0
data/vendor/kreuzberg/src/plugins/traits.rs +258 -0
data/vendor/kreuzberg/src/plugins/validator.rs +955 -0
data/vendor/kreuzberg/src/stopwords/mod.rs +1470 -0
data/vendor/kreuzberg/src/text/mod.rs +19 -0
data/vendor/kreuzberg/src/text/quality.rs +697 -0
data/vendor/kreuzberg/src/text/string_utils.rs +217 -0
data/vendor/kreuzberg/src/text/token_reduction/cjk_utils.rs +164 -0
data/vendor/kreuzberg/src/text/token_reduction/config.rs +100 -0
data/vendor/kreuzberg/src/text/token_reduction/core.rs +796 -0
data/vendor/kreuzberg/src/text/token_reduction/filters.rs +902 -0
data/vendor/kreuzberg/src/text/token_reduction/mod.rs +160 -0
data/vendor/kreuzberg/src/text/token_reduction/semantic.rs +619 -0
data/vendor/kreuzberg/src/text/token_reduction/simd_text.rs +147 -0
data/vendor/kreuzberg/src/types.rs +873 -0
data/vendor/kreuzberg/src/utils/mod.rs +17 -0
data/vendor/kreuzberg/src/utils/quality.rs +959 -0
data/vendor/kreuzberg/src/utils/string_utils.rs +381 -0
data/vendor/kreuzberg/stopwords/af_stopwords.json +53 -0
data/vendor/kreuzberg/stopwords/ar_stopwords.json +482 -0
data/vendor/kreuzberg/stopwords/bg_stopwords.json +261 -0
data/vendor/kreuzberg/stopwords/bn_stopwords.json +400 -0
data/vendor/kreuzberg/stopwords/br_stopwords.json +1205 -0
data/vendor/kreuzberg/stopwords/ca_stopwords.json +280 -0
data/vendor/kreuzberg/stopwords/cs_stopwords.json +425 -0
data/vendor/kreuzberg/stopwords/da_stopwords.json +172 -0
data/vendor/kreuzberg/stopwords/de_stopwords.json +622 -0
data/vendor/kreuzberg/stopwords/el_stopwords.json +849 -0
data/vendor/kreuzberg/stopwords/en_stopwords.json +1300 -0
data/vendor/kreuzberg/stopwords/eo_stopwords.json +175 -0
data/vendor/kreuzberg/stopwords/es_stopwords.json +734 -0
data/vendor/kreuzberg/stopwords/et_stopwords.json +37 -0
data/vendor/kreuzberg/stopwords/eu_stopwords.json +100 -0
data/vendor/kreuzberg/stopwords/fa_stopwords.json +801 -0
data/vendor/kreuzberg/stopwords/fi_stopwords.json +849 -0
data/vendor/kreuzberg/stopwords/fr_stopwords.json +693 -0
data/vendor/kreuzberg/stopwords/ga_stopwords.json +111 -0
data/vendor/kreuzberg/stopwords/gl_stopwords.json +162 -0
data/vendor/kreuzberg/stopwords/gu_stopwords.json +226 -0
data/vendor/kreuzberg/stopwords/ha_stopwords.json +41 -0
data/vendor/kreuzberg/stopwords/he_stopwords.json +196 -0
data/vendor/kreuzberg/stopwords/hi_stopwords.json +227 -0
data/vendor/kreuzberg/stopwords/hr_stopwords.json +181 -0
data/vendor/kreuzberg/stopwords/hu_stopwords.json +791 -0
data/vendor/kreuzberg/stopwords/hy_stopwords.json +47 -0
data/vendor/kreuzberg/stopwords/id_stopwords.json +760 -0
data/vendor/kreuzberg/stopwords/it_stopwords.json +634 -0
data/vendor/kreuzberg/stopwords/ja_stopwords.json +136 -0
data/vendor/kreuzberg/stopwords/kn_stopwords.json +84 -0
data/vendor/kreuzberg/stopwords/ko_stopwords.json +681 -0
data/vendor/kreuzberg/stopwords/ku_stopwords.json +64 -0
data/vendor/kreuzberg/stopwords/la_stopwords.json +51 -0
data/vendor/kreuzberg/stopwords/lt_stopwords.json +476 -0
data/vendor/kreuzberg/stopwords/lv_stopwords.json +163 -0
data/vendor/kreuzberg/stopwords/ml_stopwords.json +1 -0
data/vendor/kreuzberg/stopwords/mr_stopwords.json +101 -0
data/vendor/kreuzberg/stopwords/ms_stopwords.json +477 -0
data/vendor/kreuzberg/stopwords/ne_stopwords.json +490 -0
data/vendor/kreuzberg/stopwords/nl_stopwords.json +415 -0
data/vendor/kreuzberg/stopwords/no_stopwords.json +223 -0
data/vendor/kreuzberg/stopwords/pl_stopwords.json +331 -0
data/vendor/kreuzberg/stopwords/pt_stopwords.json +562 -0
data/vendor/kreuzberg/stopwords/ro_stopwords.json +436 -0
data/vendor/kreuzberg/stopwords/ru_stopwords.json +561 -0
data/vendor/kreuzberg/stopwords/si_stopwords.json +193 -0
data/vendor/kreuzberg/stopwords/sk_stopwords.json +420 -0
data/vendor/kreuzberg/stopwords/sl_stopwords.json +448 -0
data/vendor/kreuzberg/stopwords/so_stopwords.json +32 -0
data/vendor/kreuzberg/stopwords/st_stopwords.json +33 -0
data/vendor/kreuzberg/stopwords/sv_stopwords.json +420 -0
data/vendor/kreuzberg/stopwords/sw_stopwords.json +76 -0
data/vendor/kreuzberg/stopwords/ta_stopwords.json +129 -0
data/vendor/kreuzberg/stopwords/te_stopwords.json +54 -0
data/vendor/kreuzberg/stopwords/th_stopwords.json +118 -0
data/vendor/kreuzberg/stopwords/tl_stopwords.json +149 -0
data/vendor/kreuzberg/stopwords/tr_stopwords.json +506 -0
data/vendor/kreuzberg/stopwords/uk_stopwords.json +75 -0
data/vendor/kreuzberg/stopwords/ur_stopwords.json +519 -0
data/vendor/kreuzberg/stopwords/vi_stopwords.json +647 -0
data/vendor/kreuzberg/stopwords/yo_stopwords.json +62 -0
data/vendor/kreuzberg/stopwords/zh_stopwords.json +796 -0
data/vendor/kreuzberg/stopwords/zu_stopwords.json +31 -0
data/vendor/kreuzberg/tests/api_tests.rs +966 -0
data/vendor/kreuzberg/tests/archive_integration.rs +543 -0
data/vendor/kreuzberg/tests/batch_orchestration.rs +542 -0
data/vendor/kreuzberg/tests/batch_processing.rs +304 -0
data/vendor/kreuzberg/tests/chunking_offset_demo.rs +92 -0
data/vendor/kreuzberg/tests/concurrency_stress.rs +509 -0
data/vendor/kreuzberg/tests/config_features.rs +580 -0
data/vendor/kreuzberg/tests/config_loading_tests.rs +439 -0
data/vendor/kreuzberg/tests/core_integration.rs +493 -0
data/vendor/kreuzberg/tests/csv_integration.rs +424 -0
data/vendor/kreuzberg/tests/docx_metadata_extraction_test.rs +124 -0
data/vendor/kreuzberg/tests/email_integration.rs +325 -0
data/vendor/kreuzberg/tests/error_handling.rs +393 -0
data/vendor/kreuzberg/tests/format_integration.rs +159 -0
data/vendor/kreuzberg/tests/helpers/mod.rs +142 -0
data/vendor/kreuzberg/tests/image_integration.rs +253 -0
data/vendor/kreuzberg/tests/keywords_integration.rs +479 -0
data/vendor/kreuzberg/tests/keywords_quality.rs +509 -0
data/vendor/kreuzberg/tests/mime_detection.rs +428 -0
data/vendor/kreuzberg/tests/ocr_configuration.rs +510 -0
data/vendor/kreuzberg/tests/ocr_errors.rs +676 -0
data/vendor/kreuzberg/tests/ocr_quality.rs +627 -0
data/vendor/kreuzberg/tests/ocr_stress.rs +469 -0
data/vendor/kreuzberg/tests/pandoc_integration.rs +503 -0
data/vendor/kreuzberg/tests/pdf_integration.rs +43 -0
data/vendor/kreuzberg/tests/pipeline_integration.rs +1412 -0
data/vendor/kreuzberg/tests/plugin_ocr_backend_test.rs +771 -0
data/vendor/kreuzberg/tests/plugin_postprocessor_test.rs +561 -0
data/vendor/kreuzberg/tests/plugin_system.rs +921 -0
data/vendor/kreuzberg/tests/plugin_validator_test.rs +783 -0
data/vendor/kreuzberg/tests/registry_integration_tests.rs +607 -0
data/vendor/kreuzberg/tests/security_validation.rs +404 -0
data/vendor/kreuzberg/tests/stopwords_integration_test.rs +888 -0
data/vendor/kreuzberg/tests/test_fastembed.rs +609 -0
data/vendor/kreuzberg/tests/xlsx_metadata_extraction_test.rs +87 -0
metadata +471 -0

data/vendor/kreuzberg/src/extractors/html.rs ADDED Viewed

@@ -0,0 +1,410 @@
+//! HTML document extractor.
+use crate::Result;
+use crate::core::config::ExtractionConfig;
+use crate::plugins::{DocumentExtractor, Plugin};
+use crate::types::{ExtractionResult, Metadata, Table};
+use async_trait::async_trait;
+use scraper::{Html, Selector};
+use std::path::Path;
+/// HTML document extractor using html-to-markdown.
+pub struct HtmlExtractor;
+impl Default for HtmlExtractor {
+    fn default() -> Self {
+        Self::new()
+    }
+}
+impl HtmlExtractor {
+    pub fn new() -> Self {
+        Self
+    }
+}
+/// Extract all tables from HTML content.
+///
+/// Parses HTML to find `<table>` elements and extracts their structure
+/// into `Table` objects with cells and markdown representation.
+fn extract_html_tables(html: &str) -> Result<Vec<Table>> {
+    let document = Html::parse_document(html);
+    let table_selector = Selector::parse("table")
+        .map_err(|e| crate::error::KreuzbergError::parsing(format!("Failed to parse table selector: {}", e)))?;
+    let row_selector = Selector::parse("tr")
+        .map_err(|e| crate::error::KreuzbergError::parsing(format!("Failed to parse row selector: {}", e)))?;
+    let header_selector = Selector::parse("th")
+        .map_err(|e| crate::error::KreuzbergError::parsing(format!("Failed to parse header selector: {}", e)))?;
+    let cell_selector = Selector::parse("td")
+        .map_err(|e| crate::error::KreuzbergError::parsing(format!("Failed to parse cell selector: {}", e)))?;
+    let mut tables = Vec::new();
+    for (table_index, table_elem) in document.select(&table_selector).enumerate() {
+        let mut cells: Vec<Vec<String>> = Vec::new();
+        for row in table_elem.select(&row_selector) {
+            let mut row_cells = Vec::new();
+            // Try headers first (th elements)
+            let headers: Vec<_> = row.select(&header_selector).collect();
+            if !headers.is_empty() {
+                for header in headers {
+                    let text = header
+                        .text()
+                        .collect::<Vec<_>>()
+                        .join(" ")
+                        .split_whitespace()
+                        .collect::<Vec<_>>()
+                        .join(" ");
+                    row_cells.push(text);
+                }
+            } else {
+                // Use data cells (td elements)
+                for cell in row.select(&cell_selector) {
+                    let text = cell
+                        .text()
+                        .collect::<Vec<_>>()
+                        .join(" ")
+                        .split_whitespace()
+                        .collect::<Vec<_>>()
+                        .join(" ");
+                    row_cells.push(text);
+                }
+            }
+            if !row_cells.is_empty() {
+                cells.push(row_cells);
+            }
+        }
+        // Only create a table if it has content
+        if !cells.is_empty() {
+            let markdown = cells_to_markdown(&cells);
+            tables.push(Table {
+                cells,
+                markdown,
+                page_number: table_index + 1, // 1-indexed
+            });
+        }
+    }
+    Ok(tables)
+}
+/// Convert table cells to markdown format.
+///
+/// Reuses the same logic as DOCX extractor for consistency.
+/// First row is treated as header, remaining rows as data.
+///
+/// # Arguments
+/// * `cells` - 2D vector of cell strings (rows × columns)
+///
+/// # Returns
+/// * `String` - Markdown formatted table
+fn cells_to_markdown(cells: &[Vec<String>]) -> String {
+    if cells.is_empty() {
+        return String::new();
+    }
+    let mut markdown = String::new();
+    // Determine number of columns from first row
+    let num_cols = cells.first().map(|r| r.len()).unwrap_or(0);
+    if num_cols == 0 {
+        return String::new();
+    }
+    // Header row (first row)
+    if let Some(header) = cells.first() {
+        markdown.push_str("| ");
+        for cell in header {
+            // Escape pipe characters in cell content
+            let escaped = cell.replace('|', "\\|");
+            markdown.push_str(&escaped);
+            markdown.push_str(" | ");
+        }
+        markdown.push('\n');
+        // Separator row
+        markdown.push('|');
+        for _ in 0..num_cols {
+            markdown.push_str("------|");
+        }
+        markdown.push('\n');
+    }
+    // Data rows (skip first row as it's the header)
+    for row in cells.iter().skip(1) {
+        markdown.push_str("| ");
+        for (idx, cell) in row.iter().enumerate() {
+            if idx >= num_cols {
+                break; // Handle irregular tables
+            }
+            // Escape pipe characters in cell content
+            let escaped = cell.replace('|', "\\|");
+            markdown.push_str(&escaped);
+            markdown.push_str(" | ");
+        }
+        // Pad with empty cells if row is shorter than expected
+        for _ in row.len()..num_cols {
+            markdown.push_str(" | ");
+        }
+        markdown.push('\n');
+    }
+    markdown
+}
+impl Plugin for HtmlExtractor {
+    fn name(&self) -> &str {
+        "html-extractor"
+    }
+    fn version(&self) -> String {
+        env!("CARGO_PKG_VERSION").to_string()
+    }
+    fn initialize(&self) -> Result<()> {
+        Ok(())
+    }
+    fn shutdown(&self) -> Result<()> {
+        Ok(())
+    }
+}
+#[async_trait]
+impl DocumentExtractor for HtmlExtractor {
+    async fn extract_bytes(
+        &self,
+        content: &[u8],
+        mime_type: &str,
+        config: &ExtractionConfig,
+    ) -> Result<ExtractionResult> {
+        let html = std::str::from_utf8(content)
+            .map(|s| s.to_string())
+            .unwrap_or_else(|_| String::from_utf8_lossy(content).to_string());
+        // Extract tables from HTML
+        let tables = extract_html_tables(&html)?;
+        let markdown = crate::extraction::html::convert_html_to_markdown(&html, config.html_options.clone())?;
+        let (html_metadata, content_without_frontmatter) = crate::extraction::html::parse_html_metadata(&markdown)?;
+        Ok(ExtractionResult {
+            content: content_without_frontmatter,
+            mime_type: mime_type.to_string(),
+            metadata: Metadata {
+                format: html_metadata.map(|m| crate::types::FormatMetadata::Html(Box::new(m))),
+                ..Default::default()
+            },
+            tables,
+            detected_languages: None,
+            chunks: None,
+            images: None,
+        })
+    }
+    async fn extract_file(&self, path: &Path, mime_type: &str, config: &ExtractionConfig) -> Result<ExtractionResult> {
+        let bytes = tokio::fs::read(path).await?;
+        self.extract_bytes(&bytes, mime_type, config).await
+    }
+    fn supported_mime_types(&self) -> &[&str] {
+        &["text/html", "application/xhtml+xml"]
+    }
+    fn priority(&self) -> i32 {
+        50
+    }
+}
+#[cfg(test)]
+mod tests {
+    use super::*;
+    #[test]
+    fn test_html_extractor_plugin_interface() {
+        let extractor = HtmlExtractor::new();
+        assert_eq!(extractor.name(), "html-extractor");
+        assert!(extractor.initialize().is_ok());
+        assert!(extractor.shutdown().is_ok());
+    }
+    #[test]
+    fn test_html_extractor_supported_mime_types() {
+        let extractor = HtmlExtractor::new();
+        let mime_types = extractor.supported_mime_types();
+        assert_eq!(mime_types.len(), 2);
+        assert!(mime_types.contains(&"text/html"));
+        assert!(mime_types.contains(&"application/xhtml+xml"));
+    }
+    #[test]
+    fn test_extract_html_tables_basic() {
+        let html = r#"
+            <table>
+                <tr><th>Header1</th><th>Header2</th></tr>
+                <tr><td>Row1Col1</td><td>Row1Col2</td></tr>
+                <tr><td>Row2Col1</td><td>Row2Col2</td></tr>
+            </table>
+        "#;
+        let tables = extract_html_tables(html).unwrap();
+        assert_eq!(tables.len(), 1);
+        let table = &tables[0];
+        assert_eq!(table.cells.len(), 3);
+        assert_eq!(table.cells[0], vec!["Header1", "Header2"]);
+        assert_eq!(table.cells[1], vec!["Row1Col1", "Row1Col2"]);
+        assert_eq!(table.cells[2], vec!["Row2Col1", "Row2Col2"]);
+        assert_eq!(table.page_number, 1);
+        // Check markdown format
+        assert!(table.markdown.contains("| Header1 | Header2 |"));
+        assert!(table.markdown.contains("|------|------|"));
+        assert!(table.markdown.contains("| Row1Col1 | Row1Col2 |"));
+    }
+    #[test]
+    fn test_extract_html_tables_multiple() {
+        let html = r#"
+            <table>
+                <tr><th>Table1</th></tr>
+                <tr><td>Data1</td></tr>
+            </table>
+            <p>Some text</p>
+            <table>
+                <tr><th>Table2</th></tr>
+                <tr><td>Data2</td></tr>
+            </table>
+        "#;
+        let tables = extract_html_tables(html).unwrap();
+        assert_eq!(tables.len(), 2);
+        assert_eq!(tables[0].page_number, 1);
+        assert_eq!(tables[1].page_number, 2);
+    }
+    #[test]
+    fn test_extract_html_tables_no_thead() {
+        let html = r#"
+            <table>
+                <tr><td>Cell1</td><td>Cell2</td></tr>
+                <tr><td>Cell3</td><td>Cell4</td></tr>
+            </table>
+        "#;
+        let tables = extract_html_tables(html).unwrap();
+        assert_eq!(tables.len(), 1);
+        let table = &tables[0];
+        assert_eq!(table.cells.len(), 2);
+        assert_eq!(table.cells[0], vec!["Cell1", "Cell2"]);
+        assert_eq!(table.cells[1], vec!["Cell3", "Cell4"]);
+    }
+    #[test]
+    fn test_extract_html_tables_empty() {
+        let html = "<p>No tables here</p>";
+        let tables = extract_html_tables(html).unwrap();
+        assert_eq!(tables.len(), 0);
+    }
+    #[test]
+    fn test_extract_html_tables_with_nested_elements() {
+        let html = r#"
+            <table>
+                <tr><th>Header <strong>Bold</strong></th></tr>
+                <tr><td>Data with <em>emphasis</em></td></tr>
+            </table>
+        "#;
+        let tables = extract_html_tables(html).unwrap();
+        assert_eq!(tables.len(), 1);
+        let table = &tables[0];
+        // Whitespace is normalized during text extraction
+        assert_eq!(table.cells[0][0], "Header Bold");
+        assert_eq!(table.cells[1][0], "Data with emphasis");
+    }
+    #[test]
+    fn test_cells_to_markdown_basic() {
+        let cells = vec![
+            vec!["Header1".to_string(), "Header2".to_string()],
+            vec!["Row1Col1".to_string(), "Row1Col2".to_string()],
+            vec!["Row2Col1".to_string(), "Row2Col2".to_string()],
+        ];
+        let markdown = cells_to_markdown(&cells);
+        assert!(markdown.contains("| Header1 | Header2 |"));
+        assert!(markdown.contains("|------|------|"));
+        assert!(markdown.contains("| Row1Col1 | Row1Col2 |"));
+        assert!(markdown.contains("| Row2Col1 | Row2Col2 |"));
+    }
+    #[test]
+    fn test_cells_to_markdown_empty() {
+        let cells: Vec<Vec<String>> = vec![];
+        let markdown = cells_to_markdown(&cells);
+        assert_eq!(markdown, "");
+    }
+    #[test]
+    fn test_cells_to_markdown_escape_pipes() {
+        let cells = vec![vec!["Header".to_string()], vec!["Cell with | pipe".to_string()]];
+        let markdown = cells_to_markdown(&cells);
+        assert!(markdown.contains("Cell with \\| pipe"));
+    }
+    #[test]
+    fn test_cells_to_markdown_irregular_rows() {
+        let cells = vec![
+            vec!["H1".to_string(), "H2".to_string(), "H3".to_string()],
+            vec!["R1C1".to_string(), "R1C2".to_string()], // Missing third column
+            vec!["R2C1".to_string(), "R2C2".to_string(), "R2C3".to_string()],
+        ];
+        let markdown = cells_to_markdown(&cells);
+        // Should have 3 columns in header
+        assert!(markdown.contains("| H1 | H2 | H3 |"));
+        // Should pad short rows
+        assert!(markdown.contains("| R1C1 | R1C2 |  |"));
+    }
+    #[tokio::test]
+    async fn test_html_extractor_with_table() {
+        let html = r#"
+            <html>
+                <body>
+                    <h1>Test Page</h1>
+                    <table>
+                        <tr><th>Name</th><th>Age</th></tr>
+                        <tr><td>Alice</td><td>30</td></tr>
+                        <tr><td>Bob</td><td>25</td></tr>
+                    </table>
+                </body>
+            </html>
+        "#;
+        let extractor = HtmlExtractor::new();
+        let config = ExtractionConfig::default();
+        let result = extractor
+            .extract_bytes(html.as_bytes(), "text/html", &config)
+            .await
+            .unwrap();
+        assert_eq!(result.tables.len(), 1);
+        let table = &result.tables[0];
+        assert_eq!(table.cells.len(), 3);
+        assert_eq!(table.cells[0], vec!["Name", "Age"]);
+        assert_eq!(table.cells[1], vec!["Alice", "30"]);
+        assert_eq!(table.cells[2], vec!["Bob", "25"]);
+    }
+}

data/vendor/kreuzberg/src/extractors/image.rs ADDED Viewed

@@ -0,0 +1,195 @@
+//! Image extractors for various image formats.
+use crate::Result;
+use crate::core::config::ExtractionConfig;
+use crate::extraction::image::extract_image_metadata;
+use crate::plugins::{DocumentExtractor, Plugin};
+use crate::types::{ExtractionResult, Metadata};
+use async_trait::async_trait;
+/// Image extractor for various image formats.
+///
+/// Supports: PNG, JPEG, WebP, BMP, TIFF, GIF.
+/// Extracts dimensions, format, and EXIF metadata.
+/// Optionally runs OCR when configured.
+pub struct ImageExtractor;
+impl ImageExtractor {
+    /// Create a new image extractor.
+    pub fn new() -> Self {
+        Self
+    }
+    /// Extract text from image using OCR.
+    #[cfg(feature = "ocr")]
+    async fn extract_with_ocr(&self, content: &[u8], config: &ExtractionConfig) -> Result<ExtractionResult> {
+        use crate::plugins::registry::get_ocr_backend_registry;
+        let ocr_config = config.ocr.as_ref().ok_or_else(|| crate::KreuzbergError::Parsing {
+            message: "OCR config required for image OCR".to_string(),
+            source: None,
+        })?;
+        let backend = {
+            let registry = get_ocr_backend_registry();
+            let registry = registry.read().map_err(|e| crate::KreuzbergError::Plugin {
+                message: format!("Failed to acquire read lock on OCR backend registry: {}", e),
+                plugin_name: "ocr-registry".to_string(),
+            })?;
+            registry.get(&ocr_config.backend)?
+        };
+        // Process image using the backend - returns full ExtractionResult with tables/metadata
+        backend.process_image(content, ocr_config).await
+    }
+}
+impl Default for ImageExtractor {
+    fn default() -> Self {
+        Self::new()
+    }
+}
+impl Plugin for ImageExtractor {
+    fn name(&self) -> &str {
+        "image-extractor"
+    }
+    fn version(&self) -> String {
+        env!("CARGO_PKG_VERSION").to_string()
+    }
+    fn initialize(&self) -> Result<()> {
+        Ok(())
+    }
+    fn shutdown(&self) -> Result<()> {
+        Ok(())
+    }
+    fn description(&self) -> &str {
+        "Extracts dimensions, format, and EXIF data from images (PNG, JPEG, WebP, BMP, TIFF, GIF)"
+    }
+    fn author(&self) -> &str {
+        "Kreuzberg Team"
+    }
+}
+#[async_trait]
+impl DocumentExtractor for ImageExtractor {
+    async fn extract_bytes(
+        &self,
+        content: &[u8],
+        mime_type: &str,
+        config: &ExtractionConfig,
+    ) -> Result<ExtractionResult> {
+        let extraction_metadata = extract_image_metadata(content)?;
+        let image_metadata = crate::types::ImageMetadata {
+            width: extraction_metadata.width,
+            height: extraction_metadata.height,
+            format: extraction_metadata.format.clone(),
+            exif: extraction_metadata.exif_data,
+        };
+        // If OCR is enabled, use OCR result (which includes tables and OCR-specific metadata)
+        if config.ocr.is_some() {
+            #[cfg(feature = "ocr")]
+            {
+                let mut ocr_result = self.extract_with_ocr(content, config).await?;
+                // Add image metadata to the OCR result
+                ocr_result.metadata.format = Some(crate::types::FormatMetadata::Image(image_metadata));
+                ocr_result.mime_type = mime_type.to_string();
+                return Ok(ocr_result);
+            }
+            #[cfg(not(feature = "ocr"))]
+            {
+                let content_text = format!(
+                    "Image: {} {}x{}",
+                    extraction_metadata.format, extraction_metadata.width, extraction_metadata.height
+                );
+                return Ok(ExtractionResult {
+                    content: content_text,
+                    mime_type: mime_type.to_string(),
+                    metadata: Metadata {
+                        format: Some(crate::types::FormatMetadata::Image(image_metadata)),
+                        ..Default::default()
+                    },
+                    tables: vec![],
+                    detected_languages: None,
+                    chunks: None,
+                    images: None,
+                });
+            }
+        }
+        // No OCR - just return image dimensions
+        Ok(ExtractionResult {
+            content: format!(
+                "Image: {} {}x{}",
+                extraction_metadata.format, extraction_metadata.width, extraction_metadata.height
+            ),
+            mime_type: mime_type.to_string(),
+            metadata: Metadata {
+                format: Some(crate::types::FormatMetadata::Image(image_metadata)),
+                ..Default::default()
+            },
+            tables: vec![],
+            detected_languages: None,
+            chunks: None,
+            images: None,
+        })
+    }
+    fn supported_mime_types(&self) -> &[&str] {
+        &[
+            "image/png",
+            "image/jpeg",
+            "image/jpg",
+            "image/webp",
+            "image/bmp",
+            "image/tiff",
+            "image/gif",
+        ]
+    }
+    fn priority(&self) -> i32 {
+        50
+    }
+}
+#[cfg(test)]
+mod tests {
+    use super::*;
+    #[tokio::test]
+    async fn test_image_extractor_invalid_image() {
+        let extractor = ImageExtractor::new();
+        let invalid_bytes = vec![0, 1, 2, 3, 4, 5];
+        let config = ExtractionConfig::default();
+        let result = extractor.extract_bytes(&invalid_bytes, "image/png", &config).await;
+        assert!(result.is_err());
+    }
+    #[test]
+    fn test_image_plugin_interface() {
+        let extractor = ImageExtractor::new();
+        assert_eq!(extractor.name(), "image-extractor");
+        assert_eq!(extractor.version(), env!("CARGO_PKG_VERSION"));
+        assert!(extractor.supported_mime_types().contains(&"image/png"));
+        assert!(extractor.supported_mime_types().contains(&"image/jpeg"));
+        assert!(extractor.supported_mime_types().contains(&"image/webp"));
+        assert_eq!(extractor.priority(), 50);
+    }
+    #[test]
+    fn test_image_extractor_default() {
+        let extractor = ImageExtractor;
+        assert_eq!(extractor.name(), "image-extractor");
+    }
+}