RubyGems - kreuzberg - Versions diffs - 4.0.7 → 4.1.0 - Mend

kreuzberg 4.0.7 → 4.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (308) hide show

checksums.yaml +4 -4
data/Gemfile.lock +24 -16
data/README.md +4 -1
data/ext/kreuzberg_rb/native/Cargo.lock +94 -98
data/ext/kreuzberg_rb/native/Cargo.toml +4 -2
data/ext/kreuzberg_rb/native/src/batch.rs +139 -0
data/ext/kreuzberg_rb/native/src/config/mod.rs +10 -0
data/ext/kreuzberg_rb/native/src/config/types.rs +1058 -0
data/ext/kreuzberg_rb/native/src/error_handling.rs +125 -0
data/ext/kreuzberg_rb/native/src/extraction.rs +79 -0
data/ext/kreuzberg_rb/native/src/gc_guarded_value.rs +35 -0
data/ext/kreuzberg_rb/native/src/helpers.rs +176 -0
data/ext/kreuzberg_rb/native/src/lib.rs +342 -3622
data/ext/kreuzberg_rb/native/src/metadata.rs +34 -0
data/ext/kreuzberg_rb/native/src/plugins/mod.rs +92 -0
data/ext/kreuzberg_rb/native/src/plugins/ocr_backend.rs +159 -0
data/ext/kreuzberg_rb/native/src/plugins/post_processor.rs +126 -0
data/ext/kreuzberg_rb/native/src/plugins/validator.rs +99 -0
data/ext/kreuzberg_rb/native/src/result.rs +326 -0
data/ext/kreuzberg_rb/native/src/validation.rs +4 -0
data/lib/kreuzberg/config.rb +66 -0
data/lib/kreuzberg/result.rb +107 -2
data/lib/kreuzberg/types.rb +104 -0
data/lib/kreuzberg/version.rb +1 -1
data/lib/kreuzberg.rb +0 -4
data/sig/kreuzberg.rbs +105 -1
data/vendor/Cargo.toml +3 -3
data/vendor/kreuzberg/Cargo.toml +4 -3
data/vendor/kreuzberg/README.md +1 -1
data/vendor/kreuzberg/src/api/config.rs +69 -0
data/vendor/kreuzberg/src/api/handlers.rs +99 -2
data/vendor/kreuzberg/src/api/mod.rs +14 -7
data/vendor/kreuzberg/src/api/router.rs +214 -0
data/vendor/kreuzberg/src/api/startup.rs +243 -0
data/vendor/kreuzberg/src/api/types.rs +78 -0
data/vendor/kreuzberg/src/cache/cleanup.rs +277 -0
data/vendor/kreuzberg/src/cache/core.rs +428 -0
data/vendor/kreuzberg/src/cache/mod.rs +21 -843
data/vendor/kreuzberg/src/cache/utilities.rs +156 -0
data/vendor/kreuzberg/src/chunking/boundaries.rs +301 -0
data/vendor/kreuzberg/src/chunking/builder.rs +294 -0
data/vendor/kreuzberg/src/chunking/config.rs +52 -0
data/vendor/kreuzberg/src/chunking/core.rs +1017 -0
data/vendor/kreuzberg/src/chunking/mod.rs +14 -2211
data/vendor/kreuzberg/src/chunking/processor.rs +10 -0
data/vendor/kreuzberg/src/chunking/validation.rs +686 -0
data/vendor/kreuzberg/src/core/config/extraction/core.rs +169 -0
data/vendor/kreuzberg/src/core/config/extraction/env.rs +179 -0
data/vendor/kreuzberg/src/core/config/extraction/loaders.rs +204 -0
data/vendor/kreuzberg/src/core/config/extraction/mod.rs +42 -0
data/vendor/kreuzberg/src/core/config/extraction/types.rs +93 -0
data/vendor/kreuzberg/src/core/config/formats.rs +135 -0
data/vendor/kreuzberg/src/core/config/mod.rs +20 -0
data/vendor/kreuzberg/src/core/config/ocr.rs +73 -0
data/vendor/kreuzberg/src/core/config/page.rs +57 -0
data/vendor/kreuzberg/src/core/config/pdf.rs +111 -0
data/vendor/kreuzberg/src/core/config/processing.rs +312 -0
data/vendor/kreuzberg/src/core/config_validation/dependencies.rs +187 -0
data/vendor/kreuzberg/src/core/config_validation/mod.rs +386 -0
data/vendor/kreuzberg/src/core/config_validation/sections.rs +401 -0
data/vendor/kreuzberg/src/core/extractor/batch.rs +246 -0
data/vendor/kreuzberg/src/core/extractor/bytes.rs +116 -0
data/vendor/kreuzberg/src/core/extractor/file.rs +240 -0
data/vendor/kreuzberg/src/core/extractor/helpers.rs +71 -0
data/vendor/kreuzberg/src/core/extractor/legacy.rs +62 -0
data/vendor/kreuzberg/src/core/extractor/mod.rs +490 -0
data/vendor/kreuzberg/src/core/extractor/sync.rs +208 -0
data/vendor/kreuzberg/src/core/mod.rs +4 -1
data/vendor/kreuzberg/src/core/pipeline/cache.rs +60 -0
data/vendor/kreuzberg/src/core/pipeline/execution.rs +89 -0
data/vendor/kreuzberg/src/core/pipeline/features.rs +108 -0
data/vendor/kreuzberg/src/core/pipeline/format.rs +392 -0
data/vendor/kreuzberg/src/core/pipeline/initialization.rs +67 -0
data/vendor/kreuzberg/src/core/pipeline/mod.rs +135 -0
data/vendor/kreuzberg/src/core/pipeline/tests.rs +975 -0
data/vendor/kreuzberg/src/core/server_config/env.rs +90 -0
data/vendor/kreuzberg/src/core/server_config/loader.rs +202 -0
data/vendor/kreuzberg/src/core/server_config/mod.rs +380 -0
data/vendor/kreuzberg/src/core/server_config/tests/basic_tests.rs +124 -0
data/vendor/kreuzberg/src/core/server_config/tests/env_tests.rs +216 -0
data/vendor/kreuzberg/src/core/server_config/tests/file_loading_tests.rs +341 -0
data/vendor/kreuzberg/src/core/server_config/tests/mod.rs +5 -0
data/vendor/kreuzberg/src/core/server_config/validation.rs +17 -0
data/vendor/kreuzberg/src/embeddings.rs +136 -13
data/vendor/kreuzberg/src/extraction/{archive.rs → archive/mod.rs} +45 -239
data/vendor/kreuzberg/src/extraction/archive/sevenz.rs +98 -0
data/vendor/kreuzberg/src/extraction/archive/tar.rs +118 -0
data/vendor/kreuzberg/src/extraction/archive/zip.rs +101 -0
data/vendor/kreuzberg/src/extraction/html/converter.rs +592 -0
data/vendor/kreuzberg/src/extraction/html/image_handling.rs +95 -0
data/vendor/kreuzberg/src/extraction/html/mod.rs +53 -0
data/vendor/kreuzberg/src/extraction/html/processor.rs +659 -0
data/vendor/kreuzberg/src/extraction/html/stack_management.rs +103 -0
data/vendor/kreuzberg/src/extraction/html/types.rs +28 -0
data/vendor/kreuzberg/src/extraction/mod.rs +6 -2
data/vendor/kreuzberg/src/extraction/pptx/container.rs +159 -0
data/vendor/kreuzberg/src/extraction/pptx/content_builder.rs +168 -0
data/vendor/kreuzberg/src/extraction/pptx/elements.rs +132 -0
data/vendor/kreuzberg/src/extraction/pptx/image_handling.rs +57 -0
data/vendor/kreuzberg/src/extraction/pptx/metadata.rs +160 -0
data/vendor/kreuzberg/src/extraction/pptx/mod.rs +558 -0
data/vendor/kreuzberg/src/extraction/pptx/parser.rs +379 -0
data/vendor/kreuzberg/src/extraction/transform/content.rs +205 -0
data/vendor/kreuzberg/src/extraction/transform/elements.rs +211 -0
data/vendor/kreuzberg/src/extraction/transform/mod.rs +480 -0
data/vendor/kreuzberg/src/extraction/transform/types.rs +27 -0
data/vendor/kreuzberg/src/extractors/archive.rs +2 -0
data/vendor/kreuzberg/src/extractors/bibtex.rs +2 -0
data/vendor/kreuzberg/src/extractors/djot_format/attributes.rs +134 -0
data/vendor/kreuzberg/src/extractors/djot_format/conversion.rs +223 -0
data/vendor/kreuzberg/src/extractors/djot_format/extractor.rs +172 -0
data/vendor/kreuzberg/src/extractors/djot_format/mod.rs +24 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/block_handlers.rs +271 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/content_extraction.rs +257 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/event_handlers.rs +101 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/inline_handlers.rs +201 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/mod.rs +16 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/state.rs +78 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/table_extraction.rs +68 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/text_extraction.rs +61 -0
data/vendor/kreuzberg/src/extractors/djot_format/rendering.rs +452 -0
data/vendor/kreuzberg/src/extractors/docbook.rs +2 -0
data/vendor/kreuzberg/src/extractors/docx.rs +12 -1
data/vendor/kreuzberg/src/extractors/email.rs +2 -0
data/vendor/kreuzberg/src/extractors/epub/content.rs +333 -0
data/vendor/kreuzberg/src/extractors/epub/metadata.rs +137 -0
data/vendor/kreuzberg/src/extractors/epub/mod.rs +186 -0
data/vendor/kreuzberg/src/extractors/epub/parsing.rs +86 -0
data/vendor/kreuzberg/src/extractors/excel.rs +4 -0
data/vendor/kreuzberg/src/extractors/fictionbook.rs +2 -0
data/vendor/kreuzberg/src/extractors/frontmatter_utils.rs +466 -0
data/vendor/kreuzberg/src/extractors/html.rs +80 -8
data/vendor/kreuzberg/src/extractors/image.rs +8 -1
data/vendor/kreuzberg/src/extractors/jats/elements.rs +350 -0
data/vendor/kreuzberg/src/extractors/jats/metadata.rs +21 -0
data/vendor/kreuzberg/src/extractors/{jats.rs → jats/mod.rs} +10 -412
data/vendor/kreuzberg/src/extractors/jats/parser.rs +52 -0
data/vendor/kreuzberg/src/extractors/jupyter.rs +2 -0
data/vendor/kreuzberg/src/extractors/latex/commands.rs +93 -0
data/vendor/kreuzberg/src/extractors/latex/environments.rs +157 -0
data/vendor/kreuzberg/src/extractors/latex/metadata.rs +27 -0
data/vendor/kreuzberg/src/extractors/latex/mod.rs +146 -0
data/vendor/kreuzberg/src/extractors/latex/parser.rs +231 -0
data/vendor/kreuzberg/src/extractors/latex/utilities.rs +126 -0
data/vendor/kreuzberg/src/extractors/markdown.rs +39 -162
data/vendor/kreuzberg/src/extractors/mod.rs +9 -1
data/vendor/kreuzberg/src/extractors/odt.rs +2 -0
data/vendor/kreuzberg/src/extractors/opml/core.rs +165 -0
data/vendor/kreuzberg/src/extractors/opml/mod.rs +31 -0
data/vendor/kreuzberg/src/extractors/opml/parser.rs +479 -0
data/vendor/kreuzberg/src/extractors/orgmode.rs +2 -0
data/vendor/kreuzberg/src/extractors/pdf/extraction.rs +106 -0
data/vendor/kreuzberg/src/extractors/{pdf.rs → pdf/mod.rs} +25 -324
data/vendor/kreuzberg/src/extractors/pdf/ocr.rs +214 -0
data/vendor/kreuzberg/src/extractors/pdf/pages.rs +51 -0
data/vendor/kreuzberg/src/extractors/pptx.rs +9 -2
data/vendor/kreuzberg/src/extractors/rst.rs +2 -0
data/vendor/kreuzberg/src/extractors/rtf/encoding.rs +116 -0
data/vendor/kreuzberg/src/extractors/rtf/formatting.rs +24 -0
data/vendor/kreuzberg/src/extractors/rtf/images.rs +72 -0
data/vendor/kreuzberg/src/extractors/rtf/metadata.rs +216 -0
data/vendor/kreuzberg/src/extractors/rtf/mod.rs +142 -0
data/vendor/kreuzberg/src/extractors/rtf/parser.rs +259 -0
data/vendor/kreuzberg/src/extractors/rtf/tables.rs +83 -0
data/vendor/kreuzberg/src/extractors/structured.rs +2 -0
data/vendor/kreuzberg/src/extractors/text.rs +4 -0
data/vendor/kreuzberg/src/extractors/typst.rs +2 -0
data/vendor/kreuzberg/src/extractors/xml.rs +2 -0
data/vendor/kreuzberg/src/keywords/processor.rs +14 -0
data/vendor/kreuzberg/src/language_detection/processor.rs +10 -0
data/vendor/kreuzberg/src/lib.rs +2 -2
data/vendor/kreuzberg/src/mcp/errors.rs +312 -0
data/vendor/kreuzberg/src/mcp/format.rs +211 -0
data/vendor/kreuzberg/src/mcp/mod.rs +9 -3
data/vendor/kreuzberg/src/mcp/params.rs +196 -0
data/vendor/kreuzberg/src/mcp/server.rs +39 -1438
data/vendor/kreuzberg/src/mcp/tools/cache.rs +179 -0
data/vendor/kreuzberg/src/mcp/tools/extraction.rs +403 -0
data/vendor/kreuzberg/src/mcp/tools/mime.rs +150 -0
data/vendor/kreuzberg/src/mcp/tools/mod.rs +11 -0
data/vendor/kreuzberg/src/ocr/backends/easyocr.rs +96 -0
data/vendor/kreuzberg/src/ocr/backends/mod.rs +7 -0
data/vendor/kreuzberg/src/ocr/backends/paddleocr.rs +27 -0
data/vendor/kreuzberg/src/ocr/backends/tesseract.rs +134 -0
data/vendor/kreuzberg/src/ocr/hocr.rs +60 -16
data/vendor/kreuzberg/src/ocr/language_registry.rs +11 -235
data/vendor/kreuzberg/src/ocr/mod.rs +1 -0
data/vendor/kreuzberg/src/ocr/processor/config.rs +203 -0
data/vendor/kreuzberg/src/ocr/processor/execution.rs +494 -0
data/vendor/kreuzberg/src/ocr/processor/mod.rs +265 -0
data/vendor/kreuzberg/src/ocr/processor/validation.rs +145 -0
data/vendor/kreuzberg/src/ocr/tesseract_backend.rs +41 -24
data/vendor/kreuzberg/src/pdf/bindings.rs +21 -8
data/vendor/kreuzberg/src/pdf/hierarchy/bounding_box.rs +289 -0
data/vendor/kreuzberg/src/pdf/hierarchy/clustering.rs +199 -0
data/vendor/kreuzberg/src/pdf/{hierarchy.rs → hierarchy/extraction.rs} +6 -346
data/vendor/kreuzberg/src/pdf/hierarchy/mod.rs +18 -0
data/vendor/kreuzberg/src/plugins/extractor/mod.rs +319 -0
data/vendor/kreuzberg/src/plugins/extractor/registry.rs +434 -0
data/vendor/kreuzberg/src/plugins/extractor/trait.rs +391 -0
data/vendor/kreuzberg/src/plugins/mod.rs +13 -0
data/vendor/kreuzberg/src/plugins/ocr.rs +11 -0
data/vendor/kreuzberg/src/plugins/processor/mod.rs +365 -0
data/vendor/kreuzberg/src/plugins/processor/registry.rs +37 -0
data/vendor/kreuzberg/src/plugins/processor/trait.rs +284 -0
data/vendor/kreuzberg/src/plugins/registry/extractor.rs +416 -0
data/vendor/kreuzberg/src/plugins/registry/mod.rs +116 -0
data/vendor/kreuzberg/src/plugins/registry/ocr.rs +293 -0
data/vendor/kreuzberg/src/plugins/registry/processor.rs +304 -0
data/vendor/kreuzberg/src/plugins/registry/validator.rs +238 -0
data/vendor/kreuzberg/src/plugins/validator/mod.rs +424 -0
data/vendor/kreuzberg/src/plugins/validator/registry.rs +355 -0
data/vendor/kreuzberg/src/plugins/validator/trait.rs +276 -0
data/vendor/kreuzberg/src/stopwords/languages/asian.rs +40 -0
data/vendor/kreuzberg/src/stopwords/languages/germanic.rs +36 -0
data/vendor/kreuzberg/src/stopwords/languages/mod.rs +10 -0
data/vendor/kreuzberg/src/stopwords/languages/other.rs +44 -0
data/vendor/kreuzberg/src/stopwords/languages/romance.rs +36 -0
data/vendor/kreuzberg/src/stopwords/languages/slavic.rs +36 -0
data/vendor/kreuzberg/src/stopwords/mod.rs +7 -33
data/vendor/kreuzberg/src/text/quality.rs +1 -1
data/vendor/kreuzberg/src/text/quality_processor.rs +10 -0
data/vendor/kreuzberg/src/text/token_reduction/core/analysis.rs +238 -0
data/vendor/kreuzberg/src/text/token_reduction/core/mod.rs +8 -0
data/vendor/kreuzberg/src/text/token_reduction/core/punctuation.rs +54 -0
data/vendor/kreuzberg/src/text/token_reduction/core/reducer.rs +384 -0
data/vendor/kreuzberg/src/text/token_reduction/core/sentence_selection.rs +68 -0
data/vendor/kreuzberg/src/text/token_reduction/core/word_filtering.rs +156 -0
data/vendor/kreuzberg/src/text/token_reduction/filters/general.rs +377 -0
data/vendor/kreuzberg/src/text/token_reduction/filters/html.rs +51 -0
data/vendor/kreuzberg/src/text/token_reduction/filters/markdown.rs +285 -0
data/vendor/kreuzberg/src/text/token_reduction/filters.rs +131 -246
data/vendor/kreuzberg/src/types/djot.rs +209 -0
data/vendor/kreuzberg/src/types/extraction.rs +301 -0
data/vendor/kreuzberg/src/types/formats.rs +443 -0
data/vendor/kreuzberg/src/types/metadata.rs +560 -0
data/vendor/kreuzberg/src/types/mod.rs +281 -0
data/vendor/kreuzberg/src/types/page.rs +182 -0
data/vendor/kreuzberg/src/types/serde_helpers.rs +132 -0
data/vendor/kreuzberg/src/types/tables.rs +39 -0
data/vendor/kreuzberg/src/utils/quality/heuristics.rs +58 -0
data/vendor/kreuzberg/src/utils/{quality.rs → quality/mod.rs} +168 -489
data/vendor/kreuzberg/src/utils/quality/patterns.rs +117 -0
data/vendor/kreuzberg/src/utils/quality/scoring.rs +178 -0
data/vendor/kreuzberg/src/utils/string_pool/buffer_pool.rs +325 -0
data/vendor/kreuzberg/src/utils/string_pool/interned.rs +102 -0
data/vendor/kreuzberg/src/utils/string_pool/language_pool.rs +119 -0
data/vendor/kreuzberg/src/utils/string_pool/mime_pool.rs +235 -0
data/vendor/kreuzberg/src/utils/string_pool/mod.rs +41 -0
data/vendor/kreuzberg/tests/api_chunk.rs +313 -0
data/vendor/kreuzberg/tests/api_embed.rs +6 -9
data/vendor/kreuzberg/tests/batch_orchestration.rs +1 -0
data/vendor/kreuzberg/tests/concurrency_stress.rs +7 -0
data/vendor/kreuzberg/tests/core_integration.rs +1 -0
data/vendor/kreuzberg/tests/docx_metadata_extraction_test.rs +130 -0
data/vendor/kreuzberg/tests/epub_native_extractor_tests.rs +5 -14
data/vendor/kreuzberg/tests/format_integration.rs +2 -0
data/vendor/kreuzberg/tests/helpers/mod.rs +1 -0
data/vendor/kreuzberg/tests/html_table_test.rs +11 -11
data/vendor/kreuzberg/tests/ocr_configuration.rs +16 -0
data/vendor/kreuzberg/tests/ocr_errors.rs +18 -0
data/vendor/kreuzberg/tests/ocr_quality.rs +9 -0
data/vendor/kreuzberg/tests/ocr_stress.rs +1 -0
data/vendor/kreuzberg/tests/pipeline_integration.rs +50 -0
data/vendor/kreuzberg/tests/plugin_ocr_backend_test.rs +13 -0
data/vendor/kreuzberg/tests/plugin_system.rs +12 -0
data/vendor/kreuzberg/tests/registry_integration_tests.rs +2 -0
data/vendor/kreuzberg-ffi/Cargo.toml +2 -1
data/vendor/kreuzberg-ffi/benches/result_view_benchmark.rs +2 -0
data/vendor/kreuzberg-ffi/kreuzberg.h +347 -178
data/vendor/kreuzberg-ffi/src/config/html.rs +318 -0
data/vendor/kreuzberg-ffi/src/config/loader.rs +154 -0
data/vendor/kreuzberg-ffi/src/config/merge.rs +104 -0
data/vendor/kreuzberg-ffi/src/config/mod.rs +385 -0
data/vendor/kreuzberg-ffi/src/config/parse.rs +91 -0
data/vendor/kreuzberg-ffi/src/config/serialize.rs +118 -0
data/vendor/kreuzberg-ffi/src/config_builder.rs +598 -0
data/vendor/kreuzberg-ffi/src/error.rs +46 -14
data/vendor/kreuzberg-ffi/src/helpers.rs +26 -353
data/vendor/kreuzberg-ffi/src/html_options.rs +421 -0
data/vendor/kreuzberg-ffi/src/lib.rs +16 -0
data/vendor/kreuzberg-ffi/src/panic_shield.rs +11 -0
data/vendor/kreuzberg-ffi/src/plugins/ocr_backend.rs +2 -0
data/vendor/kreuzberg-ffi/src/result.rs +148 -122
data/vendor/kreuzberg-ffi/src/result_view.rs +4 -0
data/vendor/kreuzberg-tesseract/Cargo.toml +3 -3
metadata +200 -28
data/vendor/kreuzberg/src/api/server.rs +0 -518
data/vendor/kreuzberg/src/core/config.rs +0 -1914
data/vendor/kreuzberg/src/core/config_validation.rs +0 -949
data/vendor/kreuzberg/src/core/extractor.rs +0 -1200
data/vendor/kreuzberg/src/core/pipeline.rs +0 -1223
data/vendor/kreuzberg/src/core/server_config.rs +0 -1220
data/vendor/kreuzberg/src/extraction/html.rs +0 -1830
data/vendor/kreuzberg/src/extraction/pptx.rs +0 -3102
data/vendor/kreuzberg/src/extractors/epub.rs +0 -696
data/vendor/kreuzberg/src/extractors/latex.rs +0 -653
data/vendor/kreuzberg/src/extractors/opml.rs +0 -635
data/vendor/kreuzberg/src/extractors/rtf.rs +0 -809
data/vendor/kreuzberg/src/ocr/processor.rs +0 -858
data/vendor/kreuzberg/src/plugins/extractor.rs +0 -1042
data/vendor/kreuzberg/src/plugins/processor.rs +0 -650
data/vendor/kreuzberg/src/plugins/registry.rs +0 -1339
data/vendor/kreuzberg/src/plugins/validator.rs +0 -967
data/vendor/kreuzberg/src/text/token_reduction/core.rs +0 -832
data/vendor/kreuzberg/src/types.rs +0 -1713
data/vendor/kreuzberg/src/utils/string_pool.rs +0 -762
data/vendor/kreuzberg-ffi/src/config.rs +0 -1341

data/vendor/kreuzberg/src/extractors/epub.rs DELETED Viewed

@@ -1,696 +0,0 @@
-//! Native EPUB extractor using permissive-licensed dependencies.
-//!
-//! This extractor provides native Rust-based EPUB extraction without GPL-licensed
-//! dependencies, extracting:
-//! - Metadata from OPF (Open Packaging Format) using Dublin Core standards
-//! - Content from XHTML files in spine order
-//! - Proper handling of EPUB2 and EPUB3 formats
-//!
-//! Uses only permissive-licensed crates:
-//! - `zip` (MIT/Apache) - for reading EPUB container
-//! - `roxmltree` (MIT) - for parsing XML
-//! - `html-to-markdown-rs` (MIT) - for converting XHTML to plain text
-use crate::Result;
-use crate::core::config::ExtractionConfig;
-use crate::plugins::{DocumentExtractor, Plugin};
-use crate::types::{ExtractionResult, Metadata};
-use async_trait::async_trait;
-use roxmltree;
-use std::collections::BTreeMap;
-use std::io::Cursor;
-use zip::ZipArchive;
-/// EPUB format extractor using permissive-licensed dependencies.
-///
-/// Extracts content and metadata from EPUB files (both EPUB2 and EPUB3)
-/// using native Rust parsing without GPL-licensed dependencies.
-pub struct EpubExtractor;
-impl EpubExtractor {
-    /// Create a new EPUB extractor.
-    pub fn new() -> Self {
-        Self
-    }
-    /// Extract text content from an EPUB document by reading in spine order
-    fn extract_content(
-        archive: &mut ZipArchive<Cursor<Vec<u8>>>,
-        opf_path: &str,
-        manifest_dir: &str,
-    ) -> Result<String> {
-        let opf_xml = Self::read_file_from_zip(archive, opf_path)?;
-        let (_, spine_hrefs) = Self::parse_opf(&opf_xml)?;
-        let mut content = String::new();
-        for (index, href) in spine_hrefs.iter().enumerate() {
-            let file_path = Self::resolve_path(manifest_dir, href);
-            match Self::read_file_from_zip(archive, &file_path) {
-                Ok(xhtml_content) => {
-                    let text = Self::extract_text_from_xhtml(&xhtml_content);
-                    if !text.is_empty() {
-                        if index > 0 && !content.ends_with('\n') {
-                            content.push('\n');
-                        }
-                        content.push_str(&text);
-                        content.push('\n');
-                    }
-                }
-                Err(_) => {
-                    continue;
-                }
-            }
-        }
-        Ok(content.trim().to_string())
-    }
-    /// Extract text from XHTML content using html-to-markdown-rs
-    fn extract_text_from_xhtml(xhtml: &str) -> String {
-        match crate::extraction::html::convert_html_to_markdown(xhtml, None) {
-            Ok(markdown) => {
-                let text = Self::markdown_to_plain_text(&markdown);
-                Self::remove_html_comments(&text)
-            }
-            Err(_) => Self::strip_html_tags(xhtml),
-        }
-    }
-    /// Remove HTML comments from text
-    fn remove_html_comments(text: &str) -> String {
-        let mut result = String::new();
-        let mut in_comment = false;
-        let mut chars = text.chars().peekable();
-        while let Some(ch) = chars.next() {
-            if !in_comment && ch == '<' {
-                if chars.peek() == Some(&'!') {
-                    chars.next();
-                    if chars.peek() == Some(&'-') {
-                        chars.next();
-                        if chars.peek() == Some(&'-') {
-                            chars.next();
-                            in_comment = true;
-                            continue;
-                        } else {
-                            result.push('<');
-                            result.push('!');
-                            result.push('-');
-                            continue;
-                        }
-                    } else {
-                        result.push('<');
-                        result.push('!');
-                        continue;
-                    }
-                } else {
-                    result.push(ch);
-                }
-            } else if in_comment {
-                if ch == '-' && chars.peek() == Some(&'-') {
-                    chars.next();
-                    if chars.peek() == Some(&'>') {
-                        chars.next();
-                        in_comment = false;
-                        result.push('\n');
-                    }
-                }
-            } else {
-                result.push(ch);
-            }
-        }
-        result
-    }
-    /// Convert markdown output to plain text by removing markdown syntax
-    fn markdown_to_plain_text(markdown: &str) -> String {
-        let mut text = String::new();
-        let mut in_code_block = false;
-        for line in markdown.lines() {
-            let trimmed = line.trim();
-            if trimmed.is_empty() {
-                if !text.is_empty() && !text.ends_with('\n') {
-                    text.push('\n');
-                }
-                continue;
-            }
-            if trimmed.starts_with("```") {
-                in_code_block = !in_code_block;
-                continue;
-            }
-            if in_code_block {
-                text.push_str(trimmed);
-                text.push('\n');
-                continue;
-            }
-            let cleaned = if let Some(stripped) = trimmed.strip_prefix("- ").or_else(|| trimmed.strip_prefix("* ")) {
-                stripped
-            } else if let Some(stripped) = trimmed.strip_prefix(|c: char| c.is_ascii_digit()) {
-                if let Some(rest) = stripped.strip_prefix(". ") {
-                    rest
-                } else {
-                    trimmed
-                }
-            } else {
-                trimmed
-            };
-            let cleaned = cleaned.trim_start_matches('#').trim();
-            let cleaned = cleaned
-                .replace("**", "")
-                .replace("__", "")
-                .replace("*", "")
-                .replace("_", "");
-            let cleaned = Self::remove_markdown_links(&cleaned);
-            if !cleaned.is_empty() {
-                text.push_str(&cleaned);
-                text.push('\n');
-            }
-        }
-        text.trim().to_string()
-    }
-    /// Remove markdown links [text](url) -> text
-    fn remove_markdown_links(text: &str) -> String {
-        let mut result = String::new();
-        let mut chars = text.chars().peekable();
-        while let Some(ch) = chars.next() {
-            if ch == '[' {
-                let mut link_text = String::new();
-                let mut depth = 1;
-                while let Some(&next_ch) = chars.peek() {
-                    chars.next();
-                    if next_ch == '[' {
-                        depth += 1;
-                        link_text.push(next_ch);
-                    } else if next_ch == ']' {
-                        depth -= 1;
-                        if depth == 0 {
-                            break;
-                        }
-                        link_text.push(next_ch);
-                    } else {
-                        link_text.push(next_ch);
-                    }
-                }
-                if let Some(&'(') = chars.peek() {
-                    chars.next();
-                    let mut paren_depth = 1;
-                    while let Some(&next_ch) = chars.peek() {
-                        chars.next();
-                        if next_ch == '(' {
-                            paren_depth += 1;
-                        } else if next_ch == ')' {
-                            paren_depth -= 1;
-                            if paren_depth == 0 {
-                                break;
-                            }
-                        }
-                    }
-                }
-                result.push_str(&link_text);
-            } else {
-                result.push(ch);
-            }
-        }
-        result
-    }
-    /// Fallback: strip HTML tags without using specialized libraries
-    fn strip_html_tags(html: &str) -> String {
-        let mut text = String::new();
-        let mut in_tag = false;
-        let mut in_script_style = false;
-        let mut tag_name = String::new();
-        for ch in html.chars() {
-            if ch == '<' {
-                in_tag = true;
-                tag_name.clear();
-                continue;
-            }
-            if ch == '>' {
-                in_tag = false;
-                let tag_lower = tag_name.to_lowercase();
-                if tag_lower.contains("script") || tag_lower.contains("style") {
-                    in_script_style = !tag_name.starts_with('/');
-                }
-                continue;
-            }
-            if in_tag {
-                tag_name.push(ch);
-                continue;
-            }
-            if in_script_style {
-                continue;
-            }
-            if ch == '\n' || ch == '\r' || ch == '\t' || ch == ' ' {
-                if !text.is_empty() && !text.ends_with(' ') {
-                    text.push(' ');
-                }
-            } else {
-                text.push(ch);
-            }
-        }
-        let mut result = String::new();
-        let mut prev_space = false;
-        for ch in text.chars() {
-            if ch == ' ' {
-                if !prev_space {
-                    result.push(ch);
-                }
-                prev_space = true;
-            } else {
-                result.push(ch);
-                prev_space = false;
-            }
-        }
-        result.trim().to_string()
-    }
-    /// Extract metadata from EPUB OPF file
-    fn extract_metadata(opf_xml: &str) -> Result<(OepbMetadata, BTreeMap<String, serde_json::Value>)> {
-        let mut additional_metadata = BTreeMap::new();
-        let (epub_metadata, _) = Self::parse_opf(opf_xml)?;
-        if let Some(identifier) = epub_metadata.identifier.clone() {
-            additional_metadata.insert("identifier".to_string(), serde_json::json!(identifier));
-        }
-        if let Some(publisher) = epub_metadata.publisher.clone() {
-            additional_metadata.insert("publisher".to_string(), serde_json::json!(publisher));
-        }
-        if let Some(subject) = epub_metadata.subject.clone() {
-            additional_metadata.insert("subject".to_string(), serde_json::json!(subject));
-        }
-        if let Some(description) = epub_metadata.description.clone() {
-            additional_metadata.insert("description".to_string(), serde_json::json!(description));
-        }
-        if let Some(rights) = epub_metadata.rights.clone() {
-            additional_metadata.insert("rights".to_string(), serde_json::json!(rights));
-        }
-        Ok((epub_metadata, additional_metadata))
-    }
-    /// Parse container.xml to find the OPF file path
-    fn parse_container_xml(xml: &str) -> Result<String> {
-        match roxmltree::Document::parse(xml) {
-            Ok(doc) => {
-                for node in doc.descendants() {
-                    if node.tag_name().name() == "rootfile"
-                        && let Some(full_path) = node.attribute("full-path")
-                    {
-                        return Ok(full_path.to_string());
-                    }
-                }
-                Err(crate::KreuzbergError::Parsing {
-                    message: "No rootfile found in container.xml".to_string(),
-                    source: None,
-                })
-            }
-            Err(e) => Err(crate::KreuzbergError::Parsing {
-                message: format!("Failed to parse container.xml: {}", e),
-                source: None,
-            }),
-        }
-    }
-    /// Parse OPF file and extract metadata and spine order
-    fn parse_opf(xml: &str) -> Result<(OepbMetadata, Vec<String>)> {
-        match roxmltree::Document::parse(xml) {
-            Ok(doc) => {
-                let root = doc.root();
-                let mut metadata = OepbMetadata::default();
-                let mut manifest: BTreeMap<String, String> = BTreeMap::new();
-                let mut spine_order: Vec<String> = Vec::new();
-                for node in root.descendants() {
-                    match node.tag_name().name() {
-                        "title" => {
-                            if let Some(text) = node.text() {
-                                metadata.title = Some(text.trim().to_string());
-                            }
-                        }
-                        "creator" => {
-                            if let Some(text) = node.text() {
-                                metadata.creator = Some(text.trim().to_string());
-                            }
-                        }
-                        "date" => {
-                            if let Some(text) = node.text() {
-                                metadata.date = Some(text.trim().to_string());
-                            }
-                        }
-                        "language" => {
-                            if let Some(text) = node.text() {
-                                metadata.language = Some(text.trim().to_string());
-                            }
-                        }
-                        "identifier" => {
-                            if let Some(text) = node.text() {
-                                metadata.identifier = Some(text.trim().to_string());
-                            }
-                        }
-                        "publisher" => {
-                            if let Some(text) = node.text() {
-                                metadata.publisher = Some(text.trim().to_string());
-                            }
-                        }
-                        "subject" => {
-                            if let Some(text) = node.text() {
-                                metadata.subject = Some(text.trim().to_string());
-                            }
-                        }
-                        "description" => {
-                            if let Some(text) = node.text() {
-                                metadata.description = Some(text.trim().to_string());
-                            }
-                        }
-                        "rights" => {
-                            if let Some(text) = node.text() {
-                                metadata.rights = Some(text.trim().to_string());
-                            }
-                        }
-                        "item" => {
-                            if let Some(id) = node.attribute("id")
-                                && let Some(href) = node.attribute("href")
-                            {
-                                manifest.insert(id.to_string(), href.to_string());
-                            }
-                        }
-                        _ => {}
-                    }
-                }
-                for node in root.descendants() {
-                    if node.tag_name().name() == "itemref"
-                        && let Some(idref) = node.attribute("idref")
-                        && let Some(href) = manifest.get(idref)
-                    {
-                        spine_order.push(href.clone());
-                    }
-                }
-                Ok((metadata, spine_order))
-            }
-            Err(e) => Err(crate::KreuzbergError::Parsing {
-                message: format!("Failed to parse OPF file: {}", e),
-                source: None,
-            }),
-        }
-    }
-    /// Read a file from the ZIP archive
-    fn read_file_from_zip(archive: &mut ZipArchive<Cursor<Vec<u8>>>, path: &str) -> Result<String> {
-        match archive.by_name(path) {
-            Ok(mut file) => {
-                let mut content = String::new();
-                match std::io::Read::read_to_string(&mut file, &mut content) {
-                    Ok(_) => Ok(content),
-                    Err(e) => Err(crate::KreuzbergError::Parsing {
-                        message: format!("Failed to read file from EPUB: {}", e),
-                        source: None,
-                    }),
-                }
-            }
-            Err(e) => Err(crate::KreuzbergError::Parsing {
-                message: format!("File not found in EPUB: {} ({})", path, e),
-                source: None,
-            }),
-        }
-    }
-    /// Resolve a relative path within the manifest directory
-    fn resolve_path(base_dir: &str, relative_path: &str) -> String {
-        if relative_path.starts_with('/') {
-            relative_path.trim_start_matches('/').to_string()
-        } else if base_dir.is_empty() || base_dir == "." {
-            relative_path.to_string()
-        } else {
-            format!("{}/{}", base_dir.trim_end_matches('/'), relative_path)
-        }
-    }
-}
-/// Metadata extracted from OPF (Open Packaging Format) file
-#[derive(Debug, Default, Clone)]
-struct OepbMetadata {
-    title: Option<String>,
-    creator: Option<String>,
-    date: Option<String>,
-    language: Option<String>,
-    identifier: Option<String>,
-    publisher: Option<String>,
-    subject: Option<String>,
-    description: Option<String>,
-    rights: Option<String>,
-}
-impl Default for EpubExtractor {
-    fn default() -> Self {
-        Self::new()
-    }
-}
-impl Plugin for EpubExtractor {
-    fn name(&self) -> &str {
-        "epub-extractor"
-    }
-    fn version(&self) -> String {
-        env!("CARGO_PKG_VERSION").to_string()
-    }
-    fn initialize(&self) -> Result<()> {
-        Ok(())
-    }
-    fn shutdown(&self) -> Result<()> {
-        Ok(())
-    }
-    fn description(&self) -> &str {
-        "Extracts content and metadata from EPUB documents (native Rust implementation with permissive licenses)"
-    }
-    fn author(&self) -> &str {
-        "Kreuzberg Team"
-    }
-}
-#[cfg(feature = "office")]
-#[async_trait]
-impl DocumentExtractor for EpubExtractor {
-    #[cfg_attr(
-        feature = "otel",
-        tracing::instrument(
-            skip(self, content, _config),
-            fields(
-                extractor.name = self.name(),
-                content.size_bytes = content.len(),
-            )
-        )
-    )]
-    async fn extract_bytes(
-        &self,
-        content: &[u8],
-        mime_type: &str,
-        _config: &ExtractionConfig,
-    ) -> Result<ExtractionResult> {
-        let cursor = Cursor::new(content.to_vec());
-        let mut archive = ZipArchive::new(cursor).map_err(|e| crate::KreuzbergError::Parsing {
-            message: format!("Failed to open EPUB as ZIP: {}", e),
-            source: None,
-        })?;
-        let container_xml = Self::read_file_from_zip(&mut archive, "META-INF/container.xml")?;
-        let opf_path = Self::parse_container_xml(&container_xml)?;
-        let manifest_dir = if let Some(last_slash) = opf_path.rfind('/') {
-            opf_path[..last_slash].to_string()
-        } else {
-            String::new()
-        };
-        let opf_xml = Self::read_file_from_zip(&mut archive, &opf_path)?;
-        let extracted_content = Self::extract_content(&mut archive, &opf_path, &manifest_dir)?;
-        let (epub_metadata, additional_metadata) = Self::extract_metadata(&opf_xml)?;
-        let metadata_map: std::collections::HashMap<String, serde_json::Value> =
-            additional_metadata.into_iter().collect();
-        Ok(ExtractionResult {
-            content: extracted_content,
-            mime_type: mime_type.to_string(),
-            metadata: Metadata {
-                title: epub_metadata.title,
-                authors: epub_metadata.creator.map(|c| vec![c]),
-                language: epub_metadata.language,
-                created_at: epub_metadata.date,
-                additional: metadata_map,
-                ..Default::default()
-            },
-            pages: None,
-            tables: vec![],
-            detected_languages: None,
-            chunks: None,
-            images: None,
-        })
-    }
-    fn supported_mime_types(&self) -> &[&str] {
-        &[
-            "application/epub+zip",
-            "application/x-epub+zip",
-            "application/vnd.epub+zip",
-        ]
-    }
-    fn priority(&self) -> i32 {
-        60
-    }
-}
-#[cfg(all(test, feature = "office"))]
-mod tests {
-    use super::*;
-    #[test]
-    fn test_epub_extractor_plugin_interface() {
-        let extractor = EpubExtractor::new();
-        assert_eq!(extractor.name(), "epub-extractor");
-        assert_eq!(extractor.version(), env!("CARGO_PKG_VERSION"));
-        assert_eq!(extractor.priority(), 60);
-        assert!(!extractor.supported_mime_types().is_empty());
-    }
-    #[test]
-    fn test_epub_extractor_default() {
-        let extractor = EpubExtractor;
-        assert_eq!(extractor.name(), "epub-extractor");
-    }
-    #[tokio::test]
-    async fn test_epub_extractor_initialize_shutdown() {
-        let extractor = EpubExtractor::new();
-        assert!(extractor.initialize().is_ok());
-        assert!(extractor.shutdown().is_ok());
-    }
-    #[test]
-    fn test_strip_html_tags_simple() {
-        let html = "<html><body><p>Hello World</p></body></html>";
-        let text = EpubExtractor::strip_html_tags(html);
-        assert!(text.contains("Hello World"));
-    }
-    #[test]
-    fn test_strip_html_tags_with_scripts() {
-        let html = "<body><p>Text</p><script>alert('bad');</script><p>More</p></body>";
-        let text = EpubExtractor::strip_html_tags(html);
-        assert!(!text.contains("bad"));
-        assert!(text.contains("Text"));
-        assert!(text.contains("More"));
-    }
-    #[test]
-    fn test_strip_html_tags_with_styles() {
-        let html = "<body><p>Text</p><style>.class { color: red; }</style><p>More</p></body>";
-        let text = EpubExtractor::strip_html_tags(html);
-        assert!(!text.to_lowercase().contains("color"));
-        assert!(text.contains("Text"));
-        assert!(text.contains("More"));
-    }
-    #[test]
-    fn test_strip_html_tags_normalizes_whitespace() {
-        let html = "<p>Hello   \n\t   World</p>";
-        let text = EpubExtractor::strip_html_tags(html);
-        assert!(text.contains("Hello") && text.contains("World"));
-    }
-    #[test]
-    fn test_remove_markdown_links() {
-        let text = "This is a [link](http://example.com) in text";
-        let result = EpubExtractor::remove_markdown_links(text);
-        assert!(result.contains("link"));
-        assert!(!result.contains("http://"));
-    }
-    #[test]
-    fn test_resolve_path_with_base_dir() {
-        let result = EpubExtractor::resolve_path("OEBPS", "chapter.xhtml");
-        assert_eq!(result, "OEBPS/chapter.xhtml");
-    }
-    #[test]
-    fn test_resolve_path_absolute() {
-        let result = EpubExtractor::resolve_path("OEBPS", "/chapter.xhtml");
-        assert_eq!(result, "chapter.xhtml");
-    }
-    #[test]
-    fn test_resolve_path_empty_base() {
-        let result = EpubExtractor::resolve_path("", "chapter.xhtml");
-        assert_eq!(result, "chapter.xhtml");
-    }
-    #[test]
-    fn test_epub_extractor_supported_mime_types() {
-        let extractor = EpubExtractor::new();
-        let supported = extractor.supported_mime_types();
-        assert!(supported.contains(&"application/epub+zip"));
-        assert!(supported.contains(&"application/x-epub+zip"));
-        assert!(supported.contains(&"application/vnd.epub+zip"));
-    }
-    #[test]
-    fn test_markdown_to_plain_text_removes_formatting() {
-        let markdown = "# Heading\n\nThis is **bold** text with _italic_ emphasis.";
-        let result = EpubExtractor::markdown_to_plain_text(markdown);
-        assert!(result.contains("Heading"));
-        assert!(result.contains("bold"));
-        assert!(!result.contains("**"));
-    }
-    #[test]
-    fn test_markdown_to_plain_text_removes_list_markers() {
-        let markdown = "- Item 1\n- Item 2\n* Item 3";
-        let result = EpubExtractor::markdown_to_plain_text(markdown);
-        assert!(result.contains("Item 1"));
-        assert!(result.contains("Item 2"));
-        assert!(result.contains("Item 3"));
-    }
-}