RubyGems - kreuzberg - Versions diffs - 4.2.6 → 4.2.7 - Mend

kreuzberg 4.2.6 → 4.2.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (139) hide show

checksums.yaml +4 -4
data/Gemfile.lock +7 -4
data/README.md +1 -1
data/ext/kreuzberg_rb/native/Cargo.lock +36 -9
data/ext/kreuzberg_rb/native/Cargo.toml +32 -0
data/ext/kreuzberg_rb/native/src/config/types.rs +4 -2
data/ext/kreuzberg_rb/native/src/plugins/ocr_backend.rs +1 -1
data/ext/kreuzberg_rb/native/src/plugins/post_processor.rs +1 -1
data/ext/kreuzberg_rb/native/src/result.rs +5 -3
data/lib/kreuzberg/version.rb +1 -1
data/sig/kreuzberg.rbs +228 -37
data/spec/binding/batch_operations_spec.rb +2 -0
data/vendor/Cargo.toml +3 -2
data/vendor/kreuzberg/Cargo.toml +2 -1
data/vendor/kreuzberg/README.md +1 -1
data/vendor/kreuzberg/src/api/error.rs +29 -1
data/vendor/kreuzberg/src/api/handlers.rs +28 -25
data/vendor/kreuzberg/src/api/openapi.rs +14 -1
data/vendor/kreuzberg/src/chunking/config.rs +2 -37
data/vendor/kreuzberg/src/chunking/core.rs +78 -2
data/vendor/kreuzberg/src/chunking/mod.rs +1 -1
data/vendor/kreuzberg/src/chunking/processor.rs +15 -17
data/vendor/kreuzberg/src/core/config/extraction/env.rs +13 -9
data/vendor/kreuzberg/src/core/config/extraction/loaders.rs +12 -12
data/vendor/kreuzberg/src/core/config/mod.rs +1 -1
data/vendor/kreuzberg/src/core/config/processing.rs +65 -8
data/vendor/kreuzberg/src/core/config_validation/mod.rs +8 -0
data/vendor/kreuzberg/src/core/config_validation/sections.rs +5 -0
data/vendor/kreuzberg/src/core/extractor/batch.rs +9 -9
data/vendor/kreuzberg/src/core/extractor/file.rs +4 -2
data/vendor/kreuzberg/src/core/extractor/legacy.rs +7 -7
data/vendor/kreuzberg/src/core/extractor/sync.rs +3 -3
data/vendor/kreuzberg/src/core/pipeline/execution.rs +2 -1
data/vendor/kreuzberg/src/core/pipeline/features.rs +16 -22
data/vendor/kreuzberg/src/core/pipeline/format.rs +20 -18
data/vendor/kreuzberg/src/core/pipeline/tests.rs +40 -35
data/vendor/kreuzberg/src/extraction/email.rs +31 -19
data/vendor/kreuzberg/src/extraction/excel.rs +6 -5
data/vendor/kreuzberg/src/extraction/html/image_handling.rs +6 -1
data/vendor/kreuzberg/src/extraction/html/types.rs +4 -3
data/vendor/kreuzberg/src/extraction/libreoffice.rs +10 -9
data/vendor/kreuzberg/src/extraction/pptx/image_handling.rs +10 -8
data/vendor/kreuzberg/src/extraction/pptx/mod.rs +8 -4
data/vendor/kreuzberg/src/extraction/structured.rs +5 -4
data/vendor/kreuzberg/src/extraction/transform/content.rs +1 -1
data/vendor/kreuzberg/src/extraction/transform/mod.rs +10 -7
data/vendor/kreuzberg/src/extractors/archive.rs +7 -5
data/vendor/kreuzberg/src/extractors/bibtex.rs +34 -17
data/vendor/kreuzberg/src/extractors/djot_format/attributes.rs +7 -10
data/vendor/kreuzberg/src/extractors/djot_format/conversion.rs +4 -2
data/vendor/kreuzberg/src/extractors/djot_format/extractor.rs +3 -2
data/vendor/kreuzberg/src/extractors/djot_format/parsing/block_handlers.rs +1 -1
data/vendor/kreuzberg/src/extractors/djot_format/parsing/content_extraction.rs +2 -4
data/vendor/kreuzberg/src/extractors/djot_format/parsing/event_handlers.rs +1 -1
data/vendor/kreuzberg/src/extractors/djot_format/parsing/inline_handlers.rs +4 -5
data/vendor/kreuzberg/src/extractors/djot_format/parsing/table_extraction.rs +1 -1
data/vendor/kreuzberg/src/extractors/docbook.rs +1 -1
data/vendor/kreuzberg/src/extractors/docx.rs +32 -24
data/vendor/kreuzberg/src/extractors/email.rs +5 -3
data/vendor/kreuzberg/src/extractors/epub/metadata.rs +10 -10
data/vendor/kreuzberg/src/extractors/epub/mod.rs +7 -3
data/vendor/kreuzberg/src/extractors/excel.rs +8 -6
data/vendor/kreuzberg/src/extractors/fictionbook.rs +1 -1
data/vendor/kreuzberg/src/extractors/frontmatter_utils.rs +15 -10
data/vendor/kreuzberg/src/extractors/html.rs +1 -1
data/vendor/kreuzberg/src/extractors/image.rs +3 -3
data/vendor/kreuzberg/src/extractors/jats/mod.rs +1 -1
data/vendor/kreuzberg/src/extractors/jupyter.rs +11 -9
data/vendor/kreuzberg/src/extractors/latex/metadata.rs +4 -3
data/vendor/kreuzberg/src/extractors/latex/mod.rs +1 -1
data/vendor/kreuzberg/src/extractors/markdown.rs +6 -4
data/vendor/kreuzberg/src/extractors/odt.rs +38 -21
data/vendor/kreuzberg/src/extractors/opml/core.rs +1 -1
data/vendor/kreuzberg/src/extractors/opml/parser.rs +13 -9
data/vendor/kreuzberg/src/extractors/orgmode.rs +11 -9
data/vendor/kreuzberg/src/extractors/pdf/mod.rs +10 -3
data/vendor/kreuzberg/src/extractors/pptx.rs +13 -11
data/vendor/kreuzberg/src/extractors/rst.rs +15 -13
data/vendor/kreuzberg/src/extractors/rtf/metadata.rs +22 -21
data/vendor/kreuzberg/src/extractors/rtf/mod.rs +1 -1
data/vendor/kreuzberg/src/extractors/structured.rs +10 -5
data/vendor/kreuzberg/src/extractors/text.rs +2 -2
data/vendor/kreuzberg/src/extractors/typst.rs +11 -5
data/vendor/kreuzberg/src/extractors/xml.rs +1 -1
data/vendor/kreuzberg/src/keywords/processor.rs +9 -8
data/vendor/kreuzberg/src/language_detection/processor.rs +6 -5
data/vendor/kreuzberg/src/lib.rs +1 -1
data/vendor/kreuzberg/src/mcp/errors.rs +7 -6
data/vendor/kreuzberg/src/mcp/format.rs +5 -4
data/vendor/kreuzberg/src/mcp/tools/extraction.rs +3 -2
data/vendor/kreuzberg/src/ocr/hocr.rs +4 -2
data/vendor/kreuzberg/src/ocr/processor/execution.rs +128 -14
data/vendor/kreuzberg/src/ocr/processor/validation.rs +129 -0
data/vendor/kreuzberg/src/ocr/tesseract_backend.rs +36 -6
data/vendor/kreuzberg/src/ocr/types.rs +3 -4
data/vendor/kreuzberg/src/ocr/validation.rs +14 -0
data/vendor/kreuzberg/src/pdf/metadata.rs +1 -0
data/vendor/kreuzberg/src/plugins/extractor/mod.rs +3 -2
data/vendor/kreuzberg/src/plugins/extractor/registry.rs +5 -4
data/vendor/kreuzberg/src/plugins/ocr.rs +5 -4
data/vendor/kreuzberg/src/plugins/processor/mod.rs +13 -12
data/vendor/kreuzberg/src/plugins/registry/extractor.rs +3 -2
data/vendor/kreuzberg/src/plugins/registry/ocr.rs +3 -2
data/vendor/kreuzberg/src/plugins/validator/mod.rs +15 -14
data/vendor/kreuzberg/src/text/quality.rs +13 -13
data/vendor/kreuzberg/src/text/quality_processor.rs +7 -6
data/vendor/kreuzberg/src/types/djot.rs +15 -4
data/vendor/kreuzberg/src/types/extraction.rs +24 -4
data/vendor/kreuzberg/src/types/formats.rs +9 -5
data/vendor/kreuzberg/src/types/metadata.rs +68 -7
data/vendor/kreuzberg/src/types/mod.rs +7 -5
data/vendor/kreuzberg/src/types/page.rs +9 -0
data/vendor/kreuzberg/src/types/tables.rs +2 -0
data/vendor/kreuzberg/tests/concurrency_stress.rs +2 -1
data/vendor/kreuzberg/tests/config_behavioral.rs +12 -16
data/vendor/kreuzberg/tests/config_features.rs +19 -11
data/vendor/kreuzberg/tests/config_loading_tests.rs +9 -9
data/vendor/kreuzberg/tests/contract_mcp.rs +2 -2
data/vendor/kreuzberg/tests/core_integration.rs +5 -6
data/vendor/kreuzberg/tests/opml_extractor_tests.rs +1 -1
data/vendor/kreuzberg/tests/orgmode_extractor_tests.rs +1 -1
data/vendor/kreuzberg/tests/pipeline_integration.rs +36 -32
data/vendor/kreuzberg/tests/plugin_ocr_backend_test.rs +19 -13
data/vendor/kreuzberg/tests/plugin_postprocessor_test.rs +3 -2
data/vendor/kreuzberg/tests/plugin_system.rs +7 -6
data/vendor/kreuzberg/tests/plugin_validator_test.rs +1 -1
data/vendor/kreuzberg/tests/registry_integration_tests.rs +2 -1
data/vendor/kreuzberg-ffi/Cargo.toml +2 -1
data/vendor/kreuzberg-ffi/benches/result_view_benchmark.rs +3 -2
data/vendor/kreuzberg-ffi/kreuzberg.h +32 -0
data/vendor/kreuzberg-ffi/src/error.rs +56 -0
data/vendor/kreuzberg-ffi/src/helpers.rs +6 -5
data/vendor/kreuzberg-ffi/src/plugins/ocr_backend.rs +1 -1
data/vendor/kreuzberg-ffi/src/result.rs +2 -1
data/vendor/kreuzberg-ffi/src/result_view.rs +3 -2
data/vendor/kreuzberg-ffi/src/string_intern.rs +3 -3
data/vendor/kreuzberg-ffi/tests.disabled/config_loading_tests.rs +2 -2
data/vendor/kreuzberg-tesseract/Cargo.toml +1 -1
metadata +2 -2

data/vendor/kreuzberg/src/extractors/opml/parser.rs CHANGED Viewed

@@ -4,10 +4,12 @@
 //! and recursive processing of `<outline>` elements in the `<body>` section.
 use crate::Result;
-use std::collections::HashMap;
+use ahash::AHashMap;
+use std::borrow::Cow;
 #[cfg(feature = "office")]
 use roxmltree::Node;
+use serde_json;
 /// Extract OPML content and metadata from raw bytes.
 ///
@@ -20,7 +22,9 @@ use roxmltree::Node;
 /// - Extracted content as a String (outline hierarchy with indentation)
 /// - Metadata HashMap with key-value pairs from the head section
 #[cfg(feature = "office")]
-pub(crate) fn extract_content_and_metadata(content: &[u8]) -> Result<(String, HashMap<String, serde_json::Value>)> {
+pub(crate) fn extract_content_and_metadata(
+    content: &[u8],
+) -> Result<(String, AHashMap<Cow<'static, str>, serde_json::Value>)> {
     let doc = roxmltree::Document::parse(
         std::str::from_utf8(content)
             .map_err(|e| crate::KreuzbergError::Other(format!("Invalid UTF-8 in OPML: {}", e)))?,
@@ -28,7 +32,7 @@ pub(crate) fn extract_content_and_metadata(content: &[u8]) -> Result<(String, Ha
     .map_err(|e| crate::KreuzbergError::Other(format!("Failed to parse OPML: {}", e)))?;
     let mut extracted_content = String::new();
-    let mut metadata = HashMap::new();
+    let mut metadata = AHashMap::new();
     if let Some(opml) = doc.root().children().find(|n| n.tag_name().name() == "opml") {
         if let Some(head) = opml.children().find(|n| n.tag_name().name() == "head") {
@@ -60,7 +64,7 @@ pub(crate) fn extract_content_and_metadata(content: &[u8]) -> Result<(String, Ha
 /// - ownerName: Document owner's name
 /// - ownerEmail: Document owner's email
 #[cfg(feature = "office")]
-fn extract_metadata_from_head(head: Node, metadata: &mut HashMap<String, serde_json::Value>) {
+fn extract_metadata_from_head(head: Node, metadata: &mut AHashMap<Cow<'static, str>, serde_json::Value>) {
     for child in head.children().filter(|n| n.is_element()) {
         let tag = child.tag_name().name();
         let text = child.text().unwrap_or("").trim();
@@ -71,19 +75,19 @@ fn extract_metadata_from_head(head: Node, metadata: &mut HashMap<String, serde_j
         match tag {
             "title" => {
-                metadata.insert("title".to_string(), serde_json::json!(text));
+                metadata.insert(Cow::Borrowed("title"), serde_json::json!(text));
             }
             "dateCreated" => {
-                metadata.insert("dateCreated".to_string(), serde_json::json!(text));
+                metadata.insert(Cow::Borrowed("dateCreated"), serde_json::json!(text));
             }
             "dateModified" => {
-                metadata.insert("dateModified".to_string(), serde_json::json!(text));
+                metadata.insert(Cow::Borrowed("dateModified"), serde_json::json!(text));
             }
             "ownerName" => {
-                metadata.insert("ownerName".to_string(), serde_json::json!(text));
+                metadata.insert(Cow::Borrowed("ownerName"), serde_json::json!(text));
             }
             "ownerEmail" => {
-                metadata.insert("ownerEmail".to_string(), serde_json::json!(text));
+                metadata.insert(Cow::Borrowed("ownerEmail"), serde_json::json!(text));
             }
             _ => {}
         }

data/vendor/kreuzberg/src/extractors/orgmode.rs CHANGED Viewed

@@ -23,9 +23,11 @@ use crate::plugins::{DocumentExtractor, Plugin};
 #[cfg(feature = "office")]
 use crate::types::{ExtractionResult, Metadata, Table};
 #[cfg(feature = "office")]
+use ahash::AHashMap;
+#[cfg(feature = "office")]
 use async_trait::async_trait;
 #[cfg(feature = "office")]
-use std::collections::HashMap;
+use std::borrow::Cow;
 #[cfg(feature = "office")]
 use org::Org;
@@ -57,33 +59,33 @@ impl OrgModeExtractor {
     /// Also extracts document structure and content in parallel.
     fn extract_metadata_and_content(org_text: &str, org: &Org) -> (Metadata, String) {
         let mut metadata = Metadata::default();
-        let mut additional = HashMap::new();
+        let mut additional: AHashMap<Cow<'static, str>, serde_json::Value> = Default::default();
         for line in org_text.lines().take(100) {
             let trimmed = line.trim();
             if let Some(rest) = trimmed.strip_prefix("#+TITLE:") {
                 let value = rest.trim().to_string();
-                additional.insert("title".to_string(), serde_json::json!(value));
+                additional.insert(Cow::Borrowed("title"), serde_json::json!(value));
             } else if let Some(rest) = trimmed.strip_prefix("#+AUTHOR:") {
                 let value = rest.trim().to_string();
-                additional.insert("author".to_string(), serde_json::json!(&value));
-                additional.insert("authors".to_string(), serde_json::json!(vec![value]));
+                additional.insert(Cow::Borrowed("author"), serde_json::json!(&value));
+                additional.insert(Cow::Borrowed("authors"), serde_json::json!(vec![value]));
             } else if let Some(rest) = trimmed.strip_prefix("#+DATE:") {
                 let value = rest.trim().to_string();
                 metadata.created_at = Some(value.clone());
-                additional.insert("date".to_string(), serde_json::json!(value));
+                additional.insert(Cow::Borrowed("date"), serde_json::json!(value));
             } else if let Some(rest) = trimmed.strip_prefix("#+KEYWORDS:") {
                 let value = rest.trim();
                 let keywords: Vec<&str> = value.split(',').map(|s| s.trim()).collect();
-                additional.insert("keywords".to_string(), serde_json::json!(keywords));
+                additional.insert(Cow::Borrowed("keywords"), serde_json::json!(keywords));
             } else if let Some(rest) = trimmed.strip_prefix("#+")
                 && let Some((key, val)) = rest.split_once(':')
             {
                 let key_lower = key.trim().to_lowercase();
                 let value = val.trim();
                 if !key_lower.is_empty() && !value.is_empty() {
-                    additional.insert(format!("directive_{}", key_lower), serde_json::json!(value));
+                    additional.insert(Cow::Owned(format!("directive_{}", key_lower)), serde_json::json!(value));
                 }
             }
         }
@@ -298,7 +300,7 @@ impl DocumentExtractor for OrgModeExtractor {
         Ok(ExtractionResult {
             content: extracted_content,
-            mime_type: mime_type.to_string(),
+            mime_type: mime_type.to_string().into(),
             metadata,
             tables,
             detected_languages: None,

data/vendor/kreuzberg/src/extractors/pdf/mod.rs CHANGED Viewed

@@ -7,6 +7,8 @@ mod extraction;
 mod ocr;
 mod pages;
+use bytes::Bytes;
 use crate::Result;
 use crate::core::config::ExtractionConfig;
 use crate::plugins::{DocumentExtractor, Plugin};
@@ -236,9 +238,14 @@ impl DocumentExtractor for PdfExtractor {
                         .into_iter()
                         .enumerate()
                         .map(|(idx, img)| {
-                            let format = img.filters.first().cloned().unwrap_or_else(|| "unknown".to_string());
+                            let format = img
+                                .filters
+                                .first()
+                                .cloned()
+                                .map(std::borrow::Cow::Owned)
+                                .unwrap_or(std::borrow::Cow::Borrowed("unknown"));
                             crate::types::ExtractedImage {
-                                data: img.data,
+                                data: Bytes::from(img.data),
                                 format,
                                 image_index: idx,
                                 page_number: Some(img.page_number),
@@ -265,7 +272,7 @@ impl DocumentExtractor for PdfExtractor {
         Ok(ExtractionResult {
             content: text,
-            mime_type: mime_type.to_string(),
+            mime_type: mime_type.to_string().into(),
             metadata: Metadata {
                 #[cfg(feature = "pdf")]
                 title: pdf_metadata.title.clone(),

data/vendor/kreuzberg/src/extractors/pptx.rs CHANGED Viewed

@@ -6,7 +6,9 @@ use crate::Result;
 use crate::core::config::ExtractionConfig;
 use crate::plugins::{DocumentExtractor, Plugin};
 use crate::types::{ExtractionResult, Metadata};
+use ahash::AHashMap;
 use async_trait::async_trait;
+use std::borrow::Cow;
 use std::path::Path;
 #[cfg(feature = "ocr")]
@@ -66,7 +68,7 @@ impl PptxExtractor {
                 Ok(ocr_extraction) => {
                     let extraction_result = ExtractionResult {
                         content: ocr_extraction.content,
-                        mime_type: ocr_extraction.mime_type,
+                        mime_type: ocr_extraction.mime_type.into(),
                         metadata: Metadata::default(),
                         tables: vec![],
                         detected_languages: None,
@@ -137,10 +139,10 @@ impl DocumentExtractor for PptxExtractor {
             crate::extraction::pptx::extract_pptx_from_bytes(content, extract_images, config.pages.as_ref())?
         };
-        let mut additional = std::collections::HashMap::new();
-        additional.insert("slide_count".to_string(), serde_json::json!(pptx_result.slide_count));
-        additional.insert("image_count".to_string(), serde_json::json!(pptx_result.image_count));
-        additional.insert("table_count".to_string(), serde_json::json!(pptx_result.table_count));
+        let mut additional: AHashMap<Cow<'static, str>, serde_json::Value> = AHashMap::new();
+        additional.insert(Cow::Borrowed("slide_count"), serde_json::json!(pptx_result.slide_count));
+        additional.insert(Cow::Borrowed("image_count"), serde_json::json!(pptx_result.image_count));
+        additional.insert(Cow::Borrowed("table_count"), serde_json::json!(pptx_result.table_count));
         let images = if extract_images {
             // Image extraction is enabled, return images or empty vector
@@ -174,7 +176,7 @@ impl DocumentExtractor for PptxExtractor {
         Ok(ExtractionResult {
             content: pptx_result.content,
-            mime_type: mime_type.to_string(),
+            mime_type: mime_type.to_string().into(),
             metadata,
             pages: pptx_result.page_contents,
             tables: vec![],
@@ -202,10 +204,10 @@ impl DocumentExtractor for PptxExtractor {
         let pptx_result =
             crate::extraction::pptx::extract_pptx_from_path(path_str, extract_images, config.pages.as_ref())?;
-        let mut additional = std::collections::HashMap::new();
-        additional.insert("slide_count".to_string(), serde_json::json!(pptx_result.slide_count));
-        additional.insert("image_count".to_string(), serde_json::json!(pptx_result.image_count));
-        additional.insert("table_count".to_string(), serde_json::json!(pptx_result.table_count));
+        let mut additional: AHashMap<Cow<'static, str>, serde_json::Value> = AHashMap::new();
+        additional.insert(Cow::Borrowed("slide_count"), serde_json::json!(pptx_result.slide_count));
+        additional.insert(Cow::Borrowed("image_count"), serde_json::json!(pptx_result.image_count));
+        additional.insert(Cow::Borrowed("table_count"), serde_json::json!(pptx_result.table_count));
         let images = if extract_images {
             // Image extraction is enabled, return images or empty vector
@@ -239,7 +241,7 @@ impl DocumentExtractor for PptxExtractor {
         Ok(ExtractionResult {
             content: pptx_result.content,
-            mime_type: mime_type.to_string(),
+            mime_type: mime_type.to_string().into(),
             metadata,
             pages: pptx_result.page_contents,
             tables: vec![],

data/vendor/kreuzberg/src/extractors/rst.rs CHANGED Viewed

@@ -21,9 +21,11 @@ use crate::plugins::{DocumentExtractor, Plugin};
 #[cfg(feature = "office")]
 use crate::types::{ExtractionResult, Metadata, Table};
 #[cfg(feature = "office")]
+use ahash::AHashMap;
+#[cfg(feature = "office")]
 use async_trait::async_trait;
 #[cfg(feature = "office")]
-use std::collections::HashMap;
+use std::borrow::Cow;
 /// Native Rust reStructuredText extractor.
 ///
@@ -48,7 +50,7 @@ impl RstExtractor {
     /// Uses document tree parsing and fallback text extraction.
     fn extract_text_and_metadata(content: &str) -> (String, Metadata) {
         let mut metadata = Metadata::default();
-        let mut additional = HashMap::new();
+        let mut additional: AHashMap<Cow<'static, str>, serde_json::Value> = AHashMap::new();
         let text = Self::extract_text_from_rst(content, &mut additional);
@@ -60,7 +62,7 @@ impl RstExtractor {
     ///
     /// This is the main extraction engine that processes RST line-by-line
     /// and extracts all document content including headings, code blocks, lists, etc.
-    fn extract_text_from_rst(content: &str, metadata: &mut HashMap<String, serde_json::Value>) -> String {
+    fn extract_text_from_rst(content: &str, metadata: &mut AHashMap<Cow<'static, str>, serde_json::Value>) -> String {
         let mut output = String::new();
         let lines: Vec<&str> = content.lines().collect();
         let mut i = 0;
@@ -228,24 +230,24 @@ impl RstExtractor {
     }
     /// Add a metadata field from RST field list.
-    fn add_metadata_field(key: &str, value: &str, metadata: &mut HashMap<String, serde_json::Value>) {
+    fn add_metadata_field(key: &str, value: &str, metadata: &mut AHashMap<Cow<'static, str>, serde_json::Value>) {
         let key_lower = key.to_lowercase();
         match key_lower.as_str() {
             "author" | "authors" => {
-                metadata.insert("author".to_string(), serde_json::Value::String(value.to_string()));
+                metadata.insert(Cow::Borrowed("author"), serde_json::Value::String(value.to_string()));
             }
             "date" => {
-                metadata.insert("date".to_string(), serde_json::Value::String(value.to_string()));
+                metadata.insert(Cow::Borrowed("date"), serde_json::Value::String(value.to_string()));
             }
             "version" | "revision" => {
-                metadata.insert("version".to_string(), serde_json::Value::String(value.to_string()));
+                metadata.insert(Cow::Borrowed("version"), serde_json::Value::String(value.to_string()));
             }
             "title" => {
-                metadata.insert("title".to_string(), serde_json::Value::String(value.to_string()));
+                metadata.insert(Cow::Borrowed("title"), serde_json::Value::String(value.to_string()));
             }
             _ => {
                 metadata.insert(
-                    format!("field_{}", key_lower),
+                    Cow::Owned(format!("field_{}", key_lower)),
                     serde_json::Value::String(value.to_string()),
                 );
             }
@@ -447,7 +449,7 @@ impl DocumentExtractor for RstExtractor {
         Ok(ExtractionResult {
             content: extracted_text,
-            mime_type: mime_type.to_string(),
+            mime_type: mime_type.to_string().into(),
             metadata,
             tables,
             detected_languages: None,
@@ -504,7 +506,7 @@ This is a paragraph.
 Another paragraph.
 "#;
-        let mut metadata = HashMap::new();
+        let mut metadata = AHashMap::new();
         let output = RstExtractor::extract_text_from_rst(content, &mut metadata);
         assert!(output.contains("Title"));
         assert!(output.contains("This is a paragraph"));
@@ -522,7 +524,7 @@ Another paragraph.
 Some text after.
 "#;
-        let mut metadata = HashMap::new();
+        let mut metadata = AHashMap::new();
         let output = RstExtractor::extract_text_from_rst(content, &mut metadata);
         assert!(output.contains("code-block"));
         assert!(output.contains("def hello"));
@@ -540,7 +542,7 @@ First paragraph.
 Second paragraph.
 "#;
-        let mut metadata = HashMap::new();
+        let mut metadata = AHashMap::new();
         let output = RstExtractor::extract_text_from_rst(content, &mut metadata);
         assert!(output.contains("First paragraph"));
         assert!(output.contains("Second paragraph"));

data/vendor/kreuzberg/src/extractors/rtf/metadata.rs CHANGED Viewed

@@ -1,8 +1,9 @@
 //! Metadata extraction from RTF documents.
 use crate::extractors::rtf::encoding::parse_rtf_control_word;
+use ahash::AHashMap;
 use serde_json::Value;
-use std::collections::HashMap;
+use std::borrow::Cow;
 /// Parse a `{\\creatim ...}` or `{\\revtim ...}` RTF info block into ISO 8601 format.
 pub fn parse_rtf_datetime(segment: &str) -> Option<String> {
@@ -45,8 +46,8 @@ pub fn parse_rtf_datetime(segment: &str) -> Option<String> {
 }
 /// Extract metadata from the RTF `\\info` block and augment with computed statistics.
-pub fn extract_rtf_metadata(rtf_content: &str, extracted_text: &str) -> HashMap<String, Value> {
-    let mut metadata: HashMap<String, Value> = HashMap::new();
+pub fn extract_rtf_metadata(rtf_content: &str, extracted_text: &str) -> AHashMap<Cow<'static, str>, Value> {
+    let mut metadata: AHashMap<Cow<'static, str>, Value> = AHashMap::new();
     if let Some(start) = rtf_content.find("{\\info") {
         let slice = &rtf_content[start..];
@@ -120,68 +121,68 @@ pub fn extract_rtf_metadata(rtf_content: &str, extracted_text: &str) -> HashMap<
                 "author" => {
                     if !trimmed.is_empty() {
                         let author = trimmed.to_string();
-                        metadata.insert("created_by".to_string(), Value::String(author.clone()));
-                        metadata.insert("authors".to_string(), Value::Array(vec![Value::String(author)]));
+                        metadata.insert(Cow::Borrowed("created_by"), Value::String(author.clone()));
+                        metadata.insert(Cow::Borrowed("authors"), Value::Array(vec![Value::String(author)]));
                     }
                 }
                 "operator" => {
                     if !trimmed.is_empty() {
-                        metadata.insert("modified_by".to_string(), Value::String(trimmed.to_string()));
+                        metadata.insert(Cow::Borrowed("modified_by"), Value::String(trimmed.to_string()));
                     }
                 }
                 "title" => {
                     if !trimmed.is_empty() {
-                        metadata.insert("title".to_string(), Value::String(trimmed.to_string()));
+                        metadata.insert(Cow::Borrowed("title"), Value::String(trimmed.to_string()));
                     }
                 }
                 "subject" => {
                     if !trimmed.is_empty() {
-                        metadata.insert("subject".to_string(), Value::String(trimmed.to_string()));
+                        metadata.insert(Cow::Borrowed("subject"), Value::String(trimmed.to_string()));
                     }
                 }
                 "generator" => {
                     if !trimmed.is_empty() {
-                        metadata.insert("generator".to_string(), Value::String(trimmed.to_string()));
+                        metadata.insert(Cow::Borrowed("generator"), Value::String(trimmed.to_string()));
                     }
                 }
                 "creatim" => {
                     if let Some(dt) = parse_rtf_datetime(trimmed) {
-                        metadata.insert("created_at".to_string(), Value::String(dt));
+                        metadata.insert(Cow::Borrowed("created_at"), Value::String(dt));
                     }
                 }
                 "revtim" => {
                     if let Some(dt) = parse_rtf_datetime(trimmed) {
-                        metadata.insert("modified_at".to_string(), Value::String(dt));
+                        metadata.insert(Cow::Borrowed("modified_at"), Value::String(dt));
                     }
                 }
                 "version" => {
                     if let Some(val) = numeric.or_else(|| trimmed.parse::<i32>().ok()) {
-                        metadata.insert("revision".to_string(), Value::String(val.to_string()));
+                        metadata.insert(Cow::Borrowed("revision"), Value::String(val.to_string()));
                     }
                 }
                 "nofpages" => {
                     if let Some(val) = numeric.or_else(|| trimmed.parse::<i32>().ok()) {
-                        metadata.insert("page_count".to_string(), Value::Number(val.into()));
+                        metadata.insert(Cow::Borrowed("page_count"), Value::Number(val.into()));
                     }
                 }
                 "nofwords" => {
                     if let Some(val) = numeric.or_else(|| trimmed.parse::<i32>().ok()) {
-                        metadata.insert("word_count".to_string(), Value::Number(val.into()));
+                        metadata.insert(Cow::Borrowed("word_count"), Value::Number(val.into()));
                     }
                 }
                 "nofchars" => {
                     if let Some(val) = numeric.or_else(|| trimmed.parse::<i32>().ok()) {
-                        metadata.insert("character_count".to_string(), Value::Number(val.into()));
+                        metadata.insert(Cow::Borrowed("character_count"), Value::Number(val.into()));
                     }
                 }
                 "lines" => {
                     if let Some(val) = numeric.or_else(|| trimmed.parse::<i32>().ok()) {
-                        metadata.insert("line_count".to_string(), Value::Number(val.into()));
+                        metadata.insert(Cow::Borrowed("line_count"), Value::Number(val.into()));
                     }
                 }
                 "paragraphs" => {
                     if let Some(val) = numeric.or_else(|| trimmed.parse::<i32>().ok()) {
-                        metadata.insert("paragraph_count".to_string(), Value::Number(val.into()));
+                        metadata.insert(Cow::Borrowed("paragraph_count"), Value::Number(val.into()));
                     }
                 }
                 _ => {}
@@ -193,22 +194,22 @@ pub fn extract_rtf_metadata(rtf_content: &str, extracted_text: &str) -> HashMap<
     if !cleaned_text.is_empty() {
         let word_count = cleaned_text.split_whitespace().count() as i64;
         metadata
-            .entry("word_count".to_string())
+            .entry(Cow::Borrowed("word_count"))
             .or_insert(Value::Number(word_count.into()));
         let character_count = cleaned_text.chars().count() as i64;
         metadata
-            .entry("character_count".to_string())
+            .entry(Cow::Borrowed("character_count"))
             .or_insert(Value::Number(character_count.into()));
         let line_count = cleaned_text.lines().count() as i64;
         metadata
-            .entry("line_count".to_string())
+            .entry(Cow::Borrowed("line_count"))
             .or_insert(Value::Number(line_count.into()));
         let paragraph_count = cleaned_text.split("\n\n").filter(|p| !p.trim().is_empty()).count() as i64;
         metadata
-            .entry("paragraph_count".to_string())
+            .entry(Cow::Borrowed("paragraph_count"))
             .or_insert(Value::Number(paragraph_count.into()));
     }

data/vendor/kreuzberg/src/extractors/rtf/mod.rs CHANGED Viewed

@@ -95,7 +95,7 @@ impl DocumentExtractor for RtfExtractor {
         Ok(ExtractionResult {
             content: extracted_text,
-            mime_type: mime_type.to_string(),
+            mime_type: mime_type.to_string().into(),
             metadata: Metadata {
                 additional: metadata_map,
                 ..Default::default()

data/vendor/kreuzberg/src/extractors/structured.rs CHANGED Viewed

@@ -4,7 +4,9 @@ use crate::Result;
 use crate::core::config::ExtractionConfig;
 use crate::plugins::{DocumentExtractor, Plugin};
 use crate::types::{ExtractionResult, Metadata};
+use ahash::AHashMap;
 use async_trait::async_trait;
+use std::borrow::Cow;
 #[cfg(feature = "tokio-runtime")]
 use std::path::Path;
@@ -63,20 +65,23 @@ impl DocumentExtractor for StructuredExtractor {
             _ => return Err(crate::KreuzbergError::UnsupportedFormat(mime_type.to_string())),
         };
-        let mut additional = std::collections::HashMap::new();
+        let mut additional = AHashMap::new();
         additional.insert(
-            "field_count".to_string(),
+            Cow::Borrowed("field_count"),
             serde_json::json!(structured_result.text_fields.len()),
         );
-        additional.insert("data_format".to_string(), serde_json::json!(structured_result.format));
+        additional.insert(
+            Cow::Borrowed("data_format"),
+            serde_json::json!(structured_result.format),
+        );
         for (key, value) in structured_result.metadata {
-            additional.insert(key, serde_json::json!(value));
+            additional.insert(Cow::Owned(key), serde_json::json!(value));
         }
         Ok(ExtractionResult {
             content: structured_result.content,
-            mime_type: mime_type.to_string(),
+            mime_type: mime_type.to_string().into(),
             metadata: Metadata {
                 additional,
                 ..Default::default()

data/vendor/kreuzberg/src/extractors/text.rs CHANGED Viewed

@@ -74,7 +74,7 @@ impl DocumentExtractor for PlainTextExtractor {
         Ok(ExtractionResult {
             content: text,
-            mime_type: mime_type.to_string(),
+            mime_type: mime_type.to_string().into(),
             metadata: crate::types::Metadata {
                 format: Some(crate::types::FormatMetadata::Text(crate::types::TextMetadata {
                     line_count,
@@ -169,7 +169,7 @@ impl DocumentExtractor for MarkdownExtractor {
         Ok(ExtractionResult {
             content: text_result.content,
-            mime_type: mime_type.to_string(),
+            mime_type: mime_type.to_string().into(),
             metadata: crate::types::Metadata {
                 format: Some(crate::types::FormatMetadata::Text(crate::types::TextMetadata {
                     line_count: text_result.line_count,

data/vendor/kreuzberg/src/extractors/typst.rs CHANGED Viewed

@@ -29,6 +29,8 @@ use crate::types::{ExtractionResult, Metadata};
 use async_trait::async_trait;
 #[cfg(feature = "office")]
 use regex::Regex;
+#[cfg(feature = "office")]
+use std::borrow::Cow;
 /// Typst document extractor
 #[cfg(feature = "office")]
@@ -106,7 +108,7 @@ impl DocumentExtractor for TypstExtractor {
         Ok(ExtractionResult {
             content: text,
-            mime_type: mime_type.to_string(),
+            mime_type: mime_type.to_string().into(),
             metadata,
             tables: Vec::new(),
             detected_languages: None,
@@ -151,11 +153,11 @@ impl TypstParser {
     fn extract_metadata(&mut self) {
         if let Some(title) = self.extract_quoted_value("title") {
-            self.metadata.additional.insert("title".to_string(), title.into());
+            self.metadata.additional.insert(Cow::Borrowed("title"), title.into());
         }
         if let Some(author) = self.extract_quoted_value("author") {
-            self.metadata.additional.insert("author".to_string(), author.into());
+            self.metadata.additional.insert(Cow::Borrowed("author"), author.into());
         }
         if let Some(date) = self.extract_quoted_value("date") {
@@ -163,11 +165,15 @@ impl TypstParser {
         }
         if let Some(subject) = self.extract_quoted_value("subject") {
-            self.metadata.additional.insert("subject".to_string(), subject.into());
+            self.metadata
+                .additional
+                .insert(Cow::Borrowed("subject"), subject.into());
         }
         if let Some(keywords) = self.extract_keywords() {
-            self.metadata.additional.insert("keywords".to_string(), keywords.into());
+            self.metadata
+                .additional
+                .insert(Cow::Borrowed("keywords"), keywords.into());
         }
     }

data/vendor/kreuzberg/src/extractors/xml.rs CHANGED Viewed

@@ -58,7 +58,7 @@ impl SyncExtractor for XmlExtractor {
         Ok(ExtractionResult {
             content: xml_result.content,
-            mime_type: mime_type.to_string(),
+            mime_type: mime_type.to_string().into(),
             metadata: crate::types::Metadata {
                 format: Some(crate::types::FormatMetadata::Xml(crate::types::XmlMetadata {
                     element_count: xml_result.element_count,