RubyGems - kreuzberg - Versions diffs - 4.2.6 → 4.2.7 - Mend

kreuzberg 4.2.6 → 4.2.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (139) hide show

checksums.yaml +4 -4
data/Gemfile.lock +7 -4
data/README.md +1 -1
data/ext/kreuzberg_rb/native/Cargo.lock +36 -9
data/ext/kreuzberg_rb/native/Cargo.toml +32 -0
data/ext/kreuzberg_rb/native/src/config/types.rs +4 -2
data/ext/kreuzberg_rb/native/src/plugins/ocr_backend.rs +1 -1
data/ext/kreuzberg_rb/native/src/plugins/post_processor.rs +1 -1
data/ext/kreuzberg_rb/native/src/result.rs +5 -3
data/lib/kreuzberg/version.rb +1 -1
data/sig/kreuzberg.rbs +228 -37
data/spec/binding/batch_operations_spec.rb +2 -0
data/vendor/Cargo.toml +3 -2
data/vendor/kreuzberg/Cargo.toml +2 -1
data/vendor/kreuzberg/README.md +1 -1
data/vendor/kreuzberg/src/api/error.rs +29 -1
data/vendor/kreuzberg/src/api/handlers.rs +28 -25
data/vendor/kreuzberg/src/api/openapi.rs +14 -1
data/vendor/kreuzberg/src/chunking/config.rs +2 -37
data/vendor/kreuzberg/src/chunking/core.rs +78 -2
data/vendor/kreuzberg/src/chunking/mod.rs +1 -1
data/vendor/kreuzberg/src/chunking/processor.rs +15 -17
data/vendor/kreuzberg/src/core/config/extraction/env.rs +13 -9
data/vendor/kreuzberg/src/core/config/extraction/loaders.rs +12 -12
data/vendor/kreuzberg/src/core/config/mod.rs +1 -1
data/vendor/kreuzberg/src/core/config/processing.rs +65 -8
data/vendor/kreuzberg/src/core/config_validation/mod.rs +8 -0
data/vendor/kreuzberg/src/core/config_validation/sections.rs +5 -0
data/vendor/kreuzberg/src/core/extractor/batch.rs +9 -9
data/vendor/kreuzberg/src/core/extractor/file.rs +4 -2
data/vendor/kreuzberg/src/core/extractor/legacy.rs +7 -7
data/vendor/kreuzberg/src/core/extractor/sync.rs +3 -3
data/vendor/kreuzberg/src/core/pipeline/execution.rs +2 -1
data/vendor/kreuzberg/src/core/pipeline/features.rs +16 -22
data/vendor/kreuzberg/src/core/pipeline/format.rs +20 -18
data/vendor/kreuzberg/src/core/pipeline/tests.rs +40 -35
data/vendor/kreuzberg/src/extraction/email.rs +31 -19
data/vendor/kreuzberg/src/extraction/excel.rs +6 -5
data/vendor/kreuzberg/src/extraction/html/image_handling.rs +6 -1
data/vendor/kreuzberg/src/extraction/html/types.rs +4 -3
data/vendor/kreuzberg/src/extraction/libreoffice.rs +10 -9
data/vendor/kreuzberg/src/extraction/pptx/image_handling.rs +10 -8
data/vendor/kreuzberg/src/extraction/pptx/mod.rs +8 -4
data/vendor/kreuzberg/src/extraction/structured.rs +5 -4
data/vendor/kreuzberg/src/extraction/transform/content.rs +1 -1
data/vendor/kreuzberg/src/extraction/transform/mod.rs +10 -7
data/vendor/kreuzberg/src/extractors/archive.rs +7 -5
data/vendor/kreuzberg/src/extractors/bibtex.rs +34 -17
data/vendor/kreuzberg/src/extractors/djot_format/attributes.rs +7 -10
data/vendor/kreuzberg/src/extractors/djot_format/conversion.rs +4 -2
data/vendor/kreuzberg/src/extractors/djot_format/extractor.rs +3 -2
data/vendor/kreuzberg/src/extractors/djot_format/parsing/block_handlers.rs +1 -1
data/vendor/kreuzberg/src/extractors/djot_format/parsing/content_extraction.rs +2 -4
data/vendor/kreuzberg/src/extractors/djot_format/parsing/event_handlers.rs +1 -1
data/vendor/kreuzberg/src/extractors/djot_format/parsing/inline_handlers.rs +4 -5
data/vendor/kreuzberg/src/extractors/djot_format/parsing/table_extraction.rs +1 -1
data/vendor/kreuzberg/src/extractors/docbook.rs +1 -1
data/vendor/kreuzberg/src/extractors/docx.rs +32 -24
data/vendor/kreuzberg/src/extractors/email.rs +5 -3
data/vendor/kreuzberg/src/extractors/epub/metadata.rs +10 -10
data/vendor/kreuzberg/src/extractors/epub/mod.rs +7 -3
data/vendor/kreuzberg/src/extractors/excel.rs +8 -6
data/vendor/kreuzberg/src/extractors/fictionbook.rs +1 -1
data/vendor/kreuzberg/src/extractors/frontmatter_utils.rs +15 -10
data/vendor/kreuzberg/src/extractors/html.rs +1 -1
data/vendor/kreuzberg/src/extractors/image.rs +3 -3
data/vendor/kreuzberg/src/extractors/jats/mod.rs +1 -1
data/vendor/kreuzberg/src/extractors/jupyter.rs +11 -9
data/vendor/kreuzberg/src/extractors/latex/metadata.rs +4 -3
data/vendor/kreuzberg/src/extractors/latex/mod.rs +1 -1
data/vendor/kreuzberg/src/extractors/markdown.rs +6 -4
data/vendor/kreuzberg/src/extractors/odt.rs +38 -21
data/vendor/kreuzberg/src/extractors/opml/core.rs +1 -1
data/vendor/kreuzberg/src/extractors/opml/parser.rs +13 -9
data/vendor/kreuzberg/src/extractors/orgmode.rs +11 -9
data/vendor/kreuzberg/src/extractors/pdf/mod.rs +10 -3
data/vendor/kreuzberg/src/extractors/pptx.rs +13 -11
data/vendor/kreuzberg/src/extractors/rst.rs +15 -13
data/vendor/kreuzberg/src/extractors/rtf/metadata.rs +22 -21
data/vendor/kreuzberg/src/extractors/rtf/mod.rs +1 -1
data/vendor/kreuzberg/src/extractors/structured.rs +10 -5
data/vendor/kreuzberg/src/extractors/text.rs +2 -2
data/vendor/kreuzberg/src/extractors/typst.rs +11 -5
data/vendor/kreuzberg/src/extractors/xml.rs +1 -1
data/vendor/kreuzberg/src/keywords/processor.rs +9 -8
data/vendor/kreuzberg/src/language_detection/processor.rs +6 -5
data/vendor/kreuzberg/src/lib.rs +1 -1
data/vendor/kreuzberg/src/mcp/errors.rs +7 -6
data/vendor/kreuzberg/src/mcp/format.rs +5 -4
data/vendor/kreuzberg/src/mcp/tools/extraction.rs +3 -2
data/vendor/kreuzberg/src/ocr/hocr.rs +4 -2
data/vendor/kreuzberg/src/ocr/processor/execution.rs +128 -14
data/vendor/kreuzberg/src/ocr/processor/validation.rs +129 -0
data/vendor/kreuzberg/src/ocr/tesseract_backend.rs +36 -6
data/vendor/kreuzberg/src/ocr/types.rs +3 -4
data/vendor/kreuzberg/src/ocr/validation.rs +14 -0
data/vendor/kreuzberg/src/pdf/metadata.rs +1 -0
data/vendor/kreuzberg/src/plugins/extractor/mod.rs +3 -2
data/vendor/kreuzberg/src/plugins/extractor/registry.rs +5 -4
data/vendor/kreuzberg/src/plugins/ocr.rs +5 -4
data/vendor/kreuzberg/src/plugins/processor/mod.rs +13 -12
data/vendor/kreuzberg/src/plugins/registry/extractor.rs +3 -2
data/vendor/kreuzberg/src/plugins/registry/ocr.rs +3 -2
data/vendor/kreuzberg/src/plugins/validator/mod.rs +15 -14
data/vendor/kreuzberg/src/text/quality.rs +13 -13
data/vendor/kreuzberg/src/text/quality_processor.rs +7 -6
data/vendor/kreuzberg/src/types/djot.rs +15 -4
data/vendor/kreuzberg/src/types/extraction.rs +24 -4
data/vendor/kreuzberg/src/types/formats.rs +9 -5
data/vendor/kreuzberg/src/types/metadata.rs +68 -7
data/vendor/kreuzberg/src/types/mod.rs +7 -5
data/vendor/kreuzberg/src/types/page.rs +9 -0
data/vendor/kreuzberg/src/types/tables.rs +2 -0
data/vendor/kreuzberg/tests/concurrency_stress.rs +2 -1
data/vendor/kreuzberg/tests/config_behavioral.rs +12 -16
data/vendor/kreuzberg/tests/config_features.rs +19 -11
data/vendor/kreuzberg/tests/config_loading_tests.rs +9 -9
data/vendor/kreuzberg/tests/contract_mcp.rs +2 -2
data/vendor/kreuzberg/tests/core_integration.rs +5 -6
data/vendor/kreuzberg/tests/opml_extractor_tests.rs +1 -1
data/vendor/kreuzberg/tests/orgmode_extractor_tests.rs +1 -1
data/vendor/kreuzberg/tests/pipeline_integration.rs +36 -32
data/vendor/kreuzberg/tests/plugin_ocr_backend_test.rs +19 -13
data/vendor/kreuzberg/tests/plugin_postprocessor_test.rs +3 -2
data/vendor/kreuzberg/tests/plugin_system.rs +7 -6
data/vendor/kreuzberg/tests/plugin_validator_test.rs +1 -1
data/vendor/kreuzberg/tests/registry_integration_tests.rs +2 -1
data/vendor/kreuzberg-ffi/Cargo.toml +2 -1
data/vendor/kreuzberg-ffi/benches/result_view_benchmark.rs +3 -2
data/vendor/kreuzberg-ffi/kreuzberg.h +32 -0
data/vendor/kreuzberg-ffi/src/error.rs +56 -0
data/vendor/kreuzberg-ffi/src/helpers.rs +6 -5
data/vendor/kreuzberg-ffi/src/plugins/ocr_backend.rs +1 -1
data/vendor/kreuzberg-ffi/src/result.rs +2 -1
data/vendor/kreuzberg-ffi/src/result_view.rs +3 -2
data/vendor/kreuzberg-ffi/src/string_intern.rs +3 -3
data/vendor/kreuzberg-ffi/tests.disabled/config_loading_tests.rs +2 -2
data/vendor/kreuzberg-tesseract/Cargo.toml +1 -1
metadata +2 -2

data/vendor/kreuzberg/src/api/handlers.rs CHANGED Viewed

@@ -1,14 +1,11 @@
 //! API request handlers.
-use axum::{
-    Json,
-    extract::{Multipart, State},
-};
+use axum::{Json, extract::State};
 use crate::{batch_extract_bytes, cache, extract_bytes};
 use super::{
-    error::{ApiError, JsonApi},
+    error::{ApiError, JsonApi, MultipartApi},
     types::{
         ApiState, CacheClearResponse, CacheStatsResponse, ChunkRequest, ChunkResponse, EmbedRequest, EmbedResponse,
         ExtractResponse, HealthResponse, InfoResponse,
@@ -84,19 +81,18 @@ pub async fn info_handler() -> Json<InfoResponse> {
 ///
 /// The server's default config (loaded from kreuzberg.toml/yaml/json via discovery)
 /// is used as the base, and any per-request config overrides those defaults.
-// TODO: Add utoipa::path annotation once ExtractionResult implements ToSchema
-// #[utoipa::path(
-//     post,
-//     path = "/extract",
-//     tag = "extraction",
-//     request_body(content_type = "multipart/form-data"),
-//     responses(
-//         (status = 200, description = "Extraction successful", body = ExtractResponse),
-//         (status = 400, description = "Bad request", body = crate::api::types::ErrorResponse),
-//         (status = 413, description = "Payload too large", body = crate::api::types::ErrorResponse),
-//         (status = 500, description = "Internal server error", body = crate::api::types::ErrorResponse),
-//     )
-// )]
+#[utoipa::path(
+    post,
+    path = "/extract",
+    tag = "extraction",
+    request_body(content_type = "multipart/form-data"),
+    responses(
+        (status = 200, description = "Extraction successful", body = ExtractResponse),
+        (status = 400, description = "Bad request", body = crate::api::types::ErrorResponse),
+        (status = 413, description = "Payload too large", body = crate::api::types::ErrorResponse),
+        (status = 500, description = "Internal server error", body = crate::api::types::ErrorResponse),
+    )
+)]
 #[cfg_attr(
     feature = "otel",
     tracing::instrument(
@@ -107,10 +103,10 @@ pub async fn info_handler() -> Json<InfoResponse> {
 )]
 pub async fn extract_handler(
     State(state): State<ApiState>,
-    mut multipart: Multipart,
+    MultipartApi(mut multipart): MultipartApi,
 ) -> Result<Json<ExtractResponse>, ApiError> {
     let mut files = Vec::new();
-    let mut config = (*state.default_config).clone();
+    let mut config: Option<crate::core::config::ExtractionConfig> = None;
     while let Some(field) = multipart
         .next_field()
@@ -138,12 +134,12 @@ pub async fn extract_handler(
                     .await
                     .map_err(|e| ApiError::validation(crate::error::KreuzbergError::validation(e.to_string())))?;
-                config = serde_json::from_str(&config_str).map_err(|e| {
+                config = Some(serde_json::from_str(&config_str).map_err(|e| {
                     ApiError::validation(crate::error::KreuzbergError::validation(format!(
                         "Invalid extraction configuration: {}",
                         e
                     )))
-                })?;
+                })?);
             }
             "output_format" => {
                 let format_str = field
@@ -151,7 +147,9 @@ pub async fn extract_handler(
                     .await
                     .map_err(|e| ApiError::validation(crate::error::KreuzbergError::validation(e.to_string())))?;
-                config.output_format = match format_str.to_lowercase().as_str() {
+                // Ensure config exists before modifying output_format
+                let cfg = config.get_or_insert_with(|| (*state.default_config).clone());
+                cfg.output_format = match format_str.to_lowercase().as_str() {
                     "plain" => crate::core::config::OutputFormat::Plain,
                     "markdown" => crate::core::config::OutputFormat::Markdown,
                     "djot" => crate::core::config::OutputFormat::Djot,
@@ -177,18 +175,21 @@ pub async fn extract_handler(
     #[cfg(feature = "otel")]
     tracing::Span::current().record("files_count", files.len());
+    // Use provided config or fall back to default from state
+    let final_config = config.as_ref().unwrap_or(&state.default_config);
     if files.len() == 1 {
         let (data, mime_type, _file_name) = files
             .into_iter()
             .next()
             .expect("files.len() == 1 guarantees one element exists");
-        let result = extract_bytes(&data, mime_type.as_str(), &config).await?;
+        let result = extract_bytes(&data, mime_type.as_str(), final_config).await?;
         return Ok(Json(vec![result]));
     }
     let files_data: Vec<(Vec<u8>, String)> = files.into_iter().map(|(data, mime, _name)| (data, mime)).collect();
-    let results = batch_extract_bytes(files_data, &config).await?;
+    let results = batch_extract_bytes(files_data, final_config).await?;
     Ok(Json(results))
 }
@@ -492,6 +493,8 @@ pub async fn chunk_handler(JsonApi(request): JsonApi<ChunkRequest>) -> Result<Js
         overlap,
         trim: cfg.trim.unwrap_or(true),
         chunker_type,
+        embedding: None,
+        preset: None,
     };
     // Perform chunking - convert any remaining errors to validation errors since they're likely config issues

data/vendor/kreuzberg/src/api/openapi.rs CHANGED Viewed

@@ -32,7 +32,7 @@ use utoipa::OpenApi;
     paths(
         crate::api::handlers::health_handler,
         crate::api::handlers::info_handler,
-        // Note: extract_handler omitted - requires ExtractionResult ToSchema impl
+        crate::api::handlers::extract_handler,
         crate::api::handlers::cache_stats_handler,
         crate::api::handlers::cache_clear_handler,
         crate::api::handlers::embed_handler,
@@ -53,6 +53,19 @@ use utoipa::OpenApi;
             crate::api::types::ChunkItem,
             crate::api::types::ChunkingConfigRequest,
             crate::api::types::ChunkingConfigResponse,
+            crate::types::extraction::ExtractionResult,
+            crate::types::extraction::Chunk,
+            crate::types::extraction::ChunkMetadata,
+            crate::types::extraction::ExtractedImage,
+            crate::types::extraction::Element,
+            crate::types::extraction::ElementMetadata,
+            crate::types::extraction::ElementId,
+            crate::types::extraction::ElementType,
+            crate::types::extraction::BoundingBox,
+            crate::types::metadata::Metadata,
+            crate::types::tables::Table,
+            crate::types::page::PageContent,
+            crate::types::djot::DjotContent,
         )
     ),
     tags(

data/vendor/kreuzberg/src/chunking/config.rs CHANGED Viewed

@@ -2,43 +2,8 @@
 use serde::{Deserialize, Serialize};
-/// Configuration options for text chunking operations.
-///
-/// # Fields
-///
-/// * `max_characters` - Maximum number of characters per chunk (default: 2000)
-/// * `overlap` - Number of characters to overlap between consecutive chunks (default: 100)
-/// * `trim` - Whether to trim whitespace from chunk boundaries (default: true)
-/// * `chunker_type` - Type of chunker to use (Text or Markdown) (default: Text)
-pub struct ChunkingConfig {
-    pub max_characters: usize,
-    pub overlap: usize,
-    pub trim: bool,
-    pub chunker_type: ChunkerType,
-}
-impl Default for ChunkingConfig {
-    fn default() -> Self {
-        Self {
-            max_characters: 2000,
-            overlap: 100,
-            trim: true,
-            chunker_type: ChunkerType::Text,
-        }
-    }
-}
-/// Type of text chunker to use.
-///
-/// # Variants
-///
-/// * `Text` - Generic text splitter, splits on whitespace and punctuation
-/// * `Markdown` - Markdown-aware splitter, preserves formatting and structure
-#[derive(Debug, Clone, Copy, PartialEq, Eq, Serialize, Deserialize)]
-pub enum ChunkerType {
-    Text,
-    Markdown,
-}
+// Re-export ChunkingConfig and ChunkerType from core config (canonical location)
+pub use crate::core::config::processing::{ChunkerType, ChunkingConfig};
 /// Result of a text chunking operation.
 ///

data/vendor/kreuzberg/src/chunking/core.rs CHANGED Viewed

@@ -118,6 +118,8 @@ pub fn chunk_text_with_type(
         overlap,
         trim,
         chunker_type,
+        embedding: None,
+        preset: None,
     };
     chunk_text(text, &config, None)
 }
@@ -177,6 +179,8 @@ mod tests {
             overlap: 10,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "This is a short text.";
         let result = chunk_text(text, &config, None).unwrap();
@@ -192,6 +196,8 @@ mod tests {
             overlap: 5,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ";
         let result = chunk_text(text, &config, None).unwrap();
@@ -207,6 +213,8 @@ mod tests {
             overlap: 5,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "abcdefghijklmnopqrstuvwxyz0123456789";
         let result = chunk_text(text, &config, None).unwrap();
@@ -230,6 +238,8 @@ mod tests {
             overlap: 10,
             trim: true,
             chunker_type: ChunkerType::Markdown,
+            embedding: None,
+            preset: None,
         };
         let markdown = "# Title\n\nParagraph one.\n\n## Section\n\nParagraph two.";
         let result = chunk_text(markdown, &config, None).unwrap();
@@ -244,6 +254,8 @@ mod tests {
             overlap: 10,
             trim: true,
             chunker_type: ChunkerType::Markdown,
+            embedding: None,
+            preset: None,
         };
         let markdown = "# Code Example\n\n```python\nprint('hello')\n```\n\nSome text after code.";
         let result = chunk_text(markdown, &config, None).unwrap();
@@ -258,6 +270,8 @@ mod tests {
             overlap: 10,
             trim: true,
             chunker_type: ChunkerType::Markdown,
+            embedding: None,
+            preset: None,
         };
         let markdown = "Check out [this link](https://example.com) for more info.";
         let result = chunk_text(markdown, &config, None).unwrap();
@@ -272,6 +286,8 @@ mod tests {
             overlap: 5,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "  Leading and trailing spaces  should be trimmed  ";
         let result = chunk_text(text, &config, None).unwrap();
@@ -286,6 +302,8 @@ mod tests {
             overlap: 5,
             trim: false,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "  Text with spaces  ";
         let result = chunk_text(text, &config, None).unwrap();
@@ -300,6 +318,8 @@ mod tests {
             overlap: 20,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let result = chunk_text("Some text", &config, None);
         assert!(result.is_err());
@@ -337,6 +357,8 @@ mod tests {
             overlap: 5,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let texts = vec!["First text", "Second text", "Third text"];
         let results = chunk_texts_batch(&texts, &config).unwrap();
@@ -351,6 +373,8 @@ mod tests {
             overlap: 5,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let texts = vec![
             "Short",
@@ -371,6 +395,8 @@ mod tests {
             overlap: 20,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let texts = vec!["Text one", "Text two"];
         let result = chunk_texts_batch(&texts, &config);
@@ -380,8 +406,8 @@ mod tests {
     #[test]
     fn test_chunking_config_default() {
         let config = ChunkingConfig::default();
-        assert_eq!(config.max_characters, 2000);
-        assert_eq!(config.overlap, 100);
+        assert_eq!(config.max_characters, 1000);
+        assert_eq!(config.overlap, 200);
         assert!(config.trim);
         assert_eq!(config.chunker_type, ChunkerType::Text);
     }
@@ -393,6 +419,8 @@ mod tests {
             overlap: 20,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "a".repeat(1000);
         let result = chunk_text(&text, &config, None).unwrap();
@@ -407,6 +435,8 @@ mod tests {
             overlap: 5,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "Line one\nLine two\nLine three\nLine four\nLine five";
         let result = chunk_text(text, &config, None).unwrap();
@@ -420,6 +450,8 @@ mod tests {
             overlap: 10,
             trim: true,
             chunker_type: ChunkerType::Markdown,
+            embedding: None,
+            preset: None,
         };
         let markdown = "# List Example\n\n- Item 1\n- Item 2\n- Item 3\n\nMore text.";
         let result = chunk_text(markdown, &config, None).unwrap();
@@ -434,6 +466,8 @@ mod tests {
             overlap: 10,
             trim: true,
             chunker_type: ChunkerType::Markdown,
+            embedding: None,
+            preset: None,
         };
         let markdown = "# Table\n\n| Col1 | Col2 |\n|------|------|\n| A    | B    |\n| C    | D    |";
         let result = chunk_text(markdown, &config, None).unwrap();
@@ -448,6 +482,8 @@ mod tests {
             overlap: 5,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "Special chars: @#$%^&*()[]{}|\\<>?/~`";
         let result = chunk_text(text, &config, None).unwrap();
@@ -462,6 +498,8 @@ mod tests {
             overlap: 5,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "Unicode: 你好世界 🌍 café résumé";
         let result = chunk_text(text, &config, None).unwrap();
@@ -477,6 +515,8 @@ mod tests {
             overlap: 5,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "日本語のテキストです。これは長い文章で、複数のチャンクに分割されるべきです。";
         let result = chunk_text(text, &config, None).unwrap();
@@ -490,6 +530,8 @@ mod tests {
             overlap: 5,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "English text mixed with 中文文本 and some français";
         let result = chunk_text(text, &config, None).unwrap();
@@ -503,6 +545,8 @@ mod tests {
             overlap: 5,
             trim: false,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "AAAAA BBBBB CCCCC DDDDD EEEEE FFFFF";
         let result = chunk_text(text, &config, None).unwrap();
@@ -555,6 +599,8 @@ mod tests {
             overlap: 0,
             trim: false,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "AAAAA BBBBB CCCCC DDDDD EEEEE FFFFF";
         let result = chunk_text(text, &config, None).unwrap();
@@ -581,6 +627,8 @@ mod tests {
             overlap: 3,
             trim: false,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "0123456789 ABCDEFGHIJ KLMNOPQRST UVWXYZ";
         let result = chunk_text(text, &config, None).unwrap();
@@ -615,6 +663,8 @@ mod tests {
                 overlap,
                 trim: false,
                 chunker_type: ChunkerType::Text,
+                embedding: None,
+                preset: None,
             };
             let text = "Word ".repeat(30);
             let result = chunk_text(&text, &config, None).unwrap();
@@ -647,6 +697,8 @@ mod tests {
             overlap: 5,
             trim: false,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "AAAAA BBBBB CCCCC DDDDD EEEEE";
         let result = chunk_text(text, &config, None).unwrap();
@@ -674,6 +726,8 @@ mod tests {
             overlap: 5,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "Page one content here. Page two starts here and continues.";
@@ -706,6 +760,8 @@ mod tests {
             overlap: 5,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "This is some test content that should be split into multiple chunks.";
@@ -725,6 +781,8 @@ mod tests {
             overlap: 5,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "Some text content here.";
         let boundaries: Vec<PageBoundary> = vec![];
@@ -743,6 +801,8 @@ mod tests {
             overlap: 5,
             trim: false,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "0123456789 AAAAAAAAAA 1111111111 BBBBBBBBBB 2222222222";
@@ -779,6 +839,8 @@ mod tests {
             overlap: 5,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "Page one content here. Page two content.";
@@ -802,6 +864,8 @@ mod tests {
             overlap: 5,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "Page one content here. Page two content.";
@@ -832,6 +896,8 @@ mod tests {
             overlap: 5,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "Page one content here. Page two content.";
@@ -862,6 +928,8 @@ mod tests {
             overlap: 5,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "First page content here.Second page content here.Third page.";
@@ -897,6 +965,8 @@ mod tests {
             overlap: 10,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "All content on single page fits in one chunk.";
@@ -919,6 +989,8 @@ mod tests {
             overlap: 0,
             trim: false,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "AAAAA BBBBB CCCCC DDDDD";
@@ -952,6 +1024,8 @@ mod tests {
             overlap: 5,
             trim: true,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "Page One Content Here.Page Two.";
@@ -982,6 +1056,8 @@ mod tests {
             overlap: 2,
             trim: false,
             chunker_type: ChunkerType::Text,
+            embedding: None,
+            preset: None,
         };
         let text = "0123456789ABCDEFGHIJ";

data/vendor/kreuzberg/src/chunking/mod.rs CHANGED Viewed

@@ -60,7 +60,7 @@ pub mod validation;
 // Re-export submodule types and functions
 pub use boundaries::{calculate_page_range, validate_page_boundaries};
-pub use config::{ChunkerType, ChunkingConfig, ChunkingResult};
+pub use config::{ChunkerType, ChunkingConfig, ChunkingResult}; // ChunkingConfig re-exported from core::config::processing
 pub use core::{chunk_text, chunk_text_with_type, chunk_texts_batch};
 pub use processor::ChunkingProcessor;
 pub use validation::{ADAPTIVE_VALIDATION_THRESHOLD, precompute_utf8_boundaries, validate_utf8_boundaries};

data/vendor/kreuzberg/src/chunking/processor.rs CHANGED Viewed

@@ -54,14 +54,7 @@ impl PostProcessor for ChunkingProcessor {
             None => return Ok(()),
         };
-        let chunk_config = crate::chunking::ChunkingConfig {
-            max_characters: chunking_config.max_chars,
-            overlap: chunking_config.max_overlap,
-            trim: true,
-            chunker_type: crate::chunking::ChunkerType::Text,
-        };
-        let chunking_result = crate::chunking::chunk_text(&result.content, &chunk_config, None)
+        let chunking_result = crate::chunking::chunk_text(&result.content, chunking_config, None)
             .map_err(|e| KreuzbergError::Other(format!("Chunking failed: {}", e)))?;
         result.chunks = Some(chunking_result.chunks);
@@ -87,14 +80,17 @@ mod tests {
     use super::*;
     use crate::core::config::ChunkingConfig;
     use crate::types::Metadata;
+    use std::borrow::Cow;
     #[tokio::test]
     async fn test_chunking_processor() {
         let processor = ChunkingProcessor;
         let config = ExtractionConfig {
             chunking: Some(ChunkingConfig {
-                max_chars: 100,
-                max_overlap: 10,
+                max_characters: 100,
+                overlap: 10,
+                trim: true,
+                chunker_type: crate::chunking::ChunkerType::Text,
                 embedding: None,
                 preset: None,
             }),
@@ -103,7 +99,7 @@ mod tests {
         let mut result = ExtractionResult {
 	            content: "This is a longer text that should be split into multiple chunks to test the chunking processor functionality.".to_string(),
-	            mime_type: "text/plain".to_string(),
+	            mime_type: Cow::Borrowed("text/plain"),
 	            metadata: Metadata::default(),
 	            tables: vec![],
 	            detected_languages: None,
@@ -128,7 +124,7 @@ mod tests {
         let mut result = ExtractionResult {
             content: "Some text".to_string(),
-            mime_type: "text/plain".to_string(),
+            mime_type: Cow::Borrowed("text/plain"),
             metadata: Metadata::default(),
             tables: vec![],
             detected_languages: None,
@@ -165,7 +161,7 @@ mod tests {
         let result = ExtractionResult {
             content: "Sample text".to_string(),
-            mime_type: "text/plain".to_string(),
+            mime_type: Cow::Borrowed("text/plain"),
             metadata: Metadata::default(),
             tables: vec![],
             detected_languages: None,
@@ -178,8 +174,10 @@ mod tests {
         let config_with_chunking = ExtractionConfig {
             chunking: Some(crate::core::config::ChunkingConfig {
-                max_chars: 100,
-                max_overlap: 10,
+                max_characters: 100,
+                overlap: 10,
+                trim: true,
+                chunker_type: crate::chunking::ChunkerType::Text,
                 embedding: None,
                 preset: None,
             }),
@@ -197,7 +195,7 @@ mod tests {
         let short_result = ExtractionResult {
             content: "Short".to_string(),
-            mime_type: "text/plain".to_string(),
+            mime_type: Cow::Borrowed("text/plain"),
             metadata: Metadata::default(),
             tables: vec![],
             detected_languages: None,
@@ -210,7 +208,7 @@ mod tests {
         let long_result = ExtractionResult {
             content: "a".repeat(100000),
-            mime_type: "text/plain".to_string(),
+            mime_type: Cow::Borrowed("text/plain"),
             metadata: Metadata::default(),
             tables: vec![],
             detected_languages: None,

data/vendor/kreuzberg/src/core/config/extraction/env.rs CHANGED Viewed

@@ -94,8 +94,10 @@ impl ExtractionConfig {
             if self.chunking.is_none() {
                 self.chunking = Some(ChunkingConfig {
-                    max_chars: 1000,
-                    max_overlap: 200,
+                    max_characters: 1000,
+                    overlap: 200,
+                    trim: true,
+                    chunker_type: super::super::processing::ChunkerType::Text,
                     embedding: None,
                     preset: None,
                 });
@@ -103,8 +105,8 @@ impl ExtractionConfig {
             if let Some(ref mut chunking) = self.chunking {
                 // Validate against current overlap before updating
-                validate_chunking_params(max_chars, chunking.max_overlap)?;
-                chunking.max_chars = max_chars;
+                validate_chunking_params(max_chars, chunking.overlap)?;
+                chunking.max_characters = max_chars;
             }
         }
@@ -120,17 +122,19 @@ impl ExtractionConfig {
             if self.chunking.is_none() {
                 self.chunking = Some(ChunkingConfig {
-                    max_chars: 1000,
-                    max_overlap: 200,
+                    max_characters: 1000,
+                    overlap: 200,
+                    trim: true,
+                    chunker_type: super::super::processing::ChunkerType::Text,
                     embedding: None,
                     preset: None,
                 });
             }
             if let Some(ref mut chunking) = self.chunking {
-                // Validate against current max_chars before updating
-                validate_chunking_params(chunking.max_chars, max_overlap)?;
-                chunking.max_overlap = max_overlap;
+                // Validate against current max_characters before updating
+                validate_chunking_params(chunking.max_characters, max_overlap)?;
+                chunking.overlap = max_overlap;
             }
         }