RubyGems - kreuzberg - Versions diffs - 4.0.0.pre.rc.29 → 4.0.0.rc1 - Mend

kreuzberg 4.0.0.pre.rc.29 → 4.0.0.rc1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (321) hide show

checksums.yaml +4 -4
data/.gitignore +0 -6
data/.rubocop.yaml +534 -1
data/Gemfile +2 -1
data/Gemfile.lock +28 -116
data/README.md +269 -629
data/Rakefile +0 -9
data/Steepfile +4 -8
data/examples/async_patterns.rb +58 -1
data/ext/kreuzberg_rb/extconf.rb +5 -35
data/ext/kreuzberg_rb/native/Cargo.toml +16 -55
data/ext/kreuzberg_rb/native/build.rs +14 -12
data/ext/kreuzberg_rb/native/include/ieeefp.h +1 -1
data/ext/kreuzberg_rb/native/include/msvc_compat/strings.h +1 -1
data/ext/kreuzberg_rb/native/include/strings.h +2 -2
data/ext/kreuzberg_rb/native/include/unistd.h +1 -1
data/ext/kreuzberg_rb/native/src/lib.rs +34 -897
data/extconf.rb +6 -38
data/kreuzberg.gemspec +20 -114
data/lib/kreuzberg/api_proxy.rb +18 -2
data/lib/kreuzberg/cache_api.rb +0 -22
data/lib/kreuzberg/cli.rb +10 -2
data/lib/kreuzberg/cli_proxy.rb +10 -0
data/lib/kreuzberg/config.rb +22 -274
data/lib/kreuzberg/errors.rb +7 -73
data/lib/kreuzberg/extraction_api.rb +8 -237
data/lib/kreuzberg/mcp_proxy.rb +11 -2
data/lib/kreuzberg/ocr_backend_protocol.rb +73 -0
data/lib/kreuzberg/post_processor_protocol.rb +71 -0
data/lib/kreuzberg/result.rb +33 -151
data/lib/kreuzberg/setup_lib_path.rb +2 -22
data/lib/kreuzberg/validator_protocol.rb +73 -0
data/lib/kreuzberg/version.rb +1 -1
data/lib/kreuzberg.rb +13 -27
data/pkg/kreuzberg-4.0.0.rc1.gem +0 -0
data/sig/kreuzberg.rbs +12 -105
data/spec/binding/cache_spec.rb +22 -22
data/spec/binding/cli_proxy_spec.rb +4 -2
data/spec/binding/cli_spec.rb +11 -12
data/spec/binding/config_spec.rb +0 -74
data/spec/binding/config_validation_spec.rb +6 -100
data/spec/binding/error_handling_spec.rb +97 -283
data/spec/binding/plugins/ocr_backend_spec.rb +8 -8
data/spec/binding/plugins/postprocessor_spec.rb +11 -11
data/spec/binding/plugins/validator_spec.rb +13 -12
data/spec/examples.txt +104 -0
data/spec/fixtures/config.toml +1 -0
data/spec/fixtures/config.yaml +1 -0
data/spec/fixtures/invalid_config.toml +1 -0
data/spec/smoke/package_spec.rb +3 -2
data/spec/spec_helper.rb +3 -1
data/vendor/kreuzberg/Cargo.toml +67 -192
data/vendor/kreuzberg/README.md +9 -97
data/vendor/kreuzberg/build.rs +194 -516
data/vendor/kreuzberg/src/api/handlers.rs +9 -130
data/vendor/kreuzberg/src/api/mod.rs +3 -18
data/vendor/kreuzberg/src/api/server.rs +71 -236
data/vendor/kreuzberg/src/api/types.rs +7 -43
data/vendor/kreuzberg/src/bin/profile_extract.rs +455 -0
data/vendor/kreuzberg/src/cache/mod.rs +3 -27
data/vendor/kreuzberg/src/chunking/mod.rs +79 -1705
data/vendor/kreuzberg/src/core/batch_mode.rs +0 -60
data/vendor/kreuzberg/src/core/config.rs +23 -905
data/vendor/kreuzberg/src/core/extractor.rs +106 -403
data/vendor/kreuzberg/src/core/io.rs +2 -4
data/vendor/kreuzberg/src/core/mime.rs +12 -2
data/vendor/kreuzberg/src/core/mod.rs +3 -22
data/vendor/kreuzberg/src/core/pipeline.rs +78 -395
data/vendor/kreuzberg/src/embeddings.rs +21 -169
data/vendor/kreuzberg/src/error.rs +2 -2
data/vendor/kreuzberg/src/extraction/archive.rs +31 -36
data/vendor/kreuzberg/src/extraction/docx.rs +1 -365
data/vendor/kreuzberg/src/extraction/email.rs +11 -12
data/vendor/kreuzberg/src/extraction/excel.rs +129 -138
data/vendor/kreuzberg/src/extraction/html.rs +170 -1447
data/vendor/kreuzberg/src/extraction/image.rs +14 -138
data/vendor/kreuzberg/src/extraction/libreoffice.rs +3 -13
data/vendor/kreuzberg/src/extraction/mod.rs +5 -21
data/vendor/kreuzberg/src/extraction/office_metadata/mod.rs +0 -2
data/vendor/kreuzberg/src/extraction/pandoc/batch.rs +275 -0
data/vendor/kreuzberg/src/extraction/pandoc/mime_types.rs +178 -0
data/vendor/kreuzberg/src/extraction/pandoc/mod.rs +491 -0
data/vendor/kreuzberg/src/extraction/pandoc/server.rs +496 -0
data/vendor/kreuzberg/src/extraction/pandoc/subprocess.rs +1188 -0
data/vendor/kreuzberg/src/extraction/pandoc/version.rs +162 -0
data/vendor/kreuzberg/src/extraction/pptx.rs +94 -196
data/vendor/kreuzberg/src/extraction/structured.rs +4 -5
data/vendor/kreuzberg/src/extraction/table.rs +1 -2
data/vendor/kreuzberg/src/extraction/text.rs +10 -18
data/vendor/kreuzberg/src/extractors/archive.rs +0 -22
data/vendor/kreuzberg/src/extractors/docx.rs +148 -69
data/vendor/kreuzberg/src/extractors/email.rs +9 -37
data/vendor/kreuzberg/src/extractors/excel.rs +40 -81
data/vendor/kreuzberg/src/extractors/html.rs +173 -182
data/vendor/kreuzberg/src/extractors/image.rs +8 -32
data/vendor/kreuzberg/src/extractors/mod.rs +10 -171
data/vendor/kreuzberg/src/extractors/pandoc.rs +201 -0
data/vendor/kreuzberg/src/extractors/pdf.rs +64 -329
data/vendor/kreuzberg/src/extractors/pptx.rs +34 -79
data/vendor/kreuzberg/src/extractors/structured.rs +0 -16
data/vendor/kreuzberg/src/extractors/text.rs +7 -30
data/vendor/kreuzberg/src/extractors/xml.rs +8 -27
data/vendor/kreuzberg/src/keywords/processor.rs +1 -9
data/vendor/kreuzberg/src/keywords/rake.rs +1 -0
data/vendor/kreuzberg/src/language_detection/mod.rs +51 -94
data/vendor/kreuzberg/src/lib.rs +5 -17
data/vendor/kreuzberg/src/mcp/mod.rs +1 -4
data/vendor/kreuzberg/src/mcp/server.rs +21 -145
data/vendor/kreuzberg/src/ocr/mod.rs +0 -2
data/vendor/kreuzberg/src/ocr/processor.rs +8 -19
data/vendor/kreuzberg/src/ocr/tesseract_backend.rs +0 -2
data/vendor/kreuzberg/src/pdf/error.rs +1 -93
data/vendor/kreuzberg/src/pdf/metadata.rs +100 -263
data/vendor/kreuzberg/src/pdf/mod.rs +2 -33
data/vendor/kreuzberg/src/pdf/rendering.rs +12 -12
data/vendor/kreuzberg/src/pdf/table.rs +64 -61
data/vendor/kreuzberg/src/pdf/text.rs +24 -416
data/vendor/kreuzberg/src/plugins/extractor.rs +8 -40
data/vendor/kreuzberg/src/plugins/mod.rs +0 -3
data/vendor/kreuzberg/src/plugins/ocr.rs +14 -22
data/vendor/kreuzberg/src/plugins/processor.rs +1 -10
data/vendor/kreuzberg/src/plugins/registry.rs +0 -15
data/vendor/kreuzberg/src/plugins/validator.rs +8 -20
data/vendor/kreuzberg/src/stopwords/mod.rs +2 -2
data/vendor/kreuzberg/src/text/mod.rs +0 -8
data/vendor/kreuzberg/src/text/quality.rs +15 -28
data/vendor/kreuzberg/src/text/string_utils.rs +10 -22
data/vendor/kreuzberg/src/text/token_reduction/core.rs +50 -86
data/vendor/kreuzberg/src/text/token_reduction/filters.rs +16 -37
data/vendor/kreuzberg/src/text/token_reduction/simd_text.rs +1 -2
data/vendor/kreuzberg/src/types.rs +67 -907
data/vendor/kreuzberg/src/utils/mod.rs +0 -14
data/vendor/kreuzberg/src/utils/quality.rs +3 -12
data/vendor/kreuzberg/tests/api_tests.rs +0 -506
data/vendor/kreuzberg/tests/archive_integration.rs +0 -2
data/vendor/kreuzberg/tests/batch_orchestration.rs +12 -57
data/vendor/kreuzberg/tests/batch_processing.rs +8 -32
data/vendor/kreuzberg/tests/chunking_offset_demo.rs +92 -0
data/vendor/kreuzberg/tests/concurrency_stress.rs +8 -40
data/vendor/kreuzberg/tests/config_features.rs +1 -33
data/vendor/kreuzberg/tests/config_loading_tests.rs +39 -16
data/vendor/kreuzberg/tests/core_integration.rs +9 -35
data/vendor/kreuzberg/tests/csv_integration.rs +81 -71
data/vendor/kreuzberg/tests/docx_metadata_extraction_test.rs +25 -23
data/vendor/kreuzberg/tests/email_integration.rs +1 -3
data/vendor/kreuzberg/tests/error_handling.rs +34 -43
data/vendor/kreuzberg/tests/format_integration.rs +1 -7
data/vendor/kreuzberg/tests/helpers/mod.rs +0 -60
data/vendor/kreuzberg/tests/image_integration.rs +0 -2
data/vendor/kreuzberg/tests/mime_detection.rs +16 -17
data/vendor/kreuzberg/tests/ocr_configuration.rs +0 -4
data/vendor/kreuzberg/tests/ocr_errors.rs +0 -22
data/vendor/kreuzberg/tests/ocr_quality.rs +0 -2
data/vendor/kreuzberg/tests/pandoc_integration.rs +503 -0
data/vendor/kreuzberg/tests/pdf_integration.rs +0 -2
data/vendor/kreuzberg/tests/pipeline_integration.rs +2 -36
data/vendor/kreuzberg/tests/plugin_ocr_backend_test.rs +0 -5
data/vendor/kreuzberg/tests/plugin_postprocessor_test.rs +1 -17
data/vendor/kreuzberg/tests/plugin_system.rs +0 -6
data/vendor/kreuzberg/tests/registry_integration_tests.rs +22 -2
data/vendor/kreuzberg/tests/security_validation.rs +1 -13
data/vendor/kreuzberg/tests/test_fastembed.rs +23 -45
metadata +25 -171
data/.rubocop.yml +0 -543
data/ext/kreuzberg_rb/native/.cargo/config.toml +0 -23
data/ext/kreuzberg_rb/native/Cargo.lock +0 -7619
data/lib/kreuzberg/error_context.rb +0 -136
data/lib/kreuzberg/types.rb +0 -170
data/lib/libpdfium.so +0 -0
data/spec/binding/async_operations_spec.rb +0 -473
data/spec/binding/batch_operations_spec.rb +0 -595
data/spec/binding/batch_spec.rb +0 -359
data/spec/binding/config_result_spec.rb +0 -377
data/spec/binding/embeddings_spec.rb +0 -816
data/spec/binding/error_recovery_spec.rb +0 -488
data/spec/binding/font_config_spec.rb +0 -220
data/spec/binding/images_spec.rb +0 -738
data/spec/binding/keywords_extraction_spec.rb +0 -600
data/spec/binding/metadata_types_spec.rb +0 -1228
data/spec/binding/pages_extraction_spec.rb +0 -471
data/spec/binding/tables_spec.rb +0 -641
data/spec/unit/config/chunking_config_spec.rb +0 -213
data/spec/unit/config/embedding_config_spec.rb +0 -343
data/spec/unit/config/extraction_config_spec.rb +0 -438
data/spec/unit/config/font_config_spec.rb +0 -285
data/spec/unit/config/hierarchy_config_spec.rb +0 -314
data/spec/unit/config/image_extraction_config_spec.rb +0 -209
data/spec/unit/config/image_preprocessing_config_spec.rb +0 -249
data/spec/unit/config/keyword_config_spec.rb +0 -229
data/spec/unit/config/language_detection_config_spec.rb +0 -258
data/spec/unit/config/ocr_config_spec.rb +0 -171
data/spec/unit/config/page_config_spec.rb +0 -221
data/spec/unit/config/pdf_config_spec.rb +0 -267
data/spec/unit/config/postprocessor_config_spec.rb +0 -290
data/spec/unit/config/tesseract_config_spec.rb +0 -181
data/spec/unit/config/token_reduction_config_spec.rb +0 -251
data/test/metadata_types_test.rb +0 -959
data/vendor/Cargo.toml +0 -61
data/vendor/kreuzberg/examples/bench_fixes.rs +0 -71
data/vendor/kreuzberg/examples/test_pdfium_fork.rs +0 -62
data/vendor/kreuzberg/src/chunking/processor.rs +0 -219
data/vendor/kreuzberg/src/core/batch_optimizations.rs +0 -385
data/vendor/kreuzberg/src/core/config_validation.rs +0 -949
data/vendor/kreuzberg/src/core/formats.rs +0 -235
data/vendor/kreuzberg/src/core/server_config.rs +0 -1220
data/vendor/kreuzberg/src/extraction/capacity.rs +0 -263
data/vendor/kreuzberg/src/extraction/markdown.rs +0 -216
data/vendor/kreuzberg/src/extraction/office_metadata/odt_properties.rs +0 -284
data/vendor/kreuzberg/src/extractors/bibtex.rs +0 -470
data/vendor/kreuzberg/src/extractors/docbook.rs +0 -504
data/vendor/kreuzberg/src/extractors/epub.rs +0 -696
data/vendor/kreuzberg/src/extractors/fictionbook.rs +0 -492
data/vendor/kreuzberg/src/extractors/jats.rs +0 -1054
data/vendor/kreuzberg/src/extractors/jupyter.rs +0 -368
data/vendor/kreuzberg/src/extractors/latex.rs +0 -653
data/vendor/kreuzberg/src/extractors/markdown.rs +0 -701
data/vendor/kreuzberg/src/extractors/odt.rs +0 -628
data/vendor/kreuzberg/src/extractors/opml.rs +0 -635
data/vendor/kreuzberg/src/extractors/orgmode.rs +0 -529
data/vendor/kreuzberg/src/extractors/rst.rs +0 -577
data/vendor/kreuzberg/src/extractors/rtf.rs +0 -809
data/vendor/kreuzberg/src/extractors/security.rs +0 -484
data/vendor/kreuzberg/src/extractors/security_tests.rs +0 -367
data/vendor/kreuzberg/src/extractors/typst.rs +0 -651
data/vendor/kreuzberg/src/language_detection/processor.rs +0 -218
data/vendor/kreuzberg/src/ocr/language_registry.rs +0 -520
data/vendor/kreuzberg/src/panic_context.rs +0 -154
data/vendor/kreuzberg/src/pdf/bindings.rs +0 -306
data/vendor/kreuzberg/src/pdf/bundled.rs +0 -408
data/vendor/kreuzberg/src/pdf/fonts.rs +0 -358
data/vendor/kreuzberg/src/pdf/hierarchy.rs +0 -903
data/vendor/kreuzberg/src/text/quality_processor.rs +0 -231
data/vendor/kreuzberg/src/text/utf8_validation.rs +0 -193
data/vendor/kreuzberg/src/utils/pool.rs +0 -503
data/vendor/kreuzberg/src/utils/pool_sizing.rs +0 -364
data/vendor/kreuzberg/src/utils/string_pool.rs +0 -761
data/vendor/kreuzberg/tests/api_embed.rs +0 -360
data/vendor/kreuzberg/tests/api_extract_multipart.rs +0 -52
data/vendor/kreuzberg/tests/api_large_pdf_extraction.rs +0 -471
data/vendor/kreuzberg/tests/api_large_pdf_extraction_diagnostics.rs +0 -289
data/vendor/kreuzberg/tests/batch_pooling_benchmark.rs +0 -154
data/vendor/kreuzberg/tests/bibtex_parity_test.rs +0 -421
data/vendor/kreuzberg/tests/config_integration_test.rs +0 -753
data/vendor/kreuzberg/tests/data/hierarchy_ground_truth.json +0 -294
data/vendor/kreuzberg/tests/docbook_extractor_tests.rs +0 -500
data/vendor/kreuzberg/tests/docx_vs_pandoc_comparison.rs +0 -370
data/vendor/kreuzberg/tests/epub_native_extractor_tests.rs +0 -275
data/vendor/kreuzberg/tests/fictionbook_extractor_tests.rs +0 -228
data/vendor/kreuzberg/tests/html_table_test.rs +0 -551
data/vendor/kreuzberg/tests/instrumentation_test.rs +0 -139
data/vendor/kreuzberg/tests/jats_extractor_tests.rs +0 -639
data/vendor/kreuzberg/tests/jupyter_extractor_tests.rs +0 -704
data/vendor/kreuzberg/tests/latex_extractor_tests.rs +0 -496
data/vendor/kreuzberg/tests/markdown_extractor_tests.rs +0 -490
data/vendor/kreuzberg/tests/ocr_language_registry.rs +0 -191
data/vendor/kreuzberg/tests/odt_extractor_tests.rs +0 -674
data/vendor/kreuzberg/tests/opml_extractor_tests.rs +0 -616
data/vendor/kreuzberg/tests/orgmode_extractor_tests.rs +0 -822
data/vendor/kreuzberg/tests/page_markers.rs +0 -297
data/vendor/kreuzberg/tests/pdf_hierarchy_detection.rs +0 -301
data/vendor/kreuzberg/tests/pdf_hierarchy_quality.rs +0 -589
data/vendor/kreuzberg/tests/pdf_ocr_triggering.rs +0 -301
data/vendor/kreuzberg/tests/pdf_text_merging.rs +0 -475
data/vendor/kreuzberg/tests/pdfium_linking.rs +0 -340
data/vendor/kreuzberg/tests/rst_extractor_tests.rs +0 -694
data/vendor/kreuzberg/tests/rtf_extractor_tests.rs +0 -775
data/vendor/kreuzberg/tests/typst_behavioral_tests.rs +0 -1260
data/vendor/kreuzberg/tests/typst_extractor_tests.rs +0 -648
data/vendor/kreuzberg-ffi/Cargo.toml +0 -67
data/vendor/kreuzberg-ffi/README.md +0 -851
data/vendor/kreuzberg-ffi/benches/result_view_benchmark.rs +0 -227
data/vendor/kreuzberg-ffi/build.rs +0 -168
data/vendor/kreuzberg-ffi/cbindgen.toml +0 -37
data/vendor/kreuzberg-ffi/kreuzberg-ffi.pc.in +0 -12
data/vendor/kreuzberg-ffi/kreuzberg.h +0 -3012
data/vendor/kreuzberg-ffi/src/batch_streaming.rs +0 -588
data/vendor/kreuzberg-ffi/src/config.rs +0 -1341
data/vendor/kreuzberg-ffi/src/error.rs +0 -901
data/vendor/kreuzberg-ffi/src/extraction.rs +0 -555
data/vendor/kreuzberg-ffi/src/helpers.rs +0 -879
data/vendor/kreuzberg-ffi/src/lib.rs +0 -977
data/vendor/kreuzberg-ffi/src/memory.rs +0 -493
data/vendor/kreuzberg-ffi/src/mime.rs +0 -329
data/vendor/kreuzberg-ffi/src/panic_shield.rs +0 -265
data/vendor/kreuzberg-ffi/src/plugins/document_extractor.rs +0 -442
data/vendor/kreuzberg-ffi/src/plugins/mod.rs +0 -14
data/vendor/kreuzberg-ffi/src/plugins/ocr_backend.rs +0 -628
data/vendor/kreuzberg-ffi/src/plugins/post_processor.rs +0 -438
data/vendor/kreuzberg-ffi/src/plugins/validator.rs +0 -329
data/vendor/kreuzberg-ffi/src/result.rs +0 -510
data/vendor/kreuzberg-ffi/src/result_pool.rs +0 -639
data/vendor/kreuzberg-ffi/src/result_view.rs +0 -773
data/vendor/kreuzberg-ffi/src/string_intern.rs +0 -568
data/vendor/kreuzberg-ffi/src/types.rs +0 -363
data/vendor/kreuzberg-ffi/src/util.rs +0 -210
data/vendor/kreuzberg-ffi/src/validation.rs +0 -848
data/vendor/kreuzberg-ffi/tests.disabled/README.md +0 -48
data/vendor/kreuzberg-ffi/tests.disabled/config_loading_tests.rs +0 -299
data/vendor/kreuzberg-ffi/tests.disabled/config_tests.rs +0 -346
data/vendor/kreuzberg-ffi/tests.disabled/extractor_tests.rs +0 -232
data/vendor/kreuzberg-ffi/tests.disabled/plugin_registration_tests.rs +0 -470
data/vendor/kreuzberg-tesseract/.commitlintrc.json +0 -13
data/vendor/kreuzberg-tesseract/.crate-ignore +0 -2
data/vendor/kreuzberg-tesseract/Cargo.lock +0 -2933
data/vendor/kreuzberg-tesseract/Cargo.toml +0 -57
data/vendor/kreuzberg-tesseract/LICENSE +0 -22
data/vendor/kreuzberg-tesseract/README.md +0 -399
data/vendor/kreuzberg-tesseract/build.rs +0 -1127
data/vendor/kreuzberg-tesseract/patches/README.md +0 -71
data/vendor/kreuzberg-tesseract/patches/tesseract.diff +0 -199
data/vendor/kreuzberg-tesseract/src/api.rs +0 -1371
data/vendor/kreuzberg-tesseract/src/choice_iterator.rs +0 -77
data/vendor/kreuzberg-tesseract/src/enums.rs +0 -297
data/vendor/kreuzberg-tesseract/src/error.rs +0 -81
data/vendor/kreuzberg-tesseract/src/lib.rs +0 -145
data/vendor/kreuzberg-tesseract/src/monitor.rs +0 -57
data/vendor/kreuzberg-tesseract/src/mutable_iterator.rs +0 -197
data/vendor/kreuzberg-tesseract/src/page_iterator.rs +0 -253
data/vendor/kreuzberg-tesseract/src/result_iterator.rs +0 -286
data/vendor/kreuzberg-tesseract/src/result_renderer.rs +0 -183
data/vendor/kreuzberg-tesseract/tests/integration_test.rs +0 -211

data/vendor/kreuzberg/src/extractors/pptx.rs CHANGED Viewed

@@ -1,5 +1,3 @@
-#![cfg(all(feature = "tokio-runtime", feature = "office"))]
 //! PowerPoint presentation extractor.
 use crate::Result;
@@ -45,10 +43,8 @@ impl PptxExtractor {
         for image in &mut images {
             let image_data = image.data.clone();
             let tess_config_clone = tess_config.clone();
-            let span = tracing::Span::current();
             let ocr_result = tokio::task::spawn_blocking(move || {
-                let _guard = span.entered();
                 let cache_dir = std::env::var("KREUZBERG_CACHE_DIR").ok().map(std::path::PathBuf::from);
                 let proc = OcrProcessor::new(cache_dir)?;
@@ -71,7 +67,6 @@ impl PptxExtractor {
                         detected_languages: None,
                         chunks: None,
                         images: None,
-                        pages: None,
                     };
                     image.ocr_result = Some(Box::new(extraction_result));
                 }
@@ -105,13 +100,6 @@ impl Plugin for PptxExtractor {
 #[async_trait]
 impl DocumentExtractor for PptxExtractor {
-    #[cfg_attr(feature = "otel", tracing::instrument(
-        skip(self, content, config),
-        fields(
-            extractor.name = self.name(),
-            content.size_bytes = content.len(),
-        )
-    ))]
     async fn extract_bytes(
         &self,
         content: &[u8],
@@ -120,18 +108,18 @@ impl DocumentExtractor for PptxExtractor {
     ) -> Result<ExtractionResult> {
         let extract_images = config.images.as_ref().is_some_and(|img| img.extract_images);
-        let pages_config = config.pages.clone();
+        // Extract PPTX content
         let pptx_result = if crate::core::batch_mode::is_batch_mode() {
+            // Batch mode: Use spawn_blocking for parallelism
             let content_owned = content.to_vec();
-            let span = tracing::Span::current();
             tokio::task::spawn_blocking(move || {
-                let _guard = span.entered();
-                crate::extraction::pptx::extract_pptx_from_bytes(&content_owned, extract_images, pages_config.as_ref())
+                crate::extraction::pptx::extract_pptx_from_bytes(&content_owned, extract_images)
             })
             .await
             .map_err(|e| crate::error::KreuzbergError::parsing(format!("PPTX extraction task failed: {}", e)))??
         } else {
-            crate::extraction::pptx::extract_pptx_from_bytes(content, extract_images, config.pages.as_ref())?
+            // Single-file mode: Direct extraction (no spawn overhead)
+            crate::extraction::pptx::extract_pptx_from_bytes(content, extract_images)?
         };
         let mut additional = std::collections::HashMap::new();
@@ -139,41 +127,28 @@ impl DocumentExtractor for PptxExtractor {
         additional.insert("image_count".to_string(), serde_json::json!(pptx_result.image_count));
         additional.insert("table_count".to_string(), serde_json::json!(pptx_result.table_count));
-        let images = if extract_images {
-            // Image extraction is enabled, return images or empty vector
-            if !pptx_result.images.is_empty() {
-                #[cfg(feature = "ocr")]
-                {
-                    let processed_images = self.process_images_with_ocr(pptx_result.images, config).await?;
-                    Some(processed_images)
-                }
-                #[cfg(not(feature = "ocr"))]
-                {
-                    Some(pptx_result.images)
-                }
-            } else {
-                Some(vec![])
+        let images = if !pptx_result.images.is_empty() {
+            #[cfg(feature = "ocr")]
+            {
+                let processed_images = self.process_images_with_ocr(pptx_result.images, config).await?;
+                Some(processed_images)
+            }
+            #[cfg(not(feature = "ocr"))]
+            {
+                Some(pptx_result.images)
             }
         } else {
-            // Image extraction is disabled
             None
         };
-        let mut metadata = Metadata {
-            format: Some(crate::types::FormatMetadata::Pptx(pptx_result.metadata)),
-            additional,
-            ..Default::default()
-        };
-        if let Some(page_structure) = pptx_result.page_structure {
-            metadata.pages = Some(page_structure);
-        }
         Ok(ExtractionResult {
             content: pptx_result.content,
             mime_type: mime_type.to_string(),
-            metadata,
-            pages: pptx_result.page_contents,
+            metadata: Metadata {
+                format: Some(crate::types::FormatMetadata::Pptx(pptx_result.metadata)),
+                additional,
+                ..Default::default()
+            },
             tables: vec![],
             detected_languages: None,
             chunks: None,
@@ -181,12 +156,6 @@ impl DocumentExtractor for PptxExtractor {
         })
     }
-    #[cfg_attr(feature = "otel", tracing::instrument(
-        skip(self, path, config),
-        fields(
-            extractor.name = self.name(),
-        )
-    ))]
     async fn extract_file(&self, path: &Path, mime_type: &str, config: &ExtractionConfig) -> Result<ExtractionResult> {
         let path_str = path
             .to_str()
@@ -194,49 +163,35 @@ impl DocumentExtractor for PptxExtractor {
         let extract_images = config.images.as_ref().is_some_and(|img| img.extract_images);
-        let pptx_result =
-            crate::extraction::pptx::extract_pptx_from_path(path_str, extract_images, config.pages.as_ref())?;
+        let pptx_result = crate::extraction::pptx::extract_pptx_from_path(path_str, extract_images)?;
         let mut additional = std::collections::HashMap::new();
         additional.insert("slide_count".to_string(), serde_json::json!(pptx_result.slide_count));
         additional.insert("image_count".to_string(), serde_json::json!(pptx_result.image_count));
         additional.insert("table_count".to_string(), serde_json::json!(pptx_result.table_count));
-        let images = if extract_images {
-            // Image extraction is enabled, return images or empty vector
-            if !pptx_result.images.is_empty() {
-                #[cfg(feature = "ocr")]
-                {
-                    let processed_images = self.process_images_with_ocr(pptx_result.images, config).await?;
-                    Some(processed_images)
-                }
-                #[cfg(not(feature = "ocr"))]
-                {
-                    Some(pptx_result.images)
-                }
-            } else {
-                Some(vec![])
+        let images = if !pptx_result.images.is_empty() {
+            #[cfg(feature = "ocr")]
+            {
+                let processed_images = self.process_images_with_ocr(pptx_result.images, config).await?;
+                Some(processed_images)
+            }
+            #[cfg(not(feature = "ocr"))]
+            {
+                Some(pptx_result.images)
             }
         } else {
-            // Image extraction is disabled
             None
         };
-        let mut metadata = Metadata {
-            format: Some(crate::types::FormatMetadata::Pptx(pptx_result.metadata)),
-            additional,
-            ..Default::default()
-        };
-        if let Some(page_structure) = pptx_result.page_structure {
-            metadata.pages = Some(page_structure);
-        }
         Ok(ExtractionResult {
             content: pptx_result.content,
             mime_type: mime_type.to_string(),
-            metadata,
-            pages: pptx_result.page_contents,
+            metadata: Metadata {
+                format: Some(crate::types::FormatMetadata::Pptx(pptx_result.metadata)),
+                additional,
+                ..Default::default()
+            },
             tables: vec![],
             detected_languages: None,
             chunks: None,

data/vendor/kreuzberg/src/extractors/structured.rs CHANGED Viewed

@@ -5,7 +5,6 @@ use crate::core::config::ExtractionConfig;
 use crate::plugins::{DocumentExtractor, Plugin};
 use crate::types::{ExtractionResult, Metadata};
 use async_trait::async_trait;
-#[cfg(feature = "tokio-runtime")]
 use std::path::Path;
 /// Structured data extractor supporting JSON, YAML, and TOML.
@@ -43,13 +42,6 @@ impl Plugin for StructuredExtractor {
 #[async_trait]
 impl DocumentExtractor for StructuredExtractor {
-    #[cfg_attr(feature = "otel", tracing::instrument(
-        skip(self, content, _config),
-        fields(
-            extractor.name = self.name(),
-            content.size_bytes = content.len(),
-        )
-    ))]
     async fn extract_bytes(
         &self,
         content: &[u8],
@@ -81,7 +73,6 @@ impl DocumentExtractor for StructuredExtractor {
                 additional,
                 ..Default::default()
             },
-            pages: None,
             tables: vec![],
             detected_languages: None,
             chunks: None,
@@ -89,13 +80,6 @@ impl DocumentExtractor for StructuredExtractor {
         })
     }
-    #[cfg(feature = "tokio-runtime")]
-    #[cfg_attr(feature = "otel", tracing::instrument(
-        skip(self, path, config),
-        fields(
-            extractor.name = self.name(),
-        )
-    ))]
     async fn extract_file(&self, path: &Path, mime_type: &str, config: &ExtractionConfig) -> Result<ExtractionResult> {
         let bytes = tokio::fs::read(path).await?;
         self.extract_bytes(&bytes, mime_type, config).await

data/vendor/kreuzberg/src/extractors/text.rs CHANGED Viewed

@@ -53,40 +53,28 @@ impl Plugin for PlainTextExtractor {
 #[async_trait]
 impl DocumentExtractor for PlainTextExtractor {
-    #[cfg_attr(feature = "otel", tracing::instrument(
-        skip(self, content, _config),
-        fields(
-            extractor.name = self.name(),
-            content.size_bytes = content.len(),
-        )
-    ))]
     async fn extract_bytes(
         &self,
         content: &[u8],
         mime_type: &str,
         _config: &ExtractionConfig,
     ) -> Result<ExtractionResult> {
-        let text = String::from_utf8_lossy(content).into_owned();
-        let text = text.trim_end_matches('\n').trim_end_matches('\r').to_string();
-        let line_count = text.lines().count();
-        let word_count = text.split_whitespace().count();
-        let character_count = text.len();
+        let text_result = parse_text(content, false)?;
         Ok(ExtractionResult {
-            content: text,
+            content: text_result.content,
             mime_type: mime_type.to_string(),
             metadata: crate::types::Metadata {
                 format: Some(crate::types::FormatMetadata::Text(crate::types::TextMetadata {
-                    line_count,
-                    word_count,
-                    character_count,
+                    line_count: text_result.line_count,
+                    word_count: text_result.word_count,
+                    character_count: text_result.character_count,
                     headers: None,
                     links: None,
                     code_blocks: None,
                 })),
                 ..Default::default()
             },
-            pages: None,
             tables: vec![],
             detected_languages: None,
             chunks: None,
@@ -95,7 +83,7 @@ impl DocumentExtractor for PlainTextExtractor {
     }
     fn supported_mime_types(&self) -> &[&str] {
-        &["text/plain", "text/csv", "text/tab-separated-values"]
+        &["text/plain"]
     }
     fn priority(&self) -> i32 {
@@ -150,13 +138,6 @@ impl Plugin for MarkdownExtractor {
 #[async_trait]
 impl DocumentExtractor for MarkdownExtractor {
-    #[cfg_attr(feature = "otel", tracing::instrument(
-        skip(self, content, _config),
-        fields(
-            extractor.name = self.name(),
-            content.size_bytes = content.len(),
-        )
-    ))]
     async fn extract_bytes(
         &self,
         content: &[u8],
@@ -179,7 +160,6 @@ impl DocumentExtractor for MarkdownExtractor {
                 })),
                 ..Default::default()
             },
-            pages: None,
             tables: vec![],
             detected_languages: None,
             chunks: None,
@@ -247,10 +227,7 @@ mod tests {
         let extractor = PlainTextExtractor::new();
         assert_eq!(extractor.name(), "plain-text-extractor");
         assert_eq!(extractor.version(), env!("CARGO_PKG_VERSION"));
-        assert_eq!(
-            extractor.supported_mime_types(),
-            &["text/plain", "text/csv", "text/tab-separated-values"]
-        );
+        assert_eq!(extractor.supported_mime_types(), &["text/plain"]);
         assert_eq!(extractor.priority(), 50);
     }

data/vendor/kreuzberg/src/extractors/xml.rs CHANGED Viewed

@@ -3,7 +3,6 @@
 use crate::Result;
 use crate::core::config::ExtractionConfig;
 use crate::extraction::xml::parse_xml;
-use crate::extractors::SyncExtractor;
 use crate::plugins::{DocumentExtractor, Plugin};
 use crate::types::ExtractionResult;
 use async_trait::async_trait;
@@ -52,8 +51,14 @@ impl Plugin for XmlExtractor {
     }
 }
-impl SyncExtractor for XmlExtractor {
-    fn extract_sync(&self, content: &[u8], mime_type: &str, _config: &ExtractionConfig) -> Result<ExtractionResult> {
+#[async_trait]
+impl DocumentExtractor for XmlExtractor {
+    async fn extract_bytes(
+        &self,
+        content: &[u8],
+        mime_type: &str,
+        _config: &ExtractionConfig,
+    ) -> Result<ExtractionResult> {
         let xml_result = parse_xml(content, false)?;
         Ok(ExtractionResult {
@@ -70,28 +75,8 @@ impl SyncExtractor for XmlExtractor {
             detected_languages: None,
             chunks: None,
             images: None,
-            pages: None,
         })
     }
-}
-#[async_trait]
-impl DocumentExtractor for XmlExtractor {
-    #[cfg_attr(feature = "otel", tracing::instrument(
-        skip(self, content, config),
-        fields(
-            extractor.name = self.name(),
-            content.size_bytes = content.len(),
-        )
-    ))]
-    async fn extract_bytes(
-        &self,
-        content: &[u8],
-        mime_type: &str,
-        config: &ExtractionConfig,
-    ) -> Result<ExtractionResult> {
-        self.extract_sync(content, mime_type, config)
-    }
     fn supported_mime_types(&self) -> &[&str] {
         &["application/xml", "text/xml", "image/svg+xml"]
@@ -100,10 +85,6 @@ impl DocumentExtractor for XmlExtractor {
     fn priority(&self) -> i32 {
         50
     }
-    fn as_sync_extractor(&self) -> Option<&dyn crate::extractors::SyncExtractor> {
-        Some(self)
-    }
 }
 #[cfg(test)]

data/vendor/kreuzberg/src/keywords/processor.rs CHANGED Viewed

@@ -45,8 +45,7 @@ impl Plugin for KeywordExtractor {
     }
 }
-#[cfg_attr(not(target_arch = "wasm32"), async_trait)]
-#[cfg_attr(target_arch = "wasm32", async_trait(?Send))]
+#[async_trait]
 impl PostProcessor for KeywordExtractor {
     async fn process(&self, result: &mut ExtractionResult, config: &ExtractionConfig) -> Result<()> {
         let keyword_config = match &config.keywords {
@@ -113,7 +112,6 @@ machine learning that uses neural networks with multiple layers.
             detected_languages: None,
             chunks: None,
             images: None,
-            pages: None,
         };
         processor.process(&mut result, &config).await.unwrap();
@@ -142,7 +140,6 @@ machine learning that uses neural networks with multiple layers.
             detected_languages: None,
             chunks: None,
             images: None,
-            pages: None,
         };
         processor.process(&mut result, &config).await.unwrap();
@@ -167,7 +164,6 @@ machine learning that uses neural networks with multiple layers.
             detected_languages: None,
             chunks: None,
             images: None,
-            pages: None,
         };
         processor.process(&mut result, &config).await.unwrap();
@@ -192,7 +188,6 @@ machine learning that uses neural networks with multiple layers.
             detected_languages: None,
             chunks: None,
             images: None,
-            pages: None,
         };
         processor.process(&mut result, &config).await.unwrap();
@@ -228,7 +223,6 @@ machine learning that uses neural networks with multiple layers.
             detected_languages: None,
             chunks: None,
             images: None,
-            pages: None,
         };
         let config_with_keywords = ExtractionConfig {
@@ -253,7 +247,6 @@ machine learning that uses neural networks with multiple layers.
             detected_languages: None,
             chunks: None,
             images: None,
-            pages: None,
         };
         let long_result = ExtractionResult {
@@ -264,7 +257,6 @@ machine learning that uses neural networks with multiple layers.
             detected_languages: None,
             chunks: None,
             images: None,
-            pages: None,
         };
         let short_duration = processor.estimated_duration_ms(&short_result);

data/vendor/kreuzberg/src/keywords/rake.rs CHANGED Viewed

@@ -248,6 +248,7 @@ mod tests {
         let english_text = "Natural language processing is a subfield of artificial intelligence.";
         let config = KeywordConfig::rake().with_language("fr");
         let keywords = extract_keywords_rake(english_text, &config).unwrap();
+        dbg!(&keywords);
         assert!(
             !keywords.is_empty(),
             "Should fall back to English stopwords and extract keywords"

data/vendor/kreuzberg/src/language_detection/mod.rs CHANGED Viewed

@@ -4,13 +4,8 @@
 use crate::Result;
 use crate::core::config::LanguageDetectionConfig;
-use once_cell::sync::Lazy;
-use std::sync::Arc;
 use whatlang::{Lang, detect};
-pub mod processor;
-pub use processor::LanguageDetector;
 /// Detect languages in text using whatlang.
 ///
 /// Returns a list of detected language codes (ISO 639-3 format).
@@ -185,44 +180,6 @@ fn lang_to_iso639_3(lang: Lang) -> String {
     .to_string()
 }
-/// Register the language detection processor with the global registry.
-///
-/// This function should be called once at application startup to register
-/// the language detection post-processor.
-///
-/// **Note:** This is called automatically on first use.
-/// Explicit calling is optional.
-pub fn register_language_detection_processor() -> Result<()> {
-    let registry = crate::plugins::registry::get_post_processor_registry();
-    let mut registry = registry
-        .write()
-        .map_err(|e| crate::KreuzbergError::Other(format!("Post-processor registry lock poisoned: {}", e)))?;
-    registry.register(Arc::new(LanguageDetector), 40)?;
-    Ok(())
-}
-/// Lazy-initialized flag that ensures language detection processor is registered exactly once.
-///
-/// This static is accessed on first use to automatically register the
-/// language detection processor with the plugin registry.
-static PROCESSOR_INITIALIZED: Lazy<Result<()>> = Lazy::new(register_language_detection_processor);
-/// Ensure the language detection processor is registered.
-///
-/// This function is called automatically when needed.
-/// It's safe to call multiple times - registration only happens once.
-pub fn ensure_initialized() -> Result<()> {
-    PROCESSOR_INITIALIZED
-        .as_ref()
-        .map(|_| ())
-        .map_err(|e| crate::KreuzbergError::Plugin {
-            message: format!("Failed to register language detection processor: {}", e),
-            plugin_name: "language-detection".to_string(),
-        })
-}
 #[cfg(test)]
 mod tests {
     use super::*;
@@ -719,57 +676,6 @@ mod tests {
         assert_eq!(langs[0], "eng");
     }
-    #[test]
-    fn test_medical_terminology() {
-        let text = "The patient presented with acute myocardial infarction and was administered thrombolytic therapy. \
-                   The electrocardiogram showed significant ST-segment elevation in the anterior leads. \
-                   Cardiac biomarkers including troponin and creatine kinase were significantly elevated.";
-        let config = LanguageDetectionConfig {
-            enabled: true,
-            min_confidence: 0.5,
-            detect_multiple: false,
-        };
-        let result = detect_languages(text, &config).unwrap();
-        assert!(result.is_some());
-        let langs = result.unwrap();
-        assert_eq!(langs[0], "eng");
-    }
-    #[test]
-    fn test_legal_terminology() {
-        let text = "The plaintiff hereby alleges that the defendant breached the contractual obligations as stipulated in the aforementioned agreement. \
-                   Pursuant to clause 5.2, the defendant was required to provide adequate consideration within thirty days of execution. \
-                   The court finds that the preponderance of evidence supports the plaintiff's claims.";
-        let config = LanguageDetectionConfig {
-            enabled: true,
-            min_confidence: 0.5,
-            detect_multiple: false,
-        };
-        let result = detect_languages(text, &config).unwrap();
-        assert!(result.is_some());
-        let langs = result.unwrap();
-        assert_eq!(langs[0], "eng");
-    }
-    #[test]
-    fn test_scientific_terminology() {
-        let text = "The experimental protocol involved spectrophotometric analysis using ultraviolet-visible spectroscopy. \
-                   Quantum mechanical calculations were performed using density functional theory at the B3LYP level. \
-                   The results demonstrated significant correlation between molecular structure and optical properties.";
-        let config = LanguageDetectionConfig {
-            enabled: true,
-            min_confidence: 0.5,
-            detect_multiple: false,
-        };
-        let result = detect_languages(text, &config).unwrap();
-        assert!(result.is_some());
-        let langs = result.unwrap();
-        assert_eq!(langs[0], "eng");
-    }
     #[test]
     fn test_code_with_comments() {
         let text = r#"
@@ -845,6 +751,57 @@ mod tests {
         assert_eq!(langs[0], "eng");
     }
+    #[test]
+    fn test_medical_terminology() {
+        let text = "The patient presented with acute myocardial infarction and was administered thrombolytic therapy. \
+                   The electrocardiogram showed significant ST-segment elevation in the anterior leads. \
+                   Cardiac biomarkers including troponin and creatine kinase were significantly elevated.";
+        let config = LanguageDetectionConfig {
+            enabled: true,
+            min_confidence: 0.5,
+            detect_multiple: false,
+        };
+        let result = detect_languages(text, &config).unwrap();
+        assert!(result.is_some());
+        let langs = result.unwrap();
+        assert_eq!(langs[0], "eng");
+    }
+    #[test]
+    fn test_legal_terminology() {
+        let text = "The plaintiff hereby alleges that the defendant breached the contractual obligations as stipulated in the aforementioned agreement. \
+                   Pursuant to clause 5.2, the defendant was required to provide adequate consideration within thirty days of execution. \
+                   The court finds that the preponderance of evidence supports the plaintiff's claims.";
+        let config = LanguageDetectionConfig {
+            enabled: true,
+            min_confidence: 0.5,
+            detect_multiple: false,
+        };
+        let result = detect_languages(text, &config).unwrap();
+        assert!(result.is_some());
+        let langs = result.unwrap();
+        assert_eq!(langs[0], "eng");
+    }
+    #[test]
+    fn test_scientific_terminology() {
+        let text = "The experimental protocol involved spectrophotometric analysis using ultraviolet-visible spectroscopy. \
+                   Quantum mechanical calculations were performed using density functional theory at the B3LYP level. \
+                   The results demonstrated significant correlation between molecular structure and optical properties.";
+        let config = LanguageDetectionConfig {
+            enabled: true,
+            min_confidence: 0.5,
+            detect_multiple: false,
+        };
+        let result = detect_languages(text, &config).unwrap();
+        assert!(result.is_some());
+        let langs = result.unwrap();
+        assert_eq!(langs[0], "eng");
+    }
     #[test]
     fn test_latin_cyrillic_mix() {
         let text = format!(

data/vendor/kreuzberg/src/lib.rs CHANGED Viewed

@@ -39,10 +39,11 @@ pub mod core;
 pub mod error;
 pub mod extraction;
 pub mod extractors;
-pub mod panic_context;
 pub mod plugins;
 pub mod text;
 pub mod types;
+#[cfg(feature = "quality")]
 pub mod utils;
 #[cfg(feature = "api")]
@@ -78,34 +79,21 @@ pub mod pdf;
 pub use error::{KreuzbergError, Result};
 pub use types::*;
-#[cfg(feature = "tokio-runtime")]
-pub use core::extractor::{batch_extract_bytes, batch_extract_file};
-pub use core::extractor::{extract_bytes, extract_file};
-pub use core::extractor::{batch_extract_bytes_sync, extract_bytes_sync};
+pub use core::extractor::{batch_extract_bytes, batch_extract_file, extract_bytes, extract_file};
-#[cfg(feature = "tokio-runtime")]
-pub use core::extractor::{batch_extract_file_sync, extract_file_sync};
+pub use core::extractor::{batch_extract_bytes_sync, batch_extract_file_sync, extract_bytes_sync, extract_file_sync};
 pub use core::config::{
     ChunkingConfig, EmbeddingConfig, EmbeddingModelType, ExtractionConfig, ImageExtractionConfig,
-    LanguageDetectionConfig, OcrConfig, PostProcessorConfig, TokenReductionConfig,
+    LanguageDetectionConfig, OcrConfig, PdfConfig, PostProcessorConfig, TokenReductionConfig,
 };
-#[cfg(feature = "api")]
-pub use core::server_config::ServerConfig;
-#[cfg(feature = "pdf")]
-pub use core::config::PdfConfig;
 pub use core::mime::{
     DOCX_MIME_TYPE, EXCEL_MIME_TYPE, HTML_MIME_TYPE, JSON_MIME_TYPE, MARKDOWN_MIME_TYPE, PDF_MIME_TYPE,
     PLAIN_TEXT_MIME_TYPE, POWER_POINT_MIME_TYPE, XML_MIME_TYPE, detect_mime_type, detect_mime_type_from_bytes,
     detect_or_validate, get_extensions_for_mime, validate_mime_type,
 };
-pub use core::formats::{KNOWN_FORMATS, is_valid_format_field};
 pub use plugins::registry::{
     get_document_extractor_registry, get_ocr_backend_registry, get_post_processor_registry, get_validator_registry,
 };