RubyGems - kreuzberg - Versions diffs - 4.0.0.rc1 - Mend

kreuzberg 4.0.0.rc1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (265) hide show

checksums.yaml +7 -0
data/.gitignore +8 -0
data/.rspec +3 -0
data/.rubocop.yaml +534 -0
data/Gemfile +9 -0
data/Gemfile.lock +157 -0
data/README.md +421 -0
data/Rakefile +25 -0
data/Steepfile +47 -0
data/examples/async_patterns.rb +340 -0
data/ext/kreuzberg_rb/extconf.rb +35 -0
data/ext/kreuzberg_rb/native/Cargo.toml +36 -0
data/ext/kreuzberg_rb/native/README.md +425 -0
data/ext/kreuzberg_rb/native/build.rs +17 -0
data/ext/kreuzberg_rb/native/include/ieeefp.h +11 -0
data/ext/kreuzberg_rb/native/include/msvc_compat/strings.h +14 -0
data/ext/kreuzberg_rb/native/include/strings.h +20 -0
data/ext/kreuzberg_rb/native/include/unistd.h +47 -0
data/ext/kreuzberg_rb/native/src/lib.rs +2939 -0
data/extconf.rb +28 -0
data/kreuzberg.gemspec +105 -0
data/lib/kreuzberg/api_proxy.rb +142 -0
data/lib/kreuzberg/cache_api.rb +45 -0
data/lib/kreuzberg/cli.rb +55 -0
data/lib/kreuzberg/cli_proxy.rb +127 -0
data/lib/kreuzberg/config.rb +684 -0
data/lib/kreuzberg/errors.rb +50 -0
data/lib/kreuzberg/extraction_api.rb +84 -0
data/lib/kreuzberg/mcp_proxy.rb +186 -0
data/lib/kreuzberg/ocr_backend_protocol.rb +113 -0
data/lib/kreuzberg/post_processor_protocol.rb +86 -0
data/lib/kreuzberg/result.rb +216 -0
data/lib/kreuzberg/setup_lib_path.rb +79 -0
data/lib/kreuzberg/validator_protocol.rb +89 -0
data/lib/kreuzberg/version.rb +5 -0
data/lib/kreuzberg.rb +82 -0
data/pkg/kreuzberg-4.0.0.rc1.gem +0 -0
data/sig/kreuzberg/internal.rbs +184 -0
data/sig/kreuzberg.rbs +468 -0
data/spec/binding/cache_spec.rb +227 -0
data/spec/binding/cli_proxy_spec.rb +87 -0
data/spec/binding/cli_spec.rb +54 -0
data/spec/binding/config_spec.rb +345 -0
data/spec/binding/config_validation_spec.rb +283 -0
data/spec/binding/error_handling_spec.rb +213 -0
data/spec/binding/errors_spec.rb +66 -0
data/spec/binding/plugins/ocr_backend_spec.rb +307 -0
data/spec/binding/plugins/postprocessor_spec.rb +269 -0
data/spec/binding/plugins/validator_spec.rb +274 -0
data/spec/examples.txt +104 -0
data/spec/fixtures/config.toml +39 -0
data/spec/fixtures/config.yaml +42 -0
data/spec/fixtures/invalid_config.toml +4 -0
data/spec/smoke/package_spec.rb +178 -0
data/spec/spec_helper.rb +42 -0
data/vendor/kreuzberg/Cargo.toml +134 -0
data/vendor/kreuzberg/README.md +175 -0
data/vendor/kreuzberg/build.rs +460 -0
data/vendor/kreuzberg/src/api/error.rs +81 -0
data/vendor/kreuzberg/src/api/handlers.rs +199 -0
data/vendor/kreuzberg/src/api/mod.rs +79 -0
data/vendor/kreuzberg/src/api/server.rs +353 -0
data/vendor/kreuzberg/src/api/types.rs +170 -0
data/vendor/kreuzberg/src/bin/profile_extract.rs +455 -0
data/vendor/kreuzberg/src/cache/mod.rs +1143 -0
data/vendor/kreuzberg/src/chunking/mod.rs +677 -0
data/vendor/kreuzberg/src/core/batch_mode.rs +35 -0
data/vendor/kreuzberg/src/core/config.rs +1032 -0
data/vendor/kreuzberg/src/core/extractor.rs +903 -0
data/vendor/kreuzberg/src/core/io.rs +327 -0
data/vendor/kreuzberg/src/core/mime.rs +615 -0
data/vendor/kreuzberg/src/core/mod.rs +42 -0
data/vendor/kreuzberg/src/core/pipeline.rs +906 -0
data/vendor/kreuzberg/src/embeddings.rs +323 -0
data/vendor/kreuzberg/src/error.rs +431 -0
data/vendor/kreuzberg/src/extraction/archive.rs +954 -0
data/vendor/kreuzberg/src/extraction/docx.rs +40 -0
data/vendor/kreuzberg/src/extraction/email.rs +854 -0
data/vendor/kreuzberg/src/extraction/excel.rs +688 -0
data/vendor/kreuzberg/src/extraction/html.rs +553 -0
data/vendor/kreuzberg/src/extraction/image.rs +368 -0
data/vendor/kreuzberg/src/extraction/libreoffice.rs +564 -0
data/vendor/kreuzberg/src/extraction/mod.rs +77 -0
data/vendor/kreuzberg/src/extraction/office_metadata/app_properties.rs +398 -0
data/vendor/kreuzberg/src/extraction/office_metadata/core_properties.rs +247 -0
data/vendor/kreuzberg/src/extraction/office_metadata/custom_properties.rs +240 -0
data/vendor/kreuzberg/src/extraction/office_metadata/mod.rs +128 -0
data/vendor/kreuzberg/src/extraction/pandoc/batch.rs +275 -0
data/vendor/kreuzberg/src/extraction/pandoc/mime_types.rs +178 -0
data/vendor/kreuzberg/src/extraction/pandoc/mod.rs +491 -0
data/vendor/kreuzberg/src/extraction/pandoc/server.rs +496 -0
data/vendor/kreuzberg/src/extraction/pandoc/subprocess.rs +1188 -0
data/vendor/kreuzberg/src/extraction/pandoc/version.rs +162 -0
data/vendor/kreuzberg/src/extraction/pptx.rs +3000 -0
data/vendor/kreuzberg/src/extraction/structured.rs +490 -0
data/vendor/kreuzberg/src/extraction/table.rs +328 -0
data/vendor/kreuzberg/src/extraction/text.rs +269 -0
data/vendor/kreuzberg/src/extraction/xml.rs +333 -0
data/vendor/kreuzberg/src/extractors/archive.rs +425 -0
data/vendor/kreuzberg/src/extractors/docx.rs +479 -0
data/vendor/kreuzberg/src/extractors/email.rs +129 -0
data/vendor/kreuzberg/src/extractors/excel.rs +344 -0
data/vendor/kreuzberg/src/extractors/html.rs +410 -0
data/vendor/kreuzberg/src/extractors/image.rs +195 -0
data/vendor/kreuzberg/src/extractors/mod.rs +268 -0
data/vendor/kreuzberg/src/extractors/pandoc.rs +201 -0
data/vendor/kreuzberg/src/extractors/pdf.rs +496 -0
data/vendor/kreuzberg/src/extractors/pptx.rs +234 -0
data/vendor/kreuzberg/src/extractors/structured.rs +126 -0
data/vendor/kreuzberg/src/extractors/text.rs +242 -0
data/vendor/kreuzberg/src/extractors/xml.rs +128 -0
data/vendor/kreuzberg/src/image/dpi.rs +164 -0
data/vendor/kreuzberg/src/image/mod.rs +6 -0
data/vendor/kreuzberg/src/image/preprocessing.rs +417 -0
data/vendor/kreuzberg/src/image/resize.rs +89 -0
data/vendor/kreuzberg/src/keywords/config.rs +154 -0
data/vendor/kreuzberg/src/keywords/mod.rs +237 -0
data/vendor/kreuzberg/src/keywords/processor.rs +267 -0
data/vendor/kreuzberg/src/keywords/rake.rs +294 -0
data/vendor/kreuzberg/src/keywords/types.rs +68 -0
data/vendor/kreuzberg/src/keywords/yake.rs +163 -0
data/vendor/kreuzberg/src/language_detection/mod.rs +942 -0
data/vendor/kreuzberg/src/lib.rs +102 -0
data/vendor/kreuzberg/src/mcp/mod.rs +32 -0
data/vendor/kreuzberg/src/mcp/server.rs +1966 -0
data/vendor/kreuzberg/src/ocr/cache.rs +469 -0
data/vendor/kreuzberg/src/ocr/error.rs +37 -0
data/vendor/kreuzberg/src/ocr/hocr.rs +216 -0
data/vendor/kreuzberg/src/ocr/mod.rs +58 -0
data/vendor/kreuzberg/src/ocr/processor.rs +847 -0
data/vendor/kreuzberg/src/ocr/table/mod.rs +4 -0
data/vendor/kreuzberg/src/ocr/table/tsv_parser.rs +144 -0
data/vendor/kreuzberg/src/ocr/tesseract_backend.rs +450 -0
data/vendor/kreuzberg/src/ocr/types.rs +393 -0
data/vendor/kreuzberg/src/ocr/utils.rs +47 -0
data/vendor/kreuzberg/src/ocr/validation.rs +206 -0
data/vendor/kreuzberg/src/pdf/error.rs +122 -0
data/vendor/kreuzberg/src/pdf/images.rs +139 -0
data/vendor/kreuzberg/src/pdf/metadata.rs +346 -0
data/vendor/kreuzberg/src/pdf/mod.rs +50 -0
data/vendor/kreuzberg/src/pdf/rendering.rs +369 -0
data/vendor/kreuzberg/src/pdf/table.rs +420 -0
data/vendor/kreuzberg/src/pdf/text.rs +161 -0
data/vendor/kreuzberg/src/plugins/extractor.rs +1010 -0
data/vendor/kreuzberg/src/plugins/mod.rs +209 -0
data/vendor/kreuzberg/src/plugins/ocr.rs +629 -0
data/vendor/kreuzberg/src/plugins/processor.rs +641 -0
data/vendor/kreuzberg/src/plugins/registry.rs +1324 -0
data/vendor/kreuzberg/src/plugins/traits.rs +258 -0
data/vendor/kreuzberg/src/plugins/validator.rs +955 -0
data/vendor/kreuzberg/src/stopwords/mod.rs +1470 -0
data/vendor/kreuzberg/src/text/mod.rs +19 -0
data/vendor/kreuzberg/src/text/quality.rs +697 -0
data/vendor/kreuzberg/src/text/string_utils.rs +217 -0
data/vendor/kreuzberg/src/text/token_reduction/cjk_utils.rs +164 -0
data/vendor/kreuzberg/src/text/token_reduction/config.rs +100 -0
data/vendor/kreuzberg/src/text/token_reduction/core.rs +796 -0
data/vendor/kreuzberg/src/text/token_reduction/filters.rs +902 -0
data/vendor/kreuzberg/src/text/token_reduction/mod.rs +160 -0
data/vendor/kreuzberg/src/text/token_reduction/semantic.rs +619 -0
data/vendor/kreuzberg/src/text/token_reduction/simd_text.rs +147 -0
data/vendor/kreuzberg/src/types.rs +873 -0
data/vendor/kreuzberg/src/utils/mod.rs +17 -0
data/vendor/kreuzberg/src/utils/quality.rs +959 -0
data/vendor/kreuzberg/src/utils/string_utils.rs +381 -0
data/vendor/kreuzberg/stopwords/af_stopwords.json +53 -0
data/vendor/kreuzberg/stopwords/ar_stopwords.json +482 -0
data/vendor/kreuzberg/stopwords/bg_stopwords.json +261 -0
data/vendor/kreuzberg/stopwords/bn_stopwords.json +400 -0
data/vendor/kreuzberg/stopwords/br_stopwords.json +1205 -0
data/vendor/kreuzberg/stopwords/ca_stopwords.json +280 -0
data/vendor/kreuzberg/stopwords/cs_stopwords.json +425 -0
data/vendor/kreuzberg/stopwords/da_stopwords.json +172 -0
data/vendor/kreuzberg/stopwords/de_stopwords.json +622 -0
data/vendor/kreuzberg/stopwords/el_stopwords.json +849 -0
data/vendor/kreuzberg/stopwords/en_stopwords.json +1300 -0
data/vendor/kreuzberg/stopwords/eo_stopwords.json +175 -0
data/vendor/kreuzberg/stopwords/es_stopwords.json +734 -0
data/vendor/kreuzberg/stopwords/et_stopwords.json +37 -0
data/vendor/kreuzberg/stopwords/eu_stopwords.json +100 -0
data/vendor/kreuzberg/stopwords/fa_stopwords.json +801 -0
data/vendor/kreuzberg/stopwords/fi_stopwords.json +849 -0
data/vendor/kreuzberg/stopwords/fr_stopwords.json +693 -0
data/vendor/kreuzberg/stopwords/ga_stopwords.json +111 -0
data/vendor/kreuzberg/stopwords/gl_stopwords.json +162 -0
data/vendor/kreuzberg/stopwords/gu_stopwords.json +226 -0
data/vendor/kreuzberg/stopwords/ha_stopwords.json +41 -0
data/vendor/kreuzberg/stopwords/he_stopwords.json +196 -0
data/vendor/kreuzberg/stopwords/hi_stopwords.json +227 -0
data/vendor/kreuzberg/stopwords/hr_stopwords.json +181 -0
data/vendor/kreuzberg/stopwords/hu_stopwords.json +791 -0
data/vendor/kreuzberg/stopwords/hy_stopwords.json +47 -0
data/vendor/kreuzberg/stopwords/id_stopwords.json +760 -0
data/vendor/kreuzberg/stopwords/it_stopwords.json +634 -0
data/vendor/kreuzberg/stopwords/ja_stopwords.json +136 -0
data/vendor/kreuzberg/stopwords/kn_stopwords.json +84 -0
data/vendor/kreuzberg/stopwords/ko_stopwords.json +681 -0
data/vendor/kreuzberg/stopwords/ku_stopwords.json +64 -0
data/vendor/kreuzberg/stopwords/la_stopwords.json +51 -0
data/vendor/kreuzberg/stopwords/lt_stopwords.json +476 -0
data/vendor/kreuzberg/stopwords/lv_stopwords.json +163 -0
data/vendor/kreuzberg/stopwords/ml_stopwords.json +1 -0
data/vendor/kreuzberg/stopwords/mr_stopwords.json +101 -0
data/vendor/kreuzberg/stopwords/ms_stopwords.json +477 -0
data/vendor/kreuzberg/stopwords/ne_stopwords.json +490 -0
data/vendor/kreuzberg/stopwords/nl_stopwords.json +415 -0
data/vendor/kreuzberg/stopwords/no_stopwords.json +223 -0
data/vendor/kreuzberg/stopwords/pl_stopwords.json +331 -0
data/vendor/kreuzberg/stopwords/pt_stopwords.json +562 -0
data/vendor/kreuzberg/stopwords/ro_stopwords.json +436 -0
data/vendor/kreuzberg/stopwords/ru_stopwords.json +561 -0
data/vendor/kreuzberg/stopwords/si_stopwords.json +193 -0
data/vendor/kreuzberg/stopwords/sk_stopwords.json +420 -0
data/vendor/kreuzberg/stopwords/sl_stopwords.json +448 -0
data/vendor/kreuzberg/stopwords/so_stopwords.json +32 -0
data/vendor/kreuzberg/stopwords/st_stopwords.json +33 -0
data/vendor/kreuzberg/stopwords/sv_stopwords.json +420 -0
data/vendor/kreuzberg/stopwords/sw_stopwords.json +76 -0
data/vendor/kreuzberg/stopwords/ta_stopwords.json +129 -0
data/vendor/kreuzberg/stopwords/te_stopwords.json +54 -0
data/vendor/kreuzberg/stopwords/th_stopwords.json +118 -0
data/vendor/kreuzberg/stopwords/tl_stopwords.json +149 -0
data/vendor/kreuzberg/stopwords/tr_stopwords.json +506 -0
data/vendor/kreuzberg/stopwords/uk_stopwords.json +75 -0
data/vendor/kreuzberg/stopwords/ur_stopwords.json +519 -0
data/vendor/kreuzberg/stopwords/vi_stopwords.json +647 -0
data/vendor/kreuzberg/stopwords/yo_stopwords.json +62 -0
data/vendor/kreuzberg/stopwords/zh_stopwords.json +796 -0
data/vendor/kreuzberg/stopwords/zu_stopwords.json +31 -0
data/vendor/kreuzberg/tests/api_tests.rs +966 -0
data/vendor/kreuzberg/tests/archive_integration.rs +543 -0
data/vendor/kreuzberg/tests/batch_orchestration.rs +542 -0
data/vendor/kreuzberg/tests/batch_processing.rs +304 -0
data/vendor/kreuzberg/tests/chunking_offset_demo.rs +92 -0
data/vendor/kreuzberg/tests/concurrency_stress.rs +509 -0
data/vendor/kreuzberg/tests/config_features.rs +580 -0
data/vendor/kreuzberg/tests/config_loading_tests.rs +439 -0
data/vendor/kreuzberg/tests/core_integration.rs +493 -0
data/vendor/kreuzberg/tests/csv_integration.rs +424 -0
data/vendor/kreuzberg/tests/docx_metadata_extraction_test.rs +124 -0
data/vendor/kreuzberg/tests/email_integration.rs +325 -0
data/vendor/kreuzberg/tests/error_handling.rs +393 -0
data/vendor/kreuzberg/tests/format_integration.rs +159 -0
data/vendor/kreuzberg/tests/helpers/mod.rs +142 -0
data/vendor/kreuzberg/tests/image_integration.rs +253 -0
data/vendor/kreuzberg/tests/keywords_integration.rs +479 -0
data/vendor/kreuzberg/tests/keywords_quality.rs +509 -0
data/vendor/kreuzberg/tests/mime_detection.rs +428 -0
data/vendor/kreuzberg/tests/ocr_configuration.rs +510 -0
data/vendor/kreuzberg/tests/ocr_errors.rs +676 -0
data/vendor/kreuzberg/tests/ocr_quality.rs +627 -0
data/vendor/kreuzberg/tests/ocr_stress.rs +469 -0
data/vendor/kreuzberg/tests/pandoc_integration.rs +503 -0
data/vendor/kreuzberg/tests/pdf_integration.rs +43 -0
data/vendor/kreuzberg/tests/pipeline_integration.rs +1412 -0
data/vendor/kreuzberg/tests/plugin_ocr_backend_test.rs +771 -0
data/vendor/kreuzberg/tests/plugin_postprocessor_test.rs +561 -0
data/vendor/kreuzberg/tests/plugin_system.rs +921 -0
data/vendor/kreuzberg/tests/plugin_validator_test.rs +783 -0
data/vendor/kreuzberg/tests/registry_integration_tests.rs +607 -0
data/vendor/kreuzberg/tests/security_validation.rs +404 -0
data/vendor/kreuzberg/tests/stopwords_integration_test.rs +888 -0
data/vendor/kreuzberg/tests/test_fastembed.rs +609 -0
data/vendor/kreuzberg/tests/xlsx_metadata_extraction_test.rs +87 -0
metadata +471 -0

data/vendor/kreuzberg/src/extractors/pptx.rs ADDED Viewed

@@ -0,0 +1,234 @@
+//! PowerPoint presentation extractor.
+use crate::Result;
+use crate::core::config::ExtractionConfig;
+use crate::plugins::{DocumentExtractor, Plugin};
+use crate::types::{ExtractionResult, Metadata};
+use async_trait::async_trait;
+use std::path::Path;
+#[cfg(feature = "ocr")]
+use crate::ocr::OcrProcessor;
+/// PowerPoint presentation extractor.
+///
+/// Supports: .pptx, .pptm, .ppsx
+pub struct PptxExtractor;
+impl Default for PptxExtractor {
+    fn default() -> Self {
+        Self::new()
+    }
+}
+impl PptxExtractor {
+    pub fn new() -> Self {
+        Self
+    }
+    /// Process extracted images with OCR if configured.
+    #[cfg(feature = "ocr")]
+    async fn process_images_with_ocr(
+        &self,
+        mut images: Vec<crate::types::ExtractedImage>,
+        config: &ExtractionConfig,
+    ) -> Result<Vec<crate::types::ExtractedImage>> {
+        if config.ocr.is_none() {
+            return Ok(images);
+        }
+        let ocr_config = config.ocr.as_ref().unwrap();
+        let tess_config = ocr_config.tesseract_config.as_ref().cloned().unwrap_or_default();
+        for image in &mut images {
+            let image_data = image.data.clone();
+            let tess_config_clone = tess_config.clone();
+            let ocr_result = tokio::task::spawn_blocking(move || {
+                let cache_dir = std::env::var("KREUZBERG_CACHE_DIR").ok().map(std::path::PathBuf::from);
+                let proc = OcrProcessor::new(cache_dir)?;
+                let ocr_tess_config: crate::ocr::types::TesseractConfig = (&tess_config_clone).into();
+                proc.process_image(&image_data, &ocr_tess_config)
+            })
+            .await
+            .map_err(|e| crate::KreuzbergError::Ocr {
+                message: format!("OCR task failed: {}", e),
+                source: None,
+            })?;
+            match ocr_result {
+                Ok(ocr_extraction) => {
+                    let extraction_result = ExtractionResult {
+                        content: ocr_extraction.content,
+                        mime_type: image.format.clone(),
+                        metadata: Metadata::default(),
+                        tables: vec![],
+                        detected_languages: None,
+                        chunks: None,
+                        images: None,
+                    };
+                    image.ocr_result = Some(Box::new(extraction_result));
+                }
+                Err(_) => {
+                    image.ocr_result = None;
+                }
+            }
+        }
+        Ok(images)
+    }
+}
+impl Plugin for PptxExtractor {
+    fn name(&self) -> &str {
+        "pptx-extractor"
+    }
+    fn version(&self) -> String {
+        env!("CARGO_PKG_VERSION").to_string()
+    }
+    fn initialize(&self) -> Result<()> {
+        Ok(())
+    }
+    fn shutdown(&self) -> Result<()> {
+        Ok(())
+    }
+}
+#[async_trait]
+impl DocumentExtractor for PptxExtractor {
+    async fn extract_bytes(
+        &self,
+        content: &[u8],
+        mime_type: &str,
+        config: &ExtractionConfig,
+    ) -> Result<ExtractionResult> {
+        let extract_images = config.images.as_ref().is_some_and(|img| img.extract_images);
+        // Extract PPTX content
+        let pptx_result = if crate::core::batch_mode::is_batch_mode() {
+            // Batch mode: Use spawn_blocking for parallelism
+            let content_owned = content.to_vec();
+            tokio::task::spawn_blocking(move || {
+                crate::extraction::pptx::extract_pptx_from_bytes(&content_owned, extract_images)
+            })
+            .await
+            .map_err(|e| crate::error::KreuzbergError::parsing(format!("PPTX extraction task failed: {}", e)))??
+        } else {
+            // Single-file mode: Direct extraction (no spawn overhead)
+            crate::extraction::pptx::extract_pptx_from_bytes(content, extract_images)?
+        };
+        let mut additional = std::collections::HashMap::new();
+        additional.insert("slide_count".to_string(), serde_json::json!(pptx_result.slide_count));
+        additional.insert("image_count".to_string(), serde_json::json!(pptx_result.image_count));
+        additional.insert("table_count".to_string(), serde_json::json!(pptx_result.table_count));
+        let images = if !pptx_result.images.is_empty() {
+            #[cfg(feature = "ocr")]
+            {
+                let processed_images = self.process_images_with_ocr(pptx_result.images, config).await?;
+                Some(processed_images)
+            }
+            #[cfg(not(feature = "ocr"))]
+            {
+                Some(pptx_result.images)
+            }
+        } else {
+            None
+        };
+        Ok(ExtractionResult {
+            content: pptx_result.content,
+            mime_type: mime_type.to_string(),
+            metadata: Metadata {
+                format: Some(crate::types::FormatMetadata::Pptx(pptx_result.metadata)),
+                additional,
+                ..Default::default()
+            },
+            tables: vec![],
+            detected_languages: None,
+            chunks: None,
+            images,
+        })
+    }
+    async fn extract_file(&self, path: &Path, mime_type: &str, config: &ExtractionConfig) -> Result<ExtractionResult> {
+        let path_str = path
+            .to_str()
+            .ok_or_else(|| crate::KreuzbergError::validation("Invalid file path".to_string()))?;
+        let extract_images = config.images.as_ref().is_some_and(|img| img.extract_images);
+        let pptx_result = crate::extraction::pptx::extract_pptx_from_path(path_str, extract_images)?;
+        let mut additional = std::collections::HashMap::new();
+        additional.insert("slide_count".to_string(), serde_json::json!(pptx_result.slide_count));
+        additional.insert("image_count".to_string(), serde_json::json!(pptx_result.image_count));
+        additional.insert("table_count".to_string(), serde_json::json!(pptx_result.table_count));
+        let images = if !pptx_result.images.is_empty() {
+            #[cfg(feature = "ocr")]
+            {
+                let processed_images = self.process_images_with_ocr(pptx_result.images, config).await?;
+                Some(processed_images)
+            }
+            #[cfg(not(feature = "ocr"))]
+            {
+                Some(pptx_result.images)
+            }
+        } else {
+            None
+        };
+        Ok(ExtractionResult {
+            content: pptx_result.content,
+            mime_type: mime_type.to_string(),
+            metadata: Metadata {
+                format: Some(crate::types::FormatMetadata::Pptx(pptx_result.metadata)),
+                additional,
+                ..Default::default()
+            },
+            tables: vec![],
+            detected_languages: None,
+            chunks: None,
+            images,
+        })
+    }
+    fn supported_mime_types(&self) -> &[&str] {
+        &[
+            "application/vnd.openxmlformats-officedocument.presentationml.presentation",
+            "application/vnd.ms-powerpoint.presentation.macroEnabled.12",
+            "application/vnd.openxmlformats-officedocument.presentationml.slideshow",
+        ]
+    }
+    fn priority(&self) -> i32 {
+        50
+    }
+}
+#[cfg(test)]
+mod tests {
+    use super::*;
+    #[test]
+    fn test_pptx_extractor_plugin_interface() {
+        let extractor = PptxExtractor::new();
+        assert_eq!(extractor.name(), "pptx-extractor");
+        assert!(extractor.initialize().is_ok());
+        assert!(extractor.shutdown().is_ok());
+    }
+    #[test]
+    fn test_pptx_extractor_supported_mime_types() {
+        let extractor = PptxExtractor::new();
+        let mime_types = extractor.supported_mime_types();
+        assert_eq!(mime_types.len(), 3);
+        assert!(mime_types.contains(&"application/vnd.openxmlformats-officedocument.presentationml.presentation"));
+    }
+}

data/vendor/kreuzberg/src/extractors/structured.rs ADDED Viewed

@@ -0,0 +1,126 @@
+//! Structured data extractor (JSON, YAML, TOML).
+use crate::Result;
+use crate::core::config::ExtractionConfig;
+use crate::plugins::{DocumentExtractor, Plugin};
+use crate::types::{ExtractionResult, Metadata};
+use async_trait::async_trait;
+use std::path::Path;
+/// Structured data extractor supporting JSON, YAML, and TOML.
+pub struct StructuredExtractor;
+impl Default for StructuredExtractor {
+    fn default() -> Self {
+        Self::new()
+    }
+}
+impl StructuredExtractor {
+    pub fn new() -> Self {
+        Self
+    }
+}
+impl Plugin for StructuredExtractor {
+    fn name(&self) -> &str {
+        "structured-extractor"
+    }
+    fn version(&self) -> String {
+        env!("CARGO_PKG_VERSION").to_string()
+    }
+    fn initialize(&self) -> Result<()> {
+        Ok(())
+    }
+    fn shutdown(&self) -> Result<()> {
+        Ok(())
+    }
+}
+#[async_trait]
+impl DocumentExtractor for StructuredExtractor {
+    async fn extract_bytes(
+        &self,
+        content: &[u8],
+        mime_type: &str,
+        _config: &ExtractionConfig,
+    ) -> Result<ExtractionResult> {
+        let structured_result = match mime_type {
+            "application/json" | "text/json" => crate::extraction::structured::parse_json(content, None)?,
+            "application/x-yaml" | "text/yaml" | "text/x-yaml" => crate::extraction::structured::parse_yaml(content)?,
+            "application/toml" | "text/toml" => crate::extraction::structured::parse_toml(content)?,
+            _ => return Err(crate::KreuzbergError::UnsupportedFormat(mime_type.to_string())),
+        };
+        let mut additional = std::collections::HashMap::new();
+        additional.insert(
+            "field_count".to_string(),
+            serde_json::json!(structured_result.text_fields.len()),
+        );
+        additional.insert("data_format".to_string(), serde_json::json!(structured_result.format));
+        for (key, value) in structured_result.metadata {
+            additional.insert(key, serde_json::json!(value));
+        }
+        Ok(ExtractionResult {
+            content: structured_result.content,
+            mime_type: mime_type.to_string(),
+            metadata: Metadata {
+                additional,
+                ..Default::default()
+            },
+            tables: vec![],
+            detected_languages: None,
+            chunks: None,
+            images: None,
+        })
+    }
+    async fn extract_file(&self, path: &Path, mime_type: &str, config: &ExtractionConfig) -> Result<ExtractionResult> {
+        let bytes = tokio::fs::read(path).await?;
+        self.extract_bytes(&bytes, mime_type, config).await
+    }
+    fn supported_mime_types(&self) -> &[&str] {
+        &[
+            "application/json",
+            "text/json",
+            "application/x-yaml",
+            "text/yaml",
+            "text/x-yaml",
+            "application/toml",
+            "text/toml",
+        ]
+    }
+    fn priority(&self) -> i32 {
+        50
+    }
+}
+#[cfg(test)]
+mod tests {
+    use super::*;
+    #[test]
+    fn test_structured_extractor_plugin_interface() {
+        let extractor = StructuredExtractor::new();
+        assert_eq!(extractor.name(), "structured-extractor");
+        assert!(extractor.initialize().is_ok());
+        assert!(extractor.shutdown().is_ok());
+    }
+    #[test]
+    fn test_structured_extractor_supported_mime_types() {
+        let extractor = StructuredExtractor::new();
+        let mime_types = extractor.supported_mime_types();
+        assert_eq!(mime_types.len(), 7);
+        assert!(mime_types.contains(&"application/json"));
+        assert!(mime_types.contains(&"application/x-yaml"));
+        assert!(mime_types.contains(&"application/toml"));
+    }
+}

data/vendor/kreuzberg/src/extractors/text.rs ADDED Viewed

@@ -0,0 +1,242 @@
+//! Plain text and Markdown extractors.
+use crate::Result;
+use crate::core::config::ExtractionConfig;
+use crate::extraction::text::parse_text;
+use crate::plugins::{DocumentExtractor, Plugin};
+use crate::types::ExtractionResult;
+use async_trait::async_trait;
+/// Plain text extractor.
+///
+/// Extracts content from plain text files (.txt).
+pub struct PlainTextExtractor;
+impl PlainTextExtractor {
+    /// Create a new plain text extractor.
+    pub fn new() -> Self {
+        Self
+    }
+}
+impl Default for PlainTextExtractor {
+    fn default() -> Self {
+        Self::new()
+    }
+}
+impl Plugin for PlainTextExtractor {
+    fn name(&self) -> &str {
+        "plain-text-extractor"
+    }
+    fn version(&self) -> String {
+        env!("CARGO_PKG_VERSION").to_string()
+    }
+    fn initialize(&self) -> Result<()> {
+        Ok(())
+    }
+    fn shutdown(&self) -> Result<()> {
+        Ok(())
+    }
+    fn description(&self) -> &str {
+        "Extracts content from plain text files"
+    }
+    fn author(&self) -> &str {
+        "Kreuzberg Team"
+    }
+}
+#[async_trait]
+impl DocumentExtractor for PlainTextExtractor {
+    async fn extract_bytes(
+        &self,
+        content: &[u8],
+        mime_type: &str,
+        _config: &ExtractionConfig,
+    ) -> Result<ExtractionResult> {
+        let text_result = parse_text(content, false)?;
+        Ok(ExtractionResult {
+            content: text_result.content,
+            mime_type: mime_type.to_string(),
+            metadata: crate::types::Metadata {
+                format: Some(crate::types::FormatMetadata::Text(crate::types::TextMetadata {
+                    line_count: text_result.line_count,
+                    word_count: text_result.word_count,
+                    character_count: text_result.character_count,
+                    headers: None,
+                    links: None,
+                    code_blocks: None,
+                })),
+                ..Default::default()
+            },
+            tables: vec![],
+            detected_languages: None,
+            chunks: None,
+            images: None,
+        })
+    }
+    fn supported_mime_types(&self) -> &[&str] {
+        &["text/plain"]
+    }
+    fn priority(&self) -> i32 {
+        50
+    }
+}
+/// Markdown extractor.
+///
+/// Extracts content from Markdown files (.md, .markdown).
+/// Preserves markdown syntax and extracts metadata like headers, links, and code blocks.
+pub struct MarkdownExtractor;
+impl MarkdownExtractor {
+    /// Create a new Markdown extractor.
+    pub fn new() -> Self {
+        Self
+    }
+}
+impl Default for MarkdownExtractor {
+    fn default() -> Self {
+        Self::new()
+    }
+}
+impl Plugin for MarkdownExtractor {
+    fn name(&self) -> &str {
+        "markdown-extractor"
+    }
+    fn version(&self) -> String {
+        env!("CARGO_PKG_VERSION").to_string()
+    }
+    fn initialize(&self) -> Result<()> {
+        Ok(())
+    }
+    fn shutdown(&self) -> Result<()> {
+        Ok(())
+    }
+    fn description(&self) -> &str {
+        "Extracts content from Markdown files with metadata parsing"
+    }
+    fn author(&self) -> &str {
+        "Kreuzberg Team"
+    }
+}
+#[async_trait]
+impl DocumentExtractor for MarkdownExtractor {
+    async fn extract_bytes(
+        &self,
+        content: &[u8],
+        mime_type: &str,
+        _config: &ExtractionConfig,
+    ) -> Result<ExtractionResult> {
+        let text_result = parse_text(content, true)?;
+        Ok(ExtractionResult {
+            content: text_result.content,
+            mime_type: mime_type.to_string(),
+            metadata: crate::types::Metadata {
+                format: Some(crate::types::FormatMetadata::Text(crate::types::TextMetadata {
+                    line_count: text_result.line_count,
+                    word_count: text_result.word_count,
+                    character_count: text_result.character_count,
+                    headers: text_result.headers,
+                    links: text_result.links,
+                    code_blocks: text_result.code_blocks,
+                })),
+                ..Default::default()
+            },
+            tables: vec![],
+            detected_languages: None,
+            chunks: None,
+            images: None,
+        })
+    }
+    fn supported_mime_types(&self) -> &[&str] {
+        &["text/markdown", "text/x-markdown"]
+    }
+    fn priority(&self) -> i32 {
+        50
+    }
+}
+#[cfg(test)]
+mod tests {
+    use super::*;
+    #[tokio::test]
+    async fn test_plain_text_extractor() {
+        let extractor = PlainTextExtractor::new();
+        let content = b"Hello, World!\nThis is a test.";
+        let config = ExtractionConfig::default();
+        let result = extractor.extract_bytes(content, "text/plain", &config).await.unwrap();
+        assert_eq!(result.mime_type, "text/plain");
+        assert!(result.content.contains("Hello, World!"));
+        assert!(result.metadata.format.is_some());
+        let text_meta = match result.metadata.format.as_ref().unwrap() {
+            crate::types::FormatMetadata::Text(meta) => meta,
+            _ => panic!("Expected Text metadata"),
+        };
+        assert_eq!(text_meta.line_count, 2);
+        assert_eq!(text_meta.word_count, 6);
+    }
+    #[tokio::test]
+    async fn test_markdown_extractor() {
+        let extractor = MarkdownExtractor::new();
+        let content = b"# Header\n\nThis is [a link](https://example.com).\n\n```python\nprint(\"hello\")\n```";
+        let config = ExtractionConfig::default();
+        let result = extractor
+            .extract_bytes(content, "text/markdown", &config)
+            .await
+            .unwrap();
+        assert_eq!(result.mime_type, "text/markdown");
+        assert!(result.content.contains("# Header"));
+        assert!(result.metadata.format.is_some());
+        let text_meta = match result.metadata.format.as_ref().unwrap() {
+            crate::types::FormatMetadata::Text(meta) => meta,
+            _ => panic!("Expected Text metadata"),
+        };
+        assert!(text_meta.headers.is_some());
+        assert!(text_meta.links.is_some());
+        assert!(text_meta.code_blocks.is_some());
+    }
+    #[test]
+    fn test_plain_text_plugin_interface() {
+        let extractor = PlainTextExtractor::new();
+        assert_eq!(extractor.name(), "plain-text-extractor");
+        assert_eq!(extractor.version(), env!("CARGO_PKG_VERSION"));
+        assert_eq!(extractor.supported_mime_types(), &["text/plain"]);
+        assert_eq!(extractor.priority(), 50);
+    }
+    #[test]
+    fn test_markdown_plugin_interface() {
+        let extractor = MarkdownExtractor::new();
+        assert_eq!(extractor.name(), "markdown-extractor");
+        assert_eq!(extractor.version(), env!("CARGO_PKG_VERSION"));
+        assert_eq!(extractor.supported_mime_types(), &["text/markdown", "text/x-markdown"]);
+        assert_eq!(extractor.priority(), 50);
+    }
+}