RubyGems - kreuzberg - Versions diffs - 4.0.0.rc1 - Mend

kreuzberg 4.0.0.rc1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (265) hide show

checksums.yaml +7 -0
data/.gitignore +8 -0
data/.rspec +3 -0
data/.rubocop.yaml +534 -0
data/Gemfile +9 -0
data/Gemfile.lock +157 -0
data/README.md +421 -0
data/Rakefile +25 -0
data/Steepfile +47 -0
data/examples/async_patterns.rb +340 -0
data/ext/kreuzberg_rb/extconf.rb +35 -0
data/ext/kreuzberg_rb/native/Cargo.toml +36 -0
data/ext/kreuzberg_rb/native/README.md +425 -0
data/ext/kreuzberg_rb/native/build.rs +17 -0
data/ext/kreuzberg_rb/native/include/ieeefp.h +11 -0
data/ext/kreuzberg_rb/native/include/msvc_compat/strings.h +14 -0
data/ext/kreuzberg_rb/native/include/strings.h +20 -0
data/ext/kreuzberg_rb/native/include/unistd.h +47 -0
data/ext/kreuzberg_rb/native/src/lib.rs +2939 -0
data/extconf.rb +28 -0
data/kreuzberg.gemspec +105 -0
data/lib/kreuzberg/api_proxy.rb +142 -0
data/lib/kreuzberg/cache_api.rb +45 -0
data/lib/kreuzberg/cli.rb +55 -0
data/lib/kreuzberg/cli_proxy.rb +127 -0
data/lib/kreuzberg/config.rb +684 -0
data/lib/kreuzberg/errors.rb +50 -0
data/lib/kreuzberg/extraction_api.rb +84 -0
data/lib/kreuzberg/mcp_proxy.rb +186 -0
data/lib/kreuzberg/ocr_backend_protocol.rb +113 -0
data/lib/kreuzberg/post_processor_protocol.rb +86 -0
data/lib/kreuzberg/result.rb +216 -0
data/lib/kreuzberg/setup_lib_path.rb +79 -0
data/lib/kreuzberg/validator_protocol.rb +89 -0
data/lib/kreuzberg/version.rb +5 -0
data/lib/kreuzberg.rb +82 -0
data/pkg/kreuzberg-4.0.0.rc1.gem +0 -0
data/sig/kreuzberg/internal.rbs +184 -0
data/sig/kreuzberg.rbs +468 -0
data/spec/binding/cache_spec.rb +227 -0
data/spec/binding/cli_proxy_spec.rb +87 -0
data/spec/binding/cli_spec.rb +54 -0
data/spec/binding/config_spec.rb +345 -0
data/spec/binding/config_validation_spec.rb +283 -0
data/spec/binding/error_handling_spec.rb +213 -0
data/spec/binding/errors_spec.rb +66 -0
data/spec/binding/plugins/ocr_backend_spec.rb +307 -0
data/spec/binding/plugins/postprocessor_spec.rb +269 -0
data/spec/binding/plugins/validator_spec.rb +274 -0
data/spec/examples.txt +104 -0
data/spec/fixtures/config.toml +39 -0
data/spec/fixtures/config.yaml +42 -0
data/spec/fixtures/invalid_config.toml +4 -0
data/spec/smoke/package_spec.rb +178 -0
data/spec/spec_helper.rb +42 -0
data/vendor/kreuzberg/Cargo.toml +134 -0
data/vendor/kreuzberg/README.md +175 -0
data/vendor/kreuzberg/build.rs +460 -0
data/vendor/kreuzberg/src/api/error.rs +81 -0
data/vendor/kreuzberg/src/api/handlers.rs +199 -0
data/vendor/kreuzberg/src/api/mod.rs +79 -0
data/vendor/kreuzberg/src/api/server.rs +353 -0
data/vendor/kreuzberg/src/api/types.rs +170 -0
data/vendor/kreuzberg/src/bin/profile_extract.rs +455 -0
data/vendor/kreuzberg/src/cache/mod.rs +1143 -0
data/vendor/kreuzberg/src/chunking/mod.rs +677 -0
data/vendor/kreuzberg/src/core/batch_mode.rs +35 -0
data/vendor/kreuzberg/src/core/config.rs +1032 -0
data/vendor/kreuzberg/src/core/extractor.rs +903 -0
data/vendor/kreuzberg/src/core/io.rs +327 -0
data/vendor/kreuzberg/src/core/mime.rs +615 -0
data/vendor/kreuzberg/src/core/mod.rs +42 -0
data/vendor/kreuzberg/src/core/pipeline.rs +906 -0
data/vendor/kreuzberg/src/embeddings.rs +323 -0
data/vendor/kreuzberg/src/error.rs +431 -0
data/vendor/kreuzberg/src/extraction/archive.rs +954 -0
data/vendor/kreuzberg/src/extraction/docx.rs +40 -0
data/vendor/kreuzberg/src/extraction/email.rs +854 -0
data/vendor/kreuzberg/src/extraction/excel.rs +688 -0
data/vendor/kreuzberg/src/extraction/html.rs +553 -0
data/vendor/kreuzberg/src/extraction/image.rs +368 -0
data/vendor/kreuzberg/src/extraction/libreoffice.rs +564 -0
data/vendor/kreuzberg/src/extraction/mod.rs +77 -0
data/vendor/kreuzberg/src/extraction/office_metadata/app_properties.rs +398 -0
data/vendor/kreuzberg/src/extraction/office_metadata/core_properties.rs +247 -0
data/vendor/kreuzberg/src/extraction/office_metadata/custom_properties.rs +240 -0
data/vendor/kreuzberg/src/extraction/office_metadata/mod.rs +128 -0
data/vendor/kreuzberg/src/extraction/pandoc/batch.rs +275 -0
data/vendor/kreuzberg/src/extraction/pandoc/mime_types.rs +178 -0
data/vendor/kreuzberg/src/extraction/pandoc/mod.rs +491 -0
data/vendor/kreuzberg/src/extraction/pandoc/server.rs +496 -0
data/vendor/kreuzberg/src/extraction/pandoc/subprocess.rs +1188 -0
data/vendor/kreuzberg/src/extraction/pandoc/version.rs +162 -0
data/vendor/kreuzberg/src/extraction/pptx.rs +3000 -0
data/vendor/kreuzberg/src/extraction/structured.rs +490 -0
data/vendor/kreuzberg/src/extraction/table.rs +328 -0
data/vendor/kreuzberg/src/extraction/text.rs +269 -0
data/vendor/kreuzberg/src/extraction/xml.rs +333 -0
data/vendor/kreuzberg/src/extractors/archive.rs +425 -0
data/vendor/kreuzberg/src/extractors/docx.rs +479 -0
data/vendor/kreuzberg/src/extractors/email.rs +129 -0
data/vendor/kreuzberg/src/extractors/excel.rs +344 -0
data/vendor/kreuzberg/src/extractors/html.rs +410 -0
data/vendor/kreuzberg/src/extractors/image.rs +195 -0
data/vendor/kreuzberg/src/extractors/mod.rs +268 -0
data/vendor/kreuzberg/src/extractors/pandoc.rs +201 -0
data/vendor/kreuzberg/src/extractors/pdf.rs +496 -0
data/vendor/kreuzberg/src/extractors/pptx.rs +234 -0
data/vendor/kreuzberg/src/extractors/structured.rs +126 -0
data/vendor/kreuzberg/src/extractors/text.rs +242 -0
data/vendor/kreuzberg/src/extractors/xml.rs +128 -0
data/vendor/kreuzberg/src/image/dpi.rs +164 -0
data/vendor/kreuzberg/src/image/mod.rs +6 -0
data/vendor/kreuzberg/src/image/preprocessing.rs +417 -0
data/vendor/kreuzberg/src/image/resize.rs +89 -0
data/vendor/kreuzberg/src/keywords/config.rs +154 -0
data/vendor/kreuzberg/src/keywords/mod.rs +237 -0
data/vendor/kreuzberg/src/keywords/processor.rs +267 -0
data/vendor/kreuzberg/src/keywords/rake.rs +294 -0
data/vendor/kreuzberg/src/keywords/types.rs +68 -0
data/vendor/kreuzberg/src/keywords/yake.rs +163 -0
data/vendor/kreuzberg/src/language_detection/mod.rs +942 -0
data/vendor/kreuzberg/src/lib.rs +102 -0
data/vendor/kreuzberg/src/mcp/mod.rs +32 -0
data/vendor/kreuzberg/src/mcp/server.rs +1966 -0
data/vendor/kreuzberg/src/ocr/cache.rs +469 -0
data/vendor/kreuzberg/src/ocr/error.rs +37 -0
data/vendor/kreuzberg/src/ocr/hocr.rs +216 -0
data/vendor/kreuzberg/src/ocr/mod.rs +58 -0
data/vendor/kreuzberg/src/ocr/processor.rs +847 -0
data/vendor/kreuzberg/src/ocr/table/mod.rs +4 -0
data/vendor/kreuzberg/src/ocr/table/tsv_parser.rs +144 -0
data/vendor/kreuzberg/src/ocr/tesseract_backend.rs +450 -0
data/vendor/kreuzberg/src/ocr/types.rs +393 -0
data/vendor/kreuzberg/src/ocr/utils.rs +47 -0
data/vendor/kreuzberg/src/ocr/validation.rs +206 -0
data/vendor/kreuzberg/src/pdf/error.rs +122 -0
data/vendor/kreuzberg/src/pdf/images.rs +139 -0
data/vendor/kreuzberg/src/pdf/metadata.rs +346 -0
data/vendor/kreuzberg/src/pdf/mod.rs +50 -0
data/vendor/kreuzberg/src/pdf/rendering.rs +369 -0
data/vendor/kreuzberg/src/pdf/table.rs +420 -0
data/vendor/kreuzberg/src/pdf/text.rs +161 -0
data/vendor/kreuzberg/src/plugins/extractor.rs +1010 -0
data/vendor/kreuzberg/src/plugins/mod.rs +209 -0
data/vendor/kreuzberg/src/plugins/ocr.rs +629 -0
data/vendor/kreuzberg/src/plugins/processor.rs +641 -0
data/vendor/kreuzberg/src/plugins/registry.rs +1324 -0
data/vendor/kreuzberg/src/plugins/traits.rs +258 -0
data/vendor/kreuzberg/src/plugins/validator.rs +955 -0
data/vendor/kreuzberg/src/stopwords/mod.rs +1470 -0
data/vendor/kreuzberg/src/text/mod.rs +19 -0
data/vendor/kreuzberg/src/text/quality.rs +697 -0
data/vendor/kreuzberg/src/text/string_utils.rs +217 -0
data/vendor/kreuzberg/src/text/token_reduction/cjk_utils.rs +164 -0
data/vendor/kreuzberg/src/text/token_reduction/config.rs +100 -0
data/vendor/kreuzberg/src/text/token_reduction/core.rs +796 -0
data/vendor/kreuzberg/src/text/token_reduction/filters.rs +902 -0
data/vendor/kreuzberg/src/text/token_reduction/mod.rs +160 -0
data/vendor/kreuzberg/src/text/token_reduction/semantic.rs +619 -0
data/vendor/kreuzberg/src/text/token_reduction/simd_text.rs +147 -0
data/vendor/kreuzberg/src/types.rs +873 -0
data/vendor/kreuzberg/src/utils/mod.rs +17 -0
data/vendor/kreuzberg/src/utils/quality.rs +959 -0
data/vendor/kreuzberg/src/utils/string_utils.rs +381 -0
data/vendor/kreuzberg/stopwords/af_stopwords.json +53 -0
data/vendor/kreuzberg/stopwords/ar_stopwords.json +482 -0
data/vendor/kreuzberg/stopwords/bg_stopwords.json +261 -0
data/vendor/kreuzberg/stopwords/bn_stopwords.json +400 -0
data/vendor/kreuzberg/stopwords/br_stopwords.json +1205 -0
data/vendor/kreuzberg/stopwords/ca_stopwords.json +280 -0
data/vendor/kreuzberg/stopwords/cs_stopwords.json +425 -0
data/vendor/kreuzberg/stopwords/da_stopwords.json +172 -0
data/vendor/kreuzberg/stopwords/de_stopwords.json +622 -0
data/vendor/kreuzberg/stopwords/el_stopwords.json +849 -0
data/vendor/kreuzberg/stopwords/en_stopwords.json +1300 -0
data/vendor/kreuzberg/stopwords/eo_stopwords.json +175 -0
data/vendor/kreuzberg/stopwords/es_stopwords.json +734 -0
data/vendor/kreuzberg/stopwords/et_stopwords.json +37 -0
data/vendor/kreuzberg/stopwords/eu_stopwords.json +100 -0
data/vendor/kreuzberg/stopwords/fa_stopwords.json +801 -0
data/vendor/kreuzberg/stopwords/fi_stopwords.json +849 -0
data/vendor/kreuzberg/stopwords/fr_stopwords.json +693 -0
data/vendor/kreuzberg/stopwords/ga_stopwords.json +111 -0
data/vendor/kreuzberg/stopwords/gl_stopwords.json +162 -0
data/vendor/kreuzberg/stopwords/gu_stopwords.json +226 -0
data/vendor/kreuzberg/stopwords/ha_stopwords.json +41 -0
data/vendor/kreuzberg/stopwords/he_stopwords.json +196 -0
data/vendor/kreuzberg/stopwords/hi_stopwords.json +227 -0
data/vendor/kreuzberg/stopwords/hr_stopwords.json +181 -0
data/vendor/kreuzberg/stopwords/hu_stopwords.json +791 -0
data/vendor/kreuzberg/stopwords/hy_stopwords.json +47 -0
data/vendor/kreuzberg/stopwords/id_stopwords.json +760 -0
data/vendor/kreuzberg/stopwords/it_stopwords.json +634 -0
data/vendor/kreuzberg/stopwords/ja_stopwords.json +136 -0
data/vendor/kreuzberg/stopwords/kn_stopwords.json +84 -0
data/vendor/kreuzberg/stopwords/ko_stopwords.json +681 -0
data/vendor/kreuzberg/stopwords/ku_stopwords.json +64 -0
data/vendor/kreuzberg/stopwords/la_stopwords.json +51 -0
data/vendor/kreuzberg/stopwords/lt_stopwords.json +476 -0
data/vendor/kreuzberg/stopwords/lv_stopwords.json +163 -0
data/vendor/kreuzberg/stopwords/ml_stopwords.json +1 -0
data/vendor/kreuzberg/stopwords/mr_stopwords.json +101 -0
data/vendor/kreuzberg/stopwords/ms_stopwords.json +477 -0
data/vendor/kreuzberg/stopwords/ne_stopwords.json +490 -0
data/vendor/kreuzberg/stopwords/nl_stopwords.json +415 -0
data/vendor/kreuzberg/stopwords/no_stopwords.json +223 -0
data/vendor/kreuzberg/stopwords/pl_stopwords.json +331 -0
data/vendor/kreuzberg/stopwords/pt_stopwords.json +562 -0
data/vendor/kreuzberg/stopwords/ro_stopwords.json +436 -0
data/vendor/kreuzberg/stopwords/ru_stopwords.json +561 -0
data/vendor/kreuzberg/stopwords/si_stopwords.json +193 -0
data/vendor/kreuzberg/stopwords/sk_stopwords.json +420 -0
data/vendor/kreuzberg/stopwords/sl_stopwords.json +448 -0
data/vendor/kreuzberg/stopwords/so_stopwords.json +32 -0
data/vendor/kreuzberg/stopwords/st_stopwords.json +33 -0
data/vendor/kreuzberg/stopwords/sv_stopwords.json +420 -0
data/vendor/kreuzberg/stopwords/sw_stopwords.json +76 -0
data/vendor/kreuzberg/stopwords/ta_stopwords.json +129 -0
data/vendor/kreuzberg/stopwords/te_stopwords.json +54 -0
data/vendor/kreuzberg/stopwords/th_stopwords.json +118 -0
data/vendor/kreuzberg/stopwords/tl_stopwords.json +149 -0
data/vendor/kreuzberg/stopwords/tr_stopwords.json +506 -0
data/vendor/kreuzberg/stopwords/uk_stopwords.json +75 -0
data/vendor/kreuzberg/stopwords/ur_stopwords.json +519 -0
data/vendor/kreuzberg/stopwords/vi_stopwords.json +647 -0
data/vendor/kreuzberg/stopwords/yo_stopwords.json +62 -0
data/vendor/kreuzberg/stopwords/zh_stopwords.json +796 -0
data/vendor/kreuzberg/stopwords/zu_stopwords.json +31 -0
data/vendor/kreuzberg/tests/api_tests.rs +966 -0
data/vendor/kreuzberg/tests/archive_integration.rs +543 -0
data/vendor/kreuzberg/tests/batch_orchestration.rs +542 -0
data/vendor/kreuzberg/tests/batch_processing.rs +304 -0
data/vendor/kreuzberg/tests/chunking_offset_demo.rs +92 -0
data/vendor/kreuzberg/tests/concurrency_stress.rs +509 -0
data/vendor/kreuzberg/tests/config_features.rs +580 -0
data/vendor/kreuzberg/tests/config_loading_tests.rs +439 -0
data/vendor/kreuzberg/tests/core_integration.rs +493 -0
data/vendor/kreuzberg/tests/csv_integration.rs +424 -0
data/vendor/kreuzberg/tests/docx_metadata_extraction_test.rs +124 -0
data/vendor/kreuzberg/tests/email_integration.rs +325 -0
data/vendor/kreuzberg/tests/error_handling.rs +393 -0
data/vendor/kreuzberg/tests/format_integration.rs +159 -0
data/vendor/kreuzberg/tests/helpers/mod.rs +142 -0
data/vendor/kreuzberg/tests/image_integration.rs +253 -0
data/vendor/kreuzberg/tests/keywords_integration.rs +479 -0
data/vendor/kreuzberg/tests/keywords_quality.rs +509 -0
data/vendor/kreuzberg/tests/mime_detection.rs +428 -0
data/vendor/kreuzberg/tests/ocr_configuration.rs +510 -0
data/vendor/kreuzberg/tests/ocr_errors.rs +676 -0
data/vendor/kreuzberg/tests/ocr_quality.rs +627 -0
data/vendor/kreuzberg/tests/ocr_stress.rs +469 -0
data/vendor/kreuzberg/tests/pandoc_integration.rs +503 -0
data/vendor/kreuzberg/tests/pdf_integration.rs +43 -0
data/vendor/kreuzberg/tests/pipeline_integration.rs +1412 -0
data/vendor/kreuzberg/tests/plugin_ocr_backend_test.rs +771 -0
data/vendor/kreuzberg/tests/plugin_postprocessor_test.rs +561 -0
data/vendor/kreuzberg/tests/plugin_system.rs +921 -0
data/vendor/kreuzberg/tests/plugin_validator_test.rs +783 -0
data/vendor/kreuzberg/tests/registry_integration_tests.rs +607 -0
data/vendor/kreuzberg/tests/security_validation.rs +404 -0
data/vendor/kreuzberg/tests/stopwords_integration_test.rs +888 -0
data/vendor/kreuzberg/tests/test_fastembed.rs +609 -0
data/vendor/kreuzberg/tests/xlsx_metadata_extraction_test.rs +87 -0
metadata +471 -0

data/vendor/kreuzberg/src/extraction/table.rs ADDED Viewed

@@ -0,0 +1,328 @@
+//! Table conversion utilities.
+//!
+//! This module provides functions for converting tabular data between different formats.
+//! Currently supports converting Apache Arrow IPC format to Markdown tables using Polars.
+//!
+//! # Features
+//!
+//! - **Arrow IPC parsing**: Read tables from Arrow IPC binary format
+//! - **Markdown generation**: Convert DataFrames to clean Markdown tables
+//! - **Type-safe**: Handles all Polars data types safely
+//! - **Empty table handling**: Gracefully handles empty DataFrames
+//!
+//! # Supported Conversions
+//!
+//! - Arrow IPC → Markdown table
+//! - Polars DataFrame → Markdown table
+//!
+//! # Example
+//!
+//! ```rust,no_run
+//! use kreuzberg::extraction::table::table_from_arrow_to_markdown;
+//!
+//! # fn example() -> kreuzberg::Result<()> {
+//! // Convert Arrow IPC bytes to Markdown
+//! let arrow_bytes = vec![/* Arrow IPC data */];
+//! let markdown = table_from_arrow_to_markdown(&arrow_bytes)?;
+//!
+//! println!("Markdown table:\n{}", markdown);
+//! # Ok(())
+//! # }
+//! ```
+//!
+//! # Output Format
+//!
+//! The generated Markdown follows GitHub Flavored Markdown table syntax:
+//! ```markdown
+//! | Column1 | Column2 | Column3 |
+//! |------|------|------|
+//! | value1 | value2 | value3 |
+//! | value4 | value5 | value6 |
+//! ```
+use crate::error::{KreuzbergError, Result};
+use polars::prelude::*;
+use std::io::Cursor;
+/// Convert Arrow IPC bytes to markdown table format
+pub fn table_from_arrow_to_markdown(arrow_bytes: &[u8]) -> Result<String> {
+    let cursor = Cursor::new(arrow_bytes);
+    let df = IpcReader::new(cursor)
+        .finish()
+        .map_err(|e| KreuzbergError::parsing(format!("Failed to read Arrow IPC data: {}", e)))?;
+    dataframe_to_markdown(&df)
+}
+/// Convert a Polars DataFrame to markdown table format
+fn dataframe_to_markdown(df: &DataFrame) -> Result<String> {
+    if df.is_empty() {
+        return Ok(String::new());
+    }
+    let mut markdown = String::new();
+    markdown.push_str("| ");
+    for col_name in df.get_column_names() {
+        markdown.push_str(col_name);
+        markdown.push_str(" | ");
+    }
+    markdown.push('\n');
+    markdown.push('|');
+    for _ in 0..df.width() {
+        markdown.push_str("------|");
+    }
+    markdown.push('\n');
+    for row_idx in 0..df.height() {
+        markdown.push_str("| ");
+        for col in df.get_columns() {
+            let series = col.as_materialized_series();
+            let value = format_cell_value(series, row_idx)?;
+            markdown.push_str(&value);
+            markdown.push_str(" | ");
+        }
+        markdown.push('\n');
+    }
+    Ok(markdown)
+}
+fn format_cell_value(series: &Series, idx: usize) -> Result<String> {
+    let is_null_array = series.is_null();
+    if is_null_array.get(idx).unwrap_or(false) {
+        return Ok(String::new());
+    }
+    let value_str = match series.dtype() {
+        DataType::Int8 | DataType::Int16 | DataType::Int32 | DataType::Int64 => {
+            let casted = series
+                .cast(&DataType::Int64)
+                .map_err(|e| KreuzbergError::parsing(format!("Failed to cast to i64: {}", e)))?;
+            casted
+                .i64()
+                .map_err(|e| KreuzbergError::parsing(format!("Failed to get i64 value: {}", e)))?
+                .get(idx)
+                .map(|v| v.to_string())
+                .unwrap_or_default()
+        }
+        DataType::UInt8 | DataType::UInt16 | DataType::UInt32 | DataType::UInt64 => {
+            let casted = series
+                .cast(&DataType::UInt64)
+                .map_err(|e| KreuzbergError::parsing(format!("Failed to cast to u64: {}", e)))?;
+            casted
+                .u64()
+                .map_err(|e| KreuzbergError::parsing(format!("Failed to get u64 value: {}", e)))?
+                .get(idx)
+                .map(|v| v.to_string())
+                .unwrap_or_default()
+        }
+        DataType::Float32 | DataType::Float64 => {
+            let casted = series
+                .cast(&DataType::Float64)
+                .map_err(|e| KreuzbergError::parsing(format!("Failed to cast to f64: {}", e)))?;
+            casted
+                .f64()
+                .map_err(|e| KreuzbergError::parsing(format!("Failed to get f64 value: {}", e)))?
+                .get(idx)
+                .map(|v| format!("{:.2}", v))
+                .unwrap_or_default()
+        }
+        DataType::Boolean => series
+            .bool()
+            .map_err(|e| KreuzbergError::parsing(format!("Failed to get bool value: {}", e)))?
+            .get(idx)
+            .map(|v| v.to_string())
+            .unwrap_or_default(),
+        DataType::String => series
+            .str()
+            .map_err(|e| KreuzbergError::parsing(format!("Failed to get string value: {}", e)))?
+            .get(idx)
+            .map(|v| v.to_string())
+            .unwrap_or_default(),
+        _ => {
+            format!("{:?}", series.get(idx))
+        }
+    };
+    Ok(value_str)
+}
+#[cfg(test)]
+mod tests {
+    use super::*;
+    use std::io::Cursor;
+    fn create_test_dataframe() -> DataFrame {
+        df!(
+            "name" => &["Alice", "Bob", "Charlie"],
+            "age" => &[30, 25, 35],
+            "score" => &[95.5, 87.3, 92.1]
+        )
+        .unwrap()
+    }
+    fn dataframe_to_arrow_bytes(df: &DataFrame) -> Vec<u8> {
+        let mut buffer = Vec::new();
+        let mut cursor = Cursor::new(&mut buffer);
+        let mut df_mut = df.clone();
+        IpcWriter::new(&mut cursor).finish(&mut df_mut).unwrap();
+        buffer
+    }
+    #[test]
+    fn test_dataframe_to_markdown_basic() {
+        let df = create_test_dataframe();
+        let markdown = dataframe_to_markdown(&df).unwrap();
+        assert!(markdown.contains("| name | age | score |"));
+        assert!(markdown.contains("|------|------|------|"));
+        assert!(markdown.contains("| Alice | 30 | 95.50 |"));
+        assert!(markdown.contains("| Bob | 25 | 87.30 |"));
+        assert!(markdown.contains("| Charlie | 35 | 92.10 |"));
+    }
+    #[test]
+    fn test_table_from_arrow_to_markdown() {
+        let df = create_test_dataframe();
+        let arrow_bytes = dataframe_to_arrow_bytes(&df);
+        let markdown = table_from_arrow_to_markdown(&arrow_bytes).unwrap();
+        assert!(markdown.contains("| name | age | score |"));
+        assert!(markdown.contains("| Alice | 30 | 95.50 |"));
+        assert!(markdown.contains("| Bob | 25 | 87.30 |"));
+        assert!(markdown.contains("| Charlie | 35 | 92.10 |"));
+    }
+    #[test]
+    fn test_empty_dataframe() {
+        let df = df!("col1" => Vec::<i32>::new()).unwrap();
+        let markdown = dataframe_to_markdown(&df).unwrap();
+        assert_eq!(markdown, "");
+    }
+    #[test]
+    fn test_dataframe_with_nulls() {
+        let s1 = Series::new("name".into(), &["Alice", "Bob", "Charlie"]);
+        let s2 = Series::new("value".into(), &[Some(1), None, Some(3)]);
+        let df = DataFrame::new(vec![s1.into(), s2.into()]).unwrap();
+        let markdown = dataframe_to_markdown(&df).unwrap();
+        assert!(markdown.contains("| name | value |"));
+        assert!(markdown.contains("| Alice | 1 |"));
+        assert!(markdown.contains("| Bob |  |"));
+        assert!(markdown.contains("| Charlie | 3 |"));
+    }
+    #[test]
+    fn test_dataframe_with_booleans() {
+        let df = df!(
+            "name" => &["Alice", "Bob"],
+            "active" => &[true, false]
+        )
+        .unwrap();
+        let markdown = dataframe_to_markdown(&df).unwrap();
+        assert!(markdown.contains("| name | active |"));
+        assert!(markdown.contains("| Alice | true |"));
+        assert!(markdown.contains("| Bob | false |"));
+    }
+    #[test]
+    fn test_dataframe_with_integers() {
+        let df = df!(
+            "id" => &[1i64, 2i64, 3i64],
+            "count" => &[100u64, 200u64, 300u64]
+        )
+        .unwrap();
+        let markdown = dataframe_to_markdown(&df).unwrap();
+        assert!(markdown.contains("| id | count |"));
+        assert!(markdown.contains("| 1 | 100 |"));
+        assert!(markdown.contains("| 2 | 200 |"));
+        assert!(markdown.contains("| 3 | 300 |"));
+    }
+    #[test]
+    fn test_single_column_dataframe() {
+        let df = df!("name" => &["Alice", "Bob", "Charlie"]).unwrap();
+        let markdown = dataframe_to_markdown(&df).unwrap();
+        assert!(markdown.contains("| name |"));
+        assert!(markdown.contains("|------|"));
+        assert!(markdown.contains("| Alice |"));
+        assert!(markdown.contains("| Bob |"));
+        assert!(markdown.contains("| Charlie |"));
+    }
+    #[test]
+    fn test_single_row_dataframe() {
+        let df = df!(
+            "name" => &["Alice"],
+            "age" => &[30]
+        )
+        .unwrap();
+        let markdown = dataframe_to_markdown(&df).unwrap();
+        assert!(markdown.contains("| name | age |"));
+        assert!(markdown.contains("| Alice | 30 |"));
+    }
+    #[test]
+    fn test_arrow_bytes_roundtrip() {
+        let original_df = df!(
+            "col1" => &[1, 2, 3],
+            "col2" => &["a", "b", "c"]
+        )
+        .unwrap();
+        let arrow_bytes = dataframe_to_arrow_bytes(&original_df);
+        let markdown = table_from_arrow_to_markdown(&arrow_bytes).unwrap();
+        assert!(markdown.contains("| col1 | col2 |"));
+        assert!(markdown.contains("| 1 | a |"));
+        assert!(markdown.contains("| 2 | b |"));
+        assert!(markdown.contains("| 3 | c |"));
+    }
+    #[test]
+    fn test_invalid_arrow_bytes() {
+        let invalid_bytes = vec![0u8; 10];
+        let result = table_from_arrow_to_markdown(&invalid_bytes);
+        assert!(result.is_err());
+    }
+    #[test]
+    fn test_float_formatting() {
+        let df = df!(
+            "value" => &[1.234, 5.678, 9.012]
+        )
+        .unwrap();
+        let markdown = dataframe_to_markdown(&df).unwrap();
+        assert!(markdown.contains("| 1.23 |"));
+        assert!(markdown.contains("| 5.68 |"));
+        assert!(markdown.contains("| 9.01 |"));
+    }
+    #[test]
+    fn test_special_characters_in_strings() {
+        let df = df!(
+            "text" => &["Hello | World", "A & B", "C > D"]
+        )
+        .unwrap();
+        let markdown = dataframe_to_markdown(&df).unwrap();
+        assert!(markdown.contains("| Hello | World |"));
+        assert!(markdown.contains("| A & B |"));
+        assert!(markdown.contains("| C > D |"));
+    }
+}

data/vendor/kreuzberg/src/extraction/text.rs ADDED Viewed

@@ -0,0 +1,269 @@
+//! Plain text and Markdown extraction functions.
+//!
+//! This module provides memory-efficient streaming parsers for plain text and Markdown files.
+//! Key features:
+//!
+//! - **Streaming parsing**: Processes files line-by-line to handle multi-GB files
+//! - **Markdown support**: Extracts headers, links, and code blocks from Markdown
+//! - **Word/line counting**: Accurate statistics without loading entire file
+//! - **CRLF support**: Handles both Unix and Windows line endings
+//!
+//! # Example
+//!
+//! ```rust
+//! use kreuzberg::extraction::text::parse_text;
+//!
+//! # fn example() -> kreuzberg::Result<()> {
+//! let text = b"# Hello\n\nThis is [a link](https://example.com).";
+//! let result = parse_text(text, true)?; // true = is Markdown
+//!
+//! assert_eq!(result.line_count, 3);
+//! assert!(result.headers.unwrap().contains(&"Hello".to_string()));
+//! # Ok(())
+//! # }
+//! ```
+use once_cell::sync::Lazy;
+use regex::Regex;
+use crate::error::Result;
+use crate::types::TextExtractionResult;
+static MARKDOWN_HEADER: Lazy<Regex> =
+    Lazy::new(|| Regex::new(r"^#{1,6}\s*(.+)$").expect("Markdown header regex pattern is valid and should compile"));
+static MARKDOWN_LINK: Lazy<Regex> = Lazy::new(|| {
+    Regex::new(r"\[([^\]]+)\]\(([^)]+)\)").expect("Markdown link regex pattern is valid and should compile")
+});
+static CODE_BLOCK_DELIMITER: Lazy<Regex> = Lazy::new(|| {
+    Regex::new(r"^```(\w*)[\r]?$").expect("Code block delimiter regex pattern is valid and should compile")
+});
+pub fn parse_text(text_bytes: &[u8], is_markdown: bool) -> Result<TextExtractionResult> {
+    let text = String::from_utf8_lossy(text_bytes).into_owned();
+    let mut line_count = 0;
+    let mut word_count = 0;
+    let character_count = text.len();
+    let mut headers = Vec::new();
+    let mut links = Vec::new();
+    let mut code_blocks = Vec::new();
+    let mut in_code_block = false;
+    let mut current_code_lang = String::new();
+    let mut current_code = String::new();
+    for line in text.lines() {
+        line_count += 1;
+        word_count += line.split_whitespace().count();
+        if !is_markdown {
+            continue;
+        }
+        if CODE_BLOCK_DELIMITER.is_match(line) {
+            if in_code_block {
+                code_blocks.push((
+                    if current_code_lang.is_empty() {
+                        "plain".to_string()
+                    } else {
+                        current_code_lang.clone()
+                    },
+                    current_code.trim_end().to_string(),
+                ));
+                current_code.clear();
+                current_code_lang.clear();
+                in_code_block = false;
+            } else {
+                if let Some(caps) = CODE_BLOCK_DELIMITER.captures(line) {
+                    current_code_lang = caps.get(1).map(|m| m.as_str()).unwrap_or("").to_string();
+                }
+                in_code_block = true;
+            }
+            continue;
+        }
+        if in_code_block {
+            current_code.push_str(line);
+            current_code.push('\n');
+            continue;
+        }
+        if let Some(caps) = MARKDOWN_HEADER.captures(line)
+            && let Some(header) = caps.get(1)
+        {
+            headers.push(header.as_str().to_string());
+        }
+        for caps in MARKDOWN_LINK.captures_iter(line) {
+            if let (Some(text), Some(url)) = (caps.get(1), caps.get(2)) {
+                links.push((text.as_str().to_string(), url.as_str().to_string()));
+            }
+        }
+    }
+    Ok(TextExtractionResult {
+        content: text,
+        line_count,
+        word_count,
+        character_count,
+        headers: if headers.is_empty() { None } else { Some(headers) },
+        links: if links.is_empty() { None } else { Some(links) },
+        code_blocks: if code_blocks.is_empty() {
+            None
+        } else {
+            Some(code_blocks)
+        },
+    })
+}
+#[cfg(test)]
+mod tests {
+    use super::*;
+    #[test]
+    fn test_plain_text_basic() {
+        let text = b"Hello, World!\nThis is a test.\nThird line here.";
+        let result = parse_text(text, false).unwrap();
+        assert_eq!(result.content, "Hello, World!\nThis is a test.\nThird line here.");
+        assert_eq!(result.line_count, 3);
+        assert_eq!(result.word_count, 9);
+        assert_eq!(result.character_count, result.content.len());
+        assert!(result.headers.is_none());
+        assert!(result.links.is_none());
+        assert!(result.code_blocks.is_none());
+    }
+    #[test]
+    fn test_plain_text_empty() {
+        let text = b"";
+        let result = parse_text(text, false).unwrap();
+        assert_eq!(result.content, "");
+        assert_eq!(result.line_count, 0);
+        assert_eq!(result.word_count, 0);
+        assert_eq!(result.character_count, 0);
+    }
+    #[test]
+    fn test_markdown_headers() {
+        let text = b"# Header 1\n## Header 2\n### Header 3\n#NoSpace\n## Multiple  spaces";
+        let result = parse_text(text, true).unwrap();
+        assert_eq!(result.line_count, 5);
+        let headers = result.headers.unwrap();
+        assert_eq!(headers.len(), 5);
+        assert!(headers.contains(&"Header 1".to_string()));
+        assert!(headers.contains(&"Header 2".to_string()));
+        assert!(headers.contains(&"Header 3".to_string()));
+        assert!(headers.contains(&"NoSpace".to_string()));
+        assert!(headers.contains(&"Multiple  spaces".to_string()));
+    }
+    #[test]
+    fn test_markdown_links() {
+        let text =
+            b"Check [Google](https://google.com) and [GitHub](https://github.com).\n[Another](https://example.com)";
+        let result = parse_text(text, true).unwrap();
+        let links = result.links.unwrap();
+        assert_eq!(links.len(), 3);
+        assert!(links.contains(&("Google".to_string(), "https://google.com".to_string())));
+        assert!(links.contains(&("GitHub".to_string(), "https://github.com".to_string())));
+        assert!(links.contains(&("Another".to_string(), "https://example.com".to_string())));
+    }
+    #[test]
+    fn test_markdown_code_blocks() {
+        let text = b"```python\ndef hello():\n    print(\"Hello\")\n```\n\n```javascript\nconsole.log(\"Hi\");\n```\n\n```\nplain code\n```";
+        let result = parse_text(text, true).unwrap();
+        let code_blocks = result.code_blocks.unwrap();
+        assert_eq!(code_blocks.len(), 3);
+        let python_block = code_blocks.iter().find(|(lang, _)| lang == "python").unwrap();
+        assert!(python_block.1.contains("def hello()"));
+        let js_block = code_blocks.iter().find(|(lang, _)| lang == "javascript").unwrap();
+        assert!(js_block.1.contains("console.log"));
+        let plain_block = code_blocks.iter().find(|(lang, _)| lang == "plain").unwrap();
+        assert!(plain_block.1.contains("plain code"));
+    }
+    #[test]
+    fn test_markdown_code_blocks_crlf() {
+        let text = b"```python\r\ndef hello():\r\n    print(\"Hello\")\r\n```\r\n";
+        let result = parse_text(text, true).unwrap();
+        let code_blocks = result.code_blocks.unwrap();
+        assert_eq!(code_blocks.len(), 1);
+        assert_eq!(code_blocks[0].0, "python");
+        assert!(code_blocks[0].1.contains("def hello()"));
+    }
+    #[test]
+    fn test_markdown_complex() {
+        let text = b"# Documentation\n\n## Overview\nThis is a [test](https://example.com).\n\n```python\nx = 42\n```\n\n## Another\nMore [links](https://test.com).";
+        let result = parse_text(text, true).unwrap();
+        assert!(result.line_count > 0);
+        assert!(result.word_count > 0);
+        let headers = result.headers.unwrap();
+        assert_eq!(headers.len(), 3);
+        let links = result.links.unwrap();
+        assert_eq!(links.len(), 2);
+        let code_blocks = result.code_blocks.unwrap();
+        assert_eq!(code_blocks.len(), 1);
+    }
+    #[test]
+    fn test_unicode_content() {
+        let text = "Hello 世界 🌍\nUnicode test".as_bytes();
+        let result = parse_text(text, false).unwrap();
+        assert!(result.content.contains("世界"));
+        assert!(result.content.contains("🌍"));
+        assert_eq!(result.line_count, 2);
+    }
+    #[test]
+    fn test_word_count_accuracy() {
+        let text = b"One two three four five.\nSix seven eight.\nNine.";
+        let result = parse_text(text, false).unwrap();
+        assert_eq!(result.line_count, 3);
+        assert_eq!(result.word_count, 9);
+    }
+    #[test]
+    fn test_headers_not_in_code_blocks() {
+        let text = b"# Real Header\n```\n# Not a header\n```\n## Another Real";
+        let result = parse_text(text, true).unwrap();
+        let headers = result.headers.unwrap();
+        assert_eq!(headers.len(), 2);
+        assert!(headers.contains(&"Real Header".to_string()));
+        assert!(headers.contains(&"Another Real".to_string()));
+        assert!(!headers.iter().any(|h| h.contains("Not a header")));
+    }
+    #[test]
+    fn test_links_not_in_code_blocks() {
+        let text = b"[Real Link](https://real.com)\n```\n[Not Link](https://fake.com)\n```";
+        let result = parse_text(text, true).unwrap();
+        let links = result.links.unwrap();
+        assert_eq!(links.len(), 1);
+        assert_eq!(links[0].0, "Real Link");
+        assert_eq!(links[0].1, "https://real.com");
+    }
+    #[test]
+    fn test_empty_code_block_language() {
+        let text = b"```\ncode without language\n```";
+        let result = parse_text(text, true).unwrap();
+        let code_blocks = result.code_blocks.unwrap();
+        assert_eq!(code_blocks.len(), 1);
+        assert_eq!(code_blocks[0].0, "plain");
+    }
+    #[test]
+    fn test_large_text_streaming() {
+        let large_text = "Line\n".repeat(10000);
+        let result = parse_text(large_text.as_bytes(), false).unwrap();
+        assert_eq!(result.line_count, 10000);
+        assert_eq!(result.word_count, 10000);
+    }
+}