RubyGems - kreuzberg - Versions diffs - 4.0.8 → 4.1.0 - Mend

kreuzberg 4.0.8 → 4.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (308) hide show

checksums.yaml +4 -4
data/Gemfile.lock +2 -2
data/README.md +1 -1
data/ext/kreuzberg_rb/native/Cargo.lock +94 -98
data/ext/kreuzberg_rb/native/Cargo.toml +4 -2
data/ext/kreuzberg_rb/native/src/batch.rs +139 -0
data/ext/kreuzberg_rb/native/src/config/mod.rs +10 -0
data/ext/kreuzberg_rb/native/src/config/types.rs +1058 -0
data/ext/kreuzberg_rb/native/src/error_handling.rs +125 -0
data/ext/kreuzberg_rb/native/src/extraction.rs +79 -0
data/ext/kreuzberg_rb/native/src/gc_guarded_value.rs +35 -0
data/ext/kreuzberg_rb/native/src/helpers.rs +176 -0
data/ext/kreuzberg_rb/native/src/lib.rs +342 -3622
data/ext/kreuzberg_rb/native/src/metadata.rs +34 -0
data/ext/kreuzberg_rb/native/src/plugins/mod.rs +92 -0
data/ext/kreuzberg_rb/native/src/plugins/ocr_backend.rs +159 -0
data/ext/kreuzberg_rb/native/src/plugins/post_processor.rs +126 -0
data/ext/kreuzberg_rb/native/src/plugins/validator.rs +99 -0
data/ext/kreuzberg_rb/native/src/result.rs +326 -0
data/ext/kreuzberg_rb/native/src/validation.rs +4 -0
data/lib/kreuzberg/config.rb +66 -0
data/lib/kreuzberg/result.rb +107 -2
data/lib/kreuzberg/types.rb +104 -0
data/lib/kreuzberg/version.rb +1 -1
data/lib/kreuzberg.rb +0 -4
data/sig/kreuzberg.rbs +105 -1
data/vendor/Cargo.toml +3 -3
data/vendor/kreuzberg/Cargo.toml +4 -3
data/vendor/kreuzberg/README.md +1 -1
data/vendor/kreuzberg/src/api/config.rs +69 -0
data/vendor/kreuzberg/src/api/handlers.rs +99 -2
data/vendor/kreuzberg/src/api/mod.rs +14 -7
data/vendor/kreuzberg/src/api/router.rs +214 -0
data/vendor/kreuzberg/src/api/startup.rs +243 -0
data/vendor/kreuzberg/src/api/types.rs +78 -0
data/vendor/kreuzberg/src/cache/cleanup.rs +277 -0
data/vendor/kreuzberg/src/cache/core.rs +428 -0
data/vendor/kreuzberg/src/cache/mod.rs +21 -843
data/vendor/kreuzberg/src/cache/utilities.rs +156 -0
data/vendor/kreuzberg/src/chunking/boundaries.rs +301 -0
data/vendor/kreuzberg/src/chunking/builder.rs +294 -0
data/vendor/kreuzberg/src/chunking/config.rs +52 -0
data/vendor/kreuzberg/src/chunking/core.rs +1017 -0
data/vendor/kreuzberg/src/chunking/mod.rs +14 -2211
data/vendor/kreuzberg/src/chunking/processor.rs +10 -0
data/vendor/kreuzberg/src/chunking/validation.rs +686 -0
data/vendor/kreuzberg/src/core/config/extraction/core.rs +169 -0
data/vendor/kreuzberg/src/core/config/extraction/env.rs +179 -0
data/vendor/kreuzberg/src/core/config/extraction/loaders.rs +204 -0
data/vendor/kreuzberg/src/core/config/extraction/mod.rs +42 -0
data/vendor/kreuzberg/src/core/config/extraction/types.rs +93 -0
data/vendor/kreuzberg/src/core/config/formats.rs +135 -0
data/vendor/kreuzberg/src/core/config/mod.rs +20 -0
data/vendor/kreuzberg/src/core/config/ocr.rs +73 -0
data/vendor/kreuzberg/src/core/config/page.rs +57 -0
data/vendor/kreuzberg/src/core/config/pdf.rs +111 -0
data/vendor/kreuzberg/src/core/config/processing.rs +312 -0
data/vendor/kreuzberg/src/core/config_validation/dependencies.rs +187 -0
data/vendor/kreuzberg/src/core/config_validation/mod.rs +386 -0
data/vendor/kreuzberg/src/core/config_validation/sections.rs +401 -0
data/vendor/kreuzberg/src/core/extractor/batch.rs +246 -0
data/vendor/kreuzberg/src/core/extractor/bytes.rs +116 -0
data/vendor/kreuzberg/src/core/extractor/file.rs +240 -0
data/vendor/kreuzberg/src/core/extractor/helpers.rs +71 -0
data/vendor/kreuzberg/src/core/extractor/legacy.rs +62 -0
data/vendor/kreuzberg/src/core/extractor/mod.rs +490 -0
data/vendor/kreuzberg/src/core/extractor/sync.rs +208 -0
data/vendor/kreuzberg/src/core/mod.rs +4 -1
data/vendor/kreuzberg/src/core/pipeline/cache.rs +60 -0
data/vendor/kreuzberg/src/core/pipeline/execution.rs +89 -0
data/vendor/kreuzberg/src/core/pipeline/features.rs +108 -0
data/vendor/kreuzberg/src/core/pipeline/format.rs +392 -0
data/vendor/kreuzberg/src/core/pipeline/initialization.rs +67 -0
data/vendor/kreuzberg/src/core/pipeline/mod.rs +135 -0
data/vendor/kreuzberg/src/core/pipeline/tests.rs +975 -0
data/vendor/kreuzberg/src/core/server_config/env.rs +90 -0
data/vendor/kreuzberg/src/core/server_config/loader.rs +202 -0
data/vendor/kreuzberg/src/core/server_config/mod.rs +380 -0
data/vendor/kreuzberg/src/core/server_config/tests/basic_tests.rs +124 -0
data/vendor/kreuzberg/src/core/server_config/tests/env_tests.rs +216 -0
data/vendor/kreuzberg/src/core/server_config/tests/file_loading_tests.rs +341 -0
data/vendor/kreuzberg/src/core/server_config/tests/mod.rs +5 -0
data/vendor/kreuzberg/src/core/server_config/validation.rs +17 -0
data/vendor/kreuzberg/src/embeddings.rs +136 -13
data/vendor/kreuzberg/src/extraction/{archive.rs → archive/mod.rs} +45 -239
data/vendor/kreuzberg/src/extraction/archive/sevenz.rs +98 -0
data/vendor/kreuzberg/src/extraction/archive/tar.rs +118 -0
data/vendor/kreuzberg/src/extraction/archive/zip.rs +101 -0
data/vendor/kreuzberg/src/extraction/html/converter.rs +592 -0
data/vendor/kreuzberg/src/extraction/html/image_handling.rs +95 -0
data/vendor/kreuzberg/src/extraction/html/mod.rs +53 -0
data/vendor/kreuzberg/src/extraction/html/processor.rs +659 -0
data/vendor/kreuzberg/src/extraction/html/stack_management.rs +103 -0
data/vendor/kreuzberg/src/extraction/html/types.rs +28 -0
data/vendor/kreuzberg/src/extraction/mod.rs +6 -2
data/vendor/kreuzberg/src/extraction/pptx/container.rs +159 -0
data/vendor/kreuzberg/src/extraction/pptx/content_builder.rs +168 -0
data/vendor/kreuzberg/src/extraction/pptx/elements.rs +132 -0
data/vendor/kreuzberg/src/extraction/pptx/image_handling.rs +57 -0
data/vendor/kreuzberg/src/extraction/pptx/metadata.rs +160 -0
data/vendor/kreuzberg/src/extraction/pptx/mod.rs +558 -0
data/vendor/kreuzberg/src/extraction/pptx/parser.rs +379 -0
data/vendor/kreuzberg/src/extraction/transform/content.rs +205 -0
data/vendor/kreuzberg/src/extraction/transform/elements.rs +211 -0
data/vendor/kreuzberg/src/extraction/transform/mod.rs +480 -0
data/vendor/kreuzberg/src/extraction/transform/types.rs +27 -0
data/vendor/kreuzberg/src/extractors/archive.rs +2 -0
data/vendor/kreuzberg/src/extractors/bibtex.rs +2 -0
data/vendor/kreuzberg/src/extractors/djot_format/attributes.rs +134 -0
data/vendor/kreuzberg/src/extractors/djot_format/conversion.rs +223 -0
data/vendor/kreuzberg/src/extractors/djot_format/extractor.rs +172 -0
data/vendor/kreuzberg/src/extractors/djot_format/mod.rs +24 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/block_handlers.rs +271 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/content_extraction.rs +257 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/event_handlers.rs +101 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/inline_handlers.rs +201 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/mod.rs +16 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/state.rs +78 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/table_extraction.rs +68 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/text_extraction.rs +61 -0
data/vendor/kreuzberg/src/extractors/djot_format/rendering.rs +452 -0
data/vendor/kreuzberg/src/extractors/docbook.rs +2 -0
data/vendor/kreuzberg/src/extractors/docx.rs +12 -1
data/vendor/kreuzberg/src/extractors/email.rs +2 -0
data/vendor/kreuzberg/src/extractors/epub/content.rs +333 -0
data/vendor/kreuzberg/src/extractors/epub/metadata.rs +137 -0
data/vendor/kreuzberg/src/extractors/epub/mod.rs +186 -0
data/vendor/kreuzberg/src/extractors/epub/parsing.rs +86 -0
data/vendor/kreuzberg/src/extractors/excel.rs +4 -0
data/vendor/kreuzberg/src/extractors/fictionbook.rs +2 -0
data/vendor/kreuzberg/src/extractors/frontmatter_utils.rs +466 -0
data/vendor/kreuzberg/src/extractors/html.rs +80 -8
data/vendor/kreuzberg/src/extractors/image.rs +8 -1
data/vendor/kreuzberg/src/extractors/jats/elements.rs +350 -0
data/vendor/kreuzberg/src/extractors/jats/metadata.rs +21 -0
data/vendor/kreuzberg/src/extractors/{jats.rs → jats/mod.rs} +10 -412
data/vendor/kreuzberg/src/extractors/jats/parser.rs +52 -0
data/vendor/kreuzberg/src/extractors/jupyter.rs +2 -0
data/vendor/kreuzberg/src/extractors/latex/commands.rs +93 -0
data/vendor/kreuzberg/src/extractors/latex/environments.rs +157 -0
data/vendor/kreuzberg/src/extractors/latex/metadata.rs +27 -0
data/vendor/kreuzberg/src/extractors/latex/mod.rs +146 -0
data/vendor/kreuzberg/src/extractors/latex/parser.rs +231 -0
data/vendor/kreuzberg/src/extractors/latex/utilities.rs +126 -0
data/vendor/kreuzberg/src/extractors/markdown.rs +39 -162
data/vendor/kreuzberg/src/extractors/mod.rs +9 -1
data/vendor/kreuzberg/src/extractors/odt.rs +2 -0
data/vendor/kreuzberg/src/extractors/opml/core.rs +165 -0
data/vendor/kreuzberg/src/extractors/opml/mod.rs +31 -0
data/vendor/kreuzberg/src/extractors/opml/parser.rs +479 -0
data/vendor/kreuzberg/src/extractors/orgmode.rs +2 -0
data/vendor/kreuzberg/src/extractors/pdf/extraction.rs +106 -0
data/vendor/kreuzberg/src/extractors/{pdf.rs → pdf/mod.rs} +25 -324
data/vendor/kreuzberg/src/extractors/pdf/ocr.rs +214 -0
data/vendor/kreuzberg/src/extractors/pdf/pages.rs +51 -0
data/vendor/kreuzberg/src/extractors/pptx.rs +9 -2
data/vendor/kreuzberg/src/extractors/rst.rs +2 -0
data/vendor/kreuzberg/src/extractors/rtf/encoding.rs +116 -0
data/vendor/kreuzberg/src/extractors/rtf/formatting.rs +24 -0
data/vendor/kreuzberg/src/extractors/rtf/images.rs +72 -0
data/vendor/kreuzberg/src/extractors/rtf/metadata.rs +216 -0
data/vendor/kreuzberg/src/extractors/rtf/mod.rs +142 -0
data/vendor/kreuzberg/src/extractors/rtf/parser.rs +259 -0
data/vendor/kreuzberg/src/extractors/rtf/tables.rs +83 -0
data/vendor/kreuzberg/src/extractors/structured.rs +2 -0
data/vendor/kreuzberg/src/extractors/text.rs +4 -0
data/vendor/kreuzberg/src/extractors/typst.rs +2 -0
data/vendor/kreuzberg/src/extractors/xml.rs +2 -0
data/vendor/kreuzberg/src/keywords/processor.rs +14 -0
data/vendor/kreuzberg/src/language_detection/processor.rs +10 -0
data/vendor/kreuzberg/src/lib.rs +2 -2
data/vendor/kreuzberg/src/mcp/errors.rs +312 -0
data/vendor/kreuzberg/src/mcp/format.rs +211 -0
data/vendor/kreuzberg/src/mcp/mod.rs +9 -3
data/vendor/kreuzberg/src/mcp/params.rs +196 -0
data/vendor/kreuzberg/src/mcp/server.rs +39 -1438
data/vendor/kreuzberg/src/mcp/tools/cache.rs +179 -0
data/vendor/kreuzberg/src/mcp/tools/extraction.rs +403 -0
data/vendor/kreuzberg/src/mcp/tools/mime.rs +150 -0
data/vendor/kreuzberg/src/mcp/tools/mod.rs +11 -0
data/vendor/kreuzberg/src/ocr/backends/easyocr.rs +96 -0
data/vendor/kreuzberg/src/ocr/backends/mod.rs +7 -0
data/vendor/kreuzberg/src/ocr/backends/paddleocr.rs +27 -0
data/vendor/kreuzberg/src/ocr/backends/tesseract.rs +134 -0
data/vendor/kreuzberg/src/ocr/hocr.rs +60 -16
data/vendor/kreuzberg/src/ocr/language_registry.rs +11 -235
data/vendor/kreuzberg/src/ocr/mod.rs +1 -0
data/vendor/kreuzberg/src/ocr/processor/config.rs +203 -0
data/vendor/kreuzberg/src/ocr/processor/execution.rs +494 -0
data/vendor/kreuzberg/src/ocr/processor/mod.rs +265 -0
data/vendor/kreuzberg/src/ocr/processor/validation.rs +145 -0
data/vendor/kreuzberg/src/ocr/tesseract_backend.rs +41 -24
data/vendor/kreuzberg/src/pdf/bindings.rs +21 -8
data/vendor/kreuzberg/src/pdf/hierarchy/bounding_box.rs +289 -0
data/vendor/kreuzberg/src/pdf/hierarchy/clustering.rs +199 -0
data/vendor/kreuzberg/src/pdf/{hierarchy.rs → hierarchy/extraction.rs} +6 -346
data/vendor/kreuzberg/src/pdf/hierarchy/mod.rs +18 -0
data/vendor/kreuzberg/src/plugins/extractor/mod.rs +319 -0
data/vendor/kreuzberg/src/plugins/extractor/registry.rs +434 -0
data/vendor/kreuzberg/src/plugins/extractor/trait.rs +391 -0
data/vendor/kreuzberg/src/plugins/mod.rs +13 -0
data/vendor/kreuzberg/src/plugins/ocr.rs +11 -0
data/vendor/kreuzberg/src/plugins/processor/mod.rs +365 -0
data/vendor/kreuzberg/src/plugins/processor/registry.rs +37 -0
data/vendor/kreuzberg/src/plugins/processor/trait.rs +284 -0
data/vendor/kreuzberg/src/plugins/registry/extractor.rs +416 -0
data/vendor/kreuzberg/src/plugins/registry/mod.rs +116 -0
data/vendor/kreuzberg/src/plugins/registry/ocr.rs +293 -0
data/vendor/kreuzberg/src/plugins/registry/processor.rs +304 -0
data/vendor/kreuzberg/src/plugins/registry/validator.rs +238 -0
data/vendor/kreuzberg/src/plugins/validator/mod.rs +424 -0
data/vendor/kreuzberg/src/plugins/validator/registry.rs +355 -0
data/vendor/kreuzberg/src/plugins/validator/trait.rs +276 -0
data/vendor/kreuzberg/src/stopwords/languages/asian.rs +40 -0
data/vendor/kreuzberg/src/stopwords/languages/germanic.rs +36 -0
data/vendor/kreuzberg/src/stopwords/languages/mod.rs +10 -0
data/vendor/kreuzberg/src/stopwords/languages/other.rs +44 -0
data/vendor/kreuzberg/src/stopwords/languages/romance.rs +36 -0
data/vendor/kreuzberg/src/stopwords/languages/slavic.rs +36 -0
data/vendor/kreuzberg/src/stopwords/mod.rs +7 -33
data/vendor/kreuzberg/src/text/quality.rs +1 -1
data/vendor/kreuzberg/src/text/quality_processor.rs +10 -0
data/vendor/kreuzberg/src/text/token_reduction/core/analysis.rs +238 -0
data/vendor/kreuzberg/src/text/token_reduction/core/mod.rs +8 -0
data/vendor/kreuzberg/src/text/token_reduction/core/punctuation.rs +54 -0
data/vendor/kreuzberg/src/text/token_reduction/core/reducer.rs +384 -0
data/vendor/kreuzberg/src/text/token_reduction/core/sentence_selection.rs +68 -0
data/vendor/kreuzberg/src/text/token_reduction/core/word_filtering.rs +156 -0
data/vendor/kreuzberg/src/text/token_reduction/filters/general.rs +377 -0
data/vendor/kreuzberg/src/text/token_reduction/filters/html.rs +51 -0
data/vendor/kreuzberg/src/text/token_reduction/filters/markdown.rs +285 -0
data/vendor/kreuzberg/src/text/token_reduction/filters.rs +131 -246
data/vendor/kreuzberg/src/types/djot.rs +209 -0
data/vendor/kreuzberg/src/types/extraction.rs +301 -0
data/vendor/kreuzberg/src/types/formats.rs +443 -0
data/vendor/kreuzberg/src/types/metadata.rs +560 -0
data/vendor/kreuzberg/src/types/mod.rs +281 -0
data/vendor/kreuzberg/src/types/page.rs +182 -0
data/vendor/kreuzberg/src/types/serde_helpers.rs +132 -0
data/vendor/kreuzberg/src/types/tables.rs +39 -0
data/vendor/kreuzberg/src/utils/quality/heuristics.rs +58 -0
data/vendor/kreuzberg/src/utils/{quality.rs → quality/mod.rs} +168 -489
data/vendor/kreuzberg/src/utils/quality/patterns.rs +117 -0
data/vendor/kreuzberg/src/utils/quality/scoring.rs +178 -0
data/vendor/kreuzberg/src/utils/string_pool/buffer_pool.rs +325 -0
data/vendor/kreuzberg/src/utils/string_pool/interned.rs +102 -0
data/vendor/kreuzberg/src/utils/string_pool/language_pool.rs +119 -0
data/vendor/kreuzberg/src/utils/string_pool/mime_pool.rs +235 -0
data/vendor/kreuzberg/src/utils/string_pool/mod.rs +41 -0
data/vendor/kreuzberg/tests/api_chunk.rs +313 -0
data/vendor/kreuzberg/tests/api_embed.rs +6 -9
data/vendor/kreuzberg/tests/batch_orchestration.rs +1 -0
data/vendor/kreuzberg/tests/concurrency_stress.rs +7 -0
data/vendor/kreuzberg/tests/core_integration.rs +1 -0
data/vendor/kreuzberg/tests/docx_metadata_extraction_test.rs +130 -0
data/vendor/kreuzberg/tests/epub_native_extractor_tests.rs +5 -14
data/vendor/kreuzberg/tests/format_integration.rs +2 -0
data/vendor/kreuzberg/tests/helpers/mod.rs +1 -0
data/vendor/kreuzberg/tests/html_table_test.rs +11 -11
data/vendor/kreuzberg/tests/ocr_configuration.rs +16 -0
data/vendor/kreuzberg/tests/ocr_errors.rs +18 -0
data/vendor/kreuzberg/tests/ocr_quality.rs +9 -0
data/vendor/kreuzberg/tests/ocr_stress.rs +1 -0
data/vendor/kreuzberg/tests/pipeline_integration.rs +50 -0
data/vendor/kreuzberg/tests/plugin_ocr_backend_test.rs +13 -0
data/vendor/kreuzberg/tests/plugin_system.rs +12 -0
data/vendor/kreuzberg/tests/registry_integration_tests.rs +2 -0
data/vendor/kreuzberg-ffi/Cargo.toml +2 -1
data/vendor/kreuzberg-ffi/benches/result_view_benchmark.rs +2 -0
data/vendor/kreuzberg-ffi/kreuzberg.h +347 -178
data/vendor/kreuzberg-ffi/src/config/html.rs +318 -0
data/vendor/kreuzberg-ffi/src/config/loader.rs +154 -0
data/vendor/kreuzberg-ffi/src/config/merge.rs +104 -0
data/vendor/kreuzberg-ffi/src/config/mod.rs +385 -0
data/vendor/kreuzberg-ffi/src/config/parse.rs +91 -0
data/vendor/kreuzberg-ffi/src/config/serialize.rs +118 -0
data/vendor/kreuzberg-ffi/src/config_builder.rs +598 -0
data/vendor/kreuzberg-ffi/src/error.rs +46 -14
data/vendor/kreuzberg-ffi/src/helpers.rs +10 -0
data/vendor/kreuzberg-ffi/src/html_options.rs +421 -0
data/vendor/kreuzberg-ffi/src/lib.rs +16 -0
data/vendor/kreuzberg-ffi/src/panic_shield.rs +11 -0
data/vendor/kreuzberg-ffi/src/plugins/ocr_backend.rs +2 -0
data/vendor/kreuzberg-ffi/src/result.rs +148 -122
data/vendor/kreuzberg-ffi/src/result_view.rs +4 -0
data/vendor/kreuzberg-tesseract/Cargo.toml +2 -2
metadata +200 -28
data/vendor/kreuzberg/src/api/server.rs +0 -518
data/vendor/kreuzberg/src/core/config.rs +0 -1914
data/vendor/kreuzberg/src/core/config_validation.rs +0 -949
data/vendor/kreuzberg/src/core/extractor.rs +0 -1200
data/vendor/kreuzberg/src/core/pipeline.rs +0 -1223
data/vendor/kreuzberg/src/core/server_config.rs +0 -1220
data/vendor/kreuzberg/src/extraction/html.rs +0 -1830
data/vendor/kreuzberg/src/extraction/pptx.rs +0 -3102
data/vendor/kreuzberg/src/extractors/epub.rs +0 -696
data/vendor/kreuzberg/src/extractors/latex.rs +0 -653
data/vendor/kreuzberg/src/extractors/opml.rs +0 -635
data/vendor/kreuzberg/src/extractors/rtf.rs +0 -809
data/vendor/kreuzberg/src/ocr/processor.rs +0 -858
data/vendor/kreuzberg/src/plugins/extractor.rs +0 -1042
data/vendor/kreuzberg/src/plugins/processor.rs +0 -650
data/vendor/kreuzberg/src/plugins/registry.rs +0 -1339
data/vendor/kreuzberg/src/plugins/validator.rs +0 -967
data/vendor/kreuzberg/src/text/token_reduction/core.rs +0 -832
data/vendor/kreuzberg/src/types.rs +0 -1713
data/vendor/kreuzberg/src/utils/string_pool.rs +0 -762
data/vendor/kreuzberg-ffi/src/config.rs +0 -1341

data/vendor/kreuzberg/src/extractors/latex/environments.rs ADDED Viewed

@@ -0,0 +1,157 @@
+//! LaTeX environment processing.
+//!
+//! This module handles LaTeX environments like itemize, enumerate, description,
+//! tabular, and table environments.
+use super::commands::process_line;
+use super::utilities::{clean_text, collect_environment, extract_braced, extract_env_name};
+use crate::types::Table;
+/// Processes a list environment (itemize, enumerate, or description).
+///
+/// Converts LaTeX lists into markdown-style lists with proper nesting.
+pub fn process_list(content: &str, list_type: &str, output: &mut String) {
+    let lines: Vec<&str> = content.lines().collect();
+    let mut item_num = 1;
+    let mut i = 0;
+    while i < lines.len() {
+        let line = lines[i];
+        let trimmed = line.trim();
+        // Handle nested lists
+        if trimmed.contains("\\begin{")
+            && let Some(env_name) = extract_env_name(trimmed)
+            && (env_name == "itemize" || env_name == "enumerate" || env_name == "description")
+        {
+            let (nested_content, new_i) = collect_environment(&lines, i, &env_name);
+            let current_output_len = output.len();
+            process_list(&nested_content, &env_name, output);
+            let nested_output = output[current_output_len..].to_string();
+            output.truncate(current_output_len);
+            // Indent nested list
+            for nested_line in nested_output.lines() {
+                output.push_str("  ");
+                output.push_str(nested_line);
+                output.push('\n');
+            }
+            i = new_i;
+            continue;
+        }
+        // Handle \item
+        if trimmed.starts_with("\\item")
+            && let Some(pos) = trimmed.find("\\item")
+        {
+            let after = trimmed[pos + 5..].trim();
+            // Handle \item[label] for description lists
+            if after.starts_with('[')
+                && let Some(bracket_end) = after.find(']')
+            {
+                let label = after[1..bracket_end].to_string();
+                let text = after[bracket_end + 1..].trim().to_string();
+                if list_type == "description" {
+                    let processed_text = process_line(&text);
+                    output.push_str(&format!("{}: {}\n", label, processed_text));
+                    item_num += 1;
+                    i += 1;
+                    continue;
+                }
+            }
+            // Regular list item
+            let prefix = if list_type == "enumerate" {
+                format!("{}. ", item_num)
+            } else {
+                "- ".to_string()
+            };
+            output.push_str(&prefix);
+            let item_text = process_line(after);
+            output.push_str(item_text.trim());
+            output.push('\n');
+            item_num += 1;
+        }
+        i += 1;
+    }
+    output.push('\n');
+}
+/// Processes a tabular environment.
+///
+/// Converts LaTeX tables into markdown tables and creates Table structures.
+pub fn process_table(content: &str, output: &mut String, tables: &mut Vec<Table>) {
+    let lines: Vec<&str> = content.lines().collect();
+    let mut rows: Vec<Vec<String>> = Vec::new();
+    for line in lines {
+        let trimmed = line.trim();
+        if trimmed.starts_with("\\hline") || trimmed.is_empty() || trimmed.contains("\\begin{tabular}") {
+            continue;
+        }
+        let row_str = trimmed.replace("\\\\", "");
+        let cells: Vec<String> = row_str
+            .split('&')
+            .map(|s| clean_text(s.trim()))
+            .filter(|s| !s.is_empty())
+            .collect();
+        if !cells.is_empty() {
+            rows.push(cells);
+        }
+    }
+    if !rows.is_empty() {
+        let mut markdown = String::new();
+        for (i, row) in rows.iter().enumerate() {
+            markdown.push('|');
+            for cell in row {
+                markdown.push_str(&format!(" {} |", cell));
+            }
+            markdown.push('\n');
+            // Add header separator after first row
+            if i == 0 && rows.len() > 1 {
+                markdown.push('|');
+                for _ in row {
+                    markdown.push_str(" --- |");
+                }
+                markdown.push('\n');
+            }
+        }
+        output.push_str(&markdown);
+        let table = Table {
+            cells: rows,
+            markdown: markdown.clone(),
+            page_number: 1,
+        };
+        tables.push(table);
+    }
+}
+/// Processes a table environment with caption.
+///
+/// Extracts the caption and processes the embedded tabular environment.
+pub fn process_table_with_caption(content: &str, output: &mut String, tables: &mut Vec<Table>) {
+    // Extract and add caption if present
+    if content.contains("\\caption{")
+        && let Some(caption) = extract_braced(content, "caption")
+    {
+        output.push_str(&caption);
+        output.push('\n');
+    }
+    // Process the tabular environment inside
+    if content.contains("\\begin{tabular}")
+        && let Some(start) = content.find("\\begin{tabular}")
+        && let Some(end) = content.find("\\end{tabular}")
+    {
+        let tabular_content = &content[start..end + 13];
+        process_table(tabular_content, output, tables);
+    }
+}

data/vendor/kreuzberg/src/extractors/latex/metadata.rs ADDED Viewed

@@ -0,0 +1,27 @@
+//! Metadata extraction for LaTeX documents.
+//!
+//! This module handles extraction of document metadata like title, author, and date
+//! from LaTeX preamble commands.
+use super::utilities::extract_braced;
+use crate::types::Metadata;
+/// Extracts metadata from a LaTeX line.
+///
+/// Looks for \title{}, \author{}, and \date{} commands and populates
+/// the provided Metadata structure.
+pub fn extract_metadata_from_line(line: &str, metadata: &mut Metadata) {
+    if line.starts_with("\\title{") {
+        if let Some(title) = extract_braced(line, "title") {
+            metadata.additional.insert("title".to_string(), title.into());
+        }
+    } else if line.starts_with("\\author{") {
+        if let Some(author) = extract_braced(line, "author") {
+            metadata.additional.insert("author".to_string(), author.into());
+        }
+    } else if line.starts_with("\\date{")
+        && let Some(date) = extract_braced(line, "date")
+    {
+        metadata.additional.insert("date".to_string(), date.into());
+    }
+}

data/vendor/kreuzberg/src/extractors/latex/mod.rs ADDED Viewed

@@ -0,0 +1,146 @@
+//! Native Rust LaTeX text extractor.
+//!
+//! This extractor provides comprehensive LaTeX document parsing and text extraction.
+//!
+//! Features:
+//! - Metadata extraction: title, author, date from \title{}, \author{}, \date{}
+//! - Section hierarchy: \section{}, \subsection{}, \subsubsection{}, etc.
+//! - Inline formatting: \emph{}, \textbf{}, \textit{}, \texttt{}, \underline{}
+//! - Lists: itemize, enumerate, description environments
+//! - Tables: tabular environment parsing
+//! - Math: inline ($...$) and display (\[...\]) math preservation
+//! - Unicode support
+//!
+//! Requires the `office` feature.
+mod commands;
+mod environments;
+mod metadata;
+mod parser;
+mod utilities;
+use crate::Result;
+use crate::core::config::ExtractionConfig;
+use crate::plugins::{DocumentExtractor, Plugin};
+use crate::types::{ExtractionResult, Metadata, Table};
+use async_trait::async_trait;
+use parser::LatexParser;
+/// LaTeX document extractor
+pub struct LatexExtractor;
+impl LatexExtractor {
+    /// Create a new LaTeX extractor.
+    pub fn new() -> Self {
+        Self
+    }
+    /// Parse LaTeX content and extract text.
+    fn extract_from_latex(content: &str) -> (String, Metadata, Vec<Table>) {
+        let mut parser = LatexParser::new(content);
+        parser.parse()
+    }
+}
+impl Default for LatexExtractor {
+    fn default() -> Self {
+        Self::new()
+    }
+}
+impl Plugin for LatexExtractor {
+    fn name(&self) -> &str {
+        "latex-extractor"
+    }
+    fn version(&self) -> String {
+        env!("CARGO_PKG_VERSION").to_string()
+    }
+    fn initialize(&self) -> Result<()> {
+        Ok(())
+    }
+    fn shutdown(&self) -> Result<()> {
+        Ok(())
+    }
+    fn description(&self) -> &str {
+        "Native Rust LaTeX document extractor with metadata and table support"
+    }
+    fn author(&self) -> &str {
+        "Kreuzberg Team"
+    }
+}
+#[async_trait]
+impl DocumentExtractor for LatexExtractor {
+    #[cfg_attr(feature = "otel", tracing::instrument(
+        skip(self, content, _config),
+        fields(
+            extractor.name = self.name(),
+            content.size_bytes = content.len(),
+        )
+    ))]
+    async fn extract_bytes(
+        &self,
+        content: &[u8],
+        mime_type: &str,
+        _config: &ExtractionConfig,
+    ) -> Result<ExtractionResult> {
+        let latex_str = String::from_utf8_lossy(content).to_string();
+        let (text, metadata, tables) = Self::extract_from_latex(&latex_str);
+        Ok(ExtractionResult {
+            content: text,
+            mime_type: mime_type.to_string(),
+            metadata,
+            tables,
+            detected_languages: None,
+            chunks: None,
+            images: None,
+            djot_content: None,
+            pages: None,
+            elements: None,
+        })
+    }
+    fn supported_mime_types(&self) -> &[&str] {
+        &["application/x-latex", "text/x-tex"]
+    }
+    fn priority(&self) -> i32 {
+        50
+    }
+}
+#[cfg(test)]
+mod tests {
+    use super::*;
+    #[test]
+    fn test_basic_title_extraction() {
+        let latex = r#"\title{Hello World}"#;
+        let (_, metadata, _) = LatexExtractor::extract_from_latex(latex);
+        assert_eq!(
+            metadata.additional.get("title").and_then(|v| v.as_str()),
+            Some("Hello World")
+        );
+    }
+    #[test]
+    fn test_author_extraction() {
+        let latex = r#"\author{John Doe}"#;
+        let (_, metadata, _) = LatexExtractor::extract_from_latex(latex);
+        assert!(metadata.additional.contains_key("author"));
+    }
+    #[test]
+    fn test_section_extraction() {
+        let latex = r#"\begin{document}\section{Introduction}\end{document}"#;
+        let (content, _, _) = LatexExtractor::extract_from_latex(latex);
+        assert!(content.contains("Introduction"));
+    }
+}

data/vendor/kreuzberg/src/extractors/latex/parser.rs ADDED Viewed

@@ -0,0 +1,231 @@
+//! Core LaTeX parser implementation.
+//!
+//! This module contains the main LatexParser struct and the core parsing logic
+//! that orchestrates document structure extraction.
+use super::commands::process_line;
+use super::environments::{process_list, process_table, process_table_with_caption};
+use super::metadata::extract_metadata_from_line;
+use super::utilities::{collect_environment, extract_braced, extract_env_name};
+use crate::types::{Metadata, Table};
+/// LaTeX parser state machine.
+///
+/// Maintains parsing state including metadata, tables, and output as it
+/// processes a LaTeX document line by line.
+pub struct LatexParser<'a> {
+    source: &'a str,
+    metadata: Metadata,
+    tables: Vec<Table>,
+    output: String,
+}
+impl<'a> LatexParser<'a> {
+    /// Creates a new LaTeX parser for the given source.
+    pub fn new(source: &'a str) -> Self {
+        Self {
+            source,
+            metadata: Metadata::default(),
+            tables: Vec::new(),
+            output: String::new(),
+        }
+    }
+    /// Parses the LaTeX document and returns extracted content, metadata, and tables.
+    pub fn parse(&mut self) -> (String, Metadata, Vec<Table>) {
+        let lines: Vec<&str> = self.source.lines().collect();
+        let mut in_document = false;
+        let mut skip_until_end = None::<String>;
+        let mut i = 0;
+        // Detect plain TeX documents (no \begin{document})
+        let is_plain_tex = self.source.contains("\\bye") && !self.source.contains("\\begin{document}");
+        if is_plain_tex {
+            in_document = true;
+        }
+        while i < lines.len() {
+            let line = lines[i];
+            let trimmed = line.trim();
+            // Handle environments we're skipping
+            if let Some(ref env) = skip_until_end {
+                if trimmed.contains(&format!("\\end{{{}}}", env)) {
+                    skip_until_end = None;
+                }
+                i += 1;
+                continue;
+            }
+            // Handle plain TeX end marker
+            if is_plain_tex && trimmed.contains("\\bye") {
+                break;
+            }
+            // Extract metadata from preamble
+            if !in_document && !is_plain_tex {
+                extract_metadata_from_line(trimmed, &mut self.metadata);
+            }
+            // Handle \begin{document}
+            if !is_plain_tex && trimmed.contains("\\begin{document}") {
+                in_document = true;
+                // Handle single-line documents
+                if trimmed.contains("\\end{document}") {
+                    self.process_single_line_document(trimmed);
+                    break;
+                }
+                i += 1;
+                continue;
+            }
+            // Handle \end{document}
+            if !is_plain_tex && trimmed.contains("\\end{document}") {
+                break;
+            }
+            // Process document content
+            if in_document {
+                if self.process_environments(&lines, trimmed, &mut i, &mut skip_until_end) {
+                    continue;
+                }
+                self.process_sections_and_content(trimmed, &lines, &mut i);
+            }
+            i += 1;
+        }
+        let content = self.output.trim().to_string();
+        (content, self.metadata.clone(), self.tables.clone())
+    }
+    /// Processes a single-line document (both \begin and \end on same line).
+    fn process_single_line_document(&mut self, trimmed: &str) {
+        let Some(begin_pos) = trimmed.find("\\begin{document}") else {
+            return;
+        };
+        let Some(end_pos) = trimmed.find("\\end{document}") else {
+            return;
+        };
+        let content_between = trimmed[begin_pos + 16..end_pos].trim();
+        if !content_between.is_empty() {
+            if content_between.starts_with("\\section{") {
+                if let Some(title) = extract_braced(content_between, "section") {
+                    self.output.push_str(&format!("\n# {}\n\n", title));
+                }
+            } else {
+                let processed = process_line(content_between);
+                if !processed.is_empty() {
+                    self.output.push_str(&processed);
+                    self.output.push('\n');
+                }
+            }
+        }
+    }
+    /// Processes LaTeX environments (lists, tables, math).
+    ///
+    /// Returns true if an environment was processed and the line index was updated.
+    fn process_environments(
+        &mut self,
+        lines: &[&str],
+        trimmed: &str,
+        i: &mut usize,
+        skip_until_end: &mut Option<String>,
+    ) -> bool {
+        if !trimmed.contains("\\begin{") {
+            return false;
+        }
+        let Some(env_name) = extract_env_name(trimmed) else {
+            return false;
+        };
+        match env_name.as_str() {
+            "itemize" | "enumerate" | "description" => {
+                let (env_content, new_i) = collect_environment(lines, *i, &env_name);
+                process_list(&env_content, &env_name, &mut self.output);
+                *i = new_i;
+                true
+            }
+            "tabular" => {
+                let (env_content, new_i) = collect_environment(lines, *i, "tabular");
+                process_table(&env_content, &mut self.output, &mut self.tables);
+                *i = new_i;
+                true
+            }
+            "table" => {
+                let (env_content, new_i) = collect_environment(lines, *i, "table");
+                process_table_with_caption(&env_content, &mut self.output, &mut self.tables);
+                *i = new_i;
+                true
+            }
+            "equation" | "align" | "gather" | "multline" => {
+                let (env_content, new_i) = collect_environment(lines, *i, &env_name);
+                self.output.push_str("$$\\begin{");
+                self.output.push_str(&env_name);
+                self.output.push_str("}\n");
+                self.output.push_str(&env_content);
+                self.output.push_str("\\end{");
+                self.output.push_str(&env_name);
+                self.output.push_str("}$$\n\n");
+                *i = new_i;
+                true
+            }
+            _ => {
+                *skip_until_end = Some(env_name);
+                false
+            }
+        }
+    }
+    /// Processes section headings, display math, and regular content.
+    fn process_sections_and_content(&mut self, trimmed: &str, lines: &[&str], i: &mut usize) {
+        if trimmed.starts_with("\\section{") {
+            if let Some(title) = extract_braced(trimmed, "section") {
+                self.output.push_str(&format!("\n# {}\n\n", title));
+            }
+        } else if trimmed.starts_with("\\subsection{") {
+            if let Some(title) = extract_braced(trimmed, "subsection") {
+                self.output.push_str(&format!("## {}\n\n", title));
+            }
+        } else if trimmed.starts_with("\\subsubsection{") {
+            if let Some(title) = extract_braced(trimmed, "subsubsection") {
+                self.output.push_str(&format!("### {}\n\n", title));
+            }
+        } else if trimmed.starts_with("\\[") {
+            // Display math mode
+            self.process_display_math(trimmed, lines, i);
+        } else if !trimmed.is_empty() && !trimmed.starts_with("%") {
+            // Regular content
+            let processed = process_line(trimmed);
+            if !processed.is_empty() {
+                self.output.push_str(&processed);
+                self.output.push('\n');
+            }
+        }
+    }
+    /// Processes display math mode \[...\].
+    fn process_display_math(&mut self, trimmed: &str, lines: &[&str], i: &mut usize) {
+        let mut math_content = trimmed.to_string();
+        if !trimmed.contains("\\]") {
+            // Math spans multiple lines
+            *i += 1;
+            while *i < lines.len() {
+                let math_line = lines[*i];
+                math_content.push('\n');
+                math_content.push_str(math_line);
+                if math_line.trim().contains("\\]") {
+                    break;
+                }
+                *i += 1;
+            }
+        }
+        self.output.push_str(&math_content);
+        self.output.push('\n');
+    }
+}

data/vendor/kreuzberg/src/extractors/latex/utilities.rs ADDED Viewed

@@ -0,0 +1,126 @@
+//! Utility functions for LaTeX parsing.
+//!
+//! This module contains helper functions for text cleaning, brace extraction,
+//! and other common operations used throughout the LaTeX parser.
+/// Extracts content from within braces for a given command.
+///
+/// Example: `\title{Hello World}` with command "title" returns "Hello World"
+pub fn extract_braced(text: &str, command: &str) -> Option<String> {
+    let pattern = format!("\\{}{{", command);
+    if let Some(start) = text.find(&pattern) {
+        let after = &text[start + pattern.len()..];
+        let mut depth = 1;
+        let mut content = String::new();
+        for ch in after.chars() {
+            match ch {
+                '{' => {
+                    depth += 1;
+                    content.push(ch);
+                }
+                '}' => {
+                    depth -= 1;
+                    if depth == 0 {
+                        return Some(clean_text(&content));
+                    }
+                    content.push(ch);
+                }
+                _ => content.push(ch),
+            }
+        }
+    }
+    None
+}
+/// Reads braced content from a character iterator.
+///
+/// Handles nested braces correctly and maintains proper depth tracking.
+pub fn read_braced_from_chars(chars: &mut std::iter::Peekable<std::str::Chars>) -> Option<String> {
+    // Skip whitespace before opening brace
+    while let Some(&c) = chars.peek() {
+        if c.is_whitespace() {
+            chars.next();
+        } else {
+            break;
+        }
+    }
+    // Check for opening brace
+    if chars.peek() != Some(&'{') {
+        return None;
+    }
+    chars.next(); // Consume '{'
+    let mut content = String::new();
+    let mut depth = 1;
+    for c in chars.by_ref() {
+        match c {
+            '{' => {
+                depth += 1;
+                content.push(c);
+            }
+            '}' => {
+                depth -= 1;
+                if depth == 0 {
+                    return Some(content);
+                }
+                content.push(c);
+            }
+            _ => content.push(c),
+        }
+    }
+    Some(content)
+}
+/// Extracts environment name from a \begin{} statement.
+///
+/// Example: `\begin{itemize}` returns "itemize"
+pub fn extract_env_name(line: &str) -> Option<String> {
+    if let Some(start) = line.find("\\begin{") {
+        let after = &line[start + 7..];
+        if let Some(end) = after.find('}') {
+            return Some(after[..end].to_string());
+        }
+    }
+    None
+}
+/// Cleans LaTeX text by removing escape sequences.
+///
+/// Handles common LaTeX escape sequences like \\&, \\#, \\\_, etc.
+pub fn clean_text(text: &str) -> String {
+    text.to_string()
+        .replace("\\\\", "\n")
+        .replace("\\&", "&")
+        .replace("\\#", "#")
+        .replace("\\_", "_")
+        .replace("\\{", "{")
+        .replace("\\}", "}")
+        .replace("\\%", "%")
+        .trim()
+        .to_string()
+}
+/// Collects content of an environment from begin to end.
+///
+/// Returns the content and the index of the line after \end{environment}.
+pub fn collect_environment(lines: &[&str], start_idx: usize, env_name: &str) -> (String, usize) {
+    let mut content = String::new();
+    let mut i = start_idx + 1;
+    let end_marker = format!("\\end{{{}}}", env_name);
+    while i < lines.len() {
+        let line = lines[i];
+        if line.trim().contains(&end_marker) {
+            return (content, i + 1);
+        }
+        content.push_str(line);
+        content.push('\n');
+        i += 1;
+    }
+    (content, i)
+}