RubyGems - kreuzberg - Versions diffs - 4.0.8 → 4.1.0 - Mend

kreuzberg 4.0.8 → 4.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (308) hide show

checksums.yaml +4 -4
data/Gemfile.lock +2 -2
data/README.md +1 -1
data/ext/kreuzberg_rb/native/Cargo.lock +94 -98
data/ext/kreuzberg_rb/native/Cargo.toml +4 -2
data/ext/kreuzberg_rb/native/src/batch.rs +139 -0
data/ext/kreuzberg_rb/native/src/config/mod.rs +10 -0
data/ext/kreuzberg_rb/native/src/config/types.rs +1058 -0
data/ext/kreuzberg_rb/native/src/error_handling.rs +125 -0
data/ext/kreuzberg_rb/native/src/extraction.rs +79 -0
data/ext/kreuzberg_rb/native/src/gc_guarded_value.rs +35 -0
data/ext/kreuzberg_rb/native/src/helpers.rs +176 -0
data/ext/kreuzberg_rb/native/src/lib.rs +342 -3622
data/ext/kreuzberg_rb/native/src/metadata.rs +34 -0
data/ext/kreuzberg_rb/native/src/plugins/mod.rs +92 -0
data/ext/kreuzberg_rb/native/src/plugins/ocr_backend.rs +159 -0
data/ext/kreuzberg_rb/native/src/plugins/post_processor.rs +126 -0
data/ext/kreuzberg_rb/native/src/plugins/validator.rs +99 -0
data/ext/kreuzberg_rb/native/src/result.rs +326 -0
data/ext/kreuzberg_rb/native/src/validation.rs +4 -0
data/lib/kreuzberg/config.rb +66 -0
data/lib/kreuzberg/result.rb +107 -2
data/lib/kreuzberg/types.rb +104 -0
data/lib/kreuzberg/version.rb +1 -1
data/lib/kreuzberg.rb +0 -4
data/sig/kreuzberg.rbs +105 -1
data/vendor/Cargo.toml +3 -3
data/vendor/kreuzberg/Cargo.toml +4 -3
data/vendor/kreuzberg/README.md +1 -1
data/vendor/kreuzberg/src/api/config.rs +69 -0
data/vendor/kreuzberg/src/api/handlers.rs +99 -2
data/vendor/kreuzberg/src/api/mod.rs +14 -7
data/vendor/kreuzberg/src/api/router.rs +214 -0
data/vendor/kreuzberg/src/api/startup.rs +243 -0
data/vendor/kreuzberg/src/api/types.rs +78 -0
data/vendor/kreuzberg/src/cache/cleanup.rs +277 -0
data/vendor/kreuzberg/src/cache/core.rs +428 -0
data/vendor/kreuzberg/src/cache/mod.rs +21 -843
data/vendor/kreuzberg/src/cache/utilities.rs +156 -0
data/vendor/kreuzberg/src/chunking/boundaries.rs +301 -0
data/vendor/kreuzberg/src/chunking/builder.rs +294 -0
data/vendor/kreuzberg/src/chunking/config.rs +52 -0
data/vendor/kreuzberg/src/chunking/core.rs +1017 -0
data/vendor/kreuzberg/src/chunking/mod.rs +14 -2211
data/vendor/kreuzberg/src/chunking/processor.rs +10 -0
data/vendor/kreuzberg/src/chunking/validation.rs +686 -0
data/vendor/kreuzberg/src/core/config/extraction/core.rs +169 -0
data/vendor/kreuzberg/src/core/config/extraction/env.rs +179 -0
data/vendor/kreuzberg/src/core/config/extraction/loaders.rs +204 -0
data/vendor/kreuzberg/src/core/config/extraction/mod.rs +42 -0
data/vendor/kreuzberg/src/core/config/extraction/types.rs +93 -0
data/vendor/kreuzberg/src/core/config/formats.rs +135 -0
data/vendor/kreuzberg/src/core/config/mod.rs +20 -0
data/vendor/kreuzberg/src/core/config/ocr.rs +73 -0
data/vendor/kreuzberg/src/core/config/page.rs +57 -0
data/vendor/kreuzberg/src/core/config/pdf.rs +111 -0
data/vendor/kreuzberg/src/core/config/processing.rs +312 -0
data/vendor/kreuzberg/src/core/config_validation/dependencies.rs +187 -0
data/vendor/kreuzberg/src/core/config_validation/mod.rs +386 -0
data/vendor/kreuzberg/src/core/config_validation/sections.rs +401 -0
data/vendor/kreuzberg/src/core/extractor/batch.rs +246 -0
data/vendor/kreuzberg/src/core/extractor/bytes.rs +116 -0
data/vendor/kreuzberg/src/core/extractor/file.rs +240 -0
data/vendor/kreuzberg/src/core/extractor/helpers.rs +71 -0
data/vendor/kreuzberg/src/core/extractor/legacy.rs +62 -0
data/vendor/kreuzberg/src/core/extractor/mod.rs +490 -0
data/vendor/kreuzberg/src/core/extractor/sync.rs +208 -0
data/vendor/kreuzberg/src/core/mod.rs +4 -1
data/vendor/kreuzberg/src/core/pipeline/cache.rs +60 -0
data/vendor/kreuzberg/src/core/pipeline/execution.rs +89 -0
data/vendor/kreuzberg/src/core/pipeline/features.rs +108 -0
data/vendor/kreuzberg/src/core/pipeline/format.rs +392 -0
data/vendor/kreuzberg/src/core/pipeline/initialization.rs +67 -0
data/vendor/kreuzberg/src/core/pipeline/mod.rs +135 -0
data/vendor/kreuzberg/src/core/pipeline/tests.rs +975 -0
data/vendor/kreuzberg/src/core/server_config/env.rs +90 -0
data/vendor/kreuzberg/src/core/server_config/loader.rs +202 -0
data/vendor/kreuzberg/src/core/server_config/mod.rs +380 -0
data/vendor/kreuzberg/src/core/server_config/tests/basic_tests.rs +124 -0
data/vendor/kreuzberg/src/core/server_config/tests/env_tests.rs +216 -0
data/vendor/kreuzberg/src/core/server_config/tests/file_loading_tests.rs +341 -0
data/vendor/kreuzberg/src/core/server_config/tests/mod.rs +5 -0
data/vendor/kreuzberg/src/core/server_config/validation.rs +17 -0
data/vendor/kreuzberg/src/embeddings.rs +136 -13
data/vendor/kreuzberg/src/extraction/{archive.rs → archive/mod.rs} +45 -239
data/vendor/kreuzberg/src/extraction/archive/sevenz.rs +98 -0
data/vendor/kreuzberg/src/extraction/archive/tar.rs +118 -0
data/vendor/kreuzberg/src/extraction/archive/zip.rs +101 -0
data/vendor/kreuzberg/src/extraction/html/converter.rs +592 -0
data/vendor/kreuzberg/src/extraction/html/image_handling.rs +95 -0
data/vendor/kreuzberg/src/extraction/html/mod.rs +53 -0
data/vendor/kreuzberg/src/extraction/html/processor.rs +659 -0
data/vendor/kreuzberg/src/extraction/html/stack_management.rs +103 -0
data/vendor/kreuzberg/src/extraction/html/types.rs +28 -0
data/vendor/kreuzberg/src/extraction/mod.rs +6 -2
data/vendor/kreuzberg/src/extraction/pptx/container.rs +159 -0
data/vendor/kreuzberg/src/extraction/pptx/content_builder.rs +168 -0
data/vendor/kreuzberg/src/extraction/pptx/elements.rs +132 -0
data/vendor/kreuzberg/src/extraction/pptx/image_handling.rs +57 -0
data/vendor/kreuzberg/src/extraction/pptx/metadata.rs +160 -0
data/vendor/kreuzberg/src/extraction/pptx/mod.rs +558 -0
data/vendor/kreuzberg/src/extraction/pptx/parser.rs +379 -0
data/vendor/kreuzberg/src/extraction/transform/content.rs +205 -0
data/vendor/kreuzberg/src/extraction/transform/elements.rs +211 -0
data/vendor/kreuzberg/src/extraction/transform/mod.rs +480 -0
data/vendor/kreuzberg/src/extraction/transform/types.rs +27 -0
data/vendor/kreuzberg/src/extractors/archive.rs +2 -0
data/vendor/kreuzberg/src/extractors/bibtex.rs +2 -0
data/vendor/kreuzberg/src/extractors/djot_format/attributes.rs +134 -0
data/vendor/kreuzberg/src/extractors/djot_format/conversion.rs +223 -0
data/vendor/kreuzberg/src/extractors/djot_format/extractor.rs +172 -0
data/vendor/kreuzberg/src/extractors/djot_format/mod.rs +24 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/block_handlers.rs +271 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/content_extraction.rs +257 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/event_handlers.rs +101 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/inline_handlers.rs +201 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/mod.rs +16 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/state.rs +78 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/table_extraction.rs +68 -0
data/vendor/kreuzberg/src/extractors/djot_format/parsing/text_extraction.rs +61 -0
data/vendor/kreuzberg/src/extractors/djot_format/rendering.rs +452 -0
data/vendor/kreuzberg/src/extractors/docbook.rs +2 -0
data/vendor/kreuzberg/src/extractors/docx.rs +12 -1
data/vendor/kreuzberg/src/extractors/email.rs +2 -0
data/vendor/kreuzberg/src/extractors/epub/content.rs +333 -0
data/vendor/kreuzberg/src/extractors/epub/metadata.rs +137 -0
data/vendor/kreuzberg/src/extractors/epub/mod.rs +186 -0
data/vendor/kreuzberg/src/extractors/epub/parsing.rs +86 -0
data/vendor/kreuzberg/src/extractors/excel.rs +4 -0
data/vendor/kreuzberg/src/extractors/fictionbook.rs +2 -0
data/vendor/kreuzberg/src/extractors/frontmatter_utils.rs +466 -0
data/vendor/kreuzberg/src/extractors/html.rs +80 -8
data/vendor/kreuzberg/src/extractors/image.rs +8 -1
data/vendor/kreuzberg/src/extractors/jats/elements.rs +350 -0
data/vendor/kreuzberg/src/extractors/jats/metadata.rs +21 -0
data/vendor/kreuzberg/src/extractors/{jats.rs → jats/mod.rs} +10 -412
data/vendor/kreuzberg/src/extractors/jats/parser.rs +52 -0
data/vendor/kreuzberg/src/extractors/jupyter.rs +2 -0
data/vendor/kreuzberg/src/extractors/latex/commands.rs +93 -0
data/vendor/kreuzberg/src/extractors/latex/environments.rs +157 -0
data/vendor/kreuzberg/src/extractors/latex/metadata.rs +27 -0
data/vendor/kreuzberg/src/extractors/latex/mod.rs +146 -0
data/vendor/kreuzberg/src/extractors/latex/parser.rs +231 -0
data/vendor/kreuzberg/src/extractors/latex/utilities.rs +126 -0
data/vendor/kreuzberg/src/extractors/markdown.rs +39 -162
data/vendor/kreuzberg/src/extractors/mod.rs +9 -1
data/vendor/kreuzberg/src/extractors/odt.rs +2 -0
data/vendor/kreuzberg/src/extractors/opml/core.rs +165 -0
data/vendor/kreuzberg/src/extractors/opml/mod.rs +31 -0
data/vendor/kreuzberg/src/extractors/opml/parser.rs +479 -0
data/vendor/kreuzberg/src/extractors/orgmode.rs +2 -0
data/vendor/kreuzberg/src/extractors/pdf/extraction.rs +106 -0
data/vendor/kreuzberg/src/extractors/{pdf.rs → pdf/mod.rs} +25 -324
data/vendor/kreuzberg/src/extractors/pdf/ocr.rs +214 -0
data/vendor/kreuzberg/src/extractors/pdf/pages.rs +51 -0
data/vendor/kreuzberg/src/extractors/pptx.rs +9 -2
data/vendor/kreuzberg/src/extractors/rst.rs +2 -0
data/vendor/kreuzberg/src/extractors/rtf/encoding.rs +116 -0
data/vendor/kreuzberg/src/extractors/rtf/formatting.rs +24 -0
data/vendor/kreuzberg/src/extractors/rtf/images.rs +72 -0
data/vendor/kreuzberg/src/extractors/rtf/metadata.rs +216 -0
data/vendor/kreuzberg/src/extractors/rtf/mod.rs +142 -0
data/vendor/kreuzberg/src/extractors/rtf/parser.rs +259 -0
data/vendor/kreuzberg/src/extractors/rtf/tables.rs +83 -0
data/vendor/kreuzberg/src/extractors/structured.rs +2 -0
data/vendor/kreuzberg/src/extractors/text.rs +4 -0
data/vendor/kreuzberg/src/extractors/typst.rs +2 -0
data/vendor/kreuzberg/src/extractors/xml.rs +2 -0
data/vendor/kreuzberg/src/keywords/processor.rs +14 -0
data/vendor/kreuzberg/src/language_detection/processor.rs +10 -0
data/vendor/kreuzberg/src/lib.rs +2 -2
data/vendor/kreuzberg/src/mcp/errors.rs +312 -0
data/vendor/kreuzberg/src/mcp/format.rs +211 -0
data/vendor/kreuzberg/src/mcp/mod.rs +9 -3
data/vendor/kreuzberg/src/mcp/params.rs +196 -0
data/vendor/kreuzberg/src/mcp/server.rs +39 -1438
data/vendor/kreuzberg/src/mcp/tools/cache.rs +179 -0
data/vendor/kreuzberg/src/mcp/tools/extraction.rs +403 -0
data/vendor/kreuzberg/src/mcp/tools/mime.rs +150 -0
data/vendor/kreuzberg/src/mcp/tools/mod.rs +11 -0
data/vendor/kreuzberg/src/ocr/backends/easyocr.rs +96 -0
data/vendor/kreuzberg/src/ocr/backends/mod.rs +7 -0
data/vendor/kreuzberg/src/ocr/backends/paddleocr.rs +27 -0
data/vendor/kreuzberg/src/ocr/backends/tesseract.rs +134 -0
data/vendor/kreuzberg/src/ocr/hocr.rs +60 -16
data/vendor/kreuzberg/src/ocr/language_registry.rs +11 -235
data/vendor/kreuzberg/src/ocr/mod.rs +1 -0
data/vendor/kreuzberg/src/ocr/processor/config.rs +203 -0
data/vendor/kreuzberg/src/ocr/processor/execution.rs +494 -0
data/vendor/kreuzberg/src/ocr/processor/mod.rs +265 -0
data/vendor/kreuzberg/src/ocr/processor/validation.rs +145 -0
data/vendor/kreuzberg/src/ocr/tesseract_backend.rs +41 -24
data/vendor/kreuzberg/src/pdf/bindings.rs +21 -8
data/vendor/kreuzberg/src/pdf/hierarchy/bounding_box.rs +289 -0
data/vendor/kreuzberg/src/pdf/hierarchy/clustering.rs +199 -0
data/vendor/kreuzberg/src/pdf/{hierarchy.rs → hierarchy/extraction.rs} +6 -346
data/vendor/kreuzberg/src/pdf/hierarchy/mod.rs +18 -0
data/vendor/kreuzberg/src/plugins/extractor/mod.rs +319 -0
data/vendor/kreuzberg/src/plugins/extractor/registry.rs +434 -0
data/vendor/kreuzberg/src/plugins/extractor/trait.rs +391 -0
data/vendor/kreuzberg/src/plugins/mod.rs +13 -0
data/vendor/kreuzberg/src/plugins/ocr.rs +11 -0
data/vendor/kreuzberg/src/plugins/processor/mod.rs +365 -0
data/vendor/kreuzberg/src/plugins/processor/registry.rs +37 -0
data/vendor/kreuzberg/src/plugins/processor/trait.rs +284 -0
data/vendor/kreuzberg/src/plugins/registry/extractor.rs +416 -0
data/vendor/kreuzberg/src/plugins/registry/mod.rs +116 -0
data/vendor/kreuzberg/src/plugins/registry/ocr.rs +293 -0
data/vendor/kreuzberg/src/plugins/registry/processor.rs +304 -0
data/vendor/kreuzberg/src/plugins/registry/validator.rs +238 -0
data/vendor/kreuzberg/src/plugins/validator/mod.rs +424 -0
data/vendor/kreuzberg/src/plugins/validator/registry.rs +355 -0
data/vendor/kreuzberg/src/plugins/validator/trait.rs +276 -0
data/vendor/kreuzberg/src/stopwords/languages/asian.rs +40 -0
data/vendor/kreuzberg/src/stopwords/languages/germanic.rs +36 -0
data/vendor/kreuzberg/src/stopwords/languages/mod.rs +10 -0
data/vendor/kreuzberg/src/stopwords/languages/other.rs +44 -0
data/vendor/kreuzberg/src/stopwords/languages/romance.rs +36 -0
data/vendor/kreuzberg/src/stopwords/languages/slavic.rs +36 -0
data/vendor/kreuzberg/src/stopwords/mod.rs +7 -33
data/vendor/kreuzberg/src/text/quality.rs +1 -1
data/vendor/kreuzberg/src/text/quality_processor.rs +10 -0
data/vendor/kreuzberg/src/text/token_reduction/core/analysis.rs +238 -0
data/vendor/kreuzberg/src/text/token_reduction/core/mod.rs +8 -0
data/vendor/kreuzberg/src/text/token_reduction/core/punctuation.rs +54 -0
data/vendor/kreuzberg/src/text/token_reduction/core/reducer.rs +384 -0
data/vendor/kreuzberg/src/text/token_reduction/core/sentence_selection.rs +68 -0
data/vendor/kreuzberg/src/text/token_reduction/core/word_filtering.rs +156 -0
data/vendor/kreuzberg/src/text/token_reduction/filters/general.rs +377 -0
data/vendor/kreuzberg/src/text/token_reduction/filters/html.rs +51 -0
data/vendor/kreuzberg/src/text/token_reduction/filters/markdown.rs +285 -0
data/vendor/kreuzberg/src/text/token_reduction/filters.rs +131 -246
data/vendor/kreuzberg/src/types/djot.rs +209 -0
data/vendor/kreuzberg/src/types/extraction.rs +301 -0
data/vendor/kreuzberg/src/types/formats.rs +443 -0
data/vendor/kreuzberg/src/types/metadata.rs +560 -0
data/vendor/kreuzberg/src/types/mod.rs +281 -0
data/vendor/kreuzberg/src/types/page.rs +182 -0
data/vendor/kreuzberg/src/types/serde_helpers.rs +132 -0
data/vendor/kreuzberg/src/types/tables.rs +39 -0
data/vendor/kreuzberg/src/utils/quality/heuristics.rs +58 -0
data/vendor/kreuzberg/src/utils/{quality.rs → quality/mod.rs} +168 -489
data/vendor/kreuzberg/src/utils/quality/patterns.rs +117 -0
data/vendor/kreuzberg/src/utils/quality/scoring.rs +178 -0
data/vendor/kreuzberg/src/utils/string_pool/buffer_pool.rs +325 -0
data/vendor/kreuzberg/src/utils/string_pool/interned.rs +102 -0
data/vendor/kreuzberg/src/utils/string_pool/language_pool.rs +119 -0
data/vendor/kreuzberg/src/utils/string_pool/mime_pool.rs +235 -0
data/vendor/kreuzberg/src/utils/string_pool/mod.rs +41 -0
data/vendor/kreuzberg/tests/api_chunk.rs +313 -0
data/vendor/kreuzberg/tests/api_embed.rs +6 -9
data/vendor/kreuzberg/tests/batch_orchestration.rs +1 -0
data/vendor/kreuzberg/tests/concurrency_stress.rs +7 -0
data/vendor/kreuzberg/tests/core_integration.rs +1 -0
data/vendor/kreuzberg/tests/docx_metadata_extraction_test.rs +130 -0
data/vendor/kreuzberg/tests/epub_native_extractor_tests.rs +5 -14
data/vendor/kreuzberg/tests/format_integration.rs +2 -0
data/vendor/kreuzberg/tests/helpers/mod.rs +1 -0
data/vendor/kreuzberg/tests/html_table_test.rs +11 -11
data/vendor/kreuzberg/tests/ocr_configuration.rs +16 -0
data/vendor/kreuzberg/tests/ocr_errors.rs +18 -0
data/vendor/kreuzberg/tests/ocr_quality.rs +9 -0
data/vendor/kreuzberg/tests/ocr_stress.rs +1 -0
data/vendor/kreuzberg/tests/pipeline_integration.rs +50 -0
data/vendor/kreuzberg/tests/plugin_ocr_backend_test.rs +13 -0
data/vendor/kreuzberg/tests/plugin_system.rs +12 -0
data/vendor/kreuzberg/tests/registry_integration_tests.rs +2 -0
data/vendor/kreuzberg-ffi/Cargo.toml +2 -1
data/vendor/kreuzberg-ffi/benches/result_view_benchmark.rs +2 -0
data/vendor/kreuzberg-ffi/kreuzberg.h +347 -178
data/vendor/kreuzberg-ffi/src/config/html.rs +318 -0
data/vendor/kreuzberg-ffi/src/config/loader.rs +154 -0
data/vendor/kreuzberg-ffi/src/config/merge.rs +104 -0
data/vendor/kreuzberg-ffi/src/config/mod.rs +385 -0
data/vendor/kreuzberg-ffi/src/config/parse.rs +91 -0
data/vendor/kreuzberg-ffi/src/config/serialize.rs +118 -0
data/vendor/kreuzberg-ffi/src/config_builder.rs +598 -0
data/vendor/kreuzberg-ffi/src/error.rs +46 -14
data/vendor/kreuzberg-ffi/src/helpers.rs +10 -0
data/vendor/kreuzberg-ffi/src/html_options.rs +421 -0
data/vendor/kreuzberg-ffi/src/lib.rs +16 -0
data/vendor/kreuzberg-ffi/src/panic_shield.rs +11 -0
data/vendor/kreuzberg-ffi/src/plugins/ocr_backend.rs +2 -0
data/vendor/kreuzberg-ffi/src/result.rs +148 -122
data/vendor/kreuzberg-ffi/src/result_view.rs +4 -0
data/vendor/kreuzberg-tesseract/Cargo.toml +2 -2
metadata +200 -28
data/vendor/kreuzberg/src/api/server.rs +0 -518
data/vendor/kreuzberg/src/core/config.rs +0 -1914
data/vendor/kreuzberg/src/core/config_validation.rs +0 -949
data/vendor/kreuzberg/src/core/extractor.rs +0 -1200
data/vendor/kreuzberg/src/core/pipeline.rs +0 -1223
data/vendor/kreuzberg/src/core/server_config.rs +0 -1220
data/vendor/kreuzberg/src/extraction/html.rs +0 -1830
data/vendor/kreuzberg/src/extraction/pptx.rs +0 -3102
data/vendor/kreuzberg/src/extractors/epub.rs +0 -696
data/vendor/kreuzberg/src/extractors/latex.rs +0 -653
data/vendor/kreuzberg/src/extractors/opml.rs +0 -635
data/vendor/kreuzberg/src/extractors/rtf.rs +0 -809
data/vendor/kreuzberg/src/ocr/processor.rs +0 -858
data/vendor/kreuzberg/src/plugins/extractor.rs +0 -1042
data/vendor/kreuzberg/src/plugins/processor.rs +0 -650
data/vendor/kreuzberg/src/plugins/registry.rs +0 -1339
data/vendor/kreuzberg/src/plugins/validator.rs +0 -967
data/vendor/kreuzberg/src/text/token_reduction/core.rs +0 -832
data/vendor/kreuzberg/src/types.rs +0 -1713
data/vendor/kreuzberg/src/utils/string_pool.rs +0 -762
data/vendor/kreuzberg-ffi/src/config.rs +0 -1341

data/vendor/kreuzberg/src/text/token_reduction/filters.rs CHANGED Viewed

@@ -1,27 +1,29 @@
 use crate::error::{KreuzbergError, Result};
 use crate::stopwords::STOPWORDS;
 use crate::text::token_reduction::config::TokenReductionConfig;
-use crate::text::utf8_validation;
 use ahash::{AHashMap, AHashSet};
-use once_cell::sync::Lazy;
 use regex::Regex;
 use std::sync::Arc;
-static HTML_COMMENT_REGEX: Lazy<Regex> =
-    Lazy::new(|| Regex::new(r"<!--.*?-->").expect("HTML comment regex pattern is valid and should compile"));
-static EXCESSIVE_NEWLINES_REGEX: Lazy<Regex> =
-    Lazy::new(|| Regex::new(r"\n{3,}").expect("Excessive newlines regex pattern is valid and should compile"));
-static MULTIPLE_SPACES_REGEX: Lazy<Regex> =
-    Lazy::new(|| Regex::new(r" {2,}").expect("Multiple spaces regex pattern is valid and should compile"));
-static MARKDOWN_CODE_BLOCK_REGEX: Lazy<Regex> =
-    Lazy::new(|| Regex::new(r"```[\s\S]*?```").expect("Markdown code block regex pattern is valid and should compile"));
-static MARKDOWN_INLINE_CODE_REGEX: Lazy<Regex> =
-    Lazy::new(|| Regex::new(r"`[^`\n]+`").expect("Markdown inline code regex pattern is valid and should compile"));
-static MARKDOWN_HEADERS_REGEX: Lazy<Regex> =
-    Lazy::new(|| Regex::new(r"^#{1,6}\s+").expect("Markdown headers regex pattern is valid and should compile"));
-static MARKDOWN_LISTS_REGEX: Lazy<Regex> =
-    Lazy::new(|| Regex::new(r"^[ \t]*[-*+]\s+").expect("Markdown lists regex pattern is valid and should compile"));
+// Import filter modules
+mod general;
+mod html;
+mod markdown;
+// Re-export all filter functions for backward compatibility
+pub use general::{normalize_newlines, normalize_spaces, remove_stopwords};
+pub use html::remove_html_comments;
+pub use markdown::{
+    extract_and_preserve_code, is_markdown_header, is_markdown_list, is_markdown_table, preserve_markdown_structure,
+    restore_preserved_blocks,
+};
+/// Main filter pipeline orchestrator that coordinates various text filtering operations.
+///
+/// The `FilterPipeline` provides a high-level interface for applying different levels
+/// of text filtering, from light cleaning (HTML comments, whitespace) to moderate
+/// filtering (stopword removal) while respecting preservation rules for code,
+/// markdown, and custom patterns.
 pub struct FilterPipeline {
     config: Arc<TokenReductionConfig>,
     stopwords: AHashSet<String>,
@@ -30,6 +32,17 @@ pub struct FilterPipeline {
 }
 impl FilterPipeline {
+    /// Creates a new `FilterPipeline` with the specified configuration and language.
+    ///
+    /// # Arguments
+    /// * `config` - Token reduction configuration
+    /// * `language` - Language code for stopword selection (e.g., "en", "es", "de")
+    ///
+    /// # Returns
+    /// A `Result` containing the new `FilterPipeline` or an error if regex patterns are invalid
+    ///
+    /// # Errors
+    /// Returns a `KreuzbergError::Validation` if any preserve patterns are invalid regex
     pub fn new(config: &Arc<TokenReductionConfig>, language: &str) -> Result<Self> {
         let mut stopwords = STOPWORDS.get(language).cloned().unwrap_or_else(|| {
             STOPWORDS
@@ -63,256 +76,145 @@ impl FilterPipeline {
         })
     }
+    /// Applies light filtering to text, removing HTML comments and normalizing whitespace.
+    ///
+    /// Light filters include:
+    /// - HTML comment removal
+    /// - Multiple space normalization
+    /// - Excessive newline reduction
+    /// - Markdown structure preservation (if enabled)
+    /// - Code preservation (if enabled)
+    ///
+    /// # Arguments
+    /// * `text` - The input text to filter
+    ///
+    /// # Returns
+    /// A new `String` with light filters applied
     pub fn apply_light_filters(&self, text: &str) -> String {
         use std::borrow::Cow;
         let mut result = Cow::Borrowed(text);
+        // Preserve markdown code blocks if configured
         let mut preserved_blocks: Option<AHashMap<String, String>> = None;
         if self.config.preserve_markdown {
             let mut blocks = AHashMap::new();
-            result = Cow::Owned(self.extract_and_preserve_code(result.as_ref(), &mut blocks));
+            result = Cow::Owned(extract_and_preserve_code(result.as_ref(), &mut blocks));
             preserved_blocks = Some(blocks);
         }
-        if HTML_COMMENT_REGEX.is_match(&result) {
-            result = Cow::Owned(HTML_COMMENT_REGEX.replace_all(&result, "").into_owned());
-        }
-        if MULTIPLE_SPACES_REGEX.is_match(&result) {
-            result = Cow::Owned(MULTIPLE_SPACES_REGEX.replace_all(&result, " ").into_owned());
-        }
+        // Remove HTML comments
+        result = Cow::Owned(remove_html_comments(&result));
-        if EXCESSIVE_NEWLINES_REGEX.is_match(&result) {
-            result = Cow::Owned(EXCESSIVE_NEWLINES_REGEX.replace_all(&result, "\n\n").into_owned());
-        }
+        // Normalize whitespace
+        result = Cow::Owned(normalize_spaces(&result));
+        result = Cow::Owned(normalize_newlines(&result));
+        // Preserve markdown structure if configured
         if self.config.preserve_markdown {
-            result = Cow::Owned(self.preserve_markdown_structure(&result));
+            result = Cow::Owned(preserve_markdown_structure(&result));
         }
+        // Restore preserved code blocks
         if let Some(blocks) = &preserved_blocks {
-            result = Cow::Owned(self.restore_preserved_blocks(&result, blocks));
+            result = Cow::Owned(restore_preserved_blocks(&result, blocks));
         }
         result.into_owned()
     }
+    /// Applies moderate filtering to text, including stopword removal.
+    ///
+    /// Moderate filters include all light filters plus:
+    /// - Stopword removal (with markdown awareness if enabled)
+    /// - Code preservation during stopword removal
+    ///
+    /// # Arguments
+    /// * `text` - The input text to filter
+    ///
+    /// # Returns
+    /// A new `String` with moderate filters applied
     pub fn apply_moderate_filters(&self, text: &str) -> String {
         let mut result = self.apply_light_filters(text);
+        // Preserve code blocks during stopword removal if configured
         let mut preserved_blocks: Option<AHashMap<String, String>> = None;
         if self.config.preserve_code {
             let mut blocks = AHashMap::new();
-            result = self.extract_and_preserve_code(&result, &mut blocks);
+            result = extract_and_preserve_code(&result, &mut blocks);
             preserved_blocks = Some(blocks);
         }
+        // Remove stopwords with markdown awareness if configured
         if self.config.preserve_markdown {
             result = self.remove_stopwords_preserving_markdown(&result);
         } else {
-            result = self.remove_stopwords(&result);
+            result = remove_stopwords(&result, &self.stopwords, &self.preserve_patterns);
         }
+        // Restore preserved code blocks
         if let Some(blocks) = &preserved_blocks {
-            result = self.restore_preserved_blocks(&result, blocks);
+            result = restore_preserved_blocks(&result, blocks);
         }
         result
     }
+    /// Removes stopwords while preserving markdown structural elements.
+    ///
+    /// This function processes text line-by-line, preserving:
+    /// - Markdown headers
+    /// - List items
+    /// - Table rows
+    ///
+    /// # Arguments
+    /// * `text` - The input text to filter
+    ///
+    /// # Returns
+    /// A new `String` with stopwords removed but markdown structure preserved
     fn remove_stopwords_preserving_markdown(&self, text: &str) -> String {
         let lines: Vec<&str> = text.lines().collect();
         let mut processed_lines = Vec::with_capacity(lines.len());
         for line in lines {
-            if MARKDOWN_HEADERS_REGEX.is_match(line) {
+            // Preserve markdown headers
+            if is_markdown_header(line) {
                 processed_lines.push(line.to_string());
                 continue;
             }
-            if MARKDOWN_LISTS_REGEX.is_match(line) {
+            // Preserve markdown list items
+            if is_markdown_list(line) {
                 processed_lines.push(line.to_string());
                 continue;
             }
-            if line.trim().starts_with('|') && line.trim().ends_with('|') {
+            // Preserve markdown table rows
+            if is_markdown_table(line) {
                 processed_lines.push(line.to_string());
                 continue;
             }
-            let processed_line = self.remove_stopwords(line);
+            // Apply stopword removal to regular text lines
+            let processed_line = remove_stopwords(line, &self.stopwords, &self.preserve_patterns);
             processed_lines.push(processed_line);
         }
         processed_lines.join("\n")
     }
-    fn remove_stopwords(&self, text: &str) -> String {
-        let words: Vec<&str> = text.split_whitespace().collect();
-        let mut filtered_words = Vec::with_capacity((words.len() as f32 * 0.7).ceil() as usize);
-        for word in words {
-            if word.is_empty() {
-                continue;
-            }
-            if self.should_preserve_word(word) {
-                filtered_words.push(word);
-                continue;
-            }
-            if word.len() > 1 && word.bytes().all(|b| b.is_ascii_uppercase() || !b.is_ascii_alphabetic()) {
-                filtered_words.push(word);
-                continue;
-            }
-            if word.bytes().any(|b| b.is_ascii_digit()) {
-                filtered_words.push(word);
-                continue;
-            }
-            let clean_word = if word.is_ascii() {
-                let clean_bytes: Vec<u8> = word
-                    .bytes()
-                    .filter(|&b| b.is_ascii_alphabetic())
-                    .map(|b| b.to_ascii_lowercase())
-                    .collect();
-                utf8_validation::string_from_utf8(clean_bytes).unwrap_or_else(|_| {
-                    word.chars()
-                        .filter(|c| c.is_alphabetic())
-                        .collect::<String>()
-                        .to_lowercase()
-                })
-            } else {
-                word.chars()
-                    .filter(|c| c.is_alphabetic())
-                    .collect::<String>()
-                    .to_lowercase()
-            };
-            if clean_word.is_empty() {
-                filtered_words.push(word);
-                continue;
-            }
-            if clean_word.len() <= 1 {
-                filtered_words.push(word);
-                continue;
-            }
-            if !self.stopwords.contains(&clean_word) {
-                filtered_words.push(word);
-            }
-        }
-        filtered_words.join(" ")
-    }
-    /// Get the language code for this filter pipeline.
+    /// Gets the language code for this filter pipeline.
     ///
     /// Primarily useful for testing and debugging to verify language configuration.
     #[cfg_attr(not(test), allow(dead_code))]
     pub fn language(&self) -> &str {
         &self.language
     }
-    /// Check if a word should be preserved based on configured patterns.
-    fn should_preserve_word(&self, word: &str) -> bool {
-        self.preserve_patterns.iter().any(|pattern| pattern.is_match(word))
-    }
-    /// Split a word into prefix (non-alphanumeric), core (alphanumeric), and suffix (non-alphanumeric).
-    ///
-    /// This is useful for handling punctuation-wrapped words like "(hello)" or "world!".
-    /// Currently used in tests; reserved for future word boundary-aware filtering.
-    #[cfg_attr(not(test), allow(dead_code))]
-    fn split_word_boundaries(&self, word: &str) -> (String, String, String) {
-        let chars: Vec<char> = word.chars().collect();
-        let mut start = 0;
-        let mut end = chars.len();
-        while start < chars.len() && !chars[start].is_alphanumeric() {
-            start += 1;
-        }
-        while end > start && !chars[end - 1].is_alphanumeric() {
-            end -= 1;
-        }
-        let prefix: String = chars[..start].iter().collect();
-        let core: String = chars[start..end].iter().collect();
-        let suffix: String = chars[end..].iter().collect();
-        (prefix, core, suffix)
-    }
-    fn preserve_markdown_structure(&self, text: &str) -> String {
-        let lines: Vec<&str> = text.lines().collect();
-        let mut processed_lines = Vec::with_capacity(lines.len());
-        for line in lines {
-            if MARKDOWN_HEADERS_REGEX.is_match(line) {
-                processed_lines.push(line);
-                continue;
-            }
-            if MARKDOWN_LISTS_REGEX.is_match(line) {
-                processed_lines.push(line);
-                continue;
-            }
-            processed_lines.push(line);
-        }
-        processed_lines.join("\n")
-    }
-    fn extract_and_preserve_code(&self, text: &str, preserved: &mut AHashMap<String, String>) -> String {
-        let mut result = text.to_string();
-        let mut code_block_id = 0;
-        let mut inline_code_id = 0;
-        result = MARKDOWN_CODE_BLOCK_REGEX
-            .replace_all(&result, |caps: &regex::Captures| {
-                let code_block = caps[0].to_string();
-                let placeholder = format!("__CODEBLOCK_{}__", code_block_id);
-                code_block_id += 1;
-                preserved.insert(placeholder.clone(), code_block);
-                placeholder
-            })
-            .to_string();
-        result = MARKDOWN_INLINE_CODE_REGEX
-            .replace_all(&result, |caps: &regex::Captures| {
-                let inline_code = caps[0].to_string();
-                let placeholder = format!("__INLINECODE_{}__", inline_code_id);
-                inline_code_id += 1;
-                preserved.insert(placeholder.clone(), inline_code);
-                placeholder
-            })
-            .to_string();
-        result
-    }
-    fn restore_preserved_blocks(&self, text: &str, preserved: &AHashMap<String, String>) -> String {
-        if preserved.is_empty() {
-            return text.to_string();
-        }
-        let mut result = text.to_string();
-        for (placeholder, original_content) in preserved {
-            result = result.replace(placeholder, original_content);
-        }
-        result
-    }
 }
 #[cfg(all(test, feature = "stopwords"))]
 mod tests {
+    use super::general::split_word_boundaries;
     use super::*;
     #[test]
@@ -321,7 +223,7 @@ mod tests {
         let pipeline = FilterPipeline::new(&config, "en").unwrap();
         let input = "The quick brown fox is jumping over the lazy dog";
-        let result = pipeline.remove_stopwords(input);
+        let result = remove_stopwords(input, &pipeline.stopwords, &pipeline.preserve_patterns);
         assert!(!result.contains(" the "));
         assert!(!result.contains(" is "));
@@ -341,7 +243,7 @@ mod tests {
         let pipeline = FilterPipeline::new(&config, "en").unwrap();
         let input = "The NASA mission is a success";
-        let result = pipeline.remove_stopwords(input);
+        let result = remove_stopwords(input, &pipeline.stopwords, &pipeline.preserve_patterns);
         assert!(result.contains("NASA"));
         assert!(result.contains("mission"));
@@ -411,7 +313,7 @@ mod tests {
         let pipeline = FilterPipeline::new(&config, "en").unwrap();
         let input = "The API is working WITH the SDK";
-        let result = pipeline.remove_stopwords(input);
+        let result = remove_stopwords(input, &pipeline.stopwords, &pipeline.preserve_patterns);
         assert!(result.contains("API"));
         assert!(result.contains("SDK"));
@@ -426,7 +328,7 @@ mod tests {
         let pipeline = FilterPipeline::new(&config, "en").unwrap();
         let input = "The version is 3.14 and the count is 42";
-        let result = pipeline.remove_stopwords(input);
+        let result = remove_stopwords(input, &pipeline.stopwords, &pipeline.preserve_patterns);
         assert!(result.contains("3.14"));
         assert!(result.contains("42"));
@@ -441,7 +343,7 @@ mod tests {
         let pipeline = FilterPipeline::new(&config, "en").unwrap();
         let input = "Hello, the world! This is great.";
-        let result = pipeline.remove_stopwords(input);
+        let result = remove_stopwords(input, &pipeline.stopwords, &pipeline.preserve_patterns);
         assert!(result.contains("Hello,"));
         assert!(result.contains("world!"));
@@ -465,7 +367,7 @@ mod tests {
         let pipeline = FilterPipeline::new(&config, "en").unwrap();
         let input = "This is a custom word test";
-        let result = pipeline.remove_stopwords(input);
+        let result = remove_stopwords(input, &pipeline.stopwords, &pipeline.preserve_patterns);
         assert!(!result.contains("custom"));
         assert!(!result.contains("word"));
@@ -478,7 +380,7 @@ mod tests {
         let pipeline = FilterPipeline::new(&config, "es").unwrap();
         let input = "El perro grande bonito tiene";
-        let result = pipeline.remove_stopwords(input);
+        let result = remove_stopwords(input, &pipeline.stopwords, &pipeline.preserve_patterns);
         assert!(result.contains("perro"));
         assert!(result.contains("grande"));
@@ -495,7 +397,7 @@ mod tests {
         let pipeline = FilterPipeline::new(&config, "unknown").unwrap();
         let input = "The quick test with unknown language";
-        let result = pipeline.remove_stopwords(input);
+        let result = remove_stopwords(input, &pipeline.stopwords, &pipeline.preserve_patterns);
         assert!(!result.contains("The "));
         assert!(result.contains("quick"));
@@ -561,11 +463,11 @@ mod tests {
             preserve_code: true,
             ..Default::default()
         });
-        let pipeline = FilterPipeline::new(&config, "en").unwrap();
+        let _pipeline = FilterPipeline::new(&config, "en").unwrap();
         let mut preserved = AHashMap::new();
         let input = "Text before\n```rust\nfn main() {}\n```\nText after";
-        let result = pipeline.extract_and_preserve_code(input, &mut preserved);
+        let result = extract_and_preserve_code(input, &mut preserved);
         assert_eq!(preserved.len(), 1);
         assert!(preserved.values().any(|v| v.contains("fn main()")));
@@ -578,11 +480,11 @@ mod tests {
             preserve_code: true,
             ..Default::default()
         });
-        let pipeline = FilterPipeline::new(&config, "en").unwrap();
+        let _pipeline = FilterPipeline::new(&config, "en").unwrap();
         let mut preserved = AHashMap::new();
         let input = "Use the `println!` macro";
-        let result = pipeline.extract_and_preserve_code(input, &mut preserved);
+        let result = extract_and_preserve_code(input, &mut preserved);
         assert_eq!(preserved.len(), 1);
         assert!(preserved.values().any(|v| v == "`println!`"));
@@ -592,13 +494,13 @@ mod tests {
     #[test]
     fn test_restore_preserved_blocks() {
         let config = Arc::new(TokenReductionConfig::default());
-        let pipeline = FilterPipeline::new(&config, "en").unwrap();
+        let _pipeline = FilterPipeline::new(&config, "en").unwrap();
         let mut preserved = AHashMap::new();
         preserved.insert("__CODEBLOCK_0__".to_string(), "```code```".to_string());
         preserved.insert("__INLINECODE_0__".to_string(), "`inline`".to_string());
         let input = "Text __CODEBLOCK_0__ and __INLINECODE_0__ here";
-        let result = pipeline.restore_preserved_blocks(input, &preserved);
+        let result = restore_preserved_blocks(input, &preserved);
         assert!(result.contains("```code```"));
         assert!(result.contains("`inline`"));
@@ -654,7 +556,7 @@ mod tests {
         let pipeline = FilterPipeline::new(&config, "en").unwrap();
         let input = "I a x test";
-        let result = pipeline.remove_stopwords(input);
+        let result = remove_stopwords(input, &pipeline.stopwords, &pipeline.preserve_patterns);
         assert!(result.contains("I"));
         assert!(result.contains("x"));
@@ -667,7 +569,7 @@ mod tests {
         let pipeline = FilterPipeline::new(&config, "en").unwrap();
         let input = "The Test Is Working";
-        let result = pipeline.remove_stopwords(input);
+        let result = remove_stopwords(input, &pipeline.stopwords, &pipeline.preserve_patterns);
         assert!(!result.contains("The"));
         assert!(!result.contains("Is"));
@@ -675,29 +577,18 @@ mod tests {
         assert!(result.contains("Working"));
     }
-    #[test]
-    fn test_lazy_regex_initialization() {
-        let _ = &*HTML_COMMENT_REGEX;
-        let _ = &*EXCESSIVE_NEWLINES_REGEX;
-        let _ = &*MULTIPLE_SPACES_REGEX;
-        let _ = &*MARKDOWN_CODE_BLOCK_REGEX;
-        let _ = &*MARKDOWN_INLINE_CODE_REGEX;
-        let _ = &*MARKDOWN_HEADERS_REGEX;
-        let _ = &*MARKDOWN_LISTS_REGEX;
-    }
     #[test]
     fn test_multiple_code_blocks_hashmap_approach() {
         let config = Arc::new(TokenReductionConfig {
             preserve_code: true,
             ..Default::default()
         });
-        let pipeline = FilterPipeline::new(&config, "en").unwrap();
+        let _pipeline = FilterPipeline::new(&config, "en").unwrap();
         let input =
             "Start ```rust\nlet x = 1;\n``` middle `inline1` text ```python\nprint('hi')\n``` and `inline2` end";
         let mut preserved = AHashMap::new();
-        let result = pipeline.extract_and_preserve_code(input, &mut preserved);
+        let result = extract_and_preserve_code(input, &mut preserved);
         assert_eq!(preserved.len(), 4);
         assert!(preserved.contains_key("__CODEBLOCK_0__"));
@@ -710,7 +601,7 @@ mod tests {
         assert_eq!(preserved.get("__INLINECODE_0__").unwrap(), "`inline1`");
         assert_eq!(preserved.get("__INLINECODE_1__").unwrap(), "`inline2`");
-        let restored = pipeline.restore_preserved_blocks(&result, &preserved);
+        let restored = restore_preserved_blocks(&result, &preserved);
         assert!(restored.contains("```rust\nlet x = 1;\n```"));
         assert!(restored.contains("```python\nprint('hi')\n```"));
         assert!(restored.contains("`inline1`"));
@@ -725,14 +616,14 @@ mod tests {
             preserve_code: true,
             ..Default::default()
         });
-        let pipeline = FilterPipeline::new(&config, "en").unwrap();
+        let _pipeline = FilterPipeline::new(&config, "en").unwrap();
         let input = "Text `a` and `b` and `c` here";
         let mut preserved = AHashMap::new();
-        let result = pipeline.extract_and_preserve_code(input, &mut preserved);
+        let result = extract_and_preserve_code(input, &mut preserved);
         assert_eq!(preserved.len(), 3);
-        let restored = pipeline.restore_preserved_blocks(&result, &preserved);
+        let restored = restore_preserved_blocks(&result, &preserved);
         assert!(restored.contains("`a`"));
         assert!(restored.contains("`b`"));
@@ -755,7 +646,7 @@ mod tests {
         let pipeline = FilterPipeline::new(&config, "en").unwrap();
         let input = "The NASA and HTTP protocols version 1.2.3 by @john";
-        let result = pipeline.remove_stopwords(input);
+        let result = remove_stopwords(input, &pipeline.stopwords, &pipeline.preserve_patterns);
         assert!(result.contains("NASA"));
         assert!(result.contains("HTTP"));
@@ -774,7 +665,7 @@ mod tests {
         assert_eq!(pipeline_en.language(), "en");
         let input_en = "the quick brown fox";
-        let result_en = pipeline_en.remove_stopwords(input_en);
+        let result_en = remove_stopwords(input_en, &pipeline_en.stopwords, &pipeline_en.preserve_patterns);
         assert!(!result_en.contains(" the "));
         let config_de = Arc::new(TokenReductionConfig::default());
@@ -782,7 +673,7 @@ mod tests {
         assert_eq!(pipeline_de.language(), "de");
         let input_de = "der schnelle braune fuchs";
-        let result_de = pipeline_de.remove_stopwords(input_de);
+        let result_de = remove_stopwords(input_de, &pipeline_de.stopwords, &pipeline_de.preserve_patterns);
         assert!(!result_de.contains(" der "));
         assert!(result_de.contains("schnelle"));
     }
@@ -795,7 +686,7 @@ mod tests {
         assert_eq!(pipeline.language(), "unsupported_lang");
         let input = "the quick brown fox";
-        let result = pipeline.remove_stopwords(input);
+        let result = remove_stopwords(input, &pipeline.stopwords, &pipeline.preserve_patterns);
         assert!(!result.contains(" the "));
         assert!(result.contains("quick"));
@@ -803,30 +694,27 @@ mod tests {
     #[test]
     fn test_split_word_boundaries() {
-        let config = Arc::new(TokenReductionConfig::default());
-        let pipeline = FilterPipeline::new(&config, "en").unwrap();
-        let (prefix, core, suffix) = pipeline.split_word_boundaries("(hello)");
+        let (prefix, core, suffix) = split_word_boundaries("(hello)");
         assert_eq!(prefix, "(");
         assert_eq!(core, "hello");
         assert_eq!(suffix, ")");
-        let (prefix2, core2, suffix2) = pipeline.split_word_boundaries("world!");
+        let (prefix2, core2, suffix2) = split_word_boundaries("world!");
         assert_eq!(prefix2, "");
         assert_eq!(core2, "world");
         assert_eq!(suffix2, "!");
-        let (prefix3, core3, suffix3) = pipeline.split_word_boundaries("'test");
+        let (prefix3, core3, suffix3) = split_word_boundaries("'test");
         assert_eq!(prefix3, "'");
         assert_eq!(core3, "test");
         assert_eq!(suffix3, "");
-        let (prefix4, core4, suffix4) = pipeline.split_word_boundaries("simple");
+        let (prefix4, core4, suffix4) = split_word_boundaries("simple");
         assert_eq!(prefix4, "");
         assert_eq!(core4, "simple");
         assert_eq!(suffix4, "");
-        let (prefix5, core5, suffix5) = pipeline.split_word_boundaries("\"example!!!\"");
+        let (prefix5, core5, suffix5) = split_word_boundaries("\"example!!!\"");
         assert_eq!(prefix5, "\"");
         assert_eq!(core5, "example");
         assert_eq!(suffix5, "!!!\"");
@@ -834,25 +722,22 @@ mod tests {
     #[test]
     fn test_split_word_boundaries_edge_cases() {
-        let config = Arc::new(TokenReductionConfig::default());
-        let pipeline = FilterPipeline::new(&config, "en").unwrap();
-        let (prefix, core, suffix) = pipeline.split_word_boundaries("!!!");
+        let (prefix, core, suffix) = split_word_boundaries("!!!");
         assert_eq!(prefix, "!!!");
         assert_eq!(core, "");
         assert_eq!(suffix, "");
-        let (prefix2, core2, suffix2) = pipeline.split_word_boundaries("");
+        let (prefix2, core2, suffix2) = split_word_boundaries("");
         assert_eq!(prefix2, "");
         assert_eq!(core2, "");
         assert_eq!(suffix2, "");
-        let (prefix3, core3, suffix3) = pipeline.split_word_boundaries("a");
+        let (prefix3, core3, suffix3) = split_word_boundaries("a");
         assert_eq!(prefix3, "");
         assert_eq!(core3, "a");
         assert_eq!(suffix3, "");
-        let (prefix4, core4, suffix4) = pipeline.split_word_boundaries("(café)");
+        let (prefix4, core4, suffix4) = split_word_boundaries("(café)");
         assert_eq!(prefix4, "(");
         assert_eq!(core4, "café");
         assert_eq!(suffix4, ")");
@@ -874,7 +759,7 @@ mod tests {
         let pipeline = FilterPipeline::new(&config, "en").unwrap();
         let input = "this is a custom stopword test";
-        let result = pipeline.remove_stopwords(input);
+        let result = remove_stopwords(input, &pipeline.stopwords, &pipeline.preserve_patterns);
         assert!(!result.contains(" custom "));
         assert!(!result.contains(" stopword "));
@@ -894,7 +779,7 @@ mod tests {
         let pipeline = FilterPipeline::new(&config, "en").unwrap();
         let input = "The quick brown fox";
-        let result = pipeline.remove_stopwords(input);
+        let result = remove_stopwords(input, &pipeline.stopwords, &pipeline.preserve_patterns);
         assert!(!result.contains(" The "));
         assert!(result.contains("quick"));