RubyGems - kreuzberg - Versions diffs - 4.0.0.rc1 - Mend

kreuzberg 4.0.0.rc1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (265) hide show

checksums.yaml +7 -0
data/.gitignore +8 -0
data/.rspec +3 -0
data/.rubocop.yaml +534 -0
data/Gemfile +9 -0
data/Gemfile.lock +157 -0
data/README.md +421 -0
data/Rakefile +25 -0
data/Steepfile +47 -0
data/examples/async_patterns.rb +340 -0
data/ext/kreuzberg_rb/extconf.rb +35 -0
data/ext/kreuzberg_rb/native/Cargo.toml +36 -0
data/ext/kreuzberg_rb/native/README.md +425 -0
data/ext/kreuzberg_rb/native/build.rs +17 -0
data/ext/kreuzberg_rb/native/include/ieeefp.h +11 -0
data/ext/kreuzberg_rb/native/include/msvc_compat/strings.h +14 -0
data/ext/kreuzberg_rb/native/include/strings.h +20 -0
data/ext/kreuzberg_rb/native/include/unistd.h +47 -0
data/ext/kreuzberg_rb/native/src/lib.rs +2939 -0
data/extconf.rb +28 -0
data/kreuzberg.gemspec +105 -0
data/lib/kreuzberg/api_proxy.rb +142 -0
data/lib/kreuzberg/cache_api.rb +45 -0
data/lib/kreuzberg/cli.rb +55 -0
data/lib/kreuzberg/cli_proxy.rb +127 -0
data/lib/kreuzberg/config.rb +684 -0
data/lib/kreuzberg/errors.rb +50 -0
data/lib/kreuzberg/extraction_api.rb +84 -0
data/lib/kreuzberg/mcp_proxy.rb +186 -0
data/lib/kreuzberg/ocr_backend_protocol.rb +113 -0
data/lib/kreuzberg/post_processor_protocol.rb +86 -0
data/lib/kreuzberg/result.rb +216 -0
data/lib/kreuzberg/setup_lib_path.rb +79 -0
data/lib/kreuzberg/validator_protocol.rb +89 -0
data/lib/kreuzberg/version.rb +5 -0
data/lib/kreuzberg.rb +82 -0
data/pkg/kreuzberg-4.0.0.rc1.gem +0 -0
data/sig/kreuzberg/internal.rbs +184 -0
data/sig/kreuzberg.rbs +468 -0
data/spec/binding/cache_spec.rb +227 -0
data/spec/binding/cli_proxy_spec.rb +87 -0
data/spec/binding/cli_spec.rb +54 -0
data/spec/binding/config_spec.rb +345 -0
data/spec/binding/config_validation_spec.rb +283 -0
data/spec/binding/error_handling_spec.rb +213 -0
data/spec/binding/errors_spec.rb +66 -0
data/spec/binding/plugins/ocr_backend_spec.rb +307 -0
data/spec/binding/plugins/postprocessor_spec.rb +269 -0
data/spec/binding/plugins/validator_spec.rb +274 -0
data/spec/examples.txt +104 -0
data/spec/fixtures/config.toml +39 -0
data/spec/fixtures/config.yaml +42 -0
data/spec/fixtures/invalid_config.toml +4 -0
data/spec/smoke/package_spec.rb +178 -0
data/spec/spec_helper.rb +42 -0
data/vendor/kreuzberg/Cargo.toml +134 -0
data/vendor/kreuzberg/README.md +175 -0
data/vendor/kreuzberg/build.rs +460 -0
data/vendor/kreuzberg/src/api/error.rs +81 -0
data/vendor/kreuzberg/src/api/handlers.rs +199 -0
data/vendor/kreuzberg/src/api/mod.rs +79 -0
data/vendor/kreuzberg/src/api/server.rs +353 -0
data/vendor/kreuzberg/src/api/types.rs +170 -0
data/vendor/kreuzberg/src/bin/profile_extract.rs +455 -0
data/vendor/kreuzberg/src/cache/mod.rs +1143 -0
data/vendor/kreuzberg/src/chunking/mod.rs +677 -0
data/vendor/kreuzberg/src/core/batch_mode.rs +35 -0
data/vendor/kreuzberg/src/core/config.rs +1032 -0
data/vendor/kreuzberg/src/core/extractor.rs +903 -0
data/vendor/kreuzberg/src/core/io.rs +327 -0
data/vendor/kreuzberg/src/core/mime.rs +615 -0
data/vendor/kreuzberg/src/core/mod.rs +42 -0
data/vendor/kreuzberg/src/core/pipeline.rs +906 -0
data/vendor/kreuzberg/src/embeddings.rs +323 -0
data/vendor/kreuzberg/src/error.rs +431 -0
data/vendor/kreuzberg/src/extraction/archive.rs +954 -0
data/vendor/kreuzberg/src/extraction/docx.rs +40 -0
data/vendor/kreuzberg/src/extraction/email.rs +854 -0
data/vendor/kreuzberg/src/extraction/excel.rs +688 -0
data/vendor/kreuzberg/src/extraction/html.rs +553 -0
data/vendor/kreuzberg/src/extraction/image.rs +368 -0
data/vendor/kreuzberg/src/extraction/libreoffice.rs +564 -0
data/vendor/kreuzberg/src/extraction/mod.rs +77 -0
data/vendor/kreuzberg/src/extraction/office_metadata/app_properties.rs +398 -0
data/vendor/kreuzberg/src/extraction/office_metadata/core_properties.rs +247 -0
data/vendor/kreuzberg/src/extraction/office_metadata/custom_properties.rs +240 -0
data/vendor/kreuzberg/src/extraction/office_metadata/mod.rs +128 -0
data/vendor/kreuzberg/src/extraction/pandoc/batch.rs +275 -0
data/vendor/kreuzberg/src/extraction/pandoc/mime_types.rs +178 -0
data/vendor/kreuzberg/src/extraction/pandoc/mod.rs +491 -0
data/vendor/kreuzberg/src/extraction/pandoc/server.rs +496 -0
data/vendor/kreuzberg/src/extraction/pandoc/subprocess.rs +1188 -0
data/vendor/kreuzberg/src/extraction/pandoc/version.rs +162 -0
data/vendor/kreuzberg/src/extraction/pptx.rs +3000 -0
data/vendor/kreuzberg/src/extraction/structured.rs +490 -0
data/vendor/kreuzberg/src/extraction/table.rs +328 -0
data/vendor/kreuzberg/src/extraction/text.rs +269 -0
data/vendor/kreuzberg/src/extraction/xml.rs +333 -0
data/vendor/kreuzberg/src/extractors/archive.rs +425 -0
data/vendor/kreuzberg/src/extractors/docx.rs +479 -0
data/vendor/kreuzberg/src/extractors/email.rs +129 -0
data/vendor/kreuzberg/src/extractors/excel.rs +344 -0
data/vendor/kreuzberg/src/extractors/html.rs +410 -0
data/vendor/kreuzberg/src/extractors/image.rs +195 -0
data/vendor/kreuzberg/src/extractors/mod.rs +268 -0
data/vendor/kreuzberg/src/extractors/pandoc.rs +201 -0
data/vendor/kreuzberg/src/extractors/pdf.rs +496 -0
data/vendor/kreuzberg/src/extractors/pptx.rs +234 -0
data/vendor/kreuzberg/src/extractors/structured.rs +126 -0
data/vendor/kreuzberg/src/extractors/text.rs +242 -0
data/vendor/kreuzberg/src/extractors/xml.rs +128 -0
data/vendor/kreuzberg/src/image/dpi.rs +164 -0
data/vendor/kreuzberg/src/image/mod.rs +6 -0
data/vendor/kreuzberg/src/image/preprocessing.rs +417 -0
data/vendor/kreuzberg/src/image/resize.rs +89 -0
data/vendor/kreuzberg/src/keywords/config.rs +154 -0
data/vendor/kreuzberg/src/keywords/mod.rs +237 -0
data/vendor/kreuzberg/src/keywords/processor.rs +267 -0
data/vendor/kreuzberg/src/keywords/rake.rs +294 -0
data/vendor/kreuzberg/src/keywords/types.rs +68 -0
data/vendor/kreuzberg/src/keywords/yake.rs +163 -0
data/vendor/kreuzberg/src/language_detection/mod.rs +942 -0
data/vendor/kreuzberg/src/lib.rs +102 -0
data/vendor/kreuzberg/src/mcp/mod.rs +32 -0
data/vendor/kreuzberg/src/mcp/server.rs +1966 -0
data/vendor/kreuzberg/src/ocr/cache.rs +469 -0
data/vendor/kreuzberg/src/ocr/error.rs +37 -0
data/vendor/kreuzberg/src/ocr/hocr.rs +216 -0
data/vendor/kreuzberg/src/ocr/mod.rs +58 -0
data/vendor/kreuzberg/src/ocr/processor.rs +847 -0
data/vendor/kreuzberg/src/ocr/table/mod.rs +4 -0
data/vendor/kreuzberg/src/ocr/table/tsv_parser.rs +144 -0
data/vendor/kreuzberg/src/ocr/tesseract_backend.rs +450 -0
data/vendor/kreuzberg/src/ocr/types.rs +393 -0
data/vendor/kreuzberg/src/ocr/utils.rs +47 -0
data/vendor/kreuzberg/src/ocr/validation.rs +206 -0
data/vendor/kreuzberg/src/pdf/error.rs +122 -0
data/vendor/kreuzberg/src/pdf/images.rs +139 -0
data/vendor/kreuzberg/src/pdf/metadata.rs +346 -0
data/vendor/kreuzberg/src/pdf/mod.rs +50 -0
data/vendor/kreuzberg/src/pdf/rendering.rs +369 -0
data/vendor/kreuzberg/src/pdf/table.rs +420 -0
data/vendor/kreuzberg/src/pdf/text.rs +161 -0
data/vendor/kreuzberg/src/plugins/extractor.rs +1010 -0
data/vendor/kreuzberg/src/plugins/mod.rs +209 -0
data/vendor/kreuzberg/src/plugins/ocr.rs +629 -0
data/vendor/kreuzberg/src/plugins/processor.rs +641 -0
data/vendor/kreuzberg/src/plugins/registry.rs +1324 -0
data/vendor/kreuzberg/src/plugins/traits.rs +258 -0
data/vendor/kreuzberg/src/plugins/validator.rs +955 -0
data/vendor/kreuzberg/src/stopwords/mod.rs +1470 -0
data/vendor/kreuzberg/src/text/mod.rs +19 -0
data/vendor/kreuzberg/src/text/quality.rs +697 -0
data/vendor/kreuzberg/src/text/string_utils.rs +217 -0
data/vendor/kreuzberg/src/text/token_reduction/cjk_utils.rs +164 -0
data/vendor/kreuzberg/src/text/token_reduction/config.rs +100 -0
data/vendor/kreuzberg/src/text/token_reduction/core.rs +796 -0
data/vendor/kreuzberg/src/text/token_reduction/filters.rs +902 -0
data/vendor/kreuzberg/src/text/token_reduction/mod.rs +160 -0
data/vendor/kreuzberg/src/text/token_reduction/semantic.rs +619 -0
data/vendor/kreuzberg/src/text/token_reduction/simd_text.rs +147 -0
data/vendor/kreuzberg/src/types.rs +873 -0
data/vendor/kreuzberg/src/utils/mod.rs +17 -0
data/vendor/kreuzberg/src/utils/quality.rs +959 -0
data/vendor/kreuzberg/src/utils/string_utils.rs +381 -0
data/vendor/kreuzberg/stopwords/af_stopwords.json +53 -0
data/vendor/kreuzberg/stopwords/ar_stopwords.json +482 -0
data/vendor/kreuzberg/stopwords/bg_stopwords.json +261 -0
data/vendor/kreuzberg/stopwords/bn_stopwords.json +400 -0
data/vendor/kreuzberg/stopwords/br_stopwords.json +1205 -0
data/vendor/kreuzberg/stopwords/ca_stopwords.json +280 -0
data/vendor/kreuzberg/stopwords/cs_stopwords.json +425 -0
data/vendor/kreuzberg/stopwords/da_stopwords.json +172 -0
data/vendor/kreuzberg/stopwords/de_stopwords.json +622 -0
data/vendor/kreuzberg/stopwords/el_stopwords.json +849 -0
data/vendor/kreuzberg/stopwords/en_stopwords.json +1300 -0
data/vendor/kreuzberg/stopwords/eo_stopwords.json +175 -0
data/vendor/kreuzberg/stopwords/es_stopwords.json +734 -0
data/vendor/kreuzberg/stopwords/et_stopwords.json +37 -0
data/vendor/kreuzberg/stopwords/eu_stopwords.json +100 -0
data/vendor/kreuzberg/stopwords/fa_stopwords.json +801 -0
data/vendor/kreuzberg/stopwords/fi_stopwords.json +849 -0
data/vendor/kreuzberg/stopwords/fr_stopwords.json +693 -0
data/vendor/kreuzberg/stopwords/ga_stopwords.json +111 -0
data/vendor/kreuzberg/stopwords/gl_stopwords.json +162 -0
data/vendor/kreuzberg/stopwords/gu_stopwords.json +226 -0
data/vendor/kreuzberg/stopwords/ha_stopwords.json +41 -0
data/vendor/kreuzberg/stopwords/he_stopwords.json +196 -0
data/vendor/kreuzberg/stopwords/hi_stopwords.json +227 -0
data/vendor/kreuzberg/stopwords/hr_stopwords.json +181 -0
data/vendor/kreuzberg/stopwords/hu_stopwords.json +791 -0
data/vendor/kreuzberg/stopwords/hy_stopwords.json +47 -0
data/vendor/kreuzberg/stopwords/id_stopwords.json +760 -0
data/vendor/kreuzberg/stopwords/it_stopwords.json +634 -0
data/vendor/kreuzberg/stopwords/ja_stopwords.json +136 -0
data/vendor/kreuzberg/stopwords/kn_stopwords.json +84 -0
data/vendor/kreuzberg/stopwords/ko_stopwords.json +681 -0
data/vendor/kreuzberg/stopwords/ku_stopwords.json +64 -0
data/vendor/kreuzberg/stopwords/la_stopwords.json +51 -0
data/vendor/kreuzberg/stopwords/lt_stopwords.json +476 -0
data/vendor/kreuzberg/stopwords/lv_stopwords.json +163 -0
data/vendor/kreuzberg/stopwords/ml_stopwords.json +1 -0
data/vendor/kreuzberg/stopwords/mr_stopwords.json +101 -0
data/vendor/kreuzberg/stopwords/ms_stopwords.json +477 -0
data/vendor/kreuzberg/stopwords/ne_stopwords.json +490 -0
data/vendor/kreuzberg/stopwords/nl_stopwords.json +415 -0
data/vendor/kreuzberg/stopwords/no_stopwords.json +223 -0
data/vendor/kreuzberg/stopwords/pl_stopwords.json +331 -0
data/vendor/kreuzberg/stopwords/pt_stopwords.json +562 -0
data/vendor/kreuzberg/stopwords/ro_stopwords.json +436 -0
data/vendor/kreuzberg/stopwords/ru_stopwords.json +561 -0
data/vendor/kreuzberg/stopwords/si_stopwords.json +193 -0
data/vendor/kreuzberg/stopwords/sk_stopwords.json +420 -0
data/vendor/kreuzberg/stopwords/sl_stopwords.json +448 -0
data/vendor/kreuzberg/stopwords/so_stopwords.json +32 -0
data/vendor/kreuzberg/stopwords/st_stopwords.json +33 -0
data/vendor/kreuzberg/stopwords/sv_stopwords.json +420 -0
data/vendor/kreuzberg/stopwords/sw_stopwords.json +76 -0
data/vendor/kreuzberg/stopwords/ta_stopwords.json +129 -0
data/vendor/kreuzberg/stopwords/te_stopwords.json +54 -0
data/vendor/kreuzberg/stopwords/th_stopwords.json +118 -0
data/vendor/kreuzberg/stopwords/tl_stopwords.json +149 -0
data/vendor/kreuzberg/stopwords/tr_stopwords.json +506 -0
data/vendor/kreuzberg/stopwords/uk_stopwords.json +75 -0
data/vendor/kreuzberg/stopwords/ur_stopwords.json +519 -0
data/vendor/kreuzberg/stopwords/vi_stopwords.json +647 -0
data/vendor/kreuzberg/stopwords/yo_stopwords.json +62 -0
data/vendor/kreuzberg/stopwords/zh_stopwords.json +796 -0
data/vendor/kreuzberg/stopwords/zu_stopwords.json +31 -0
data/vendor/kreuzberg/tests/api_tests.rs +966 -0
data/vendor/kreuzberg/tests/archive_integration.rs +543 -0
data/vendor/kreuzberg/tests/batch_orchestration.rs +542 -0
data/vendor/kreuzberg/tests/batch_processing.rs +304 -0
data/vendor/kreuzberg/tests/chunking_offset_demo.rs +92 -0
data/vendor/kreuzberg/tests/concurrency_stress.rs +509 -0
data/vendor/kreuzberg/tests/config_features.rs +580 -0
data/vendor/kreuzberg/tests/config_loading_tests.rs +439 -0
data/vendor/kreuzberg/tests/core_integration.rs +493 -0
data/vendor/kreuzberg/tests/csv_integration.rs +424 -0
data/vendor/kreuzberg/tests/docx_metadata_extraction_test.rs +124 -0
data/vendor/kreuzberg/tests/email_integration.rs +325 -0
data/vendor/kreuzberg/tests/error_handling.rs +393 -0
data/vendor/kreuzberg/tests/format_integration.rs +159 -0
data/vendor/kreuzberg/tests/helpers/mod.rs +142 -0
data/vendor/kreuzberg/tests/image_integration.rs +253 -0
data/vendor/kreuzberg/tests/keywords_integration.rs +479 -0
data/vendor/kreuzberg/tests/keywords_quality.rs +509 -0
data/vendor/kreuzberg/tests/mime_detection.rs +428 -0
data/vendor/kreuzberg/tests/ocr_configuration.rs +510 -0
data/vendor/kreuzberg/tests/ocr_errors.rs +676 -0
data/vendor/kreuzberg/tests/ocr_quality.rs +627 -0
data/vendor/kreuzberg/tests/ocr_stress.rs +469 -0
data/vendor/kreuzberg/tests/pandoc_integration.rs +503 -0
data/vendor/kreuzberg/tests/pdf_integration.rs +43 -0
data/vendor/kreuzberg/tests/pipeline_integration.rs +1412 -0
data/vendor/kreuzberg/tests/plugin_ocr_backend_test.rs +771 -0
data/vendor/kreuzberg/tests/plugin_postprocessor_test.rs +561 -0
data/vendor/kreuzberg/tests/plugin_system.rs +921 -0
data/vendor/kreuzberg/tests/plugin_validator_test.rs +783 -0
data/vendor/kreuzberg/tests/registry_integration_tests.rs +607 -0
data/vendor/kreuzberg/tests/security_validation.rs +404 -0
data/vendor/kreuzberg/tests/stopwords_integration_test.rs +888 -0
data/vendor/kreuzberg/tests/test_fastembed.rs +609 -0
data/vendor/kreuzberg/tests/xlsx_metadata_extraction_test.rs +87 -0
metadata +471 -0

data/vendor/kreuzberg/src/text/token_reduction/semantic.rs ADDED Viewed

@@ -0,0 +1,619 @@
+use ahash::AHashMap;
+use std::cmp::Ordering;
+#[derive(Debug, Clone)]
+struct ScoredToken {
+    token: String,
+    position: usize,
+    importance_score: f32,
+    #[allow(dead_code)]
+    context_boost: f32,
+    #[allow(dead_code)]
+    frequency_score: f32,
+}
+impl PartialEq for ScoredToken {
+    fn eq(&self, other: &Self) -> bool {
+        self.importance_score == other.importance_score
+    }
+}
+impl Eq for ScoredToken {}
+impl PartialOrd for ScoredToken {
+    fn partial_cmp(&self, other: &Self) -> Option<Ordering> {
+        Some(self.cmp(other))
+    }
+}
+impl Ord for ScoredToken {
+    fn cmp(&self, other: &Self) -> Ordering {
+        self.importance_score
+            .partial_cmp(&other.importance_score)
+            .unwrap_or(Ordering::Equal)
+    }
+}
+pub struct SemanticAnalyzer {
+    importance_weights: AHashMap<String, f32>,
+    hypernyms: AHashMap<String, String>,
+    semantic_clusters: AHashMap<String, Vec<String>>,
+}
+impl SemanticAnalyzer {
+    pub fn new(_language: &str) -> Self {
+        let mut analyzer = Self {
+            importance_weights: AHashMap::new(),
+            hypernyms: AHashMap::new(),
+            semantic_clusters: AHashMap::new(),
+        };
+        analyzer.initialize_importance_weights();
+        analyzer.initialize_hypernyms();
+        analyzer.initialize_semantic_clusters();
+        analyzer
+    }
+    pub fn apply_semantic_filtering(&self, text: &str, threshold: f32) -> String {
+        let tokens = self.tokenize_and_score(text);
+        let filtered_tokens = self.filter_by_importance(tokens, threshold);
+        self.reconstruct_text(filtered_tokens)
+    }
+    pub fn apply_hypernym_compression(&self, text: &str, target_reduction: Option<f32>) -> String {
+        let tokens = self.tokenize_and_score(text);
+        let compressed_tokens = self.compress_with_hypernyms(tokens, target_reduction);
+        self.reconstruct_text(compressed_tokens)
+    }
+    fn tokenize_and_score(&self, text: &str) -> Vec<ScoredToken> {
+        let words: Vec<&str> = text.split_whitespace().collect();
+        let mut scored_tokens = Vec::with_capacity(words.len());
+        let mut word_freq = AHashMap::new();
+        for word in &words {
+            let clean_word = self.clean_word(word);
+            *word_freq.entry(clean_word).or_insert(0) += 1;
+        }
+        for (position, word) in words.iter().enumerate() {
+            let clean_word = self.clean_word(word);
+            let base_importance = self.calculate_base_importance(&clean_word);
+            let context_boost = self.calculate_context_boost(&clean_word, position, &words);
+            let frequency_score = self.calculate_frequency_score(&clean_word, &word_freq, words.len());
+            let total_score = base_importance + context_boost + frequency_score;
+            scored_tokens.push(ScoredToken {
+                token: word.to_string(),
+                position,
+                importance_score: total_score,
+                context_boost,
+                frequency_score,
+            });
+        }
+        scored_tokens
+    }
+    fn filter_by_importance(&self, tokens: Vec<ScoredToken>, threshold: f32) -> Vec<ScoredToken> {
+        tokens
+            .into_iter()
+            .filter(|token| token.importance_score >= threshold)
+            .collect()
+    }
+    fn compress_with_hypernyms(&self, tokens: Vec<ScoredToken>, target_reduction: Option<f32>) -> Vec<ScoredToken> {
+        let mut result = tokens;
+        if let Some(target) = target_reduction {
+            let target_count = ((1.0 - target) * result.len() as f32) as usize;
+            // Handle NaN values in importance scores by treating them as equal ~keep
+            result.sort_by(|a, b| {
+                b.importance_score
+                    .partial_cmp(&a.importance_score)
+                    .unwrap_or(std::cmp::Ordering::Equal)
+            });
+            for token in result.iter_mut().skip(target_count) {
+                if let Some(hypernym) = self.get_hypernym(&token.token) {
+                    token.token = hypernym;
+                    token.importance_score *= 0.8;
+                }
+            }
+            result.truncate(target_count.max(1));
+        } else {
+            for token in &mut result {
+                if token.importance_score < 0.5
+                    && let Some(hypernym) = self.get_hypernym(&token.token)
+                {
+                    token.token = hypernym;
+                }
+            }
+        }
+        result.sort_by_key(|token| token.position);
+        result
+    }
+    fn reconstruct_text(&self, tokens: Vec<ScoredToken>) -> String {
+        tokens
+            .into_iter()
+            .map(|token| token.token)
+            .collect::<Vec<_>>()
+            .join(" ")
+    }
+    fn calculate_base_importance(&self, word: &str) -> f32 {
+        if let Some(&weight) = self.importance_weights.get(word) {
+            return weight;
+        }
+        let mut score = 0.3;
+        score += (word.len() as f32 * 0.02).min(0.2);
+        if word.chars().next().map(|c| c.is_uppercase()).unwrap_or(false) {
+            score += 0.2;
+        }
+        if word.chars().any(|c| c.is_numeric()) {
+            score += 0.15;
+        }
+        if self.is_technical_term(word) {
+            score += 0.25;
+        }
+        score.min(1.0)
+    }
+    fn calculate_context_boost(&self, word: &str, position: usize, words: &[&str]) -> f32 {
+        let mut boost = 0.0;
+        if position == 0 || position == words.len() - 1 {
+            boost += 0.1;
+        }
+        let window = 2;
+        let start = position.saturating_sub(window);
+        let end = (position + window + 1).min(words.len());
+        for &context_word in &words[start..end] {
+            if context_word != word {
+                boost += self.calculate_contextual_weight(word, context_word);
+            }
+        }
+        boost.min(0.3)
+    }
+    fn calculate_frequency_score(&self, word: &str, word_freq: &AHashMap<String, i32>, total_words: usize) -> f32 {
+        if let Some(&freq) = word_freq.get(word) {
+            let tf = freq as f32 / total_words as f32;
+            (tf.ln() + 1.0) * 0.1
+        } else {
+            0.0
+        }
+    }
+    fn calculate_contextual_weight(&self, word: &str, context_word: &str) -> f32 {
+        if self.is_technical_term(word) && self.is_technical_term(context_word) {
+            0.05
+        } else if context_word.chars().next().map(|c| c.is_uppercase()).unwrap_or(false) {
+            0.02
+        } else {
+            0.0
+        }
+    }
+    fn is_technical_term(&self, word: &str) -> bool {
+        word.len() > 6
+            && (word.contains("_")
+                || word.chars().filter(|&c| c.is_uppercase()).count() > 1
+                || word.ends_with("tion")
+                || word.ends_with("ment")
+                || word.ends_with("ing"))
+    }
+    fn get_hypernym(&self, word: &str) -> Option<String> {
+        let clean_word = self.clean_word(word).to_lowercase();
+        self.hypernyms.get(&clean_word).cloned()
+    }
+    fn clean_word(&self, word: &str) -> String {
+        word.chars()
+            .filter(|c| c.is_alphanumeric())
+            .collect::<String>()
+            .to_lowercase()
+    }
+    fn initialize_importance_weights(&mut self) {
+        let high_importance = [
+            ("result", 0.8),
+            ("conclusion", 0.8),
+            ("important", 0.7),
+            ("significant", 0.7),
+            ("analysis", 0.7),
+            ("method", 0.6),
+            ("data", 0.6),
+            ("system", 0.6),
+            ("performance", 0.6),
+            ("improvement", 0.6),
+        ];
+        for (word, score) in &high_importance {
+            self.importance_weights.insert(word.to_string(), *score);
+        }
+        let medium_importance = [
+            ("process", 0.5),
+            ("algorithm", 0.5),
+            ("function", 0.5),
+            ("model", 0.5),
+            ("implementation", 0.5),
+        ];
+        for (word, score) in &medium_importance {
+            self.importance_weights.insert(word.to_string(), *score);
+        }
+    }
+    fn initialize_hypernyms(&mut self) {
+        let hypernym_pairs = [
+            ("car", "vehicle"),
+            ("dog", "animal"),
+            ("apple", "fruit"),
+            ("chair", "furniture"),
+            ("book", "publication"),
+            ("computer", "device"),
+            ("algorithm", "method"),
+            ("implementation", "approach"),
+            ("optimization", "improvement"),
+            ("analysis", "study"),
+        ];
+        for (word, hypernym) in &hypernym_pairs {
+            self.hypernyms.insert(word.to_string(), hypernym.to_string());
+        }
+    }
+    fn initialize_semantic_clusters(&mut self) {
+        self.semantic_clusters.insert(
+            "computing".to_string(),
+            vec![
+                "computer".to_string(),
+                "algorithm".to_string(),
+                "software".to_string(),
+                "programming".to_string(),
+                "code".to_string(),
+            ],
+        );
+        self.semantic_clusters.insert(
+            "analysis".to_string(),
+            vec![
+                "analysis".to_string(),
+                "study".to_string(),
+                "research".to_string(),
+                "investigation".to_string(),
+                "examination".to_string(),
+            ],
+        );
+        self.semantic_clusters.insert(
+            "performance".to_string(),
+            vec![
+                "performance".to_string(),
+                "speed".to_string(),
+                "efficiency".to_string(),
+                "optimization".to_string(),
+                "improvement".to_string(),
+            ],
+        );
+    }
+}
+#[cfg(test)]
+mod tests {
+    use super::*;
+    #[test]
+    fn test_semantic_filtering() {
+        let analyzer = SemanticAnalyzer::new("en");
+        let input = "The quick brown fox jumps over the lazy dog with great performance";
+        let result = analyzer.apply_semantic_filtering(input, 0.4);
+        assert!(result.contains("performance") || result.contains("fox") || result.contains("dog"));
+        assert!(result.len() < input.len());
+    }
+    #[test]
+    fn test_hypernym_compression() {
+        let analyzer = SemanticAnalyzer::new("en");
+        let input = "The car drove past the dog near the apple tree";
+        let result = analyzer.apply_hypernym_compression(input, Some(0.5));
+        let original_words = input.split_whitespace().count();
+        let result_words = result.split_whitespace().count();
+        assert!(result_words <= (original_words as f32 * 0.5) as usize + 1);
+    }
+    #[test]
+    fn test_importance_scoring() {
+        let analyzer = SemanticAnalyzer::new("en");
+        let tokens = analyzer.tokenize_and_score("The important analysis shows significant results");
+        let important_token = tokens.iter().find(|t| t.token == "important").unwrap();
+        let analysis_token = tokens.iter().find(|t| t.token == "analysis").unwrap();
+        let the_token = tokens.iter().find(|t| t.token == "The").unwrap();
+        assert!(important_token.importance_score > the_token.importance_score);
+        assert!(analysis_token.importance_score > the_token.importance_score);
+    }
+    #[test]
+    fn test_semantic_filtering_empty_text() {
+        let analyzer = SemanticAnalyzer::new("en");
+        let result = analyzer.apply_semantic_filtering("", 0.5);
+        assert_eq!(result, "");
+    }
+    #[test]
+    fn test_semantic_filtering_high_threshold() {
+        let analyzer = SemanticAnalyzer::new("en");
+        let input = "The quick brown fox";
+        let result = analyzer.apply_semantic_filtering(input, 0.9);
+        assert!(result.len() <= input.len());
+    }
+    #[test]
+    fn test_hypernym_compression_without_target() {
+        let analyzer = SemanticAnalyzer::new("en");
+        let input = "The car drove past the dog";
+        let result = analyzer.apply_hypernym_compression(input, None);
+        assert!(!result.is_empty());
+    }
+    #[test]
+    fn test_technical_term_detection() {
+        let analyzer = SemanticAnalyzer::new("en");
+        assert!(analyzer.is_technical_term("implementation"));
+        assert!(analyzer.is_technical_term("optimization"));
+        assert!(analyzer.is_technical_term("processing"));
+        assert!(analyzer.is_technical_term("HTTP_SERVER"));
+        assert!(!analyzer.is_technical_term("cat"));
+        assert!(!analyzer.is_technical_term("dog"));
+    }
+    #[test]
+    fn test_clean_word() {
+        let analyzer = SemanticAnalyzer::new("en");
+        assert_eq!(analyzer.clean_word("Hello!"), "hello");
+        assert_eq!(analyzer.clean_word("test123"), "test123");
+        assert_eq!(analyzer.clean_word("word,"), "word");
+        assert_eq!(analyzer.clean_word("(test)"), "test");
+    }
+    #[test]
+    fn test_calculate_base_importance() {
+        let analyzer = SemanticAnalyzer::new("en");
+        let result_score = analyzer.calculate_base_importance("result");
+        let conclusion_score = analyzer.calculate_base_importance("conclusion");
+        assert!(result_score > 0.5);
+        assert!(conclusion_score > 0.5);
+        let process_score = analyzer.calculate_base_importance("process");
+        assert!(process_score >= 0.4);
+        let regular_score = analyzer.calculate_base_importance("cat");
+        assert!(regular_score < result_score);
+    }
+    #[test]
+    fn test_calculate_base_importance_uppercase() {
+        let analyzer = SemanticAnalyzer::new("en");
+        let uppercase_score = analyzer.calculate_base_importance("Test");
+        let lowercase_score = analyzer.calculate_base_importance("test");
+        assert!(uppercase_score > lowercase_score);
+    }
+    #[test]
+    fn test_calculate_base_importance_with_numbers() {
+        let analyzer = SemanticAnalyzer::new("en");
+        let with_number = analyzer.calculate_base_importance("test123");
+        let without_number = analyzer.calculate_base_importance("test");
+        assert!(with_number > without_number);
+    }
+    #[test]
+    fn test_calculate_base_importance_length_bonus() {
+        let analyzer = SemanticAnalyzer::new("en");
+        let long_word = analyzer.calculate_base_importance("verylongword");
+        let short_word = analyzer.calculate_base_importance("cat");
+        assert!(long_word > short_word);
+    }
+    #[test]
+    fn test_get_hypernym() {
+        let analyzer = SemanticAnalyzer::new("en");
+        assert_eq!(analyzer.get_hypernym("car"), Some("vehicle".to_string()));
+        assert_eq!(analyzer.get_hypernym("dog"), Some("animal".to_string()));
+        assert_eq!(analyzer.get_hypernym("apple"), Some("fruit".to_string()));
+        assert_eq!(analyzer.get_hypernym("unknown"), None);
+    }
+    #[test]
+    fn test_get_hypernym_case_insensitive() {
+        let analyzer = SemanticAnalyzer::new("en");
+        assert_eq!(analyzer.get_hypernym("CAR"), Some("vehicle".to_string()));
+        assert_eq!(analyzer.get_hypernym("Dog"), Some("animal".to_string()));
+    }
+    #[test]
+    fn test_tokenize_and_score_positions() {
+        let analyzer = SemanticAnalyzer::new("en");
+        let tokens = analyzer.tokenize_and_score("first middle last");
+        assert_eq!(tokens[0].position, 0);
+        assert_eq!(tokens[1].position, 1);
+        assert_eq!(tokens[2].position, 2);
+    }
+    #[test]
+    fn test_context_boost_for_edge_positions() {
+        let analyzer = SemanticAnalyzer::new("en");
+        let tokens = analyzer.tokenize_and_score("first middle last");
+        assert!(tokens[0].importance_score > 0.0);
+        assert!(tokens[2].importance_score > 0.0);
+    }
+    #[test]
+    fn test_frequency_score() {
+        let analyzer = SemanticAnalyzer::new("en");
+        let tokens = analyzer.tokenize_and_score("test test test other");
+        let test_token = tokens.iter().find(|t| t.token == "test").unwrap();
+        let other_token = tokens.iter().find(|t| t.token == "other").unwrap();
+        assert!(test_token.frequency_score > other_token.frequency_score);
+    }
+    #[test]
+    fn test_scored_token_ordering() {
+        let token1 = ScoredToken {
+            token: "a".to_string(),
+            position: 0,
+            importance_score: 0.5,
+            context_boost: 0.0,
+            frequency_score: 0.0,
+        };
+        let token2 = ScoredToken {
+            token: "b".to_string(),
+            position: 1,
+            importance_score: 0.7,
+            context_boost: 0.0,
+            frequency_score: 0.0,
+        };
+        assert!(token2 > token1);
+        assert_eq!(token1, token1.clone());
+    }
+    #[test]
+    fn test_reconstruct_text() {
+        let analyzer = SemanticAnalyzer::new("en");
+        let tokens = vec![
+            ScoredToken {
+                token: "Hello".to_string(),
+                position: 0,
+                importance_score: 0.5,
+                context_boost: 0.0,
+                frequency_score: 0.0,
+            },
+            ScoredToken {
+                token: "world".to_string(),
+                position: 1,
+                importance_score: 0.5,
+                context_boost: 0.0,
+                frequency_score: 0.0,
+            },
+        ];
+        let result = analyzer.reconstruct_text(tokens);
+        assert_eq!(result, "Hello world");
+    }
+    #[test]
+    fn test_compress_with_hypernyms_respects_target() {
+        let analyzer = SemanticAnalyzer::new("en");
+        let tokens = vec![
+            ScoredToken {
+                token: "car".to_string(),
+                position: 0,
+                importance_score: 0.3,
+                context_boost: 0.0,
+                frequency_score: 0.0,
+            },
+            ScoredToken {
+                token: "dog".to_string(),
+                position: 1,
+                importance_score: 0.3,
+                context_boost: 0.0,
+                frequency_score: 0.0,
+            },
+            ScoredToken {
+                token: "test".to_string(),
+                position: 2,
+                importance_score: 0.8,
+                context_boost: 0.0,
+                frequency_score: 0.0,
+            },
+        ];
+        let result = analyzer.compress_with_hypernyms(tokens, Some(0.5));
+        assert!(result.len() <= 2);
+    }
+    #[test]
+    fn test_initialize_importance_weights() {
+        let analyzer = SemanticAnalyzer::new("en");
+        assert!(analyzer.importance_weights.contains_key("result"));
+        assert!(analyzer.importance_weights.contains_key("conclusion"));
+        assert!(analyzer.importance_weights.contains_key("important"));
+        assert!(analyzer.importance_weights.contains_key("process"));
+    }
+    #[test]
+    fn test_initialize_hypernyms() {
+        let analyzer = SemanticAnalyzer::new("en");
+        assert!(analyzer.hypernyms.contains_key("car"));
+        assert!(analyzer.hypernyms.contains_key("dog"));
+        assert!(analyzer.hypernyms.contains_key("apple"));
+    }
+    #[test]
+    fn test_initialize_semantic_clusters() {
+        let analyzer = SemanticAnalyzer::new("en");
+        assert!(analyzer.semantic_clusters.contains_key("computing"));
+        assert!(analyzer.semantic_clusters.contains_key("analysis"));
+        assert!(analyzer.semantic_clusters.contains_key("performance"));
+    }
+    #[test]
+    fn test_contextual_weight_technical_terms() {
+        let analyzer = SemanticAnalyzer::new("en");
+        let weight = analyzer.calculate_contextual_weight("implementation", "optimization");
+        assert!(weight > 0.0);
+    }
+    #[test]
+    fn test_hypernym_compression_zero_target() {
+        let analyzer = SemanticAnalyzer::new("en");
+        let input = "The car drove fast";
+        let result = analyzer.apply_hypernym_compression(input, Some(0.0));
+        assert!(!result.is_empty());
+    }
+}