RubyGems - kreuzberg - Versions diffs - 4.0.0.pre.rc.6 → 4.0.0.rc1 - Mend

kreuzberg 4.0.0.pre.rc.6 → 4.0.0.rc1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (175) hide show

checksums.yaml +4 -4
data/.gitignore +0 -6
data/.rubocop.yaml +534 -1
data/Gemfile +2 -1
data/Gemfile.lock +11 -11
data/README.md +5 -10
data/examples/async_patterns.rb +0 -1
data/ext/kreuzberg_rb/extconf.rb +0 -10
data/ext/kreuzberg_rb/native/Cargo.toml +15 -23
data/ext/kreuzberg_rb/native/build.rs +2 -0
data/ext/kreuzberg_rb/native/include/ieeefp.h +1 -1
data/ext/kreuzberg_rb/native/include/msvc_compat/strings.h +1 -1
data/ext/kreuzberg_rb/native/include/strings.h +2 -2
data/ext/kreuzberg_rb/native/include/unistd.h +1 -1
data/ext/kreuzberg_rb/native/src/lib.rs +16 -75
data/kreuzberg.gemspec +14 -57
data/lib/kreuzberg/cache_api.rb +0 -1
data/lib/kreuzberg/cli.rb +2 -2
data/lib/kreuzberg/config.rb +2 -9
data/lib/kreuzberg/errors.rb +7 -75
data/lib/kreuzberg/extraction_api.rb +0 -1
data/lib/kreuzberg/setup_lib_path.rb +0 -1
data/lib/kreuzberg/version.rb +1 -1
data/lib/kreuzberg.rb +0 -21
data/pkg/kreuzberg-4.0.0.rc1.gem +0 -0
data/sig/kreuzberg.rbs +3 -55
data/spec/binding/cli_proxy_spec.rb +4 -2
data/spec/binding/cli_spec.rb +11 -12
data/spec/examples.txt +104 -0
data/spec/fixtures/config.yaml +1 -0
data/spec/spec_helper.rb +1 -1
data/vendor/kreuzberg/Cargo.toml +42 -112
data/vendor/kreuzberg/README.md +2 -2
data/vendor/kreuzberg/build.rs +4 -18
data/vendor/kreuzberg/src/bin/profile_extract.rs +455 -0
data/vendor/kreuzberg/src/cache/mod.rs +3 -27
data/vendor/kreuzberg/src/core/batch_mode.rs +0 -60
data/vendor/kreuzberg/src/core/extractor.rs +81 -202
data/vendor/kreuzberg/src/core/io.rs +2 -4
data/vendor/kreuzberg/src/core/mime.rs +12 -2
data/vendor/kreuzberg/src/core/mod.rs +1 -4
data/vendor/kreuzberg/src/core/pipeline.rs +33 -111
data/vendor/kreuzberg/src/embeddings.rs +16 -125
data/vendor/kreuzberg/src/error.rs +1 -1
data/vendor/kreuzberg/src/extraction/docx.rs +1 -1
data/vendor/kreuzberg/src/extraction/image.rs +13 -13
data/vendor/kreuzberg/src/extraction/libreoffice.rs +1 -0
data/vendor/kreuzberg/src/extraction/mod.rs +5 -9
data/vendor/kreuzberg/src/extraction/office_metadata/mod.rs +0 -2
data/vendor/kreuzberg/src/extraction/pandoc/batch.rs +275 -0
data/vendor/kreuzberg/src/extraction/pandoc/mime_types.rs +178 -0
data/vendor/kreuzberg/src/extraction/pandoc/mod.rs +491 -0
data/vendor/kreuzberg/src/extraction/pandoc/server.rs +496 -0
data/vendor/kreuzberg/src/extraction/pandoc/subprocess.rs +1188 -0
data/vendor/kreuzberg/src/extraction/pandoc/version.rs +162 -0
data/vendor/kreuzberg/src/extractors/archive.rs +0 -21
data/vendor/kreuzberg/src/extractors/docx.rs +128 -16
data/vendor/kreuzberg/src/extractors/email.rs +0 -14
data/vendor/kreuzberg/src/extractors/excel.rs +20 -19
data/vendor/kreuzberg/src/extractors/html.rs +154 -137
data/vendor/kreuzberg/src/extractors/image.rs +4 -7
data/vendor/kreuzberg/src/extractors/mod.rs +9 -106
data/vendor/kreuzberg/src/extractors/pandoc.rs +201 -0
data/vendor/kreuzberg/src/extractors/pdf.rs +15 -12
data/vendor/kreuzberg/src/extractors/pptx.rs +3 -17
data/vendor/kreuzberg/src/extractors/structured.rs +0 -14
data/vendor/kreuzberg/src/extractors/text.rs +5 -23
data/vendor/kreuzberg/src/extractors/xml.rs +0 -7
data/vendor/kreuzberg/src/keywords/rake.rs +1 -0
data/vendor/kreuzberg/src/lib.rs +1 -4
data/vendor/kreuzberg/src/mcp/mod.rs +1 -1
data/vendor/kreuzberg/src/mcp/server.rs +3 -5
data/vendor/kreuzberg/src/ocr/processor.rs +2 -18
data/vendor/kreuzberg/src/pdf/error.rs +1 -1
data/vendor/kreuzberg/src/pdf/table.rs +44 -17
data/vendor/kreuzberg/src/pdf/text.rs +3 -0
data/vendor/kreuzberg/src/plugins/extractor.rs +5 -8
data/vendor/kreuzberg/src/plugins/ocr.rs +11 -2
data/vendor/kreuzberg/src/plugins/processor.rs +1 -2
data/vendor/kreuzberg/src/plugins/registry.rs +0 -13
data/vendor/kreuzberg/src/plugins/validator.rs +8 -9
data/vendor/kreuzberg/src/stopwords/mod.rs +2 -2
data/vendor/kreuzberg/src/types.rs +12 -42
data/vendor/kreuzberg/tests/batch_orchestration.rs +5 -19
data/vendor/kreuzberg/tests/batch_processing.rs +3 -15
data/vendor/kreuzberg/tests/chunking_offset_demo.rs +92 -0
data/vendor/kreuzberg/tests/concurrency_stress.rs +1 -17
data/vendor/kreuzberg/tests/config_features.rs +0 -18
data/vendor/kreuzberg/tests/config_loading_tests.rs +39 -15
data/vendor/kreuzberg/tests/core_integration.rs +7 -24
data/vendor/kreuzberg/tests/csv_integration.rs +81 -71
data/vendor/kreuzberg/tests/docx_metadata_extraction_test.rs +25 -23
data/vendor/kreuzberg/tests/pandoc_integration.rs +503 -0
data/vendor/kreuzberg/tests/pipeline_integration.rs +1 -0
data/vendor/kreuzberg/tests/plugin_postprocessor_test.rs +1 -0
data/vendor/kreuzberg/tests/registry_integration_tests.rs +22 -1
data/vendor/kreuzberg/tests/security_validation.rs +1 -12
metadata +25 -90
data/.rubocop.yml +0 -538
data/ext/kreuzberg_rb/native/Cargo.lock +0 -6535
data/lib/kreuzberg/error_context.rb +0 -32
data/vendor/kreuzberg/benches/otel_overhead.rs +0 -48
data/vendor/kreuzberg/src/extraction/markdown.rs +0 -213
data/vendor/kreuzberg/src/extraction/office_metadata/odt_properties.rs +0 -287
data/vendor/kreuzberg/src/extractors/bibtex.rs +0 -469
data/vendor/kreuzberg/src/extractors/docbook.rs +0 -502
data/vendor/kreuzberg/src/extractors/epub.rs +0 -707
data/vendor/kreuzberg/src/extractors/fictionbook.rs +0 -491
data/vendor/kreuzberg/src/extractors/fictionbook.rs.backup2 +0 -738
data/vendor/kreuzberg/src/extractors/jats.rs +0 -1051
data/vendor/kreuzberg/src/extractors/jupyter.rs +0 -367
data/vendor/kreuzberg/src/extractors/latex.rs +0 -652
data/vendor/kreuzberg/src/extractors/markdown.rs +0 -700
data/vendor/kreuzberg/src/extractors/odt.rs +0 -628
data/vendor/kreuzberg/src/extractors/opml.rs +0 -634
data/vendor/kreuzberg/src/extractors/orgmode.rs +0 -528
data/vendor/kreuzberg/src/extractors/rst.rs +0 -576
data/vendor/kreuzberg/src/extractors/rtf.rs +0 -810
data/vendor/kreuzberg/src/extractors/security.rs +0 -484
data/vendor/kreuzberg/src/extractors/security_tests.rs +0 -367
data/vendor/kreuzberg/src/extractors/typst.rs +0 -650
data/vendor/kreuzberg/src/panic_context.rs +0 -154
data/vendor/kreuzberg/tests/api_extract_multipart.rs +0 -52
data/vendor/kreuzberg/tests/bibtex_parity_test.rs +0 -421
data/vendor/kreuzberg/tests/docbook_extractor_tests.rs +0 -498
data/vendor/kreuzberg/tests/docx_vs_pandoc_comparison.rs +0 -370
data/vendor/kreuzberg/tests/epub_native_extractor_tests.rs +0 -275
data/vendor/kreuzberg/tests/fictionbook_extractor_tests.rs +0 -228
data/vendor/kreuzberg/tests/html_table_test.rs +0 -551
data/vendor/kreuzberg/tests/instrumentation_test.rs +0 -139
data/vendor/kreuzberg/tests/jats_extractor_tests.rs +0 -639
data/vendor/kreuzberg/tests/jupyter_extractor_tests.rs +0 -704
data/vendor/kreuzberg/tests/latex_extractor_tests.rs +0 -496
data/vendor/kreuzberg/tests/markdown_extractor_tests.rs +0 -490
data/vendor/kreuzberg/tests/odt_extractor_tests.rs +0 -695
data/vendor/kreuzberg/tests/opml_extractor_tests.rs +0 -616
data/vendor/kreuzberg/tests/orgmode_extractor_tests.rs +0 -822
data/vendor/kreuzberg/tests/rst_extractor_tests.rs +0 -692
data/vendor/kreuzberg/tests/rtf_extractor_tests.rs +0 -776
data/vendor/kreuzberg/tests/typst_behavioral_tests.rs +0 -1259
data/vendor/kreuzberg/tests/typst_extractor_tests.rs +0 -647
data/vendor/rb-sys/.cargo-ok +0 -1
data/vendor/rb-sys/.cargo_vcs_info.json +0 -6
data/vendor/rb-sys/Cargo.lock +0 -393
data/vendor/rb-sys/Cargo.toml +0 -70
data/vendor/rb-sys/Cargo.toml.orig +0 -57
data/vendor/rb-sys/LICENSE-APACHE +0 -190
data/vendor/rb-sys/LICENSE-MIT +0 -21
data/vendor/rb-sys/bin/release.sh +0 -21
data/vendor/rb-sys/build/features.rs +0 -108
data/vendor/rb-sys/build/main.rs +0 -246
data/vendor/rb-sys/build/stable_api_config.rs +0 -153
data/vendor/rb-sys/build/version.rs +0 -48
data/vendor/rb-sys/readme.md +0 -36
data/vendor/rb-sys/src/bindings.rs +0 -21
data/vendor/rb-sys/src/hidden.rs +0 -11
data/vendor/rb-sys/src/lib.rs +0 -34
data/vendor/rb-sys/src/macros.rs +0 -371
data/vendor/rb-sys/src/memory.rs +0 -53
data/vendor/rb-sys/src/ruby_abi_version.rs +0 -38
data/vendor/rb-sys/src/special_consts.rs +0 -31
data/vendor/rb-sys/src/stable_api/compiled.c +0 -179
data/vendor/rb-sys/src/stable_api/compiled.rs +0 -257
data/vendor/rb-sys/src/stable_api/ruby_2_6.rs +0 -316
data/vendor/rb-sys/src/stable_api/ruby_2_7.rs +0 -316
data/vendor/rb-sys/src/stable_api/ruby_3_0.rs +0 -324
data/vendor/rb-sys/src/stable_api/ruby_3_1.rs +0 -317
data/vendor/rb-sys/src/stable_api/ruby_3_2.rs +0 -315
data/vendor/rb-sys/src/stable_api/ruby_3_3.rs +0 -326
data/vendor/rb-sys/src/stable_api/ruby_3_4.rs +0 -327
data/vendor/rb-sys/src/stable_api.rs +0 -261
data/vendor/rb-sys/src/symbol.rs +0 -31
data/vendor/rb-sys/src/tracking_allocator.rs +0 -332
data/vendor/rb-sys/src/utils.rs +0 -89
data/vendor/rb-sys/src/value_type.rs +0 -7

data/vendor/kreuzberg/src/extractors/bibtex.rs DELETED Viewed

@@ -1,469 +0,0 @@
-//! BibTeX bibliography extractor.
-//!
-//! Extracts and parses BibTeX bibliography files, providing structured access
-//! to bibliography entries, metadata, and author information.
-use crate::Result;
-use crate::core::config::ExtractionConfig;
-use crate::plugins::{DocumentExtractor, Plugin};
-use crate::types::{ExtractionResult, Metadata};
-use async_trait::async_trait;
-use std::collections::{HashMap, HashSet};
-#[cfg(feature = "office")]
-use biblatex::{Bibliography, ChunksExt};
-/// BibTeX bibliography extractor.
-///
-/// Parses BibTeX files and extracts structured bibliography data including
-/// entries, authors, publication years, and entry type distribution.
-pub struct BibtexExtractor;
-impl BibtexExtractor {
-    /// Create a new BibTeX extractor.
-    pub fn new() -> Self {
-        Self
-    }
-}
-impl Default for BibtexExtractor {
-    fn default() -> Self {
-        Self::new()
-    }
-}
-impl Plugin for BibtexExtractor {
-    fn name(&self) -> &str {
-        "bibtex-extractor"
-    }
-    fn version(&self) -> String {
-        env!("CARGO_PKG_VERSION").to_string()
-    }
-    fn initialize(&self) -> Result<()> {
-        Ok(())
-    }
-    fn shutdown(&self) -> Result<()> {
-        Ok(())
-    }
-    fn description(&self) -> &str {
-        "Extracts and parses BibTeX bibliography files with structured metadata"
-    }
-    fn author(&self) -> &str {
-        "Kreuzberg Team"
-    }
-}
-#[cfg(feature = "office")]
-#[async_trait]
-impl DocumentExtractor for BibtexExtractor {
-    #[cfg_attr(feature = "otel", tracing::instrument(
-        skip(self, content, _config),
-        fields(
-            extractor.name = self.name(),
-            content.size_bytes = content.len(),
-        )
-    ))]
-    async fn extract_bytes(
-        &self,
-        content: &[u8],
-        mime_type: &str,
-        _config: &ExtractionConfig,
-    ) -> Result<ExtractionResult> {
-        let bibtex_str = String::from_utf8_lossy(content);
-        let mut entries_vec = Vec::new();
-        let mut authors_set = HashSet::new();
-        let mut years_set = HashSet::new();
-        let mut entry_types_map = HashMap::new();
-        let mut formatted_entries = String::new();
-        match Bibliography::parse(&bibtex_str) {
-            Ok(bib) => {
-                for entry in bib.iter() {
-                    let key = entry.key.clone();
-                    let entry_type = entry.entry_type.clone();
-                    formatted_entries.push_str(&format!("@{} {{\n", entry_type));
-                    formatted_entries.push_str(&format!("  key = {},\n", key));
-                    for (field_name, field_chunks) in &entry.fields {
-                        let field_text = field_chunks.format_verbatim();
-                        formatted_entries.push_str(&format!("  {} = {},\n", field_name, field_text));
-                        if field_name.to_lowercase() == "author" {
-                            let authors_text = field_chunks.format_verbatim();
-                            for author in authors_text.split(" and ") {
-                                let trimmed_author = author.trim().to_string();
-                                if !trimmed_author.is_empty() {
-                                    authors_set.insert(trimmed_author);
-                                }
-                            }
-                        }
-                        if field_name.to_lowercase() == "year" {
-                            let year_str = field_chunks.format_verbatim();
-                            if let Ok(year) = year_str.parse::<u32>() {
-                                years_set.insert(year);
-                            }
-                        }
-                    }
-                    formatted_entries.push_str("}\n\n");
-                    *entry_types_map
-                        .entry(entry_type.to_string().to_lowercase())
-                        .or_insert(0) += 1;
-                    entries_vec.push(key);
-                }
-            }
-            Err(_err) => {
-                #[cfg(feature = "otel")]
-                tracing::warn!("BibTeX parsing failed, returning raw content: {}", _err);
-                formatted_entries = bibtex_str.to_string();
-            }
-        }
-        let mut additional = HashMap::new();
-        additional.insert("entry_count".to_string(), serde_json::json!(entries_vec.len()));
-        let mut authors_list: Vec<String> = authors_set.into_iter().collect();
-        authors_list.sort();
-        additional.insert("authors".to_string(), serde_json::json!(authors_list));
-        if !years_set.is_empty() {
-            let min_year = years_set.iter().min().copied().unwrap_or(0);
-            let max_year = years_set.iter().max().copied().unwrap_or(0);
-            additional.insert(
-                "year_range".to_string(),
-                serde_json::json!({
-                    "min": min_year,
-                    "max": max_year,
-                    "years": years_set.into_iter().collect::<Vec<_>>()
-                }),
-            );
-        }
-        if !entry_types_map.is_empty() {
-            let mut entry_types_json = serde_json::json!({});
-            for (entry_type, count) in entry_types_map {
-                entry_types_json[entry_type] = serde_json::json!(count);
-            }
-            additional.insert("entry_types".to_string(), entry_types_json);
-        }
-        additional.insert("citation_keys".to_string(), serde_json::json!(entries_vec));
-        Ok(ExtractionResult {
-            content: formatted_entries,
-            mime_type: mime_type.to_string(),
-            metadata: Metadata {
-                additional,
-                ..Default::default()
-            },
-            tables: vec![],
-            detected_languages: None,
-            chunks: None,
-            images: None,
-        })
-    }
-    fn supported_mime_types(&self) -> &[&str] {
-        &["application/x-bibtex", "text/x-bibtex"]
-    }
-    fn priority(&self) -> i32 {
-        50
-    }
-}
-#[cfg(all(test, feature = "office"))]
-mod tests {
-    use super::*;
-    #[tokio::test]
-    async fn test_can_extract_bibtex_mime_types() {
-        let extractor = BibtexExtractor::new();
-        let supported = extractor.supported_mime_types();
-        assert!(supported.contains(&"application/x-bibtex"));
-        assert!(supported.contains(&"text/x-bibtex"));
-        assert_eq!(supported.len(), 2);
-    }
-    #[tokio::test]
-    async fn test_extract_simple_bibtex() {
-        let extractor = BibtexExtractor::new();
-        let bibtex_content = br#"@article{key2023,
-    title = {Sample Title},
-    author = {John Doe},
-    year = {2023}
-}"#;
-        let config = ExtractionConfig::default();
-        let result = extractor
-            .extract_bytes(bibtex_content, "application/x-bibtex", &config)
-            .await;
-        assert!(result.is_ok());
-        let result = result.expect("Should extract valid BibTeX entry");
-        assert!(result.content.contains("@article"));
-        assert!(result.content.contains("key2023"));
-        assert!(result.content.contains("Sample Title"));
-        let metadata = &result.metadata;
-        assert_eq!(metadata.additional.get("entry_count"), Some(&serde_json::json!(1)));
-    }
-    #[tokio::test]
-    async fn test_extract_multiple_entries() {
-        let extractor = BibtexExtractor::new();
-        let bibtex_content = br#"@article{first2020,
-    title = {First Paper},
-    author = {Author One},
-    year = {2020},
-    journal = {Test Journal}
-}
-@book{second2021,
-    title = {Test Book},
-    author = {Author Two},
-    year = {2021},
-    publisher = {Test Publisher}
-}
-@inproceedings{third2022,
-    title = {Conference Paper},
-    author = {Author Three},
-    year = {2022}
-}"#;
-        let config = ExtractionConfig::default();
-        let result = extractor
-            .extract_bytes(bibtex_content, "application/x-bibtex", &config)
-            .await;
-        assert!(result.is_ok());
-        let result = result.expect("Should extract valid BibTeX entries");
-        let metadata = &result.metadata;
-        assert_eq!(metadata.additional.get("entry_count"), Some(&serde_json::json!(3)));
-        if let Some(keys) = metadata.additional.get("citation_keys")
-            && let Some(keys_array) = keys.as_array()
-        {
-            assert_eq!(keys_array.len(), 3);
-        }
-        if let Some(types) = metadata.additional.get("entry_types") {
-            assert!(types.get("article").is_some());
-            assert!(types.get("book").is_some());
-            assert!(types.get("inproceedings").is_some());
-        }
-    }
-    #[tokio::test]
-    async fn test_extract_article_entry() {
-        let extractor = BibtexExtractor::new();
-        let bibtex_content = br#"@article{einstein1905,
-    author = {Albert Einstein},
-    title = {On the Electrodynamics of Moving Bodies},
-    journal = {Annalen der Physik},
-    year = {1905},
-    volume = {17},
-    pages = {891-921}
-}"#;
-        let config = ExtractionConfig::default();
-        let result = extractor
-            .extract_bytes(bibtex_content, "application/x-bibtex", &config)
-            .await;
-        assert!(result.is_ok());
-        let result = result.expect("Should extract valid article entry");
-        assert!(result.content.contains("@article"));
-        assert!(result.content.contains("einstein1905"));
-        assert!(result.content.contains("On the Electrodynamics of Moving Bodies"));
-        assert!(result.content.contains("Annalen der Physik"));
-        let metadata = &result.metadata;
-        if let Some(authors) = metadata.additional.get("authors")
-            && let Some(authors_array) = authors.as_array()
-        {
-            assert!(!authors_array.is_empty());
-            assert!(authors_array[0].as_str().unwrap_or("").contains("Einstein"));
-        }
-    }
-    #[tokio::test]
-    async fn test_extract_book_entry() {
-        let extractor = BibtexExtractor::new();
-        let bibtex_content = br#"@book{knuth1984,
-    author = {Donald E. Knuth},
-    title = {The TeXbook},
-    publisher = {Addison-Wesley},
-    year = {1984}
-}"#;
-        let config = ExtractionConfig::default();
-        let result = extractor
-            .extract_bytes(bibtex_content, "application/x-bibtex", &config)
-            .await;
-        assert!(result.is_ok());
-        let result = result.expect("Should extract valid book entry");
-        assert!(result.content.contains("@book"));
-        assert!(result.content.contains("knuth1984"));
-        assert!(result.content.contains("The TeXbook"));
-        let metadata = &result.metadata;
-        assert_eq!(metadata.additional.get("entry_count"), Some(&serde_json::json!(1)));
-        if let Some(year_range) = metadata.additional.get("year_range") {
-            assert_eq!(year_range.get("min"), Some(&serde_json::json!(1984)));
-            assert_eq!(year_range.get("max"), Some(&serde_json::json!(1984)));
-        }
-    }
-    #[tokio::test]
-    async fn test_extract_metadata() {
-        let extractor = BibtexExtractor::new();
-        let bibtex_content = br#"@article{paper1,
-    author = {Alice Smith and Bob Jones},
-    title = {Title 1},
-    year = {2020}
-}
-@article{paper2,
-    author = {Charlie Brown},
-    title = {Title 2},
-    year = {2021}
-}
-@book{book1,
-    author = {David Lee},
-    title = {Book Title},
-    year = {2019}
-}"#;
-        let config = ExtractionConfig::default();
-        let result = extractor
-            .extract_bytes(bibtex_content, "application/x-bibtex", &config)
-            .await;
-        assert!(result.is_ok());
-        let result = result.expect("Should extract valid metadata");
-        let metadata = &result.metadata;
-        assert_eq!(metadata.additional.get("entry_count"), Some(&serde_json::json!(3)));
-        if let Some(authors) = metadata.additional.get("authors")
-            && let Some(authors_array) = authors.as_array()
-        {
-            assert!(authors_array.len() >= 4);
-        }
-        if let Some(year_range) = metadata.additional.get("year_range") {
-            assert_eq!(year_range.get("min"), Some(&serde_json::json!(2019)));
-            assert_eq!(year_range.get("max"), Some(&serde_json::json!(2021)));
-        }
-        if let Some(types) = metadata.additional.get("entry_types") {
-            assert_eq!(types.get("article"), Some(&serde_json::json!(2)));
-            assert_eq!(types.get("book"), Some(&serde_json::json!(1)));
-        }
-    }
-    #[tokio::test]
-    async fn test_empty_bibliography() {
-        let extractor = BibtexExtractor::new();
-        let bibtex_content = b"";
-        let config = ExtractionConfig::default();
-        let result = extractor
-            .extract_bytes(bibtex_content, "application/x-bibtex", &config)
-            .await;
-        assert!(result.is_ok());
-        let result = result.expect("Should extract empty bibliography");
-        let metadata = &result.metadata;
-        assert_eq!(metadata.additional.get("entry_count"), Some(&serde_json::json!(0)));
-    }
-    #[tokio::test]
-    async fn test_malformed_entry() {
-        let extractor = BibtexExtractor::new();
-        let bibtex_content = br#"@article{incomplete
-    title = {Missing fields}
-Some random text that's not valid BibTeX"#;
-        let config = ExtractionConfig::default();
-        let result = extractor
-            .extract_bytes(bibtex_content, "application/x-bibtex", &config)
-            .await;
-        assert!(result.is_ok());
-        let result = result.expect("Should extract malformed entry as raw content");
-        assert!(!result.content.is_empty());
-    }
-    #[tokio::test]
-    async fn test_multiple_authors_extraction() {
-        let extractor = BibtexExtractor::new();
-        let bibtex_content = br#"@article{collab2022,
-    author = {First Author and Second Author and Third Author},
-    title = {Collaborative Work},
-    year = {2022}
-}"#;
-        let config = ExtractionConfig::default();
-        let result = extractor
-            .extract_bytes(bibtex_content, "application/x-bibtex", &config)
-            .await;
-        assert!(result.is_ok());
-        let result = result.expect("Should extract multiple authors");
-        let metadata = &result.metadata;
-        if let Some(authors) = metadata.additional.get("authors")
-            && let Some(authors_array) = authors.as_array()
-        {
-            assert!(authors_array.len() >= 3);
-        }
-    }
-    #[tokio::test]
-    async fn test_bibtex_extractor_plugin_interface() {
-        let extractor = BibtexExtractor::new();
-        assert_eq!(extractor.name(), "bibtex-extractor");
-        assert_eq!(extractor.version(), env!("CARGO_PKG_VERSION"));
-        assert_eq!(extractor.priority(), 50);
-        assert!(!extractor.supported_mime_types().is_empty());
-    }
-    #[test]
-    fn test_bibtex_extractor_default() {
-        let extractor = BibtexExtractor;
-        assert_eq!(extractor.name(), "bibtex-extractor");
-    }
-    #[tokio::test]
-    async fn test_bibtex_extractor_initialize_shutdown() {
-        let extractor = BibtexExtractor::new();
-        assert!(extractor.initialize().is_ok());
-        assert!(extractor.shutdown().is_ok());
-    }
-}