RubyGems - kreuzberg - Versions diffs - 4.1.2 → 4.2.0 - Mend

kreuzberg 4.1.2 → 4.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (80) hide show

checksums.yaml +4 -4
data/Gemfile.lock +2 -2
data/README.md +1 -1
data/ext/kreuzberg_rb/native/libpdfium.so +0 -0
data/kreuzberg.gemspec +13 -1
data/lib/kreuzberg/config.rb +70 -35
data/lib/kreuzberg/version.rb +1 -1
data/sig/kreuzberg.rbs +5 -1
data/spec/binding/batch_operations_spec.rb +80 -0
data/spec/binding/metadata_types_spec.rb +77 -57
data/spec/serialization_spec.rb +134 -0
data/spec/unit/config/output_format_spec.rb +380 -0
data/vendor/Cargo.toml +1 -1
data/vendor/kreuzberg/Cargo.toml +1 -1
data/vendor/kreuzberg/README.md +1 -1
data/vendor/kreuzberg/src/embeddings.rs +4 -4
data/vendor/kreuzberg/src/mcp/format.rs +237 -39
data/vendor/kreuzberg/src/mcp/params.rs +26 -33
data/vendor/kreuzberg/src/mcp/server.rs +6 -3
data/vendor/kreuzberg/src/mcp/tools/extraction.rs +16 -23
data/vendor/kreuzberg/tests/api_chunk.rs +40 -30
data/vendor/kreuzberg/tests/api_consistency.rs +349 -0
data/vendor/kreuzberg/tests/api_embed.rs +84 -50
data/vendor/kreuzberg/tests/api_large_pdf_extraction_diagnostics.rs +8 -2
data/vendor/kreuzberg/tests/api_tests.rs +298 -139
data/vendor/kreuzberg/tests/archive_integration.rs +63 -56
data/vendor/kreuzberg/tests/batch_orchestration.rs +22 -14
data/vendor/kreuzberg/tests/batch_pooling_benchmark.rs +13 -13
data/vendor/kreuzberg/tests/batch_processing.rs +13 -9
data/vendor/kreuzberg/tests/bibtex_parity_test.rs +10 -10
data/vendor/kreuzberg/tests/concurrency_stress.rs +10 -6
data/vendor/kreuzberg/tests/config_behavioral.rs +414 -0
data/vendor/kreuzberg/tests/config_features.rs +19 -15
data/vendor/kreuzberg/tests/config_integration_test.rs +68 -68
data/vendor/kreuzberg/tests/config_loading_tests.rs +71 -62
data/vendor/kreuzberg/tests/contract_mcp.rs +314 -0
data/vendor/kreuzberg/tests/core_integration.rs +55 -53
data/vendor/kreuzberg/tests/docbook_extractor_tests.rs +23 -23
data/vendor/kreuzberg/tests/docx_metadata_extraction_test.rs +15 -14
data/vendor/kreuzberg/tests/docx_vs_pandoc_comparison.rs +4 -4
data/vendor/kreuzberg/tests/email_integration.rs +7 -7
data/vendor/kreuzberg/tests/epub_native_extractor_tests.rs +2 -2
data/vendor/kreuzberg/tests/error_handling.rs +13 -11
data/vendor/kreuzberg/tests/fictionbook_extractor_tests.rs +2 -2
data/vendor/kreuzberg/tests/html_table_test.rs +11 -11
data/vendor/kreuzberg/tests/instrumentation_test.rs +18 -13
data/vendor/kreuzberg/tests/jats_extractor_tests.rs +17 -17
data/vendor/kreuzberg/tests/jupyter_extractor_tests.rs +9 -9
data/vendor/kreuzberg/tests/keywords_integration.rs +25 -25
data/vendor/kreuzberg/tests/keywords_quality.rs +9 -9
data/vendor/kreuzberg/tests/latex_extractor_tests.rs +2 -2
data/vendor/kreuzberg/tests/markdown_extractor_tests.rs +1 -1
data/vendor/kreuzberg/tests/mcp_integration.rs +849 -0
data/vendor/kreuzberg/tests/mime_detection.rs +72 -41
data/vendor/kreuzberg/tests/ocr_errors.rs +10 -4
data/vendor/kreuzberg/tests/ocr_language_registry.rs +1 -1
data/vendor/kreuzberg/tests/ocr_stress.rs +3 -3
data/vendor/kreuzberg/tests/odt_extractor_tests.rs +6 -6
data/vendor/kreuzberg/tests/opml_extractor_tests.rs +2 -2
data/vendor/kreuzberg/tests/orgmode_extractor_tests.rs +2 -2
data/vendor/kreuzberg/tests/page_markers.rs +1 -1
data/vendor/kreuzberg/tests/pdf_hierarchy_detection.rs +6 -6
data/vendor/kreuzberg/tests/pdf_text_merging.rs +2 -2
data/vendor/kreuzberg/tests/pipeline_integration.rs +77 -61
data/vendor/kreuzberg/tests/plugin_ocr_backend_test.rs +97 -77
data/vendor/kreuzberg/tests/plugin_postprocessor_test.rs +78 -61
data/vendor/kreuzberg/tests/plugin_system.rs +49 -46
data/vendor/kreuzberg/tests/plugin_validator_test.rs +109 -97
data/vendor/kreuzberg/tests/pptx_regression_tests.rs +40 -30
data/vendor/kreuzberg/tests/registry_integration_tests.rs +26 -23
data/vendor/kreuzberg/tests/rst_extractor_tests.rs +1 -1
data/vendor/kreuzberg/tests/rtf_extractor_tests.rs +18 -18
data/vendor/kreuzberg/tests/security_validation.rs +20 -19
data/vendor/kreuzberg/tests/serialization_integration.rs +112 -0
data/vendor/kreuzberg/tests/stopwords_integration_test.rs +36 -36
data/vendor/kreuzberg/tests/test_fastembed.rs +8 -8
data/vendor/kreuzberg/tests/typst_extractor_tests.rs +9 -9
data/vendor/kreuzberg/tests/xlsx_metadata_extraction_test.rs +12 -9
data/vendor/kreuzberg-tesseract/Cargo.toml +1 -1
metadata +10 -2

data/vendor/kreuzberg/tests/docbook_extractor_tests.rs CHANGED Viewed

@@ -11,9 +11,9 @@ fn test_file_path(filename: &str) -> PathBuf {
     let manifest_dir = env!("CARGO_MANIFEST_DIR");
     PathBuf::from(manifest_dir)
         .parent()
-        .unwrap()
+        .expect("Operation failed")
         .parent()
-        .unwrap()
+        .expect("Operation failed")
         .join("test_documents")
         .join("docbook")
         .join(filename)
@@ -72,7 +72,7 @@ async fn test_docbook4_chapter_extraction() {
     let result = extract_docbook4_file("docbook-chapter.docbook").await;
     assert!(result.is_ok(), "Failed to extract DocBook 4 chapter");
-    let result = result.unwrap();
+    let result = result.expect("Operation failed");
     assert!(!result.content.is_empty(), "Content should not be empty");
     assert!(
         result.content.contains("Test Chapter"),
@@ -89,7 +89,7 @@ async fn test_docbook5_reader_extraction() {
     let result = extract_docbook5_file("docbook-reader.docbook").await;
     assert!(result.is_ok(), "Failed to extract DocBook 5 file");
-    let result = result.unwrap();
+    let result = result.expect("Operation failed");
     assert!(!result.content.is_empty(), "Content should not be empty");
     assert!(
         result.content.contains("Pandoc Test Suite"),
@@ -102,7 +102,7 @@ async fn test_docbook_xref_extraction() {
     let result = extract_docbook4_file("docbook-xref.docbook").await;
     assert!(result.is_ok(), "Failed to extract DocBook with xref elements");
-    let result = result.unwrap();
+    let result = result.expect("Operation failed");
     assert!(!result.content.is_empty(), "Content should not be empty");
     assert!(
         result.content.contains("An Example Book"),
@@ -119,7 +119,7 @@ async fn test_docbook_tables_extraction() {
     let result = extract_docbook4_file("tables.docbook4").await;
     assert!(result.is_ok(), "Failed to extract DocBook with tables");
-    let result = result.unwrap();
+    let result = result.expect("Operation failed");
     assert!(!result.content.is_empty(), "Content should not be empty");
     assert!(!result.tables.is_empty(), "Should extract tables from DocBook");
 }
@@ -129,7 +129,7 @@ async fn test_docbook5_tables_extraction() {
     let result = extract_docbook5_file("tables.docbook5").await;
     assert!(result.is_ok(), "Failed to extract DocBook 5 with tables");
-    let result = result.unwrap();
+    let result = result.expect("Operation failed");
     assert!(!result.content.is_empty(), "Content should not be empty");
     assert!(!result.tables.is_empty(), "Should extract tables from DocBook 5");
 }
@@ -139,7 +139,7 @@ async fn test_docbook_metadata_extraction() {
     let result = extract_docbook5_file("docbook-reader.docbook").await;
     assert!(result.is_ok());
-    let result = result.unwrap();
+    let result = result.expect("Operation failed");
     assert!(!result.content.is_empty());
 }
@@ -148,7 +148,7 @@ async fn test_docbook_section_hierarchy() {
     let result = extract_docbook4_file("docbook-chapter.docbook").await;
     assert!(result.is_ok());
-    let result = result.unwrap();
+    let result = result.expect("Operation failed");
     let content = &result.content;
     assert!(content.contains("Like a Sect1"));
@@ -162,7 +162,7 @@ async fn test_docbook_paragraph_extraction() {
     let result = extract_docbook4_file("docbook-chapter.docbook").await;
     assert!(result.is_ok());
-    let result = result.unwrap();
+    let result = result.expect("Operation failed");
     assert!(
         result.content.contains("This chapter uses recursive sections"),
         "Should extract paragraph content"
@@ -183,7 +183,7 @@ async fn test_docbook_paragraph_content() {
     let result = extract_docbook_bytes(docbook.as_bytes(), "application/docbook+xml").await;
     assert!(result.is_ok());
-    let result = result.unwrap();
+    let result = result.expect("Operation failed");
     assert!(result.content.contains("Test Article"));
     assert!(result.content.contains("This is a test paragraph"));
     assert!(result.content.contains("another paragraph"));
@@ -205,7 +205,7 @@ def hello():
     let result = extract_docbook_bytes(docbook.as_bytes(), "application/docbook+xml").await;
     assert!(result.is_ok());
-    let result = result.unwrap();
+    let result = result.expect("Operation failed");
     assert!(result.content.contains("def hello"));
     assert!(result.content.contains("print"));
 }
@@ -229,7 +229,7 @@ async fn test_docbook_mixed_content() {
     let result = extract_docbook_bytes(docbook.as_bytes(), "application/docbook+xml").await;
     assert!(result.is_ok());
-    let result = result.unwrap();
+    let result = result.expect("Operation failed");
     assert!(result.content.contains("Test Book"));
     assert!(result.content.contains("Chapter 1"));
     assert!(result.content.contains("Section 1.1"));
@@ -259,7 +259,7 @@ async fn test_docbook_namespaced_5x_parsing() {
     let result = extract_docbook_bytes(docbook5.as_bytes(), "application/docbook+xml").await;
     assert!(result.is_ok());
-    let result = result.unwrap();
+    let result = result.expect("Operation failed");
     assert!(result.content.contains("DocBook 5 Article"));
     assert!(result.content.contains("Welcome to DocBook 5"));
 }
@@ -277,7 +277,7 @@ async fn test_docbook_link_handling() {
     let result = extract_docbook_bytes(docbook.as_bytes(), "application/docbook+xml").await;
     assert!(result.is_ok());
-    let result = result.unwrap();
+    let result = result.expect("Operation failed");
     assert!(result.content.contains("example"));
 }
@@ -316,7 +316,7 @@ async fn test_docbook_empty_sections() {
     let result = extract_docbook_bytes(docbook.as_bytes(), "application/docbook+xml").await;
     assert!(result.is_ok());
-    let result = result.unwrap();
+    let result = result.expect("Operation failed");
     assert!(result.content.contains("Empty Section"));
     assert!(result.content.contains("Section with Content"));
     assert!(result.content.contains("Content here"));
@@ -345,7 +345,7 @@ async fn test_docbook_itemized_list() {
     let result = extract_docbook_bytes(docbook.as_bytes(), "application/docbook+xml").await;
     assert!(result.is_ok());
-    let result = result.unwrap();
+    let result = result.expect("Operation failed");
     assert!(result.content.contains("First item"));
     assert!(result.content.contains("Second item"));
     assert!(result.content.contains("Third item"));
@@ -375,7 +375,7 @@ async fn test_docbook_ordered_list() {
     let result = extract_docbook_bytes(docbook.as_bytes(), "application/docbook+xml").await;
     assert!(result.is_ok());
-    let result = result.unwrap();
+    let result = result.expect("Operation failed");
     assert!(result.content.contains("First step"));
     assert!(result.content.contains("Second step"));
     assert!(result.content.contains("Third step"));
@@ -397,7 +397,7 @@ async fn test_docbook_blockquote() {
     let result = extract_docbook_bytes(docbook.as_bytes(), "application/docbook+xml").await;
     assert!(result.is_ok());
-    let result = result.unwrap();
+    let result = result.expect("Operation failed");
     assert!(result.content.contains("quoted passage"));
     assert!(result.content.contains("> "), "Should contain blockquote marker");
 }
@@ -418,7 +418,7 @@ async fn test_docbook_figure() {
     let result = extract_docbook_bytes(docbook.as_bytes(), "application/docbook+xml").await;
     assert!(result.is_ok());
-    let result = result.unwrap();
+    let result = result.expect("Operation failed");
     assert!(result.content.contains("Figure"));
 }
@@ -435,7 +435,7 @@ async fn test_docbook_footnote() {
     let result = extract_docbook_bytes(docbook.as_bytes(), "application/docbook+xml").await;
     assert!(result.is_ok());
-    let result = result.unwrap();
+    let result = result.expect("Operation failed");
     assert!(result.content.contains("text with a footnote"));
     assert!(result.content.contains("footnote content"));
 }
@@ -465,7 +465,7 @@ code example
     let result = extract_docbook_bytes(docbook.as_bytes(), "application/docbook+xml").await;
     assert!(result.is_ok());
-    let result = result.unwrap();
+    let result = result.expect("Operation failed");
     assert!(result.content.contains("Introduction paragraph"));
     assert!(result.content.contains("List item 1"));
     assert!(result.content.contains("List item 2"));
@@ -493,7 +493,7 @@ async fn test_docbook_namespaced_lists() {
     let result = extract_docbook_bytes(docbook5.as_bytes(), "application/docbook+xml").await;
     assert!(result.is_ok());
-    let result = result.unwrap();
+    let result = result.expect("Operation failed");
     assert!(result.content.contains("Namespaced item 1"));
     assert!(result.content.contains("Namespaced item 2"));
     assert!(result.content.contains("- "));

data/vendor/kreuzberg/tests/docx_metadata_extraction_test.rs CHANGED Viewed

@@ -8,9 +8,9 @@ use kreuzberg::{ExtractionConfig, extract_file};
 async fn test_docx_full_metadata_extraction() {
     let workspace_root = std::path::Path::new(env!("CARGO_MANIFEST_DIR"))
         .parent()
-        .unwrap()
+        .expect("Operation failed")
         .parent()
-        .unwrap();
+        .expect("Operation failed");
     let test_file = workspace_root.join("test_documents/documents/word_sample.docx");
     if !test_file.exists() {
@@ -91,9 +91,9 @@ async fn test_docx_full_metadata_extraction() {
 async fn test_docx_minimal_metadata_extraction() {
     let workspace_root = std::path::Path::new(env!("CARGO_MANIFEST_DIR"))
         .parent()
-        .unwrap()
+        .expect("Operation failed")
         .parent()
-        .unwrap();
+        .expect("Operation failed");
     let test_file = workspace_root.join("test_documents/documents/lorem_ipsum.docx");
     if !test_file.exists() {
@@ -143,25 +143,26 @@ async fn test_docx_keywords_extraction() {
         let options: FileOptions<()> = FileOptions::default().compression_method(CompressionMethod::Stored);
         // Add [Content_Types].xml
-        zip.start_file("[Content_Types].xml", options).unwrap();
+        zip.start_file("[Content_Types].xml", options)
+            .expect("Operation failed");
         zip.write_all(br#"<?xml version="1.0" encoding="UTF-8"?>
 <Types xmlns="http://schemas.openxmlformats.org/package/2006/content-types">
   <Default Extension="rels" ContentType="application/vnd.openxmlformats-package.relationships+xml"/>
   <Default Extension="xml" ContentType="application/xml"/>
   <Override PartName="/word/document.xml" ContentType="application/vnd.openxmlformats-officedocument.wordprocessingml.document.main+xml"/>
   <Override PartName="/docProps/core.xml" ContentType="application/vnd.openxmlformats-package.core-properties+xml"/>
-</Types>"#).unwrap();
+</Types>"#).expect("Operation failed");
         // Add _rels/.rels
-        zip.start_file("_rels/.rels", options).unwrap();
+        zip.start_file("_rels/.rels", options).expect("Operation failed");
         zip.write_all(br#"<?xml version="1.0" encoding="UTF-8"?>
 <Relationships xmlns="http://schemas.openxmlformats.org/package/2006/relationships">
   <Relationship Id="rId1" Type="http://schemas.openxmlformats.org/officeDocument/2006/relationships/officeDocument" Target="word/document.xml"/>
   <Relationship Id="rId2" Type="http://schemas.openxmlformats.org/package/2006/relationships/metadata/core-properties" Target="docProps/core.xml"/>
-</Relationships>"#).unwrap();
+</Relationships>"#).expect("Operation failed");
         // Add word/document.xml with simple content
-        zip.start_file("word/document.xml", options).unwrap();
+        zip.start_file("word/document.xml", options).expect("Operation failed");
         zip.write_all(
             br#"<?xml version="1.0" encoding="UTF-8"?>
 <w:document xmlns:w="http://schemas.openxmlformats.org/wordprocessingml/2006/main">
@@ -174,10 +175,10 @@ async fn test_docx_keywords_extraction() {
   </w:body>
 </w:document>"#,
         )
-        .unwrap();
+        .expect("Operation failed");
         // Add docProps/core.xml with keywords (comma-separated string)
-        zip.start_file("docProps/core.xml", options).unwrap();
+        zip.start_file("docProps/core.xml", options).expect("Operation failed");
         zip.write_all(
             br#"<?xml version="1.0" encoding="UTF-8"?>
 <cp:coreProperties xmlns:cp="http://schemas.openxmlformats.org/package/2006/metadata/core-properties"
@@ -189,9 +190,9 @@ async fn test_docx_keywords_extraction() {
   <dc:subject>Testing keyword extraction</dc:subject>
 </cp:coreProperties>"#,
         )
-        .unwrap();
+        .expect("Operation failed");
-        zip.finish().unwrap();
+        zip.finish().expect("Operation failed");
     }
     // Extract the DOCX file
@@ -216,7 +217,7 @@ async fn test_docx_keywords_extraction() {
         "Keywords should be present in metadata.keywords"
     );
-    let keywords = result.metadata.keywords.as_ref().unwrap();
+    let keywords = result.metadata.keywords.as_ref().expect("Operation failed");
     assert_eq!(
         keywords.len(),
         5,

data/vendor/kreuzberg/tests/docx_vs_pandoc_comparison.rs CHANGED Viewed

@@ -10,9 +10,9 @@ use kreuzberg::plugins::DocumentExtractor;
 async fn test_docx_kreuzberg_vs_pandoc_comparison() {
     let docx_path = std::path::Path::new(env!("CARGO_MANIFEST_DIR"))
         .parent()
-        .unwrap()
+        .expect("Operation failed")
         .parent()
-        .unwrap()
+        .expect("Operation failed")
         .join("test_documents/documents/word_sample.docx");
     if !docx_path.exists() {
@@ -319,9 +319,9 @@ Here are some interesting things a respectful duck could eat:
 async fn test_docx_lorem_ipsum_comparison() {
     let docx_path = std::path::Path::new(env!("CARGO_MANIFEST_DIR"))
         .parent()
-        .unwrap()
+        .expect("Operation failed")
         .parent()
-        .unwrap()
+        .expect("Operation failed")
         .join("test_documents/documents/lorem_ipsum.docx");
     if !docx_path.exists() {

data/vendor/kreuzberg/tests/email_integration.rs CHANGED Viewed

@@ -32,7 +32,7 @@ This is the email body content.";
     assert_eq!(result.metadata.subject, Some("Test Email Subject".to_string()));
     assert!(result.metadata.format.is_some());
-    let email_meta = match result.metadata.format.as_ref().unwrap() {
+    let email_meta = match result.metadata.format.as_ref().expect("Operation failed") {
         kreuzberg::FormatMetadata::Email(meta) => meta,
         _ => panic!("Expected Email metadata"),
     };
@@ -44,7 +44,7 @@ This is the email body content.";
     assert!(email_meta.bcc_emails.is_empty(), "BCC should be empty");
     assert!(email_meta.message_id.is_some());
-    let msg_id = email_meta.message_id.clone().unwrap();
+    let msg_id = email_meta.message_id.clone().expect("Operation failed");
     assert!(
         msg_id.contains("unique123@example.com"),
         "Message ID should contain unique123@example.com"
@@ -86,7 +86,7 @@ Attachment content here.\r\n\
         .expect("Should extract EML with attachment");
     assert!(result.metadata.format.is_some());
-    let email_meta = match result.metadata.format.as_ref().unwrap() {
+    let email_meta = match result.metadata.format.as_ref().expect("Operation failed") {
         kreuzberg::FormatMetadata::Email(meta) => meta,
         _ => panic!("Expected Email metadata"),
     };
@@ -127,7 +127,7 @@ Content-Type: text/html; charset=utf-8\r\n\
     assert!(result.content.contains("HTML Heading") || result.content.contains("bold"));
     assert!(result.metadata.format.is_some());
-    let email_meta = match result.metadata.format.as_ref().unwrap() {
+    let email_meta = match result.metadata.format.as_ref().expect("Operation failed") {
         kreuzberg::FormatMetadata::Email(meta) => meta,
         _ => panic!("Expected Email metadata"),
     };
@@ -159,7 +159,7 @@ And preserves formatting.";
     assert!(result.content.contains("preserves formatting"));
     assert!(result.metadata.format.is_some());
-    let email_meta = match result.metadata.format.as_ref().unwrap() {
+    let email_meta = match result.metadata.format.as_ref().expect("Operation failed") {
         kreuzberg::FormatMetadata::Email(meta) => meta,
         _ => panic!("Expected Email metadata"),
     };
@@ -198,7 +198,7 @@ Content-Type: text/html\r\n\
     );
     assert!(result.metadata.format.is_some());
-    let email_meta = match result.metadata.format.as_ref().unwrap() {
+    let email_meta = match result.metadata.format.as_ref().expect("Operation failed") {
         kreuzberg::FormatMetadata::Email(meta) => meta,
         _ => panic!("Expected Email metadata"),
     };
@@ -290,7 +290,7 @@ Email to multiple recipients.";
         .expect("Should extract email with multiple recipients");
     assert!(result.metadata.format.is_some());
-    let email_meta = match result.metadata.format.as_ref().unwrap() {
+    let email_meta = match result.metadata.format.as_ref().expect("Operation failed") {
         kreuzberg::FormatMetadata::Email(meta) => meta,
         _ => panic!("Expected Email metadata"),
     };

data/vendor/kreuzberg/tests/epub_native_extractor_tests.rs CHANGED Viewed

@@ -17,9 +17,9 @@ use std::path::PathBuf;
 fn get_test_epub_path(filename: &str) -> PathBuf {
     let workspace_root = std::path::Path::new(env!("CARGO_MANIFEST_DIR"))
         .parent()
-        .unwrap()
+        .expect("Operation failed")
         .parent()
-        .unwrap();
+        .expect("Operation failed");
     workspace_root.join(format!("test_documents/epub/{}", filename))
 }

data/vendor/kreuzberg/tests/error_handling.rs CHANGED Viewed

@@ -187,7 +187,7 @@ async fn test_very_large_file() {
     let result = extract_bytes(large_bytes, "text/plain", &config).await;
     assert!(result.is_ok(), "Large file should be processed successfully");
-    let extraction = result.unwrap();
+    let extraction = result.expect("Operation failed");
     assert!(!extraction.content.is_empty(), "Large file content should not be empty");
     assert!(extraction.content.len() > 1_000_000, "Content should be large");
@@ -213,12 +213,14 @@ async fn test_unicode_filenames() {
     let config = ExtractionConfig::default();
     let mut temp_file = NamedTempFile::new().expect("Should create temp file");
-    temp_file.write_all(b"Test content with Unicode filename.").unwrap();
+    temp_file
+        .write_all(b"Test content with Unicode filename.")
+        .expect("Operation failed");
     let result = extract_file(temp_file.path(), Some("text/plain"), &config).await;
     assert!(result.is_ok(), "Unicode filename should be handled");
-    let extraction = result.unwrap();
+    let extraction = result.expect("Operation failed");
     assert!(
         extraction.content.contains("Test content"),
@@ -249,7 +251,7 @@ Math symbols: ∑ ∫ √ ≈ ∞";
     let result = extract_bytes(special_text.as_bytes(), "text/plain", &config).await;
     assert!(result.is_ok(), "Special characters should be handled");
-    let extraction = result.unwrap();
+    let extraction = result.expect("Operation failed");
     assert!(!extraction.content.is_empty(), "Content should not be empty");
     assert!(extraction.content.len() > 10, "Should have substantial content");
@@ -319,17 +321,17 @@ async fn test_permission_denied() {
     let config = ExtractionConfig::default();
     let mut temp_file = NamedTempFile::new().expect("Should create temp file");
-    temp_file.write_all(b"Test content").unwrap();
+    temp_file.write_all(b"Test content").expect("Operation failed");
-    let mut perms = fs::metadata(temp_file.path()).unwrap().permissions();
+    let mut perms = fs::metadata(temp_file.path()).expect("Operation failed").permissions();
     perms.set_mode(0o000);
-    fs::set_permissions(temp_file.path(), perms).unwrap();
+    fs::set_permissions(temp_file.path(), perms).expect("Operation failed");
     let result = extract_file(temp_file.path(), Some("text/plain"), &config).await;
-    let mut perms = fs::metadata(temp_file.path()).unwrap().permissions();
+    let mut perms = fs::metadata(temp_file.path()).expect("Operation failed").permissions();
     perms.set_mode(0o644);
-    fs::set_permissions(temp_file.path(), perms).unwrap();
+    fs::set_permissions(temp_file.path(), perms).expect("Operation failed");
     assert!(result.is_err(), "Permission denied should return error");
 }
@@ -356,7 +358,7 @@ async fn test_null_bytes_in_content() {
     let result = extract_bytes(data_with_nulls, "text/plain", &config).await;
     assert!(result.is_ok(), "Null bytes should be handled");
-    let extraction = result.unwrap();
+    let extraction = result.expect("Operation failed");
     assert!(!extraction.content.is_empty(), "Content should not be empty");
     assert!(
@@ -388,7 +390,7 @@ async fn test_concurrent_extractions() {
         let result = handle.await.expect("Task should complete");
         assert!(result.is_ok(), "Concurrent extraction should succeed");
-        let extraction = result.unwrap();
+        let extraction = result.expect("Operation failed");
         assert!(
             extraction.content.contains("Concurrent extraction"),
             "Content should be extracted correctly"

data/vendor/kreuzberg/tests/fictionbook_extractor_tests.rs CHANGED Viewed

@@ -9,9 +9,9 @@ fn test_file_path(filename: &str) -> PathBuf {
     let manifest_dir = env!("CARGO_MANIFEST_DIR");
     PathBuf::from(manifest_dir)
         .parent()
-        .unwrap()
+        .expect("Operation failed")
         .parent()
-        .unwrap()
+        .expect("Operation failed")
         .join("test_documents")
         .join("fictionbook")
         .join(filename)

data/vendor/kreuzberg/tests/html_table_test.rs CHANGED Viewed

@@ -37,7 +37,7 @@ mod html_table_tests {
         let result = convert_html_to_markdown(html, None, None);
         assert!(result.is_ok(), "HTML to markdown conversion should succeed");
-        let markdown = result.unwrap();
+        let markdown = result.expect("Operation failed");
         println!("=== Basic Table Test ===");
         println!("Input HTML:\n{}", html);
@@ -79,7 +79,7 @@ mod html_table_tests {
         let result = convert_html_to_markdown(html, None, None);
         assert!(result.is_ok(), "Should convert to markdown");
-        let markdown = result.unwrap();
+        let markdown = result.expect("Operation failed");
         println!("=== Table Format Test ===");
         println!("Input HTML:\n{}", html);
@@ -143,7 +143,7 @@ mod html_table_tests {
         let result = convert_html_to_markdown(html, None, None);
         assert!(result.is_ok(), "Should convert complex table");
-        let markdown = result.unwrap();
+        let markdown = result.expect("Operation failed");
         println!("=== Complex Table Test ===");
         println!("Input HTML:\n{}", html);
@@ -194,7 +194,7 @@ mod html_table_tests {
         let result = convert_html_to_markdown(html, None, None);
         assert!(result.is_ok(), "Should handle merged cell table");
-        let markdown = result.unwrap();
+        let markdown = result.expect("Operation failed");
         println!("=== Merged Cells Test ===");
         println!("Input HTML:\n{}", html);
@@ -248,7 +248,7 @@ mod html_table_tests {
         let result = convert_html_to_markdown(html, None, None);
         assert!(result.is_ok(), "Should handle multiple tables");
-        let markdown = result.unwrap();
+        let markdown = result.expect("Operation failed");
         println!("=== Multiple Tables Test ===");
         println!("Input HTML:\n{}", html);
@@ -303,7 +303,7 @@ mod html_table_tests {
         let result = convert_html_to_markdown(html, None, None);
         assert!(result.is_ok(), "Should handle mixed header cells");
-        let markdown = result.unwrap();
+        let markdown = result.expect("Operation failed");
         println!("=== Mixed Header Cells Test ===");
         println!("Input HTML:\n{}", html);
@@ -349,7 +349,7 @@ mod html_table_tests {
         let result = convert_html_to_markdown(html, None, None);
         assert!(result.is_ok(), "Should handle table with caption");
-        let markdown = result.unwrap();
+        let markdown = result.expect("Operation failed");
         println!("=== Table with Caption Test ===");
         println!("Input HTML:\n{}", html);
@@ -385,7 +385,7 @@ mod html_table_tests {
         let result = convert_html_to_markdown(html, None, None);
         assert!(result.is_ok(), "Should handle flat table");
-        let markdown = result.unwrap();
+        let markdown = result.expect("Operation failed");
         println!("=== Simple Flat Table Test ===");
         println!("Input HTML:\n{}", html);
@@ -421,7 +421,7 @@ mod html_table_tests {
         let result = convert_html_to_markdown(html, None, None);
         assert!(result.is_ok(), "Should handle empty cells");
-        let markdown = result.unwrap();
+        let markdown = result.expect("Operation failed");
         println!("=== Empty Cells Test ===");
         println!("Input HTML:\n{}", html);
@@ -459,7 +459,7 @@ mod html_table_tests {
         let result = convert_html_to_markdown(html, None, None);
         assert!(result.is_ok(), "Should handle numeric table");
-        let markdown = result.unwrap();
+        let markdown = result.expect("Operation failed");
         println!("=== Numeric Data Test ===");
         println!("Input HTML:\n{}", html);
@@ -502,7 +502,7 @@ mod html_table_tests {
         let result = convert_html_to_markdown(html, None, None);
         assert!(result.is_ok(), "Should handle unicode characters");
-        let markdown = result.unwrap();
+        let markdown = result.expect("Operation failed");
         println!("=== Special Characters Test ===");
         println!("Input HTML:\n{}", html);

data/vendor/kreuzberg/tests/instrumentation_test.rs CHANGED Viewed

@@ -17,7 +17,10 @@ struct SpanCollector {
 impl<S: Subscriber + for<'a> LookupSpan<'a>> Layer<S> for SpanCollector {
     fn on_new_span(&self, attrs: &Attributes<'_>, _id: &Id, _ctx: Context<'_, S>) {
-        self.spans.lock().unwrap().push(attrs.metadata().name().to_string());
+        self.spans
+            .lock()
+            .expect("Operation failed")
+            .push(attrs.metadata().name().to_string());
     }
 }
@@ -32,21 +35,23 @@ async fn test_cache_instrumentation() {
     let subscriber = tracing_subscriber::registry().with(collector);
     let _guard = tracing::subscriber::set_default(subscriber);
-    let temp_dir = tempdir().unwrap();
+    let temp_dir = tempdir().expect("Operation failed");
     let cache = GenericCache::new(
         "test".to_string(),
-        Some(temp_dir.path().to_str().unwrap().to_string()),
+        Some(temp_dir.path().to_str().expect("Operation failed").to_string()),
         30.0,
         500.0,
         1000.0,
     )
-    .unwrap();
+    .expect("Operation failed");
-    cache.set("test_key", b"test data".to_vec(), None).unwrap();
+    cache
+        .set("test_key", b"test data".to_vec(), None)
+        .expect("Operation failed");
-    let _ = cache.get("test_key", None).unwrap();
+    let _ = cache.get("test_key", None).expect("Value not found");
-    let span_names = spans.lock().unwrap();
+    let span_names = spans.lock().expect("Operation failed");
     assert!(span_names.contains(&"set".to_string()), "Expected 'set' span");
     assert!(span_names.contains(&"get".to_string()), "Expected 'get' span");
 }
@@ -64,13 +69,13 @@ async fn test_ocr_instrumentation() {
     let subscriber = tracing_subscriber::registry().with(collector);
     let _guard = tracing::subscriber::set_default(subscriber);
-    let temp_dir = tempdir().unwrap();
-    let processor = OcrProcessor::new(Some(temp_dir.path().to_path_buf())).unwrap();
+    let temp_dir = tempdir().expect("Operation failed");
+    let processor = OcrProcessor::new(Some(temp_dir.path().to_path_buf())).expect("Operation failed");
     let mut test_image = Vec::new();
     let img = image::ImageBuffer::from_fn(1, 1, |_, _| image::Rgb([255u8, 255u8, 255u8]));
     img.write_to(&mut std::io::Cursor::new(&mut test_image), image::ImageFormat::Png)
-        .unwrap();
+        .expect("Operation failed");
     let config = TesseractConfig {
         output_format: "text".to_string(),
@@ -80,7 +85,7 @@ async fn test_ocr_instrumentation() {
     let _ = processor.process_image(&test_image, &config);
-    let span_names = spans.lock().unwrap();
+    let span_names = spans.lock().expect("Operation failed");
     assert!(
         span_names.contains(&"process_image".to_string()),
         "Expected 'process_image' span"
@@ -101,7 +106,7 @@ async fn test_registry_instrumentation() {
     let _ = registry.get("application/pdf");
-    let span_names = spans.lock().unwrap();
+    let span_names = spans.lock().expect("Operation failed");
     assert!(
         span_names.contains(&"get".to_string()),
         "Expected 'get' span from registry"
@@ -125,7 +130,7 @@ async fn test_span_hierarchy() {
     let _ = extract_bytes(test_content, "text/plain", &config).await;
-    let span_names = spans.lock().unwrap();
+    let span_names = spans.lock().expect("Operation failed");
     assert!(
         span_names.contains(&"extract_bytes".to_string()),
         "Expected 'extract_bytes' span"