RubyGems - universal_document_processor - Versions diffs - 1.0.1 → 1.0.3 - Mend

universal_document_processor 1.0.1 → 1.0.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (15) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +20 -0
data/README.md +53 -1
data/Rakefile +100 -17
data/lib/universal_document_processor/ai_agent.rb +44 -3
data/lib/universal_document_processor/document.rb +40 -4
data/lib/universal_document_processor/processors/excel_processor.rb +719 -132
data/lib/universal_document_processor/processors/pdf_processor.rb +14 -0
data/lib/universal_document_processor/processors/word_processor.rb +94 -4
data/lib/universal_document_processor/utils/file_detector.rb +1 -0
data/lib/universal_document_processor/version.rb +1 -1
data/lib/universal_document_processor.rb +84 -1
metadata +48 -6
data/AI_USAGE_GUIDE.md +0 -404
data/GEM_RELEASE_GUIDE.md +0 -288

data/lib/universal_document_processor/processors/pdf_processor.rb CHANGED Viewed

@@ -2,6 +2,8 @@ module UniversalDocumentProcessor
   module Processors
     class PdfProcessor < BaseProcessor
       def extract_text
+        ensure_pdf_reader_available!
         with_error_handling do
           reader = PDF::Reader.new(@file_path)
           text = reader.pages.map(&:text).join("\n")
@@ -10,6 +12,8 @@ module UniversalDocumentProcessor
       end
       def extract_metadata
+        ensure_pdf_reader_available!
         with_error_handling do
           reader = PDF::Reader.new(@file_path)
           info = reader.info || {}
@@ -32,6 +36,8 @@ module UniversalDocumentProcessor
       end
       def extract_images
+        ensure_pdf_reader_available!
         with_error_handling do
           # Extract embedded images from PDF
           images = []
@@ -57,6 +63,8 @@ module UniversalDocumentProcessor
       end
       def extract_tables
+        ensure_pdf_reader_available!
         with_error_handling do
           # Basic table extraction from PDF text
           tables = []
@@ -87,6 +95,12 @@ module UniversalDocumentProcessor
       private
+      def ensure_pdf_reader_available!
+        unless defined?(PDF::Reader)
+          raise DependencyMissingError, "PDF processing requires the 'pdf-reader' gem. Install it with: gem install pdf-reader -v '~> 2.0'"
+        end
+      end
       def extract_form_fields(reader)
         # Extract PDF form fields if present
         []

data/lib/universal_document_processor/processors/word_processor.rb CHANGED Viewed

@@ -5,8 +5,11 @@ module UniversalDocumentProcessor
         with_error_handling do
           if @file_path.end_with?('.docx')
             extract_docx_text
+          elsif @file_path.end_with?('.doc')
+            # Built-in .doc file processing
+            fallback_text_extraction
           else
-            # Fallback for .doc files
+            # Handle other Word formats
             fallback_text_extraction
           end
         end
@@ -16,6 +19,8 @@ module UniversalDocumentProcessor
         with_error_handling do
           if @file_path.end_with?('.docx')
             extract_docx_metadata
+          elsif @file_path.end_with?('.doc')
+            extract_doc_metadata
           else
             super
           end
@@ -25,6 +30,7 @@ module UniversalDocumentProcessor
       def extract_images
         with_error_handling do
           return [] unless @file_path.end_with?('.docx')
+          ensure_docx_available!
           images = []
           doc = Docx::Document.open(@file_path)
@@ -48,6 +54,7 @@ module UniversalDocumentProcessor
       def extract_tables
         with_error_handling do
           return [] unless @file_path.end_with?('.docx')
+          ensure_docx_available!
           tables = []
           doc = Docx::Document.open(@file_path)
@@ -73,12 +80,25 @@ module UniversalDocumentProcessor
       end
       def supported_operations
-        super + [:extract_images, :extract_tables, :extract_styles, :extract_comments]
+        if @file_path.end_with?('.docx')
+          super + [:extract_images, :extract_tables, :extract_styles, :extract_comments]
+        else
+          # .doc files support basic text and metadata extraction
+          super + [:extract_basic_formatting]
+        end
       end
       private
+      def ensure_docx_available!
+        unless defined?(Docx)
+          raise DependencyMissingError, "DOCX processing requires the 'docx' gem. Install it with: gem install docx -v '~> 0.8'"
+        end
+      end
       def extract_docx_text
+        ensure_docx_available!
         doc = Docx::Document.open(@file_path)
         text_content = []
@@ -99,6 +119,8 @@ module UniversalDocumentProcessor
       end
       def extract_docx_metadata
+        ensure_docx_available!
         doc = Docx::Document.open(@file_path)
         core_properties = doc.core_properties
@@ -126,12 +148,80 @@ module UniversalDocumentProcessor
         0
       end
+      def extract_doc_metadata
+        # Extract basic metadata from .doc files
+        file_stats = File.stat(@file_path)
+        extracted_text = extract_doc_text_builtin
+        super.merge({
+          format: 'Microsoft Word Document (.doc)',
+          word_count: count_words(extracted_text),
+          character_count: extracted_text.length,
+          created_at: file_stats.ctime,
+          modified_at: file_stats.mtime,
+          file_size: file_stats.size,
+          extraction_method: 'Built-in binary parsing'
+        })
+      rescue => e
+        super.merge({
+          format: 'Microsoft Word Document (.doc)',
+          extraction_error: e.message
+        })
+      end
       def fallback_text_extraction
-        # Use Yomu for .doc files or as fallback
-        Yomu.new(@file_path).text
+        # Built-in .doc file text extraction
+        extract_doc_text_builtin
       rescue => e
         "Unable to extract text from Word document: #{e.message}"
       end
+      def extract_doc_text_builtin
+        # Read .doc file as binary and extract readable text
+        content = File.binread(@file_path)
+        # .doc files store text in a specific format - extract readable ASCII text
+        # This is a simplified extraction that works for basic .doc files
+        text_content = []
+        # Look for text patterns in the binary data
+        # .doc files often have text stored with null bytes between characters
+        content.force_encoding('ASCII-8BIT').scan(/[\x20-\x7E\x0A\x0D]{4,}/) do |match|
+          # Clean up the extracted text
+          cleaned_text = match.gsub(/[\x00-\x1F\x7F-\xFF]/n, ' ').strip
+          text_content << cleaned_text if cleaned_text.length > 3
+        end
+        # Try alternative extraction method if first method yields little text
+        if text_content.join(' ').length < 50
+          text_content = extract_doc_alternative_method(content)
+        end
+        result = text_content.join("\n").strip
+        result.empty? ? "Text extracted from .doc file (content may be limited due to complex formatting)" : result
+      end
+      def extract_doc_alternative_method(content)
+        # Alternative method: look for Word document text patterns
+        text_parts = []
+        # .doc files often have text in UTF-16 or with specific markers
+        # Try to find readable text segments
+        content.force_encoding('UTF-16LE').encode('UTF-8', invalid: :replace, undef: :replace).scan(/[[:print:]]{5,}/m) do |match|
+          cleaned = match.strip
+          text_parts << cleaned if cleaned.length > 4 && !cleaned.match?(/^[\x00-\x1F]*$/)
+        end
+        # If UTF-16 doesn't work, try scanning for ASCII patterns
+        if text_parts.empty?
+          content.force_encoding('ASCII-8BIT').scan(/[a-zA-Z0-9\s\.\,\!\?\;\:]{10,}/n) do |match|
+            cleaned = match.strip
+            text_parts << cleaned if cleaned.length > 9
+          end
+        end
+        text_parts.uniq
+      end
     end
   end
 end

data/lib/universal_document_processor/utils/file_detector.rb CHANGED Viewed

@@ -15,6 +15,7 @@ module UniversalDocumentProcessor
         'htm' => 'text/html',
         'xml' => 'application/xml',
         'csv' => 'text/csv',
+        'tsv' => 'text/tab-separated-values',
         'json' => 'application/json',
         'jpg' => 'image/jpeg',
         'jpeg' => 'image/jpeg',

data/lib/universal_document_processor/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module UniversalDocumentProcessor
-  VERSION = "1.0.1"
+  VERSION = "1.0.3"
 end

data/lib/universal_document_processor.rb CHANGED Viewed

@@ -122,48 +122,72 @@ module UniversalDocumentProcessor
   def self.ai_analyze(file_path, options = {})
     document_result = process(file_path, options)
     ai_agent = AIAgent.new(options)
+    unless ai_agent.ai_available?
+      raise DependencyMissingError, "AI features require an OpenAI API key. Set OPENAI_API_KEY environment variable or pass api_key in options."
+    end
     ai_agent.analyze_document(document_result, options[:query])
   end
   def self.ai_summarize(file_path, length: :medium, options: {})
     document_result = process(file_path, options)
     ai_agent = AIAgent.new(options)
+    unless ai_agent.ai_available?
+      raise DependencyMissingError, "AI features require an OpenAI API key. Set OPENAI_API_KEY environment variable or pass api_key in options."
+    end
     ai_agent.summarize_document(document_result, length: length)
   end
   def self.ai_extract_info(file_path, categories = nil, options = {})
     document_result = process(file_path, options)
     ai_agent = AIAgent.new(options)
+    unless ai_agent.ai_available?
+      raise DependencyMissingError, "AI features require an OpenAI API key. Set OPENAI_API_KEY environment variable or pass api_key in options."
+    end
     ai_agent.extract_key_information(document_result, categories)
   end
   def self.ai_translate(file_path, target_language, options = {})
     document_result = process(file_path, options)
     ai_agent = AIAgent.new(options)
+    unless ai_agent.ai_available?
+      raise DependencyMissingError, "AI features require an OpenAI API key. Set OPENAI_API_KEY environment variable or pass api_key in options."
+    end
     ai_agent.translate_document(document_result, target_language)
   end
   def self.ai_classify(file_path, options = {})
     document_result = process(file_path, options)
     ai_agent = AIAgent.new(options)
+    unless ai_agent.ai_available?
+      raise DependencyMissingError, "AI features require an OpenAI API key. Set OPENAI_API_KEY environment variable or pass api_key in options."
+    end
     ai_agent.classify_document(document_result)
   end
   def self.ai_insights(file_path, options = {})
     document_result = process(file_path, options)
     ai_agent = AIAgent.new(options)
+    unless ai_agent.ai_available?
+      raise DependencyMissingError, "AI features require an OpenAI API key. Set OPENAI_API_KEY environment variable or pass api_key in options."
+    end
     ai_agent.generate_insights(document_result)
   end
   def self.ai_action_items(file_path, options = {})
     document_result = process(file_path, options)
     ai_agent = AIAgent.new(options)
+    unless ai_agent.ai_available?
+      raise DependencyMissingError, "AI features require an OpenAI API key. Set OPENAI_API_KEY environment variable or pass api_key in options."
+    end
     ai_agent.extract_action_items(document_result)
   end
   def self.ai_compare(file_paths, comparison_type = :content, options = {})
     document_results = file_paths.map { |path| process(path, options) }
     ai_agent = AIAgent.new(options)
+    unless ai_agent.ai_available?
+      raise DependencyMissingError, "AI features require an OpenAI API key. Set OPENAI_API_KEY environment variable or pass api_key in options."
+    end
     ai_agent.compare_documents(document_results, comparison_type)
   end
@@ -171,6 +195,12 @@ module UniversalDocumentProcessor
     AIAgent.new(options)
   end
+  # Check if AI features are available
+  def self.ai_available?(options = {})
+    ai_agent = AIAgent.new(options)
+    ai_agent.ai_available?
+  end
   # Convert document to different format
   def self.convert(file_path_or_io, target_format, options = {})
     Document.new(file_path_or_io, options).convert_to(target_format)
@@ -207,9 +237,54 @@ module UniversalDocumentProcessor
     end
   end
+  # Get list of optional dependencies
+  def self.optional_dependencies
+    {
+      'pdf-reader' => '~> 2.0',      # PDF text extraction
+      'prawn' => '~> 2.4',           # PDF generation
+      'docx' => '~> 0.8',            # Word document processing
+      'roo' => '~> 2.8',             # Excel/Spreadsheet processing
+      'mini_magick' => '~> 4.11',    # Image processing
+      'yomu' => '~> 0.2'             # Universal text extraction fallback
+    }
+  end
+  # Check which optional dependencies are missing
+  def self.missing_dependencies
+    missing = []
+    missing << 'pdf-reader' unless dependency_available?(:pdf_reader)
+    missing << 'prawn' unless dependency_available?(:prawn)
+    missing << 'docx' unless dependency_available?(:docx)
+    missing << 'roo' unless dependency_available?(:roo)
+    missing << 'mini_magick' unless dependency_available?(:mini_magick)
+    missing << 'yomu' unless dependency_available?(:yomu)
+    missing
+  end
+  # Generate installation instructions for missing dependencies
+  def self.installation_instructions
+    missing = missing_dependencies
+    return "All optional dependencies are installed!" if missing.empty?
+    instructions = ["To enable additional features, install these optional gems:"]
+    missing.each do |gem_name|
+      version = optional_dependencies[gem_name]
+      instructions << "  gem install #{gem_name} -v '#{version}'"
+    end
+    instructions << ""
+    instructions << "Or add to your Gemfile:"
+    missing.each do |gem_name|
+      version = optional_dependencies[gem_name]
+      instructions << "  gem '#{gem_name}', '#{version}'"
+    end
+    instructions.join("\n")
+  end
   # Get list of available features based on installed dependencies
   def self.available_features
-    features = [:text_processing, :html_processing, :xml_processing, :csv_processing, :json_processing, :archive_processing]
+    features = [:text_processing, :html_processing, :xml_processing, :csv_processing, :json_processing, :archive_processing, :tsv_processing]
     features << :pdf_processing if dependency_available?(:pdf_reader)
     features << :word_processing if dependency_available?(:docx)
@@ -218,6 +293,14 @@ module UniversalDocumentProcessor
     features << :universal_text_extraction if dependency_available?(:yomu)
     features << :pdf_generation if dependency_available?(:prawn)
+    # Check AI availability without creating circular dependency
+    begin
+      ai_agent = AIAgent.new
+      features << :ai_processing if ai_agent.ai_enabled
+    rescue
+      # AI not available
+    end
     features
   end
 end

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: universal_document_processor
 version: !ruby/object:Gem::Version
-  version: 1.0.1
+  version: 1.0.3
 platform: ruby
 authors:
 - Vikas Patil
@@ -66,19 +66,47 @@ dependencies:
       - !ruby/object:Gem::Version
         version: '2.3'
 - !ruby/object:Gem::Dependency
-  name: rspec
+  name: rexml
   requirement: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '3.12'
+        version: '3.2'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '3.2'
+- !ruby/object:Gem::Dependency
+  name: minitest
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '5.0'
   type: :development
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '3.12'
+        version: '5.0'
+- !ruby/object:Gem::Dependency
+  name: minitest-reporters
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.0'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.0'
 - !ruby/object:Gem::Dependency
   name: rake
   requirement: !ruby/object:Gem::Requirement
@@ -135,6 +163,20 @@ dependencies:
     - - "~>"
       - !ruby/object:Gem::Version
         version: '2.0'
+- !ruby/object:Gem::Dependency
+  name: simplecov
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '0.22'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '0.22'
 description: A comprehensive Ruby gem that handles document processing, text extraction,
   and AI-powered analysis for PDF, Word, Excel, PowerPoint, images, archives, and
   more with a unified API. Includes agentic AI features for document analysis, summarization,
@@ -145,9 +187,7 @@ executables: []
 extensions: []
 extra_rdoc_files: []
 files:
-- AI_USAGE_GUIDE.md
 - CHANGELOG.md
-- GEM_RELEASE_GUIDE.md
 - Gemfile
 - LICENSE
 - README.md
@@ -178,6 +218,8 @@ metadata:
   documentation_uri: https://github.com/vpatil160/universal_document_processor/blob/main/README.md
   funding_uri: https://github.com/sponsors/vpatil160
   rubygems_mfa_required: 'true'
+  optional_dependencies: pdf-reader ~> 2.0, prawn ~> 2.4, docx ~> 0.8, roo ~> 2.8,
+    mini_magick ~> 4.11, yomu ~> 0.2
 rdoc_options: []
 require_paths:
 - lib