RubyGems - llamaparserb - Versions diffs - 0.2.3 → 0.3.1 - Mend

llamaparserb 0.2.3 → 0.3.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: ba81bbf8d24dc79b57a29c8c40764c42d700012e6608d1a494075dd63900d06f
-  data.tar.gz: 1ce8846e182bf7025d90e8722148554fe2e65d47d82e1671e19f7e6386d30ce9
+  metadata.gz: '045959dc406ac1ba5ce9db3cde8bdfc7e0bbccf83601027a0847b6693220af8f'
+  data.tar.gz: a56317601d9feba955aa6d8c08586ac495673b3d506ed0b332c43aca59a0bacf
 SHA512:
-  metadata.gz: b5c86e77644210049df9a1095049e2a276f70e40208637e80fd14283fded8eee45ec034cc9bd7c205b802ef24be252989bbd5be671ac50981c0acb998876131b
-  data.tar.gz: 91ea52459cc1fc38f15dd5b050a2c25449147f8905d24af34c76986f48c84f54d0187bad3c0d3b4da81061e8d593982252229611592948deffdc7a6d6d6c066f
+  metadata.gz: 585bd687b193ffedceccf87e3a95550a1053e31d6d14da430f603109e9be74aa4aaf06d901afda2a0aaa9cdf87be93a08420cbc88b876630ce7d865c2e1c08db
+  data.tar.gz: 2d0616205409a56943d31014ca01c910bd31d6fb40a0c98fcbb02e6ba946d92a22925ba77ba05cfeae10ae6af0f3e7753b8dbcefed66739b97663808862d1892

data/CHANGELOG.md CHANGED Viewed

@@ -5,15 +5,25 @@ The format is based on [Keep a Changelog](https://keepachangelog.com/en/1.0.0/),
 and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0.html).
 ## [Unreleased]
+### Added
+- Add support for all supported optional llamaparse parameters when parsing files from URLs
+## [0.3.0] - 2024-11-28
+### Added
+- Add support for parsing files from URLs
 ## [0.2.3] - 2024-11-28
 ### Added
-- Add support for all supported optional llamaparsse parameters to `parse_file`
+- Add support for all supported optional llamaparse parameters to `parse_file`
+[0.2.3]: https://github.com/horizing/llamaparserb/releases/tag/v0.2.3...v0.2.2
 ## [0.2.2] - 2024-11-28
 ### Fixed
 - Fix issue with handling file path
+[0.2.2]: https://github.com/horizing/llamaparserb/releases/tag/v0.2.2
 ## [0.2.1] - 2024-11-28
 ### Fixed
 - Fix parse_file to handle files that are not on the local filesystem
@@ -29,8 +39,4 @@ and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0
 ## [0.1.0] - 2024-11-27
 ### Added
-- Initial release
-[Unreleased]: https://github.com/horizing/llamaparserb/compare/v0.1.0...HEAD
-[0.1.1]: https://github.com/horizing/llamaparserb/releases/tag/v0.1.1...v0.1.0
-[0.1.0]: https://github.com/horizing/llamaparserb/releases/tag/v0.1.0
+- Initial release

data/README.md CHANGED Viewed

@@ -43,11 +43,14 @@ text = client.parse_file(file_content, 'pdf')
 # Parse a file to markdown
 client = Llamaparserb::Client.new(ENV['LLAMA_CLOUD_API_KEY'], result_type: "markdown")
 markdown = client.parse_file('path/to/document.pdf')
+# Parse a file from a URL
+markdown = client.parse_file('https://example.com/document.pdf')
 ```
 ### File Input Options
-The `parse_file` method accepts two types of inputs:
+The `parse_file` method accepts three types of inputs:
 1. File path (String):
 ```ruby
@@ -69,6 +72,11 @@ temp_file = Tempfile.new(['document', '.pdf'])
 client.parse_file(temp_file, 'pdf')
 ```
+3. URL (String):
+```ruby
+client.parse_file('https://example.com/document.pdf')
+```
 ### Advanced Options
 ```ruby

data/lib/llamaparserb/version.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 # frozen_string_literal: true
 module Llamaparserb
-  VERSION = "0.2.3"
+  VERSION = "0.3.1"
 end

data/lib/llamaparserb.rb CHANGED Viewed

@@ -51,6 +51,9 @@ module Llamaparserb
         elsif File.exist?(file_input)
           job_id = create_job_from_path(file_input)
           log "Started parsing file under job_id #{job_id}", :info
+        elsif URI::DEFAULT_PARSER.make_regexp.match?(file_input)
+          job_id = create_job_from_url(file_input)
+          log "Started parsing URL under job_id #{job_id}", :info
         else
           raise Error, "file_type parameter is required for binary string input"
         end
@@ -197,7 +200,7 @@ module Llamaparserb
     def build_connection
       Faraday.new(url: base_url) do |f|
         f.request :multipart
-        f.request :json
+        f.request :url_encoded
         f.response :json
         f.response :raise_error
         f.adapter Faraday.default_adapter
@@ -234,7 +237,13 @@ module Llamaparserb
         temp_file,
         detect_content_type(temp_file.path)
       )
-      create_job(file)
+      response = @connection.post("upload") do |req|
+        req.headers["Authorization"] = "Bearer #{api_key}"
+        req.body = upload_params(file)
+      end
+      response.body["id"]
     ensure
       temp_file&.close
       temp_file&.unlink
@@ -249,9 +258,8 @@ module Llamaparserb
       response.body["id"]
     end
-    def upload_params(file)
+    def upload_params(file = nil, url = nil)
       params = {
-        file: file,
         language: @options[:language].to_s,
         parsing_instruction: @options[:parsing_instruction],
         invalidate_cache: @options[:invalidate_cache],
@@ -261,30 +269,35 @@ module Llamaparserb
         premium_mode: @options[:premium_mode],
         continuous_mode: @options[:continuous_mode],
         do_not_unroll_columns: @options[:do_not_unroll_columns],
+        page_separator: @options[:page_separator],
+        page_prefix: @options[:page_prefix],
+        page_suffix: @options[:page_suffix],
+        target_pages: @options[:target_pages],
+        bounding_box: @options[:bounding_box],
+        disable_ocr: @options[:disable_ocr],
+        take_screenshot: @options[:take_screenshot],
         gpt4o_mode: @options[:gpt4o_mode],
         gpt4o_api_key: @options[:gpt4o_api_key],
-        vendor_multimodal_api_key: @options[:vendor_multimodal_api_key],
-        use_vendor_multimodal_model: @options[:use_vendor_multimodal_model],
-        vendor_multimodal_model_name: @options[:vendor_multimodal_model_name],
-        take_screenshot: @options[:take_screenshot],
-        disable_ocr: @options[:disable_ocr],
         guess_xlsx_sheet_names: @options[:guess_xlsx_sheet_names],
         is_formatting_instruction: @options[:is_formatting_instruction],
         annotate_links: @options[:annotate_links],
+        vendor_multimodal_api_key: @options[:vendor_multimodal_api_key],
+        use_vendor_multimodal_model: @options[:use_vendor_multimodal_model],
+        vendor_multimodal_model_name: @options[:vendor_multimodal_model_name],
+        webhook_url: @options[:webhook_url],
+        http_proxy: @options[:http_proxy],
+        azure_openai_deployment_name: @options[:azure_openai_deployment_name],
+        azure_openai_endpoint: @options[:azure_openai_endpoint],
+        azure_openai_api_version: @options[:azure_openai_api_version],
+        azure_openai_key: @options[:azure_openai_key],
         from_ruby_package: true
       }
-      params[:page_separator] = @options[:page_separator] if @options[:page_separator]
-      params[:page_prefix] = @options[:page_prefix] if @options[:page_prefix]
-      params[:page_suffix] = @options[:page_suffix] if @options[:page_suffix]
-      params[:bounding_box] = @options[:bounding_box] if @options[:bounding_box]
-      params[:target_pages] = @options[:target_pages] if @options[:target_pages]
-      params[:webhook_url] = @options[:webhook_url] if @options[:webhook_url]
-      params[:azure_openai_deployment_name] = @options[:azure_openai_deployment_name] if @options[:azure_openai_deployment_name]
-      params[:azure_openai_endpoint] = @options[:azure_openai_endpoint] if @options[:azure_openai_endpoint]
-      params[:azure_openai_api_version] = @options[:azure_openai_api_version] if @options[:azure_openai_api_version]
-      params[:azure_openai_key] = @options[:azure_openai_key] if @options[:azure_openai_key]
-      params[:http_proxy] = @options[:http_proxy] if @options[:http_proxy]
+      if url
+        params[:input_url] = url.to_s
+      elsif file
+        params[:file] = file
+      end
       params.compact
     end
@@ -335,5 +348,19 @@ module Llamaparserb
         raise Error, "Unsupported file type: #{extension}. Supported types: #{SUPPORTED_FILE_TYPES.join(", ")}"
       end
     end
+    def create_job_from_url(url)
+      log "Creating job from URL: #{url}", :debug
+      response = @connection.post("upload") do |req|
+        req.headers["Authorization"] = "Bearer #{api_key}"
+        req.headers["Accept"] = "application/json"
+        req.options.timeout = 30
+        req.body = upload_params(nil, url)
+      end
+      log "Response: #{response.body.inspect}", :debug
+      response.body["id"]
+    end
   end
 end

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: llamaparserb
 version: !ruby/object:Gem::Version
-  version: 0.2.3
+  version: 0.3.1
 platform: ruby
 authors:
 - Heidar Bernhardsson