RubyGems - pdf_search - Versions diffs - 0.0.9 → 0.1.0 - Mend

pdf_search 0.0.9 → 0.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (11) hide show

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 190956cae75ce3b900499a7d1dac12ebe3807078a85610266b25bfbfb4b6f1a1
-  data.tar.gz: c66b5e9ebbc690b8477e9ddd86cf81252b3c4772afebfc47e1bc1d7c8c4e6c2e
+  metadata.gz: 818cadfa2eedfd47ab0ff7d18b19e6bff5da3578a29c85bffa1e2c9e79f25a7f
+  data.tar.gz: db1416b33897d06fbf2700516fb1668fded85a2b8c849f350708438e1145fd16
 SHA512:
-  metadata.gz: d5508109f2014f2343700ab66c13482d3d5417bc51cbbd3bd1e3a3cd3a6ef108e13722430e9de6078e939ed093cc34048dbf19f5894d6d225fd54c7836adc6cf
-  data.tar.gz: 1b9c8910e4d95144f8c5f28057697883f2d5da8a8099ebe714289e767841c8ec2579f7d8406126db2c5372049a3ffbdf5367afcba85a96b05e5c5c7bd9b396f6
+  metadata.gz: d2a6705f676e96b751d28f4f42eb6fe9073d90524c0515bc2a49437ec80f2650c6e2afd7346f1bb36c3b02e37c5f7419a4450fc304b3accaf5906ef8bb37b7c5
+  data.tar.gz: 7c0ffc3861dbcdacf690a741926bd61ad46f545bc761b0c1056f74f7f7d9e9203858809b236a15a52d9731682a0d4caefe23f8fceb1c2f5caee69dc91112c8bb

data/bin/pdf_search CHANGED

@@ -2,10 +2,6 @@
 require 'pdf_search'
 require 'webrick'
-PdfSearch.start_webserver
 if ARGV[1]
   require File.expand_path(ARGV[1])
@@ -13,14 +9,17 @@ if ARGV[1]
     raise ArgumentError.new("Constant name of custom indexer must be provided as third argument")
   end
-  custom_index = eval(ARGV[2])
-  custom_index.create_index
-  custom_index.start_daemon(ARGV[0])
+  search_index_class = eval(ARGV[2])
+  search_index_class.create_index
+  search_index = search_index_class.start_daemon(ARGV[0])
 else
   PdfSearch.create_elasticsearch_index
-  PdfSearch::PdfIndex.start_daemon(ARGV[0])
+  search_index = PdfSearch::PdfIndex.start_daemon(ARGV[0])
 end
+PdfSearch.start_webserver(search_index)

data/html/index.html.erb ADDED

@@ -0,0 +1,49 @@
+<h1> Keyword (can be blank) </h1>
+<input id='search' />
+<% if !search_index.search_input_fields.nil? %>
+<% search_index.search_input_fields.each do |search_input_field_name, type| %>
+  <% if type == :interval %>
+    <h1><%= search_input_field_name %></h1>
+    <h2> Range start </h2>
+    <input id="search_<%= search_input_field_name %>_start" />
+    <h2> Range end </h2>
+    <input id="search_<%= search_input_field_name %>_end" />
+  <% end %>
+<% end %>
+<% end %>
+<button id='doSearch'>Search</button>
+<ul id='results'>
+</ul>
+<script>
+  document.getElementById('doSearch').addEventListener('click', function(e) {
+    let Http = new XMLHttpRequest();
+    let url= encodeURI(window.location.origin + "/search");
+    let data = {};
+    data["search"] = document.getElementById('search').value;
+    <% if !search_index.search_input_fields.nil? %>
+      <% search_index.search_input_fields.each do |search_input_field_name, type| %>
+        <% if type == :interval %>
+          data["search_<%= search_input_field_name %>_start"] = document.getElementById("search_<%= search_input_field_name %>_start").value
+          data["search_<%= search_input_field_name %>_end"] = document.getElementById("search_<%= search_input_field_name %>_end").value
+        <% end %>
+      <% end %>
+    <% end %>
+    Http.open("POST", url);
+    Http.setRequestHeader('Content-Type', 'application/json; charset=UTF-8');
+    Http.send(JSON.stringify(data));
+    Http.onreadystatechange=(we)=> {
+      document.getElementById('results').innerHTML = Http.responseText;
+    }
+  });
+</script>

data/lib/elastic_search_query.rb ADDED

@@ -0,0 +1,41 @@
+require 'elasticsearch/dsl'
+module PdfSearch
+  class ElasticSearchQuery
+    include Elasticsearch::DSL
+    attr_reader :query_specification, :search_index
+    def initialize(query_specification, search_index)
+      @search_index =  search_index
+      @query_specification = query_specification
+    end
+    def to_hash
+      {
+        "query": {
+          "bool": {
+            "must": [
+              {
+                "match": {
+                  "text": query_specification['search']
+                }
+              }
+            ].concat(range_queries)
+          }
+        }
+      }
+    end
+    def range_queries
+      search_index.search_input_fields_by_type[:interval].map do |name|
+        {
+          "range": {
+            name => {
+              gte: query_specification["search_#{name}_start"],
+              lte: query_specification["search_#{name}_end"]
+            }
+          }
+        }
+      end
+    end
+  end
+end

data/lib/pdf_dir.rb CHANGED

@@ -4,30 +4,30 @@ require 'digest'
 module PdfSearch
   class PdfDir
-	def initialize(dir = '.')
-		@dir = dir
-	end
+		def initialize(dir = '.')
+			@dir = dir
+		end
-  	def pdf_file_paths
-            Dir.glob(File.join(File.expand_path(@dir), '*.pdf'))
-  	end
+			def pdf_file_paths
+				Dir.glob(File.join(File.expand_path(@dir), '*.pdf'))
+			end
-	def pdf_documents
-	  Enumerator.new do |e|
-	  	  pdf_file_paths.each do |pdf_file_path|
-	          	e << PDF::Reader.new(pdf_file_path)
-	  	  end
-	  end
-	end
+		def pdf_documents
+			Enumerator.new do |e|
+					pdf_file_paths.each do |pdf_file_path|
+						e << PDF::Reader.new(pdf_file_path)
+					end
+			end
+		end
-	def pages
-	  Enumerator.new do |e|
-		pdf_documents.each do |pdf_reader|
-			pdf_reader.pages.each do |page|
-				e << [page, pdf_reader, Digest::SHA256.hexdigest(Marshal.dump(pdf_reader.info))]
+		def pages
+			Enumerator.new do |e|
+				pdf_documents.each do |pdf_reader|
+					pdf_reader.pages.each do |page|
+						e << [page, pdf_reader, Digest::SHA256.hexdigest(Marshal.dump(pdf_reader.info))]
+					end
+				end
 			end
 		end
-	  end
-	end
   end
 end

data/lib/pdf_index.rb CHANGED

@@ -3,7 +3,11 @@ require 'elasticsearch'
 require 'pdf_dir'
 require 'digest'
 class PdfSearch::PdfIndex
-	attr_accessor :daemon
+  attr_accessor :daemon
+  class << self
+    attr_reader :search_input_fields, :properties
+  end
   def self.create_index
 		::PdfSearch::ElasticSearchClient.indices.create(
@@ -31,9 +35,29 @@ class PdfSearch::PdfIndex
 		end
   end
-  def self.property(property_name, type)
+  def self.property(property_name, type, options)
     @properties ||= {}
     @properties[property_name] = {type: type}
+    @search_input_fields ||= {}
+    @search_input_fields_by_type ||= {}
+    search_input_type = options.delete(:search)
+    @search_input_fields[property_name] = search_input_type
+    @search_input_fields_by_type[search_input_type] ||= []
+    @search_input_fields_by_type[search_input_type].push(property_name)
+  end
+  def search_input_fields_by_type
+    self.class.instance_variable_get(:@search_input_fields_by_type)
+  end
+  def search_input_fields
+    self.class.search_input_fields
+  end
+  def properties
+    self.class.properties
   end
 	def initialize(pdf_dir)

data/lib/pdf_search.rb CHANGED

@@ -1,12 +1,13 @@
+require 'elastic_search_query'
 require 'pdf_index'
 require 'daemons'
+require 'search_view'
 require 'pdf_dir'
 require 'elasticsearch'
 require 'web_server'
 module PdfSearch
-		ElasticSearchClient = Elasticsearch::Client.new log: true, host: ENV['ELASTICSEARCH_URL']
+	ElasticSearchClient = Elasticsearch::Client.new log: true, host: ENV['ELASTICSEARCH_URL']
   GemDir = [File.dirname(__FILE__), '..']
@@ -14,8 +15,8 @@ module PdfSearch
     File.expand_path(File.join(GemDir + path_array))
   end
-  def self.start_webserver
-    web_server = WebServer.new
+  def self.start_webserver(search_index)
+    web_server = WebServer.new(search_index)
     web_server.start
     return web_server.daemon.pid.pid
   end

data/lib/search_view.rb ADDED

@@ -0,0 +1,25 @@
+require 'erb'
+require 'pry'
+module PdfSearch
+  class SearchView
+    def initialize(search_index)
+      @search_index = search_index
+    end
+    def search_view_erb_template
+      File.read(::PdfSearch.relative_to_gem_path(['html', 'index.html.erb']))
+    end
+    def render
+      template = ERB.new(search_view_erb_template)
+      template.result(binding)
+    end
+    private
+    def search_index
+      @search_index
+    end
+  end
+end

data/lib/web_server.rb CHANGED

@@ -1,9 +1,16 @@
 require 'webrick'
 require 'json'
+require 'pry-remote'
 class PdfSearch::WebServer
   attr_accessor :daemon
+  def initialize(search_index, debug_mode = false)
+    @search_index = search_index
+    @debug_mode = (ENV['DEBUG_PDF_SEARCH'] == '1') || debug_mode
+  end
   def basic_auth
     return @basic_auth if @basic_auth != nil
@@ -15,31 +22,44 @@ class PdfSearch::WebServer
     config[:UserDB] = htpasswd
-    puts config.inspect
     @basic_auth = WEBrick::HTTPAuth::BasicAuth.new config
-  end
+  end
+  def index(request, response)
+    search_view = ::PdfSearch::SearchView.new(@search_index)
+    response.status = 200
+    response['Content-Type'] = 'text/html'
+    response.body = search_view.render
+  end
+  def auth_defined?
+    [ENV['PDF_SEARCH_USERNAME'], ENV['PDF_SEARCH_PASSWORD']].all? do |env_var|
+      env_var != nil && env_var != ''
+    end
+  end
+  def search(request, response)
+    if auth_defined?
+      basic_auth.authenticate(request, response)
+    end
+    query = ::PdfSearch::ElasticSearchQuery.new(JSON.parse(request.body), @search_index)
+    elastic_response = ::PdfSearch::ElasticSearchClient.search index: 'pdf_pages', body: query.to_hash
+    response.body = response_html(elastic_response)
+  end
   def start
     start_server = lambda do
-      server = WEBrick::HTTPServer.new(:Port => 80, :DocumentRoot => ::PdfSearch.relative_to_gem_path(['html']))
-      server.mount_proc '/search' do |request, response|
-        if [ENV['PDF_SEARCH_USERNAME'], ENV['PDF_SEARCH_PASSWORD']].all? do |env_var|
-            env_var != nil && env_var != ''
-          end
+      server = WEBrick::HTTPServer.new(:Port => 80)
-          basic_auth.authenticate(request, response)
-        end
-        query = request.query["query"]
-        elastic_response = ::PdfSearch::ElasticSearchClient.search q: query, size: 200
-        response.body = response_html(elastic_response)
-      end
+      server.mount_proc '/', &method(:index)
+      server.mount_proc '/search', &method(:search)
       server.start
     end
-    if ENV['DEBUG_PDF_SEARCH'] == '1'
+    if @debug_mode
       start_server.call
     else
 	    self.daemon = Daemons.call(multiple: true, &start_server)

metadata CHANGED

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: pdf_search
 version: !ruby/object:Gem::Version
-  version: 0.0.9
+  version: 0.1.0
 platform: ruby
 authors:
 - Manuel Arno Korfmann
@@ -52,6 +52,20 @@ dependencies:
     - - ">="
       - !ruby/object:Gem::Version
         version: '0'
+- !ruby/object:Gem::Dependency
+  name: elasticsearch-dsl
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
 - !ruby/object:Gem::Dependency
   name: rake
   requirement: !ruby/object:Gem::Requirement
@@ -118,10 +132,12 @@ extra_rdoc_files: []
 files:
 - bin/pdf_search
 - config/elasticsearch.yml
-- html/index.html
+- html/index.html.erb
+- lib/elastic_search_query.rb
 - lib/pdf_dir.rb
 - lib/pdf_index.rb
 - lib/pdf_search.rb
+- lib/search_view.rb
 - lib/web_server.rb
 - log/pdf_index.log
 homepage: https://github.com/banalBI/pdfsearch
@@ -144,7 +160,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
       version: '0'
 requirements: []
 rubyforge_project:
-rubygems_version: 2.7.6
+rubygems_version: 3.0.0.beta3
 signing_key:
 specification_version: 4
 summary: Searching pdfs by leveragin Elasticsearch

data/html/index.html DELETED

@@ -1,20 +0,0 @@
-<input id='search'></input>
-<button id='doSearch'>Search</button>
-<ul id='results'>
-</ul>
-<script>
-  document.getElementById('doSearch').addEventListener('click', function(e) {
-    let Http = new XMLHttpRequest();
-    let url= encodeURI(window.location.origin + "/search?query="+document.getElementById('search').value);
-    Http.open("GET", url);
-    Http.send();
-    Http.onreadystatechange=(e)=> {
-      document.getElementById('results').innerHTML = Http.responseText;
-    }
-  });
-</script>