RubyGems - email_crawler - Versions diffs - 0.0.4 → 0.0.5 - Mend

email_crawler 0.0.4 → 0.0.5

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

checksums.yaml +4 -4
data/README.md +12 -6
data/bin/email-crawler +14 -4
data/lib/email_crawler.rb +2 -2
data/lib/email_crawler/scraper.rb +23 -8
data/lib/email_crawler/version.rb +1 -1
metadata +2 -2

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 2de69de34df458d935de9deaed59993e9b66e26b
-  data.tar.gz: ac1e1063e63f708ed663183b4bb3b6331b686520
+  metadata.gz: de057cc74d307b12298c221ec86e0c6e646f3bc1
+  data.tar.gz: 1b7be472da61eec61943e249486d8ecc5cd01c56
 SHA512:
-  metadata.gz: de5977cd80e45368403850c964e4e50e56c4efef0f17d16ecb5cf942f612aff49d00542ae462f4f6b477b8d9d91201c8364e0995cbed88e696a32c1dea230304
-  data.tar.gz: 4d5b2008c4d23886f45ebeae9d46391d3b22ac6e5eab74a4b93b9c6aee43af7898978e225482818bb81b6d822b16caeb53bb686433b09af79e560eb5a65655dc
+  metadata.gz: 4077de2915db17beaa66786fc9ef978ea6bab0ea86076a644dd2f3d6bd16f12e63df12238c5cd91a62116c7327617eeccd172dd54201457c4b874da32ede00af
+  data.tar.gz: 81996e8daad656dafde6899ceb33f55680ce7dacb4e276f3cb8f96a0f11e3cacb973ab199f2d36fe02569c90dfef2f09007ce138d5688e602b0f1e8458e17fda

data/README.md CHANGED Viewed

@@ -19,25 +19,31 @@ email-crawler --help
 2. Simplest Google search
 ```bash
-email-crawler -q "berlin walks"
+email-crawler --query "berlin walks"
 ```
 3. Select which Google website to use (defaults to google.com.br)
 ```bash
-email-crawler -q "berlin walks" -g google.de
+email-crawler --query "berlin walks" --google-website google.de
 ```
-4. Specify how many internal links are to be scanned for email addresses (defaults to 100)
+4. Specify how many search results URLs to collect (defaults to 100)
 ```bash
-email-crawler -q "berlin walks" -g google.de -m 250
+email-crawler --query "berlin walks" --max-results 250
 ```
-5. Redirect output to a file
+5. Specify how many internal links are to be scanned for email addresses (defaults to 100)
 ```bash
-email-crawler -q "berlin walks" -g google.de -m 250 > ~/Desktop/belin-walks-emails.csv
+email-crawler --query "berlin walks" --max-links 250
+```
+6. Redirect output to a file
+```bash
+email-crawler --query "berlin walks" > ~/Desktop/belin-walks-emails.csv
 ```
 ## Contributing

data/bin/email-crawler CHANGED Viewed

@@ -3,11 +3,14 @@
 require 'optparse'
 require 'ostruct'
+require_relative "../lib/email_crawler"
 class OptionsParser
   def self.parse(args)
     options = OpenStruct.new
     options.google_website = "google.com.br"
-    options.max_links = 100
+    options.max_results = ::EmailCrawler::Scraper::MAX_RESULTS
+    options.max_links = ::EmailCrawler::PageLinks::MAX_LINKS
     opt_parser = OptionParser.new do |opts|
       opts.banner = "Usage: email-crawler [options]"
@@ -24,7 +27,13 @@ class OptionsParser
         options.google_website = google_website
       end
-      opts.on("-m", "--max-links 250",
+      opts.on("-r", "--max-results 250",
+              "Max # of search result URLs to collect before crawling each one for email addresses",
+              "  (defaults to 100)") do |max_results|
+        options.max_results = max_results.to_i
+      end
+      opts.on("-l", "--max-links 250",
               "Max # of internal links to visit searching for emails",
               "  (per search result, defaults to 100)") do |max_links|
         options.max_links = max_links.to_i
@@ -41,7 +50,8 @@ if options.q.empty?
   print "The -q switch is mandatory\n"
   exit(1)
 else
-  require_relative "../lib/email_crawler"
-  csv = EmailCrawler::Runner.new(options.google_website).run(options.q, options.max_links)
+  csv = EmailCrawler::Runner.new(options.google_website).run(options.q,
+                                                             options.max_results,
+                                                             options.max_links)
   $stdout << "#{csv}\n"
 end

data/lib/email_crawler.rb CHANGED Viewed

@@ -21,8 +21,8 @@ module EmailCrawler
       end
     end
-    def run(q, max_links = PageLinks::MAX_LINKS)
-      urls = Scraper.new(@google_website).top_ten_urls_for(q)
+    def run(q, max_results = Scraper::MAX_RESULTS, max_links = PageLinks::MAX_LINKS)
+      urls = Scraper.new(@google_website, max_results).search_result_urls_for(q)
       urls.each { |url, links| @logger.info "#{url}" }
       threads = (1..urls.length).map do |i|

data/lib/email_crawler/scraper.rb CHANGED Viewed

@@ -2,30 +2,45 @@ require_relative "proxy"
 module EmailCrawler
   class Scraper
-    MAX_URLS = 10
+    MAX_RESULTS = 100
     include MechanizeHelper
-    def initialize(google_website)
+    def initialize(google_website, max_results = MAX_RESULTS)
       @google_website = "https://www.#{google_website}/"
+      @max_results = max_results
     end
-    def top_ten_urls_for(q)
+    def search_result_urls_for(q)
       search_page = agent.get(@google_website)
       search_form = search_page.form_with(action: "/search")
       search_form.field_with(name: "q").value = q
       search_results_page = agent.submit(search_form)
-      search_results_page.search("#search ol li h3.r a").
-        map { |a| a["href"].downcase }.
-        reject { |url| url =~ %r(\A/search[?]q=) }.
-        first(MAX_URLS)
+      urls = search_results_on(search_results_page)
+      page = 1
+      while urls.size < @max_results
+        next_page_link = search_results_page.link_with(href: /start=#{page*10}/)
+        return urls unless next_page_link
+        next_search_results_page = next_page_link.click
+        urls.concat(search_results_on(next_search_results_page)).uniq!
+        page += 1
+      end
+      urls.first(@max_results)
     end
   private
+    def search_results_on(page)
+      page.search("#search ol li h3.r a").
+        map { |a| a["href"].downcase }.
+        reject { |url| url =~ %r(\A/search[?]q=) }
+    end
     def agent
       @agent ||= new_agent { |agent| agent.set_proxy(Proxy.random, "8888") }
-      # @agent ||= new_agent
     end
   end
 end

data/lib/email_crawler/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module EmailCrawler
-  VERSION = "0.0.4"
+  VERSION = "0.0.5"
 end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: email_crawler
 version: !ruby/object:Gem::Version
-  version: 0.0.4
+  version: 0.0.5
 platform: ruby
 authors:
 - Cristian Rasch
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2014-03-05 00:00:00.000000000 Z
+date: 2014-03-07 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: mechanize