RubyGems - coolCrawler - Versions diffs - 0.4.2 → 0.4.4 - Mend

coolCrawler 0.4.2 → 0.4.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (4) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 035e8dbe27d4648d16243fea96c692b4a9bde8973d13df02b66aad3aa742afc3
-  data.tar.gz: 687985a3d0e391aedc610ecae0329299a36c8edc90704b9f9d92118532d3d7cc
+  metadata.gz: 79059c4a0ef1c026082b3ef2b25ee13c2310984a2049be4345f0345b226d2e99
+  data.tar.gz: 32d02d444ef3553df02c2764073b1d9f5cbdabea272ee1d2b3eb9e80a5a29434
 SHA512:
-  metadata.gz: 224908b5e8f495063ddc81c178f10e276b2744c8d8b71b16538b3ac2eed70978e686cecc1cbf900d3380a1919ec5e438dd0a1dc559b7d6abbde30e9bd44f819e
-  data.tar.gz: 0ee4aa741315bdd8a2774ee28b762a521f12489356621efe6cf38fab66898a2210313b7e8f07eb74ebd95492b20b80e6548d84a0333f10ac8c09ef6e96410b53
+  metadata.gz: 56d89149672219eb082eb188d2d79fde2d97931efe8295983719a5693c5b96c07e607a309d03690e8a739a2a3018f73c7d0fbd18da6003cbafa7969633890b2e
+  data.tar.gz: f37a6061b4b318cb19423ab4de961a98b625d1e17e6f85eb78524794a967a2f5dda4bceaa5c5414b2df33a359c9c0fd5a8e8a7bfe22c4f872e41a9e9c5f46d48

data/lib/coolCrawler/version.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 # frozen_string_literal: true
 module CoolCrawler
-  VERSION = "0.4.2"
+  VERSION = "0.4.4"
 end

data/lib/cool_crawler.rb CHANGED Viewed

@@ -31,7 +31,7 @@ module CoolCrawler
     end
     def run
-      until queue.empty?
+      until queue.empty? || @visited_pages >= @max_pages
         send_crawlers
         sleep(delay)
       end
@@ -43,7 +43,10 @@ module CoolCrawler
     def send_crawlers
       pages = []
-      pages << queue.pop until queue.empty? || pages.size >= max_connections
+      until queue.empty? || pages.size >= max_connections || @visited_pages >= @max_pages
+        pages << queue.pop
+        @visited_pages += 1
+      end
       Async do
         internet = Async::HTTP::Internet.new
         barrier = Async::Barrier.new
@@ -51,12 +54,14 @@ module CoolCrawler
         pages.each do |page|
           barrier.async do
             response = internet.get URI.join(@site, page).to_s
-            body = response.read
-            links = gather_links_uri(body, URI.join(uri, page))
-            after(page, links, body)
+            body = Nokogiri::HTML(response.read)
+            body.search('//img').remove
+            body.search('//style').remove
+            body.search('//script').remove
+            links = gather_links_uri(body.to_s, URI.join(uri, page))
+            after(page, links, body.to_s)
             links.each do |link|
               enqueue(link)
-              @visited_pages += 1
               add_to_visited(link)
             end
           end
@@ -74,7 +79,7 @@ module CoolCrawler
         next if a["href"].nil?
         uri_a = URI(a["href"].strip.split('#')[0].sub(/\\|(\s+$)/, ""))
         begin
-          links << URI.join(page, uri_a).path if (uri_a.host == uri.host || uri_a.host.nil?) && uri_a.path
+        links << URI.join(page, uri_a).path if (uri_a.host == uri.host || uri_a.host.nil?) && uri_a.path
         rescue
           # do nothing
         end
@@ -107,9 +112,8 @@ module CoolCrawler
     end
     def enqueue(path)
-      unless visited.include?(path) or @visited_pages > @max_pages
+      unless visited.include?(path)
         queue << path
-        p queue.size
       end
     end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: coolCrawler
 version: !ruby/object:Gem::Version
-  version: 0.4.2
+  version: 0.4.4
 platform: ruby
 authors:
 - William Wright
 autorequire:
 bindir: exe
 cert_chain: []
-date: 2022-10-31 00:00:00.000000000 Z
+date: 2022-11-01 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: rspec