RubyGems - news_crawler - Versions diffs - 0.0.2 → 0.0.3.pre.1 - Mend

news_crawler 0.0.2 → 0.0.3.pre.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (4) hide show

checksums.yaml +4 -4
data/lib/news_crawler/link_selector/same_domain_selector.rb +4 -2
data/lib/news_crawler/url_helper.rb +5 -1
metadata +4 -4

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 50e84e9674b22d98be7b72371513219da5a23d38
-  data.tar.gz: bd6cd50fe658c960134fdfff53631e32e63e4b76
+  metadata.gz: e52eaf3135e05aba597c96a7e9cafa43dba73cc8
+  data.tar.gz: 7e50f113f2b5be1f4932eb7ba83975e216777c89
 SHA512:
-  metadata.gz: 405419795794f78bf0608d2b66707d842c69c7c53d1b312a2569e9c82e482563ea28d34c5183accd3bf4b213fc6291305d8295f9310918854cd24e19c1cf6a83
-  data.tar.gz: 53e089fb98b6a9e583c54119215ead3444fcc285d71f3bf5ca6f188b55db13a45fa6a87d414631a81dc2f092cedc726d77907d2d542671a721d92581a4876df8
+  metadata.gz: 1ce7400c42047ad78954b0e4f45e1493fb7833926e69864a0814662e5ddac4f6423247083fe943fbab33085ad27c410dbb500326690c74290821bf3b24b2454a
+  data.tar.gz: 66f0fd7d05b3fae8e9c12684b16240e2e9ae0add263018ec49e82564d8b1489a9564a3e8899a1a975a145500c5eee9afe002a9644b368bc0cf2c5206328d71fd

data/lib/news_crawler/link_selector/same_domain_selector.rb CHANGED Viewed

@@ -22,6 +22,7 @@
 require 'celluloid'
 require 'nokogiri'
+require 'uri'
 require 'news_crawler/storage/raw_data'
 require 'news_crawler/url_helper'
@@ -60,13 +61,14 @@ module NewsCrawler
         inner_url = html_doc.xpath('//a').collect { | a_el |
           temp_url = (a_el.attribute 'href').to_s
           if (!temp_url.nil?) && (temp_url[0] == '/')
-            temp_url = url + temp_url
+            temp_url = URI.join(url, temp_url).to_s
           end
           temp_url
         }
         inner_url.delete_if { | url |
-            (url.nil?) || (url.size == 0) || (url == '#')
+            (url.nil?) || (url.size == 0) || (url == '#') ||
+          (url == 'javascript:;')
         }
         # select url from same domain

data/lib/news_crawler/url_helper.rb CHANGED Viewed

@@ -1,3 +1,4 @@
+# -*- coding: utf-8 -*-
 #--
 # NewsCrawler - a website crawler
 #
@@ -22,11 +23,14 @@
 module NewsCrawler
   # Contains various method for processing url
   module URLHelper
-    # produce true if 2 urls belong to same domain
+    # produce true if 2 urls belong to same domain, or url is start with '/'
     # @param  [ String  ] url1 Url 1
     # @param  [ String  ] url2 Url 2
     # @return [ Boolean ] true if both url belong to same domain
     def same_domain?(url1, url2)
+      if (url1[0] == '/') || (url2[0] == '/')
+        return true
+      end
       p1 = get_url_path(url1)
       p2 = get_url_path(url2)
       d1 = p1[:domain].split('.').reverse

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: news_crawler
 version: !ruby/object:Gem::Version
-  version: 0.0.2
+  version: 0.0.3.pre.1
 platform: ruby
 authors:
 - Hà Quang Dương
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2013-07-22 00:00:00.000000000 Z
+date: 2013-07-23 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: mongo
@@ -191,9 +191,9 @@ required_ruby_version: !ruby/object:Gem::Requirement
       version: 2.0.0
 required_rubygems_version: !ruby/object:Gem::Requirement
   requirements:
-  - - '>='
+  - - '>'
     - !ruby/object:Gem::Version
-      version: '0'
+      version: 1.3.1
 requirements: []
 rubyforge_project:
 rubygems_version: 2.0.3