RubyGems - news_crawler - Versions diffs - 0.0.2 → 0.0.3.pre.1 - Mend

news_crawler 0.0.2 → 0.0.3.pre.1

Files changed (4) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 50e84e9674b22d98be7b72371513219da5a23d38
-  data.tar.gz: bd6cd50fe658c960134fdfff53631e32e63e4b76
+  metadata.gz: e52eaf3135e05aba597c96a7e9cafa43dba73cc8
+  data.tar.gz: 7e50f113f2b5be1f4932eb7ba83975e216777c89
 SHA512:
-  metadata.gz: 405419795794f78bf0608d2b66707d842c69c7c53d1b312a2569e9c82e482563ea28d34c5183accd3bf4b213fc6291305d8295f9310918854cd24e19c1cf6a83
-  data.tar.gz: 53e089fb98b6a9e583c54119215ead3444fcc285d71f3bf5ca6f188b55db13a45fa6a87d414631a81dc2f092cedc726d77907d2d542671a721d92581a4876df8
+  metadata.gz: 1ce7400c42047ad78954b0e4f45e1493fb7833926e69864a0814662e5ddac4f6423247083fe943fbab33085ad27c410dbb500326690c74290821bf3b24b2454a
+  data.tar.gz: 66f0fd7d05b3fae8e9c12684b16240e2e9ae0add263018ec49e82564d8b1489a9564a3e8899a1a975a145500c5eee9afe002a9644b368bc0cf2c5206328d71fd

@@ -22,6 +22,7 @@
 require 'celluloid'
 require 'nokogiri'
+require 'uri'
 require 'news_crawler/storage/raw_data'
 require 'news_crawler/url_helper'
@@ -60,13 +61,14 @@ module NewsCrawler
         inner_url = html_doc.xpath('//a').collect { | a_el |
           temp_url = (a_el.attribute 'href').to_s
           if (!temp_url.nil?) && (temp_url[0] == '/')
-            temp_url = url + temp_url
+            temp_url = URI.join(url, temp_url).to_s
           end
           temp_url
         }
         inner_url.delete_if { | url |
-            (url.nil?) || (url.size == 0) || (url == '#')
+            (url.nil?) || (url.size == 0) || (url == '#') ||
+          (url == 'javascript:;')
         }
         # select url from same domain

data/lib/news_crawler/url_helper.rb CHANGED Viewed

@@ -1,3 +1,4 @@
+# -*- coding: utf-8 -*-
 #--
 # NewsCrawler - a website crawler
 #
@@ -22,11 +23,14 @@
 module NewsCrawler
   # Contains various method for processing url
   module URLHelper
-    # produce true if 2 urls belong to same domain
+    # produce true if 2 urls belong to same domain, or url is start with '/'
     # @param  [ String  ] url1 Url 1
     # @param  [ String  ] url2 Url 2
     # @return [ Boolean ] true if both url belong to same domain
     def same_domain?(url1, url2)
+      if (url1[0] == '/') || (url2[0] == '/')
+        return true
+      end
       p1 = get_url_path(url1)
       p2 = get_url_path(url2)
       d1 = p1[:domain].split('.').reverse

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: news_crawler
 version: !ruby/object:Gem::Version
-  version: 0.0.2
+  version: 0.0.3.pre.1
 platform: ruby
 authors:
 - Hà Quang Dương
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2013-07-22 00:00:00.000000000 Z
+date: 2013-07-23 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: mongo
@@ -191,9 +191,9 @@ required_ruby_version: !ruby/object:Gem::Requirement
       version: 2.0.0
 required_rubygems_version: !ruby/object:Gem::Requirement
   requirements:
-  - - '>='
+  - - '>'
     - !ruby/object:Gem::Version
-      version: '0'
+      version: 1.3.1
 requirements: []
 rubyforge_project:
 rubygems_version: 2.0.3