RubyGems - webpage - Versions diffs - 0.0.3 → 0.0.4 - Mend

webpage 0.0.3 → 0.0.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (2) hide show

data/webpage.rb +157 -126
metadata +1 -1

data/webpage.rb CHANGED Viewed

@@ -3,9 +3,11 @@ require 'pp'
 require 'mechanize'
 require 'uri'
 class Webpage
-    attr_reader:links,:successful,:related_uris
+    attr_reader :links,:relative_paths,:outbound_links,:successful,:related_uris,:invalid_links,:internal_links,:internal_outbound_links,:internal_inbound_links,:broken_outbound_links,:external_outbound_links,:external_inbound_links
+    attr_accessor :ignored_exts
     def initialize(uri)
-        @uri = URI.parse(uri_encode(uri))
+        @links = Array.new
+        @relative_paths = Array.new
         @outbound_links = Array.new
         @internal_outbound_links = Array.new
         @external_outbound_links = Array.new
@@ -15,54 +17,56 @@ class Webpage
         @internal_inbound_links = Array.new
         @external_inbound_links = Array.new
         @internal_links = Array.new
-        @links = Array.new
-        @uri_dirname = File.dirname(@uri.path)
-        @uri_domain = host_to_domain @uri.host
+        @invalid_links = Array.new
         @accessed_uri = Array.new
-        @page = ''
         @related_uris = Array.new
         @successful = false
         begin
+            @uri = URI.parse(uri)
+            raise 'not url' unless @uri.class == URI::HTTP or @uri.class == URI::HTTPS
+            @domain = Webpage.host_to_domain @uri.host
             agent = Mechanize.new
-            agent.open_timeout = 5
+            agent.open_timeout = 3
             @page = agent.get @uri.to_s
+            raise 'not webpage' unless @page.class == Mechanize::Page
             @page.body = @page.body.force_encoding(@page.encoding).encode("UTF-8", :invalid => :replace, :undef => :replace, :replace => "?")
-            @page.links.each do |link| #1
-                next if link.href.nil?
-                uri = uri_encode(link.href.strip)
-                begin
-                    @links << @uri.merge(uri).to_s
-                rescue URI::InvalidURIError,URI::InvalidComponentError
-                    warn "ignore\nparsed: #{uri} \noriginal: #{link.href}"
-                end
-            end
             @successful = true
         rescue Exception => e
-            warn "#{e}:#{@uri}"
+            warn "................\nget #{@uri} failed\n.#{e.backtrace.join("\n")}\n #{e}\nURI:.............."
         end
-        @links.uniq!
-        scan_links
     end
     def encoding
         return @page.encoding
     end
     def keywords
-        return @page.search("//meta[@name='keywords']").first.attributes["content"].value.split(',')
+        meta = @page.search("//meta[@name='keywords']").first
+        return meta.attributes["content"].value.split(',') unless meta.nil?
+    end
+    def description
+        meta = @page.search("//meta[@name='description']").first
+        if meta.nil?
+            return false
+        end
+        return meta.atrributes['content'].value
     end
     def body
-        return @page.body unless @page.body.include?'<html>'
-        return String.new
+        return @page.body
+        #(return @page.body unless @page.body.include?'<html>') if @successful
+        #return String.new
     end
     def text
-        return body.gsub(/<\/?[^>]*>/, "")
+        return Nokogiri::HTML(body).xpath("//text()").text
+        #return body.gsub(/<\/?[^>]*>/, "")
     end
     def title
         return @page.title unless @page.title.nil?
-        return String.new
+        return false
     end
@@ -70,6 +74,7 @@ class Webpage
     #1.$all = get all <a>
     #2.$href = get all href from $all
     #3.make all $href to be absolute path and put to @links
+=begin
     def links
         return @links unless @links.empty?
         begin
@@ -78,7 +83,7 @@ class Webpage
             agent.get @uri do |page|
                 page.links.each do |link| #1
                     next if link.href.nil?
-                    uri = uri_encode(link.href.strip)
+                    uri = Webpage.uri_normalize(link.href)
                     begin
                         @links << @uri.merge(uri).to_s
                     rescue URI::InvalidURIError,URI::InvalidComponentError
@@ -101,29 +106,42 @@ class Webpage
         #@links = @links.uniq - @accessed_uri
         #@accessed_uri += @links
         @links.uniq!
-        puts @links
         scan_links
         return @links
     end
+=end
-    def internal_links
-        return @internal_links unless @internal_links.empty?
+    def report
         scan_links
-        return @internal_links
+        scan_outbound_links
+        scan_inbound_links
+        report = {
+            :internal_links => @internal_links,
+            :internal_outbound_links => @internal_outbound_links,
+            :outbound_links => @outbound_links,
+            :broken_outbound_links => @broken_outbound_links,
+            :external_inbound_links => @external_inbound_links,
+            :internal_inbound_links => @internal_inbound_links,
+            :external_outbound_links => @external_outbound_links,
+            :related_uris => @related_uris,
+            :invalid_links => @invalid_links
+        }
     end
+=begin
     def external_outbound_links
         return @external_outbound_links  unless @external_outbound_links.empty?
         links
         return @external_outbound_links
     end
     def internal_outbound_links
         return @internal_outbound_links unless @internal_outbound_links.empty?
         links
         return @internal_outbound_links
     end
-    def outbound_links
-        return external_outbound_links + internal_outbound_links
-    end
     def back_links#inbound links among all the outbound links
         return @back_links unless @back_links.empty?
         scan_outbound_links
@@ -147,23 +165,27 @@ class Webpage
         scan_inbound_links
         return @internal_inbound_links
     end
+=end
     def pagerank
-        return @pagerank unless @pagerank
-        require 'PageRankr'
-        @pagerank = PageRankr.ranks(@uri.to_s, :google)
+        return @pagerank unless @pagerank.nil?
+        require 'page_rankr'
+        @pagerank = PageRankr.ranks(@uri.to_s, :google)[:google]
         return @pagerank
     end
     def ppl#pagerank per link
-        return (@pagerank / links.count)
+        pagerank
+        return false if @pagerank.nil?
+        scan_links
+        return (@pagerank / @links.size)
     end
-    def related_uris(related_keywords=Array.new,seed_uris=Array.new,checked_uris=Array.new,related=Array.new)
+    def scan_related_uris(related_keywords=Array.new,seed_uris=Array.new,checked_uris=Array.new,max=100)#todo: multi-threads
+        scan_links
         raise "related_keywords is not array,but a #{related_keywords.class}" unless related_keywords.class == Array and seed_uris.class == Array and checked_uris.class == Array
-        related_keywords.concat(keywords).uniq!
-        seed_uris.concat(external_outbound_links).uniq!
-        while seed_uris.size>0
+        seed_uris.concat(@external_outbound_links - checked_uris)
+        related_keywords.concat(keywords)
+        result = Array.new
+        while seed_uris.size > 0 and result.size < max
             uri = seed_uris.first
             checked_uris << uri unless checked_uris.include?uri
             seed_uris.delete(uri)
@@ -172,63 +194,84 @@ class Webpage
             text = w.body + w.title
             related_keywords.each do |word|
                 if text.include?word
-                    related << uri
-                    seed_uris.concat(w.external_outbound_links).uniq!
+                    #result.concat self.the_related_uris(related_keywords,seed_uris,checked_uris,max)
+                    domain = Webpage.host_to_domain(URI.parse(uri).host)
+                    result << domain unless result.include? domain
+                    seed_uris.concat(w.external_outbound_links - checked_uris)
                     break
                 end
             end
         end
-        return related
+        return result
     end
-    private
-    def scan_links
-        @links.each do |a|
-            begin
-                uri = URI.parse(uri_encode(a))
-            rescue URI::InvalidURIError =>e
-                puts "#{e}:#{uri}"
-                next
+    def link_to(target_uri)
+        scan_links
+        target_uri = Webpage.uri_normalize(target_uri)
+        target_host = URI.parse(target_uri).host
+        target_domain = Webpage.host_to_domain(target_host)
+        type = 0 #not link to
+        @links.each do |link|
+            candidate_host = URI.parse(link).host
+            if link == target_uri
+                type = 3 #definitely link to
+                break
+            elsif  URI.parse(link).host == target_host
+               type = 2 if type < 2 #link to the host
+            elsif Webpage.host_to_domain(candidate_host) == target_domain
+               type = 1 if type < 1 #link to the root domain
             end
-            next if uri.host.nil?
-            if uri.host.end_with?@uri_domain
-                @internal_links << a
-            elsif uri.scheme.start_with?'http'
-                if host_to_domain(uri.host) == @uri_domain
-                    @internal_outbound_links << uri.to_s
-                else
-                    @external_outbound_links << uri.to_s
-                end
-                #@outbound_links << a
+        end
+        return type
+    end
+    def self.uri_normalize(uri)
+        uri = URI.parse(uri).normalize
+        fragment = uri.fragment
+        return uri.to_s.delete("##{fragment}")
+        #uri = uri.to_s.strip.sub(/\#.*$/,'')
+        #uri.path = '/' if uri.path.nil?
+    end
+    def self.host_to_domain(host)
+        domain = (host.match /\.?([a-zA-Z0-9_-]+\.[a-zA-Z0-9_-]+)$/)
+        return domain[1] unless domain.nil?
+        return false
+    end
+    def self.uri_encode(str)
+        return URI.encode(str,Regexp.new("[^#{URI::PATTERN::UNRESERVED+'#:/?%&='}]"))
+    end
+    def scan_inbound_links
+        scan_links
+        @back_links.each do |inlink|
+            inlink = URI.parse inlink
+            if @domain == Webpage.host_to_domain(inlink.host)
+                @internal_inbound_links << inlink.to_s
+            else
+                @external_inbound_links << inlink.to_s
             end
         end
-        @back_links.uniq!
-        #@outbound_links.uniq!
-        @internal_outbound_links.uniq!
-        @external_outbound_links.uniq!
+        @internal_inbound_links.uniq!
+        @external_inbound_links.uniq!
     end
     def scan_outbound_links
-        outbound_links.each do |outlink|
-            begin
-                w = Webpage.new(outlink)
-            rescue URI::InvalidURIError
-                warn "bad uri:#{outlink}"
+        @outbound_links.each do |outlink|
+            w = Webpage.new(outlink)
+            unless w.successful
+                @invalid_links << outlink
                 next
             end
             next if w.links.nil?
             w.links.each do |uri|
-                next unless uri.start_with?'http'
-                begin
-                    uri = URI.parse(uri_encode(uri))
-                    next if uri.host.nil?
-                    if uri.host.end_with?@uri_domain
-                        @back_links << uri.to_s
-                    else
-                        @broken_outbound_links << uri.to_s
-                    end
-                rescue URI::InvalidURIError
-                    warn "bad uri:#{uri}"
+                #uri = URI.parse(uri)
+                #next if uri.host.nil?
+                if Webpage.host_to_domain(uri) == @domain
+                    @back_links << uri.to_s
+                else
+                    @broken_outbound_links << uri.to_s
                 end
             end
         end
@@ -236,50 +279,38 @@ class Webpage
         @broken_outbound_links.uniq!
     end
-    def scan_inbound_links
-        back_links.each do |inlink|
-            inlink = URI.parse inlink
-            if @uri_domain == host_to_domain(inlink.host)
-                @internal_inbound_links << inlink.to_s
+    def scan_links
+        return unless @links.empty?
+        exts_to_ignored = %w(.exe .jpg .png .gif .msi .pdf .swf) #decide before download the uri
+        @page.links.each do |link|
+            #初步解析
+            begin
+                uri = URI.parse(link.href)
+                href = uri.to_s
+            rescue URI::InvalidURIError => e
+                @invalid_links << href
+                next
+            end
+            #忽略非网页文件
+            if exts_to_ignored.include?href[-4,4]
+                @ignored_uris << href
+                next
+            end
+            #处理相对路径
+            if uri.relative?
+                @relative_paths << href
+                href = @uri.merge(href).to_s
+                @internal_outbound_links << href
             else
-                @external_inbound_links << inlink.to_s
+                href = Webpage.uri_normalize(href)
+                if Webpage.host_to_domain(uri.host) == @domain
+                    @internal_outbound_links << href
+                else
+                    @external_outbound_links << href
+                end
             end
+            @links << href
         end
-        @internal_inbound_links.uniq!
-        @external_inbound_links.uniq!
+        @outbound_links = @internal_outbound_links.uniq! + @external_outbound_links.uniq!
     end
-    def uri_encode(str)
-        return URI.encode(str,Regexp.new("[^#{URI::PATTERN::UNRESERVED+'#:/?%&='}]"))
-    end
-    def host_to_domain(host)
-        domain = (host.match /\.?([a-zA-Z0-9_-]+\.[a-zA-Z0-9_-]+)$/)
-        return domain[1] unless domain.nil?
-        return false
-    end
-end
-w = Webpage.new('http://cidian.youdao.com')
-#puts w.external_outbound_links
-related_keywords = %w(词典 辞典 辞海 译 英语 法语 日语 韩语 语言)
-puts w.related_uris(related_keywords)
-exit
-require 'yaml'
-filename = './cidian.yaml'
-if File.exists?(filename)
-    cached_cidian = YAML.load(File.read(filename))
-else
-    cached_cidian = Hash.new
-    cached_cidian[:seed_uris] = Array.new
-    cached_cidian[:checked_uris] = Array.new
-    cached_cidian[:related_keywords] = %w(词典 辞典 辞海 译 英语 法语 日语 韩语 语言)
-    cached_cidian[:related_uris] = Array.new
-end
-at_exit do
-    File.open(filename,'w'){|f|f.puts(cached_cidian.to_yaml)}
 end
-#puts w.related_uris(cached_cidian[:seed_uris],cached_cidian[:related_keywords],cached_cidian[:checked_uris],cached_cidian[:related_uris])
-puts w.external_inbound_links
-puts w.internal_inbound_links
-puts w.pagerank
-puts w.external_inbound_links

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: webpage
 version: !ruby/object:Gem::Version
-  version: 0.0.3
+  version: 0.0.4
   prerelease:
 platform: ruby
 authors: