RubyGems - webpage - Versions diffs - 0.0.3 → 0.0.4 - Mend

webpage 0.0.3 → 0.0.4

Files changed (2) hide show

data/webpage.rb +157 -126
metadata +1 -1

data/webpage.rb CHANGED Viewed

@@ -3,9 +3,11 @@ require 'pp'
 require 'mechanize'
 require 'uri'
 class Webpage
-    attr_reader:links,:successful,:related_uris
+    attr_reader :links,:relative_paths,:outbound_links,:successful,:related_uris,:invalid_links,:internal_links,:internal_outbound_links,:internal_inbound_links,:broken_outbound_links,:external_outbound_links,:external_inbound_links
+    attr_accessor :ignored_exts
     def initialize(uri)
-        @uri = URI.parse(uri_encode(uri))
+        @links = Array.new
+        @relative_paths = Array.new
         @outbound_links = Array.new
         @internal_outbound_links = Array.new
         @external_outbound_links = Array.new
@@ -15,54 +17,56 @@ class Webpage
         @internal_inbound_links = Array.new
         @external_inbound_links = Array.new
         @internal_links = Array.new
-        @links = Array.new
-        @uri_dirname = File.dirname(@uri.path)
-        @uri_domain = host_to_domain @uri.host
+        @invalid_links = Array.new
         @accessed_uri = Array.new
-        @page = ''
         @related_uris = Array.new
         @successful = false
         begin
+            @uri = URI.parse(uri)
+            raise 'not url' unless @uri.class == URI::HTTP or @uri.class == URI::HTTPS
+            @domain = Webpage.host_to_domain @uri.host
             agent = Mechanize.new
-            agent.open_timeout = 5
+            agent.open_timeout = 3
             @page = agent.get @uri.to_s
+            raise 'not webpage' unless @page.class == Mechanize::Page
             @page.body = @page.body.force_encoding(@page.encoding).encode("UTF-8", :invalid => :replace, :undef => :replace, :replace => "?")
-            @page.links.each do |link| #1
-                next if link.href.nil?
-                uri = uri_encode(link.href.strip)
-                begin
-                    @links << @uri.merge(uri).to_s
-                rescue URI::InvalidURIError,URI::InvalidComponentError
-                    warn "ignore\nparsed: #{uri} \noriginal: #{link.href}"
-                end
-            end
             @successful = true
         rescue Exception => e
-            warn "#{e}:#{@uri}"
+            warn "................\nget #{@uri} failed\n.#{e.backtrace.join("\n")}\n #{e}\nURI:.............."
         end
-        @links.uniq!
-        scan_links
     end
     def encoding
         return @page.encoding
     end
     def keywords
-        return @page.search("//meta[@name='keywords']").first.attributes["content"].value.split(',')
+        meta = @page.search("//meta[@name='keywords']").first
+        return meta.attributes["content"].value.split(',') unless meta.nil?
+    end
+    def description
+        meta = @page.search("//meta[@name='description']").first
+        if meta.nil?
+            return false
+        end
+        return meta.atrributes['content'].value
     end
     def body
-        return @page.body unless @page.body.include?'<html>'
-        return String.new
+        return @page.body
+        #(return @page.body unless @page.body.include?'<html>') if @successful
+        #return String.new
     end
     def text
-        return body.gsub(/<\/?[^>]*>/, "")
+        return Nokogiri::HTML(body).xpath("//text()").text
+        #return body.gsub(/<\/?[^>]*>/, "")
     end
     def title
         return @page.title unless @page.title.nil?
-        return String.new
+        return false
     end
@@ -70,6 +74,7 @@ class Webpage
     #1.$all = get all <a>
     #2.$href = get all href from $all
     #3.make all $href to be absolute path and put to @links
+=begin
     def links
         return @links unless @links.empty?
         begin
@@ -78,7 +83,7 @@ class Webpage
             agent.get @uri do |page|
                 page.links.each do |link| #1
                     next if link.href.nil?
-                    uri = uri_encode(link.href.strip)
+                    uri = Webpage.uri_normalize(link.href)
                     begin
                         @links << @uri.merge(uri).to_s
                     rescue URI::InvalidURIError,URI::InvalidComponentError
@@ -101,29 +106,42 @@ class Webpage
         #@links = @links.uniq - @accessed_uri
         #@accessed_uri += @links
         @links.uniq!
-        puts @links
         scan_links
         return @links
     end
+=end
-    def internal_links
-        return @internal_links unless @internal_links.empty?
+    def report
         scan_links
-        return @internal_links
+        scan_outbound_links
+        scan_inbound_links
+        report = {
+            :internal_links => @internal_links,
+            :internal_outbound_links => @internal_outbound_links,
+            :outbound_links => @outbound_links,
+            :broken_outbound_links => @broken_outbound_links,
+            :external_inbound_links => @external_inbound_links,
+            :internal_inbound_links => @internal_inbound_links,
+            :external_outbound_links => @external_outbound_links,
+            :related_uris => @related_uris,
+            :invalid_links => @invalid_links
+        }
     end
+=begin
     def external_outbound_links
         return @external_outbound_links  unless @external_outbound_links.empty?
         links
         return @external_outbound_links
     end
     def internal_outbound_links
         return @internal_outbound_links unless @internal_outbound_links.empty?
         links
         return @internal_outbound_links
     end
-    def outbound_links
-        return external_outbound_links + internal_outbound_links
-    end
     def back_links#inbound links among all the outbound links
         return @back_links unless @back_links.empty?
         scan_outbound_links
@@ -147,23 +165,27 @@ class Webpage
         scan_inbound_links
         return @internal_inbound_links
     end
+=end
     def pagerank
-        return @pagerank unless @pagerank
-        require 'PageRankr'
-        @pagerank = PageRankr.ranks(@uri.to_s, :google)
+        return @pagerank unless @pagerank.nil?
+        require 'page_rankr'
+        @pagerank = PageRankr.ranks(@uri.to_s, :google)[:google]
         return @pagerank
     end
     def ppl#pagerank per link
-        return (@pagerank / links.count)
+        pagerank
+        return false if @pagerank.nil?
+        scan_links
+        return (@pagerank / @links.size)
     end
-    def related_uris(related_keywords=Array.new,seed_uris=Array.new,checked_uris=Array.new,related=Array.new)
+    def scan_related_uris(related_keywords=Array.new,seed_uris=Array.new,checked_uris=Array.new,max=100)#todo: multi-threads
+        scan_links
         raise "related_keywords is not array,but a #{related_keywords.class}" unless related_keywords.class == Array and seed_uris.class == Array and checked_uris.class == Array
-        related_keywords.concat(keywords).uniq!
-        seed_uris.concat(external_outbound_links).uniq!
-        while seed_uris.size>0
+        seed_uris.concat(@external_outbound_links - checked_uris)
+        related_keywords.concat(keywords)
+        result = Array.new
+        while seed_uris.size > 0 and result.size < max
             uri = seed_uris.first
             checked_uris << uri unless checked_uris.include?uri
             seed_uris.delete(uri)
@@ -172,63 +194,84 @@ class Webpage
             text = w.body + w.title
             related_keywords.each do |word|
                 if text.include?word
-                    related << uri
-                    seed_uris.concat(w.external_outbound_links).uniq!
+                    #result.concat self.the_related_uris(related_keywords,seed_uris,checked_uris,max)
+                    domain = Webpage.host_to_domain(URI.parse(uri).host)
+                    result << domain unless result.include? domain
+                    seed_uris.concat(w.external_outbound_links - checked_uris)
                     break
                 end
             end
         end
-        return related
+        return result
     end
-    private
-    def scan_links
-        @links.each do |a|
-            begin
-                uri = URI.parse(uri_encode(a))
-            rescue URI::InvalidURIError =>e
-                puts "#{e}:#{uri}"
-                next
+    def link_to(target_uri)
+        scan_links
+        target_uri = Webpage.uri_normalize(target_uri)
+        target_host = URI.parse(target_uri).host
+        target_domain = Webpage.host_to_domain(target_host)
+        type = 0 #not link to
+        @links.each do |link|
+            candidate_host = URI.parse(link).host
+            if link == target_uri
+                type = 3 #definitely link to
+                break
+            elsif  URI.parse(link).host == target_host
+               type = 2 if type < 2 #link to the host
+            elsif Webpage.host_to_domain(candidate_host) == target_domain
+               type = 1 if type < 1 #link to the root domain
             end
-            next if uri.host.nil?
-            if uri.host.end_with?@uri_domain
-                @internal_links << a
-            elsif uri.scheme.start_with?'http'
-                if host_to_domain(uri.host) == @uri_domain
-                    @internal_outbound_links << uri.to_s
-                else
-                    @external_outbound_links << uri.to_s
-                end
-                #@outbound_links << a
+        end
+        return type
+    end
+    def self.uri_normalize(uri)
+        uri = URI.parse(uri).normalize
+        fragment = uri.fragment
+        return uri.to_s.delete("##{fragment}")
+        #uri = uri.to_s.strip.sub(/\#.*$/,'')
+        #uri.path = '/' if uri.path.nil?
+    end
+    def self.host_to_domain(host)
+        domain = (host.match /\.?([a-zA-Z0-9_-]+\.[a-zA-Z0-9_-]+)$/)
+        return domain[1] unless domain.nil?
+        return false
+    end
+    def self.uri_encode(str)
+        return URI.encode(str,Regexp.new("[^#{URI::PATTERN::UNRESERVED+'#:/?%&='}]"))
+    end
+    def scan_inbound_links
+        scan_links
+        @back_links.each do |inlink|
+            inlink = URI.parse inlink
+            if @domain == Webpage.host_to_domain(inlink.host)
+                @internal_inbound_links << inlink.to_s
+            else
+                @external_inbound_links << inlink.to_s
             end
         end
-        @back_links.uniq!
-        #@outbound_links.uniq!
-        @internal_outbound_links.uniq!
-        @external_outbound_links.uniq!
+        @internal_inbound_links.uniq!
+        @external_inbound_links.uniq!
     end
     def scan_outbound_links
-        outbound_links.each do |outlink|
-            begin
-                w = Webpage.new(outlink)
-            rescue URI::InvalidURIError
-                warn "bad uri:#{outlink}"
+        @outbound_links.each do |outlink|
+            w = Webpage.new(outlink)
+            unless w.successful
+                @invalid_links << outlink
                 next
             end
             next if w.links.nil?
             w.links.each do |uri|
-                next unless uri.start_with?'http'
-                begin
-                    uri = URI.parse(uri_encode(uri))
-                    next if uri.host.nil?
-                    if uri.host.end_with?@uri_domain
-                        @back_links << uri.to_s
-                    else
-                        @broken_outbound_links << uri.to_s
-                    end
-                rescue URI::InvalidURIError
-                    warn "bad uri:#{uri}"
+                #uri = URI.parse(uri)
+                #next if uri.host.nil?
+                if Webpage.host_to_domain(uri) == @domain
+                    @back_links << uri.to_s
+                else
+                    @broken_outbound_links << uri.to_s
                 end
             end
         end
@@ -236,50 +279,38 @@ class Webpage
         @broken_outbound_links.uniq!
     end
-    def scan_inbound_links
-        back_links.each do |inlink|
-            inlink = URI.parse inlink
-            if @uri_domain == host_to_domain(inlink.host)
-                @internal_inbound_links << inlink.to_s
+    def scan_links
+        return unless @links.empty?
+        exts_to_ignored = %w(.exe .jpg .png .gif .msi .pdf .swf) #decide before download the uri
+        @page.links.each do |link|
+            #初步解析
+            begin
+                uri = URI.parse(link.href)
+                href = uri.to_s
+            rescue URI::InvalidURIError => e
+                @invalid_links << href
+                next
+            end
+            #忽略非网页文件
+            if exts_to_ignored.include?href[-4,4]
+                @ignored_uris << href
+                next
+            end
+            #处理相对路径
+            if uri.relative?
+                @relative_paths << href
+                href = @uri.merge(href).to_s
+                @internal_outbound_links << href
             else
-                @external_inbound_links << inlink.to_s
+                href = Webpage.uri_normalize(href)
+                if Webpage.host_to_domain(uri.host) == @domain
+                    @internal_outbound_links << href
+                else
+                    @external_outbound_links << href
+                end
             end
+            @links << href
         end
-        @internal_inbound_links.uniq!
-        @external_inbound_links.uniq!
+        @outbound_links = @internal_outbound_links.uniq! + @external_outbound_links.uniq!
     end
-    def uri_encode(str)
-        return URI.encode(str,Regexp.new("[^#{URI::PATTERN::UNRESERVED+'#:/?%&='}]"))
-    end
-    def host_to_domain(host)
-        domain = (host.match /\.?([a-zA-Z0-9_-]+\.[a-zA-Z0-9_-]+)$/)
-        return domain[1] unless domain.nil?
-        return false
-    end
-end
-w = Webpage.new('http://cidian.youdao.com')
-#puts w.external_outbound_links
-related_keywords = %w(词典 辞典 辞海 译 英语 法语 日语 韩语 语言)
-puts w.related_uris(related_keywords)
-exit
-require 'yaml'
-filename = './cidian.yaml'
-if File.exists?(filename)
-    cached_cidian = YAML.load(File.read(filename))
-else
-    cached_cidian = Hash.new
-    cached_cidian[:seed_uris] = Array.new
-    cached_cidian[:checked_uris] = Array.new
-    cached_cidian[:related_keywords] = %w(词典 辞典 辞海 译 英语 法语 日语 韩语 语言)
-    cached_cidian[:related_uris] = Array.new
-end
-at_exit do
-    File.open(filename,'w'){|f|f.puts(cached_cidian.to_yaml)}
 end
-#puts w.related_uris(cached_cidian[:seed_uris],cached_cidian[:related_keywords],cached_cidian[:checked_uris],cached_cidian[:related_uris])
-puts w.external_inbound_links
-puts w.internal_inbound_links
-puts w.pagerank
-puts w.external_inbound_links

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: webpage
 version: !ruby/object:Gem::Version
-  version: 0.0.3
+  version: 0.0.4
   prerelease:
 platform: ruby
 authors: