RubyGems - wwmd - Versions diffs - 0.2.20.3 - Mend

wwmd 0.2.20.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (80) hide show

data/History.txt +38 -0
data/README.rdoc +87 -0
data/Rakefile +33 -0
data/examples/config_example.yaml +24 -0
data/examples/wwmd_example.rb +73 -0
data/lib/wwmd.rb +84 -0
data/lib/wwmd/class_extensions.rb +4 -0
data/lib/wwmd/class_extensions/extensions_base.rb +251 -0
data/lib/wwmd/class_extensions/extensions_encoding.rb +79 -0
data/lib/wwmd/class_extensions/extensions_external.rb +18 -0
data/lib/wwmd/class_extensions/extensions_nilclass.rb +11 -0
data/lib/wwmd/class_extensions/extensions_rbkb.rb +193 -0
data/lib/wwmd/class_extensions/mixins_string_encoding.rb +40 -0
data/lib/wwmd/guid.rb +155 -0
data/lib/wwmd/page.rb +3 -0
data/lib/wwmd/page/_fa.old +302 -0
data/lib/wwmd/page/auth.rb +17 -0
data/lib/wwmd/page/constants.rb +63 -0
data/lib/wwmd/page/form.rb +99 -0
data/lib/wwmd/page/form_array.rb +304 -0
data/lib/wwmd/page/headers.rb +118 -0
data/lib/wwmd/page/helpers.rb +41 -0
data/lib/wwmd/page/html2text_hpricot.rb +76 -0
data/lib/wwmd/page/html2text_nokogiri.rb +42 -0
data/lib/wwmd/page/inputs.rb +47 -0
data/lib/wwmd/page/irb_helpers.rb +114 -0
data/lib/wwmd/page/page.rb +257 -0
data/lib/wwmd/page/parsing_convenience.rb +98 -0
data/lib/wwmd/page/reporting_helpers.rb +89 -0
data/lib/wwmd/page/scrape.rb +196 -0
data/lib/wwmd/page/spider.rb +127 -0
data/lib/wwmd/urlparse.rb +125 -0
data/lib/wwmd/viewstate.rb +17 -0
data/lib/wwmd/viewstate/viewstate.rb +101 -0
data/lib/wwmd/viewstate/viewstate_deserializer_methods.rb +217 -0
data/lib/wwmd/viewstate/viewstate_from_xml.rb +129 -0
data/lib/wwmd/viewstate/viewstate_types.rb +51 -0
data/lib/wwmd/viewstate/viewstate_utils.rb +164 -0
data/lib/wwmd/viewstate/viewstate_yaml.rb +25 -0
data/lib/wwmd/viewstate/vs_stubs.rb +22 -0
data/lib/wwmd/viewstate/vs_stubs/vs_array.rb +38 -0
data/lib/wwmd/viewstate/vs_stubs/vs_binary_serialized.rb +30 -0
data/lib/wwmd/viewstate/vs_stubs/vs_hashtable.rb +42 -0
data/lib/wwmd/viewstate/vs_stubs/vs_hybrid_dict.rb +42 -0
data/lib/wwmd/viewstate/vs_stubs/vs_indexed_string.rb +6 -0
data/lib/wwmd/viewstate/vs_stubs/vs_indexed_string_ref.rb +24 -0
data/lib/wwmd/viewstate/vs_stubs/vs_int_enum.rb +27 -0
data/lib/wwmd/viewstate/vs_stubs/vs_list.rb +34 -0
data/lib/wwmd/viewstate/vs_stubs/vs_pair.rb +29 -0
data/lib/wwmd/viewstate/vs_stubs/vs_read_types.rb +11 -0
data/lib/wwmd/viewstate/vs_stubs/vs_read_value.rb +35 -0
data/lib/wwmd/viewstate/vs_stubs/vs_sparse_array.rb +58 -0
data/lib/wwmd/viewstate/vs_stubs/vs_string.rb +33 -0
data/lib/wwmd/viewstate/vs_stubs/vs_string_array.rb +39 -0
data/lib/wwmd/viewstate/vs_stubs/vs_string_formatted.rb +32 -0
data/lib/wwmd/viewstate/vs_stubs/vs_stub_helpers.rb +37 -0
data/lib/wwmd/viewstate/vs_stubs/vs_triplet.rb +31 -0
data/lib/wwmd/viewstate/vs_stubs/vs_type.rb +23 -0
data/lib/wwmd/viewstate/vs_stubs/vs_unit.rb +30 -0
data/lib/wwmd/viewstate/vs_stubs/vs_value.rb +35 -0
data/lib/wwmd/wwmd_config.rb +52 -0
data/lib/wwmd/wwmd_puts.rb +9 -0
data/lib/wwmd/wwmd_utils.rb +28 -0
data/spec/README +3 -0
data/spec/form_array.spec +49 -0
data/spec/spider_csrf_test.spec +28 -0
data/spec/urlparse_test.spec +101 -0
data/tasks/ann.rake +80 -0
data/tasks/bones.rake +20 -0
data/tasks/gem.rake +201 -0
data/tasks/git.rake +40 -0
data/tasks/notes.rake +27 -0
data/tasks/post_load.rake +34 -0
data/tasks/rdoc.rake +51 -0
data/tasks/rubyforge.rake +55 -0
data/tasks/setup.rb +292 -0
data/tasks/spec.rake +54 -0
data/tasks/test.rake +40 -0
data/tasks/zentest.rake +36 -0
metadata +222 -0

data/lib/wwmd/page/parsing_convenience.rb ADDED

@@ -0,0 +1,98 @@
+module WWMD
+  class Page
+#:section: Parsing convenience methods
+# methods that help parse and find information on a page including
+# access to forms etc.
+    # grep for regexp and remove leading whitespace
+    def grep(reg)
+      self.body_data.grep(reg).map { |i| i.gsub(/^\s+/, "") }
+    end
+    # return this page's form (at index id) as a FormArray
+    def get_form(id=nil)
+      id = 0 if not id
+      return nil if forms.empty? || !forms[id]
+      f = @forms[id]
+      action = f.action
+      action ||= action
+      action ||= cur
+      action ||= "PARSE_ERROR"
+      url_action = @urlparse.parse(self.cur,action).to_s
+      type = f.type
+      FormArray.new do |x|
+        x.set_fields(f.fields)
+        x.action = url_action
+        x.type   = type
+      end
+    end
+    # return the complete url to the form action on this page
+    def action(id=nil)
+      id = 0 if not id
+      act = self.forms[id].action
+      return self.last_effective_url if (act.nil? || act.empty?)
+      return @urlparse.parse(self.last_effective_url,act).to_s
+    end
+    # return an array of Element objects for an xpath search
+    def search(xpath)
+      self.scrape.hdoc.search(xpath)
+    end
+    # return an array of inner_html for each <script> tag encountered
+    def dump_scripts
+      self.get_tags("//script").map { |s| s.inner_html if s.inner_html.strip != '' }
+    end
+    alias_method :scripts, :dump_scripts
+    # set link using an integer link from self.report
+    #--
+    # NOTE: I always use page.get(page.l(1)) anyway.
+    #++
+    def set_link(index)
+      self.url = @links[index]
+    end
+    # return link at index from @links array
+    def get_link(index)
+      @links[index]
+    end
+    alias_method :link, :get_link #:nodoc:
+    alias_method :l, :get_link #:nodoc:
+    def all_tags#:nodoc:
+      return self.search("*").map { |x| x.name }
+    end
+    def furl(url)
+      self.url = @urlparse.parse(self.base_url,url).to_s
+    end
+    # set self.opts[:base_url]
+    def setbase(url=nil)
+      return nil if not url
+      self.opts[:base_url] = url
+      self.base_url = url
+    end
+    # write self.body_data to file
+    def write(filename)
+      File.write(filename,self.body_data)
+      return "wrote to " + filename
+    end
+    # read self.body_data from file
+    def read(filename)
+      self.body_data = File.read(filename)
+      self.set_data
+    end
+    # alias_method for body_data
+    def raw
+      self.body_data
+    end
+  end
+end

data/lib/wwmd/page/reporting_helpers.rb ADDED

@@ -0,0 +1,89 @@
+module WWMD
+  class Page
+    attr_accessor :status
+#:section: Reporting helper methods
+# These are methods that generate data for a parsed page
+    # return text representation of page code
+    #
+    # override with specific statuses in helper depending on page text
+    # etc to include statuses outside 200 = OK and other = ERR
+    def page_status
+      @status = "OK"
+      @status = "ERR" if self.response_code > 399
+    end
+#    alias_method :status, :page_status#:nodoc:
+    # return value of @logged_in
+    def logged_in?
+      return @logged_in
+    end
+    # return a string of flags:
+    # Ll links
+    # Jj javascript includes
+    # Ff forms
+    # Cc comments
+    def report_flags
+      self.has_links?      ? ret  = "L" : ret  = "l"
+      self.has_jlinks?     ? ret += "J" : ret += "j"
+      self.has_form?       ? ret += "F" : ret += "f"
+      self.has_comments?   ? ret += "C" : ret += "c"
+      return ret
+    end
+    def has_links?;    return !@links.empty?;     end
+    def has_jlinks?;   return !@jlinks.empty?;    end
+    def has_form?;     return !(@forms.size < 1); end
+    def has_comments?; return !@comments.empty?;  end
+    # return page size in bytes
+    def size
+      return self.body_data.size
+    end
+    # return md5sum for self.body_data
+    def md5
+      return self.body_data.md5
+    end
+    # does this response have SET-COOKIE headers?
+    def set_cookies?
+      ret = FormArray.new()
+      self.header_data.each do |x|
+        if x[0].upcase == "SET-COOKIE"
+          ret << x[1].split(";").first.split("=",2)
+        end
+      end
+      ret
+    end
+    alias_method :set_cookies, :set_cookies?
+    def time
+      self.total_time
+    end
+    # return MD5 for DOM fingerprint
+    # take all tag names in page.to_s.md5
+    def fingerprint
+      self.all_tags.to_s.md5
+    end
+    alias_method :fp, :fingerprint #:nodoc:
+    # alias_method for last_effective_url
+    def current_url
+      self.last_effective_url
+    end
+    alias_method :current, :current_url
+    alias_method :cur, :current_url
+    alias_method :now, :current_url
+    # the last http response code
+    def code
+      self.response_code # .to_s
+    end
+  end
+end

data/lib/wwmd/page/scrape.rb ADDED

@@ -0,0 +1,196 @@
+module WWMD
+  LINKS_REGEXP = [
+    /window\.open\s*\(([^\)]+)/i,
+    /open_window\s*\(([^\)]+)/i,
+    /window\.location\s*=\s*(['"][^'"]+['"])/i,
+    /.*location.href\s*=\s*(['"][^'"]+['"])/i,
+    /document.forms.*action\s*=\s*(['"][^'"]+['"])/i,
+    /Ajax\.Request\s*\((['"][^'"]+['"])/i,
+  ]
+  class Scrape
+    attr_accessor :debug
+    attr_accessor :warn
+    attr_accessor :links  # links found on page
+    attr_accessor :jlinks # links to javascript includes
+    attr_reader :hdoc
+    # create a new scrape object using passed HTML
+    def initialize(page='<>')
+      @page = page
+      @hdoc = HDOC.parse(@page)
+      @links = Array.new
+      @debug = false
+      @warn = false
+    end
+    # reset this scrape object (called by WWMD::Page)
+    def reset(page)
+      @page = page
+      @hdoc = HDOC.parse(@page)
+      @links = Array.new
+    end
+    # scan the passed string for the configured regular expressions
+    # and return them as an array
+    def urls_from_regexp(content,re,split=0)
+      ret = []
+      scrape = content.scan(re)
+      scrape.each do |url|
+        # cheat and take split string(,)[split]
+        add = url.to_s.split(',')[split].gsub(/['"]/, '')
+        next if (add == '' || add.nil?)
+        ret << add
+      end
+      return ret
+    end
+    # xpath search for tags and return the passed attribute
+    #  urls_from_xpath("//a","href")
+    def urls_from_xpath(xpath,attr)
+      ret = []
+      @hdoc.search(xpath).each do |elem|
+        url = elem[attr]
+        next if url.empty?
+        ret << url.strip
+      end
+      return ret
+    end
+    # <b>NEED</b> to move this to external configuration
+    #
+    # list of urls we don't care to store in our links list
+    def reject_links
+      putw "WARN: override reject_links in helper script" if @warn
+      default_reject_links
+    end
+    # default reject links (override using reject_links in helper script)
+    def default_reject_links
+      @links.reject! do |url|
+        url.nil? ||
+        url.extname == ".css" ||
+        url.extname == ".pdf" ||
+        url =~ /javascript:/i ||
+        url =~ /mailto:/i ||
+        url =~ /[\[\]]/ ||
+        url =~ /^#/
+      end
+    end
+    # return an array of Form objects for forms on page
+    def for_forms
+      ret = []
+      @hdoc.search("//form").each { |f| ret << Form.new(f) }
+      ret
+    end
+    # use xpath searches to get
+    # * //a href
+    # * //area href
+    # * //frame src
+    # * //iframe src
+    # * //form action
+    # * //meta refresh content urls
+    # then get //script tags and regexp out links in javascript function calls
+    # from elem.inner_html
+    def for_links(reject=true)
+      self.urls_from_xpath("//a","href").each      { |url| @links << url } # get <a href=""> elements
+      self.urls_from_xpath("//area","href").each   { |url| @links << url } # get <area href=""> elements
+      self.urls_from_xpath("//frame","src").each   { |url| @links << url } # get <frame src=""> elements
+      self.urls_from_xpath("//iframe","src").each  { |url| @links << url } # get <iframe src=""> elements
+      self.urls_from_xpath("//form","action").each { |url| @links << url } # get <form action=""> elements
+      # <meta> refresh
+      @hdoc.search("//meta").each do |meta|
+        next if meta['http-equiv'] != "refresh"
+        next if not (content = meta['content'].split(/=/)[1])
+        @links << content.strip
+      end
+      # add urls from onclick handlers
+      @hdoc.search("*[@onclick]").each do |onclick|
+        LINKS_REGEXP.each do |re|
+          self.urls_from_regexp(onclick['onclick'],re).each do |url|
+            @links << url
+          end
+        end
+      end
+      # add urls_from_regexp (limit to <script> tags (elem.inner_html))
+      @hdoc.search("//script").each do |scr|
+        LINKS_REGEXP.each do |re|
+          self.urls_from_regexp(scr.inner_html,re).each { |url| @links << url }
+        end
+      end
+      # re-define urls_from_helper in what you mix in
+      begin
+        self.urls_from_helper
+      end
+      self.reject_links; # reject links we don't care about
+      return @links
+    end
+    # scrape the page for <script src=""> tags
+    def for_javascript_links
+      urls = []
+      @hdoc.search("//script[@src]").each { |tag| urls << tag['src'] }
+      urls.reject! { |url| File.extname(url).clip != ".js" }
+      return urls
+    end
+    # scan page for comment fields
+    def for_comments
+      @page.scan(/\<!\s*--(.*?)--\s*\>/m).map { |x| x.to_s }
+    end
+    # scrape the page for a meta refresh tag and return the url from the contents attribute or nil
+    def for_meta_refresh
+      has_mr = @hdoc.search("//meta").map { |x| x['http-equiv'] }.include?('Refresh')
+      if has_mr
+        urls = @hdoc.search("//meta[@content]").map { |x| x['content'].split(";",2)[1] }
+        if urls.size > 1
+          STDERR.puts "PARSE ERROR: more than one meta refresh tag"
+          return "ERR"
+        end
+        k,v = urls.first.split("=",2)
+        if k.upcase.strip != "URL"
+          STDERR.puts "PARSE ERROR: content attribute of meta refresh does not contain url"
+          return "ERR"
+        end
+        return v.strip
+      else
+        return nil
+      end
+    end
+    # scrape the page for a script tag that contains a bare location.href tag (to redirect the page)
+    def for_javascript_redirect
+      redirs = []
+      @hdoc.search("//script").each do |scr|
+        scr.inner_html.scan(/.*location.href\s*=\s*['"]([^'"]+)['"]/i).each { |x| redirs += x }
+      end
+      if redirs.size > 1
+        STDERR.puts "PARSE ERROR: more than one javascript redirect"
+        return "ERR"
+      end
+      return redirs.first if not redirs.empty?
+      return nil
+    end
+    # renamed class variable (for backward compat)
+    def warnings#:nodoc:
+      return @warn
+    end
+    # define an urls_from_helper method in your task specific script
+    def urls_from_helper
+      putw "WARN: Please set an urls_from_helper override in your helper script" if @warn
+      return nil
+    end
+  end
+end

data/lib/wwmd/page/spider.rb ADDED

@@ -0,0 +1,127 @@
+module WWMD
+  # when a WWMD::Page object is created, it created its own WWMD::Spider object
+  # which can be accessed using <tt>page.spider.method</tt>.  The <tt>page.set_data</tt>
+  # method calls <tt>page.spider.add</tt> with the current url and a list of scraped
+  # links from the page.  This class doesn't do any real heavy lifting.
+  #
+  # a simple spider can be written just by recursing through page.spider.next until
+  # it's empty.
+  class Spider
+    attr_accessor :queued
+    attr_accessor :visited
+    attr_accessor :bypass
+    attr_accessor :local_only
+    attr_reader   :opts
+    attr_accessor :ignore
+    attr_accessor :csrf_token
+    DEFAULT_IGNORE = [
+      /logoff/i,
+      /logout/i,
+    ]
+    # pass me opts and an array of regexps to ignore
+    # we have a set of sane(ish) defaults here
+    def initialize(opts={},ignore=nil)
+      @opts    = opts
+      @visited = []
+      @queued  = []
+      @local_only = true
+      @csrf_token = nil
+      if !opts[:spider_local_only].nil?
+        @local_only = opts[:spider_local_only]
+      end
+      @ignore = ignore || DEFAULT_IGNORE
+    end
+    # push an url onto the queue
+    def push_url(url)
+      return false if _check_ignore(url)
+      if @local_only
+        return false if !(url =~ /#{@opts[:base_url]}/)
+      end
+      return false if (@visited.include?(url) or @queued.include?(url))
+      @queued.push(url)
+      true
+    end
+    alias_method :push, :push_url
+    # skip items in the queue
+    def skip(tim=1)
+      tim.times { |i| @queued.shift }
+      true
+    end
+    # get the next url in the queue
+    def get_next
+      queued.shift
+    end
+    alias_method :next, :get_next
+    # more elements in the queue?
+    def next?
+      !queued.empty?
+    end
+    # get the last ul we visited?  this doesn't look right
+    def get_last(url)
+      tmp =  @visited.reject { |v| v =~ /#{url}/ }
+      return tmp[-1]
+    end
+    # show the visited list (or the entry in the list at [id])
+    def show_visited(id=nil)
+      if id.nil?
+        @visited.each_index { |i| putx i.to_s + " :: " + @visited[i].to_s }
+        return nil
+      else
+        return @visited[id]
+      end
+    end
+    alias_method :v, :show_visited
+    # return the current queue (or the entry in the queue at [id]
+    def show_queue(id=nil)
+      if id.nil?
+        @queued.each_index { |i| putx i.to_s + " :: " + @queued[i].to_s }
+        return nil
+      else
+        return @queued[id]
+      end
+    end
+    alias_method :q, :show_queue
+    # add url to queue
+    def add(url='',links=[])
+      return nil if @visited.include?(url)
+      @visited.push(url)
+      links.each { |l| self.push_url l }
+      nil
+    end
+    # set up the ignore list
+    # ignore list is an array of regexp objects
+    # remember to set this up before calling any Page methods
+    def set_ignore(arr)
+      @ignore = arr
+    end
+    def _de_csrf(url)
+      return url if @csrf_token.nil?
+      act,params = url.clopa
+      form = params.to_form
+      return url if !form.has_key?(@csrf_token)
+      form[@csrf_token] = ''
+      url = act + form.to_get
+    end
+    def _check_ignore(url)
+      @ignore.each { |x| return true if (url =~ x) }
+      return false
+    end
+  end
+end