RubyGems - monkeyshines - Versions diffs - 0.2.1 → 0.2.2 - Mend

monkeyshines 0.2.1 → 0.2.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (15) hide show

data/examples/shorturls/scrape_shorturls.rb +89 -35
data/examples/shorturls/shorturl_stats.rb +37 -0
data/examples/shorturls/split_short_urls.rb +21 -0
data/lib/monkeyshines/fetcher/authed_http_fetcher.rb +118 -6
data/lib/monkeyshines/fetcher/http_fetcher.rb +10 -9
data/lib/monkeyshines/monitor/periodic_logger.rb +2 -1
data/lib/monkeyshines/monitor/periodic_monitor.rb +9 -2
data/lib/monkeyshines/options.rb +2 -0
data/lib/monkeyshines/runner.rb +1 -0
data/lib/monkeyshines/store/flat_file_store.rb +6 -0
data/lib/monkeyshines/store/tyrant_rdb_key_store.rb +2 -1
data/lib/monkeyshines/utils/filename_pattern.rb +1 -1
metadata +53 -29
data/examples/shorturls/old/multidump_and_fix_shorturls.rb +0 -66
data/examples/shorturls/old/shorturl_stats.rb +0 -81

data/examples/shorturls/scrape_shorturls.rb CHANGED Viewed

@@ -1,16 +1,19 @@
 #!/usr/bin/env ruby
-$: << File.dirname(__FILE__)+'/../../lib'; $: << File.dirname(__FILE__)
+$: << File.dirname(__FILE__)+'/../../lib'; $: << File.dirname(__FILE__); $: << File.dirname(__FILE__)+'/../../../graphiterb/lib'
 require 'rubygems'
 require 'wukong'
 require 'monkeyshines'
+require 'configliere'
 #
 require 'shorturl_request'
 require 'shorturl_sequence'
+require 'shorturl_stats'
 require 'monkeyshines/utils/uri'
 require 'monkeyshines/utils/filename_pattern'
 require 'monkeyshines/store/conditional_store'
 require 'monkeyshines/fetcher/http_head_fetcher'
-require 'trollop' # gem install trollop
+require 'graphiterb' # needs graphiterb - simple ruby interface for graphite
+# require 'trollop' # gem install trollop
 # ===========================================================================
 #
@@ -26,39 +29,74 @@ require 'trollop' # gem install trollop
 #       --base-url="http://tinyurl.com" --min-limit= --max-limit= --encoding_radix=
 #
 #
-opts = Trollop::options do
-  opt :base_url,       "Host part of URL: eg tinyurl.com",             :type => String, :required => true
-  opt :log,            "Log file name; leave blank to use STDERR",     :type => String
-  # input from file
-  opt :from,           "Location of URLs to scrape",                   :type => String
-  opt :skip,           "Initial lines to skip",                        :type => Integer
-  # OR do a random walk
-  opt :random,         "Generate and visit random URL suffixes"
-  opt :min_limit,      "Smallest sequential URL to randomly visit",    :type => Integer # default in shorturl_sequence.rb
-  opt :max_limit,      "Largest sequential URL to randomly visit",     :type => Integer # default in shorturl_sequence.rb
-  opt :encoding_radix, "36 for most, 62 if URLs are case-sensitive",   :type => Integer, :default => 36
-  # output storage
-  opt :cache_loc,      "URI for cache server",                         :type => String
-  opt :chunk_time,     "Frequency to rotate chunk files (in seconds)", :type => Integer, :default => 60*60*4
-  opt :dest_dir,       "Filename base for output, def /data/ripd",     :type => String,  :default => '/data/ripd'
-  opt :dest_pattern,   "Pattern for dump file output",                 :default => ":dest_dir/:handle_prefix/:handle/:date/:handle+:timestamp-:pid.tsv"
-end
-handle = opts[:base_url].gsub(/\.com$/,'').gsub(/\W+/,'')
+Configliere.use :commandline, :config_file, :define
+Settings.read 'shorturls.yaml' #~/.configliere/shorturls.yaml
+Settings.define :base_url,     :description => "Host part of URL: eg tinyurl.com", :type => String, :required => true
+# Settings.define :log,          :description => "Log file name; leave blank to use STDERR", :type => String
+Settings.define :log_time,     :description => "Log time interval, in seconds, for periodic logger and Graphite logger", :type => Integer, :default => 60
+Settings.define :log_iters,    :description => "Log iteration interval for periodic logger and Graphite logger", :type => Integer, :default => 10000
+# input from file
+Settings.define :file_from,    :description => "Location of URLs to scrape", :type => String
+Settings.define :file_skip,    :description => "Initial lines to skip", :type => Integer
+# OR do a random walk
+Settings.define :random,       :description => "Generate and visit random URL suffixes"
+Settings.define :random_min,   :description => "Smallest sequential URL to randomly visit",    :type => Integer # default in shorturl_sequence.rb
+Settings.define :random_max,   :description => "Largest sequential URL to randomly visit",     :type => Integer # default in shorturl_sequence.rb
+Settings.define :random_radix, :description => "36 for most, 62 if URLs are case-sensitive",   :type => Integer, :default => 36
+# output storage
+Settings.define :cache_loc,      :description => "URI for cache server",                         :type => String
+Settings.define :chunk_time,     :description => "Frequency to rotate chunk files (in seconds)", :type => Integer, :default => 60*60*4
+Settings.define :rootdir,        :description => "Filename base for output, def /data/ripd",     :type => String,  :default => '/data/ripd/shorturls'
+Settings.define :dest_pattern,   :description => "Pattern for dump file output",                 :default => ":rootdir/:date/:handle+:timestamp-:pid.tsv"
+Settings.resolve!
+Log = Logger.new($stderr) unless defined?(Log)
+# Removed trollop optioning, added in configliere instead
+# opts = Trollop::options do
+#   opt :base_url,       "Host part of URL: eg tinyurl.com",             :type => String, :required => true
+#   opt :log,            "Log file name; leave blank to use STDERR",     :type => String
+#   # input from file
+#   opt :from,           "Location of URLs to scrape",                   :type => String
+#   opt :skip,           "Initial lines to skip",                        :type => Integer
+#   # OR do a random walk
+#   opt :random,         "Generate and visit random URL suffixes"
+#   opt :min_limit,      "Smallest sequential URL to randomly visit",    :type => Integer # default in shorturl_sequence.rb
+#   opt :max_limit,      "Largest sequential URL to randomly visit",     :type => Integer # default in shorturl_sequence.rb
+#   opt :encoding_radix, "36 for most, 62 if URLs are case-sensitive",   :type => Integer, :default => 36
+#   # output storage
+#   opt :cache_loc,      "URI for cache server",                         :type => String
+#   opt :chunk_time,     "Frequency to rotate chunk files (in seconds)", :type => Integer, :default => 60*60*4
+#   opt :rootdir,       "Filename base for output, def /data/ripd",     :type => String,  :default => '/data/ripd'
+#   opt :dest_pattern,   "Pattern for dump file output",                 :default => ":rootdir/:handle_prefix/:handle/:date/:handle+:timestamp-:pid.tsv"
+# end
+handle = Settings.base_url.gsub(/\.com$/,'').gsub(/\W+/,'')
+hostname ||= `hostname`.chomp.gsub(".","_")
+#
 # ******************** Log ********************
-opts[:log] = (WORK_DIR+"/log/shorturls_#{handle}-#{Time.now.to_flat}.log") if (opts[:log]=='')
-periodic_log = Monkeyshines::Monitor::PeriodicLogger.new(:iters => 10000, :time => 30)
+#
+# (I don't think the log file name ever gets used)
+# Settings.log = (WORK_DIR+"/log/shorturls_#{handle}-#{Time.now.to_flat}.log") if (Settings.log=='')
+periodic_log = Monkeyshines::Monitor::PeriodicLogger.new(:iters => Settings.log_iters, :time => Settings.log_time)
+#
+# ******************** Graphite Sender ***********************
+#
+graphite_sender = Graphiterb::GraphiteLogger.new(:iters => Settings.log_iters, :time => Settings.log_time)
 #
 # ******************** Load from store or random walk ********************
 #
-if opts[:from]
-  src_store = Monkeyshines::Store::FlatFileStore.new_from_command_line(opts, :filemode => 'r')
-  src_store.skip!(opts[:skip].to_i) if opts[:skip]
-elsif opts[:random]
+if Settings.file_from
+  # Settings.filename = Settings.file_from
+  src_store = Monkeyshines::Store::FlatFileStore.new(:filename => Settings.file_from, :skip => Settings.file_skip.to_i) # + {:filemode => 'r'}
+  # src_store.skip!(Settings.file_skip.to_i) if Settings.file_skip
+elsif Settings.random
   src_store = Monkeyshines::Store::RandomUrlStream.new_from_command_line(opts)
 else
-  Trollop::die "Need to either say --random or --from=filename"
+  Settings.die "Need to either say --random or --file_from=filename"
 end
 #
@@ -67,30 +105,37 @@ end
 # Track visited URLs with key-value database
 #
 RDB_PORTS  = { 'tinyurl' => "localhost:10042", 'bitly' => "localhost:10043", 'other' => "localhost:10044" }
-cache_loc  = opts[:cache_loc] || RDB_PORTS[handle] or raise "Need a handle (bitly, tinyurl or other)."
-dest_cache = Monkeyshines::Store::TyrantRdbKeyStore.new(cache_loc)
+cache_loc  = Settings.cache_loc || RDB_PORTS[handle] or raise "Need a handle (bitly, tinyurl or other)."
+dest_cache = Monkeyshines::Store::TyrantRdbKeyStore.new(:uri => cache_loc)
 # dest_cache = Monkeyshines::Store::MultiplexShorturlCache.new(RDB_PORTS)
 #
 # Store the data into flat files
 #
-dest_pattern = Monkeyshines::Utils::FilenamePattern.new(opts[:dest_pattern],
-  :handle => 'shorturl-'+handle, :dest_dir => opts[:dest_dir])
-dest_files   = Monkeyshines::Store::ChunkedFlatFileStore.new(dest_pattern,
-  opts[:chunk_time].to_i, opts)
+dest_pattern = Monkeyshines::Utils::FilenamePattern.new(Settings.dest_pattern,
+  :handle => 'shorturl-'+handle, :rootdir => Settings.rootdir)
+dest_files   = Monkeyshines::Store::ChunkedFlatFileStore.new(:pattern => Settings.dest_pattern,
+  :chunk_time => Settings.chunk_time.to_i, :handle => 'shorturl-'+handle, :rootdir => Settings.rootdir)
 #
 # Conditional store uses the key-value DB to boss around the flat files --
 # requests are only made (and thus data is only output) if the url is missing
 # from the key-value store.
 #
-dest_store = Monkeyshines::Store::ConditionalStore.new(dest_cache, dest_files)
+dest_store = Monkeyshines::Store::ConditionalStore.new(:cache => dest_cache, :store => dest_files)
 #
 # ******************** Fetcher ********************
 #
 fetcher = Monkeyshines::Fetcher::HttpHeadFetcher.new
+#
+# ******************** Success/Fail stats ********************
+#
+stats = ShorturlStats.new(0,0,0,0)
 #
 # ******************** Do this thing ********************
 #
@@ -104,9 +149,18 @@ src_store.each do |bareurl, *args|
   result = dest_store.set( req.url ) do
     response = fetcher.get(req)                             # do the url fetch
     next unless response.response_code || response.contents # don't store bad fetches
+    stats.code_sort(response.response_code)                 # count successes (301) and failures (404)
     [response.scraped_at, response]                         # timestamp into cache, result into flat file
   end
-  periodic_log.periodically{ ["%7d"%dest_store.misses, 'misses', dest_store.size, req.response_code, result, req.url] }
+  periodic_log.periodically{ ["%7d"%stats.success_tot, 'successes', "%7d"%stats.failure_tot, 'failures', dest_store.size, req.response_code, result, req.url] }
+  graphite_sender.periodically do |metrics, iter, since|
+    rates = stats.rates_inst
+    metrics << ["scraper.#{hostname}.shorturl.#{handle}.success_rate", rates[0]]
+    metrics << ["scraper.#{hostname}.shorturl.#{handle}.failure_rate", rates[1]]
+    metrics << ["scraper.#{hostname}.shorturl.#{handle}.success_tot_rate", stats.rates_tot[0]]
+    metrics << ["scraper.#{hostname}.shorturl.#{handle}.failure_tot_rate", stats.rates_tot[1]]
+    metrics << ["scraper.#{hostname}.shorturl.#{handle}.current_file_size", dest_files.size]
+  end
 end
 dest_store.close
 fetcher.close

data/examples/shorturls/shorturl_stats.rb ADDED Viewed

@@ -0,0 +1,37 @@
+class ShorturlStats < Struct.new(
+    :success_tot,
+    :failure_tot,
+    :success_last,
+    :fail_last
+    )
+  def code_sort code
+    case code.to_s
+    when /4\d{2}/
+      self.failure_tot += 1
+      self.fail_last += 1
+    when /3\d{2}/
+      self.success_tot += 1
+      self.success_last += 1
+    else
+      Log.warn "Code #{code} not included in stats."
+    end
+  end
+  def rates_inst
+    return [0,0] if (self.success_last.to_f + self.fail_last.to_f) == 0
+    s_rate = (self.success_last.to_f)/(self.success_last.to_f + self.fail_last.to_f)
+    f_rate = (self.fail_last.to_f)/(self.success_last.to_f + self.fail_last.to_f)
+    self.success_last = 0
+    self.fail_last = 0
+    [s_rate,f_rate]
+  end
+  def rates_tot
+    return [0,0] if (self.success_tot.to_f + self.failure_tot.to_f) == 0
+    st_rate = (self.success_tot.to_f)/(self.success_tot.to_f + self.failure_tot.to_f)
+    ft_rate = (self.failure_tot.to_f)/(self.success_tot.to_f + self.failure_tot.to_f)
+    [st_rate,ft_rate]
+  end
+end

data/examples/shorturls/split_short_urls.rb ADDED Viewed

@@ -0,0 +1,21 @@
+#!/usr/bin/env ruby
+WORK_DIR = '/data/rawd/social/networks/twitter_friends/tokens_by_month/'
+OTHER_SHORTURL_RE =
+%r{.*(http://(?:1link.in|4url.cc|6url.com|adjix.com|ad.vu|bellypath.com|bkite.com|budurl.com|canurl.com|chod.sk|cli.gs|decenturl.com|dn.vc|doiop.com|dwarfurl.com|easyuri.com|easyurl.net|ff.im|go2cut.com|gonext.org|hulu.com|hypem.com|ifood.tv|ilix.in|is.gd|ix.it|jdem.cz|jijr.com|kissa.be|kurl.us|litturl.com|lnkurl.com|memurl.com|metamark.net|miklos.dk|minilien.com|minurl.org|muhlink.com|myurl.in|myurl.us|notlong.com|ow.ly|plexp.com|poprl.com|qurlyq.com|redirx.com|s3nt.com|shorterlink.com|shortlinks.co.uk|short.to|shorturl.com|shrinklink.co.uk|shrinkurl.us|shrt.st|shurl.net|simurl.com|shorl.com|smarturl.eu|snipr.com|snipurl.com|snurl.com|sn.vc|starturl.com|surl.co.uk|tighturl.com|timesurl.at|tiny123.com|tiny.cc|tinylink.com|tobtr.com|traceurl.com|tr.im|tweetburner.com|twitpwr.com|twitthis.com|twurl.nl|u.mavrev.com|ur1.ca|url9.com|urlborg.com|urlbrief.com|urlcover.com|urlcut.com|urlhawk.com|url-press.com|urlsmash.com|urltea.com|urlvi.be|vimeo.com|wlink.us|xaddr.com|xil.in|xrl.us|x.se|xs.md|yatuc.com|yep.it|yweb.com|zi.ma|w3t.org)/.+)}
+bitly_file = File.open('/home/doncarlo/shorturls/shorturls_bitly','w')
+tinyurl_file = File.open('/home/doncarlo/shorturls/shorturls_tinyurl','w')
+otherurl_file = File.open('/home/doncarlo/shorturls/shorturls_other','w')
+File.open(WORK_DIR + 'urls_by_month-20091111.tsv').each do |line|
+  line.chomp!
+  url = line.split("\t")[-1]
+  bitly_file << $1 + "\n" if url =~ %r{.*(http://bit.ly/.+)}
+  tinyurl_file << $1 + "\n" if url =~ %r{.*(http://tinyurl.com/.+)}
+  otherurl_file << $1 + "\n" if url =~ OTHER_SHORTURL_RE
+end

data/lib/monkeyshines/fetcher/authed_http_fetcher.rb CHANGED Viewed

@@ -1,25 +1,137 @@
 require 'net/http'
+require 'oauth'
 Net::HTTP.version_1_2
 module Monkeyshines
   module Fetcher
     #
-    class AuthedHttpFetcher
-      cattr_accessor :auth_params
+    class AuthedHttpFetcher < HttpFetcher
+      attr_accessor :auth_params, :oauth_token, :oauth_secret, :consumer_key, :consumer_secret, :site, :authorize_path
+      #
+      # All the stuff below was copied from http://github.com/moomerman/twitter_oauth in the client.rb file
+      #
+      # def initialize(options = {})
+      #   @consumer_key = options[:consumer_key]
+      #   @consumer_secret = options[:consumer_secret]
+      #   @token = options[:token]
+      #   @secret = options[:secret]
+      # end
+      #
+      # def authorize(token, secret, options = {})
+      #   request_token = OAuth::RequestToken.new(
+      #     consumer, token, secret
+      #   )
+      #   @access_token = request_token.get_access_token(options)
+      #   @token = @access_token.token
+      #   @secret = @access_token.secret
+      #   @access_token
+      # end
+      #
+      # def show(username)
+      #   get("/users/show/#{username}.json")
+      # end
+      #
+      # # Returns the string "ok" in the requested format with a 200 OK HTTP status code.
+      # def test
+      #   get("/help/test.json")
+      # end
+      #
+      # def request_token(options={})
+      #   consumer.get_request_token(options)
+      # end
+      #
+      # def authentication_request_token(options={})
+      #   consumer.options[:authorize_path] = '/oauth/authenticate'
+      #   request_token(options)
+      # end
+      #
+      # private
+      #
+      #   def consumer
+      #     @consumer ||= OAuth::Consumer.new(
+      #       @consumer_key,
+      #       @consumer_secret,
+      #       { :site => "http://api.twitter.com" }
+      #     )
+      #   end
+      #
+      #   def access_token
+      #     @access_token ||= OAuth::AccessToken.new(consumer, @token, @secret)
+      #   end
+      #
+      #   def get(path, headers={})
+      #     headers.merge!("User-Agent" => "twitter_oauth gem v#{TwitterOAuth::VERSION}")
+      #     oauth_response = access_token.get("/1#{path}", headers)
+      #     JSON.parse(oauth_response.body)
+      #   end
+      #
+      #   def post(path, body='', headers={})
+      #     headers.merge!("User-Agent" => "twitter_oauth gem v#{TwitterOAuth::VERSION}")
+      #     oauth_response = access_token.post("/1#{path}", body, headers)
+      #     JSON.parse(oauth_response.body)
+      #   end
+      #
+      #   def delete(path, headers={})
+      #     headers.merge!("User-Agent" => "twitter_oauth gem v#{TwitterOAuth::VERSION}")
+      #     oauth_response = access_token.delete("/1#{path}", headers)
+      #     JSON.parse(oauth_response.body)
+      #   end
-      def get_request_token
+      def initialize _options={}
+        super _options
+        # These should get called by calling super, right?
+        # self.username = options[:username]
+        # self.password = options[:password]
+        # self.http_req_options = {}
+        # self.http_req_options["User-Agent"] = options[:user_agent] || USER_AGENT
+        # self.http_req_options["Connection"] = "keep-alive"
+        self.oauth_token = options[:oauth_token]
+        self.oauth_secret = options[:oauth_token_secret]
+        self.consumer_key = options[:consumer_key]
+        self.consumer_secret = options[:consumer_secret]
+        self.site = options[:site]
+        self.authorize_path = options[:authorize_path]
+      end
+      def request_token(options={})
+        consumer.options[:authorize_path] = @authorize_path
+        consumer.get_request_token(options)
       end
-      def authorize
+      def authorize(token, secret, options = {})
+        request_token = OAuth::RequestToken.new(
+          consumer, token, secret
+        )
+        @access_token = request_token.get_access_token(options)
+        @token = @access_token.token
+        @secret = @access_token.secret
+        @access_token
       end
       def get_access_token
       end
-      def api_key
+      def oauth_token
+        @oauth_token
+      end
+      def oauth_secret
+        @oauth_secret
+      end
+      def consumer
+        @consumer ||= OAuth::Consumer.new(
+          @consumer_key,
+          @consumer_secret,
+          { :site => @site }
+        )
       end
-      def api_secret
+      def access_token
+        @access_token ||= OAuth::AccessToken.new(consumer, @token, @secret)
       end
       def session_key
       end

data/lib/monkeyshines/fetcher/http_fetcher.rb CHANGED Viewed

@@ -82,17 +82,18 @@ module Monkeyshines
         # Response-based sleep time
         sleep_time = 0
         case response
-        when Net::HTTPSuccess             then return          # 2xx
-        when Net::HTTPRedirection         then return          # 3xx
-        when Net::HTTPBadRequest          then sleep_time =  5 # 400 (rate limit, probably)
-        when Net::HTTPUnauthorized        then sleep_time =  0 # 401 (protected user, probably)
-        when Net::HTTPForbidden           then sleep_time =  4 # 403 update limit
-        when Net::HTTPNotFound            then sleep_time =  0 # 404 deleted
-        when Net::HTTPServiceUnavailable  then sleep_time = 15 # 503 Fail Whale
-        when Net::HTTPServerError         then sleep_time =  2 # 5xx All other server errors
+        when Net::HTTPSuccess             then return           # 2xx
+        when Net::HTTPRedirection         then return           # 3xx
+        when Net::HTTPBadRequest          then sleep_time =  10 # 400 (rate limit, probably)
+        when Net::HTTPUnauthorized        then sleep_time =  0  # 401 (protected user, probably)
+        when Net::HTTPForbidden           then sleep_time =  10 # 403 update limit
+        when Net::HTTPNotFound            then sleep_time =  0  # 404 deleted or suspended
+        when Net::HTTPServiceUnavailable  then sleep_time =  10 # 503 Fail Whale
+        when Net::HTTPServerError         then sleep_time =  2  # 5xx All other server errors
         else                              sleep_time = 1
         end
-        Log.warn "Received #{response.code}, sleeping #{sleep_time} ('#{response.message[0..200].gsub(%r{[\r\n\t]}, " ")}' from #{@host}+#{@connection_opened_at})"
+        sleep_time += response['retry-after'].to_i rescue 0
+        Log.warn "Received #{response.code} and retry-after #{response['retry-after']}, sleeping #{sleep_time} ('#{response.message[0..200].gsub(%r{[\r\n\t]}, " ")}' from #{@host}+#{@connection_opened_at}): '#{response.body[0..200].gsub(%r{[\r\n\t]}, " ")}'"
         sleep sleep_time
       end

data/lib/monkeyshines/monitor/periodic_logger.rb CHANGED Viewed

@@ -24,7 +24,8 @@ module Monkeyshines
       #
       def periodically &block
         super do
-          result = [ "%10d"%iter, "%7.1f"%since, "%7.1f"%rate, (block ? block.call : nil) ].flatten.compact
+          now = Time.now.utc.to_f
+          result = [ "%10d"%iter, "%7.1f"%since, "%7.1f"%inst_rate(now), (block ? block.call : nil) ].flatten.compact
           Log.info result.join("\t")
         end
       end

data/lib/monkeyshines/monitor/periodic_monitor.rb CHANGED Viewed

@@ -18,12 +18,13 @@ module Monkeyshines
     #
     class PeriodicMonitor
       attr_accessor :time_interval, :iter_interval
-      attr_accessor :last_time, :iter, :started_at
+      attr_accessor :last_time, :current_iter, :iter, :started_at
       def initialize options={}
         self.started_at    = Time.now.utc.to_f
         self.last_time     = started_at
         self.iter          = 0
+        self.current_iter  = 0
         self.time_interval = options[:time]
         self.iter_interval = options[:iters]
       end
@@ -42,10 +43,14 @@ module Monkeyshines
       def since
         Time.now.utc.to_f - started_at
       end
-      # Iterations per second
+      # Overall iterations per second
       def rate
         iter.to_f / since.to_f
       end
+      # "Instantaneous" iterations per second
+      def inst_rate now
+        current_iter.to_f / (now-last_time).to_f
+      end
       #
       # if the interval conditions are met, executes block; otherwise just does
@@ -53,10 +58,12 @@ module Monkeyshines
       #
       def periodically &block
         self.iter += 1
+        self.current_iter += 1
         now       = Time.now.utc.to_f
         if enough_iterations? || enough_time?(now)
           block.call(iter, (now-last_time))
           self.last_time = now
+          self.current_iter = 0
         end
       end
     end

data/lib/monkeyshines/options.rb CHANGED Viewed

@@ -1,3 +1,5 @@
+require 'yaml'
+require 'monkeyshines/runner_core/options'
 require 'monkeyshines/utils/trollop'
 module Monkeyshines

data/lib/monkeyshines/runner.rb CHANGED Viewed

@@ -142,6 +142,7 @@ module Monkeyshines
     def setup_main_log
       unless options[:log][:dest].blank?
         log_file = "%s/log/%s" % [WORK_DIR, options[:log][:dest]]
+        require 'fileutils'
         FileUtils.mkdir_p(File.dirname(log_file))
         $stdout = $stderr = File.open( log_file+"-console.log", "a" )
       end

data/lib/monkeyshines/store/flat_file_store.rb CHANGED Viewed

@@ -67,6 +67,12 @@ module Monkeyshines
         file << obj.to_flat.join("\t")+"\n"
         obj
       end
+      # returns the size of the current file
+      def size
+        return 0 if !@file
+        File.size(filename)
+      end
       def set key, *args, &block
         tok, obj = block.call

data/lib/monkeyshines/store/tyrant_rdb_key_store.rb CHANGED Viewed

@@ -12,13 +12,14 @@ module Monkeyshines
       def initialize options
         raise "URI for #{self.class} is required" if options[:uri].blank?
         self.db_host, self.db_port = options[:uri].to_s.split(':')
+        self.db_host.gsub!(/^(localhost|127\.0\.0\.1)$/,'')
         super options
       end
       def db
         return @db if @db
         @db ||= TokyoTyrant::RDB.new
-        @db.open(db_host, db_port) or raise("Can't open DB #{db_host}:#{db_port}. Pass in host:port' #{@db.ecode}: #{@db.errmsg(@db.ecode)}")
+        @db.open(db_host, db_port) or raise("Can't open DB at host #{db_host} port #{db_port}. Pass in host:port' #{@db.ecode}: #{@db.errmsg(@db.ecode)}")
         @db
       end

data/lib/monkeyshines/utils/filename_pattern.rb CHANGED Viewed

@@ -75,7 +75,7 @@ module Monkeyshines
       # Memoized: the hostname for the machine running this script.
       def hostname
-        @hostname ||= ENV['HOSTNAME'] || `hostname`
+        @hostname ||= ENV['HOSTNAME'] || `hostname`.delete("\n")
       end
       # Memoized: the Process ID for this invocation.
       def pid

metadata CHANGED Viewed

@@ -1,7 +1,13 @@
 --- !ruby/object:Gem::Specification
 name: monkeyshines
 version: !ruby/object:Gem::Version
-  version: 0.2.1
+  hash: 19
+  prerelease: false
+  segments:
+  - 0
+  - 2
+  - 2
+  version: 0.2.2
 platform: ruby
 authors:
 - Philip (flip) Kromer
@@ -9,39 +15,51 @@ autorequire:
 bindir: bin
 cert_chain: []
-date: 2009-11-02 00:00:00 -06:00
+date: 2010-07-15 00:00:00 +00:00
 default_executable:
 dependencies:
 - !ruby/object:Gem::Dependency
   name: addressable
-  type: :runtime
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
+  prerelease: false
+  requirement: &id001 !ruby/object:Gem::Requirement
+    none: false
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
+        hash: 3
+        segments:
+        - 0
         version: "0"
-    version:
+  type: :runtime
+  version_requirements: *id001
 - !ruby/object:Gem::Dependency
   name: uuid
-  type: :runtime
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
+  prerelease: false
+  requirement: &id002 !ruby/object:Gem::Requirement
+    none: false
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
+        hash: 3
+        segments:
+        - 0
         version: "0"
-    version:
+  type: :runtime
+  version_requirements: *id002
 - !ruby/object:Gem::Dependency
   name: wukong
-  type: :runtime
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
+  prerelease: false
+  requirement: &id003 !ruby/object:Gem::Requirement
+    none: false
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
+        hash: 3
+        segments:
+        - 0
         version: "0"
-    version:
+  type: :runtime
+  version_requirements: *id003
 description: A simple scraper for directed scrapes of APIs, feed or structured HTML. Plays nicely with wuclan and wukong.
 email: flip@infochimps.org
 executables: []
@@ -64,12 +82,12 @@ files:
 - examples/shorturls/bulkload_shorturls.rb
 - examples/shorturls/extract_urls.rb
 - examples/shorturls/multiplex_shorturl_cache.rb
-- examples/shorturls/old/multidump_and_fix_shorturls.rb
-- examples/shorturls/old/shorturl_stats.rb
 - examples/shorturls/scrape_shorturls.rb
 - examples/shorturls/shorturl_request.rb
 - examples/shorturls/shorturl_sequence.rb
 - examples/shorturls/shorturl_start_tyrant.sh
+- examples/shorturls/shorturl_stats.rb
+- examples/shorturls/split_short_urls.rb
 - examples/shorturls/start_shorturl_cache.sh
 - lib/monkeyshines.rb
 - lib/monkeyshines/extensions.rb
@@ -139,37 +157,43 @@ rdoc_options:
 require_paths:
 - lib
 required_ruby_version: !ruby/object:Gem::Requirement
+  none: false
   requirements:
   - - ">="
     - !ruby/object:Gem::Version
+      hash: 3
+      segments:
+      - 0
       version: "0"
-  version:
 required_rubygems_version: !ruby/object:Gem::Requirement
+  none: false
   requirements:
   - - ">="
     - !ruby/object:Gem::Version
+      hash: 3
+      segments:
+      - 0
       version: "0"
-  version:
 requirements: []
 rubyforge_project:
-rubygems_version: 1.3.5
+rubygems_version: 1.3.7
 signing_key:
 specification_version: 3
 summary: A simple scraper for directed scrapes of APIs, feed or structured HTML.
 test_files:
 - spec/monkeyshines_spec.rb
 - spec/spec_helper.rb
-- examples/bulk_urls/scrape_bulk_urls.rb
-- examples/rename_tree/rename_hdp_tree.rb
-- examples/rename_tree/rename_ripd_tree.rb
-- examples/rss_feeds/scrape_rss_feeds.rb
-- examples/shorturls/bulkdump_shorturls.rb
-- examples/shorturls/bulkload_shorturls.rb
-- examples/shorturls/extract_urls.rb
+- examples/shorturls/shorturl_stats.rb
+- examples/shorturls/shorturl_request.rb
 - examples/shorturls/multiplex_shorturl_cache.rb
-- examples/shorturls/old/multidump_and_fix_shorturls.rb
-- examples/shorturls/old/shorturl_stats.rb
+- examples/shorturls/bulkload_shorturls.rb
 - examples/shorturls/scrape_shorturls.rb
-- examples/shorturls/shorturl_request.rb
+- examples/shorturls/extract_urls.rb
+- examples/shorturls/bulkdump_shorturls.rb
 - examples/shorturls/shorturl_sequence.rb
+- examples/shorturls/split_short_urls.rb
+- examples/rename_tree/rename_hdp_tree.rb
+- examples/rename_tree/rename_ripd_tree.rb
+- examples/rss_feeds/scrape_rss_feeds.rb
+- examples/bulk_urls/scrape_bulk_urls.rb

data/examples/shorturls/old/multidump_and_fix_shorturls.rb DELETED Viewed

@@ -1,66 +0,0 @@
-#!/usr/bin/env ruby
-$: << File.dirname(__FILE__)+'/../../lib'; $: << File.dirname(__FILE__)
-require 'rubygems'
-require 'trollop'
-require 'wukong'
-require 'monkeyshines'
-require 'shorturl_request'
-require 'shorturl_sequence'
-require 'monkeyshines/utils/uri'
-#
-# Command line options
-#
-opts = Trollop::options do
-  opt :from_type,    'Class name for scrape store to load from',  :type => String
-  opt :from,         'URI for scrape store to load from',  :type => String
-  opt :into,         'Filename for flat TSV dump', :type => String
-  opt :log,          'File to store log', :type => String
-end
-Trollop::die :from_type unless opts[:from_type]
-# ******************** Read From ********************
-src_store_klass = Wukong.class_from_resource('Monkeyshines::Store::'+opts[:from_type])
-src_store = src_store_klass.new(opts[:from])
-Log.info "Loaded store with #{src_store.size}"
-# ******************** Write into ********************
-DUMPFILE_BASE = opts[:into]
-def make_store uri
-  Monkeyshines::Store::FlatFileStore.new "#{DUMPFILE_BASE+"-"+uri}.tsv", :filemode => 'w'
-end
-dests = { }
-[ 'tinyurl', 'bitly', 'other'
-].each do |handle|
-  dests[handle] = make_store handle
-end
-# ******************** Log ********************
-periodic_log = Monkeyshines::Monitor::PeriodicLogger.new(:iters => 20_000, :time => 30)
-# ******************** Cross Load ********************
-# Read , process, dump
-iter = 0
-src_store.each do |key, hsh|
-  hsh['contents']             ||= hsh.delete 'expanded_url'
-  hsh['response_code']          = nil if hsh['response_code']    == 'nil'
-  hsh['contents']               = nil if hsh['contents']         == 'nil'
-  unless hsh['contents'] || hsh['response_code']
-    # Log.info "removing #{hsh.inspect}"
-    src_store.db.out(key)
-    next
-  end
-  hsh['response_message']       = nil if hsh['response_message'] == 'nil'
-  hsh['url']                  ||= hsh.delete 'short_url'
-  req = ShorturlRequest.from_hash hsh
-  periodic_log.periodically{ [src_store.size, req.to_flat] }
-  req.contents = Addressable::URI.scrub_url req.contents if req.contents
-  case
-  when (key =~ %r{^http://tinyurl.com/(.*)}) then dests['tinyurl'].save req
-  when (key =~ %r{^http://bit.ly/(.*)})      then dests['bitly'  ].save req
-  else                                            dests['other'  ].save req
-  end
-  # src_store.save(key, req.to_hash.compact)
-end

data/examples/shorturls/old/shorturl_stats.rb DELETED Viewed

@@ -1,81 +0,0 @@
-#!/usr/bin/env ruby
-$: << File.dirname(__FILE__)+'/../../lib'; $: << File.dirname(__FILE__)
-#require 'rubygems'
-# require 'wukong'
-require 'monkeyshines'
-# require 'monkeyshines/utils/uri'
-# require 'monkeyshines/utils/filename_pattern'
-# require 'monkeyshines/store/conditional_store'
-# require 'monkeyshines/fetcher/http_head_fetcher'
-# require 'trollop' # gem install trollop
-# require 'shorturl_request'
-require 'shorturl_sequence'
-digits = { } ; (('0'..'9').to_a+('a'..'z').to_a).each do |ch| digits[ch] = 0 end
-# (1..10000).each do |idx|
-#   s = ShorturlSequence.encode_integer idx, 36
-#   digits[s[0..0]] += 1
-# end
-# p digits
-# puts digits.sort.map{|ch,ct| "%-7s\t%10d"%[ch,ct]}
-class Histo
-  attr_accessor :buckets
-  def initialize
-    self.buckets = { }
-  end
-  def << val
-    buckets[val] ||= 0
-    buckets[val]  += 1
-  end
-  def dump
-    buckets.sort.each do |val, count|
-      puts "%10d\t%s"%[count,val]
-    end
-  end
-end
-len_histo = Histo.new
-num_histo = Histo.new
-ltr_histo = Histo.new
-iter = 0
-# 123456789-123456789-
-# http://bit.ly/
-# http://tinyurl.com/
-BASE_URL     = "http://is.gd/"
-RADIX        = 62
-HANDLE       = BASE_URL.gsub(%r{^http://},'').gsub(/\.com$/,'').gsub(/\W+/,'')
-BASE_URL_LEN = BASE_URL.length
-MAX_TAIL_LEN = BASE_URL_LEN + 2 + 6
-SIX_CHARS    = RADIX**6
-File.open("rawd/req/shorturl_requests-20090710-#{HANDLE}.tsv"
-  ) do |reqfile|
-  reqfile.each do |url|
-    #decode
-    next unless url.length <= MAX_TAIL_LEN
-    tail = url.chomp.strip[BASE_URL_LEN..-1] || ''
-    # tail.downcase!
-    asnum = ShorturlSequence.decode_str tail, RADIX rescue nil  # tail.to_i(36) rescue -1
-    next unless asnum && asnum < SIX_CHARS
-    size = (asnum / 1_000_000)
-    len  = tail.length
-    # track stats
-    len_histo << len
-    num_histo << size
-    ltr_histo << "%s-%s" % [len, tail[0..0]] #  + (len > 1 ? '.'* (len-1) : '')
-    puts iter if ((iter += 1) % 1_000_000 == 0)
-  end
-end
-puts "Integer magnitude of decoded (M):"
-num_histo.dump
-puts "Length of encoded:"
-len_histo.dump
-puts "First Letter:"
-ltr_histo.dump
-# puts tail.length # [tail.length, tail, tail[-1].to_i].join("\t")
-# puts [asnum, tail, url].inspect