RubyGems - twitter_ebooks - Versions diffs - 2.0.0 - Mend

twitter_ebooks 2.0.0

Files changed (24) hide show

data/.gitignore +1 -0
data/Gemfile +4 -0
data/Gemfile.lock +78 -0
data/NOTES.md +4 -0
data/README.md +20 -0
data/bin/ebooks +83 -0
data/data/adjectives.txt +1466 -0
data/data/nouns.txt +2193 -0
data/data/stopwords.txt +639 -0
data/lib/twitter_ebooks/archiver.rb +86 -0
data/lib/twitter_ebooks/bot.rb +145 -0
data/lib/twitter_ebooks/markov.rb +89 -0
data/lib/twitter_ebooks/model.rb +147 -0
data/lib/twitter_ebooks/nlp.rb +142 -0
data/lib/twitter_ebooks/version.rb +3 -0
data/lib/twitter_ebooks.rb +20 -0
data/skeleton/Procfile +1 -0
data/skeleton/bots.rb +47 -0
data/skeleton/corpus/README.md +1 -0
data/skeleton/model/README.md +1 -0
data/test/corpus/0xabad1dea.tweets +14696 -0
data/test/tokenize.rb +18 -0
data/twitter_ebooks.gemspec +30 -0
metadata +247 -0

data/.gitignore ADDED Viewed

	@@ -0,0 +1 @@
1	+ .*.swp

data/Gemfile ADDED Viewed

@@ -0,0 +1,4 @@
+source 'https://rubygems.org'
+# Specify your gem's dependencies in libtcod.gemspec
+gemspec

data/Gemfile.lock ADDED Viewed

@@ -0,0 +1,78 @@
+PATH
+  remote: .
+  specs:
+    twitter_ebooks (2.0.0)
+      engtagger
+      gingerice
+      htmlentities
+      linguistics
+      ruby-stemmer
+      rufus-scheduler
+      tactful_tokenizer
+      tokenizer
+      tweetstream
+      twitter
+GEM
+  remote: https://rubygems.org/
+  specs:
+    addressable (2.3.5)
+    atomic (1.1.14)
+    awesome_print (1.2.0)
+    cookiejar (0.3.0)
+    daemons (1.1.9)
+    em-http-request (1.0.3)
+      addressable (>= 2.2.3)
+      cookiejar
+      em-socksify
+      eventmachine (>= 1.0.0.beta.4)
+      http_parser.rb (>= 0.5.3)
+    em-socksify (0.3.0)
+      eventmachine (>= 1.0.0.beta.4)
+    em-twitter (0.2.2)
+      eventmachine (~> 1.0)
+      http_parser.rb (~> 0.5)
+      simple_oauth (~> 0.1)
+    engtagger (0.1.2)
+    eventmachine (1.0.3)
+    faraday (0.8.8)
+      multipart-post (~> 1.2.0)
+    gingerice (1.2.1)
+      addressable
+      awesome_print
+    htmlentities (4.3.1)
+    http_parser.rb (0.5.3)
+    linguistics (2.0.2)
+      loggability (~> 0.5)
+    loggability (0.8.1)
+    minitest (5.0.8)
+    multi_json (1.8.2)
+    multipart-post (1.2.0)
+    ruby-stemmer (0.9.3)
+    rufus-scheduler (3.0.2)
+      tzinfo
+    simple_oauth (0.2.0)
+    tactful_tokenizer (0.0.2)
+    thread_safe (0.1.3)
+      atomic
+    tokenizer (0.1.1)
+    tweetstream (2.5.0)
+      daemons (~> 1.1)
+      em-http-request (~> 1.0.2)
+      em-twitter (~> 0.2)
+      twitter (~> 4.5)
+      yajl-ruby (~> 1.1)
+    twitter (4.8.1)
+      faraday (~> 0.8, < 0.10)
+      multi_json (~> 1.0)
+      simple_oauth (~> 0.2)
+    tzinfo (1.1.0)
+      thread_safe (~> 0.1)
+    yajl-ruby (1.1.0)
+PLATFORMS
+  ruby
+DEPENDENCIES
+  minitest
+  twitter_ebooks!

data/NOTES.md ADDED Viewed

@@ -0,0 +1,4 @@
+- Files in text/ are preprocessed by `rake consume` and serialized
+- e.g. text/foo.tweets becomes consumed/foo.corpus
+- `rake consume` looks at hashes to know which it needs to update
+- Preprocessed corpus files are loaded at runtime by Corpus.load('foo')

data/README.md ADDED Viewed

@@ -0,0 +1,20 @@
+# twitter\_ebooks 2.0.0
+Complete rewrite of twitter\_ebooks. Allows context-sensitive responsive bots via the Twitter streaming API, along with higher-quality tokenization and ngram modeling.
+## Installation
+```bash
+gem install twitter_ebooks
+```
+## Making a bot
+twitter\_ebooks uses a Rails-like skeleton app generator. Let's say we want to make a revolutionary Marxist bot based on the writings of Leon Trotsky (who doesn't?):
+```bash
+ebooks new trotsky_ebooks
+cd trotsky_ebooks
+```

data/bin/ebooks ADDED Viewed

@@ -0,0 +1,83 @@
+#!/usr/bin/env ruby
+require 'twitter_ebooks'
+module Ebooks
+  APP_PATH = Dir.pwd # XXX do some recursive thing instead
+  def self.new(target)
+    usage = "Usage: ebooks new <reponame>"
+    if target.nil?
+      log usage
+      exit
+    end
+    target = "./#{reponame}"
+    if File.exists?(target)
+      log "#{target} already exists. Please remove if you want to recreate."
+      exit
+    end
+    FileUtils.cp_r(SKELETON_PATH, target)
+    File.open(File.join(target, 'bots.rb'), 'w') do |f|
+      template = File.read(File.join(SKELETON_PATH, 'bots.rb'))
+      f.write(template.gsub("{{BOT_NAME}}", reponame))
+    end
+    log "New twitter_ebooks app created at #{target}"
+  end
+  def self.consume(path)
+    filename = File.basename(path)
+    shortname = filename.split('.')[0..-2].join('.')
+    hash = Digest::MD5.hexdigest(File.read(path))
+    log "Consuming text corpus: #{filename}"
+    outpath = File.join(APP_PATH, 'model', "#{shortname}.model")
+    Model.consume(path).save(outpath)
+    log "Corpus consumed"
+  end
+  def self.gen(model_path, input)
+    require 'benchmark'
+    model = nil;
+    puts Benchmark.measure {
+      model = Model.load(model_path)
+    }
+    if input && !input.empty?
+      puts "@cmd " + model.markov_response(input, 135)
+    else
+      puts model.markov_statement
+    end
+  end
+  def self.archive(username, outpath)
+    Archiver.new(username, outpath).fetch_tweets
+  end
+  def self.command(args)
+    usage = """Usage:
+     ebooks new <reponame>
+     ebooks consume <corpus_path>
+     ebooks gen <model> [input]
+     ebooks archive <@user> <outpath>
+"""
+    if args.length == 0
+      log usage
+      exit
+    end
+    case args[0]
+    when "new" then new(args[1])
+    when "consume" then consume(args[1])
+    when "gen" then gen(args[1], args[2..-1].join(' '))
+    when "archive" then archive(args[1], args[2])
+    end
+  end
+end
+Ebooks.command(ARGV)