RubyGems - twitter_ebooks - Versions diffs - 2.0.0 - Mend

twitter_ebooks 2.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (24) hide show

data/.gitignore +1 -0
data/Gemfile +4 -0
data/Gemfile.lock +78 -0
data/NOTES.md +4 -0
data/README.md +20 -0
data/bin/ebooks +83 -0
data/data/adjectives.txt +1466 -0
data/data/nouns.txt +2193 -0
data/data/stopwords.txt +639 -0
data/lib/twitter_ebooks/archiver.rb +86 -0
data/lib/twitter_ebooks/bot.rb +145 -0
data/lib/twitter_ebooks/markov.rb +89 -0
data/lib/twitter_ebooks/model.rb +147 -0
data/lib/twitter_ebooks/nlp.rb +142 -0
data/lib/twitter_ebooks/version.rb +3 -0
data/lib/twitter_ebooks.rb +20 -0
data/skeleton/Procfile +1 -0
data/skeleton/bots.rb +47 -0
data/skeleton/corpus/README.md +1 -0
data/skeleton/model/README.md +1 -0
data/test/corpus/0xabad1dea.tweets +14696 -0
data/test/tokenize.rb +18 -0
data/twitter_ebooks.gemspec +30 -0
metadata +247 -0

data/.gitignore ADDED Viewed

	@@ -0,0 +1 @@
1	+ .*.swp

data/Gemfile ADDED Viewed

@@ -0,0 +1,4 @@
+source 'https://rubygems.org'
+# Specify your gem's dependencies in libtcod.gemspec
+gemspec

data/Gemfile.lock ADDED Viewed

@@ -0,0 +1,78 @@
+PATH
+  remote: .
+  specs:
+    twitter_ebooks (2.0.0)
+      engtagger
+      gingerice
+      htmlentities
+      linguistics
+      ruby-stemmer
+      rufus-scheduler
+      tactful_tokenizer
+      tokenizer
+      tweetstream
+      twitter
+GEM
+  remote: https://rubygems.org/
+  specs:
+    addressable (2.3.5)
+    atomic (1.1.14)
+    awesome_print (1.2.0)
+    cookiejar (0.3.0)
+    daemons (1.1.9)
+    em-http-request (1.0.3)
+      addressable (>= 2.2.3)
+      cookiejar
+      em-socksify
+      eventmachine (>= 1.0.0.beta.4)
+      http_parser.rb (>= 0.5.3)
+    em-socksify (0.3.0)
+      eventmachine (>= 1.0.0.beta.4)
+    em-twitter (0.2.2)
+      eventmachine (~> 1.0)
+      http_parser.rb (~> 0.5)
+      simple_oauth (~> 0.1)
+    engtagger (0.1.2)
+    eventmachine (1.0.3)
+    faraday (0.8.8)
+      multipart-post (~> 1.2.0)
+    gingerice (1.2.1)
+      addressable
+      awesome_print
+    htmlentities (4.3.1)
+    http_parser.rb (0.5.3)
+    linguistics (2.0.2)
+      loggability (~> 0.5)
+    loggability (0.8.1)
+    minitest (5.0.8)
+    multi_json (1.8.2)
+    multipart-post (1.2.0)
+    ruby-stemmer (0.9.3)
+    rufus-scheduler (3.0.2)
+      tzinfo
+    simple_oauth (0.2.0)
+    tactful_tokenizer (0.0.2)
+    thread_safe (0.1.3)
+      atomic
+    tokenizer (0.1.1)
+    tweetstream (2.5.0)
+      daemons (~> 1.1)
+      em-http-request (~> 1.0.2)
+      em-twitter (~> 0.2)
+      twitter (~> 4.5)
+      yajl-ruby (~> 1.1)
+    twitter (4.8.1)
+      faraday (~> 0.8, < 0.10)
+      multi_json (~> 1.0)
+      simple_oauth (~> 0.2)
+    tzinfo (1.1.0)
+      thread_safe (~> 0.1)
+    yajl-ruby (1.1.0)
+PLATFORMS
+  ruby
+DEPENDENCIES
+  minitest
+  twitter_ebooks!

data/NOTES.md ADDED Viewed

@@ -0,0 +1,4 @@
+- Files in text/ are preprocessed by `rake consume` and serialized
+- e.g. text/foo.tweets becomes consumed/foo.corpus
+- `rake consume` looks at hashes to know which it needs to update
+- Preprocessed corpus files are loaded at runtime by Corpus.load('foo')

data/README.md ADDED Viewed

@@ -0,0 +1,20 @@
+# twitter\_ebooks 2.0.0
+Complete rewrite of twitter\_ebooks. Allows context-sensitive responsive bots via the Twitter streaming API, along with higher-quality tokenization and ngram modeling.
+## Installation
+```bash
+gem install twitter_ebooks
+```
+## Making a bot
+twitter\_ebooks uses a Rails-like skeleton app generator. Let's say we want to make a revolutionary Marxist bot based on the writings of Leon Trotsky (who doesn't?):
+```bash
+ebooks new trotsky_ebooks
+cd trotsky_ebooks
+```

data/bin/ebooks ADDED Viewed

@@ -0,0 +1,83 @@
+#!/usr/bin/env ruby
+require 'twitter_ebooks'
+module Ebooks
+  APP_PATH = Dir.pwd # XXX do some recursive thing instead
+  def self.new(target)
+    usage = "Usage: ebooks new <reponame>"
+    if target.nil?
+      log usage
+      exit
+    end
+    target = "./#{reponame}"
+    if File.exists?(target)
+      log "#{target} already exists. Please remove if you want to recreate."
+      exit
+    end
+    FileUtils.cp_r(SKELETON_PATH, target)
+    File.open(File.join(target, 'bots.rb'), 'w') do |f|
+      template = File.read(File.join(SKELETON_PATH, 'bots.rb'))
+      f.write(template.gsub("{{BOT_NAME}}", reponame))
+    end
+    log "New twitter_ebooks app created at #{target}"
+  end
+  def self.consume(path)
+    filename = File.basename(path)
+    shortname = filename.split('.')[0..-2].join('.')
+    hash = Digest::MD5.hexdigest(File.read(path))
+    log "Consuming text corpus: #{filename}"
+    outpath = File.join(APP_PATH, 'model', "#{shortname}.model")
+    Model.consume(path).save(outpath)
+    log "Corpus consumed"
+  end
+  def self.gen(model_path, input)
+    require 'benchmark'
+    model = nil;
+    puts Benchmark.measure {
+      model = Model.load(model_path)
+    }
+    if input && !input.empty?
+      puts "@cmd " + model.markov_response(input, 135)
+    else
+      puts model.markov_statement
+    end
+  end
+  def self.archive(username, outpath)
+    Archiver.new(username, outpath).fetch_tweets
+  end
+  def self.command(args)
+    usage = """Usage:
+     ebooks new <reponame>
+     ebooks consume <corpus_path>
+     ebooks gen <model> [input]
+     ebooks archive <@user> <outpath>
+"""
+    if args.length == 0
+      log usage
+      exit
+    end
+    case args[0]
+    when "new" then new(args[1])
+    when "consume" then consume(args[1])
+    when "gen" then gen(args[1], args[2..-1].join(' '))
+    when "archive" then archive(args[1], args[2])
+    end
+  end
+end
+Ebooks.command(ARGV)