RubyGems - elastic-mapreduce - Versions diffs - 0.0.1 - Mend

elastic-mapreduce 0.0.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (60) hide show

data/CHANGELOG +51 -0
data/Gemfile +13 -0
data/Gemfile.lock +16 -0
data/LICENSE.txt +393 -0
data/NOTICE.txt +26 -0
data/README +1007 -0
data/Rakefile +35 -0
data/VERSION +1 -0
data/bin/elastic-mapreduce +27 -0
data/cacert.pem +280 -0
data/elastic-mapreduce.gemspec +104 -0
data/lib/amazon/aws/exceptions.rb +211 -0
data/lib/amazon/coral/awsquery.rb +128 -0
data/lib/amazon/coral/awsquerychainhelper.rb +92 -0
data/lib/amazon/coral/awsqueryhandler.rb +170 -0
data/lib/amazon/coral/awsqueryurihandler.rb +34 -0
data/lib/amazon/coral/call.rb +68 -0
data/lib/amazon/coral/dispatcher.rb +33 -0
data/lib/amazon/coral/ec2client.rb +91 -0
data/lib/amazon/coral/elasticmapreduceclient.rb +198 -0
data/lib/amazon/coral/handler.rb +20 -0
data/lib/amazon/coral/httpdelegationhelper.rb +27 -0
data/lib/amazon/coral/httpdestinationhandler.rb +36 -0
data/lib/amazon/coral/httphandler.rb +124 -0
data/lib/amazon/coral/identityhandler.rb +32 -0
data/lib/amazon/coral/job.rb +25 -0
data/lib/amazon/coral/logfactory.rb +35 -0
data/lib/amazon/coral/option.rb +70 -0
data/lib/amazon/coral/orchestrator.rb +49 -0
data/lib/amazon/coral/querystringmap.rb +93 -0
data/lib/amazon/coral/service.rb +130 -0
data/lib/amazon/coral/simplelog.rb +98 -0
data/lib/amazon/coral/urlencoding.rb +19 -0
data/lib/amazon/coral/v0signaturehandler.rb +33 -0
data/lib/amazon/coral/v0signaturehelper.rb +83 -0
data/lib/amazon/coral/v1signaturehandler.rb +32 -0
data/lib/amazon/coral/v1signaturehelper.rb +58 -0
data/lib/amazon/coral/v2signaturehandler.rb +46 -0
data/lib/amazon/coral/v2signaturehelper.rb +76 -0
data/lib/amazon/retry_delegator.rb +66 -0
data/lib/amazon/stderr_logger.rb +23 -0
data/lib/client.rb +117 -0
data/lib/commands.rb +1690 -0
data/lib/credentials.rb +86 -0
data/lib/ec2_client_wrapper.rb +73 -0
data/lib/json/lexer.rb +294 -0
data/lib/json/objects.rb +200 -0
data/lib/json.rb +58 -0
data/lib/simple_executor.rb +11 -0
data/lib/simple_logger.rb +38 -0
data/lib/uuidtools/version.rb +32 -0
data/lib/uuidtools.rb +655 -0
data/run_tests.rb +8 -0
data/samples/freebase/code/freebase_jobflow.json +44 -0
data/samples/similarity/lastfm_jobflow.json +78 -0
data/samples/wordSplitter.py +18 -0
data/tests/commands_test.rb +587 -0
data/tests/credentials.json +7 -0
data/tests/example.json +14 -0
metadata +154 -0

data/samples/freebase/code/freebase_jobflow.json ADDED Viewed

@@ -0,0 +1,44 @@
+[
+  {
+    "Name": "MR Step 1: What are the most popular Freebase IDs?",
+    "ActionOnFailure": "TERMINATE_JOB_FLOW",
+    "HadoopJarStep": {
+      "Jar": "/home/hadoop/contrib/streaming/hadoop-0.18-streaming.jar",
+      "Args": [
+         "-input",     "s3n://elasticmapreduce/samples/freebase/input/",
+         "-output",    "s3n://<bucket>/freebase/step1out/",
+         "-mapper",    "s3n://elasticmapreduce/samples/freebase/code/mapper.py"
+      ]
+    }
+  },
+  {
+    "Name": "MR Step 2: Publish top occurences into SimpleDB",
+    "ActionOnFailure": "TERMINATE_JOB_FLOW",
+    "HadoopJarStep": {
+      "Jar": "/home/hadoop/contrib/streaming/hadoop-0.18-streaming.jar",
+      "Args": [
+         "-input",     "s3n://<bucket>/freebase/step1out/",
+         "-output",    "s3n://<bucket>/freebase/step2out/",
+         "-mapper",    "s3n://elasticmapreduce/samples/freebase/code/top_sdb_mapper.rb",
+         "-reducer",   "s3n://elasticmapreduce/samples/freebase/code/top_sdb_reducer.rb",
+         "-cacheFile", "s3n://elasticmapreduce/samples/freebase/code/base64.rb#base64.rb",
+         "-cacheFile", "s3n://elasticmapreduce/samples/freebase/code/aws_sdb.rb#aws_sdb.rb"
+      ]
+    }
+  },
+  {
+    "Name": "MR Step 3: Publish the names into SimpleDB",
+    "ActionOnFailure": "TERMINATE_JOB_FLOW",
+    "HadoopJarStep": {
+      "Jar": "/home/hadoop/contrib/streaming/hadoop-0.18-streaming.jar",
+      "Args": [
+         "-input",     "s3n://elasticmapreduce/samples/freebase/input/",
+         "-output",    "s3n://<bucket>/freebase/names/step1",
+         "-mapper",    "s3n://elasticmapreduce/samples/freebase/code/name_mapper.rb",
+         "-reducer",   "s3n://elasticmapreduce/samples/freebase/code/name_reducer.rb",
+         "-cacheFile", "s3n://elasticmapreduce/samples/freebase/code/base64.rb#base64.rb",
+         "-cacheFile", "s3n://elasticmapreduce/samples/freebase/code/aws_sdb.rb#aws_sdb.rb"
+      ]
+    }
+  }
+]

data/samples/similarity/lastfm_jobflow.json ADDED Viewed

@@ -0,0 +1,78 @@
+[
+  {
+    "Name": "MR Step 1: Count number of ratings for each item, use single reducer",
+    "ActionOnFailure": "TERMINATE_JOB_FLOW",
+    "HadoopJarStep": {
+      "Jar": "/home/hadoop/contrib/streaming/hadoop-0.18-streaming.jar",
+      "Args": [
+         "-input",     "s3n://elasticmapreduce/samples/similarity/lastfm/input/",
+         "-output",    "s3n://<bucket>/lastfm/item-counts/",
+         "-mapper",    "python similarity.py mapper1",
+         "-reducer",   "python similarity.py reducer1",
+         "-cacheFile", "s3n://elasticmapreduce/samples/similarity/similarity.py#similarity.py",
+         "-jobconf",   "mapred.map.tasks=36",
+         "-jobconf",   "mapred.reduce.tasks=1",
+         "-jobconf", "mapred.compress.map.output=true"
+      ]
+    }
+  },
+  {
+    "Name": "MR Step 2: Generate sorted item postings with KeyFieldBasedPartitioner",
+    "ActionOnFailure": "TERMINATE_JOB_FLOW",
+    "HadoopJarStep": {
+      "Jar": "/home/hadoop/contrib/streaming/hadoop-0.18-streaming.jar",
+      "Args": [
+         "-input",     "s3n://elasticmapreduce/samples/similarity/lastfm/input/",
+         "-output",    "hdfs:///home/hadoop/output2/",
+         "-mapper",    "python similarity.py mapper2 log",
+         "-reducer",   "python similarity.py reducer2",
+         "-cacheFile", "s3n://elasticmapreduce/samples/similarity/similarity.py#similarity.py",
+         "-jobconf",   "mapred.map.tasks=36",
+         "-jobconf",   "mapred.reduce.tasks=18",
+         "-partitioner", "org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner",
+         "-jobconf", "map.output.key.field.separator=,",
+         "-jobconf", "num.key.fields.for.partition=1",
+         "-jobconf", "mapred.compress.map.output=true"
+      ]
+    }
+  },
+  {
+    "Name": "MR Step 3: Item Similarity using Random Sampling & Distributed Cache",
+    "ActionOnFailure": "TERMINATE_JOB_FLOW",
+    "HadoopJarStep": {
+      "Jar": "/home/hadoop/contrib/streaming/hadoop-0.18-streaming.jar",
+      "Args": [
+         "-input",     "hdfs:///home/hadoop/output2/",
+         "-output",    "hdfs:///home/hadoop/output3/",
+         "-mapper",    "python similarity.py mapper3 90 item_rating_counts.txt",
+         "-reducer",   "python similarity.py reducer3 147160",
+         "-cacheFile", "s3n://elasticmapreduce/samples/similarity/similarity.py#similarity.py",
+         "-cacheFile",    "s3n://<bucket>/lastfm/item-counts/part-00000#item_rating_counts.txt",
+         "-jobconf",   "mapred.map.tasks=36",
+         "-jobconf",   "mapred.reduce.tasks=18",
+         "-jobconf", "mapred.compress.map.output=true"
+      ]
+    }
+  },
+  {
+    "Name": "MR Step 4: For each item, emit K=25 most similar items with KeyFieldBasedPartitioner",
+    "ActionOnFailure": "TERMINATE_JOB_FLOW",
+    "HadoopJarStep": {
+      "Jar": "/home/hadoop/contrib/streaming/hadoop-0.18-streaming.jar",
+      "Args": [
+         "-input",     "hdfs:///home/hadoop/output3/",
+         "-output",    "s3n://<bucket>/lastfm/output-large-50/",
+         "-mapper",    "python similarity.py mapper4 5",
+         "-reducer",   "python similarity.py reducer4 25 artist_data.txt",
+         "-cacheFile",    "s3n://elasticmapreduce/samples/similarity/lastfm/artist_data.txt#artist_data.txt",
+         "-cacheFile", "s3n://elasticmapreduce/samples/similarity/similarity.py#similarity.py",
+         "-jobconf",   "mapred.map.tasks=36",
+         "-jobconf",   "mapred.reduce.tasks=18",
+         "-partitioner", "org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner",
+         "-jobconf", "map.output.key.field.separator=,",
+         "-jobconf", "num.key.fields.for.partition=1",
+         "-jobconf", "mapred.compress.map.output=true"
+      ]
+    }
+  }
+]

data/samples/wordSplitter.py ADDED Viewed

@@ -0,0 +1,18 @@
+#!/usr/bin/python
+import sys
+import re
+def main(argv):
+  line = sys.stdin.readline()
+  pattern = re.compile("[a-zA-Z][a-zA-Z0-9]*")
+  try:
+    while line:
+      for word in pattern.findall(line):
+        print "LongValueSum:" + word.lower() + "\t" + "1"
+      line = sys.stdin.readline()
+  except "end of file":
+    return None
+if __name__ == "__main__":
+  main(sys.argv)