RubyGems - ul-wukong - Versions diffs - 4.1.0 - Mend

ul-wukong 4.1.0

Files changed (261) hide show

checksums.yaml +15 -0
data/.gitignore +60 -0
data/.gitmodules +6 -0
data/.rspec +2 -0
data/.travis.yml +19 -0
data/.yardopts +6 -0
data/CHANGELOG.md +7 -0
data/Gemfile +17 -0
data/Guardfile +12 -0
data/LICENSE.md +95 -0
data/NOTES-travis.md +31 -0
data/README-old.md +422 -0
data/README.md +1308 -0
data/Rakefile +28 -0
data/TODO.md +99 -0
data/bin/cutc +30 -0
data/bin/cuttab +5 -0
data/bin/greptrue +6 -0
data/bin/md5sort +20 -0
data/bin/setcat +11 -0
data/bin/tabchar +5 -0
data/bin/uniq-ord +59 -0
data/bin/uniqc +3 -0
data/bin/wu +34 -0
data/bin/wu-clean-encoding +31 -0
data/bin/wu-date +13 -0
data/bin/wu-datetime +13 -0
data/bin/wu-hist +3 -0
data/bin/wu-lign +186 -0
data/bin/wu-local +4 -0
data/bin/wu-plus +9 -0
data/bin/wu-source +5 -0
data/bin/wu-sum +31 -0
data/diagrams/wu_local.dot +39 -0
data/diagrams/wu_local.dot.png +0 -0
data/examples/Gemfile +38 -0
data/examples/README.md +9 -0
data/examples/basic/string_reverser.rb +23 -0
data/examples/basic/tiny_count.rb +8 -0
data/examples/basic/word_count/accumulator.rb +26 -0
data/examples/basic/word_count/tokenizer.rb +13 -0
data/examples/basic/word_count/word_count.rb +6 -0
data/examples/dataflow/scraper_macro_flow.rb +28 -0
data/examples/deploy_pack/Gemfile +6 -0
data/examples/deploy_pack/README.md +6 -0
data/examples/deploy_pack/a/b/c/.gitkeep +0 -0
data/examples/deploy_pack/app/processors/string_reverser.rb +5 -0
data/examples/deploy_pack/config/environment.rb +1 -0
data/examples/dsl/dataflow/fibonacci_series.rb +101 -0
data/examples/dsl/dataflow/scraper_macro_flow.rb +28 -0
data/examples/dsl/dataflow/simple.rb +12 -0
data/examples/dsl/dataflow/telegram.rb +45 -0
data/examples/dsl/workflow/cherry_pie.dot +97 -0
data/examples/dsl/workflow/cherry_pie.md +104 -0
data/examples/dsl/workflow/cherry_pie.png +0 -0
data/examples/dsl/workflow/cherry_pie.rb +101 -0
data/examples/empty/.gitkeep +0 -0
data/examples/examples_helper.rb +9 -0
data/examples/geo.rb +4 -0
data/examples/geo/geo_grids.numbers +0 -0
data/examples/geo/geolocated.rb +331 -0
data/examples/geo/quadtile.rb +69 -0
data/examples/geo/spec/geolocated_spec.rb +247 -0
data/examples/geo/tile_fetcher.rb +77 -0
data/examples/graph/implied_geolocation/README.md +63 -0
data/examples/graph/minimum_spanning_tree/airfares_graphviz.rb +73 -0
data/examples/improver/tweet_summary.rb +73 -0
data/examples/loadable.rb +2 -0
data/examples/munging/airline_flights/airline_flights.rake +83 -0
data/examples/munging/airline_flights/airplane.rb +0 -0
data/examples/munging/airline_flights/airport_id_unification.rb +129 -0
data/examples/munging/airline_flights/airport_ok_chars.rb +4 -0
data/examples/munging/airline_flights/indexable.rb +75 -0
data/examples/munging/airline_flights/indexable_spec.rb +90 -0
data/examples/munging/airline_flights/reconcile_airports.rb +142 -0
data/examples/munging/airline_flights/tasks.rake +83 -0
data/examples/munging/airline_flights/topcities.rb +167 -0
data/examples/munging/geo/geo_json.rb +54 -0
data/examples/munging/geo/geo_models.rb +69 -0
data/examples/munging/geo/geonames_models.rb +107 -0
data/examples/munging/geo/iso_codes.rb +172 -0
data/examples/munging/geo/reconcile_countries.rb +124 -0
data/examples/munging/geo/tasks.rake +71 -0
data/examples/munging/wikipedia/articles/extract_articles-parsed.rb +79 -0
data/examples/munging/wikipedia/articles/extract_articles-templated.rb +136 -0
data/examples/munging/wikipedia/articles/textualize_articles.rb +54 -0
data/examples/munging/wikipedia/articles/verify_structure.rb +43 -0
data/examples/munging/wikipedia/articles/wp2txt-LICENSE.txt +22 -0
data/examples/munging/wikipedia/articles/wp2txt_article.rb +259 -0
data/examples/munging/wikipedia/articles/wp2txt_utils.rb +452 -0
data/examples/munging/wikipedia/dbpedia/dbpedia_common.rb +5 -0
data/examples/munging/wikipedia/dbpedia/dbpedia_extract_geocoordinates.rb +78 -0
data/examples/munging/wikipedia/dbpedia/extract_links-cruft.rb +66 -0
data/examples/munging/wikipedia/dbpedia/extract_links.rb +260 -0
data/examples/munging/wikipedia/dbpedia/sameas_extractor.rb +20 -0
data/examples/rake_helper.rb +97 -0
data/examples/ruby_project/Gemfile +6 -0
data/examples/ruby_project/README.md +6 -0
data/examples/ruby_project/a/b/c/.gitkeep +0 -0
data/examples/server_logs/geo_ip_mapping/munge_geolite.rb +82 -0
data/examples/server_logs/logline.rb +95 -0
data/examples/server_logs/models.rb +66 -0
data/examples/server_logs/page_counts.pig +48 -0
data/examples/server_logs/server_logs-01-parse-script.rb +13 -0
data/examples/server_logs/server_logs-02-histograms-full.rb +33 -0
data/examples/server_logs/server_logs-02-histograms-mapper.rb +14 -0
data/examples/server_logs/server_logs-03-breadcrumbs-full.rb +71 -0
data/examples/server_logs/server_logs-04-page_page_edges-full.rb +40 -0
data/examples/serverlogs/geo_ip_mapping/munge_geolite.rb +82 -0
data/examples/serverlogs/models/logline.rb +102 -0
data/examples/serverlogs/parser/apache_parser_widget.rb +46 -0
data/examples/serverlogs/visit_paths/common.rb +4 -0
data/examples/serverlogs/visit_paths/page_counts.pig +48 -0
data/examples/serverlogs/visit_paths/serverlogs-01-parse-script.rb +11 -0
data/examples/serverlogs/visit_paths/serverlogs-02-histograms-full.rb +31 -0
data/examples/serverlogs/visit_paths/serverlogs-02-histograms-mapper.rb +12 -0
data/examples/serverlogs/visit_paths/serverlogs-03-breadcrumbs-full.rb +67 -0
data/examples/serverlogs/visit_paths/serverlogs-04-page_page_edges-full.rb +38 -0
data/examples/splitter.rb +94 -0
data/examples/string_reverser.rb +7 -0
data/examples/text/pig_latin/pig_latinizer.rb +35 -0
data/examples/text/pig_latin/pig_latinizer_widget.rb +16 -0
data/examples/text/regional_flavor/README.md +14 -0
data/examples/text/regional_flavor/article_wordbags.pig +39 -0
data/examples/text/regional_flavor/j01-article_wordbags.rb +4 -0
data/examples/text/regional_flavor/simple_pig_script.pig +27 -0
data/examples/twitter.rb +5 -0
data/lib/hanuman.rb +36 -0
data/lib/hanuman/graph.rb +97 -0
data/lib/hanuman/graphvizzer.rb +206 -0
data/lib/hanuman/graphvizzer/gv_models.rb +161 -0
data/lib/hanuman/graphvizzer/gv_presenter.rb +97 -0
data/lib/hanuman/link.rb +35 -0
data/lib/hanuman/registry.rb +46 -0
data/lib/hanuman/stage.rb +128 -0
data/lib/hanuman/tree.rb +67 -0
data/lib/wu/geo.rb +4 -0
data/lib/wu/geo/geo_grids.numbers +0 -0
data/lib/wu/geo/geolocated.rb +331 -0
data/lib/wu/geo/quadtile.rb +69 -0
data/lib/wu/graph/union_find.rb +62 -0
data/lib/wu/model/reconcilable.rb +63 -0
data/lib/wu/munging.rb +71 -0
data/lib/wu/social/models/twitter.rb +31 -0
data/lib/wu/wikipedia/models.rb +20 -0
data/lib/wukong.rb +54 -0
data/lib/wukong/dataflow.rb +43 -0
data/lib/wukong/doc_helpers.rb +14 -0
data/lib/wukong/doc_helpers/dataflow_handler.rb +29 -0
data/lib/wukong/doc_helpers/field_handler.rb +91 -0
data/lib/wukong/doc_helpers/processor_handler.rb +29 -0
data/lib/wukong/driver.rb +214 -0
data/lib/wukong/driver/event_machine_driver.rb +15 -0
data/lib/wukong/driver/wiring.rb +68 -0
data/lib/wukong/local.rb +42 -0
data/lib/wukong/local/runner.rb +96 -0
data/lib/wukong/local/stdio_driver.rb +104 -0
data/lib/wukong/logger.rb +102 -0
data/lib/wukong/model/faker.rb +136 -0
data/lib/wukong/model/flatpack_parser/flat.rb +60 -0
data/lib/wukong/model/flatpack_parser/flatpack.rb +4 -0
data/lib/wukong/model/flatpack_parser/lang.rb +46 -0
data/lib/wukong/model/flatpack_parser/parser.rb +55 -0
data/lib/wukong/model/flatpack_parser/tokens.rb +130 -0
data/lib/wukong/plugin.rb +48 -0
data/lib/wukong/processor.rb +110 -0
data/lib/wukong/rake_helper.rb +6 -0
data/lib/wukong/runner.rb +169 -0
data/lib/wukong/runner/boot_sequence.rb +123 -0
data/lib/wukong/runner/code_loader.rb +52 -0
data/lib/wukong/runner/command_runner.rb +44 -0
data/lib/wukong/runner/deploy_pack_loader.rb +75 -0
data/lib/wukong/runner/help_message.rb +42 -0
data/lib/wukong/source.rb +33 -0
data/lib/wukong/source/source_driver.rb +74 -0
data/lib/wukong/source/source_runner.rb +38 -0
data/lib/wukong/spec_helpers.rb +74 -0
data/lib/wukong/spec_helpers/integration_tests.rb +150 -0
data/lib/wukong/spec_helpers/integration_tests/integration_test_matchers.rb +207 -0
data/lib/wukong/spec_helpers/integration_tests/integration_test_runner.rb +97 -0
data/lib/wukong/spec_helpers/shared_examples.rb +22 -0
data/lib/wukong/spec_helpers/unit_tests.rb +135 -0
data/lib/wukong/spec_helpers/unit_tests/unit_test_driver.rb +132 -0
data/lib/wukong/spec_helpers/unit_tests/unit_test_matchers.rb +169 -0
data/lib/wukong/spec_helpers/unit_tests/unit_test_runner.rb +60 -0
data/lib/wukong/version.rb +3 -0
data/lib/wukong/widget/echo.rb +55 -0
data/lib/wukong/widget/extract.rb +122 -0
data/lib/wukong/widget/filters.rb +452 -0
data/lib/wukong/widget/logger.rb +56 -0
data/lib/wukong/widget/operators.rb +82 -0
data/lib/wukong/widget/reducers.rb +10 -0
data/lib/wukong/widget/reducers/accumulator.rb +73 -0
data/lib/wukong/widget/reducers/bin.rb +368 -0
data/lib/wukong/widget/reducers/count.rb +73 -0
data/lib/wukong/widget/reducers/group.rb +128 -0
data/lib/wukong/widget/reducers/group_concat.rb +98 -0
data/lib/wukong/widget/reducers/improver.rb +71 -0
data/lib/wukong/widget/reducers/join_xml.rb +37 -0
data/lib/wukong/widget/reducers/moments.rb +72 -0
data/lib/wukong/widget/reducers/sort.rb +180 -0
data/lib/wukong/widget/reducers/uniq.rb +91 -0
data/lib/wukong/widget/serializers.rb +317 -0
data/lib/wukong/widget/utils.rb +46 -0
data/lib/wukong/widgets.rb +7 -0
data/spec/examples/dataflow/fibonacci_series_spec.rb +18 -0
data/spec/examples/dataflow/parse_apache_logs_spec.rb +8 -0
data/spec/examples/dataflow/parsing_spec.rb +14 -0
data/spec/examples/dataflow/simple_spec.rb +34 -0
data/spec/examples/dataflow/telegram_spec.rb +43 -0
data/spec/examples/graph/minimum_spanning_tree_spec.rb +34 -0
data/spec/examples/munging/airline_flights/identifiers_spec.rb +16 -0
data/spec/examples/munging/airline_flights_spec.rb +202 -0
data/spec/examples/text/pig_latin_spec.rb +18 -0
data/spec/examples/workflow/cherry_pie_spec.rb +36 -0
data/spec/hanuman/graph_spec.rb +119 -0
data/spec/hanuman/hanuman_spec.rb +10 -0
data/spec/hanuman/registry_spec.rb +123 -0
data/spec/hanuman/stage_spec.rb +81 -0
data/spec/hanuman/tree_spec.rb +119 -0
data/spec/spec.opts +1 -0
data/spec/spec_helper.rb +43 -0
data/spec/support/example_test_helpers.rb +95 -0
data/spec/support/hanuman_test_helpers.rb +92 -0
data/spec/support/integration_helper.rb +38 -0
data/spec/support/model_test_helpers.rb +115 -0
data/spec/support/shared_context_for_graphs.rb +57 -0
data/spec/support/shared_context_for_reducers.rb +37 -0
data/spec/support/shared_examples_for_builders.rb +94 -0
data/spec/support/shared_examples_for_shortcuts.rb +57 -0
data/spec/wu/model/reconcilable_spec.rb +152 -0
data/spec/wukong/dataflow_spec.rb +87 -0
data/spec/wukong/driver_spec.rb +154 -0
data/spec/wukong/local/runner_spec.rb +29 -0
data/spec/wukong/local/stdio_driver_spec.rb +73 -0
data/spec/wukong/local_spec.rb +6 -0
data/spec/wukong/logger_spec.rb +49 -0
data/spec/wukong/model/faker_spec.rb +132 -0
data/spec/wukong/processor_spec.rb +21 -0
data/spec/wukong/runner_spec.rb +132 -0
data/spec/wukong/source_spec.rb +6 -0
data/spec/wukong/widget/extract_spec.rb +101 -0
data/spec/wukong/widget/filters_spec.rb +79 -0
data/spec/wukong/widget/logger_spec.rb +23 -0
data/spec/wukong/widget/operators_spec.rb +25 -0
data/spec/wukong/widget/reducers/bin_spec.rb +92 -0
data/spec/wukong/widget/reducers/count_spec.rb +11 -0
data/spec/wukong/widget/reducers/group_spec.rb +21 -0
data/spec/wukong/widget/reducers/join_xml_spec.rb +25 -0
data/spec/wukong/widget/reducers/moments_spec.rb +36 -0
data/spec/wukong/widget/reducers/sort_spec.rb +26 -0
data/spec/wukong/widget/reducers/uniq_spec.rb +14 -0
data/spec/wukong/widget/serializers_spec.rb +114 -0
data/spec/wukong/widget/sink_spec.rb +19 -0
data/spec/wukong/widget/source_spec.rb +65 -0
data/spec/wukong/wu-local_spec.rb +109 -0
data/spec/wukong/wu-source_spec.rb +32 -0
data/spec/wukong/wu_spec.rb +14 -0
data/spec/wukong/wukong_spec.rb +10 -0
data/wukong.gemspec +35 -0
metadata +465 -0

data/examples/munging/geo/tasks.rake ADDED

@@ -0,0 +1,71 @@
+require_relative('../../rake_helper')
+Pathname.register_paths(
+  geo_data:                  [:data, 'geo'],
+  geo_work:                  [:work, 'geo'],
+  geo_code:                  File.dirname(__FILE__),
+  #
+  iso_3166:                  [:geo_data, 'iso_codes', "iso_3166.tsv"   ],
+  geonames_countries:        [:geo_data, 'geonames',  "geonames_countries.json"   ],
+  #
+  countries_json:            [:geo_work, "countries.json"   ],
+  country_name_lookup:       [:geo_work, "country_name_lookup.tsv"   ],
+  )
+chain :geo do
+  code_files = FileList[Pathname.of(:geo_code, '*.rb').to_s]
+  chain(:countries) do
+    task(:load) do
+      require_relative('./geo_models')
+      require_relative('./geo_json')
+      require_relative('./geonames_models')
+      require_relative('./iso_codes')
+      require_relative('./reconcile_countries')
+      CountryReconciler.load_reconciled_countries
+    end
+    # desc 'load the ISO 3166 countries'
+    # task(:countries_iso_3166, after: [code_files, :force]) do |dest|
+    #   require_relative('./iso_codes')
+    #   p Wukong::Data::CountryCode.for_any_name('Bolivia')
+    # end
+    # step(:geonames_countries, doc: 'load the Geonames countries',
+    #   invoke: 'geo:countries:load',
+    #   # , after: [code_files, :force]
+    #   ) do |dest|
+    #   Wukong::Data::GeonamesGeoJson.load(:geonames_countries)
+    # end
+    desc 'Add the iso_codes data to the geonames countries'
+    create_file(:countries_json, invoke: 'geo:countries:load', after: [code_files, :force]) do |dest|
+      Geo::Country.values.each do |country|
+        dest << country.to_json << "\n"
+      end
+    end
+    desc 'Add the iso_codes data to the geonames countries'
+    create_file(:country_name_lookup, invoke: 'geo:countries:load', after: [code_files, :force]) do |dest|
+      Geo::Country.values.each do |ct|
+        ct.names.each do |alt_name|
+          dest << [ct.country_id, ct.country_al3id, ct.country_numid,
+            ct.tld_id, ct.geonames_id,
+            ct.name,
+            Geo::Place.slugify_name(alt_name), alt_name
+          ].join("\t") << "\n"
+        end
+      end
+    end
+    # task(:country_name_lookup => :load) do
+    #   Geo::CountryNameLookup.load
+    # end
+  end
+end
+task :default => [
+  # 'geo:countries',
+  'geo:countries:country_name_lookup'
+]

data/examples/munging/wikipedia/articles/extract_articles-parsed.rb ADDED

@@ -0,0 +1,79 @@
+#!/usr/bin/env ruby
+# Extracts wikipedia articles from bzipped xml, outputs them in TSV.  Article
+# text is XML encoded, but all newlines and tabs (in fact, all control
+# characters) are converted to XML entities, making it safe to truck around as
+# TSV.
+#
+# Sample Pig LOAD Statement:
+#
+# all_articles = LOAD '$articles' AS
+#   (id:long, namespace:int, title:chararray, revision_timestamp:long, redirect:chararray, text:chararray);
+#
+# ## Usage
+#
+# Flattens the wikipedia 'enwiki-latest-pages-articles.xml.gz' into a
+# one-line-per-record heap.
+#
+#    examples/munging/wikipedia/articles/extract_articles-templated.rb --rm --run \
+#      /data/origin/dumps.wikimedia.org/enwiki/20120601/enwiki-20120601-pages-articles.xml
+#      /data/results/wikipedia/full/articles.json.tsv
+#
+require 'wukong'
+require 'wukong/streamer/encoding_cleaner'
+require 'crack/xml'
+require 'multi_json'
+require 'oj'
+require_relative '../utils/munging_utils.rb'
+module ArticlesExtractor
+  class Mapper < Wukong::Streamer::LineStreamer
+    include Wukong::Streamer::EncodingCleaner
+    include MungingUtils
+    def lines
+      @lines ||= []
+    end
+    def recordize line
+      lines << line
+      if line =~ /<\/page>/
+        result = Crack::XML::parse(lines.join("\n"))
+        @lines = []
+        return [result]
+      else
+        return nil
+      end
+    end
+    def process record
+      if record.has_key? 'mediawiki'
+        record = record['mediawiki']
+      end
+      redirect  = record['page']['redirect'] ? record['page']['redirect']['title'] : ''
+      timestamp = Time.iso8601(record['page']['revision']['timestamp']).to_flat
+      raw_text  = record['page']['revision']['text']
+      # some few parts per million articles have an empty body -- workaround
+      raw_text = '' if not raw_text.is_a?(String)
+      result = [
+        record['page']['id'],
+        record['page']['ns'],
+        scrub_control_chars(record['page']['title']),
+        record['page']['revision']['id'],
+        timestamp,
+        scrub_control_chars(redirect),
+        safe_json_encode(raw_text)
+      ]
+      yield result
+    end
+  end
+end
+# Force it to run in a single map task, to avoid writing a custom input format.
+# The job runs in 2 hours, once; much less than the time it'd take me to do so.
+Wukong::Script.new(ArticlesExtractor::Mapper, nil, min_split_size: 1152921504606846976).run

data/examples/munging/wikipedia/articles/extract_articles-templated.rb ADDED

@@ -0,0 +1,136 @@
+#!/usr/bin/env ruby
+# Extracts wikipedia articles from bzipped xml, outputs them in TSV.  Article
+# text is XML encoded, but all newlines and tabs (in fact, all control
+# characters) are converted to XML entities, making it safe to truck around as
+# TSV.
+# ## Schema
+#
+# Sample Pig LOAD Statement:
+#
+# all_articles = LOAD '$articles' AS
+#   (id:long, namespace:int, title:chararray, revision_timestamp:long, redirect:chararray, text:chararray);
+#
+# ## Usage
+#
+# Flattens the wikipedia 'enwiki-latest-pages-articles.xml.gz' into a
+# one-line-per-record heap.
+#
+#    examples/munging/wikipedia/articles/extract_articles-templated.rb --rm --run \
+#      /data/origin/dumps.wikimedia.org/enwiki/20120601/enwiki-20120601-pages-articles.xml
+#      /data/results/wikipedia/full/articles.tsv
+#
+require 'wukong'
+require 'wukong/streamer/encoding_cleaner'
+require 'crack/xml'
+require 'multi_json'
+require_relative '../utils/munging_utils.rb'
+# <page>
+#   <title>Anarchism</title>
+#   <ns>0</ns>
+#   <id>12</id>
+#   <revision>
+#     <id>370845941</id>
+#     <timestamp>2010-06-29T20:14:56Z</timestamp>
+#     <contributor>
+#       <username>Centographer</username>
+#       <id>12640258</id>
+#     </contributor>
+#     <minor />
+#     <comment>clarifying not ordinary anarcho-socialism</comment>
+#     <text xml:space="preserve">
+#       ...snip ...
+#     </text>
+#     <sha1>...</sha1>
+#   </revision>
+# </page>
+#
+module ArticlesExtractor
+  class Mapper < Wukong::Streamer::LineStreamer
+    include Wukong::Streamer::EncodingCleaner
+    include MungingUtils
+    def initialize(*)
+      super
+      @lines      = []
+      @state        = :out_of_article
+      @num_lines    = 0
+    end
+    # Bolt together all lines between a <page> and a </page> marker.
+    def recordize line
+      @num_lines += 1
+      return if @state == :out_of_article && (ARTICLE_BEG_RE !~ line)
+      @state = :in_article
+      #
+      @lines << line
+      if ARTICLE_END_RE =~ line
+        result   = @lines.join("\n")
+        @lines   = []
+        @state = :out_of_article
+        return   [result]
+      else
+        return nil
+      end
+    end
+    def process article
+      info = ARTICLE_RE.match(article)
+      if not info then warn "Bad match line #{@lines}: #{article.to_s[0..2000]}" ; return ; end
+      timestamp = [info[:rts_yr], info[:rts_mo], info[:rts_day], info[:rts_hr], info[:rts_min], info[:rts_sec], 'Z'].join
+      text      = Crack::XML::parse("<text>#{info[:text]}</text>")['text'] || ''
+      redirect  = info[:redirect] || ''
+      record = [
+        info[:id],
+        info[:ns],
+        scrub_control_chars(info[:title]),
+        info[:revision_id],
+        timestamp,
+        scrub_control_chars(redirect),
+        safe_json_encode(text)
+      ]
+      yield record
+    end
+  end
+  ARTICLE_BEG_RE  = %r{\A\s*<page>\z}
+  ARTICLE_END_RE  = %r{\A\s*</page>\z}
+  ARTICLE_RE = %r{\A
+\s*<page>
+\s*  <title>(?<title>[^<]*)</title>
+\s*    <ns>(?<ns>\d+)</ns>
+\s*    <id>(?<id>\d+)</id>
+\s* (?:<redirect\stitle=\"(?<redirect>[^\"]+)\"\s/>)?
+\s* (?:<restrictions>(?<restrictions>[^<]+)</restrictions>)?
+\s*    <revision>
+\s*      <id>(?<revision_id>\d+)</id>
+\s*      <timestamp>(?<rts_yr>\d\d\d\d)-(?<rts_mo>\d\d)-(?<rts_day>\d\d)T(?<rts_hr>\d\d):(?<rts_min>\d\d):(?<rts_sec>\d\d)Z</timestamp>
+\s* (?:
+          <contributor>\s*<username>[^<]+</username>\s*<id>\d+</id>\s*</contributor> |
+          <contributor>\s*<ip>[\d\.]+</ip>\s*</contributor> |
+          <contributor\sdeleted="deleted"\s/>
+    )
+\s*      (?:<minor\s/>)?
+\s*      (?:<comment>[^<]*</comment>|<comment\sdeleted="deleted"\s/>)?
+\s* (?:
+         <text\sxml:space="preserve">
+            (?<text>.*)
+         </text>
+     |
+         <text\sxml:space="preserve"\s/>
+    )
+\s*      (?:<sha1>(?<sha1>[a-z0-9]+)</sha1> | <sha1\s/>)
+\s*  </revision>
+\s*</page>\s*\z}xmo
+end
+# Force it to run in a single map task, to avoid writing a custom input format.
+# The job runs in 2 hours, once; much less than the time it'd take me to do so.
+Wukong::Script.new(ArticlesExtractor::Mapper, nil, min_split_size: 1152921504606846976).run

data/examples/munging/wikipedia/articles/textualize_articles.rb ADDED

@@ -0,0 +1,54 @@
+#!/usr/bin/env ruby
+# Generate plain-text versions of articles from the tsv-converted raw article data
+# (output from extract_articles)
+#
+# This strips out template tags, wiki links, and so forth
+#
+# Everything that's left is either actual text, or nicely detached punctuation.
+# ## Usage
+#
+# Uses the output of extract_articles-templated.rb:
+#
+#    examples/munging/wikipedia/articles/textualize_articles.rb --rm --run \
+#      /data/results/wikipedia/full/articles.json.tsv      \
+#      /data/results/wikipedia/full/article_texts.json.tsv
+#
+require 'wukong'
+require 'multi_json'
+require 'oj'
+require 'strscan'
+require 'find'
+require 'sanitize'
+#
+require_relative '../utils/munging_utils.rb'
+require_relative './wp2txt_article'
+require_relative './wp2txt_utils'
+module TextualizeArticles
+  class Mapper < Wukong::Streamer::RecordStreamer
+    include MungingUtils
+    @@errors   = 0
+    MAX_ERRORS = 1_000
+    def process(id, namespace, title, revision_id, timestamp, redirect, raw_text)
+      text          = MultiJson.decode(raw_text)
+      article       = Wp2txt::Article.new(text, title)
+      jsonized_text = MultiJson.encode(article.polish)
+      yield [id, namespace, title, revision_id, timestamp, redirect, jsonized_text]
+    rescue StandardError => err
+      Wukong.bad_record("Bad Record", err, raw_text)
+      raise "Too many errors" if (@@errors += 1) > MAX_ERRORS
+    end
+  end
+end
+Wukong::Script.new(TextualizeArticles::Mapper, nil).run

data/examples/munging/wikipedia/articles/verify_structure.rb ADDED

@@ -0,0 +1,43 @@
+# cat /mnt/data/origin/dumps.wikimedia.org/enwiki/20120601/enwiki-20120601-pages-articles.xml  | ruby -ne '$_.chomp!; case $_ when %r{\A(\s*)<redirect title="[^"]+" />\z} then puts %Q{#{$1}<redirect title=\"...\" />} when %r{\A(\s*<[^>]+>)[^<]*(</\w+>)\z} then puts "#{$1}...#{$2}" ; when %r{\A(\s*<[^>]+>)} then puts $1 ; when %r{\A[^<]*(</[\w-]+>)\z} then puts $1 else false end ' > /mnt/data/origin/dumps.wikimedia.org/enwiki/20120601/xml-tags-seen.txt &
+# cat /mnt/data/origin/dumps.wikimedia.org/enwiki/20120601/xml-tags-seen.txt | sort -S1G --temp=/mnt{,2,3,4}/tmp | uniq -c  | sort -n | tee xml-tags-census.txt
+# cat /mnt/data/origin/dumps.wikimedia.org/enwiki/20120601/xml-tags-seen.txt | sort -S1800M --temp=/mnt{2,3,4}/tmp | uniq -c  | sort -n | tee xml-tags-census.txt &
+# 609844   <page>
+# 609844     <title>...</title>
+# 609844     <ns>...</ns>
+# 609844     <id>...</id>
+#    714     <restrictions>...</restrictions>
+#
+# 251254     <redirect title="..." />
+# 609844     <revision>
+# 609844       <id>...</id>
+# 609844       <timestamp>...</timestamp>
+#
+# 609843       <contributor>
+# 548236         <username>...</username>
+#  61607         <ip>...</ip>
+# 548236         <id>...</id>
+# 609843       </contributor>
+#
+# 288319       <minor />
+# 529222       <comment>...</comment>
+#    108       <comment>
+#    108 </comment>
+#
+# 224818       <text xml:space="preserve">...</text>
+# 385019       <text xml:space="preserve">
+#      7       <text xml:space="preserve" />
+#
+# 346490       <sha1>...</sha1>
+# 263354       <sha1 />
+#
+# 609843     </revision>
+# 609843   </page>
+#
+# 384998 </text>
+#     20  </text>
+#  643676 </page>

data/examples/munging/wikipedia/articles/wp2txt-LICENSE.txt ADDED

@@ -0,0 +1,22 @@
+Copyright (c) 2012 Yoichiro Hasebe
+MIT License
+Permission is hereby granted, free of charge, to any person obtaining
+a copy of this software and associated documentation files (the
+"Software"), to deal in the Software without restriction, including
+without limitation the rights to use, copy, modify, merge, publish,
+distribute, sublicense, and/or sell copies of the Software, and to
+permit persons to whom the Software is furnished to do so, subject to
+the following conditions:
+The above copyright notice and this permission notice shall be
+included in all copies or substantial portions of the Software.
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
+EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
+MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
+NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE
+LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION
+OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION
+WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.

data/examples/munging/wikipedia/articles/wp2txt_article.rb ADDED

@@ -0,0 +1,259 @@
+#!/usr/bin/env ruby
+# -*- coding: utf-8 -*-
+# Taken from Yoichiro Yohasebe's [`wp2txt` project](https://github.com/yohasebe/wp2txt)
+# with liberal modifications for our purposes.
+#
+# This software is distributed under the MIT License. Please see the `./wp2txt-LICENSE.txt` file.
+require 'strscan'
+require_relative 'wp2txt_utils'
+module Wp2txt
+  # possible element type, which could be later chosen to print or not to print
+  # :mw_heading
+  # :mw_htable
+  # :mw_quote
+  # :mw_unordered
+  # :mw_ordered
+  # :mw_definition
+  # :mw_pre
+  # :mw_paragraph
+  # :mw_comment
+  # :mw_math
+  # :mw_source
+  # :mw_inputbox
+  # :mw_template
+  # :mw_link
+  # :mw_summary
+  # :mw_blank
+  # :mw_redirect
+  # an article contains elements, each of which is [TYPE, string]
+  class Article
+    include Wp2txt
+    attr_accessor :elements, :title
+    # class varialbes to save resource for generating regexps
+    # those with a trailing number 1 represent opening tag/markup
+    # those with a trailing number 2 represent closing tag/markup
+    # those without a trailing number contain both opening/closing tags/markups
+    @@in_template_regex = Regexp.new('^\s*\{\{[^\}]+\}\}\s*$')
+    @@in_link_regex = Regexp.new('^\s*\[.*\]\s*$')
+    @@in_inputbox_regex  = Regexp.new('<inputbox>.*?<\/inputbox>')
+    @@in_inputbox_regex1  = Regexp.new('<inputbox>')
+    @@in_inputbox_regex2  = Regexp.new('<\/inputbox>')
+    @@in_source_regex  = Regexp.new('<source.*?>.*?<\/source>')
+    @@in_source_regex1  = Regexp.new('<source.*?>')
+    @@in_source_regex2  = Regexp.new('<\/source>')
+    @@in_math_regex  = Regexp.new('<math.*?>.*?<\/math>')
+    @@in_math_regex1  = Regexp.new('<math.*?>')
+    @@in_math_regex2  = Regexp.new('<\/math>')
+    @@in_heading_regex  = Regexp.new('^=+.*?=+$')
+    @@in_html_table_regex = Regexp.new('<table.*?><\/table>')
+    @@in_html_table_regex1 = Regexp.new('<table\b')
+    @@in_html_table_regex2 = Regexp.new('<\/\s*table>')
+    @@in_table_regex1 = Regexp.new('^\s*\{\|')
+    @@in_table_regex2 = Regexp.new('^\|\}.*?$')
+    @@in_unordered_regex  = Regexp.new('^\*')
+    @@in_ordered_regex    = Regexp.new('^\#')
+    @@in_pre_regex = Regexp.new('^ ')
+    @@in_definition_regex  = Regexp.new('^[\;\:]')
+    @@blank_line_regex = Regexp.new('^\s*$')
+    @@redirect_regex = Regexp.new('#(?:REDIRECT|転送)\s+\[\[(.+)\]\]', Regexp::IGNORECASE)
+    def initialize(text, title = "", strip_tmarker = false)
+      @title = title.strip
+      @strip_tmarker = strip_tmarker
+      parse text
+    end
+    def create_element(tp, text)
+      [tp, text]
+    end
+    def parse(source)
+      self.class.remove_comments(source)
+      @elements = []
+      mode = nil
+      open_stack  = []
+      close_stack = []
+      source.each_line do |line|
+        case mode
+        when :mw_table
+          if @@in_table_regex2 =~ line
+            mode = nil
+          end
+          @elements.last.last << line
+          next
+        when :mw_inputbox
+          if @@in_inputbox_regex2 =~ line
+            mode = nil
+          end
+          @elements.last.last << line
+          next
+        when :mw_source
+          if @@in_source_regex2 =~ line
+            mode = nil
+          end
+          @elements.last.last << line
+          next
+        when :mw_math
+          if @@in_math_regex2 =~ line
+            mode = nil
+          end
+          @elements.last.last << line
+          next
+        when :mw_htable
+          if @@in_html_table_regex2 =~ line
+            mode = nil
+          end
+          @elements.last.last << line
+          next
+        end
+        case line
+        when @@blank_line_regex
+          @elements << create_element(:mw_blank, "\n")
+        when @@redirect_regex
+          @elements << create_element(:mw_redirect, line)
+        when @@in_template_regex
+          @elements << create_element(:mw_template, line)
+        when @@in_heading_regex
+          @elements << create_element(:mw_heading, "\n" + line + "\n")
+        when @@in_inputbox_regex
+          @elements << create_element(:mw_inputbox, line)
+        when @@in_inputbox_regex1
+          mode = :mw_inputbox
+          @elements << create_element(:mw_inputbox, line)
+        when @@in_source_regex
+        @elements << create_element(:mw_source, line)
+        when @@in_source_regex1
+          mode = :mw_source
+          @elements << create_element(:mw_source, line)
+        when @@in_math_regex
+          @elements << create_element(:mw_math, line)
+        when @@in_math_regex1
+          mode = :mw_math
+          @elements << create_element(:mw_math, line)
+        when @@in_html_table_regex
+          @elements << create_element(:mw_htable, line)
+        when @@in_html_table_regex1
+          mode = :mw_htable
+          @elements << create_element(:mw_htable, line)
+        when @@in_table_regex1
+          mode = :mw_table
+          @elements << create_element(:mw_table, line)
+        when @@in_unordered_regex
+          line = line.sub(/\A[\*\#\;\:\ ]+/, "") if @strip_tmarker
+          @elements << create_element(:mw_unordered, line)
+        when @@in_ordered_regex
+          line = line.sub(/\A[\*\#\;\:\ ]+/, "") if @strip_tmarker
+          @elements << create_element(:mw_ordered, line)
+        when @@in_pre_regex
+          line = line.sub(/\A\^\ /, "") if @strip_tmarker
+          @elements << create_element(:mw_pre, line)
+        when @@in_definition_regex
+          line = line.sub(/\A[\;\:\ ]+/, "") if @strip_tmarker
+          @elements << create_element(:mw_definition, line)
+        when @@in_link_regex
+          @elements << create_element(:mw_link, line)
+        else
+          @elements << create_element(:mw_paragraph, line)
+        end
+      end
+      @elements
+    end
+    def self.remove_comments(text)
+      # remove all comment texts
+      # and insert as many number of new line chars included in
+      # each comment instead
+      text.gsub!(/\<\!\-\-(.*?)\-\-\>/m) do |content|
+        num_of_newlines = content.count("\n")
+        (num_of_newlines == 0) ? "" : ("\n" * num_of_newlines)
+      end
+    end
+    EXCLUDE_SECTIONS = {
+      mw_title:      false,
+      mw_heading:    false,
+      mw_paragraph:  false,
+      mw_link:       false,
+      mw_redirect:   false,
+      #
+      mw_pre:        false,
+      mw_quote:      false,
+      mw_unordered:  false,
+      mw_ordered:    false,
+      mw_definition: false,
+      #
+      mw_table:      true,
+      mw_htable:     true,
+      mw_blank:      true,
+      mw_math:       true,
+      mw_source:     true,
+      mw_template:   true,
+    }
+    def polish
+      contents = []
+      elements.each do |el_type, element|
+        contents << "+#{el_type.to_s.upcase}+\t" if $DEBUG_MODE
+        next if EXCLUDE_SECTIONS[el_type]
+        #
+        case el_type
+        when :mw_heading            then contents << format_wiki(element)
+        when :mw_paragraph          then contents << format_wiki(element)
+        when :mw_link               then contents << format_wiki(element)
+        when :mw_redirect           then contents << format_wiki(element) << "\n\n"
+        when :mw_pre                then contents << element
+        when :mw_quote              then contents << format_wiki(element)
+        when :mw_unordered          then contents << format_wiki(element)
+        when :mw_ordered            then contents << format_wiki(element)
+        when :mw_definition         then contents << format_wiki(element)
+        when :mw_table, :mw_htable  then contents << format_wiki(element)
+        when :mw_math, :mw_source   then contents << format_wiki(element)
+        when :mw_blank              then contents << format_wiki(element)
+        else
+          warn "Unknown section #{el_type}, content '#{element.to_s.gsub(/[\r\n]+/m,'')[0..200]}'"
+          contents << format_wiki(element)
+        end
+      end
+      text = contents.join
+      # Extract text from <b>..</b> and so forth; remove contents of <ref>...</ref> completely
+      text = clean_html(text)
+      # translate some recognizable special characters
+      text = special_chr(text)
+      # re-hang the no-wiki segments
+      unescape_nowiki(text)
+      # strip out templates. Several parts per million of these will fail for
+      # bad structure; I assume that means some parts per thousand will be
+      # mis-estimated. C'est la UGC.
+      text = remove_templates(text) if EXCLUDE_SECTIONS[:mw_template]
+      return '' if /\A\s*\z/m =~ text
+      #
+      result = EXCLUDE_SECTIONS[:mw_title] ? "" : "# #{format_wiki(title)}\n\n"
+      result << text
+      result.gsub!(/\n\n\n+/m){"\n\n"}
+      result << "\n"
+      result
+    end
+  end
+end