RubyGems - mediaarts_scraper - Versions diffs - 0.0.0 - Mend

mediaarts_scraper 0.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (29) hide show

checksums.yaml +7 -0
data/.gitignore +10 -0
data/Gemfile +5 -0
data/LICENSE +21 -0
data/README.md +92 -0
data/Rakefile +29 -0
data/lib/mediaarts_scraper/data/anime_episode.rb +16 -0
data/lib/mediaarts_scraper/data/anime_episodes.rb +8 -0
data/lib/mediaarts_scraper/data/anime_packages.rb +34 -0
data/lib/mediaarts_scraper/data/anime_packages_physical_collection.rb +10 -0
data/lib/mediaarts_scraper/data/anime_series.rb +51 -0
data/lib/mediaarts_scraper/data/anime_series_episode.rb +10 -0
data/lib/mediaarts_scraper/data/anime_series_manga_work.rb +14 -0
data/lib/mediaarts_scraper/data/anime_series_material.rb +10 -0
data/lib/mediaarts_scraper/data/anime_series_package.rb +23 -0
data/lib/mediaarts_scraper/data/anime_series_related_series.rb +20 -0
data/lib/mediaarts_scraper/data/data_object.rb +93 -0
data/lib/mediaarts_scraper/logger.rb +18 -0
data/lib/mediaarts_scraper/page/anime_episodes_page.rb +56 -0
data/lib/mediaarts_scraper/page/anime_packages_page.rb +39 -0
data/lib/mediaarts_scraper/page/anime_series_page.rb +89 -0
data/lib/mediaarts_scraper/page/common_table_parser.rb +80 -0
data/lib/mediaarts_scraper/page/helper.rb +9 -0
data/lib/mediaarts_scraper/page/page_base.rb +48 -0
data/lib/mediaarts_scraper/page/parse_error.rb +5 -0
data/lib/mediaarts_scraper/version.rb +3 -0
data/lib/mediaarts_scraper.rb +42 -0
data/mediaarts_scraper.gemspec +29 -0
metadata +141 -0

checksums.yaml ADDED Viewed

@@ -0,0 +1,7 @@
+---
+SHA1:
+  metadata.gz: c95b848f065f1110dcf0616253e774f9b4db26be
+  data.tar.gz: 86994c5d54fc3c8336ecc0cd2496b28267e2dcf3
+SHA512:
+  metadata.gz: 952ce1b825b4e18fc8b6c4ab22b7a3135edcfcbb7e2b4333c4140dfbb3183e0c86db2804554f2927aa5ca8405ad4be1eb77c384f5957836058f83aa091385690
+  data.tar.gz: ddef66e45a80cc515c7a8564cdd0a552b34cbf0285d622d2984c20f222f2dbe4bd0c9e50b93c36baeb29ec46a5de2a54bc5b7e5c8020d959d39426fe422898d8

data/.gitignore ADDED Viewed

@@ -0,0 +1,10 @@
+/.bundle/
+/.yardoc
+/_yardoc/
+/coverage/
+/doc/
+/pkg/
+/spec/reports/
+/tmp/
+/tools/sit/data/actual.json
+/Gemfile.lock

data/Gemfile ADDED Viewed

@@ -0,0 +1,5 @@
+source "https://rubygems.org"
+git_source(:github) { |repo_name| "https://github.com/#{repo_name}" }
+gemspec

data/LICENSE ADDED Viewed

@@ -0,0 +1,21 @@
+MIT License
+Copyright (c) 2018 xmisao
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+The above copyright notice and this permission notice shall be included in all
+copies or substantial portions of the Software.
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+SOFTWARE.

data/README.md ADDED Viewed

@@ -0,0 +1,92 @@
+# MediaartsScraper
+Ruby scraper implementation for https://mediaarts-db.bunka.go.jp/
+文化庁のメディア芸術データベースをスクレイピングするGemライブラリです。
+# Installation
+```bash
+gem install 'mediaarts_scraper'
+```
+# Usage
+アニメシリーズIDを指定してスクレイピングする。
+```ruby
+require "mediaarts_scraper"
+# アニメシリーズID
+ans_id = 14810 # 魔法少女まどか★マギカ
+# ページオブジェクトを作る
+anime_series_page = MediaartsScraper::Page::AnimeSeriesPage.from_ans_id(ans_id)
+# データオブジェクトを得る
+anime_series = anime_series_page.data
+# データオブジェクトから取得できる属性を得る
+# 属性の名前はサイト上で言語をEnglishにした場合の項目名に準じます
+p anime_series.attributes #=> [:anime_series_id, :distribution_format, :anime_work_id, :title, :title_kana, :date_of_release, :date_of_end, :time_slot_or_duration, :number_of_broadc
+asts, :number_of_episodes, :distributor, :broadcast_period, :production_company, :original_source, :director, :credits, :cast, :theme_songs, :episode_t
+itles, :notes, :description, :story, :main_characters, :character_design, :characters, :music_or_sound_effects, :format_of_original_source, :eirin_no,
+:rating_by_the_eirin, :copyright, :english_title_in_japan, :english_title_overseas, :hepburn_romanization_of_original_title, :romanization_of_original_
+title, :alternative_titles, :related_works, :tag, :carrier_type_of_original_material, :information_sources, :episodes, :materials, :packages, :related_
+series, :manga_work]
+# データオブジェクトから属性の値を得る
+p anime_series.title #=> "魔法少女まどか★マギカ"
+# データオブジェクトをハッシュに変換する
+p anime_series.to_hash #=> {"class"=>"MediaartsScraper::Data::AnimeSeries", :anime_series_id=>"ANS001019800", :distribution_format=>"TV", :anime_work_id=>"ANT001019800", :title=>
+"魔法少女まどか★マギカ",...
+# データオブジェクトをJSONに変換する
+p anime_series.to_json #=> "{\"class\":\"MediaartsScraper::Data::AnimeSeries\",\"anime_series_id\":\"ANS001019800\",\"distribution_format\":\"TV\",\"anime_work_id\":\"ANT001019800\",\"title\":\"魔法少女まどか★マギカ\",...
+```
+`examples`以下に使用例があります。
+# Supported Pages
+バージョン0.1はアニメーションのみの対応です。
+|Path|Page title|Page Object|Data Object|
+|:---|:---|:---|:---|
+|`/mg/`|マンガ|-|-|
+|`/an/anime_series/<ans_id>`|作品情報(シリーズ)|`AnimeSeriesPage`|`AnimeSeries`|
+|`/an/anime_series/<ans_id>/episodes`|各話情報一覧|`AnimeEpisodesPage`|`AnimeEpisodes`|
+|`/an/anime_series/<ans_id>/anime_packages/<anp_id>`|パッケージ情報|`AnimePackagesPage`|`AnimePackages`|
+|`/gm/`|ゲーム|-|-|
+|`/ma/`|メディアアート|-|-|
+`-` means unsupported yet.
+# Development
+## Debug
+Output internal logs of mediaarts_scraper by the following environment variable.
+```
+MEDIAARTS_SCRAPER_LOG_LEVEL=0
+```
+## Testing
+Run system integration testing. (Network connection is required.)
+```
+rake sit
+```
+Update expectation of system integration testing.
+```
+rake sit_update
+```
+## Contributing
+Bug reports and pull requests are welcome on GitHub at https://github.com/xmisao/mediaarts_scraper

data/Rakefile ADDED Viewed

@@ -0,0 +1,29 @@
+require "bundler/gem_tasks"
+task :default => :spec
+desc 'Run formatting by rufo'
+task :rufo do
+  fork do
+    exec("rufo Gemfile lib bin examples tools")
+  end
+  Process.wait
+end
+desc 'Run system integration testing'
+task :sit do
+  fork do
+    exec("ruby tools/sit/sit.rb")
+  end
+  Process.wait
+end
+desc 'Update expectation of system integration testing'
+task :sit_update do
+  fork do
+    exec("ruby tools/sit/sit_update.rb")
+  end
+  Process.wait
+end

data/lib/mediaarts_scraper/data/anime_episode.rb ADDED Viewed

@@ -0,0 +1,16 @@
+module MediaartsScraper::Data
+  class AnimeEpisode
+    include DataObject
+    attribute :episode_no, "Episode No."
+    attribute :episode_title, "Episode Title"
+    attribute :date_of_release, "Date of Release"
+    attribute :credits, "Credits"
+    attribute :cast, "Cast"
+    attribute :character, "Character"
+    attribute :story, "Story", true
+    attribute :main_mecha, "Main Mecha"
+    attribute :notes, "Notes"
+    attribute :information_sources, "Information Sources"
+  end
+end

data/lib/mediaarts_scraper/data/anime_episodes.rb ADDED Viewed

@@ -0,0 +1,8 @@
+module MediaartsScraper::Data
+  class AnimeEpisodes
+    include DataObject
+    attribute :title, "title"
+    attribute(:episodes, "story_table") { |episodes| episodes.map { |episode| AnimeEpisode.new(episode) } }
+  end
+end

data/lib/mediaarts_scraper/data/anime_packages.rb ADDED Viewed

@@ -0,0 +1,34 @@
+module MediaartsScraper::Data
+  class AnimePackages
+    include DataObject
+    attribute :package_id, "Package ID"
+    attribute :title, "Title"
+    attribute :title_kana, "Title-kana"
+    attribute :other_editions, "Other Editions"
+    attribute :volumes, "Volumes"
+    attribute :content_description, "Content Description"
+    attribute :number_of_discs, "Number of Discs / Duration"
+    attribute :series_title, "Series Title"
+    attribute :series_no, "Series No."
+    attribute :publisher_etc, "Publisher etc."
+    attribute :credits, "Credits"
+    attribute :publication_format, "Publication Format"
+    attribute :notes, "Notes"
+    attribute :size, "Size"
+    attribute :appendices, "Appendices"
+    attribute :content_specifications, "Content Specifications"
+    attribute :sales_no, "Sales No. (Model No./Stock No.)"
+    attribute :jan, "JAN (EAN/UPC)"
+    attribute :price, "Price"
+    attribute :date_of_publication, "Date of Publication"
+    attribute :language, "Language"
+    attribute :ratings, "Ratings"
+    attribute :place_of_publication, "Place of Publication"
+    attribute :national_bib_no_jpno, "National Bib. No. (JPNO)"
+    attribute :package_description, "Package Description"
+    attribute :tag, "Tag"
+    attribute(:physical_collection, "Physical Collection") { |physical_collection| AnimePackagesPhysicalCollection.new(physical_collection) }
+  end
+end

data/lib/mediaarts_scraper/data/anime_packages_physical_collection.rb ADDED Viewed

@@ -0,0 +1,10 @@
+module MediaartsScraper::Data
+  class AnimePackagesPhysicalCollection
+    include DataObject
+    attribute :package_ownership_information_id, "Package Ownership Information ID"
+    attribute :name_of_institution, "Name of Institution"
+    attribute :registration_no, "Registration No.(Institutional Collection Item ID)"
+    attribute :notes_from_istitution, "Notes from Institution"
+  end
+end

data/lib/mediaarts_scraper/data/anime_series.rb ADDED Viewed

@@ -0,0 +1,51 @@
+module MediaartsScraper::Data
+  class AnimeSeries
+    include DataObject
+    attribute :anime_series_id, "Anime Series ID"
+    attribute :distribution_format, "Distribution Format"
+    attribute :anime_work_id, "Anime Work ID"
+    attribute :title, "Title"
+    attribute :title_kana, "Title-kana"
+    attribute :date_of_release, "Date of Release"
+    attribute :date_of_end, "Date of End"
+    attribute :time_slot_or_duration, "Time Slot / Duration"
+    attribute :number_of_broadcasts, "Number of Broadcasts"
+    attribute :number_of_episodes, "Number of Episodes"
+    attribute :distributor, "Distributor"
+    attribute :broadcast_period, "Broadcast Period"
+    attribute :production_company, "Production Company"
+    attribute :original_source, "Original Source"
+    attribute :director, "Director"
+    attribute :credits, "Credits"
+    attribute :cast, "Cast"
+    attribute :theme_songs, "Theme Songs"
+    attribute :episode_titles, "Episode Titles"
+    attribute :notes, "Notes"
+    attribute :description, "Description", true
+    attribute :story, "Story", true
+    attribute :main_characters, "Main Characters", true
+    attribute :character_design, "Character Design"
+    attribute :characters, "Characters (Mecha)", true
+    attribute :music_or_sound_effects, "Music / Sound Effects"
+    attribute :format_of_original_source, "Format of Original Source"
+    attribute :eirin_no, "EIRIN No."
+    attribute :rating_by_the_eirin, "Rating (by the EIRIN)"
+    attribute :copyright, "Copyright"
+    attribute :english_title_in_japan, "English Title (In Japan)"
+    attribute :english_title_overseas, "English Title (Overseas)"
+    attribute :hepburn_romanization_of_original_title, "Hepburn Romanization of Original Title"
+    attribute :romanization_of_original_title, "Romanization of Original Title (w/Macron diacritics)"
+    attribute :alternative_titles, "Alternative Titles"
+    attribute :related_works, "Related Works"
+    attribute :tag, "Tag"
+    attribute :carrier_type_of_original_material, "Carrier Type of Original Material"
+    attribute :information_sources, "Information Sources"
+    attribute(:episodes, "Episodes") { |episodes| episodes.map { |episode| AnimeSeriesEpisode.new(episode) } }
+    attribute(:materials, "Materials") { |materials| materials.map { |material| AnimeSeriesMaterial.new(material) } }
+    attribute(:packages, "Packages") { |packages| packages.map { |package| AnimeSeriesPackage.new(package) } }
+    attribute(:related_series, "Related Series") { |related_serieses| related_serieses.map { |related_series| AnimeSeriesRelatedSeries.new(related_series) } }
+    attribute(:manga_work, "Manga Work") { |manga_works| manga_works.map { |manga_work| AnimeSeriesMangaWork.new(manga_work) } }
+  end
+end

data/lib/mediaarts_scraper/data/anime_series_episode.rb ADDED Viewed

@@ -0,0 +1,10 @@
+module MediaartsScraper::Data
+  class AnimeSeriesEpisode
+    include DataObject
+    attribute :episode_no, "Episode No."
+    attribute :episode_title, "Episode Title"
+    attribute :date_of_release, "Date of Release"
+    attribute :notes, "Notes"
+  end
+end

data/lib/mediaarts_scraper/data/anime_series_manga_work.rb ADDED Viewed

@@ -0,0 +1,14 @@
+module MediaartsScraper::Data
+  class AnimeSeriesMangaWork
+    include DataObject
+    attribute :title, "Title"
+    attribute :author, "Author"
+    attribute(:mmt_id, "href") { |href| self.to_mmt_id(href) }
+    def self.to_mmt_id(href)
+      /comic_works\/(\d+)/.match(href).to_a[1]&.to_i if href
+    end
+  end
+end

data/lib/mediaarts_scraper/data/anime_series_material.rb ADDED Viewed

@@ -0,0 +1,10 @@
+module MediaartsScraper::Data
+  class AnimeSeriesMaterial
+    include DataObject
+    attribute :material_name, "Material Name"
+    attribute :category, "Category"
+    attribute :list_of_authers, "List of Authors"
+    attribute :access_to_this_material, "Access to this Material"
+  end
+end

data/lib/mediaarts_scraper/data/anime_series_package.rb ADDED Viewed

@@ -0,0 +1,23 @@
+module MediaartsScraper::Data
+  class AnimeSeriesPackage
+    include DataObject
+    attribute :title, "Title"
+    attribute :volumes, "Volumes"
+    attribute :other_editions, "Other Editions"
+    attribute :publication_format, "Publication Format"
+    attribute :date_of_publication, "Date of Publication"
+    attribute :access_to_this_material, "Access to this Material"
+    attribute(:ans_id, "href") { |href| self.to_ans_id(href) }
+    attribute(:anp_id, "href") { |href| self.to_anp_id(href) }
+    def self.to_ans_id(href)
+      /anime_series\/(\d+)/.match(href).to_a[1]&.to_i if href
+    end
+    def self.to_anp_id(href)
+      /anime_packages\/(\d+)/.match(href).to_a[1]&.to_i if href
+    end
+  end
+end

data/lib/mediaarts_scraper/data/anime_series_related_series.rb ADDED Viewed

@@ -0,0 +1,20 @@
+module MediaartsScraper::Data
+  class AnimeSeriesRelatedSeries
+    include DataObject
+    attribute :title, "Title"
+    attribute :distribution_format, "Distribution Format"
+    attribute :director, "Director"
+    attribute :production_company, "Production Company"
+    attribute :date_of_release, "Date of Release"
+    attribute :date_of_end, "Date of End"
+    attribute :number_of_broadcasts, "Number of Broadcasts"
+    attribute :number_of_episodes, "Number of Episodes"
+    attribute(:ans_id, "href") { |href| self.to_ans_id(href) }
+    def self.to_ans_id(href)
+      /anime_series\/(\d+)/.match(href).to_a[1]&.to_i if href
+    end
+  end
+end

data/lib/mediaarts_scraper/data/data_object.rb ADDED Viewed

@@ -0,0 +1,93 @@
+module MediaartsScraper
+  module Data
+    module DataObject
+      NULL = Object.new.freeze
+      def self.included(klass)
+        klass.class_eval do
+          attr_reader :raw_data
+          def initialize(raw_data)
+            @raw_data = raw_data
+            @attributes = Hash.new(NULL)
+          end
+          def attributes
+            self.class.attributes
+          end
+          def attributes_without_copyrighted
+            self.class.attributes_without_copyrighted
+          end
+          def self.attribute(method, en, copyrighted = false)
+            attributes << method
+            attributes_without_copyrighted << method unless copyrighted
+            define_method(method) do
+              if @attributes[method] == NULL
+                if block_given?
+                  @attributes[method] = yield @raw_data[en]
+                else
+                  @attributes[method] = @raw_data[en]
+                end
+              end
+              @attributes[method]
+            end
+          end
+          def self.attributes
+            @_attributes_ = [] unless @_attributes_
+            @_attributes_
+          end
+          def self.attributes_without_copyrighted
+            @_attributes_without_copyrighted_ = [] unless @_attributes_without_copyrighted_
+            @_attributes_without_copyrighted_
+          end
+          def to_json(*options)
+            to_hash.to_json(*options)
+          end
+          def to_json_without_copyrighted(*options)
+            to_hash_without_copyrighted.to_json(*options)
+          end
+          def to_hash
+            to_hash0(attributes, :to_hash)
+          end
+          def to_hash_without_copyrighted
+            to_hash0(attributes_without_copyrighted, :to_hash_without_copyrighted)
+          end
+          private
+          def to_hash0(attributes, method)
+            {}.tap { |hash|
+              hash["class"] = self.class.name
+              attributes.each do |attr|
+                value = send(attr)
+                hash[attr] = if value.is_a?(Array)
+                               value.map { |item| item.respond_to?(method) ? item.send(method) : item }
+                             elsif value.is_a?(Hash)
+                               value.transform_values { |item| item.respond_to(method) ? item.send(method) : item }
+                             elsif value.respond_to?(method)
+                               value.send(method)
+                             else
+                               value
+                             end
+              end
+            }
+          end
+        end
+      end
+    end
+  end
+end

data/lib/mediaarts_scraper/logger.rb ADDED Viewed

@@ -0,0 +1,18 @@
+module MediaartsScraper
+  def self.logger=(logger)
+    @@logger = logger
+  end
+  def self.logger
+    @@logger
+  end
+  def self.init_logger
+    @@logger = Logger.new(STDOUT)
+    @@logger.progname = "MediaartsScraper"
+    @@logger.level = ENV["MEDIAARTS_SCRAPER_LOG_LEVEL"] ? ENV["MEDIAARTS_SCRAPER_LOG_LEVEL"].to_i : Logger::Severity::UNKNOWN
+  end
+  init_logger
+end

data/lib/mediaarts_scraper/page/anime_episodes_page.rb ADDED Viewed

@@ -0,0 +1,56 @@
+module MediaartsScraper
+  module Page
+    class AnimeEpisodesPage < PageBase
+      data_class MediaartsScraper::Data::AnimeEpisodes
+      PATH = "/anime_episodes?"
+      OPTION = "?display_view=pc&locale=en"
+      PAGE_OPTION = "&page="
+      attr_accessor :ans_id
+      def self.from_ans_id(ans_id, page_num = 1)
+        self.new(url: generate_url(ans_id, page_num))
+      end
+      def self.from_url(url)
+        self.new(url: url)
+      end
+      def self.generate_url(ans_id, page_num)
+        [MediaartsScraper.base_url,
+         AnimeSeriesPage::PATH,
+         ans_id,
+         PATH,
+         OPTION,
+         PAGE_OPTION,
+         page_num].join
+      end
+      def next_page
+        @next_page ||= parse_next_page
+      end
+      private
+      def parse(html)
+        title = /\s(.+)$/.match(doc.at_xpath("//section[@class='storyBlock']/h1").text.strip).to_a[1]
+        story_table = parse_common_serial_rows_table(doc.at_xpath("//table[@class='storyTbl']"))
+        {
+          "title" => title,
+          "story_table" => story_table,
+        }
+      end
+      def parse_next_page
+        nav = doc.at_xpath("//nav[@class='pager']")
+        next_page_url = nav.at_xpath("//a[@rel='next']")&.attribute("href")&.value
+        next_page_url ? self.class.from_url(resolve_relative_url(url, next_page_url)) : nil
+      end
+    end
+  end
+end

data/lib/mediaarts_scraper/page/anime_packages_page.rb ADDED Viewed

@@ -0,0 +1,39 @@
+module MediaartsScraper
+  module Page
+    class AnimePackagesPage < PageBase
+      data_class MediaartsScraper::Data::AnimePackages
+      PATH = "/anime_packages/"
+      OPTION = "?display_view=pc&locale=en"
+      attr_accessor :ans_id
+      def self.from_ans_anp_id(ans_id, anp_id)
+        self.new(url: generate_url(ans_id, anp_id))
+      end
+      def self.generate_url(ans_id, anp_id)
+        [MediaartsScraper.base_url,
+         AnimeSeriesPage::PATH,
+         ans_id,
+         PATH,
+         anp_id,
+         OPTION].join
+      end
+      private
+      def parse(html)
+        doc = Nokogiri::HTML.parse(html, nil, "utf8")
+        document_table = doc.at_xpath("//div[@class='main']/section/table[@class='documentTbl']")
+        r1 = parse_common_key_value_table(document_table)
+        document_table2 = doc.at_xpath("//div[@class='sub']/section/table[@class='documentTbl2']")
+        r2 = parse_common_key_value_table(document_table2)
+        r1.merge("Physical Collection" => r2)
+      end
+    end
+  end
+end

data/lib/mediaarts_scraper/page/anime_series_page.rb ADDED Viewed

@@ -0,0 +1,89 @@
+module MediaartsScraper
+  module Page
+    class AnimeSeriesPage < PageBase
+      data_class MediaartsScraper::Data::AnimeSeries
+      PATH = "/an/anime_series/"
+      OPTION = "?display_view=pc&locale=en"
+      attr_accessor :ans_id
+      def self.from_ans_id(ans_id)
+        self.new(url: generate_url(ans_id))
+      end
+      def self.generate_url(ans_id)
+        [MediaartsScraper.base_url,
+         PATH,
+         ans_id,
+         OPTION].join
+      end
+      def episodes_page
+        @episodes_page ||= parse_episode_page
+      end
+      def packages_pages
+        @package_page ||= parse_packages_pages
+      end
+      private
+      def parse(html)
+        {}.tap do |result|
+          doc.xpath("//div[@class='main']/section/table").each do |table|
+            result.merge!(parse_common_key_value_table(table))
+          end
+          doc.xpath("//div[@class='sub']/section").each do |section|
+            result.merge!(parse_sub_section(section))
+          end
+          doc.xpath("//div[@class='moreContents']")&.each do |div|
+            result.merge!(parse_more_contents(div))
+          end
+        end
+      end
+      def parse_sub_section(section)
+        base_key = section.xpath("h3").first.children.first.text.strip
+        tables = section.xpath("table[@class='seriesTbl2']")
+        raise ParseError unless tables.count == 1
+        table = tables.first
+        {base_key => parse_common_serial_rows_table(table)}
+      end
+      def parse_more_contents(div)
+        base_key = div.xpath("h3").text.strip
+        table_items = div.xpath("section/table[@class='seriesTbl']").each_with_object({}) do |table, memo|
+          memo.merge!(parse_common_key_value_table(table))
+        end
+        {base_key => table_items}
+      end
+      def parse_episode_page
+        move_story_element = doc.at_xpath("//div[@class='sub']/section/p[@class='moveStory']/a")
+        return unless move_story_element
+        relative_url = move_story_element.attribute("href").value
+        AnimeEpisodesPage.from_url(resolve_relative_url(url, relative_url))
+      end
+      def parse_packages_pages
+        doc.xpath("//div[@class='sub']/section/table[@class='seriesTbl2']/tbody/tr/td[@class='i']/a").map do |package_anchor_element|
+          relative_url = package_anchor_element.attribute("href").value
+          AnimePackagesPage.from_url(resolve_relative_url(url, relative_url))
+        end
+      end
+    end
+  end
+end

data/lib/mediaarts_scraper/page/common_table_parser.rb ADDED Viewed

@@ -0,0 +1,80 @@
+module MediaartsScraper
+  module Page
+    module CommonTableParser
+      KEY_SEPARATOR = "/"
+      def parse_common_key_value_table(table)
+        result = {}
+        table.xpath("tbody/tr").each do |tr|
+          ths = tr.xpath("th")
+          tds = tr.xpath("td")
+          if ths.count == tds.count
+            keys = ths.map(&:text).map(&:strip)
+            values = tds.each_with_index.map do |td, i|
+              if td.xpath("p").count == 1
+                dls = td.xpath("div/div/dl")
+                if dls.count > 0
+                  dls.each do |dl|
+                    dts = dl.xpath("dt").map(&:text).map(&:strip)
+                    dds = dl.xpath("dd").map(&:text).map(&:strip)
+                    if dts.count == dds.count
+                      dts.each do |dt|
+                        dds.each do |dd|
+                          result[keys[i] + KEY_SEPARATOR + dt] = dd
+                        end
+                      end
+                    else
+                      raise ParseError
+                    end
+                  end
+                end
+                td.xpath("p").first.text.strip
+              else
+                td.text.strip
+              end
+            end
+            keys.each_with_index do |key, i|
+              result[key] = values[i]
+            end
+          else
+            raise ParseError
+          end
+        end
+        result
+      end
+      def parse_common_serial_rows_table(table)
+        header = table.xpath("thead/tr/th").map(&:text).map(&:strip)
+        table.xpath("tbody/tr").map do |tr|
+          tds = tr.xpath("td")
+          data = tds.map { |td|
+            child = td.child
+            if child
+              child.text.strip
+            else
+              td.text.strip
+            end
+          }
+          tr_result = Hash[*header.zip(data).flatten]
+          link_element = tds.detect { |td| td.xpath("a").first }
+          tr_result["href"] = link_element.xpath("a").first.attributes["href"].value if link_element
+          tr_result
+        end
+      end
+    end
+  end
+end

data/lib/mediaarts_scraper/page/helper.rb ADDED Viewed

@@ -0,0 +1,9 @@
+module MediaartsScraper
+  module Page
+    module Helper
+      def resolve_relative_url(base_url, relative_url)
+        URI.join(base_url, relative_url).to_s
+      end
+    end
+  end
+end

data/lib/mediaarts_scraper/page/page_base.rb ADDED Viewed

@@ -0,0 +1,48 @@
+module MediaartsScraper
+  module Page
+    class PageBase
+      include Helper
+      include CommonTableParser
+      def initialize(url:)
+        @original_url = url
+      end
+      def self.from_url(url)
+        self.new(url: url)
+      end
+      def self.data_class(data_class)
+        define_method("data_class") do
+          data_class
+        end
+      end
+      def data
+        @data ||= data_class.new(raw_data)
+      end
+      def html
+        @html ||= fetch(url)
+      end
+      def url
+        @original_url
+      end
+      def raw_data
+        @raw_data ||= parse(html)
+      end
+      def doc
+        @doc ||= Nokogiri::HTML.parse(html, nil, "utf8")
+      end
+      def fetch(url)
+        MediaartsScraper.logger.debug { {class: self.class.name, method: "fetch", url: url} }
+        open(url) { |f| f.read }
+      end
+    end
+  end
+end

data/lib/mediaarts_scraper/page/parse_error.rb ADDED Viewed

@@ -0,0 +1,5 @@
+module MediaartsScraper
+  module Page
+    class ParseError < StandardError; end
+  end
+end

data/lib/mediaarts_scraper/version.rb ADDED Viewed

@@ -0,0 +1,3 @@
+module MediaartsScraper
+  VERSION = "0.0.0"
+end

data/lib/mediaarts_scraper.rb ADDED Viewed

@@ -0,0 +1,42 @@
+require "nokogiri"
+require "open-uri"
+require "pp"
+require "json"
+require "logger"
+require_relative "mediaarts_scraper/version"
+require_relative "mediaarts_scraper/logger"
+require_relative "mediaarts_scraper/data/data_object"
+require_relative "mediaarts_scraper/data/anime_series"
+require_relative "mediaarts_scraper/data/anime_series_episode"
+require_relative "mediaarts_scraper/data/anime_series_material"
+require_relative "mediaarts_scraper/data/anime_series_package"
+require_relative "mediaarts_scraper/data/anime_series_related_series"
+require_relative "mediaarts_scraper/data/anime_series_manga_work"
+require_relative "mediaarts_scraper/data/anime_episode"
+require_relative "mediaarts_scraper/data/anime_episodes"
+require_relative "mediaarts_scraper/data/anime_packages"
+require_relative "mediaarts_scraper/data/anime_packages_physical_collection"
+require_relative "mediaarts_scraper/page/parse_error"
+require_relative "mediaarts_scraper/page/helper"
+require_relative "mediaarts_scraper/page/common_table_parser"
+require_relative "mediaarts_scraper/page/page_base"
+require_relative "mediaarts_scraper/page/anime_series_page"
+require_relative "mediaarts_scraper/page/anime_episodes_page"
+require_relative "mediaarts_scraper/page/anime_packages_page"
+module MediaartsScraper
+  def self.base_url=(base_url)
+    @@base_url = base_url
+  end
+  def self.base_url
+    @@base_url
+  end
+  @@base_url = "https://mediaarts-db.bunka.go.jp"
+end

data/mediaarts_scraper.gemspec ADDED Viewed

@@ -0,0 +1,29 @@
+lib = File.expand_path("../lib", __FILE__)
+$LOAD_PATH.unshift(lib) unless $LOAD_PATH.include?(lib)
+require "mediaarts_scraper/version"
+Gem::Specification.new do |spec|
+  spec.name          = "mediaarts_scraper"
+  spec.version       = MediaartsScraper::VERSION
+  spec.authors       = ["xmisao"]
+  spec.email         = ["mail@xmisao.com"]
+  spec.summary       = %q{Scraper for Media Art Database}
+  spec.description   = %q{Ruby scraper implementation for https://mediaarts-db.bunka.go.jp/}
+  spec.homepage      = "https://github.com/xmisao/mediaarts_scraper"
+  spec.license       = "MIT"
+  spec.files         = `git ls-files -z`.split("\x0").reject do |f|
+    f.match(%r{^(tools|examples|bin)/})
+  end
+  spec.bindir        = "exe"
+  spec.executables   = spec.files.grep(%r{^exe/}) { |f| File.basename(f) }
+  spec.require_paths = ["lib"]
+  spec.add_development_dependency "bundler", "~> 1.16"
+  spec.add_development_dependency "rake", "~> 10.0"
+  spec.add_development_dependency "rufo", ">= 0.3.1"
+  spec.add_development_dependency "pry", ">= 0.11.3"
+  spec.add_runtime_dependency "nokogiri", ">= 1.8.4"
+end

metadata ADDED Viewed

@@ -0,0 +1,141 @@
+--- !ruby/object:Gem::Specification
+name: mediaarts_scraper
+version: !ruby/object:Gem::Version
+  version: 0.0.0
+platform: ruby
+authors:
+- xmisao
+autorequire:
+bindir: exe
+cert_chain: []
+date: 2018-09-01 00:00:00.000000000 Z
+dependencies:
+- !ruby/object:Gem::Dependency
+  name: bundler
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.16'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.16'
+- !ruby/object:Gem::Dependency
+  name: rake
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '10.0'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '10.0'
+- !ruby/object:Gem::Dependency
+  name: rufo
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 0.3.1
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 0.3.1
+- !ruby/object:Gem::Dependency
+  name: pry
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 0.11.3
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 0.11.3
+- !ruby/object:Gem::Dependency
+  name: nokogiri
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 1.8.4
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 1.8.4
+description: Ruby scraper implementation for https://mediaarts-db.bunka.go.jp/
+email:
+- mail@xmisao.com
+executables: []
+extensions: []
+extra_rdoc_files: []
+files:
+- ".gitignore"
+- Gemfile
+- LICENSE
+- README.md
+- Rakefile
+- lib/mediaarts_scraper.rb
+- lib/mediaarts_scraper/data/anime_episode.rb
+- lib/mediaarts_scraper/data/anime_episodes.rb
+- lib/mediaarts_scraper/data/anime_packages.rb
+- lib/mediaarts_scraper/data/anime_packages_physical_collection.rb
+- lib/mediaarts_scraper/data/anime_series.rb
+- lib/mediaarts_scraper/data/anime_series_episode.rb
+- lib/mediaarts_scraper/data/anime_series_manga_work.rb
+- lib/mediaarts_scraper/data/anime_series_material.rb
+- lib/mediaarts_scraper/data/anime_series_package.rb
+- lib/mediaarts_scraper/data/anime_series_related_series.rb
+- lib/mediaarts_scraper/data/data_object.rb
+- lib/mediaarts_scraper/logger.rb
+- lib/mediaarts_scraper/page/anime_episodes_page.rb
+- lib/mediaarts_scraper/page/anime_packages_page.rb
+- lib/mediaarts_scraper/page/anime_series_page.rb
+- lib/mediaarts_scraper/page/common_table_parser.rb
+- lib/mediaarts_scraper/page/helper.rb
+- lib/mediaarts_scraper/page/page_base.rb
+- lib/mediaarts_scraper/page/parse_error.rb
+- lib/mediaarts_scraper/version.rb
+- mediaarts_scraper.gemspec
+homepage: https://github.com/xmisao/mediaarts_scraper
+licenses:
+- MIT
+metadata: {}
+post_install_message:
+rdoc_options: []
+require_paths:
+- lib
+required_ruby_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: '0'
+required_rubygems_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: '0'
+requirements: []
+rubyforge_project:
+rubygems_version: 2.5.2.1
+signing_key:
+specification_version: 4
+summary: Scraper for Media Art Database
+test_files: []