RubyGems - instagram-tag-search - Versions diffs - 0.0.1 - Mend

instagram-tag-search 0.0.1

Files changed (3) hide show

checksums.yaml +7 -0
data/lib/instagram-tag-search.rb +163 -0
metadata +64 -0

checksums.yaml ADDED

@@ -0,0 +1,7 @@
+---
+SHA1:
+  metadata.gz: a588894582381be8e200cd8cb41b6fcf6f02f3f9
+  data.tar.gz: 1d9855124ea0c24f5d43c58b295938f023e0f7b1
+SHA512:
+  metadata.gz: df48f21760dcdccf2e6b995e33655f6b8b2b2e300ec3ac431cfd76297f3f53a666913415610a8f97450f8d86603b132cdeccd40a36bc5fab318efa8598dc654b
+  data.tar.gz: 1078cf8db43bfb851c83461477c225f47921c58df713ab2730969fc0ade5d18d744b101acd0acdc72abda05de24f279453d0cb928fde4120f059fe7c1aa3971b

data/lib/instagram-tag-search.rb ADDED

@@ -0,0 +1,163 @@
+require 'open-uri'
+require 'nokogiri'
+require 'json'
+require 'net/http'
+require 'net/https'
+require 'uri'
+require 'pp'
+require 'openssl'
+require 'CSV'
+class InstagramData
+    attr_reader :tag_name, :get_number, :instagram_data
+    TAG_URL_PREFIX = 'https://www.instagram.com/explore/tags/'
+    def initialize(tag_name: '岸和田', get_number: 10)
+        @tag_name = tag_name
+        @get_number = get_number
+        @got_number = 0
+    end
+    def getNextPageData(endCursor, csrfToken, rhx_gis, gotNumber)
+        uri = URI.parse(TAG_URL_PREFIX + URI.encode_www_form_component(@tag_name) + "/?__a=1&max_id=" + endCursor)
+        http = Net::HTTP.new(uri.host, uri.port)
+        http.use_ssl = true
+        http.verify_mode = OpenSSL::SSL::VERIFY_NONE
+        req = Net::HTTP::Get.new(uri.request_uri)
+        res = http.request(req)
+        endCursor = JSON.parse(res.body)['graphql']['hashtag']['edge_hashtag_to_media']['page_info']['end_cursor']
+        dataArray =  JSON.parse(res.body)['graphql']['hashtag']['edge_hashtag_to_media']['edges']
+        return dataArray, endCursor
+    end
+    def parseInstagramData(dataArray)
+        dataArray.length.times do |i|
+            insta_data = {userId: '', timestamp: '', pageUrl: '', likeCount: '', commentCount: '', caption: ''}
+            # ユーザIDの取得
+            insta_data[:userId] = dataArray[i]['node']['owner']['id']
+            # UNIXタイムからの変換
+            insta_data[:timestamp] = Time.at(dataArray[i]['node']['taken_at_timestamp'])
+            # 画像URLの取得
+            # writeData.push(dataArray[i]["thumbnail"])
+            # ページURLの取得
+            insta_data[:pageUrl] = "https://www.instagram.com/p/" + dataArray[i]['node']['shortcode'] + "/"
+            # いいねの数とコメントの数
+            insta_data[:likeCount] = dataArray[i]['node']['edge_liked_by']['count']
+            insta_data[:commentCount] = dataArray[i]['node']['edge_media_to_comment']['count']
+            # 投稿者コメントの取得
+            insta_data[:caption] = (dataArray[i]['node']['edge_media_to_caption']['edges'][0]['node']['text'])
+            # 投稿者コメントからタグのみ抽出
+            tags = (dataArray[i]['node']['edge_media_to_caption']['edges'][0]['node']['text'] + " ").scan(/[#][Ａ-Ｚａ-ｚA-Za-z一-鿆0-9０-９ぁ-ヶｦ-ﾟー○]+/).join(" ")
+            insta_data[:tags] = tags
+            @instagram_data.push(insta_data)
+            @got_number += 1
+            # 予定取得枚数に到達したら終了
+            break if @got_number >= @get_number
+        end
+    end
+    def getInstagramData
+        tag_search_url = TAG_URL_PREFIX + URI.encode_www_form_component(@tag_name)
+        @instagram_data = []
+        # 文字コード
+        charset = nil
+        puts "#{@tag_name} のデータを #{@get_number} 件分取得します"
+        # タグ検索ページへアクセス
+        # 文字コードを取得しながら、アクセス
+        html = open(tag_search_url) do |f|
+            charset = f.charset
+            f.read
+        end
+        # 以下、Nokogiriによるアクセスに必要な情報の取得処理
+        # 全部のHTMLを取得
+        allDoc = Nokogiri::HTML.parse(html, nil, charset)
+        # メタ情報だけ取得
+        metaInfo = allDoc.css('body script').first.text
+        # 前後に不要な情報があるのでカット
+        metaInfo.slice!(0, 21)
+        metaInfo = metaInfo.chop
+        # 解析用JSONの保存
+        response_json = JSON.parse(metaInfo)
+        # データの中身を取得
+        dataArray = response_json['entry_data']['TagPage'][0]['graphql']['hashtag']['edge_hashtag_to_media']['edges'];
+        # 初期ページの分を取得
+        parseInstagramData(dataArray)
+        # 取得した件数を記録
+        puts "#{@got_number} 件取得しました"
+        # 取得枚数に足りていない場合
+        while @got_number < @get_number do
+            # 次のページの取得に必要な情報を取得
+            # csrfトークンの取得
+            csrfToken = response_json['config']['csrf_token']
+            # rhx_gisの取得
+            rhx_gis = response_json['rhx_gis']
+            # 次のページ取得用のカーソル
+            @endCursor = response_json['entry_data']['TagPage'][0]['graphql']['hashtag']['edge_hashtag_to_media']['page_info']['end_cursor']
+            puts "5秒待ってから再開します"
+            sleep 5
+            dataArray, @endCursor = getNextPageData(@endCursor, csrfToken, rhx_gis, @got_number)
+            parseInstagramData(dataArray)
+            # 取得した件数を記録
+            puts "#{@got_number} 件取得しました"
+        end
+    end
+    # CSVファイルのヘッダを記入
+    def csvHeaderWrite(csvfilename)
+        CSV.open(csvfilename, "ab+") do |csv|
+            writeData = Array.new
+            writeData.push("ユーザID")
+            writeData.push("投稿日時（日本時間）")
+            writeData.push("ページURL")
+            writeData.push("いいねの数")
+            writeData.push("コメント数")
+            writeData.push("投稿者コメント")
+            writeData.push("ハッシュタグ")
+            csv << writeData
+        end
+    end
+    # CSVファイルへの書き込み
+    def csvDataWrite(dataArray, csvfilename)
+        dataArray.each do |n|
+            puts "n write n is #{n}"
+            CSV.open(csvfilename, "ab+") do |csv|
+                # データはハッシュなので配列にし、キーを除き、値を代入する
+                writeData = n.to_a.map{|e| e[1]}
+                csv << writeData
+            end
+        end
+    end
+    # CSVファイルへの書き込み
+    def writeToCSV(dataArray, csvfilename: "getInstagramData_#{Time.now.strftime("%Y%m%d%H%M%S")}.csv")
+        # csvファイルにヘッダを記入
+        csvHeaderWrite(csvfilename)
+        # csvファイルに保存
+        csvDataWrite(dataArray, csvfilename)
+    end
+end

metadata ADDED

@@ -0,0 +1,64 @@
+--- !ruby/object:Gem::Specification
+name: instagram-tag-search
+version: !ruby/object:Gem::Version
+  version: 0.0.1
+platform: ruby
+authors:
+- Tom syamoji
+autorequire:
+bindir: bin
+cert_chain: []
+date: 2018-07-23 00:00:00.000000000 Z
+dependencies:
+- !ruby/object:Gem::Dependency
+  name: nokogiri
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.5'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 1.5.6
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.5'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 1.5.6
+description: This gem gets instagram data with tag search
+email: uniquequeue@gmail.com
+executables: []
+extensions: []
+extra_rdoc_files: []
+files:
+- lib/instagram-tag-search.rb
+homepage: https://github.com/syamoji/instagram-tag-search
+licenses:
+- MIT
+metadata: {}
+post_install_message:
+rdoc_options: []
+require_paths:
+- lib
+required_ruby_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: '0'
+required_rubygems_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: '0'
+requirements: []
+rubyforge_project:
+rubygems_version: 2.5.2
+signing_key:
+specification_version: 4
+summary: get instagram data with tag search
+test_files: []