RubyGems - twitterscraper-ruby - Versions diffs - 0.17.0 → 0.18.0 - Mend

twitterscraper-ruby 0.17.0 → 0.18.0

Files changed (9) hide show

checksums.yaml +4 -4
data/.gitignore +1 -0
data/Gemfile.lock +1 -1
data/lib/twitterscraper/cli.rb +6 -4
data/lib/twitterscraper/query.rb +7 -3
data/lib/twitterscraper/template.rb +34 -5
data/lib/twitterscraper/template/tweets.html.erb +16 -5
data/lib/version.rb +1 -1
metadata +2 -2

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: ac0c10b18d836983cc6b73e25b9ed333af2f620106a07c6bc6a40058fb127895
-  data.tar.gz: e6fc18219d9127fb30ba57e39dc4656c0f0a3c108428d959de5bac9e7d317088
+  metadata.gz: 8e9bdefe1c4d10e6d9f1d12aeb279b2a3751c570e96e05daaf849dd423bb03bf
+  data.tar.gz: 7de97de19daeecce2837fe8e5999b6c9490ab49a18a2ab9e603bf4d039abc4b9
 SHA512:
-  metadata.gz: 90cbf06b606878dc36b4bba44669139c273bf03b08a777ad87036834841bcb4b052e0559813dc56e4be124442abfc5a7fc44c5c9524c74929ca02b1d287d346b
-  data.tar.gz: ada0b74ee42ff62964b73ad9b49358227cdaf4fc87420cf12cf65af95168ad9775615a504345ebc83d3b791e9c0d892691c55bc477eddd647b3e8934f752fb9c
+  metadata.gz: 55b7e0b52b2ce44418305798ed27a677405244a48f5ad0a797e3abf7958b0581a313ebd33f3f69b891ba7454f8f5c9c0db845c9ca8be321cd27212932821776e
+  data.tar.gz: 8fe97a0dc164fc0108b8e6a35843fba19ade5fbaf4f1ee2b4a400afbd3bdbb220a49dfbef4fceb1d8ecc43df3b4f4b7bad0ee5ea94c0aac464c0477e42efb866

data/.gitignore CHANGED

@@ -8,3 +8,4 @@
 /tmp/
 /cache
 /.idea
+.DS_Store

data/Gemfile.lock CHANGED

@@ -1,7 +1,7 @@
 PATH
   remote: .
   specs:
-    twitterscraper-ruby (0.17.0)
+    twitterscraper-ruby (0.18.0)
       nokogiri
       parallel

data/lib/twitterscraper/cli.rb CHANGED

@@ -32,12 +32,14 @@ module Twitterscraper
     end
     def export(name, tweets)
-      write_json = lambda { File.write(options['output'], generate_json(tweets)) }
+      filepath = options['output']
+      Dir.mkdir(File.dirname(filepath)) unless File.exist?(File.dirname(filepath))
+      write_json = lambda { File.write(filepath, generate_json(tweets)) }
       if options['format'] == 'json'
         write_json.call
       elsif options['format'] == 'html'
-        File.write(options['output'], Template.new.tweets_embedded_html(name, tweets, options))
+        File.write(filepath, Template.new.tweets_embedded_html(name, tweets, options))
       else
         write_json.call
       end
@@ -97,9 +99,9 @@ module Twitterscraper
     end
     def build_output_name(options)
-      query = ERB::Util.url_encode(options['query'])
+      query = options['query'].gsub(/[ :?#&]/, '_')
       date = [options['start_date'], options['end_date']].select { |val| val && !val.empty? }.join('_')
-      [options['type'], 'tweets', date, query].compact.join('_') + '.' + options['format']
+      File.join('out', [options['type'], 'tweets', date, query].compact.join('_') + '.' + options['format'])
     end
     def initialize_logger

data/lib/twitterscraper/query.rb CHANGED

@@ -76,9 +76,9 @@ module Twitterscraper
     def query_single_page(query, lang, type, pos, headers: [], proxies: [])
       logger.info "Querying #{query}"
-      query = ERB::Util.url_encode(query)
+      encoded_query = ERB::Util.url_encode(query)
-      url = build_query_url(query, lang, type, pos)
+      url = build_query_url(encoded_query, lang, type, pos)
       http_request = lambda do
         logger.debug "Scraping tweets from url=#{url}"
         get_single_page(url, headers, proxies)
@@ -92,6 +92,10 @@ module Twitterscraper
           response = http_request.call
           client.write(url, response) unless stop_requested?
         end
+        if @queries && query == @queries.last && pos.nil?
+          logger.debug "Delete a cache query=#{query}"
+          client.delete(url)
+        end
       else
         response = http_request.call
       end
@@ -170,7 +174,7 @@ module Twitterscraper
           end
         end
-        queries
+        @queries = queries
       elsif start_date
         [query + " since:#{start_date}"]

data/lib/twitterscraper/template.rb CHANGED

@@ -4,25 +4,54 @@ module Twitterscraper
       path = File.join(File.dirname(__FILE__), 'template/tweets.html.erb')
       template = ERB.new(File.read(path))
+      tweets = tweets.sort_by { |t| t.created_at.to_i }
       template.result_with_hash(
           chart_name: name,
           chart_data: chart_data(tweets).to_json,
-          first_tweet: tweets.sort_by { |t| t.created_at.to_i }[0],
-          last_tweet: tweets.sort_by { |t| t.created_at.to_i }[-1],
+          first_tweet: tweets[0],
+          last_tweet: tweets[-1],
           tweets: tweets,
           convert_limit: 30,
       )
     end
-    def chart_data(tweets)
+    def chart_data(tweets, trimming: true, smoothing: true)
+      min_interval = 5
       data = tweets.each_with_object(Hash.new(0)) do |tweet, memo|
         t = tweet.created_at
-        min = (t.min.to_f / 5).floor * 5
+        min = (t.min.to_f / min_interval).floor * min_interval
         time = Time.new(t.year, t.month, t.day, t.hour, min, 0, '+00:00')
         memo[time.to_i] += 1
       end
-      data.sort_by { |k, v| k }.map do |timestamp, count|
+      if false && trimming
+        data.keys.sort.each.with_index do |timestamp, i|
+          break if data.size - 1 == i
+          if data[i] == 0 && data[i + 1] == 0
+            data.delete(timestamp)
+          end
+        end
+      end
+      if false && smoothing
+        time = data.keys.min
+        max_time = data.keys.max
+        sec_interval = 60 * min_interval
+        while true
+          next_time = time + sec_interval
+          break if next_time + sec_interval > max_time
+          unless data.has_key?(next_time)
+            data[next_time] = (data[time] + data[next_time + sec_interval]) / 2
+          end
+          time = next_time
+        end
+      end
+      data.sort_by { |k, _| k }.map do |timestamp, count|
         [timestamp * 1000, count]
       end
     end

data/lib/twitterscraper/template/tweets.html.erb CHANGED

@@ -23,14 +23,14 @@
       }
       function drawChart() {
-          var data = <%= chart_data %>;
           Highcharts.setOptions({
               time: {
                   timezone: moment.tz.guess()
               }
           });
-          Highcharts.stockChart('chart', {
+          var data = <%= chart_data %>;
+          var config = {
               title: {
                   text: '<%= tweets.size %> tweets of <%= chart_name %>'
               },
@@ -45,7 +45,9 @@
               navigator: {enabled: false},
               exporting: {enabled: false},
               credits: {enabled: false}
-          });
+          };
+          Highcharts.stockChart('chart-container', config);
       }
       document.addEventListener("DOMContentLoaded", function () {
@@ -55,6 +57,15 @@
   </script>
   <style type=text/css>
+    #chart-container {
+      max-width: 1200px;
+      height: 675px;
+      margin: 0 auto;
+      border: 1px solid rgb(204, 214, 221);
+      display: flex;
+      justify-content: center;
+      align-items: center;
+    }
     .tweets-container {
       max-width: 550px;
       margin: 0 auto 0 auto;
@@ -66,10 +77,10 @@
   </style>
 </head>
 <body>
-<div id="chart" style="width: 100vw; height: 400px;"></div>
+<div id="chart-container"><div style="color: gray;">Loading...</div></div>
 <div class="tweets-container">
-  <% tweets.each.with_index do |tweet, i| %>
+  <% tweets.sort_by { |t| -t.created_at.to_i }.each.with_index do |tweet, i| %>
     <% tweet_time = tweet.created_at.localtime.strftime('%Y-%m-%d %H:%M') %>
     <% if i < convert_limit %>
       <blockquote class="twitter-tweet">

data/lib/version.rb CHANGED

@@ -1,3 +1,3 @@
 module Twitterscraper
-  VERSION = '0.17.0'
+  VERSION = '0.18.0'
 end

metadata CHANGED

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: twitterscraper-ruby
 version: !ruby/object:Gem::Version
-  version: 0.17.0
+  version: 0.18.0
 platform: ruby
 authors:
 - ts-3156
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2020-07-18 00:00:00.000000000 Z
+date: 2020-07-19 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: nokogiri