RubyGems - twitterscraper-ruby - Versions diffs - 0.15.2 → 0.20.0 - Mend

twitterscraper-ruby 0.15.2 → 0.20.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (14) hide show

checksums.yaml +4 -4
data/.gitignore +1 -0
data/Gemfile.lock +1 -1
data/README.md +4 -0
data/lib/twitterscraper/cache.rb +13 -1
data/lib/twitterscraper/cli.rb +25 -12
data/lib/twitterscraper/client.rb +27 -1
data/lib/twitterscraper/query.rb +94 -68
data/lib/twitterscraper/template.rb +52 -42
data/lib/twitterscraper/template/tweets.html.erb +112 -0
data/lib/twitterscraper/tweet.rb +9 -0
data/lib/twitterscraper/type.rb +4 -0
data/lib/version.rb +1 -1
metadata +3 -2

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 7f7d320841125d9a582ece6083f421f0abf301addbc5c5c2a3d2b2c09bedbc33
-  data.tar.gz: 6ea43165ffa4f37c4319566689a42f2f275d8a70402b0d6b4164df519fee90b5
+  metadata.gz: 73a9e9108284fc79cf5ec6b36b6f7ad3f83f2b4f03a2bc527dc18cb4b33e83c7
+  data.tar.gz: c7fcfdbdd1d808780c56610be9b8717352c812759b9344d9fa87cbd430a8d8e2
 SHA512:
-  metadata.gz: ee3756538ec28e9f0113e611e2731ec33107dabacf7cb730b257d6c94351407ef171a9bc91402a589fa73fdb6b705f73b11582766af1d04a3413b8bc79dc6619
-  data.tar.gz: 78200dc658a9c1cf43ed7367e499b0d1b243728aecb2ffd7366b5612f8905bb33d27ab7e1412327d05b7fff159196fe9e24d18c8cc4c24898af10533fbdf43df
+  metadata.gz: 1019547fe8c37a1bb5b4a9cd96a2737a14491087075ff448b48f72538758337c76ab513e153d4567454b192d30fafaa374913ae0c3548d7802e7bdd478fe4a2f
+  data.tar.gz: 48134e8b6858154850003da8684d3c8b7f124cab6d19e0ce76d05326dc8fef44694b32211e245509993e8b7b1afafa6d95914b05c66b9c95c54bb27d041983fe

data/.gitignore CHANGED

@@ -8,3 +8,4 @@
 /tmp/
 /cache
 /.idea
+.DS_Store

data/Gemfile.lock CHANGED

@@ -1,7 +1,7 @@
 PATH
   remote: .
   specs:
-    twitterscraper-ruby (0.15.2)
+    twitterscraper-ruby (0.20.0)
       nokogiri
       parallel

data/README.md CHANGED

@@ -98,6 +98,7 @@ end
       "screen_name": "@name",
       "name": "Name",
       "user_id": 12340000,
+      "profile_image_url": "https://pbs.twimg.com/profile_images/1826000000/0000.png",
       "tweet_id": 1234000000000000,
       "text": "Thanks Twitter!",
       "links": [],
@@ -122,6 +123,7 @@ end
 - screen_name
 - name
 - user_id
+- profile_image_url
 - tweet_id
 - text
 - links
@@ -173,6 +175,8 @@ Search operators documentation is in [Standard search operators](https://develop
 | `--limit`      | integer | Stop scraping when *at least* the number of tweets indicated with --limit is scraped. | 100 |
 | `--order`      | string  | Sort a order of the results. | desc(default) or asc |
 | `--threads`    | integer | Set the number of threads twitterscraper-ruby should initiate while scraping for your query. | 2 |
+| `--threads_granularity` | string | day or hour | auto |
+| `--chart_grouping` | string | day, hour or minute | auto |
 | `--proxy`      | boolean | Scrape https://twitter.com/search via proxies. | true(default) or false |
 | `--cache`      | boolean | Enable caching. | true(default) or false |
 | `--format`     | string  | The format of the output. | json(default) or html |

data/lib/twitterscraper/cache.rb CHANGED

@@ -4,7 +4,7 @@ require 'digest/md5'
 module Twitterscraper
   class Cache
     def initialize()
-      @ttl = 3600 # 1 hour
+      @ttl = 86400 * 3 # 3 day
       @dir = 'cache'
       Dir.mkdir(@dir) unless File.exist?(@dir)
     end
@@ -25,6 +25,18 @@ module Twitterscraper
       File.write(file, entry.to_json)
     end
+    def exist?(key)
+      key = cache_key(key)
+      file = File.join(@dir, key)
+      File.exist?(file)
+    end
+    def delete(key)
+      key = cache_key(key)
+      file = File.join(@dir, key)
+      File.delete(file) if File.exist?(file)
+    end
     def fetch(key, &block)
       if (value = read(key))
         value

data/lib/twitterscraper/cli.rb CHANGED

@@ -24,21 +24,25 @@ module Twitterscraper
           daily_limit: options['daily_limit'],
           order: options['order'],
           threads: options['threads'],
+          threads_granularity: options['threads_granularity'],
       }
       client = Twitterscraper::Client.new(cache: options['cache'], proxy: options['proxy'])
       tweets = client.query_tweets(options['query'], query_options)
-      export(tweets) unless tweets.empty?
+      export(options['query'], tweets) unless tweets.empty?
     end
-    def export(tweets)
-      write_json = lambda { File.write(options['output'], generate_json(tweets)) }
-      if options['format'] == 'json'
-        write_json.call
-      elsif options['format'] == 'html'
-        File.write('tweets.html', Template.tweets_embedded_html(tweets))
-      else
-        write_json.call
+    def export(name, tweets)
+      options['format'].split(',').map(&:strip).each do |format|
+        file = build_output_name(format, options)
+        Dir.mkdir(File.dirname(file)) unless File.exist?(File.dirname(file))
+        if format == 'json'
+          File.write(file, generate_json(tweets))
+        elsif format == 'html'
+          File.write(file, Template.new.tweets_embedded_html(name, tweets, options))
+        else
+          puts "Invalid format #{format}"
+        end
       end
     end
@@ -69,6 +73,8 @@ module Twitterscraper
           'daily_limit:',
           'order:',
           'threads:',
+          'threads_granularity:',
+          'chart_grouping:',
           'output:',
           'format:',
           'cache:',
@@ -82,10 +88,10 @@ module Twitterscraper
       options['lang'] ||= ''
       options['limit'] = (options['limit'] || 100).to_i
       options['daily_limit'] = options['daily_limit'].to_i if options['daily_limit']
-      options['threads'] = (options['threads'] || 2).to_i
+      options['threads'] = (options['threads'] || 10).to_i
+      options['threads_granularity'] ||= 'auto'
       options['format'] ||= 'json'
       options['order'] ||= 'desc'
-      options['output'] ||= "tweets.#{options['format']}"
       options['cache'] = options['cache'] != 'false'
       options['proxy'] = options['proxy'] != 'false'
@@ -93,6 +99,13 @@ module Twitterscraper
       options
     end
+    def build_output_name(format, options)
+      query = options['query'].gsub(/[ :?#&]/, '_')
+      date = [options['start_date'], options['end_date']].select { |val| val && !val.empty? }.join('_')
+      file = [options['type'], 'tweets', date, query].compact.join('_') + '.' + format
+      File.join('out', file)
+    end
     def initialize_logger
       Twitterscraper.logger.level = ::Logger::DEBUG if options['verbose']
     end

data/lib/twitterscraper/client.rb CHANGED

@@ -2,9 +2,31 @@ module Twitterscraper
   class Client
     include Query
+    USER_AGENT_LIST = [
+        'Mozilla/5.0 (Windows; U; Windows NT 6.1; x64; fr; rv:1.9.2.13) Gecko/20101203 Firebird/3.6.13',
+        'Mozilla/5.0 (compatible, MSIE 11, Windows NT 6.3; Trident/7.0; rv:11.0) like Gecko',
+        'Mozilla/5.0 (Windows; U; Windows NT 6.1; rv:2.2) Gecko/20110201',
+        'Opera/9.80 (X11; Linux i686; Ubuntu/14.10) Presto/2.12.388 Version/12.16',
+        'Mozilla/5.0 (Windows NT 5.2; RW; rv:7.0a1) Gecko/20091211 SeaMonkey/9.23a1pre',
+    ]
     def initialize(cache: true, proxy: true)
+      @request_headers = {'User-Agent': USER_AGENT_LIST.sample, 'X-Requested-With': 'XMLHttpRequest'}
+      Twitterscraper.logger.info "Headers #{@request_headers}"
       @cache = cache
-      @proxy = proxy
+      if (@proxy = proxy)
+        @proxies = Proxy::Pool.new
+        Twitterscraper.logger.debug "Fetch #{@proxies.size} proxies"
+      else
+        @proxies = []
+        Twitterscraper.logger.debug 'Proxy disabled'
+      end
+    end
+    def request_headers
+      @request_headers
     end
     def cache_enabled?
@@ -14,5 +36,9 @@ module Twitterscraper
     def proxy_enabled?
       @proxy
     end
+    def proxies
+      @proxies
+    end
   end
 end

data/lib/twitterscraper/query.rb CHANGED

@@ -10,14 +10,6 @@ module Twitterscraper
   module Query
     include Logger
-    USER_AGENT_LIST = [
-        'Mozilla/5.0 (Windows; U; Windows NT 6.1; x64; fr; rv:1.9.2.13) Gecko/20101203 Firebird/3.6.13',
-        'Mozilla/5.0 (compatible, MSIE 11, Windows NT 6.3; Trident/7.0; rv:11.0) like Gecko',
-        'Mozilla/5.0 (Windows; U; Windows NT 6.1; rv:2.2) Gecko/20110201',
-        'Opera/9.80 (X11; Linux i686; Ubuntu/14.10) Presto/2.12.388 Version/12.16',
-        'Mozilla/5.0 (Windows NT 5.2; RW; rv:7.0a1) Gecko/20091211 SeaMonkey/9.23a1pre',
-    ]
     INIT_URL = 'https://twitter.com/search?f=tweets&vertical=default&q=__QUERY__&l=__LANG__'
     RELOAD_URL = 'https://twitter.com/i/search/timeline?f=tweets&vertical=' +
         'default&include_available_features=1&include_entities=1&' +
@@ -43,13 +35,13 @@ module Twitterscraper
       end
     end
-    def get_single_page(url, headers, proxies, timeout = 6, retries = 30)
+    def get_single_page(url, timeout = 6, retries = 30)
       return nil if stop_requested?
-      unless proxies.empty?
+      if proxy_enabled?
         proxy = proxies.sample
         logger.info("Using proxy #{proxy}")
       end
-      Http.get(url, headers, proxy, timeout)
+      Http.get(url, request_headers, proxy, timeout)
     rescue => e
       logger.debug "get_single_page: #{e.inspect}"
       if (retries -= 1) > 0
@@ -69,30 +61,33 @@ module Twitterscraper
       else
         json_resp = JSON.parse(text)
         items_html = json_resp['items_html'] || ''
-        logger.warn json_resp['message'] if json_resp['message'] # Sorry, you are rate limited.
       end
       [items_html, json_resp]
     end
-    def query_single_page(query, lang, type, pos, headers: [], proxies: [])
+    def query_single_page(query, lang, type, pos)
       logger.info "Querying #{query}"
-      query = ERB::Util.url_encode(query)
+      encoded_query = ERB::Util.url_encode(query)
-      url = build_query_url(query, lang, type, pos)
+      url = build_query_url(encoded_query, lang, type, pos)
       http_request = lambda do
-        logger.debug "Scraping tweets from #{url}"
-        get_single_page(url, headers, proxies)
+        logger.debug "Scraping tweets from url=#{url}"
+        get_single_page(url)
       end
       if cache_enabled?
         client = Cache.new
         if (response = client.read(url))
-          logger.debug 'Fetching tweets from cache'
+          logger.debug "Fetching tweets from cache url=#{url}"
         else
           response = http_request.call
           client.write(url, response) unless stop_requested?
         end
+        if @queries && query == @queries.last && pos.nil?
+          logger.debug "Delete a cache query=#{query}"
+          client.delete(url)
+        end
       else
         response = http_request.call
       end
@@ -100,6 +95,12 @@ module Twitterscraper
       html, json_resp = parse_single_page(response, pos.nil?)
+      if json_resp && json_resp['message']
+        logger.warn json_resp['message'] # Sorry, you are rate limited.
+        @stop_requested = true
+        Cache.new.delete(url) if cache_enabled?
+      end
       tweets = Tweet.from_html(html)
       if tweets.empty?
@@ -130,126 +131,151 @@ module Twitterscraper
       if start_date && end_date
         if start_date == end_date
           raise Error.new('Please specify different values for :start_date and :end_date.')
-        elsif start_date > end_date
+        elsif Date.parse(start_date) > Date.parse(end_date)
           raise Error.new(':start_date must occur before :end_date.')
         end
       end
       if start_date
-        if start_date < OLDEST_DATE
+        if Date.parse(start_date) < OLDEST_DATE
           raise Error.new(":start_date must be greater than or equal to #{OLDEST_DATE}")
         end
       end
+    end
-      if end_date
-        today = Date.today
-        if end_date > Date.today
-          raise Error.new(":end_date must be less than or equal to today(#{today})")
-        end
+    def build_queries(query, start_date, end_date, threads_granularity, type)
+      if type.search?
+        start_date = Date.parse(start_date) if start_date.is_a?(String)
+        end_date = Date.parse(end_date) if end_date.is_a?(String)
+      elsif type.user?
+        start_date = nil
+        end_date = nil
       end
-    end
-    def build_queries(query, start_date, end_date)
       if start_date && end_date
-        date_range = start_date.upto(end_date - 1)
-        date_range.map { |date| query + " since:#{date} until:#{date + 1}" }
+        if threads_granularity == 'auto'
+          threads_granularity = start_date.upto(end_date - 1).to_a.size >= 28 ? 'day' : 'hour'
+        end
+        if threads_granularity == 'day'
+          date_range = start_date.upto(end_date - 1)
+          queries = date_range.map { |date| query + " since:#{date}_00:00:00_UTC until:#{date + 1}_00:00:00_UTC" }
+        elsif threads_granularity == 'hour'
+          time = Time.utc(start_date.year, start_date.month, start_date.day, 0, 0, 0)
+          end_time = Time.utc(end_date.year, end_date.month, end_date.day, 0, 0, 0)
+          queries = []
+          while true
+            if time < Time.now.utc
+              queries << (query + " since:#{time.strftime('%Y-%m-%d_%H')}:00:00_UTC until:#{(time + 3600).strftime('%Y-%m-%d_%H')}:00:00_UTC")
+            end
+            time += 3600
+            break if time >= end_time
+          end
+        else
+          raise Error.new("Invalid :threads_granularity value=#{threads_granularity}")
+        end
+        @queries = queries
       elsif start_date
-        [query + " since:#{start_date}"]
+        [query + " since:#{start_date}_00:00:00_UTC"]
       elsif end_date
-        [query + " until:#{end_date}"]
+        [query + " until:#{end_date}_00:00:00_UTC"]
       else
         [query]
       end
     end
-    def main_loop(query, lang, type, limit, daily_limit, headers, proxies)
+    def main_loop(query, lang, type, limit, daily_limit)
       pos = nil
-      daily_tweets = []
+      tmp_tweets = []
       while true
-        new_tweets, new_pos = query_single_page(query, lang, type, pos, headers: headers, proxies: proxies)
+        new_tweets, new_pos = query_single_page(query, lang, type, pos)
         unless new_tweets.empty?
-          daily_tweets.concat(new_tweets)
-          daily_tweets.uniq! { |t| t.tweet_id }
+          tmp_tweets.concat(new_tweets)
+          tmp_tweets.uniq! { |t| t.tweet_id }
+        end
-          @mutex.synchronize {
-            @all_tweets.concat(new_tweets)
-            @all_tweets.uniq! { |t| t.tweet_id }
-          }
+        @results_counter[Parallel.worker_number] = tmp_tweets.size
+        total_size = @all_tweets.size + @results_counter.values.sum
+        logger.info "Got tweets new=#{new_tweets.size} tmp=#{tmp_tweets.size} all=#{@all_tweets.size} total=#{total_size}"
+        if !@stop_requested && total_size >= limit
+          logger.warn "The limit you specified has been reached limit=#{limit} tweets=#{total_size}"
+          @stop_requested = true
         end
-        logger.info "Got #{new_tweets.size} tweets (total #{@all_tweets.size})"
         break unless new_pos
-        break if daily_limit && daily_tweets.size >= daily_limit
+        break if @stop_requested
+        break if daily_limit && tmp_tweets.size >= daily_limit
         break if @all_tweets.size >= limit
         pos = new_pos
       end
-      if !@stop_requested && @all_tweets.size >= limit
-        logger.warn "The limit you specified has been reached limit=#{limit} tweets=#{@all_tweets.size}"
-        @stop_requested = true
-      end
+      tmp_tweets
     end
     def stop_requested?
       @stop_requested
     end
-    def query_tweets(query, type: 'search', start_date: nil, end_date: nil, lang: nil, limit: 100, daily_limit: nil, order: 'desc', threads: 2)
-      start_date = Date.parse(start_date) if start_date && start_date.is_a?(String)
-      end_date = Date.parse(end_date) if end_date && end_date.is_a?(String)
-      queries = build_queries(query, start_date, end_date)
+    def query_tweets(query, type: 'search', start_date: nil, end_date: nil, lang: nil, limit: 100, daily_limit: nil, order: 'desc', threads: 10, threads_granularity: 'auto')
       type = Type.new(type)
+      queries = build_queries(query, start_date, end_date, threads_granularity, type)
       if threads > queries.size
-        logger.warn 'The maximum number of :threads is the number of dates between :start_date and :end_date.'
         threads = queries.size
       end
-      if proxy_enabled?
-        proxies = Proxy::Pool.new
-        logger.debug "Fetch #{proxies.size} proxies"
-      else
-        proxies = []
-        logger.debug 'Proxy disabled'
-      end
       logger.debug "Cache #{cache_enabled? ? 'enabled' : 'disabled'}"
       validate_options!(queries, type: type, start_date: start_date, end_date: end_date, lang: lang, limit: limit, threads: threads)
+      logger.info "The number of queries #{queries.size}"
       logger.info "The number of threads #{threads}"
-      headers = {'User-Agent': USER_AGENT_LIST.sample, 'X-Requested-With': 'XMLHttpRequest'}
-      logger.info "Headers #{headers}"
       @all_tweets = []
-      @mutex = Mutex.new
       @stop_requested = false
+      @results_counter = {}
       if threads > 1
+        @mutex = Mutex.new
         Thread.abort_on_exception = true
         logger.debug "Set 'Thread.abort_on_exception' to true"
         Parallel.each(queries, in_threads: threads) do |query|
-          main_loop(query, lang, type, limit, daily_limit, headers, proxies)
+          @results_counter[Parallel.worker_number] = 0
+          tmp_tweets = main_loop(query, lang, type, limit, daily_limit)
+          @mutex.synchronize {
+            @all_tweets.concat(tmp_tweets)
+            @all_tweets.uniq! { |t| t.tweet_id }
+          }
+          @results_counter[Parallel.worker_number] = 0
           raise Parallel::Break if stop_requested?
         end
       else
         queries.each do |query|
-          main_loop(query, lang, type, limit, daily_limit, headers, proxies)
+          tmp_tweets = main_loop(query, lang, type, limit, daily_limit)
+          @all_tweets.concat(tmp_tweets)
+          @all_tweets.uniq! { |t| t.tweet_id }
           break if stop_requested?
         end
       end
+      logger.info "Return #{@all_tweets.size} tweets"
       @all_tweets.sort_by { |tweet| (order == 'desc' ? -1 : 1) * tweet.created_at.to_i }
     end
-    def search(query, start_date: nil, end_date: nil, lang: '', limit: 100, daily_limit: nil, order: 'desc', threads: 2)
-      query_tweets(query, type: 'search', start_date: start_date, end_date: end_date, lang: lang, limit: limit, daily_limit: daily_limit, order: order, threads: threads)
+    def search(query, start_date: nil, end_date: nil, lang: '', limit: 100, daily_limit: nil, order: 'desc', threads: 10, threads_granularity: 'auto')
+      query_tweets(query, type: 'search', start_date: start_date, end_date: end_date, lang: lang, limit: limit, daily_limit: daily_limit, order: order, threads: threads, threads_granularity: threads_granularity)
     end
     def user_timeline(screen_name, limit: 100, order: 'desc')
-      query_tweets(screen_name, type: 'user', start_date: nil, end_date: nil, lang: nil, limit: limit, daily_limit: nil, order: order, threads: 1)
+      query_tweets(screen_name, type: 'user', start_date: nil, end_date: nil, lang: nil, limit: limit, daily_limit: nil, order: order, threads: 1, threads_granularity: nil)
     end
   end
 end

data/lib/twitterscraper/template.rb CHANGED

@@ -1,48 +1,58 @@
 module Twitterscraper
-  module Template
-    module_function
+  class Template
+    def tweets_embedded_html(name, tweets, options)
+      path = File.join(File.dirname(__FILE__), 'template/tweets.html.erb')
+      template = ERB.new(File.read(path))
-    def tweets_embedded_html(tweets)
-      tweets_html = tweets.map { |t| EMBED_TWEET_HTML.sub('__TWEET_URL__', t.tweet_url) }
-      EMBED_TWEETS_HTML.sub('__TWEETS__', tweets_html.join)
+      tweets = tweets.sort_by { |t| t.created_at.to_i }
+      grouping = options['chart_grouping'] || 'auto'
+      template.result_with_hash(
+          chart_name: name,
+          chart_data: chart_data(tweets, grouping: grouping).to_json,
+          first_tweet: tweets[0],
+          last_tweet: tweets[-1],
+          tweets: tweets,
+          convert_limit: 30,
+      )
     end
-    EMBED_TWEET_HTML = <<~'HTML'
-      <blockquote class="twitter-tweet">
-        <a href="__TWEET_URL__"></a>
-      </blockquote>
-    HTML
-    EMBED_TWEETS_HTML = <<~'HTML'
-      <html>
-        <head>
-          <style type=text/css>
-            .twitter-tweet {
-              margin: 30px auto 0 auto !important;
-            }
-          </style>
-          <script>
-            window.twttr = (function(d, s, id) {
-              var js, fjs = d.getElementsByTagName(s)[0], t = window.twttr || {};
-              if (d.getElementById(id)) return t;
-              js = d.createElement(s);
-              js.id = id;
-              js.src = "https://platform.twitter.com/widgets.js";
-              fjs.parentNode.insertBefore(js, fjs);
-              t._e = [];
-              t.ready = function(f) {
-                  t._e.push(f);
-              };
-              return t;
-            }(document, "script", "twitter-wjs"));
-          </script>
-        </head>
-        <body>
-          __TWEETS__
-        </body>
-      </html>
-    HTML
+    def chart_data(tweets, grouping: 'auto')
+      if grouping && tweets.size > 100
+        if grouping == 'auto'
+          month = 28 * 24 * 60 * 60 # 28 days
+          duration = tweets[-1].created_at - tweets[0].created_at
+          if duration > 3 * month
+            grouping = 'day'
+          elsif duration > month || tweets.size > 10000
+            grouping = 'hour'
+          else
+            grouping = 'minute'
+          end
+        end
+      end
+      Twitterscraper.logger.info "Chart grouping #{grouping}"
+      data = tweets.each_with_object(Hash.new(0)) do |tweet, memo|
+        t = tweet.created_at
+        if grouping == 'day'
+          time = Time.new(t.year, t.month, t.day, 0, 0, 0, '+00:00')
+        elsif grouping == 'hour'
+          time = Time.new(t.year, t.month, t.day, t.hour, 0, 0, '+00:00')
+        elsif grouping == 'minute'
+          time = Time.new(t.year, t.month, t.day, t.hour, t.min, 0, '+00:00')
+        else
+          time = t
+        end
+        memo[time.to_i] += 1
+      end
+      data.sort_by { |k, _| k }.map do |timestamp, count|
+        [timestamp * 1000, count]
+      end
+    end
   end
 end

data/lib/twitterscraper/template/tweets.html.erb ADDED

@@ -0,0 +1,112 @@
+<!DOCTYPE html>
+<html lang="ja">
+<head>
+  <meta charset="UTF-8">
+  <script src="https://cdnjs.cloudflare.com/ajax/libs/moment.js/2.27.0/moment.min.js" integrity="sha512-rmZcZsyhe0/MAjquhTgiUcb4d9knaFc7b5xAfju483gbEXTkeJRUMIPk6s3ySZMYUHEcjKbjLjyddGWMrNEvZg==" crossorigin="anonymous"></script>
+  <script src="https://cdnjs.cloudflare.com/ajax/libs/moment-timezone/0.5.31/moment-timezone-with-data.min.js" integrity="sha512-HZcf3uHWA+Y2P5KNv+F/xa87/flKVP92kUTe/KXjU8URPshczF1Dx+cL5bw0VBGhmqWAK0UbhcqxBbyiNtAnWQ==" crossorigin="anonymous"></script>
+  <script src="https://code.highcharts.com/stock/highstock.js"></script>
+  <script>
+      function updateTweets() {
+          window.twttr = (function (d, s, id) {
+              var js, fjs = d.getElementsByTagName(s)[0], t = window.twttr || {};
+              if (d.getElementById(id)) return t;
+              js = d.createElement(s);
+              js.id = id;
+              js.src = "https://platform.twitter.com/widgets.js";
+              fjs.parentNode.insertBefore(js, fjs);
+              t._e = [];
+              t.ready = function (f) {
+                  t._e.push(f);
+              };
+              return t;
+          }(document, "script", "twitter-wjs"));
+      }
+      function drawChart() {
+          Highcharts.setOptions({
+              time: {
+                  timezone: moment.tz.guess()
+              }
+          });
+          var data = <%= chart_data %>;
+          var config = {
+              title: {
+                  text: '<%= tweets.size %> tweets of <%= chart_name %>'
+              },
+              subtitle: {
+                  text: 'since:<%= first_tweet.created_at.localtime.strftime('%Y-%m-%d %H:%M') %> until:<%= last_tweet.created_at.localtime.strftime('%Y-%m-%d %H:%M') %>'
+              },
+              series: [{
+                  data: data
+              }],
+              rangeSelector: {enabled: false},
+              scrollbar: {enabled: false},
+              navigator: {enabled: false},
+              exporting: {enabled: false},
+              credits: {enabled: false}
+          };
+          Highcharts.stockChart('chart-container', config);
+      }
+      document.addEventListener("DOMContentLoaded", function () {
+          drawChart();
+          updateTweets();
+      });
+  </script>
+  <style type=text/css>
+    #chart-container {
+      max-width: 1200px;
+      height: 675px;
+      margin: 0 auto;
+      border: 1px solid rgb(204, 214, 221);
+      display: flex;
+      justify-content: center;
+      align-items: center;
+    }
+    .tweets-container {
+      max-width: 550px;
+      margin: 0 auto 0 auto;
+    }
+    .twitter-tweet {
+      margin: 15px 0 15px 0 !important;
+    }
+  </style>
+</head>
+<body>
+<div id="chart-container"><div style="color: gray;">Loading...</div></div>
+<div class="tweets-container">
+  <% tweets.sort_by { |t| -t.created_at.to_i }.take(1000).each.with_index do |tweet, i| %>
+    <% tweet_time = tweet.created_at.localtime.strftime('%Y-%m-%d %H:%M') %>
+    <% if i < convert_limit %>
+      <blockquote class="twitter-tweet">
+    <% else %>
+      <div class="twitter-tweet" style="border: 1px solid rgb(204, 214, 221);">
+    <% end %>
+    <div style="display: grid; grid-template-rows: 24px 24px; grid-template-columns: 48px 1fr;">
+      <div style="grid-row: 1/3; grid-column:  1/2;"><img src="<%= tweet.profile_image_url %>" width="48" height="48" loading="lazy"></div>
+      <div style="grid-row: 1/2; grid-column:  2/3;"><%= tweet.name %></div>
+      <div style="grid-row: 2/3; grid-column:  2/3;"><a href="https://twitter.com/<%= tweet.screen_name %>">@<%= tweet.screen_name %></a></div>
+    </div>
+    <div><%= tweet.text %></div>
+    <div><a href="<%= tweet.tweet_url %>"><small><%= tweet_time %></small></a></div>
+    <% if i < convert_limit %>
+      </blockquote>
+    <% else %>
+      </div>
+    <% end %>
+  <% end %>
+</div>
+</body>
+</html>

data/lib/twitterscraper/tweet.rb CHANGED

@@ -6,6 +6,7 @@ module Twitterscraper
         :screen_name,
         :name,
         :user_id,
+        :profile_image_url,
         :tweet_id,
         :text,
         :links,
@@ -51,6 +52,11 @@ module Twitterscraper
         end
       end
+      # .js-stream-item
+      #   .js-stream-tweet{data: {screen-name:, tweet-id:}}
+      #     .stream-item-header
+      #     .js-tweet-text-container
+      #     .stream-item-footer
       def from_html(text)
         html = Nokogiri::HTML(text)
         from_tweets_html(html.xpath("//li[@class[contains(., 'js-stream-item')]]/div[@class[contains(., 'js-stream-tweet')]]"))
@@ -72,6 +78,8 @@ module Twitterscraper
         end
         inner_html = Nokogiri::HTML(html.inner_html)
+        profile_image_url = inner_html.xpath("//img[@class[contains(., 'js-action-profile-avatar')]]").first.attr('src').gsub(/_bigger/, '')
         text = inner_html.xpath("//div[@class[contains(., 'js-tweet-text-container')]]/p[@class[contains(., 'js-tweet-text')]]").first.text
         links = inner_html.xpath("//a[@class[contains(., 'twitter-timeline-link')]]").map { |elem| elem.attr('data-expanded-url') }.select { |link| link && !link.include?('pic.twitter') }
         image_urls = inner_html.xpath("//div[@class[contains(., 'AdaptiveMedia-photoContainer')]]").map { |elem| elem.attr('data-image-url') }
@@ -99,6 +107,7 @@ module Twitterscraper
             screen_name: screen_name,
             name: html.attr('data-name'),
             user_id: html.attr('data-user-id').to_i,
+            profile_image_url: profile_image_url,
             tweet_id: tweet_id,
             text: text,
             links: links,

data/lib/twitterscraper/type.rb CHANGED

@@ -11,5 +11,9 @@ module Twitterscraper
     def user?
       @value == 'user'
     end
+    def to_s
+      @value
+    end
   end
 end

data/lib/version.rb CHANGED

@@ -1,3 +1,3 @@
 module Twitterscraper
-  VERSION = '0.15.2'
+  VERSION = '0.20.0'
 end

metadata CHANGED

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: twitterscraper-ruby
 version: !ruby/object:Gem::Version
-  version: 0.15.2
+  version: 0.20.0
 platform: ruby
 authors:
 - ts-3156
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2020-07-17 00:00:00.000000000 Z
+date: 2020-07-24 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: nokogiri
@@ -72,6 +72,7 @@ files:
 - lib/twitterscraper/proxy.rb
 - lib/twitterscraper/query.rb
 - lib/twitterscraper/template.rb
+- lib/twitterscraper/template/tweets.html.erb
 - lib/twitterscraper/tweet.rb
 - lib/twitterscraper/type.rb
 - lib/version.rb