RubyGems - twitterscraper-ruby - Versions diffs - 0.10.0 → 0.15.0 - Mend

twitterscraper-ruby 0.10.0 → 0.15.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (17) hide show

checksums.yaml +4 -4
data/.circleci/config.yml +31 -0
data/.gitignore +1 -1
data/.rspec +2 -0
data/Gemfile +1 -0
data/Gemfile.lock +16 -1
data/README.md +32 -20
data/bin/twitterscraper +1 -1
data/lib/twitterscraper.rb +1 -0
data/lib/twitterscraper/cache.rb +69 -0
data/lib/twitterscraper/cli.rb +17 -4
data/lib/twitterscraper/client.rb +13 -0
data/lib/twitterscraper/proxy.rb +5 -4
data/lib/twitterscraper/query.rb +93 -47
data/lib/twitterscraper/tweet.rb +18 -3
data/lib/version.rb +1 -1
metadata +5 -2

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: c2429cf6172b5f19caede64ac35f5c796a7c8a67e76fff8dd2f08677fb15406b
-  data.tar.gz: 0f32ca6b559a18c4e3aac3205f6503149e372d4d7d1976b1e83db26036d9ff17
+  metadata.gz: a950fb24329aaa1020441e258a8a2144100d732142b6c227bb9b026b8bb73996
+  data.tar.gz: 1f64f31e43189e2ee439f5ef6f6d54bc6ea58895adbed67cb8ddbe91af07681a
 SHA512:
-  metadata.gz: a36ce6c91a363b64b36deeb3abbaaaebb725f3449f280b70be92532497a94dc5915ba449926acfacfc0d852d52471d258d41140a8891e64b6040bf262d0c347f
-  data.tar.gz: a737c7db151190a1493b1a2a92bea304cfcf7512b2ee03fc13c6f25794f5dc727fe548e52cb39eccc2a63261fee0d58fc005920a0e7cd7650d20600e184d79cb
+  metadata.gz: 8573affbc9a5faa05e5e489364bb2ba0da1aa4f12af35445e5de8b1f8c399eb0575cc9f408b2ba96c3d7fd8b2a74b7dd703229053a33c1f8a883856818033cb9
+  data.tar.gz: 2b2b3ad0b2dd9d089a7b6127ed1b0db21e7f4fa5f0c31e6b366d9b5ae444e2244d4200c813b7a3257f43702d2caa9f264515e701602c24f4482a746b89d41328

data/.circleci/config.yml ADDED

@@ -0,0 +1,31 @@
+version: 2.1
+orbs:
+  ruby: circleci/ruby@0.1.2
+jobs:
+  build:
+    docker:
+      - image: circleci/ruby:2.6.4-stretch-node
+        environment:
+          BUNDLER_VERSION: 2.1.4
+    executor: ruby/default
+    steps:
+      - checkout
+      - run:
+          name: Update bundler
+          command: gem update bundler
+      - run:
+          name: Which bundler?
+          command: bundle -v
+      - restore_cache:
+          keys:
+            - gem-cache-v1-{{ arch }}-{{ .Branch }}-{{ checksum "Gemfile.lock" }}
+            - gem-cache-v1-{{ arch }}-{{ .Branch }}
+            - gem-cache-v1
+      - run: bundle install --path vendor/bundle
+      - run: bundle clean
+      - save_cache:
+          key: gem-cache-v1-{{ arch }}-{{ .Branch }}-{{ checksum "Gemfile.lock" }}
+          paths:
+            - vendor/bundle
+      - run: bundle exec rspec

data/.gitignore CHANGED

@@ -6,5 +6,5 @@
 /pkg/
 /spec/reports/
 /tmp/
+/cache
 /.idea

data/.rspec ADDED

	@@ -0,0 +1,2 @@
1	+ -fd
2	+ --require spec_helper

data/Gemfile CHANGED

@@ -5,3 +5,4 @@ gemspec
 gem "rake", "~> 12.0"
 gem "minitest", "~> 5.0"
+gem "rspec"

data/Gemfile.lock CHANGED

@@ -1,19 +1,33 @@
 PATH
   remote: .
   specs:
-    twitterscraper-ruby (0.10.0)
+    twitterscraper-ruby (0.15.0)
       nokogiri
       parallel
 GEM
   remote: https://rubygems.org/
   specs:
+    diff-lcs (1.4.4)
     mini_portile2 (2.4.0)
     minitest (5.14.1)
     nokogiri (1.10.10)
       mini_portile2 (~> 2.4.0)
     parallel (1.19.2)
     rake (12.3.3)
+    rspec (3.9.0)
+      rspec-core (~> 3.9.0)
+      rspec-expectations (~> 3.9.0)
+      rspec-mocks (~> 3.9.0)
+    rspec-core (3.9.2)
+      rspec-support (~> 3.9.3)
+    rspec-expectations (3.9.2)
+      diff-lcs (>= 1.2.0, < 2.0)
+      rspec-support (~> 3.9.0)
+    rspec-mocks (3.9.1)
+      diff-lcs (>= 1.2.0, < 2.0)
+      rspec-support (~> 3.9.0)
+    rspec-support (3.9.3)
 PLATFORMS
   ruby
@@ -21,6 +35,7 @@ PLATFORMS
 DEPENDENCIES
   minitest (~> 5.0)
   rake (~> 12.0)
+  rspec
   twitterscraper-ruby!
 BUNDLED WITH

data/README.md CHANGED

@@ -1,5 +1,6 @@
 # twitterscraper-ruby
+[![Build Status](https://circleci.com/gh/ts-3156/twitterscraper-ruby.svg?style=svg)](https://circleci.com/gh/ts-3156/twitterscraper-ruby)
 [![Gem Version](https://badge.fury.io/rb/twitterscraper-ruby.svg)](https://badge.fury.io/rb/twitterscraper-ruby)
 A gem to scrape https://twitter.com/search. This gem is inspired by [taspinar/twitterscraper](https://github.com/taspinar/twitterscraper).
@@ -32,27 +33,39 @@ $ gem install twitterscraper-ruby
 Command-line interface:
 ```shell script
-$ twitterscraper --query KEYWORD --start_date 2020-06-01 --end_date 2020-06-30 --lang ja \
-      --limit 100 --threads 10 --proxy --output output.json
+# Returns a collection of relevant tweets matching a specified query.
+$ twitterscraper --type search --query KEYWORD --start_date 2020-06-01 --end_date 2020-06-30 --lang ja \
+      --limit 100 --threads 10 --output tweets.json
+```
+```shell script
+# Returns a collection of the most recent tweets posted by the user indicated by the screen_name
+$ twitterscraper --type user --query SCREEN_NAME --limit 100 --output tweets.json
 ```
 From Within Ruby:
 ```ruby
 require 'twitterscraper'
+client = Twitterscraper::Client.new(cache: true, proxy: true)
+```
+```ruby
+# Returns a collection of relevant tweets matching a specified query.
+tweets = client.search(KEYWORD, start_date: '2020-06-01', end_date: '2020-06-30', lang: 'ja', limit: 100, threads: 10)
+```
-options = {
-  start_date: '2020-06-01',
-  end_date:   '2020-06-30',
-  lang:       'ja',
-  limit:      100,
-  threads:    10,
-  proxy:      true
-}
+```ruby
+# Returns a collection of the most recent tweets posted by the user indicated by the screen_name
+tweets = client.user_timeline(SCREEN_NAME, limit: 100)
+```
-client = Twitterscraper::Client.new
-tweets = client.query_tweets(KEYWORD, options)
+## Attributes
+### Tweet
+```ruby
 tweets.each do |tweet|
   puts tweet.tweet_id
   puts tweet.text
@@ -64,11 +77,6 @@ tweets.each do |tweet|
 end
 ```
-## Attributes
-### Tweet
 - screen_name
 - name
 - user_id
@@ -136,15 +144,19 @@ $ cat tweets.json | jq . | less
 | Option | Description | Default |
 | ------------- | ------------- | ------------- |
 | `-h`, `--help` | This option displays a summary of twitterscraper. | |
+| `--type` | Specify a search type. | search |
 | `--query` | Specify a keyword used during the search. | |
-| `--start_date` | Set the date from which twitterscraper-ruby should start scraping for your query. | |
-| `--end_date` | Set the enddate which twitterscraper-ruby should use to stop scraping for your query. | |
+| `--start_date` | Used as "since:yyyy-mm-dd for your query. This means "since the date". | |
+| `--end_date` | Used as "until:yyyy-mm-dd for your query. This means "before the date". | |
 | `--lang` | Retrieve tweets written in a specific language. | |
 | `--limit` | Stop scraping when *at least* the number of tweets indicated with --limit is scraped. | 100 |
+| `--order` | Sort order of the results. | desc |
 | `--threads` | Set the number of threads twitterscraper-ruby should initiate while scraping for your query. | 2 |
-| `--proxy` | Scrape https://twitter.com/search via proxies. | false |
+| `--proxy` | Scrape https://twitter.com/search via proxies. | true |
+| `--cache` | Enable caching. | true |
 | `--format` | The format of the output. | json |
 | `--output` | The name of the output file. | tweets.json |
+| `--verbose` | Print debug messages. | tweets.json |
 ## Contributing

data/bin/twitterscraper CHANGED

@@ -7,7 +7,7 @@ begin
   cli.parse
   cli.run
 rescue => e
-  STDERR.puts e.message
+  STDERR.puts e.inspect
   STDERR.puts e.backtrace.join("\n")
   exit 1
 end

data/lib/twitterscraper.rb CHANGED

@@ -2,6 +2,7 @@ require 'twitterscraper/logger'
 require 'twitterscraper/proxy'
 require 'twitterscraper/http'
 require 'twitterscraper/lang'
+require 'twitterscraper/cache'
 require 'twitterscraper/query'
 require 'twitterscraper/client'
 require 'twitterscraper/tweet'

data/lib/twitterscraper/cache.rb ADDED

@@ -0,0 +1,69 @@
+require 'base64'
+require 'digest/md5'
+module Twitterscraper
+  class Cache
+    def initialize()
+      @ttl = 3600 # 1 hour
+      @dir = 'cache'
+      Dir.mkdir(@dir) unless File.exist?(@dir)
+    end
+    def read(key)
+      key = cache_key(key)
+      file = File.join(@dir, key)
+      entry = Entry.from_json(File.read(file))
+      entry.value if entry.time > Time.now - @ttl
+    rescue Errno::ENOENT => e
+      nil
+    end
+    def write(key, value)
+      key = cache_key(key)
+      entry = Entry.new(key, value, Time.now)
+      file = File.join(@dir, key)
+      File.write(file, entry.to_json)
+    end
+    def fetch(key, &block)
+      if (value = read(key))
+        value
+      else
+        yield.tap { |v| write(key, v) }
+      end
+    end
+    def cache_key(key)
+      value = key.gsub(':', '%3A').gsub('/', '%2F').gsub('?', '%3F').gsub('=', '%3D').gsub('&', '%26')
+      value = Digest::MD5.hexdigest(value) if value.length >= 100
+      value
+    end
+    class Entry < Hash
+      attr_reader :key, :value, :time
+      def initialize(key, value, time)
+        @key = key
+        @value = value
+        @time = time
+      end
+      def attrs
+        {key: @key, value: @value, time: @time}
+      end
+      def to_json
+        hash = attrs
+        hash[:value] = Base64.encode64(hash[:value])
+        hash.to_json
+      end
+      class << self
+        def from_json(text)
+          json = JSON.parse(text)
+          new(json['key'], Base64.decode64(json['value']), Time.parse(json['time']))
+        end
+      end
+    end
+  end
+end

data/lib/twitterscraper/cli.rb CHANGED

@@ -16,14 +16,16 @@ module Twitterscraper
       print_version || return if print_version?
       query_options = {
+          type: options['type'],
           start_date: options['start_date'],
           end_date: options['end_date'],
           lang: options['lang'],
           limit: options['limit'],
+          daily_limit: options['daily_limit'],
+          order: options['order'],
           threads: options['threads'],
-          proxy: options['proxy']
       }
-      client = Twitterscraper::Client.new
+      client = Twitterscraper::Client.new(cache: options['cache'], proxy: options['proxy'])
       tweets = client.query_tweets(options['query'], query_options)
       export(tweets) unless tweets.empty?
     end
@@ -58,25 +60,36 @@ module Twitterscraper
           'help',
           'v',
           'version',
+          'type:',
           'query:',
           'start_date:',
           'end_date:',
           'lang:',
           'limit:',
+          'daily_limit:',
+          'order:',
           'threads:',
           'output:',
           'format:',
-          'proxy',
+          'cache:',
+          'proxy:',
           'pretty',
           'verbose',
       )
+      options['type'] ||= 'search'
+      options['start_date'] = Query::OLDEST_DATE if options['start_date'] == 'oldest'
       options['lang'] ||= ''
       options['limit'] = (options['limit'] || 100).to_i
+      options['daily_limit'] = options['daily_limit'].to_i if options['daily_limit']
       options['threads'] = (options['threads'] || 2).to_i
       options['format'] ||= 'json'
+      options['order'] ||= 'desc'
       options['output'] ||= "tweets.#{options['format']}"
+      options['cache'] = options['cache'] != 'false'
+      options['proxy'] = options['proxy'] != 'false'
       options
     end
@@ -100,7 +113,7 @@ module Twitterscraper
     end
     def print_version
-      puts "twitterscraper-#{Twitterscraper::VERSION}"
+      puts "twitterscraper-#{VERSION}"
     end
   end
 end

data/lib/twitterscraper/client.rb CHANGED

@@ -1,5 +1,18 @@
 module Twitterscraper
   class Client
     include Query
+    def initialize(cache: true, proxy: true)
+      @cache = cache
+      @proxy = proxy
+    end
+    def cache_enabled?
+      @cache
+    end
+    def proxy_enabled?
+      @proxy
+    end
   end
 end

data/lib/twitterscraper/proxy.rb CHANGED

@@ -17,15 +17,17 @@ module Twitterscraper
           reload
         end
         @cur_index += 1
-        item = @items[@cur_index - 1]
-        Twitterscraper.logger.info("Using proxy #{item}")
-        item
+        @items[@cur_index - 1]
       end
       def size
         @items.size
       end
+      def empty?
+        @items.empty?
+      end
       private
       def reload
@@ -51,7 +53,6 @@ module Twitterscraper
         proxies << ip + ':' + port
       end
-      Twitterscraper.logger.debug "Fetch #{proxies.size} proxies"
       proxies.shuffle
     rescue => e
       if (retries -= 1) > 0

data/lib/twitterscraper/query.rb CHANGED

@@ -22,36 +22,41 @@ module Twitterscraper
     RELOAD_URL = 'https://twitter.com/i/search/timeline?f=tweets&vertical=' +
         'default&include_available_features=1&include_entities=1&' +
         'reset_error_state=false&src=typd&max_position=__POS__&q=__QUERY__&l=__LANG__'
-    INIT_URL_USER = 'https://twitter.com/{u}'
-    RELOAD_URL_USER = 'https://twitter.com/i/profiles/show/{u}/timeline/tweets?' +
+    INIT_URL_USER = 'https://twitter.com/__USER__'
+    RELOAD_URL_USER = 'https://twitter.com/i/profiles/show/__USER__/timeline/tweets?' +
         'include_available_features=1&include_entities=1&' +
-        'max_position={pos}&reset_error_state=false'
-    def build_query_url(query, lang, pos, from_user = false)
-      # if from_user
-      #   if !pos
-      #     INIT_URL_USER.format(u = query)
-      #   else
-      #     RELOAD_URL_USER.format(u = query, pos = pos)
-      #   end
-      # end
-      if pos
-        RELOAD_URL.sub('__QUERY__', query).sub('__LANG__', lang.to_s).sub('__POS__', pos)
+        'max_position=__POS__&reset_error_state=false'
+    def build_query_url(query, lang, from_user, pos)
+      if from_user
+        if pos
+          RELOAD_URL_USER.sub('__USER__', query).sub('__POS__', pos.to_s)
+        else
+          INIT_URL_USER.sub('__USER__', query)
+        end
       else
-        INIT_URL.sub('__QUERY__', query).sub('__LANG__', lang.to_s)
+        if pos
+          RELOAD_URL.sub('__QUERY__', query).sub('__LANG__', lang.to_s).sub('__POS__', pos)
+        else
+          INIT_URL.sub('__QUERY__', query).sub('__LANG__', lang.to_s)
+        end
       end
     end
     def get_single_page(url, headers, proxies, timeout = 6, retries = 30)
       return nil if stop_requested?
-      Twitterscraper::Http.get(url, headers, proxies.sample, timeout)
+      unless proxies.empty?
+        proxy = proxies.sample
+        logger.info("Using proxy #{proxy}")
+      end
+      Http.get(url, headers, proxy, timeout)
     rescue => e
       logger.debug "query_single_page: #{e.inspect}"
       if (retries -= 1) > 0
-        logger.info("Retrying... (Attempts left: #{retries - 1})")
+        logger.info "Retrying... (Attempts left: #{retries - 1})"
         retry
       else
-        raise
+        raise Error.new("#{e.inspect} url=#{url}")
       end
     end
@@ -70,15 +75,28 @@ module Twitterscraper
       [items_html, json_resp]
     end
-    def query_single_page(query, lang, pos, from_user = false, headers: [], proxies: [])
-      logger.info("Querying #{query}")
+    def query_single_page(query, lang, type, pos, headers: [], proxies: [])
+      logger.info "Querying #{query}"
       query = ERB::Util.url_encode(query)
-      url = build_query_url(query, lang, pos, from_user)
-      logger.debug("Scraping tweets from #{url}")
+      url = build_query_url(query, lang, type == 'user', pos)
+      http_request = lambda do
+        logger.debug "Scraping tweets from #{url}"
+        get_single_page(url, headers, proxies)
+      end
-      response = get_single_page(url, headers, proxies)
-      return [], nil if response.nil?
+      if cache_enabled?
+        client = Cache.new
+        if (response = client.read(url))
+          logger.debug 'Fetching tweets from cache'
+        else
+          response = http_request.call
+          client.write(url, response) unless stop_requested?
+        end
+      else
+        response = http_request.call
+      end
+      return [], nil if response.nil? || response.empty?
       html, json_resp = parse_single_page(response, pos.nil?)
@@ -90,8 +108,8 @@ module Twitterscraper
       if json_resp
         [tweets, json_resp['min_position']]
-      elsif from_user
-        raise NotImplementedError
+      elsif type
+        [tweets, tweets[-1].tweet_id]
       else
         [tweets, "TWEET-#{tweets[-1].tweet_id}-#{tweets[0].tweet_id}"]
       end
@@ -99,33 +117,34 @@ module Twitterscraper
     OLDEST_DATE = Date.parse('2006-03-21')
-    def validate_options!(query, start_date:, end_date:, lang:, limit:, threads:, proxy:)
+    def validate_options!(queries, type:, start_date:, end_date:, lang:, limit:, threads:)
+      query = queries[0]
       if query.nil? || query == ''
-        raise 'Please specify a search query.'
+        raise Error.new('Please specify a search query.')
       end
       if ERB::Util.url_encode(query).length >= 500
-        raise ':query must be a UTF-8, URL-encoded search query of 500 characters maximum, including operators.'
+        raise Error.new(':query must be a UTF-8, URL-encoded search query of 500 characters maximum, including operators.')
       end
       if start_date && end_date
         if start_date == end_date
-          raise 'Please specify different values for :start_date and :end_date.'
+          raise Error.new('Please specify different values for :start_date and :end_date.')
         elsif start_date > end_date
-          raise ':start_date must occur before :end_date.'
+          raise Error.new(':start_date must occur before :end_date.')
         end
       end
       if start_date
         if start_date < OLDEST_DATE
-          raise ":start_date must be greater than or equal to #{OLDEST_DATE}"
+          raise Error.new(":start_date must be greater than or equal to #{OLDEST_DATE}")
         end
       end
       if end_date
         today = Date.today
         if end_date > Date.today
-          raise ":end_date must be less than or equal to today(#{today})"
+          raise Error.new(":end_date must be less than or equal to today(#{today})")
         end
       end
     end
@@ -143,27 +162,32 @@ module Twitterscraper
       end
     end
-    def main_loop(query, lang, limit, headers, proxies)
+    def main_loop(query, lang, type, limit, daily_limit, headers, proxies)
       pos = nil
+      daily_tweets = []
       while true
-        new_tweets, new_pos = query_single_page(query, lang, pos, headers: headers, proxies: proxies)
+        new_tweets, new_pos = query_single_page(query, lang, type, pos, headers: headers, proxies: proxies)
         unless new_tweets.empty?
+          daily_tweets.concat(new_tweets)
+          daily_tweets.uniq! { |t| t.tweet_id }
           @mutex.synchronize {
             @all_tweets.concat(new_tweets)
             @all_tweets.uniq! { |t| t.tweet_id }
           }
         end
-        logger.info("Got #{new_tweets.size} tweets (total #{@all_tweets.size})")
+        logger.info "Got #{new_tweets.size} tweets (total #{@all_tweets.size})"
         break unless new_pos
+        break if daily_limit && daily_tweets.size >= daily_limit
         break if @all_tweets.size >= limit
         pos = new_pos
       end
-      if @all_tweets.size >= limit
-        logger.info("Limit reached #{@all_tweets.size}")
+      if !@stop_requested && @all_tweets.size >= limit
+        logger.warn "The limit you specified has been reached limit=#{limit} tweets=#{@all_tweets.size}"
         @stop_requested = true
       end
     end
@@ -172,37 +196,59 @@ module Twitterscraper
       @stop_requested
     end
-    def query_tweets(query, start_date: nil, end_date: nil, lang: '', limit: 100, threads: 2, proxy: false)
+    def query_tweets(query, type: 'search', start_date: nil, end_date: nil, lang: nil, limit: 100, daily_limit: nil, order: 'desc', threads: 2)
       start_date = Date.parse(start_date) if start_date && start_date.is_a?(String)
       end_date = Date.parse(end_date) if end_date && end_date.is_a?(String)
       queries = build_queries(query, start_date, end_date)
-      threads = queries.size if threads > queries.size
-      proxies = proxy ? Twitterscraper::Proxy::Pool.new : []
+      if threads > queries.size
+        logger.warn 'The maximum number of :threads is the number of dates between :start_date and :end_date.'
+        threads = queries.size
+      end
+      if proxy_enabled?
+        proxies = Proxy::Pool.new
+        logger.debug "Fetch #{proxies.size} proxies"
+      else
+        proxies = []
+        logger.debug 'Proxy disabled'
+      end
+      logger.debug "Cache #{cache_enabled? ? 'enabled' : 'disabled'}"
-      validate_options!(queries[0], start_date: start_date, end_date: end_date, lang: lang, limit: limit, threads: threads, proxy: proxy)
-      logger.info("The number of threads #{threads}")
+      validate_options!(queries, type: type, start_date: start_date, end_date: end_date, lang: lang, limit: limit, threads: threads)
+      logger.info "The number of threads #{threads}"
       headers = {'User-Agent': USER_AGENT_LIST.sample, 'X-Requested-With': 'XMLHttpRequest'}
-      logger.info("Headers #{headers}")
+      logger.info "Headers #{headers}"
       @all_tweets = []
       @mutex = Mutex.new
       @stop_requested = false
       if threads > 1
+        Thread.abort_on_exception = true
+        logger.debug "Set 'Thread.abort_on_exception' to true"
         Parallel.each(queries, in_threads: threads) do |query|
-          main_loop(query, lang, limit, headers, proxies)
+          main_loop(query, lang, type, limit, daily_limit, headers, proxies)
           raise Parallel::Break if stop_requested?
         end
       else
         queries.each do |query|
-          main_loop(query, lang, limit, headers, proxies)
+          main_loop(query, lang, type, limit, daily_limit, headers, proxies)
           break if stop_requested?
         end
       end
-      @all_tweets.sort_by { |tweet| -tweet.created_at.to_i }
+      @all_tweets.sort_by { |tweet| (order == 'desc' ? -1 : 1) * tweet.created_at.to_i }
+    end
+    def search(query, start_date: nil, end_date: nil, lang: '', limit: 100, daily_limit: nil, order: 'desc', threads: 2)
+      query_tweets(query, type: 'search', start_date: start_date, end_date: end_date, lang: lang, limit: limit, daily_limit: daily_limit, order: order, threads: threads)
+    end
+    def user_timeline(screen_name, limit: 100, order: 'desc')
+      query_tweets(screen_name, type: 'user', start_date: nil, end_date: nil, lang: nil, limit: limit, daily_limit: nil, order: order, threads: 1)
     end
   end
 end

data/lib/twitterscraper/tweet.rb CHANGED

@@ -43,6 +43,14 @@ module Twitterscraper
     end
     class << self
+      def from_json(text)
+        json = JSON.parse(text)
+        json.map do |tweet|
+          tweet['created_at'] = Time.parse(tweet['created_at'])
+          new(tweet)
+        end
+      end
       def from_html(text)
         html = Nokogiri::HTML(text)
         from_tweets_html(html.xpath("//li[@class[contains(., 'js-stream-item')]]/div[@class[contains(., 'js-stream-tweet')]]"))
@@ -51,12 +59,19 @@ module Twitterscraper
       def from_tweets_html(html)
         html.map do |tweet|
           from_tweet_html(tweet)
-        end
+        end.compact
       end
       def from_tweet_html(html)
+        screen_name = html.attr('data-screen-name')
+        tweet_id = html.attr('data-tweet-id')&.to_i
+        unless html.to_s.include?('js-tweet-text-container')
+          Twitterscraper.logger.warn "html doesn't include div.js-tweet-text-container url=https://twitter.com/#{screen_name}/status/#{tweet_id}"
+          return nil
+        end
         inner_html = Nokogiri::HTML(html.inner_html)
-        tweet_id = html.attr('data-tweet-id').to_i
         text = inner_html.xpath("//div[@class[contains(., 'js-tweet-text-container')]]/p[@class[contains(., 'js-tweet-text')]]").first.text
         links = inner_html.xpath("//a[@class[contains(., 'twitter-timeline-link')]]").map { |elem| elem.attr('data-expanded-url') }.select { |link| link && !link.include?('pic.twitter') }
         image_urls = inner_html.xpath("//div[@class[contains(., 'AdaptiveMedia-photoContainer')]]").map { |elem| elem.attr('data-image-url') }
@@ -81,7 +96,7 @@ module Twitterscraper
         timestamp = inner_html.xpath("//span[@class[contains(., 'js-short-timestamp')]]").first.attr('data-time').to_i
         new(
-            screen_name: html.attr('data-screen-name'),
+            screen_name: screen_name,
             name: html.attr('data-name'),
             user_id: html.attr('data-user-id').to_i,
             tweet_id: tweet_id,

data/lib/version.rb CHANGED

@@ -1,3 +1,3 @@
 module Twitterscraper
-  VERSION = '0.10.0'
+  VERSION = '0.15.0'
 end

metadata CHANGED

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: twitterscraper-ruby
 version: !ruby/object:Gem::Version
-  version: 0.10.0
+  version: 0.15.0
 platform: ruby
 authors:
 - ts-3156
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2020-07-13 00:00:00.000000000 Z
+date: 2020-07-17 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: nokogiri
@@ -46,8 +46,10 @@ executables:
 extensions: []
 extra_rdoc_files: []
 files:
+- ".circleci/config.yml"
 - ".gitignore"
 - ".irbrc"
+- ".rspec"
 - ".ruby-version"
 - ".travis.yml"
 - CODE_OF_CONDUCT.md
@@ -61,6 +63,7 @@ files:
 - bin/twitterscraper
 - lib/twitterscraper-ruby.rb
 - lib/twitterscraper.rb
+- lib/twitterscraper/cache.rb
 - lib/twitterscraper/cli.rb
 - lib/twitterscraper/client.rb
 - lib/twitterscraper/http.rb