RubyGems - newly - Versions diffs - 1.1.0 → 2.0.0 - Mend

newly 1.1.0 → 2.0.0

Files changed (24) hide show

data/Gemfile +4 -11
data/Gemfile.lock +53 -26
data/README.md +38 -0
data/Rakefile +1 -1
data/VERSION +1 -1
data/lib/newly/feed.rb +19 -0
data/lib/newly/news.rb +16 -0
data/lib/newly/news_crawler.rb +42 -0
data/lib/newly/page_crawler.rb +51 -0
data/lib/newly/selector.rb +17 -0
data/lib/newly.rb +2 -34
data/newly.gemspec +26 -30
data/spec/html/page_spec.html +51 -0
data/spec/newly/news_crawler_spec.rb +99 -0
data/spec/newly/page_crawler_spec.rb +52 -0
data/spec/spec_helper.rb +5 -9
metadata +42 -42
data/README.rdoc +0 -39
data/lib/news.rb +0 -12
data/spec/html/ecbahia.html +0 -780
data/spec/html/g1.html +0 -4988
data/spec/html/g1_bahia.html +0 -4481
data/spec/html/metro1_cidade.html +0 -2404
data/spec/newly_spec.rb +0 -73

data/Gemfile CHANGED Viewed

@@ -1,16 +1,9 @@
 source "http://rubygems.org"
-# Add dependencies required to use your gem here.
-# Example:
-#   gem "activesupport", ">= 2.3.5"
-gem 'nokogiri'
+gem 'nokogiri', '~> 1.5'
-# Add dependencies to develop your gem here.
-# Include everything needed to run rake, tests, features, etc.
 group :development do
-  gem "rspec", "~> 2.8.0"
-  gem "rdoc", "~> 3.12"
-  gem "bundler", "~> 1.1.5"
-  gem "jeweler", "~> 1.8.4"
-  gem "simplecov"
+  gem 'rspec', '~> 3.0'
+  gem 'rspec-collection_matchers', '~> 1.0'
+  gem 'jeweler', '~> 1.8'
 end

data/Gemfile.lock CHANGED Viewed

@@ -1,39 +1,66 @@
 GEM
   remote: http://rubygems.org/
   specs:
-    diff-lcs (1.1.3)
-    git (1.2.5)
-    jeweler (1.8.4)
+    addressable (2.3.6)
+    builder (3.2.2)
+    diff-lcs (1.2.5)
+    faraday (0.8.9)
+      multipart-post (~> 1.2.0)
+    git (1.2.7)
+    github_api (0.10.1)
+      addressable
+      faraday (~> 0.8.1)
+      hashie (>= 1.2)
+      multi_json (~> 1.4)
+      nokogiri (~> 1.5.2)
+      oauth2
+    hashie (3.2.0)
+    highline (1.6.21)
+    jeweler (1.8.8)
+      builder
       bundler (~> 1.0)
       git (>= 1.2.5)
+      github_api (= 0.10.1)
+      highline (>= 1.6.15)
+      nokogiri (= 1.5.10)
       rake
       rdoc
-    json (1.7.4)
-    multi_json (1.3.6)
-    nokogiri (1.5.5)
-    rake (0.9.2.2)
-    rdoc (3.12)
+    json (1.8.1)
+    jwt (1.0.0)
+    multi_json (1.10.1)
+    multi_xml (0.5.5)
+    multipart-post (1.2.0)
+    nokogiri (1.5.10)
+    oauth2 (1.0.0)
+      faraday (>= 0.8, < 0.10)
+      jwt (~> 1.0)
+      multi_json (~> 1.3)
+      multi_xml (~> 0.5)
+      rack (~> 1.2)
+    rack (1.5.2)
+    rake (10.3.2)
+    rdoc (3.12.2)
       json (~> 1.4)
-    rspec (2.8.0)
-      rspec-core (~> 2.8.0)
-      rspec-expectations (~> 2.8.0)
-      rspec-mocks (~> 2.8.0)
-    rspec-core (2.8.0)
-    rspec-expectations (2.8.0)
-      diff-lcs (~> 1.1.2)
-    rspec-mocks (2.8.0)
-    simplecov (0.6.4)
-      multi_json (~> 1.0)
-      simplecov-html (~> 0.5.3)
-    simplecov-html (0.5.3)
+    rspec (3.0.0)
+      rspec-core (~> 3.0.0)
+      rspec-expectations (~> 3.0.0)
+      rspec-mocks (~> 3.0.0)
+    rspec-collection_matchers (1.0.0)
+      rspec-expectations (>= 2.99.0.beta1)
+    rspec-core (3.0.2)
+      rspec-support (~> 3.0.0)
+    rspec-expectations (3.0.2)
+      diff-lcs (>= 1.2.0, < 2.0)
+      rspec-support (~> 3.0.0)
+    rspec-mocks (3.0.2)
+      rspec-support (~> 3.0.0)
+    rspec-support (3.0.2)
 PLATFORMS
   ruby
 DEPENDENCIES
-  bundler (~> 1.1.5)
-  jeweler (~> 1.8.4)
-  nokogiri
-  rdoc (~> 3.12)
-  rspec (~> 2.8.0)
-  simplecov
+  jeweler (~> 1.8)
+  nokogiri (~> 1.5)
+  rspec (~> 3.0)
+  rspec-collection_matchers (~> 1.0)

data/README.md ADDED Viewed

@@ -0,0 +1,38 @@
+# newly
+## DSL that helps scrapping news given a feed definition with url and selectors
+## SYNOPSIS:
+``` ruby
+# Fecthing breaking news from some website
+require 'newly'
+# Fecthing breaking news from some website
+my_feed = Newly::Feed.new(
+                        container: '#ultimas-regiao div, #ultimas-regiao ul li',
+                        href: 'a',
+                        title: '.titulo',
+                        subtitle: '.subtitulo',
+                        image_source: 'img')
+news = Newly::NewsCrawler.new(url: 'http://g1.globo.com/bahia/', feed: my_feed).fetch
+news.each do |n|
+  puts n.url # news href url
+  puts n.title # news title
+  puts n.subtitle # news subtitle
+  puts n.image # news image src
+end
+```
+## Contributing to newly
+* Check out the latest master to make sure the feature hasn't been implemented or the bug hasn't been fixed yet.
+* Check out the issue tracker to make sure someone already hasn't requested it and/or contributed it.
+* Fork the project.
+* Start a feature/bugfix branch.
+* Commit and push until you are happy with your contribution.
+* Make sure to add tests for it. This is important so I don't break it in a future version unintentionally.
+* Please try not to mess with the Rakefile, version, or history. If you want to have your own version, or is otherwise necessary, that is fine, but please isolate to its own commit so I can cherry-pick around it.

data/Rakefile CHANGED Viewed

@@ -18,7 +18,7 @@ Jeweler::Tasks.new do |gem|
   gem.homepage = "http://github.com/alabeduarte/newly"
   gem.license = "MIT"
   gem.summary = %Q{Fetching breaking news from websites}
-  gem.description = %Q{Fetching breaking news from websites}
+  gem.description = %Q{DSL that helps scrapping news given a feed definition with url and selectors}
   gem.email = "alabeduarte@gmail.com"
   gem.authors = ["Alabê Duarte"]
   # dependencies defined in Gemfile

data/VERSION CHANGED Viewed

	@@ -1 +1 @@
1	- 1.1.0
1	+ 2.0.0

data/lib/newly/feed.rb ADDED Viewed

@@ -0,0 +1,19 @@
+require 'nokogiri'
+require 'open-uri'
+module Newly
+  class Feed
+    attr_reader :container, :url_pattern, :title, :subtitle, :image_source, :favicon, :host, :limit
+    def initialize(args)
+      @container = args[:container]
+      @url_pattern = args[:url_pattern]
+      @title = args[:title]
+      @subtitle = args[:subtitle]
+      @image_source = args[:image_source]
+      @favicon = args[:favicon]
+      @host = args[:host]
+      @limit = args[:limit]
+    end
+  end
+end

data/lib/newly/news.rb ADDED Viewed

@@ -0,0 +1,16 @@
+module Newly
+  class News
+    attr_reader :url, :url_pattern, :title, :subtitle, :image, :feed_url
+    def initialize(args)
+      page_crawler = args[:page_crawler]
+      feed = args[:feed]
+      @feed_url = args[:feed_url]
+      @url = page_crawler.link feed.url_pattern
+      @title = page_crawler.titleize feed.title
+      @subtitle = page_crawler.titleize feed.subtitle
+      @image = page_crawler.image feed.image_source
+    end
+  end
+end

data/lib/newly/news_crawler.rb ADDED Viewed

@@ -0,0 +1,42 @@
+require 'set'
+require 'newly/selector'
+require 'newly/page_crawler'
+require 'newly/news'
+module Newly
+  class NewsCrawler
+    attr_reader :title, :selector, :url
+    def initialize(args)
+      @feed = args[:feed]
+      @url = args[:url]
+      raise "The url is required" unless @url
+      @selector = args[:selector] || Newly::Selector.new(Nokogiri::HTML(open @url))
+    end
+    def fetch
+      news_fetched = Set.new
+      all_news = @selector.all(container: @feed.container, max: @feed.limit)
+      all_news.each do |item|
+        news = build_news_by(item)
+        if news
+          news_fetched << news
+        end
+      end
+      news_fetched.to_a
+    end
+  private
+    def build_news_by(item)
+      if (item)
+        page_crawler = Newly::PageCrawler.new(@feed.host, item)
+        Newly::News.new(page_crawler: page_crawler, feed: @feed, feed_url: @url)
+      end
+    end
+  end
+end

data/lib/newly/page_crawler.rb ADDED Viewed

@@ -0,0 +1,51 @@
+module Newly
+  class PageCrawler
+    def initialize(host, document)
+      @host = host
+      @document = document
+    end
+    def titleize(element)
+      title = text(element)
+      title[0] = title.capitalize[0] if title
+      title
+    end
+    def text(element)
+      if valid?(element)
+        text = get(element).text
+        text if valid?(text)
+      end
+    end
+    def link(element)
+      href = find(element, 'href')
+      href = "#{@host}/#{href}".gsub('../', '') if href && !href.include?('http')
+      href
+    end
+    def image(element)
+      image = find(element, 'src')
+      if (image && image.include?("==/"))
+        image = "http://#{image.split("==/").last}"
+      end
+      image = "#{@host}/#{image}".gsub('../', '') if image && image.include?('../')
+      image
+    end
+  private
+    def valid?(str)
+      str && !str.empty?
+    end
+    def get(element)
+      @document.css(element)
+    end
+    def find(element, type)
+      get(element).map { |doc| doc[type] }.first if valid?(element)
+    end
+  end
+end

data/lib/newly/selector.rb ADDED Viewed

@@ -0,0 +1,17 @@
+module Newly
+  class Selector
+    def initialize(selector)
+      @selector = selector
+    end
+    def all(args)
+      args[:max] ?
+        @selector.css(args[:container]).first(args[:max]) :
+        @selector.css(args[:container])
+    end
+    def title
+      @selector.at_css("title").text
+    end
+  end
+end

data/lib/newly.rb CHANGED Viewed

@@ -1,34 +1,2 @@
-require 'nokogiri'
-require 'open-uri'
-require 'news'
-class Newly
-  attr_reader :title, :selector, :url
-  def initialize(url, selector=Nokogiri::HTML(open(url)))
-    @url = url
-    @selector = selector
-    @title = @selector.at_css("title").text
-  end
-  def highlights(args)
-    news = Array.new
-    @selector.css(args[:selector]).each do |item|
-      if (item)
-        href = item.css(args[:href]).map { |doc| doc['href'] }.first if args[:href]
-        date = item.css(args[:date]).text if args[:date]
-        title = item.css(args[:title]).text if args[:title]
-        subtitle = item.css(args[:subtitle]).text if args[:subtitle]
-        img = item.css(args[:img]).map { |doc| doc['src'] }.first if args[:img]
-        if (args[:host])
-          host = args[:host]
-          url = "#{host}/#{url}".gsub('../', '') if url
-          image = "#{host}/#{image}".gsub('../', '') if image && image.include?('../')
-        end
-        news << News.new(url: href, keywords: keywords, date: date, title: title, subtitle: subtitle, image: img)
-      end
-    end
-    news
-  end
-end
+require 'newly/feed'
+require 'newly/news_crawler'

data/newly.gemspec CHANGED Viewed

@@ -5,16 +5,16 @@
 Gem::Specification.new do |s|
   s.name = "newly"
-  s.version = "1.1.0"
+  s.version = "2.0.0"
   s.required_rubygems_version = Gem::Requirement.new(">= 0") if s.respond_to? :required_rubygems_version=
   s.authors = ["Alab\u{ea} Duarte"]
-  s.date = "2012-08-14"
-  s.description = "Fetching breaking news from websites"
+  s.date = "2014-07-22"
+  s.description = "DSL that helps scrapping news given a feed definition with url and selectors"
   s.email = "alabeduarte@gmail.com"
   s.extra_rdoc_files = [
     "LICENSE.txt",
-    "README.rdoc"
+    "README.md"
   ]
   s.files = [
     ".DS_Store",
@@ -23,51 +23,47 @@ Gem::Specification.new do |s|
     "Gemfile",
     "Gemfile.lock",
     "LICENSE.txt",
-    "README.rdoc",
+    "README.md",
     "Rakefile",
     "VERSION",
     "lib/newly.rb",
-    "lib/news.rb",
+    "lib/newly/feed.rb",
+    "lib/newly/news.rb",
+    "lib/newly/news_crawler.rb",
+    "lib/newly/page_crawler.rb",
+    "lib/newly/selector.rb",
     "newly.gemspec",
     "spec/.DS_Store",
-    "spec/html/ecbahia.html",
-    "spec/html/g1.html",
-    "spec/html/g1_bahia.html",
-    "spec/html/metro1_cidade.html",
-    "spec/newly_spec.rb",
+    "spec/html/page_spec.html",
+    "spec/newly/news_crawler_spec.rb",
+    "spec/newly/page_crawler_spec.rb",
     "spec/spec_helper.rb"
   ]
   s.homepage = "http://github.com/alabeduarte/newly"
   s.licenses = ["MIT"]
   s.require_paths = ["lib"]
-  s.rubygems_version = "1.8.10"
+  s.rubygems_version = "1.8.21"
   s.summary = "Fetching breaking news from websites"
   if s.respond_to? :specification_version then
     s.specification_version = 3
     if Gem::Version.new(Gem::VERSION) >= Gem::Version.new('1.2.0') then
-      s.add_runtime_dependency(%q<nokogiri>, [">= 0"])
-      s.add_development_dependency(%q<rspec>, ["~> 2.8.0"])
-      s.add_development_dependency(%q<rdoc>, ["~> 3.12"])
-      s.add_development_dependency(%q<bundler>, ["~> 1.1.5"])
-      s.add_development_dependency(%q<jeweler>, ["~> 1.8.4"])
-      s.add_development_dependency(%q<simplecov>, [">= 0"])
+      s.add_runtime_dependency(%q<nokogiri>, ["~> 1.5"])
+      s.add_development_dependency(%q<rspec>, ["~> 3.0"])
+      s.add_development_dependency(%q<rspec-collection_matchers>, ["~> 1.0"])
+      s.add_development_dependency(%q<jeweler>, ["~> 1.8"])
     else
-      s.add_dependency(%q<nokogiri>, [">= 0"])
-      s.add_dependency(%q<rspec>, ["~> 2.8.0"])
-      s.add_dependency(%q<rdoc>, ["~> 3.12"])
-      s.add_dependency(%q<bundler>, ["~> 1.1.5"])
-      s.add_dependency(%q<jeweler>, ["~> 1.8.4"])
-      s.add_dependency(%q<simplecov>, [">= 0"])
+      s.add_dependency(%q<nokogiri>, ["~> 1.5"])
+      s.add_dependency(%q<rspec>, ["~> 3.0"])
+      s.add_dependency(%q<rspec-collection_matchers>, ["~> 1.0"])
+      s.add_dependency(%q<jeweler>, ["~> 1.8"])
     end
   else
-    s.add_dependency(%q<nokogiri>, [">= 0"])
-    s.add_dependency(%q<rspec>, ["~> 2.8.0"])
-    s.add_dependency(%q<rdoc>, ["~> 3.12"])
-    s.add_dependency(%q<bundler>, ["~> 1.1.5"])
-    s.add_dependency(%q<jeweler>, ["~> 1.8.4"])
-    s.add_dependency(%q<simplecov>, [">= 0"])
+    s.add_dependency(%q<nokogiri>, ["~> 1.5"])
+    s.add_dependency(%q<rspec>, ["~> 3.0"])
+    s.add_dependency(%q<rspec-collection_matchers>, ["~> 1.0"])
+    s.add_dependency(%q<jeweler>, ["~> 1.8"])
   end
 end

data/spec/html/page_spec.html ADDED Viewed

@@ -0,0 +1,51 @@
+<a class="a" href="http://atualidadesweb.com.br">I'm a Example Page</a>
+<a class="b" href="http://atualidadesweb.com.br/sports">I'm a another Example Page</a>
+<a class="c" href="http://atualidadesweb.com.br/economy"></a>
+<a class="d" href="/economy">
+  <img class="d-img" src="http://atualidadesweb.com.br/images/logo3.png">
+</a>
+<a class="e" href="../economy">Test</a>
+<img class="a-img" src="http://atualidadesweb.com.br/images/logo.png">
+<img class="b-img" src="http://atualidadesweb.com.br/images/logo2.png">
+<img class="c-img" src="http://atualidadesweb.com.br/images/logo4__.png==/atualidadesweb.com.br/images/logo4_.png==/atualidadesweb.com.br/images/logo4.png">
+<img class="e-img" src="../images/logo5.png">
+<div class="chamada chamada-principal">
+  <a href="http://g1.globo.com/bemestar/VC-no-Bem-Estar/noticia/2012/09/com-exercicio-fisico-e-dieta-saudavel-jovem-do-df-perde-83-kg-em-um-ano.html" class="foto" title="veja a transformacao do jovem que perdeu 83kg em apenas um ano (globo.com)" rel="bookmark">
+    <span class="borda-foto">
+      <img width="300" src="http://s2.glbimg.com/yq2Ruxgo6XPF6dMbJKNc5bXjxp0Hopt7xjMom4BO0BMlqexs4Crm0zfq9SXLeJQPRlKshWNRGcI1UffEKpSViw==/s2.glbimg.com/CR190ZvQOP9jxwmN0kT_CunYRF-Z8ZlT5vANqY5-UdKDu3DgEL3hOr3yojy7lLoS_EaKD0QT1y94uK8RcPde4A==/s.glbimg.com/en/ho/f/original/2012/09/29/exobeso.jpg" alt="veja a transformação do jovem que perdeu 83kg em apenas um ano (globo.com)" title="veja a transformacao do jovem que perdeu 83kg em apenas um ano (globo.com)" data-url-smart="DZuxxitB76ctspkSsETBLYY-a8oI3HZE2LAzjf4AHsKTMbXIn83Qq-5Zee3rsy8M/s2.glbimg.com/CR190ZvQOP9jxwmN0kT_CunYRF-Z8ZlT5vANqY5-UdKDu3DgEL3hOr3yojy7lLoS_EaKD0QT1y94uK8RcPde4A==/s.glbimg.com/en/ho/f/original/2012/09/29/exobeso.jpg" data-url-tablet="A4bt7aUjdYQalUJRpYfMX1duzejTqryhzIcdFf2-tmcHu3pYJZxWnLYWZrYYmG1r/s2.glbimg.com/CR190ZvQOP9jxwmN0kT_CunYRF-Z8ZlT5vANqY5-UdKDu3DgEL3hOr3yojy7lLoS_EaKD0QT1y94uK8RcPde4A==/s.glbimg.com/en/ho/f/original/2012/09/29/exobeso.jpg" data-url-desktop="gYRzgHhc1WrILA76XHKVHVduzejTqryhzIcdFf2-tmcHu3pYJZxWnLYWZrYYmG1r/s2.glbimg.com/CR190ZvQOP9jxwmN0kT_CunYRF-Z8ZlT5vANqY5-UdKDu3DgEL3hOr3yojy7lLoS_EaKD0QT1y94uK8RcPde4A==/s.glbimg.com/en/ho/f/original/2012/09/29/exobeso.jpg" />
+    </span>
+    <span class="conteudo"><p>fenomeno assustador</p></span>
+  </a>
+</div>
+<div class="chamada chamada-principal">
+  <a>
+    <span class="conteudo"><p>A</p></span>
+  </a>
+</div>
+<div class="chamada chamada-principal">
+  <a>
+    <span class="conteudo"><p>B</p></span>
+  </a>
+</div>
+<div class="chamada chamada-principal">
+  <a>
+    <span class="conteudo"><p>C</p></span>
+  </a>
+</div>
+<div class="itens-indice ultnot  geral ">
+  <section>
+    <article class="col-1 linha-1  news">
+      <time datetime="2012-09-08T18:32">08/09</time>
+      <time datetime="2012-09-08T18:32" pubdate>18h32</time>
+      <h1>
+        <a href="http://esporte.uol.com.br/ultimas-noticias/reuters/2012/09/08/jackie-stewart-aconselha-hamilton-a-continuar-na-mclaren.htm">
+          <span>Jackie Stewart aconselha Hamilton a continuar na McLaren</span>
+        </a>
+      </h1>
+      <p>MONZA, 8 Set (Reuters) - Tricampeao de Formula 1, Jackie Stewart aconselhou Lewis Hamilton neste sabado a...</p>
+    </article>
+  </section>
+</div>

data/spec/newly/news_crawler_spec.rb ADDED Viewed

@@ -0,0 +1,99 @@
+require 'spec_helper'
+describe Newly::NewsCrawler do
+  describe "fetching news" do
+    it "should fetch news with limit" do
+      first_feed_with_limit = Newly::Feed.new(container: ".chamada-principal", limit: 2)
+      first_reader = build_reader_with 'http://bla.x', first_feed_with_limit
+      expect(first_reader).to have(2).fetch
+    end
+    it "should fetch news without limit" do
+      first_feed_without_limit = Newly::Feed.new(
+        container: ".chamada-principal",
+        url_pattern: "a",
+        title: ".conteudo p",
+        image_source: "img"
+        )
+      first_reader = build_reader_with 'http://bla.x', first_feed_without_limit
+      expect(first_reader).to have(4).fetch
+    end
+    describe "when news has content" do
+      context "first feed" do
+        let(:first_feed) do
+          Newly::Feed.new(
+            container: ".chamada-principal",
+            url_pattern: "a",
+            title: ".conteudo p",
+            image_source: "img"
+            )
+        end
+        let(:first_reader) { build_reader_with 'http://bla.x', first_feed }
+        it "should fetch high quality images" do
+          a_news = first_reader.fetch.first
+          expect(a_news.image).to eq "http://s.glbimg.com/en/ho/f/original/2012/09/29/exobeso.jpg"
+        end
+        it "should capitalize the title field" do
+          a_news = first_reader.fetch.first
+          expect(a_news.title).to eq "Fenomeno assustador"
+        end
+      end
+      context "second feed" do
+        let(:second_feed) do
+          Newly::Feed.new(
+            container: "div.geral section article.news",
+            url_pattern: "h1 a",
+            title: "h1 a span",
+            subtitle: "p"
+            )
+        end
+        let(:second_reader) { build_reader_with 'http://noticias.uol.com.br/noticias', second_feed }
+        context "fetching news valid fields" do
+          let(:a_news) { second_reader.fetch.first }
+          it { expect(a_news.url).to eq 'http://esporte.uol.com.br/ultimas-noticias/reuters/2012/09/08/jackie-stewart-aconselha-hamilton-a-continuar-na-mclaren.htm' }
+          it { expect(a_news.title).to eq 'Jackie Stewart aconselha Hamilton a continuar na McLaren' }
+          it { expect(a_news.subtitle).to eq 'MONZA, 8 Set (Reuters) - Tricampeao de Formula 1, Jackie Stewart aconselhou Lewis Hamilton neste sabado a...' }
+          it { expect(a_news.feed_url).to eq "http://noticias.uol.com.br/noticias" }
+        end
+      end
+      context "when reader has some invalid field" do
+        it "should not return news from invalid container" do
+          invalid_feed = Newly::Feed.new(
+            url: "http://bla.x",
+            container: "invalid"
+            )
+          invalid_reader = build_reader_with 'http://bla.x', invalid_feed
+          expect(invalid_reader).to have(0).fetch
+        end
+        it "should not allow build readers without url" do
+          invalid_feed = Newly::Feed.new(container: "div.geral section article.news")
+          expect { Newly::NewsCrawler.new(selector: fake_selector, feed: invalid_feed) }.to raise_error "The url is required"
+        end
+      end
+    end
+  end
+private
+  def build_reader_with(url, feed)
+    Newly::NewsCrawler.new(selector: fake_selector, url: url, feed: feed)
+  end
+  def fake_selector
+    parsed_html = Nokogiri::HTML.parse(File.read 'spec/html/page_spec.html')
+    Newly::Selector.new parsed_html
+  end
+end

data/spec/newly/page_crawler_spec.rb ADDED Viewed

@@ -0,0 +1,52 @@
+require 'spec_helper'
+describe Newly::PageCrawler do
+  let(:selector) { Nokogiri::HTML }
+  let(:host) { 'http://atualidadesweb.com.br' }
+  let(:subject) { Newly::PageCrawler.new(host, parse('spec/html/page_spec.html')) }
+  describe "#text" do
+    context "when is valid input" do
+      it { expect(subject.text(".a")).to eq "I'm a Example Page" }
+      it { expect(subject.text(".b")).to eq "I'm a another Example Page" }
+    end
+    context "when is invalid input" do
+      it { expect(subject.text(".c")).to be_nil }
+      it { expect(subject.text("")).to be_nil }
+      it { expect(subject.text(nil)).to be_nil }
+    end
+  end
+  describe "#link" do
+    context "when is valid input" do
+      it { expect(subject.link(".a")).to eq "#{host}" }
+      it { expect(subject.link(".b")).to eq "#{host}/sports" }
+      it { expect(subject.link(".c")).to eq "#{host}/economy" }
+      it { expect(subject.link(".d")).to eq "#{host}//economy" }
+      it { expect(subject.link(".e")).to eq "#{host}/economy" }
+    end
+    context "when is invalid input" do
+      it { expect(subject.link(".absent")).to be_nil }
+      it { expect(subject.link("")).to be_nil }
+      it { expect(subject.link(nil)).to be_nil }
+    end
+  end
+  describe "#image" do
+    context "when is valid input" do
+      it { expect(subject.image("img.a-img")).to eq "#{host}/images/logo.png" }
+      it { expect(subject.image("img.b-img")).to eq "#{host}/images/logo2.png" }
+      it { expect(subject.image("img.d-img")).to eq "#{host}/images/logo3.png" }
+      it { expect(subject.image("img.c-img")).to eq "#{host}/images/logo4.png" }
+      it { expect(subject.image("img.e-img")).to eq "#{host}/images/logo5.png" }
+    end
+    context "when is invalid input" do
+      it { expect(subject.image("img.absent")).to be_nil }
+      it { expect(subject.image("")).to be_nil }
+      it { expect(subject.image(nil)).to be_nil }
+    end
+  end
+  def parse(path)
+    selector.parse(File.read(path))
+  end
+end