RubyGems - jobboards-parser - Versions diffs - 0.0.1 - Mend

jobboards-parser 0.0.1

Files changed (16) hide show

data/README.textile +38 -0
data/Rakefile +0 -0
data/jobboards-parser.gemspec +35 -0
data/lib/jobboards/boards/37_signals.rb +27 -0
data/lib/jobboards/boards/authentic_jobs.rb +26 -0
data/lib/jobboards/boards/crunchboard.rb +25 -0
data/lib/jobboards/boards/github.rb +26 -0
data/lib/jobboards/boards/joel_on_software.rb +26 -0
data/lib/jobboards/boards/krop.rb +26 -0
data/lib/jobboards/boards/ruby_inside.rb +26 -0
data/lib/jobboards/boards/ruby_now.rb +26 -0
data/lib/jobboards/boards/smashing_magazine.rb +26 -0
data/lib/jobboards/boards/startuply.rb +26 -0
data/lib/jobboards/core.rb +56 -0
data/lib/jobboards_parser.rb +77 -0
metadata +127 -0

data/README.textile ADDED Viewed

@@ -0,0 +1,38 @@
+simple ruby librairy for parsing tech jobboards
+h1. Available jobboards
+* Authentic jobs
+* Crunchboard
+* Github
+* Joel on Software
+* Krop
+* Ruby inside
+* Ruby now
+* 37 Signals
+* Smashing magazine
+* Startuply
+h1. Examples
+Parse all jobbooards:
+bq. JobboardsParser.load
+or
+bq. JobboardsParser.load(:all)
+If you want to parse specific jobboards:
+bq. JobboardsParser.load(:crunchboard, :github)
+h1. Upcoming jobboards
+* Job 4 dev
+* Top ruby jobs
+h1. TODO
+* Use regex in boards class
+* Complete the readme file
+* Write test

data/Rakefile ADDED Viewed

File without changes

data/jobboards-parser.gemspec ADDED Viewed

@@ -0,0 +1,35 @@
+Gem::Specification.new do |s|
+  s.name = "jobboards-parser"
+  s.version = "0.0.1"
+  s.date = "2010-05-15"
+  s.summary = "Simple ruby library for parsing tech jobboards"
+  s.email = "g.marcilhacy@gmail.com"
+  s.homepage = ""
+  s.description = "Simple ruby library for parsing tech jobboards"
+  s.has_rdoc = false
+  s.authors = ["Grégory Marcilhacy"]
+  s.require_paths = %w[lib]
+  s.add_dependency('boilerpipe',    ">= 0.0.4")
+  s.add_dependency('simple-rss',    ">= 1.2.3")
+  s.add_dependency('activesupport', ">= 2.3")
+  s.files = %w[
+    jobboards-parser.gemspec
+    README.textile
+    Rakefile
+    lib/jobboards_parser.rb
+    lib/jobboards/core.rb
+    lib/jobboards/boards/37_signals.rb
+    lib/jobboards/boards/authentic_jobs.rb
+    lib/jobboards/boards/crunchboard.rb
+    lib/jobboards/boards/github.rb
+    lib/jobboards/boards/joel_on_software.rb
+    lib/jobboards/boards/krop.rb
+    lib/jobboards/boards/ruby_inside.rb
+    lib/jobboards/boards/ruby_now.rb
+    lib/jobboards/boards/smashing_magazine.rb
+    lib/jobboards/boards/startuply.rb
+    ]
+end

data/lib/jobboards/boards/37_signals.rb ADDED Viewed

@@ -0,0 +1,27 @@
+module JobboardsParser
+  module Jobboard
+    class Signal < Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        super(title, url, location, company, content, published_at)
+        @jobboard = self.class.jobboard_name
+      end
+      def self.parse
+        (open_feed.items || []).inject([]) do |acc, item|
+          title         = item.title.split(":").last.strip
+          url           = item.link
+          location      = item.description.split("\n").each {|ugly|
+            next unless ugly.include?("Location"); ugly.split("&gt;").last.strip }
+          company       = item.title.split(":").first.strip
+          content       = item.description
+          published_at  = item.pubDate
+          acc << self.new(title, url, location, company, content, published_at).attributes
+          acc
+        end
+      end
+    end
+  end
+end

data/lib/jobboards/boards/authentic_jobs.rb ADDED Viewed

@@ -0,0 +1,26 @@
+module JobboardsParser
+  module Jobboard
+    class AuthenticJob < Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        super(title, url, location, company, content, published_at)
+        @jobboard = self.class.jobboard_name
+      end
+      def self.parse
+        (open_feed.items || []).inject([]) do |acc, item|
+          title         = item.title.split(" at ").first.strip
+          url           = item.link
+          location      = nil
+          company       = item.title.split(" at ").last.strip
+          content       = item.description
+          published_at  = item.pubDate
+          acc << self.new(title, url, location, company, content, published_at).attributes
+          acc
+        end
+      end
+    end
+  end
+end

data/lib/jobboards/boards/crunchboard.rb ADDED Viewed

@@ -0,0 +1,25 @@
+module JobboardsParser
+  module Jobboard
+    class Crunchboard < Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        super(title, url, location, company, content, published_at)
+        @jobboard = self.class.jobboard_name
+      end
+      def self.parse
+        (open_feed.items || []).inject([]) do |acc, item|
+          title         = item.title.strip
+          url           = item.link
+          location      = item.description.split("&gt;")[1].split("-").last.split("&lt;").first.strip
+          company       = item.description.split("&gt;")[1].split(")").first.split("(").last.strip
+          content       = item.description
+          published_at  = item.updated
+          acc << self.new(title, url, location, company, content, published_at).attributes
+          acc
+        end
+      end
+    end
+  end
+end

data/lib/jobboards/boards/github.rb ADDED Viewed

@@ -0,0 +1,26 @@
+module JobboardsParser
+  module Jobboard
+    class Github < Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        super(title, url, location, company, content, published_at)
+        @jobboard = self.class.jobboard_name
+      end
+      def self.parse
+        (open_feed.items || []).inject([]) do |acc, item|
+          title         = item.title.split(":").last.split("at").first.strip
+          url           = item.link
+          location      = item.title.split(" in ").last.strip
+          company       = item.title.split(" at ").last.split("in").first.strip
+          content       = item.content
+          published_at  = item.updated
+          acc << self.new(title, url, location, company, content, published_at).attributes
+          acc
+        end
+      end
+    end
+  end
+end

data/lib/jobboards/boards/joel_on_software.rb ADDED Viewed

@@ -0,0 +1,26 @@
+module JobboardsParser
+  module Jobboard
+    class JoelOnSoftware < Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        super(title, url, location, company, content, published_at)
+        @jobboard = self.class.jobboard_name
+      end
+      def self.parse
+       (open_feed.items || []).inject([]) do |acc, item|
+          title         = item.title.split(" at ").first.strip
+          url           = item.link
+          location      = item.title.split("(").last.split(")").first.strip
+          company       = item.title.split(" at ").last.split("(").first.strip
+          content       = item.description
+          published_at  = item.updated
+          acc << self.new(title, url, location, company, content, published_at).attributes
+          acc
+        end
+      end
+    end
+  end
+end

data/lib/jobboards/boards/krop.rb ADDED Viewed

@@ -0,0 +1,26 @@
+module JobboardsParser
+  module Jobboard
+    class Krop < Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        super(title, url, location, company, content, published_at)
+        @jobboard = self.class.jobboard_name
+      end
+      def self.parse
+       (open_feed.items || []).inject([]) do |acc, item|
+          title         = item.title.split(" is looking for a").last.split(" in ").first.strip
+          url           = item.link
+          location      = item.title.split(" is looking for a").last.split(" in").last.strip
+          company       = item.title.split(" is looking for a").first.strip
+          content       = item.description
+          published_at  = item.updated
+          acc << self.new(title, url, location, company, content, published_at).attributes
+          acc
+        end
+      end
+    end
+  end
+end

data/lib/jobboards/boards/ruby_inside.rb ADDED Viewed

@@ -0,0 +1,26 @@
+module JobboardsParser
+  module Jobboard
+    class RubyInside < Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        super(title, url, location, company, content, published_at)
+        @jobboard = self.class.jobboard_name
+      end
+      def self.parse
+        (open_feed.items || []).inject([]) do |acc, item|
+          title         = item.title.split(" at ").first.strip
+          url           = item.link
+          location      = item.title.split(" at ").last.split("(").last.sub(")","").strip
+          company       = item.title.split(" at ").last.split("(").first.strip
+          content       = Jobboard.extract_content(item.link)
+          published_at  = item.pubDate
+          acc << self.new(title, url, location, company, content, published_at).attributes
+          acc
+        end
+      end
+    end
+  end
+end

data/lib/jobboards/boards/ruby_now.rb ADDED Viewed

@@ -0,0 +1,26 @@
+module JobboardsParser
+  module Jobboard
+    class RubyNow < Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        super(title, url, location, company, content, published_at)
+        @jobboard = self.class.jobboard_name
+      end
+      def self.parse
+        (open_feed.items || []).inject([]) do |acc, item|
+          title         = item.title.split(" at ").first.strip
+          url           = item.guid
+          location      = item.title.split(" at:").last.strip
+          company       = nil
+          content       = item.description
+          published_at  = item.pudDate
+          acc << self.new(title, url, location, company, content, published_at).attributes
+          acc
+        end
+      end
+    end
+  end
+end

data/lib/jobboards/boards/smashing_magazine.rb ADDED Viewed

@@ -0,0 +1,26 @@
+module JobboardsParser
+  module Jobboard
+    class SmashingMagazine < Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        super(title, url, location, company, content, published_at)
+        @jobboard = self.class.jobboard_name
+      end
+      def self.parse
+        (open_feed.items || []).inject([]) do |acc, item|
+          title         = item.title.split("-")[1].strip
+          url           = item.link
+          location      = item.title.split("-")[2].split("(").last.split(")").first.strip
+          company       = item.title.split("-")[1].strip
+          content       = extract_content(item.link)
+          published_at  = item.updated
+          acc << self.new(title, url, location, company, content, published_at).attributes
+          acc
+        end
+      end
+    end
+  end
+end

data/lib/jobboards/boards/startuply.rb ADDED Viewed

@@ -0,0 +1,26 @@
+module JobboardsParser
+  module Jobboard
+    class Startuply < Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        super(title, url, location, company, content, published_at)
+        @jobboard = self.class.jobboard_name
+      end
+      def self.parse
+        (open_feed.items || []).inject([]) do |acc, item|
+          title         = item.title.split("-").first.strip
+          url           = item.link
+          location      = item.title.split(" in ").last.strip
+          company       = item.description.split("href")[1].split("Companies")[1].split(".aspx").first.split("_").delete_if {|x| x.to_i > 0}.join(" ").split("/").last
+          content       = extract_content(item.link)
+          published_at  = item.pubdate
+          acc << self.new(title, url, location, company, content, published_at).attributes
+          acc
+        end
+      end
+    end
+  end
+end

data/lib/jobboards/core.rb ADDED Viewed

@@ -0,0 +1,56 @@
+module JobboardsParser
+  module Jobboard
+    class Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        @title = title
+        @url = url
+        @location = location
+        @company = company
+        @content = content
+        @published_at = published_at
+      end
+      def attributes
+        attrs = {}
+        attrs[:title]       = @title
+        attrs[:url]         = @url
+        attrs[:company]     = @company
+        attrs[:content]     = @content
+        attrs[:published_at]= @published_at
+        attrs[:jobboard]    = @jobboard
+        attrs.each{ |k,v| v.strip! if v.is_a?(String) }
+        attrs
+      end
+      def content=(text)
+        @content = htmlize(text)
+      end
+      def self.feed
+        JobboardsParser::BOARDS[ActiveSupport::Inflector.underscore(self.to_s.gsub(/^.*::/, '')).to_sym][:url]
+      end
+      def self.jobboard_name
+        _ = JobboardsParser::BOARDS[ActiveSupport::Inflector.underscore(self.to_s.gsub(/^.*::/, '')).to_sym]
+        _.is_a?(Hash) ? _[:name] : ''
+      end
+      def self.open_feed
+        SimpleRSS.parse(open(feed))
+      end
+      def self.extract_content(url)
+        page = Boilerpipe.extract(url, { :output => :json })
+        content = ActiveSupport::JSON.decode(page)["response"]["content"] rescue ""
+        content
+      end
+      private
+      def htmlize(content)
+        content.gsub(/&lt;/,"<").gsub(/&gt;/,">").gsub(/nbsp;/," ").gsub(/&amp;/,"&").strip
+      end
+    end
+  end
+end

data/lib/jobboards_parser.rb ADDED Viewed

@@ -0,0 +1,77 @@
+begin
+  require 'rubygems'
+  require 'boilerpipe'
+  require 'simple-rss'
+  require 'active_support'
+  require "open-uri"
+  require "active_support/core_ext/string/inflections.rb"
+  require "active_support/json.rb"
+rescue LoadError
+  require 'rubygems'
+  begin
+    gem 'simple-rss'
+    gem 'boilerpipe'
+    gem 'activesupport'
+    require 'simple-rss'
+    require 'Boilerpipe'
+    require 'active_support'
+    require "active_support/core_ext/string/inflections.rb"
+    require "active_support/json.rb"
+  rescue Gem::LoadError => e
+    puts "WARNING: Gem LoadError: #{e.message}"
+  end
+end
+require "jobboards/core"
+require "jobboards/boards/authentic_jobs"
+require "jobboards/boards/crunchboard"
+require "jobboards/boards/github"
+require "jobboards/boards/joel_on_software"
+require "jobboards/boards/krop"
+require "jobboards/boards/ruby_inside"
+require "jobboards/boards/ruby_now"
+require "jobboards/boards/37_signals"
+require "jobboards/boards/smashing_magazine"
+require "jobboards/boards/startuply"
+module JobboardsParser
+  BOARDS = {
+    :authentic_job      => { :url => "http://www.authenticjobs.com/rss/index.xml", :name => "Authentic jobs" },
+    :crunchboard        => { :url => "http://feeds.feedburner.com/CrunchboardJobs?format=xml", :name => "Crunchboard" },
+    :github             => { :url => "http://jobs.github.com/positions.atom", :name => "Github" },
+    :joel_on_software   => { :url => "http://careers.joelonsoftware.com/Jobs/Feed?", :name => "Joel on software" },
+    :krop               => { :url => "http://www.krop.com/services/feeds/rss/latest/", :name => "Krop" },
+    :ruby_inside        => { :url => "http://jobs.rubyinside.com/a/jbb/find-jobs-rss", :name => "Ruby Inside" },
+    :ruby_now           => { :url => "http://feeds.feedburner.com/jobsrubynow?format=xml", :name => "Ruby now" },
+    :signal             => { :url => "http://jobs.37signals.com/jobs.rss", :name => "37 Signals" },
+    :smashing_magazine  => { :url => "http://jobs.smashingmagazine.com/rss/all/all", :name => "Smashing Magazine" },
+    :startuply          => { :url => "http://startuply.com/Rss/HomePage.aspx", :name => "Startuply" },
+  }.freeze
+  # Load jobboards
+  # Specify in options the jobboards you want to load
+  # JobboarsParser.load(:crunchboard, :github)
+  # Or you can pass the :all option to get all jobboards
+  # JObboardsParser.load(:all)
+  def self.load(*opts)
+    opts = BOARDS.keys if opts.first == :all || opts.blank?
+    raise InvalidJobboard  if (opts.map(&:to_sym) - BOARDS.keys).size > 0
+    opts.inject([]) { |acc, board|
+      b = eval("JobboardsParser::Jobboard::#{board.to_s.classify}")
+      acc << (b.respond_to?(:parse) ? b.parse  : [])
+      acc
+    }.flatten
+  end
+  # Raise InvalidJobboard error when a board doesn't exist
+  class InvalidJobboard < StandardError; end
+end
+print JobboardsParser.load(:crunchboard)

metadata ADDED Viewed

@@ -0,0 +1,127 @@
+--- !ruby/object:Gem::Specification
+name: jobboards-parser
+version: !ruby/object:Gem::Version
+  hash: 29
+  prerelease:
+  segments:
+  - 0
+  - 0
+  - 1
+  version: 0.0.1
+platform: ruby
+authors:
+- "Gr\xC3\xA9gory Marcilhacy"
+autorequire:
+bindir: bin
+cert_chain: []
+date: 2010-05-15 00:00:00 +02:00
+default_executable:
+dependencies:
+- !ruby/object:Gem::Dependency
+  name: boilerpipe
+  prerelease: false
+  requirement: &id001 !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        hash: 23
+        segments:
+        - 0
+        - 0
+        - 4
+        version: 0.0.4
+  type: :runtime
+  version_requirements: *id001
+- !ruby/object:Gem::Dependency
+  name: simple-rss
+  prerelease: false
+  requirement: &id002 !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        hash: 25
+        segments:
+        - 1
+        - 2
+        - 3
+        version: 1.2.3
+  type: :runtime
+  version_requirements: *id002
+- !ruby/object:Gem::Dependency
+  name: activesupport
+  prerelease: false
+  requirement: &id003 !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        hash: 5
+        segments:
+        - 2
+        - 3
+        version: "2.3"
+  type: :runtime
+  version_requirements: *id003
+description: Simple ruby library for parsing tech jobboards
+email: g.marcilhacy@gmail.com
+executables: []
+extensions: []
+extra_rdoc_files: []
+files:
+- jobboards-parser.gemspec
+- README.textile
+- Rakefile
+- lib/jobboards_parser.rb
+- lib/jobboards/core.rb
+- lib/jobboards/boards/37_signals.rb
+- lib/jobboards/boards/authentic_jobs.rb
+- lib/jobboards/boards/crunchboard.rb
+- lib/jobboards/boards/github.rb
+- lib/jobboards/boards/joel_on_software.rb
+- lib/jobboards/boards/krop.rb
+- lib/jobboards/boards/ruby_inside.rb
+- lib/jobboards/boards/ruby_now.rb
+- lib/jobboards/boards/smashing_magazine.rb
+- lib/jobboards/boards/startuply.rb
+has_rdoc: true
+homepage: ""
+licenses: []
+post_install_message:
+rdoc_options: []
+require_paths:
+- lib
+required_ruby_version: !ruby/object:Gem::Requirement
+  none: false
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      hash: 3
+      segments:
+      - 0
+      version: "0"
+required_rubygems_version: !ruby/object:Gem::Requirement
+  none: false
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      hash: 3
+      segments:
+      - 0
+      version: "0"
+requirements: []
+rubyforge_project:
+rubygems_version: 1.6.2
+signing_key:
+specification_version: 3
+summary: Simple ruby library for parsing tech jobboards
+test_files: []