RubyGems - jobboards-parser - Versions diffs - 0.0.1 - Mend

jobboards-parser 0.0.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (16) hide show

data/README.textile +38 -0
data/Rakefile +0 -0
data/jobboards-parser.gemspec +35 -0
data/lib/jobboards/boards/37_signals.rb +27 -0
data/lib/jobboards/boards/authentic_jobs.rb +26 -0
data/lib/jobboards/boards/crunchboard.rb +25 -0
data/lib/jobboards/boards/github.rb +26 -0
data/lib/jobboards/boards/joel_on_software.rb +26 -0
data/lib/jobboards/boards/krop.rb +26 -0
data/lib/jobboards/boards/ruby_inside.rb +26 -0
data/lib/jobboards/boards/ruby_now.rb +26 -0
data/lib/jobboards/boards/smashing_magazine.rb +26 -0
data/lib/jobboards/boards/startuply.rb +26 -0
data/lib/jobboards/core.rb +56 -0
data/lib/jobboards_parser.rb +77 -0
metadata +127 -0

data/README.textile ADDED Viewed

@@ -0,0 +1,38 @@
+simple ruby librairy for parsing tech jobboards
+h1. Available jobboards
+* Authentic jobs
+* Crunchboard
+* Github
+* Joel on Software
+* Krop
+* Ruby inside
+* Ruby now
+* 37 Signals
+* Smashing magazine
+* Startuply
+h1. Examples
+Parse all jobbooards:
+bq. JobboardsParser.load
+or
+bq. JobboardsParser.load(:all)
+If you want to parse specific jobboards:
+bq. JobboardsParser.load(:crunchboard, :github)
+h1. Upcoming jobboards
+* Job 4 dev
+* Top ruby jobs
+h1. TODO
+* Use regex in boards class
+* Complete the readme file
+* Write test

data/Rakefile ADDED Viewed

File without changes

data/jobboards-parser.gemspec ADDED Viewed

@@ -0,0 +1,35 @@
+Gem::Specification.new do |s|
+  s.name = "jobboards-parser"
+  s.version = "0.0.1"
+  s.date = "2010-05-15"
+  s.summary = "Simple ruby library for parsing tech jobboards"
+  s.email = "g.marcilhacy@gmail.com"
+  s.homepage = ""
+  s.description = "Simple ruby library for parsing tech jobboards"
+  s.has_rdoc = false
+  s.authors = ["Grégory Marcilhacy"]
+  s.require_paths = %w[lib]
+  s.add_dependency('boilerpipe',    ">= 0.0.4")
+  s.add_dependency('simple-rss',    ">= 1.2.3")
+  s.add_dependency('activesupport', ">= 2.3")
+  s.files = %w[
+    jobboards-parser.gemspec
+    README.textile
+    Rakefile
+    lib/jobboards_parser.rb
+    lib/jobboards/core.rb
+    lib/jobboards/boards/37_signals.rb
+    lib/jobboards/boards/authentic_jobs.rb
+    lib/jobboards/boards/crunchboard.rb
+    lib/jobboards/boards/github.rb
+    lib/jobboards/boards/joel_on_software.rb
+    lib/jobboards/boards/krop.rb
+    lib/jobboards/boards/ruby_inside.rb
+    lib/jobboards/boards/ruby_now.rb
+    lib/jobboards/boards/smashing_magazine.rb
+    lib/jobboards/boards/startuply.rb
+    ]
+end

data/lib/jobboards/boards/37_signals.rb ADDED Viewed

@@ -0,0 +1,27 @@
+module JobboardsParser
+  module Jobboard
+    class Signal < Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        super(title, url, location, company, content, published_at)
+        @jobboard = self.class.jobboard_name
+      end
+      def self.parse
+        (open_feed.items || []).inject([]) do |acc, item|
+          title         = item.title.split(":").last.strip
+          url           = item.link
+          location      = item.description.split("\n").each {|ugly|
+            next unless ugly.include?("Location"); ugly.split("&gt;").last.strip }
+          company       = item.title.split(":").first.strip
+          content       = item.description
+          published_at  = item.pubDate
+          acc << self.new(title, url, location, company, content, published_at).attributes
+          acc
+        end
+      end
+    end
+  end
+end

data/lib/jobboards/boards/authentic_jobs.rb ADDED Viewed

@@ -0,0 +1,26 @@
+module JobboardsParser
+  module Jobboard
+    class AuthenticJob < Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        super(title, url, location, company, content, published_at)
+        @jobboard = self.class.jobboard_name
+      end
+      def self.parse
+        (open_feed.items || []).inject([]) do |acc, item|
+          title         = item.title.split(" at ").first.strip
+          url           = item.link
+          location      = nil
+          company       = item.title.split(" at ").last.strip
+          content       = item.description
+          published_at  = item.pubDate
+          acc << self.new(title, url, location, company, content, published_at).attributes
+          acc
+        end
+      end
+    end
+  end
+end

data/lib/jobboards/boards/crunchboard.rb ADDED Viewed

@@ -0,0 +1,25 @@
+module JobboardsParser
+  module Jobboard
+    class Crunchboard < Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        super(title, url, location, company, content, published_at)
+        @jobboard = self.class.jobboard_name
+      end
+      def self.parse
+        (open_feed.items || []).inject([]) do |acc, item|
+          title         = item.title.strip
+          url           = item.link
+          location      = item.description.split("&gt;")[1].split("-").last.split("&lt;").first.strip
+          company       = item.description.split("&gt;")[1].split(")").first.split("(").last.strip
+          content       = item.description
+          published_at  = item.updated
+          acc << self.new(title, url, location, company, content, published_at).attributes
+          acc
+        end
+      end
+    end
+  end
+end

data/lib/jobboards/boards/github.rb ADDED Viewed

@@ -0,0 +1,26 @@
+module JobboardsParser
+  module Jobboard
+    class Github < Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        super(title, url, location, company, content, published_at)
+        @jobboard = self.class.jobboard_name
+      end
+      def self.parse
+        (open_feed.items || []).inject([]) do |acc, item|
+          title         = item.title.split(":").last.split("at").first.strip
+          url           = item.link
+          location      = item.title.split(" in ").last.strip
+          company       = item.title.split(" at ").last.split("in").first.strip
+          content       = item.content
+          published_at  = item.updated
+          acc << self.new(title, url, location, company, content, published_at).attributes
+          acc
+        end
+      end
+    end
+  end
+end

data/lib/jobboards/boards/joel_on_software.rb ADDED Viewed

@@ -0,0 +1,26 @@
+module JobboardsParser
+  module Jobboard
+    class JoelOnSoftware < Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        super(title, url, location, company, content, published_at)
+        @jobboard = self.class.jobboard_name
+      end
+      def self.parse
+       (open_feed.items || []).inject([]) do |acc, item|
+          title         = item.title.split(" at ").first.strip
+          url           = item.link
+          location      = item.title.split("(").last.split(")").first.strip
+          company       = item.title.split(" at ").last.split("(").first.strip
+          content       = item.description
+          published_at  = item.updated
+          acc << self.new(title, url, location, company, content, published_at).attributes
+          acc
+        end
+      end
+    end
+  end
+end

data/lib/jobboards/boards/krop.rb ADDED Viewed

@@ -0,0 +1,26 @@
+module JobboardsParser
+  module Jobboard
+    class Krop < Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        super(title, url, location, company, content, published_at)
+        @jobboard = self.class.jobboard_name
+      end
+      def self.parse
+       (open_feed.items || []).inject([]) do |acc, item|
+          title         = item.title.split(" is looking for a").last.split(" in ").first.strip
+          url           = item.link
+          location      = item.title.split(" is looking for a").last.split(" in").last.strip
+          company       = item.title.split(" is looking for a").first.strip
+          content       = item.description
+          published_at  = item.updated
+          acc << self.new(title, url, location, company, content, published_at).attributes
+          acc
+        end
+      end
+    end
+  end
+end

data/lib/jobboards/boards/ruby_inside.rb ADDED Viewed

@@ -0,0 +1,26 @@
+module JobboardsParser
+  module Jobboard
+    class RubyInside < Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        super(title, url, location, company, content, published_at)
+        @jobboard = self.class.jobboard_name
+      end
+      def self.parse
+        (open_feed.items || []).inject([]) do |acc, item|
+          title         = item.title.split(" at ").first.strip
+          url           = item.link
+          location      = item.title.split(" at ").last.split("(").last.sub(")","").strip
+          company       = item.title.split(" at ").last.split("(").first.strip
+          content       = Jobboard.extract_content(item.link)
+          published_at  = item.pubDate
+          acc << self.new(title, url, location, company, content, published_at).attributes
+          acc
+        end
+      end
+    end
+  end
+end

data/lib/jobboards/boards/ruby_now.rb ADDED Viewed

@@ -0,0 +1,26 @@
+module JobboardsParser
+  module Jobboard
+    class RubyNow < Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        super(title, url, location, company, content, published_at)
+        @jobboard = self.class.jobboard_name
+      end
+      def self.parse
+        (open_feed.items || []).inject([]) do |acc, item|
+          title         = item.title.split(" at ").first.strip
+          url           = item.guid
+          location      = item.title.split(" at:").last.strip
+          company       = nil
+          content       = item.description
+          published_at  = item.pudDate
+          acc << self.new(title, url, location, company, content, published_at).attributes
+          acc
+        end
+      end
+    end
+  end
+end

data/lib/jobboards/boards/smashing_magazine.rb ADDED Viewed

@@ -0,0 +1,26 @@
+module JobboardsParser
+  module Jobboard
+    class SmashingMagazine < Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        super(title, url, location, company, content, published_at)
+        @jobboard = self.class.jobboard_name
+      end
+      def self.parse
+        (open_feed.items || []).inject([]) do |acc, item|
+          title         = item.title.split("-")[1].strip
+          url           = item.link
+          location      = item.title.split("-")[2].split("(").last.split(")").first.strip
+          company       = item.title.split("-")[1].strip
+          content       = extract_content(item.link)
+          published_at  = item.updated
+          acc << self.new(title, url, location, company, content, published_at).attributes
+          acc
+        end
+      end
+    end
+  end
+end

data/lib/jobboards/boards/startuply.rb ADDED Viewed

@@ -0,0 +1,26 @@
+module JobboardsParser
+  module Jobboard
+    class Startuply < Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        super(title, url, location, company, content, published_at)
+        @jobboard = self.class.jobboard_name
+      end
+      def self.parse
+        (open_feed.items || []).inject([]) do |acc, item|
+          title         = item.title.split("-").first.strip
+          url           = item.link
+          location      = item.title.split(" in ").last.strip
+          company       = item.description.split("href")[1].split("Companies")[1].split(".aspx").first.split("_").delete_if {|x| x.to_i > 0}.join(" ").split("/").last
+          content       = extract_content(item.link)
+          published_at  = item.pubdate
+          acc << self.new(title, url, location, company, content, published_at).attributes
+          acc
+        end
+      end
+    end
+  end
+end

data/lib/jobboards/core.rb ADDED Viewed

@@ -0,0 +1,56 @@
+module JobboardsParser
+  module Jobboard
+    class Jobboard
+      def initialize(title, url, location, company, content, published_at)
+        @title = title
+        @url = url
+        @location = location
+        @company = company
+        @content = content
+        @published_at = published_at
+      end
+      def attributes
+        attrs = {}
+        attrs[:title]       = @title
+        attrs[:url]         = @url
+        attrs[:company]     = @company
+        attrs[:content]     = @content
+        attrs[:published_at]= @published_at
+        attrs[:jobboard]    = @jobboard
+        attrs.each{ |k,v| v.strip! if v.is_a?(String) }
+        attrs
+      end
+      def content=(text)
+        @content = htmlize(text)
+      end
+      def self.feed
+        JobboardsParser::BOARDS[ActiveSupport::Inflector.underscore(self.to_s.gsub(/^.*::/, '')).to_sym][:url]
+      end
+      def self.jobboard_name
+        _ = JobboardsParser::BOARDS[ActiveSupport::Inflector.underscore(self.to_s.gsub(/^.*::/, '')).to_sym]
+        _.is_a?(Hash) ? _[:name] : ''
+      end
+      def self.open_feed
+        SimpleRSS.parse(open(feed))
+      end
+      def self.extract_content(url)
+        page = Boilerpipe.extract(url, { :output => :json })
+        content = ActiveSupport::JSON.decode(page)["response"]["content"] rescue ""
+        content
+      end
+      private
+      def htmlize(content)
+        content.gsub(/&lt;/,"<").gsub(/&gt;/,">").gsub(/nbsp;/," ").gsub(/&amp;/,"&").strip
+      end
+    end
+  end
+end

data/lib/jobboards_parser.rb ADDED Viewed

@@ -0,0 +1,77 @@
+begin
+  require 'rubygems'
+  require 'boilerpipe'
+  require 'simple-rss'
+  require 'active_support'
+  require "open-uri"
+  require "active_support/core_ext/string/inflections.rb"
+  require "active_support/json.rb"
+rescue LoadError
+  require 'rubygems'
+  begin
+    gem 'simple-rss'
+    gem 'boilerpipe'
+    gem 'activesupport'
+    require 'simple-rss'
+    require 'Boilerpipe'
+    require 'active_support'
+    require "active_support/core_ext/string/inflections.rb"
+    require "active_support/json.rb"
+  rescue Gem::LoadError => e
+    puts "WARNING: Gem LoadError: #{e.message}"
+  end
+end
+require "jobboards/core"
+require "jobboards/boards/authentic_jobs"
+require "jobboards/boards/crunchboard"
+require "jobboards/boards/github"
+require "jobboards/boards/joel_on_software"
+require "jobboards/boards/krop"
+require "jobboards/boards/ruby_inside"
+require "jobboards/boards/ruby_now"
+require "jobboards/boards/37_signals"
+require "jobboards/boards/smashing_magazine"
+require "jobboards/boards/startuply"
+module JobboardsParser
+  BOARDS = {
+    :authentic_job      => { :url => "http://www.authenticjobs.com/rss/index.xml", :name => "Authentic jobs" },
+    :crunchboard        => { :url => "http://feeds.feedburner.com/CrunchboardJobs?format=xml", :name => "Crunchboard" },
+    :github             => { :url => "http://jobs.github.com/positions.atom", :name => "Github" },
+    :joel_on_software   => { :url => "http://careers.joelonsoftware.com/Jobs/Feed?", :name => "Joel on software" },
+    :krop               => { :url => "http://www.krop.com/services/feeds/rss/latest/", :name => "Krop" },
+    :ruby_inside        => { :url => "http://jobs.rubyinside.com/a/jbb/find-jobs-rss", :name => "Ruby Inside" },
+    :ruby_now           => { :url => "http://feeds.feedburner.com/jobsrubynow?format=xml", :name => "Ruby now" },
+    :signal             => { :url => "http://jobs.37signals.com/jobs.rss", :name => "37 Signals" },
+    :smashing_magazine  => { :url => "http://jobs.smashingmagazine.com/rss/all/all", :name => "Smashing Magazine" },
+    :startuply          => { :url => "http://startuply.com/Rss/HomePage.aspx", :name => "Startuply" },
+  }.freeze
+  # Load jobboards
+  # Specify in options the jobboards you want to load
+  # JobboarsParser.load(:crunchboard, :github)
+  # Or you can pass the :all option to get all jobboards
+  # JObboardsParser.load(:all)
+  def self.load(*opts)
+    opts = BOARDS.keys if opts.first == :all || opts.blank?
+    raise InvalidJobboard  if (opts.map(&:to_sym) - BOARDS.keys).size > 0
+    opts.inject([]) { |acc, board|
+      b = eval("JobboardsParser::Jobboard::#{board.to_s.classify}")
+      acc << (b.respond_to?(:parse) ? b.parse  : [])
+      acc
+    }.flatten
+  end
+  # Raise InvalidJobboard error when a board doesn't exist
+  class InvalidJobboard < StandardError; end
+end
+print JobboardsParser.load(:crunchboard)

metadata ADDED Viewed

@@ -0,0 +1,127 @@
+--- !ruby/object:Gem::Specification
+name: jobboards-parser
+version: !ruby/object:Gem::Version
+  hash: 29
+  prerelease:
+  segments:
+  - 0
+  - 0
+  - 1
+  version: 0.0.1
+platform: ruby
+authors:
+- "Gr\xC3\xA9gory Marcilhacy"
+autorequire:
+bindir: bin
+cert_chain: []
+date: 2010-05-15 00:00:00 +02:00
+default_executable:
+dependencies:
+- !ruby/object:Gem::Dependency
+  name: boilerpipe
+  prerelease: false
+  requirement: &id001 !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        hash: 23
+        segments:
+        - 0
+        - 0
+        - 4
+        version: 0.0.4
+  type: :runtime
+  version_requirements: *id001
+- !ruby/object:Gem::Dependency
+  name: simple-rss
+  prerelease: false
+  requirement: &id002 !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        hash: 25
+        segments:
+        - 1
+        - 2
+        - 3
+        version: 1.2.3
+  type: :runtime
+  version_requirements: *id002
+- !ruby/object:Gem::Dependency
+  name: activesupport
+  prerelease: false
+  requirement: &id003 !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        hash: 5
+        segments:
+        - 2
+        - 3
+        version: "2.3"
+  type: :runtime
+  version_requirements: *id003
+description: Simple ruby library for parsing tech jobboards
+email: g.marcilhacy@gmail.com
+executables: []
+extensions: []
+extra_rdoc_files: []
+files:
+- jobboards-parser.gemspec
+- README.textile
+- Rakefile
+- lib/jobboards_parser.rb
+- lib/jobboards/core.rb
+- lib/jobboards/boards/37_signals.rb
+- lib/jobboards/boards/authentic_jobs.rb
+- lib/jobboards/boards/crunchboard.rb
+- lib/jobboards/boards/github.rb
+- lib/jobboards/boards/joel_on_software.rb
+- lib/jobboards/boards/krop.rb
+- lib/jobboards/boards/ruby_inside.rb
+- lib/jobboards/boards/ruby_now.rb
+- lib/jobboards/boards/smashing_magazine.rb
+- lib/jobboards/boards/startuply.rb
+has_rdoc: true
+homepage: ""
+licenses: []
+post_install_message:
+rdoc_options: []
+require_paths:
+- lib
+required_ruby_version: !ruby/object:Gem::Requirement
+  none: false
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      hash: 3
+      segments:
+      - 0
+      version: "0"
+required_rubygems_version: !ruby/object:Gem::Requirement
+  none: false
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      hash: 3
+      segments:
+      - 0
+      version: "0"
+requirements: []
+rubyforge_project:
+rubygems_version: 1.6.2
+signing_key:
+specification_version: 3
+summary: Simple ruby library for parsing tech jobboards
+test_files: []