RubyGems - juxtaparssionate - Versions diffs - 0.0.1 - Mend

juxtaparssionate 0.0.1

Files changed (8) hide show

checksums.yaml ADDED

@@ -0,0 +1,15 @@
+---
+!binary "U0hBMQ==":
+  metadata.gz: !binary |-
+    ZTY1Y2U2NGMzZjBmNGFhM2I2ZWE5M2VmMmZjOGJiNzI3YTY1M2Q0ZQ==
+  data.tar.gz: !binary |-
+    OTg1MTFjNGI2NDEyZDM2ZTU3OWFjNGY2YzhjN2Q3YTE1ZjM4ZjI1OQ==
+SHA512:
+  metadata.gz: !binary |-
+    ZTNkODg3MGYyZGM0OGM3OTI3MzVkNGZmZTk5MTA5OTQzMjYxYmZjMmE5NzFm
+    OTEyMGRkOGViMTgwN2Q0YWIxMDhiNmM5ZjUzYmI2NjM1OTFjNzg5MTAwYjQ0
+    M2U1ZmFlN2NlZTU4MzAyMmJiNzZmZGQzNzc3ZWEyYzhkYmQ1Y2U=
+  data.tar.gz: !binary |-
+    ZGQ1YjdlMGE5MmUyNTA5MzVlOTcwZGFiMzVmMzRkMGZiNjFkZGY3NzY3YTNh
+    OGI1YjVlYjk0MmMzMDFkMjY4YzZmMjAwMDRjMTkzYWUxNjU5ZWZjN2E2YzA1
+    YzM0Y2UxNjlmMDg3NzRkMDhhNjRkM2VjMjc3ZTA4NThhY2E5NjU=

data/README.rdoc ADDED

@@ -0,0 +1,5 @@
+== README
+{<img src="https://travis-ci.org/trosborn/passion-parse.svg?branch=master" alt="Build Status" />}[https://travis-ci.org/trosborn/passion-parse]
+juxtaparssionate parses postings and juxtaposes the results

data/lib/parser.rb ADDED

@@ -0,0 +1,43 @@
+require 'sanitize'
+require 'treat'
+include Treat::Core::DSL
+class Parser
+  attr_accessor :contents
+  def initialize file_path
+    @contents = document "#{file_path}"
+  end
+  def strip_tags
+    stripped = Sanitize.fragment @contents
+    stripped.split.join(' ')
+  end
+  def extract_nouns
+    words = @contents.apply(:chunk, :segment, :tokenize, :category)
+    words.nouns.map { |w| w.to_s }
+  end
+  def extract_words
+    chunked = strip_tags.apply(:chunk, :segment, :tokenize)
+    chunked.map { |w| w.to_s }
+  end
+  def count_words array
+    @word_count = {}
+    array.each do |word|
+      if @word_count[word] != nil
+        @word_count[word] += 1
+      else
+        @word_count[word] = 1
+      end
+    end
+    @word_count
+  end
+  def order_hash hash
+    hash.sort_by { |key, value| value }
+  end
+end

data/lib/scraper.rb ADDED

@@ -0,0 +1,23 @@
+require 'mechanize'
+require 'nokogiri'
+class Scraper
+  def we_work
+    agent = Mechanize.new
+    page = agent.get('https://weworkremotely.com/categories/2/jobs')
+    page.links_with( :href => %r{/jobs/} ).each_with_index do |link, index|
+      next if link.href == 'https://weworkremotely.com/jobs/new'
+      page = link.click
+      doc = page.parser
+      extracted_words = doc.css('title').to_s
+      extracted_words << doc.css('div.listing-container').to_s
+      save extracted_words, index
+    end
+  end
+  def save doc, index
+    File.open "postings/job_posting#{index}.txt", 'w' do |f|
+      f.write doc
+    end
+  end
+end

data/lib/version.rb ADDED

	@@ -0,0 +1 @@
1	+ VERSION = '0.0.1'

data/test/files/job_posting.txt ADDED

	@@ -0,0 +1 @@
1	+ <div><ul><li><p> ninja <em>10x</em> wanted for ninja douchenozzle team</p></li></ul></div>

data/test/test_parser.rb ADDED

@@ -0,0 +1,32 @@
+require 'minitest/autorun'
+require_relative '../lib/parser'
+class TestParser < Minitest::Test
+  def setup
+    @parser = Parser.new 'test/files/job_posting.txt'
+    @hash = { '10x' => 1, 'ninja' => 3, 'douchenozzle' => 2 }
+  end
+  def test_that_HTML_tags_are_stripped
+    assert_equal 'ninja 10x wanted for ninja douchenozzle team', @parser.strip_tags
+  end
+  def test_that_words_are_extracted
+    assert_equal ["ninja", "10x", "wanted", "for", "ninja", "douchenozzle", "team"], @parser.extract_words
+  end
+  def test_that_words_are_counted
+    array = ['10x', 'ninja', 'douchenozzle', 'ninja', 'douchenozzle', 'ninja']
+    assert_equal @hash, @parser.count_words(array)
+  end
+  def test_that_the_hash_is_ordered
+    array = [['10x', 1], ['douchenozzle', 2], ['ninja', 3]]
+    assert_equal array, @parser.order_hash(@hash)
+  end
+  def test_that_nouns_are_extracted
+    assert_equal ["team"], @parser.extract_nouns
+  end
+end

metadata ADDED

@@ -0,0 +1,122 @@
+--- !ruby/object:Gem::Specification
+name: juxtaparssionate
+version: !ruby/object:Gem::Version
+  version: 0.0.1
+platform: ruby
+authors:
+- Thomas Osborn
+autorequire:
+bindir: bin
+cert_chain: []
+date: 2015-04-13 00:00:00.000000000 Z
+dependencies:
+- !ruby/object:Gem::Dependency
+  name: treat
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: rwordnet
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: nokogiri
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: mechanize
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: sanitize
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+description: juxtaparssionate parses and compares job postings from various popular
+  job boards. By comparing word frequency, sentence length, and parts-of-speech counts,
+  juxtaparssionate produces metrics loosely determining the quality and uniqueness
+  of a job posting
+email: trosborn@gmail.com
+executables: []
+extensions: []
+extra_rdoc_files: []
+files:
+- README.rdoc
+- lib/parser.rb
+- lib/scraper.rb
+- lib/version.rb
+- test/files/job_posting.txt
+- test/test_parser.rb
+homepage: http://www.github.com/trosborn/juxtaparssionate
+licenses:
+- MIT
+metadata: {}
+post_install_message:
+rdoc_options: []
+require_paths:
+- lib
+required_ruby_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ! '>='
+    - !ruby/object:Gem::Version
+      version: '0'
+required_rubygems_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ! '>='
+    - !ruby/object:Gem::Version
+      version: '0'
+requirements: []
+rubyforge_project:
+rubygems_version: 2.4.5
+signing_key:
+specification_version: 4
+summary: A tool for parsing and comparing job postings
+test_files: []