RubyGems - people - Versions diffs - 0.2.0 - Mend

people 0.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (11) hide show

data/.document ADDED Viewed

@@ -0,0 +1,5 @@
+README.rdoc
+lib/**/*.rb
+bin/*
+features/**/*.feature
+LICENSE

data/.gitignore ADDED Viewed

@@ -0,0 +1,5 @@
+*.sw?
+.DS_Store
+coverage
+rdoc
+pkg

data/LICENSE ADDED Viewed

@@ -0,0 +1,20 @@
+Copyright (c) 2009 Matthew Ericson
+Permission is hereby granted, free of charge, to any person obtaining
+a copy of this software and associated documentation files (the
+"Software"), to deal in the Software without restriction, including
+without limitation the rights to use, copy, modify, merge, publish,
+distribute, sublicense, and/or sell copies of the Software, and to
+permit persons to whom the Software is furnished to do so, subject to
+the following conditions:
+The above copyright notice and this permission notice shall be
+included in all copies or substantial portions of the Software.
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
+EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
+MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
+NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE
+LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION
+OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION
+WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.

data/README.rdoc ADDED Viewed

@@ -0,0 +1,7 @@
+= people
+Parses names into parts.
+== Copyright
+Copyright (c) 2009 Matthew Ericson. See LICENSE for details.

data/Rakefile ADDED Viewed

@@ -0,0 +1,62 @@
+require 'rubygems'
+require 'rake'
+begin
+  require 'jeweler'
+  Jeweler::Tasks.new do |gem|
+    gem.name = "people"
+    gem.summary = %Q{Matts Name Parser}
+    gem.email = "mericson@ericson.net"
+    gem.homepage = "http://github.com/mericson/people"
+    gem.authors = ["Matthew Ericson"]
+    # gem is a Gem::Specification... see http://www.rubygems.org/read/chapter/20 for additional settings
+  end
+  Jeweler::GemcutterTasks.new
+rescue LoadError
+  puts "Jeweler not available. Install it with: sudo gem install technicalpickles-jeweler -s http://gems.github.com"
+end
+require 'rake/testtask'
+Rake::TestTask.new(:test) do |test|
+  test.libs << 'lib' << 'test'
+  test.pattern = 'test/**/*_test.rb'
+  test.verbose = true
+end
+begin
+  require 'rcov/rcovtask'
+  Rcov::RcovTask.new do |test|
+    test.libs << 'test'
+    test.pattern = 'test/**/*_test.rb'
+    test.verbose = true
+  end
+rescue LoadError
+  task :rcov do
+    abort "RCov is not available. In order to run rcov, you must: sudo gem install spicycode-rcov"
+  end
+end
+task :default => :test
+require 'rake/rdoctask'
+Rake::RDocTask.new do |rdoc|
+  if File.exist?('VERSION.yml')
+    config = YAML.load(File.read('VERSION.yml'))
+    version = "#{config[:major]}.#{config[:minor]}.#{config[:patch]}"
+  else
+    version = ""
+  end
+  rdoc.rdoc_dir = 'rdoc'
+  rdoc.title = "people #{version}"
+  rdoc.rdoc_files.include('README*')
+  rdoc.rdoc_files.include('lib/**/*.rb')
+end

data/VERSION.yml ADDED Viewed

@@ -0,0 +1,4 @@
+---
+:major: 0
+:minor: 2
+:patch: 0

data/lib/people.rb ADDED Viewed

@@ -0,0 +1,499 @@
+module People
+  # Class to parse names into their components like first, middle, last, etc.
+  class NameParser
+    attr_reader :seen, :parsed
+    # Creates a name parsing object
+    def initialize( opts={} )
+      @name_chars = "A-Za-z0-9\\-\\'"
+      @nc = @name_chars
+      @opts = {
+        :strip_mr   => true,
+        :strip_mrs  => false,
+        :case_mode  => 'proper',
+        :couples    => false
+      }.merge! opts
+      ## constants
+      @titles = [ 'Mr\.? and Mrs\.? ',
+                  'Mrs\.? ',
+                  'M/s\.? ',
+                  'Ms\.? ',
+                  'Miss\.? ',
+                  'Mme\.? ',
+                  'Mr\.? ',
+                  'Messrs ',
+                  'Mister ',
+                  'Mast(\.|er)? ',
+                  'Ms?gr\.? ',
+                  'Sir ',
+                  'Lord ',
+                  'Lady ',
+                  'Madam(e)? ',
+                  'Dame ',
+                  # Medical
+                  'Dr\.? ',
+                  'Doctor ',
+                  'Sister ',
+                  'Matron ',
+                  # Legal
+                  'Judge ',
+                  'Justice ',
+                  # Police
+                  'Det\.? ',
+                  'Insp\.? ',
+                  # Military
+                  'Brig(adier)? ',
+                  'Capt(\.|ain)? ',
+                  'Commander ',
+                  'Commodore ',
+                  'Cdr\.? ',
+                  'Colonel ',
+                  'Gen(\.|eral)? ',
+                  'Field Marshall ',
+                  'Fl\.? Off\.? ',
+                  'Flight Officer ',
+                  'Flt Lt ',
+                  'Flight Lieutenant ',
+                  'Pte\. ',
+                  'Private ',
+                  'Sgt\.? ',
+                  'Sargent ',
+                  'Air Commander ',
+                  'Air Commodore ',
+                  'Air Marshall ',
+                  'Lieutenant Colonel ',
+                  'Lt\.? Col\.? ',
+                  'Lt\.? Gen\.? ',
+                  'Lt\.? Cdr\.? ',
+                  'Lieutenant ',
+                  '(Lt|Leut|Lieut)\.? ',
+                  'Major General ',
+                  'Maj\.? Gen\.?',
+                  'Major ',
+                  'Maj\.? ',
+                  # Religious
+                  'Rabbi ',
+                  'Brother ',
+                  'Father ',
+                  'Chaplain ',
+                  'Pastor ',
+                  'Bishop ',
+                  'Mother Superior ',
+                  'Mother ',
+                  'Most Rever[e|a]nd ',
+                  'Very Rever[e|a]nd ',
+                  'Mt\.? Revd\.? ',
+                  'V\.? Revd?\.? ',
+                  'Rever[e|a]nd ',
+                  'Revd?\.? ',
+                  # Other
+                  'Prof(\.|essor)? ',
+                  'Ald(\.|erman)? '
+                ];
+      @suffixes = [
+                   'Jn?r\.?,? Esq\.?',
+                   'Sn?r\.?,? Esq\.?',
+                   'I{1,3},? Esq\.?',
+                   'Jn?r\.?,? M\.?D\.?',
+                   'Sn?r\.?,? M\.?D\.?',
+                   'I{1,3},? M\.?D\.?',
+                   'Sn?r\.?',         # Senior
+                   'Jn?r\.?',         # Junior
+                   'Esq(\.|uire)?',
+                   'Esquire.',
+                   'Attorney at Law.',
+                   'Attorney-at-Law.',
+                   'Ph\.?d\.?',
+                   'C\.?P\.?A\.?',
+                   'XI{1,3}',            # 11th, 12th, 13th
+                   'X',                  # 10th
+                   'IV',                 # 4th
+                   'VI{1,3}',            # 6th, 7th, 8th
+                   'V',                  # 5th
+                   'IX',                 # 9th
+                   'I{1,3}\.?',             # 1st, 2nd, 3rd
+                   'M\.?D\.?',           # M.D.
+                   'D.?M\.?D\.?'         # M.D.
+                  ];
+      @last_name_p = "((;.+)|(((Mc|Mac|Des|Dell[ae]|Del|De La|De Los|Da|Di|Du|La|Le|Lo|St\.|Den|Von|Van|Von Der|Van De[nr]) )?([#{@nc}]+)))";
+      @mult_name_p = "((;.+)|(((Mc|Mac|Des|Dell[ae]|Del|De La|De Los|Da|Di|Du|La|Le|Lo|St\.|Den|Von|Van|Von Der|Van De[nr]) )?([#{@nc} ]+)))";
+      @seen = 0
+      @parsed = 0;
+    end
+    def parse( name )
+      @seen += 1
+      clean  = ''
+      out = Hash.new( "" )
+      out[:orig]  = name.dup
+      name = name.dup
+      name = clean( name )
+      # strip trailing suffices
+      @suffixes.each do |sfx|
+        sfx_p = Regexp.new( "(.+), (#{sfx})$", true )
+        ##puts sfx_p
+        name.gsub!( sfx_p, "\\1 \\2" )
+      end
+      name.gsub!( /Mr\.? \& Mrs\.?/i, "Mr. and Mrs." )
+      # Flip last and first if contain comma
+      name.gsub!( /;/, "" )
+      name.gsub!( /(.+),(.+)/, "\\2 ;\\1" )
+      name.gsub!( /,/, "" )
+      name.strip!
+      if @opts[:couples]
+        name.gsub!( / +and +/i, " \& " )
+      end
+      if @opts[:couples] && name.match( /\&/ )
+        names = name.split( / *& */ )
+        a = names[0]
+        b = names[1]
+        out[:title2] = get_title( b );
+        out[:suffix2] = get_suffix( b );
+        b.strip!
+        parts = get_name_parts( b )
+        out[:parsed2] = parts[0]
+        out[:parse_type2] = parts[1]
+        out[:first2] = parts[2]
+        out[:middle2] = parts[3]
+        out[:last] = parts[4]
+        out[:title] = get_title( a );
+        out[:suffix] = get_suffix( a );
+        a.strip!
+        a += " "
+        parts = get_name_parts( a, true )
+        out[:parsed] = parts[0]
+        out[:parse_type] = parts[1]
+        out[:first] = parts[2]
+        out[:middle] = parts[3]
+        if out[:parsed] && out[:parsed2]
+          out[:multiple] = true
+        else
+          out = Hash.new( "" )
+        end
+      else
+        out[:title] = get_title( name );
+        out[:suffix] = get_suffix( name );
+        parts = get_name_parts( name )
+        out[:parsed] = parts[0]
+        out[:parse_type] = parts[1]
+        out[:first] = parts[2]
+        out[:middle] = parts[3]
+        out[:last] = parts[4]
+      end
+      if @opts[:case_mode] == 'proper'
+        [ :title, :first, :middle, :last, :suffix, :clean, :first2, :middle2, :title2, :suffix2 ].each do |part|
+          next if part == :suffix && out[part].match( /^[iv]+$/i );
+          out[part] = proper( out[part] )
+        end
+      elsif @opts[:case_mode] == 'upper'
+        [ :title, :first, :middle, :last, :suffix, :clean, :first2, :middle2, :title2, :suffix2 ].each do |part|
+          out[part].upcase!
+        end
+      else
+      end
+      if out[:parsed]
+        @parsed += 1
+      end
+      out[:clean] = name
+      return {
+        :title       => "",
+        :first       => "",
+        :middle      => "",
+        :last        => "",
+        :suffix      => "",
+        :title2      => "",
+        :first2      => "",
+        :middle2     => "",
+        :suffix2     => "",
+        :clean       => "",
+        :parsed      => false,
+        :parse_type  => "",
+        :parsed      => false,
+        :parse_type  => "",
+        :parsed2     => false,
+        :parse_type2 => "",
+        :multiple    => false
+      }.merge( out )
+    end
+    def clean( s )
+      # remove illegal characters
+      s.gsub!( /[^A-Za-z0-9\-\'\.&\/ \,]/, "" )
+      # remove repeating spaces
+      s.gsub!( /  +/, " " )
+      s.gsub!( /\s+/, " " )
+      s.strip!
+      s
+    end
+    def get_title( name )
+      @titles.each do |title|
+        title_p = Regexp.new( "^(#{title})(.+)", true )
+        if m = name.match( title_p )
+          title = m[1]
+          name.replace( m[-1].strip )
+          return title
+        end
+      end
+      return ""
+    end
+    def get_suffix( name )
+      @suffixes.each do |sfx|
+        sfx_p = Regexp.new( "(.+) (#{sfx})$", true )
+        if name.match( sfx_p )
+          name.replace $1.strip
+          suffix = $2
+          return $2
+        end
+      end
+      return ""
+    end
+    def get_name_parts( name, no_last_name = false )
+      first  = ""
+      middle = ""
+      last   = ""
+      if no_last_name
+        last_name_p = ''
+        mult_name_p = ''
+      else
+        last_name_p = @last_name_p
+        mult_name_p = @mult_name_p
+      end
+      parsed = false
+      # M ERICSON
+      if name.match( /^([A-Za-z])\.? (#{last_name_p})$/i )
+        first  = $1;
+        middle = '';
+        last   = $2;
+        parsed = true
+        parse_type = 1;
+        # M E ERICSON
+      elsif name.match( /^([A-Za-z])\.? ([A-Za-z])\.? (#{last_name_p})$/i )
+        first  = $1;
+        middle = $2;
+        last   = $3;
+        parsed = true
+        parse_type = 2;
+        # M.E. ERICSON
+      elsif name.match( /^([A-Za-z])\.([A-Za-z])\. (#{last_name_p})$/i )
+        first  = $1;
+        middle = $2;
+        last   = $3;
+        parsed = true
+        parse_type = 3;
+        # M E E ERICSON
+      elsif name.match( /^([A-Za-z])\.? ([A-Za-z])\.? ([A-Za-z])\.? (#{last_name_p})$/i )
+        first  = $1;
+        middle = $2 + ' ' + $3;
+        last   = $4;
+        parsed = true
+        parse_type = 4;
+        # M EDWARD ERICSON
+      elsif name.match( /^([A-Za-z])\.? ([#{@nc}]+) (#{last_name_p})$/i )
+        first  = $1;
+        middle = $2;
+        last   = $3;
+        parsed = true
+        parse_type = 5;
+        # MATTHEW E ERICSON
+      elsif name.match( /^([#{@nc}]+) ([A-Za-z])\.? (#{last_name_p})$/i )
+        first  = $1;
+        middle = $2;
+        last   = $3;
+        parsed = true
+        parse_type = 6;
+        # MATTHEW E E ERICSON
+      elsif name.match( /^([#{@nc}]+) ([A-Za-z])\.? ([A-Za-z])\.? (#{last_name_p})$/i )
+        first  = $1;
+        middle = $2 + ' ' + $3;
+        last   = $4;
+        parsed = true
+        parse_type = 7;
+        # MATTHEW E.E. ERICSON
+      elsif name.match( /^([#{@nc}]+) ([A-Za-z]\.[A-Za-z]\.) (#{last_name_p})$/i )
+        first  = $1;
+        middle = $2;
+        last   = $3;
+        parsed = true
+        parse_type = 8;
+        # MATTHEW ERICSON
+      elsif name.match( /^([#{@nc}]+) (#{last_name_p})$/i )
+        first  = $1;
+        middle = '';
+        last   = $2;
+        parsed = true
+        parse_type = 9;
+        # MATTHEW EDWARD ERICSON
+      elsif name.match( /^([#{@nc}]+) ([#{@nc}]+) (#{last_name_p})$/i )
+        first  = $1;
+        middle = $2;
+        last   = $3;
+        parsed = true
+        parse_type = 10;
+        # MATTHEW E. SHEIE ERICSON
+      elsif name.match( /^([#{@nc}]+) ([A-Za-z])\.? ($multNamePat)$/i )
+        first  = $1;
+        middle = $2;
+        last   = $3;
+        parsed = true
+        parse_type = 11;
+      end
+      last.gsub!( /;/, "" )
+      return [ parsed, parse_type, first, middle, last ];
+    end
+    def proper ( name )
+      fixed = name.downcase
+      # Now uppercase first letter of every word. By checking on word boundaries,
+      # we will account for apostrophes (D'Angelo) and hyphenated names
+      fixed.gsub!( /\b(\w+)/ ) { |m| m.match( /^[ixv]$+/i ) ? m.upcase :  m.capitalize }
+      # Name case Macs and Mcs
+      # Exclude names with 1-2 letters after prefix like Mack, Macky, Mace
+      # Exclude names ending in a,c,i,o,z or j, typically Polish or Italian
+      if fixed.match( /\bMac[a-z]{2,}[^a|c|i|o|z|j]\b/i  )
+        fixed.gsub!( /\b(Mac)([a-z]+)/i ) do |m|
+          $1 + $2.capitalize
+        end
+        # Now correct for "Mac" exceptions
+        fixed.gsub!( /MacHin/i,  'Machin' )
+        fixed.gsub!( /MacHlin/i, 'Machlin' )
+        fixed.gsub!( /MacHar/i,  'Machar' )
+        fixed.gsub!( /MacKle/i,  'Mackle' )
+        fixed.gsub!( /MacKlin/i, 'Macklin' )
+        fixed.gsub!( /MacKie/i,  'Mackie' )
+        # Portuguese
+        fixed.gsub!( /MacHado/i,  'Machado' );
+        # Lithuanian
+        fixed.gsub!( /MacEvicius/i, 'Macevicius' )
+        fixed.gsub!( /MacIulis/i,   'Maciulis' )
+        fixed.gsub!( /MacIas/i,     'Macias' )
+      elsif fixed.match( /\bMc/i )
+        fixed.gsub!( /\b(Mc)([a-z]+)/i ) do |m|
+          $1 + $2.capitalize
+        end
+      end
+      # Exceptions (only 'Mac' name ending in 'o' ?)
+      fixed.gsub!( /Macmurdo/i, 'MacMurdo' )
+      return fixed
+    end
+  end
+end

data/people.gemspec ADDED Viewed

@@ -0,0 +1,50 @@
+# Generated by jeweler
+# DO NOT EDIT THIS FILE DIRECTLY
+# Instead, edit Jeweler::Tasks in Rakefile, and run the gemspec command
+# -*- encoding: utf-8 -*-
+Gem::Specification.new do |s|
+  s.name = %q{people}
+  s.version = "0.2.0"
+  s.required_rubygems_version = Gem::Requirement.new(">= 0") if s.respond_to? :required_rubygems_version=
+  s.authors = ["Matthew Ericson"]
+  s.date = %q{2010-10-29}
+  s.email = %q{mericson@ericson.net}
+  s.extra_rdoc_files = [
+    "LICENSE",
+     "README.rdoc"
+  ]
+  s.files = [
+    ".document",
+     ".gitignore",
+     "LICENSE",
+     "README.rdoc",
+     "Rakefile",
+     "VERSION.yml",
+     "lib/people.rb",
+     "people.gemspec",
+     "test/people_test.rb",
+     "test/test_helper.rb"
+  ]
+  s.homepage = %q{http://github.com/mericson/people}
+  s.rdoc_options = ["--charset=UTF-8"]
+  s.require_paths = ["lib"]
+  s.rubygems_version = %q{1.3.7}
+  s.summary = %q{Matts Name Parser}
+  s.test_files = [
+    "test/people_test.rb",
+     "test/test_helper.rb"
+  ]
+  if s.respond_to? :specification_version then
+    current_version = Gem::Specification::CURRENT_SPECIFICATION_VERSION
+    s.specification_version = 3
+    if Gem::Version.new(Gem::VERSION) >= Gem::Version.new('1.2.0') then
+    else
+    end
+  else
+  end
+end

data/test/people_test.rb ADDED Viewed

@@ -0,0 +1,7 @@
+require 'test_helper'
+class PeopleTest < Test::Unit::TestCase
+  should "probably rename this file and start testing for real" do
+    ##flunk "hey buddy, you should probably rename this file and start testing for real"
+  end
+end

data/test/test_helper.rb ADDED Viewed

@@ -0,0 +1,10 @@
+require 'rubygems'
+require 'test/unit'
+require 'shoulda'
+$LOAD_PATH.unshift(File.join(File.dirname(__FILE__), '..', 'lib'))
+$LOAD_PATH.unshift(File.dirname(__FILE__))
+require 'people'
+class Test::Unit::TestCase
+end

metadata ADDED Viewed

@@ -0,0 +1,78 @@
+--- !ruby/object:Gem::Specification
+name: people
+version: !ruby/object:Gem::Version
+  hash: 23
+  prerelease: false
+  segments:
+  - 0
+  - 2
+  - 0
+  version: 0.2.0
+platform: ruby
+authors:
+- Matthew Ericson
+autorequire:
+bindir: bin
+cert_chain: []
+date: 2010-10-29 00:00:00 -04:00
+default_executable:
+dependencies: []
+description:
+email: mericson@ericson.net
+executables: []
+extensions: []
+extra_rdoc_files:
+- LICENSE
+- README.rdoc
+files:
+- .document
+- .gitignore
+- LICENSE
+- README.rdoc
+- Rakefile
+- VERSION.yml
+- lib/people.rb
+- people.gemspec
+- test/people_test.rb
+- test/test_helper.rb
+has_rdoc: true
+homepage: http://github.com/mericson/people
+licenses: []
+post_install_message:
+rdoc_options:
+- --charset=UTF-8
+require_paths:
+- lib
+required_ruby_version: !ruby/object:Gem::Requirement
+  none: false
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      hash: 3
+      segments:
+      - 0
+      version: "0"
+required_rubygems_version: !ruby/object:Gem::Requirement
+  none: false
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      hash: 3
+      segments:
+      - 0
+      version: "0"
+requirements: []
+rubyforge_project:
+rubygems_version: 1.3.7
+signing_key:
+specification_version: 3
+summary: Matts Name Parser
+test_files:
+- test/people_test.rb
+- test/test_helper.rb