RubyGems - extractors - Versions diffs - 0.1.0 - Mend

extractors 0.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (11) hide show

data/.gitignore ADDED

@@ -0,0 +1,4 @@
+*.gem
+.bundle
+Gemfile.lock
+pkg/*

data/Gemfile ADDED

@@ -0,0 +1,4 @@
+source "http://rubygems.org"
+# Specify your gem's dependencies in extractors.gemspec
+gemspec

data/README.markdown ADDED

@@ -0,0 +1,45 @@
+### Extract user accounts from different contexts...
+```ruby
+Extractors(:twitter).sanitize("http://twitter.com/#!/programmingshit") # => "programmingshit"
+Extractors(:twitter).sanitize("programmingshit") # => "programmingshit"
+```
+### ... and format them back
+```ruby
+Extractors(:twitter).format("programmingshit") # => "http://twitter.com/#!/programmingshit"
+```
+### Add your own extractors
+```ruby
+Extractors.add :lookatme do
+  username_regexp = '[a-zA-Z0-9_\\-]{3,20}'
+  sanitizer [
+    %r{^(?:http://)?(?:www\.)?lookatme\.ru/users/(#{username_regexp})},
+    %r{^(#{username_regexp})$}
+  ]
+  formatter 'http://lookatme.ru/users/%s'
+end
+```
+### List of available extractors
+* :facebook
+* :googleplus
+* :gtalk
+* :lastfm
+* :livejournal
+* :lookatme
+* :moikrug
+* :myspace
+* :skype
+* :tumblr
+* :twitter
+* :vkontakte
+* :youtube
+### Credits
+The code itself has been *extracted* from <http://github.com/toy/contacts> gem.

data/Rakefile ADDED

@@ -0,0 +1,9 @@
+require 'bundler/gem_tasks'
+require 'rake/testtask'
+task :default => :test
+Rake::TestTask.new do |t|
+  t.libs << 'lib' << 'specs'
+  t.test_files = FileList['specs/*_spec.rb']
+  t.verbose = true
+end

data/extractors.gemspec ADDED

@@ -0,0 +1,24 @@
+# -*- encoding: utf-8 -*-
+$:.push File.expand_path("../lib", __FILE__)
+require "extractors/version"
+Gem::Specification.new do |s|
+  s.name        = "extractors"
+  s.version     = Extractors::VERSION
+  s.authors     = ["macovsky"]
+  s.email       = ["robotector@gmail.com"]
+  s.homepage    = "http://github.com/macovsky/extractors"
+  s.summary     = %q{Extract user accounts from different urls: tumblr, facebook and others.}
+  s.description = %q{}
+  s.rubyforge_project = "extractors"
+  s.files         = `git ls-files`.split("\n")
+  s.test_files    = `git ls-files -- {test,spec,features}/*`.split("\n")
+  s.executables   = `git ls-files -- bin/*`.split("\n").map{ |f| File.basename(f) }
+  s.require_paths = ["lib"]
+  # specify any dependencies here; for example:
+  s.add_development_dependency "minitest"
+  s.add_development_dependency "rake"
+end

data/lib/extractors.rb ADDED

@@ -0,0 +1,174 @@
+require 'extractors/version'
+require 'extractors/extractor'
+def Extractors (name)
+  Extractors.extractors[name.to_sym]
+end
+module Extractors
+  class <<self
+    def add(name, &block)
+      extractor = Extractor.new
+      extractor.instance_eval(&block)
+      extractors[name.to_sym] = extractor
+    end
+    def extractors
+      @extractors ||= {}
+    end
+  end
+  add :facebook do
+    username_regexp = '[0-9]{1,25}'
+    literal_username_regexp = '[a-zA-Z.]{1,25}'
+    sanitizer [
+      %r{^(?:http://)?(?:www\.)?facebook\.com/(#{literal_username_regexp})},
+      %r{^(#{literal_username_regexp})$},
+      %r{^(?:http://)?(?:www\.)?facebook\.com/profile.php\?id=(#{username_regexp})},
+      %r{^(?:http://)?(?:www\.)?facebook\.com/group.php\?gid=(#{username_regexp})},
+      %r{^(#{username_regexp})$}
+    ]
+    formatter do |value|
+      if value[%r{^\d+$}]
+        "http://facebook.com/profile.php?id=#{value}"
+      else
+        "http://facebook.com/#{value}"
+      end
+    end
+  end
+  # add :flickr do
+  #   username_regexp = '[\\-a-zA-Z0-9_@]{1,50}'
+  #   sanitizer [
+  #     %r{^(?:http://)?(?:www\.)?flickr\.com/(?:photos|people)/(#{username_regexp})},
+  #     %r{^(#{username_regexp})$}
+  #   ]
+  #   formatter 'http://flickr.com/photos/%s'
+  # end
+  add :googleplus do
+    sanitizer %r{^(?:https?://)?plus.google.com/(?:u/\d/)?(\d+)}
+    formatter 'https://plus.google.com/%s/posts'
+  end
+  add :gtalk do
+    sanitizer do |value|
+      username_regexp = '[a-zA-Z0-9]+(\\.[a-zA-Z0-9]+)*'
+      if result = value[%r{^(#{username_regexp})(?:@gmail\.com)?$}, 1]
+        "#{result}@gmail.com" if result && 6..30 === result.length
+      elsif result = value[%r{^#{username_regexp}@[a-z0-9]+(\.[a-z0-9]+)+$}]
+        "#{result}" if result
+      end
+    end
+    formatter 'gtalk:chat?jid=%s'
+  end
+  # add :icq do
+  #   sanitizer %r{^\d+$}
+  #   formatter 'http://icq.com/%s'
+  # end
+  add :lastfm do
+    username_regexp = '[a-zA-Z][_a-zA-Z0-9\\-]{1,20}'
+    sanitizer [
+      %r{^(?:http://)?(?:www\.)?last\.fm/user/(#{username_regexp})},
+      %r{^(#{username_regexp})$}
+    ]
+    formatter 'http://last.fm/user/%s'
+  end
+  add :livejournal do
+    sanitizer do |value|
+      username_regexp = '[a-zA-Z0-9_\\-]{1,20}'
+      result = value_from_matching_regexp(value, [
+                                        %r{^(?:http://)?(?:users|community)\.livejournal\.com/(#{username_regexp})},
+                                        %r{^(?:http://)?(#{username_regexp})\.livejournal\.com},
+                                        %r{^(#{username_regexp})$}
+      ])
+      result.gsub('_', '-') if result && result != 'www'
+    end
+    formatter 'http://%s.livejournal.com/'
+  end
+  add :lookatme do
+    username_regexp = '[a-zA-Z0-9_\\-]{3,20}'
+    sanitizer [
+      %r{^(?:http://)?(?:www\.)?lookatme\.ru/users/(#{username_regexp})},
+      %r{^(#{username_regexp})$}
+    ]
+    formatter 'http://lookatme.ru/users/%s'
+  end
+  add :moikrug do
+    sanitizer do |value|
+      username_regexp = '[a-zA-Z0-9][a-zA-Z0-9_\\-]{1,20}'
+     result = value_from_matching_regexp(value, [
+                                        %r{^(?:http://)?(#{username_regexp})\.moikrug\.ru},
+                                        %r{^(#{username_regexp})$}
+      ])
+      result.gsub('_', '-') if result && result != 'www'
+    end
+    formatter 'http://%s.moikrug.ru/'
+  end
+  add :myspace do
+    username_regexp = '[a-zA-Z0-9_\\-]{1,25}'
+    sanitizer [
+      %r{^(?:http://)?(?:www\.)?myspace\.com/(#{username_regexp})},
+      %r{^(#{username_regexp})$}
+    ]
+    formatter 'http://myspace.com/%s'
+  end
+  add :skype do
+    sanitizer %r{^[a-z][a-z0-9_,.\-]{5,31}$}i
+    formatter 'skype:%s?userinfo'
+  end
+  add :tumblr do
+    username_regexp = '[a-zA-Z0-9_\\-]{1,25}'
+    sanitizer [
+      %r{^(?:http://)?(?:www\.)tumblr\.com/blog/(#{username_regexp})},
+      %r{^(?:http://)?(#{username_regexp})\.tumblr\.com},
+      %r{^(#{username_regexp})$}
+    ]
+    formatter 'http://%s.tumblr.com'
+  end
+  add :twitter do
+    username_regexp = '[a-zA-Z0-9_\\-]{1,25}'
+    sanitizer [
+      %r{^(?:https?://)?(?:www\.)?twitter\.com/(?:#!/)?(#{username_regexp})},
+      %r{^(#{username_regexp})$}
+    ]
+    formatter 'http://twitter.com/#!/%s'
+  end
+  add :vkontakte do
+    id_regexp = '[0-9]{1,25}'
+    username_regexp = '[a-zA-Z][a-zA-Z0-9_\.]{4,}'
+    sanitizer [
+      %r{^(?:http://)?(?:www\.)?vkontakte\.ru/id(#{id_regexp})},
+      %r{^(#{id_regexp})$},
+      %r{^(?:http://)?(?:www\.)?vkontakte\.ru/(#{username_regexp})},
+      %r{^(#{username_regexp})$},
+    ]
+    formatter do |value|
+      if value[/\D/]
+        "http://vkontakte.ru/#{value}"
+      else
+        "http://vkontakte.ru/id#{value}"
+      end
+    end
+  end
+  add :youtube do
+    username_regexp = '[a-zA-Z0-9_\\-]{1,20}'
+    sanitizer [
+      %r{^(?:http://)?(?:www\.)?youtube\.com/user/(#{username_regexp})},
+      %r{^(#{username_regexp})$}
+    ]
+    formatter 'http://youtube.com/user/%s'
+  end
+end

data/lib/extractors/extractor.rb ADDED

@@ -0,0 +1,45 @@
+module Extractors
+  class Extractor
+    def sanitizer(arg = nil, &block)
+      @sanitizer = arg || block
+    end
+    def sanitize(value)
+      case @sanitizer
+      when Regexp
+        value_from_matching_regexp(value, [@sanitizer])
+      when Array
+        value_from_matching_regexp(value, @sanitizer)
+      when Proc
+        @sanitizer.call(value)
+      when nil
+        value
+      else
+        raise "Unknown type of sanitizer: #{@sanitizer.inspect}"
+      end
+    end
+    def formatter(arg = nil, &block)
+      @formatter = arg || block
+    end
+    def format(value)
+      case @formatter
+      when String
+        @formatter % value
+      when Proc
+        @formatter.call(value)
+      when nil
+        value
+      else
+        raise "Unknown type of formatter: #{@formatter.inspect}"
+      end
+    end
+    private
+    def value_from_matching_regexp(value, regexps)
+      regexps.find{ |regexp| regexp === value } && $1 || $&
+    end
+  end
+end

data/lib/extractors/version.rb ADDED

@@ -0,0 +1,3 @@
+module Extractors
+  VERSION = "0.1.0"
+end

data/specs/extractors_spec.rb ADDED

@@ -0,0 +1,81 @@
+require 'spec_helper'
+describe Extractors do
+  it "can reach extractors by a shortcut" do
+    Extractors(:skype).must_be_instance_of Extractors::Extractor
+  end
+  it "should have default extractors" do
+    Extractors.extractors.wont_be_empty
+    Extractors.extractors.keys.each do |extractor|
+      Extractors.extractors[extractor].must_be_instance_of Extractors::Extractor
+    end
+  end
+  it "can add new extractors" do
+    Extractors.add :test do
+    end
+    extractor = Extractors(:test)
+    extractor.wont_be_nil
+    extractor.must_respond_to(:sanitize)
+    extractor.must_respond_to(:format)
+  end
+  describe "existing extractors" do
+    {
+      :tumblr => {
+        :sanitize => {
+          "http://robotector.tumblr.com" => "robotector",
+          "http://www.tumblr.com/blog/robotector" => "robotector",
+          "robotector" => "robotector",
+        },
+        :format => {
+          "robotector" => "http://robotector.tumblr.com"
+        }
+      },
+      :lookatme => {
+        :sanitize => {
+          "lookatme.ru/users/macovsky" => "macovsky",
+          "macovsky" => "macovsky",
+        },
+        :format => {
+          "macovsky" => "http://lookatme.ru/users/macovsky"
+        }
+      },
+      :twitter => {
+        :sanitize => {
+          "twitter.com/robotector" => "robotector",
+          "https://twitter.com/#!/robotector" => "robotector",
+          "http://twitter.com/#!/robotector" => "robotector"
+        },
+        :format => {
+          "robotector" => "http://twitter.com/#!/robotector"
+        }
+      },
+      :googleplus => {
+        :sanitize => {
+          "https://plus.google.com/u/0/103751848505965231255/posts" => "103751848505965231255",
+          "https://plus.google.com/u/0/103751848505965231255" => "103751848505965231255",
+          "https://plus.google.com/103751848505965231255/posts" => "103751848505965231255",
+        },
+        :format => {
+          "103751848505965231255" => "https://plus.google.com/103751848505965231255/posts"
+        }
+      }
+    }.each do |name, sanitize_and_format|
+      (sanitize_and_format[:sanitize] || {}).merge(nil => nil).each do |k, v|
+        it "#{name} should sanitize properly" do
+          Extractors(name).sanitize(k).must_equal(v)
+        end
+      end
+      (sanitize_and_format[:format] || {}).each do |k, v|
+        it "#{name} should format properly" do
+          Extractors(name).format(k).must_equal(v)
+        end
+      end
+    end
+  end
+end

data/specs/spec_helper.rb ADDED

@@ -0,0 +1,3 @@
+require 'minitest/spec'
+require 'minitest/autorun'
+require 'extractors'

metadata ADDED

@@ -0,0 +1,77 @@
+--- !ruby/object:Gem::Specification
+name: extractors
+version: !ruby/object:Gem::Version
+  version: 0.1.0
+  prerelease:
+platform: ruby
+authors:
+- macovsky
+autorequire:
+bindir: bin
+cert_chain: []
+date: 2012-02-22 00:00:00.000000000Z
+dependencies:
+- !ruby/object:Gem::Dependency
+  name: minitest
+  requirement: &70126699361480 !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :development
+  prerelease: false
+  version_requirements: *70126699361480
+- !ruby/object:Gem::Dependency
+  name: rake
+  requirement: &70126699357780 !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :development
+  prerelease: false
+  version_requirements: *70126699357780
+description: ''
+email:
+- robotector@gmail.com
+executables: []
+extensions: []
+extra_rdoc_files: []
+files:
+- .gitignore
+- Gemfile
+- README.markdown
+- Rakefile
+- extractors.gemspec
+- lib/extractors.rb
+- lib/extractors/extractor.rb
+- lib/extractors/version.rb
+- specs/extractors_spec.rb
+- specs/spec_helper.rb
+homepage: http://github.com/macovsky/extractors
+licenses: []
+post_install_message:
+rdoc_options: []
+require_paths:
+- lib
+required_ruby_version: !ruby/object:Gem::Requirement
+  none: false
+  requirements:
+  - - ! '>='
+    - !ruby/object:Gem::Version
+      version: '0'
+required_rubygems_version: !ruby/object:Gem::Requirement
+  none: false
+  requirements:
+  - - ! '>='
+    - !ruby/object:Gem::Version
+      version: '0'
+requirements: []
+rubyforge_project: extractors
+rubygems_version: 1.8.10
+signing_key:
+specification_version: 3
+summary: ! 'Extract user accounts from different urls: tumblr, facebook and others.'
+test_files: []