RubyGems - url_scrubber - Versions diffs - 0.8.5 → 0.8.6 - Mend

url_scrubber 0.8.5 → 0.8.6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (5) hide show

checksums.yaml CHANGED Viewed

@@ -1,15 +1,15 @@
 ---
 !binary "U0hBMQ==":
   metadata.gz: !binary |-
-    MWNkMWE5MDM0ZTliMzg1NDcwN2Y5Zjg4Mzc1ZWE4MWY1ZmVlMWUwMQ==
+    MDM4ZTYzMzA2NTRjNzhjOTI2MjI4MGI3MDdlZjIzYjZmYjQ4ZDUwOA==
   data.tar.gz: !binary |-
-    ZTg4Y2ZkNTU2NWZjMjhmYjczZGM4OTQ3MWRmYjNkMDc5ZDMxMTJmNg==
+    NDczYzkxOTc4OGFkNmQzNTI2M2E4Y2E0MGM2NmRhZmQwNWRmZDYwNw==
 SHA512:
   metadata.gz: !binary |-
-    ZWM2M2VlZWM5N2UyMmFhODU4NmE0MjAwYWZiMzk1OTBkODA3ZDQ4NzA2ZWRj
-    Mzc0ZTk2MjY5YTA2YzVjY2NiY2RjMWEyZTQyZjc3NzFlNzE4YTU3YWRhZTQy
-    NWE3MDBlNzc5YTM4NDEzNjYwYzJiMjUxYjY3MDRjZjUzNzc1NTA=
+    MmMxY2U0ZmMwMDYyZjUwYjQ4YjI3OTU2NDZiZjgzYTZhZDY5ODQ3ZTAzM2E4
+    NTNkNWM0NWMwNTcyYTkwMDlkYzk2MzkyMDY1NjYzMTNlODg0Y2FhYWIxNmUy
+    ZDgwMjUxNDI3YTk5ZTQ2MTdjZWJkNzcxZGViMzYyZTBjYTI5NDY=
   data.tar.gz: !binary |-
-    NGQ2ZDQ3NjUwY2RlOGYxMzljNDMyMTU0ZWJmZGRkN2YwMmJjNmIwMzY4OGQ4
-    NWU0NmE5OGE3Mjk4NTgxNDk1M2E2YzdkNTVmNTEwMzQ1NDEzOGY2NmZjMzA2
-    ZTMzNzUwNDIyMWM5YzIzMjg2NTJhMGRlMWNkMWE5NTdiN2E5ZGI=
+    ZDRkYjJmNjY2ZWQ5N2IxNzE2MWYxNGNmODJhNDJmNjc0OTkyZjIzOTYxMzMx
+    NGVkZjE4MTYzN2E4OWE2MTNhMDUzOGFiMWY1Mzg1MmNkNWUyNWQyNjlhYjE0
+    M2NmYjY2ZDg3MzAxOTNkZTZmZTQ0NDFlY2FmODVjOWI1OTEyYzA=

data/Gemfile CHANGED Viewed

@@ -1,4 +1,6 @@
 source "http://rubygems.org"
 # Specify your gem's dependencies in url_scrubber.gemspec
-gemspec
+gemspec
+gem 'domainatrix'

data/lib/url_scrubber/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module UrlScrubber
-  VERSION = "0.8.5"
+  VERSION = "0.8.6"
 end

data/lib/url_scrubber.rb CHANGED Viewed

@@ -5,6 +5,7 @@ require 'uri'
 USER_AGENT = 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_3; en-us) AppleWebKit/534.1+ (KHTML, like Gecko) Version/5.0 Safari/533.16'
 module UrlScrubber
   def self.scrub(url)
     url = url.clone # don't modify the original argument
@@ -27,6 +28,7 @@ module UrlScrubber
     return url
   end
   def self.service_of(url)
     domain_match = url.match(%r{https?://([^/]+)})
@@ -66,6 +68,7 @@ module UrlScrubber
     :other
   end
   def self.ideal_form?(url)
     url = scrub(url)
     return false unless url
@@ -100,23 +103,27 @@ module UrlScrubber
       true
     end
   end
   def self.linkedin_company_url?(url)
     url = scrub(url)
     return false unless url
     return url.include?('http://linkedin.com/company/')
   end
   def self.linkedin_personal_url?(url)
     url = scrub(url)
     return false unless url
     return url.include?('http://linkedin.com/in/') || url.include?('http://linkedin.com/pub/')
   end
   def self.find_identity_from_url(url)
     UrlScrubber.scrub(url).split("/").last unless url.nil?
   end
   def self.find_linkedin_identity_from_url(url)
     return nil if url.nil?
     scrubbed_url = scrub(url)
@@ -135,6 +142,7 @@ module UrlScrubber
     end
   end
   # Requirements:
   # 1.  must have http/https scheme
   # 2.  no "@" in any of the passed in url string
@@ -146,14 +154,34 @@ module UrlScrubber
     rescue URI::InvalidURIError
     false
   end
+  def self.maps_to_public_url(url)
+    scrubbed = scrub(url)
+    parsed = URI.parse(url) or return nil
+    host = Domainatrix.parse(parsed.host)
+    if host.domain == "facebook" && host.subdomain == "business"
+      public_url = scrubbed.sub("http://business.facebook.com", "http://facebook.com")
+    elsif host.domain == "google" && host.subdomain == "business"
+      public_url = scrubbed.sub("http://business.google.com", "http://plus.google.com")
+    else
+      public_url = nil
+    end
+    public_url
+  end
+  ################################################################################
   private
+  ################################################################################
   def self.downcase_domain(url)
     domain_match = url.match(%r{http://[^/]+}i)
     domain_match[0].downcase + domain_match.post_match
   end
   def self.special_cases(url)
     #puts "special_cases"
     case service_of(url)
@@ -171,6 +199,7 @@ module UrlScrubber
     url
   end
   def self.remove_www!(url)
     # url.sub!(%r{://www\d*\.}, '://')
     url.sub!(%r{^https?://www?w?\d*\.}i, 'http://')
@@ -179,27 +208,32 @@ module UrlScrubber
     url
   end
   def self.remove_html_tags!(url)
     url.gsub!(/<\/?[^>]+>/, '')
     url
   end
   def self.drop_url_ampersand!(url)
     url.sub!(/\&.*$/, '')
     url
   end
   def self.drop_url_query!(url)
     url.sub!(/\?.*$/, '')
     url
   end
   def self.drop_anchor!(url)
     #puts "drop anchor"
     url.sub!(/#.*$/, '')
     url
   end
   def self.sc_youtube(url)
     # We need to allow the /user version of the URL due to how YouTube allows users to have their own URL
     # which is not separate channel with it's own customUrl.
@@ -208,6 +242,7 @@ module UrlScrubber
     url
   end
   def self.sc_vimeo(url)
     if url.include?('vimeo.com/groups/')
       groups_partition = url.partition('vimeo.com/groups/')
@@ -222,6 +257,7 @@ module UrlScrubber
     url
   end
   def self.sc_twitter(url)
     url.sub!('twitter.com/@', 'twitter.com/')
@@ -238,13 +274,14 @@ module UrlScrubber
     url
   end
   def self.sc_facebook(url)
     #puts "sc_facebook: #{url}"
-    regex1 = /^(?<url>(https?:\/\/)(www\.)?facebook\.com\/(pages\/)*(?<uname>.*)[\/-](?<uid>[0-9]+))($|\/|\/(about|timeline|info|app_)?)/i
-    regex2 = /^(?<url>(https?:\/\/)(www\.)?facebook\.com\/profile.php\?id=(?<uid>[0-9]+))($|\/|\/.*|&.*)/i
-    regex2a = /^(?<url>(https?:\/\/)(www\.)?facebook\.com\/profile.php\?_rdr=p&id=(?<uid>[0-9]+))($|\/|\/.*|&.*)/i
-    regex3 = /^(?<url>(https?:\/\/)(www\.)?facebook\.com\/(?<uname>[^\?\/]*))($|\/$|\/(about|timeline|info|app_.*)?)/i
-    regex4 = /^(?<url>(https?:\/\/)(www\.)?facebook\.com\/)(?<php>home.php\?([#!]+\/)*)(?<uname>.*)/i
+    regex1 = /^(?<url>(https?:\/\/)((www|business)\.)?facebook\.com\/(pages\/)*(?<uname>.*)[\/-](?<uid>[0-9]+))($|\/|\/(about|timeline|info|app_)?)/i
+    regex2 = /^(?<url>(https?:\/\/)((www|business)\.)?facebook\.com\/profile.php\?id=(?<uid>[0-9]+))($|\/|\/.*|&.*)/i
+    regex2a = /^(?<url>(https?:\/\/)((www|business)\.)?facebook\.com\/profile.php\?_rdr=p&id=(?<uid>[0-9]+))($|\/|\/.*|&.*)/i
+    regex3 = /^(?<url>(https?:\/\/)((www|business)\.)?facebook\.com\/(?<uname>[^\?\/]*))($|\/$|\/(about|timeline|info|app_.*)?)/i
+    regex4 = /^(?<url>(https?:\/\/)((www|business)\.)?facebook\.com\/)(?<php>home.php\?([#!]+\/)*)(?<uname>.*)/i
     if url.match("/media/albums") || url.match("/media/set")
       # puts "media"
@@ -296,7 +333,8 @@ module UrlScrubber
     url = url.sub(/\?_rdr.*/, '')
     url
   end
   def self.sc_linkedin(url)
     url.sub!('linkedin.com/companies/', 'linkedin.com/company/')
@@ -320,6 +358,7 @@ module UrlScrubber
     url
   end
   def self.sc_google_plus(url)
     url.sub!('com/u/0/b/', 'com/')
     url.sub!('com/u/0/', 'com/')
@@ -335,6 +374,7 @@ module UrlScrubber
     community_page ? "http://plus.google.com/communities/#{path_match[1]}" : "http://plus.google.com/#{path_match[1]}"
   end
   def self.sc_flickr(url)
     if url.include?('flickr.com/groups/')
       groups_partition = url.partition('flickr.com/groups/')
@@ -354,14 +394,17 @@ module UrlScrubber
     "http://flickr.com/#{user_match[2]}"
   end
   def self.sc_pinterest(url)
     url
   end
   def self.sc_yelp(url)
     url
   end
   def self.check_for_facebook_redirection(uri_str, limit = 5)
     #puts "check_for_facebook_redirection called! uri=#{uri_str}, limit=#{limit.to_s}"
     # finds any redirects   intended for facebook URLs only!!!!

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: url_scrubber
 version: !ruby/object:Gem::Version
-  version: 0.8.5
+  version: 0.8.6
 platform: ruby
 authors:
 - Colin Langton
@@ -11,7 +11,7 @@ authors:
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2016-12-08 00:00:00.000000000 Z
+date: 2016-12-10 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: rspec