npm - @data-fair/processing-web-scraper - Versions diffs - 0.3.0 → 0.4.0 - Mend

@data-fair/processing-web-scraper 0.3.0 → 0.4.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (3) hide show

package/index.js +25 -7
package/package.json +3 -2
package/processing-config-schema.json +14 -12

package/index.js CHANGED Viewed

@@ -73,6 +73,13 @@ class PagesIterator {
     this.pluginConfig = pluginConfig
     this.processingConfig = processingConfig
     this.robots = robots
+    const UrlPattern = require('url-pattern')
+    this.excludeURLPatterns = (processingConfig.excludeURLPatterns || []).map(p => {
+      const url = new URL(p)
+      const pattern = new UrlPattern(url.pathname)
+      pattern.hostname = url.hostname
+      return pattern
+    })
   }
   [Symbol.asyncIterator] () {
@@ -80,11 +87,13 @@ class PagesIterator {
   }
   push (page) {
-    // TODO: apply no-follow rules
     if (typeof page === 'string') page = { url: page }
     if (!this.processingConfig.baseURLs.find(b => page.url.startsWith(b))) return
     page.parsedURL = page.parsedURL || new URL(page.url)
     if (page.parsedURL.hash) return
+    if (this.excludeURLPatterns.find(p => p.match(page.parsedURL.pathname) && p.hostname === page.parsedURL.hostname)) {
+      return
+    }
     if (this.robots[page.parsedURL.origin] && !this.robots[page.parsedURL.origin].isAllowed(page.url, this.pluginConfig.userAgent || 'data-fair-web-scraper')) {
       return
     }
@@ -126,12 +135,16 @@ exports.run = async ({ pluginConfig, processingConfig, processingId, dir, tmpDir
   // parse the robots.txt files if available
   const robots = {}
+  const sitemaps = processingConfig.sitemaps || []
   for (const baseURL of processingConfig.baseURLs) {
     const { origin } = new URL(baseURL)
     if (robots[origin]) continue
     try {
       const response = await axios.get(origin + '/robots.txt')
       robots[origin] = robotsParser(origin + '/robots.txt', response.data)
+      for (const sitemap of robots[origin].getSitemaps()) {
+        if (!sitemaps.includes(sitemap)) sitemaps.push(sitemap)
+      }
     } catch (err) {
       await log.info(`failed to fetch ${origin + '/robots.txt'} - ${err.status || err.message}`)
     }
@@ -159,9 +172,9 @@ exports.run = async ({ pluginConfig, processingConfig, processingId, dir, tmpDir
     await pages.push({ url, source: 'config start URLs' })
   }
-  if (processingConfig.sitemap) {
-    await log.info(`fetch start URLs from sitemmap ${processingConfig.sitemap}`)
-    const sitemap = (await axios.get(processingConfig.sitemap)).data
+  for (const sitemapURL of sitemaps) {
+    await log.info(`fetch start URLs from sitemap ${sitemapURL}`)
+    const sitemap = (await axios.get(sitemapURL)).data
     const cheerio = require('cheerio')
     const $ = cheerio.load(sitemap)
     const sitemapURLs = []
@@ -172,12 +185,10 @@ exports.run = async ({ pluginConfig, processingConfig, processingId, dir, tmpDir
       await pages.push({ url, source: 'sitemap' })
     }
   }
-  // TODO: use robots.getSitemaps()
   const sentIds = new Set([])
   const sendPage = async (page, data, contentType = 'text/html', filename = 'content.html') => {
     await log.debug('send page', page.url)
-    // TODO: apply no-index rules
     const form = new FormData()
     // improve page title
     if (page.title) {
@@ -261,7 +272,14 @@ exports.run = async ({ pluginConfig, processingConfig, processingId, dir, tmpDir
     if (isHTML) {
       const cheerio = require('cheerio')
       const $ = cheerio.load(response.data)
-      page.title = $('title').text()
+      const titleSelectors = (processingConfig.titleSelectors || []).concat(['title', 'h1'])
+      for (const titleSelector of titleSelectors) {
+        page.title = $(titleSelector).text()
+        if (page.title) {
+          log.debug(`used title selector "${titleSelector}" -> ${page.title.trim()}`)
+          break
+        }
+      }
       $('meta').each(function (i, elem) {
         const name = $(this).attr('name')

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@data-fair/processing-web-scraper",
-  "version": "0.3.0",
+  "version": "0.4.0",
   "description": "A small Web scraper that publishes its data into data-fair datasets.",
   "main": "index.js",
   "scripts": {
@@ -32,6 +32,7 @@
   "dependencies": {
     "cheerio": "^1.0.0-rc.12",
     "form-data": "^4.0.0",
-    "robots-parser": "^3.0.0"
+    "robots-parser": "^3.0.0",
+    "url-pattern": "^1.0.3"
   }
 }

package/processing-config-schema.json CHANGED Viewed

@@ -61,26 +61,28 @@
         "type": "string",
         "title": "Préfixe à supprimer des titres avant indexation"
       },
-      "sitemap": {
-        "type": "string",
-        "title": "URL d'un fichier sitemap.xml"
+      "titleSelectors": {
+        "type": "array",
+        "title": "Sélecteurs d'éléments HTML à utiliser comme titre de page",
+        "description": "Par défaut le sélecteur 'title' est utilisé ce qui correspond au titre de page dans les métadonnées HTML.",
+        "items": {"type": "string"}
       },
-      "prune": {
+      "sitemaps": {
         "type": "array",
-        "title": "Sélecteurs d'éléments HTML à ignorer",
-        "description": "Par exemple si une barre de navigation est présente sur de nombreuses page du site, répéter son contenu peut nuire à la qualité des résultats. Si cette barre de navigation a pour identifiant 'nav-bar' vous pouvez saisir '#nav-bar'.",
+        "title": "URLs de fichiers sitemap.xml",
+        "description": "Ces URLs peuvent également être découvertes depuis le fichier robots.txt",
         "items": {"type": "string"}
       },
-      "noIndex": {
+      "prune": {
         "type": "array",
-        "title": "URLs de page à ne pas indexer",
-        "description": "Elles seront potentiellement quand même analysées à la recherche de liens et de fragments. Notez que ce traitement respecte également les instructions des fichiers robots.txt et les metadonnées HTML robots.",
+        "title": "Sélecteurs d'éléments HTML à ignorer",
+        "description": "Par exemple si une barre de navigation est présente sur de nombreuses page du site, répéter son contenu peut nuire à la qualité des résultats. Si cette barre de navigation a pour identifiant 'nav-bar' vous pouvez saisir '#nav-bar'.",
         "items": {"type": "string"}
       },
-      "noFollow": {
+      "excludeURLPatterns": {
         "type": "array",
-        "title": "URLs de page à ne pas explorer",
-        "description": "Elles seront ni indexées ni analysées à la recherche de liens et de fragments. Notez que ce traitement respecte également les instructions des fichiers robots.txt et les metadonnées HTML robots.",
+        "title": "Formats d'URL à exclure de l'exploration",
+        "description": "Exemple: https://data-fair.github.io/master/en(/*)",
         "items": {"type": "string"}
       },
       "anchors": {