npm - @jocmp/mercury-parser - Versions diffs - 2.4.0 → 2.4.2 - Mend

@jocmp/mercury-parser 2.4.0 → 2.4.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

package/dist/generate-custom-parser.js +162 -54
package/dist/generate-custom-parser.js.map +1 -1
package/dist/mercury.js +154 -41
package/dist/mercury.js.map +1 -1
package/dist/mercury.web.js +1 -1
package/dist/mercury.web.js.map +1 -1
package/package.json +1 -1

package/dist/mercury.js CHANGED Viewed

@@ -5924,45 +5924,6 @@ var WwwGrueneDeExtractor = {
   }
 };
-var WwwEngadgetComExtractor = {
-  domain: 'www.engadget.com',
-  title: {
-    selectors: [['meta[name="og:title"]', 'value']]
-  },
-  author: {
-    selectors: ['a.th-meta[data-ylk*="subsec:author"]']
-  },
-  // Engadget stories have publish dates, but the only representation of them on the page
-  // is in a format like "2h ago". There are also these tags with blank values:
-  // <meta class="swiftype" name="published_at" data-type="date" value="">
-  date_published: {
-    selectors: [// enter selectors
-    ]
-  },
-  dek: {
-    selectors: ['div[class*="o-title_mark"] div']
-  },
-  // Engadget stories do have lead images specified by an og:image meta tag, but selecting
-  // the value attribute of that tag fails. I believe the "&#x2111;" sequence of characters
-  // is triggering this inability to select the attribute value.
-  lead_image_url: {
-    selectors: [// enter selectors
-    ]
-  },
-  content: {
-    selectors: [[// Some figures will be inside div.article-text, but some header figures/images
-    // will not.
-    '#page_body figure:not(div.article-text figure)', 'div.article-text']],
-    // Is there anything in the content you selected that needs transformed
-    // before it's consumable content? E.g., unusual lazy loaded images
-    transforms: {},
-    // Is there anything that is in the result that shouldn't be?
-    // The clean selectors will remove anything that matches from
-    // the result
-    clean: []
-  }
-};
 var ArstechnicaComExtractor = {
   domain: 'arstechnica.com',
   title: {
@@ -6662,6 +6623,153 @@ var WwwQbitaiComExtractor = {
   }
 };
+var EconomictimesIndiatimesComExtractor = {
+  domain: 'economictimes.indiatimes.com',
+  title: {
+    selectors: ['title', ['meta[name="og:title"]', 'value']]
+  },
+  author: {
+    selectors: ['a[rel="author"]']
+  },
+  lead_image_url: {
+    selectors: [['meta[name="og:image"]', 'value']]
+  },
+  content: {
+    selectors: ['article'],
+    transforms: {},
+    clean: ['span.imgAgency']
+  }
+};
+var FactorioComExtractor = {
+  domain: 'factorio.com',
+  title: {
+    selectors: ['title']
+  },
+  lead_image_url: {
+    selectors: [['meta[name="og:image"]', 'value']]
+  },
+  content: {
+    selectors: [['.blog-post', 'div:nth-child(2)']],
+    transforms: {
+      h3: function h3(node) {
+        var author = node.find('author');
+        if (author.text()) {
+          node.after("<p>".concat(author.text(), "</p>"));
+          author.remove();
+        }
+      }
+    },
+    clean: ['.logo-expansion-space-age']
+  }
+};
+var WwwTagesschauDeExtractor = {
+  domain: 'www.tagesschau.de',
+  title: {
+    selectors: ['.seitenkopf__headline--text', 'title']
+  },
+  author: {
+    selectors: ['.authorline__author authorline__link:first-child']
+  },
+  date_published: {
+    selectors: [['meta[name="date"]', 'value'], '.metatextline'],
+    timezone: 'UTC'
+  },
+  lead_image_url: {
+    selectors: [['meta[name="og:image"]', 'value']]
+  },
+  content: {
+    selectors: ['article'],
+    clean: ['[data-config]', '.seitenkopf__headline', '.authorline__author', '.metatextline']
+  }
+};
+var Nineto5googleComExtractor = {
+  domain: '9to5google.com',
+  title: {
+    selectors: ['title', 'h1']
+  },
+  author: {
+    selectors: [['meta[name="author"]', 'value']]
+  },
+  date_published: {
+    selectors: [['meta[name="article:published_time"]', 'value']]
+  },
+  lead_image_url: {
+    selectors: [['meta[name="og:image"]', 'value']]
+  },
+  content: {
+    selectors: ['main'],
+    transforms: {
+      img: function img(node) {
+        node.removeAttr('sizes');
+      }
+    },
+    clean: ['.post-meta']
+  }
+};
+var WwwEngadgetComExtractor = {
+  domain: 'www.engadget.com',
+  title: {
+    selectors: ['title', 'h1']
+  },
+  author: {
+    selectors: ['.caas-attr-item-author']
+  },
+  date_published: {
+    selectors: [['time', 'datetime']]
+  },
+  lead_image_url: {
+    selectors: [['meta[name="og:image"]', 'value']]
+  },
+  content: {
+    selectors: ['.caas-body'],
+    transforms: {
+      h2: function h2(node) {
+        return node.attr('class', 'mercury-parser-keep');
+      },
+      'blockquote noscript': function blockquoteNoscript(node) {
+        var iframe = node.find('iframe');
+        if (iframe != null) {
+          return 'div';
+        }
+        return null;
+      }
+    },
+    clean: []
+  }
+};
+var TarnkappeInfoExtractor = {
+  domain: 'tarnkappe.info',
+  title: {
+    selectors: ['title', 'h1']
+  },
+  author: {
+    selectors: [['meta[name="author"]', 'value']]
+  },
+  date_published: {
+    selectors: [['meta[name="article:published_time"]', 'value']]
+  },
+  lead_image_url: {
+    selectors: [['meta[name="og:image"]', 'value']]
+  },
+  content: {
+    selectors: ['main'],
+    transforms: {
+      h2: function h2(node) {
+        return node.attr('class', 'mercury-parser-keep');
+      }
+    },
+    clean: ['section#author']
+  }
+};
 var CustomExtractors = /*#__PURE__*/Object.freeze({
@@ -6801,7 +6909,6 @@ var CustomExtractors = /*#__PURE__*/Object.freeze({
   PastebinComExtractor: PastebinComExtractor,
   WwwAbendblattDeExtractor: WwwAbendblattDeExtractor,
   WwwGrueneDeExtractor: WwwGrueneDeExtractor,
-  WwwEngadgetComExtractor: WwwEngadgetComExtractor,
   ArstechnicaComExtractor: ArstechnicaComExtractor,
   WwwNdtvComExtractor: WwwNdtvComExtractor,
   SpektrumExtractor: SpektrumExtractor,
@@ -6834,7 +6941,13 @@ var CustomExtractors = /*#__PURE__*/Object.freeze({
   LublinSePlExtractor: LublinSePlExtractor,
   BialystokSePlExtractor: BialystokSePlExtractor,
   WwwLebensmittelwarnungDeExtractor: WwwLebensmittelwarnungDeExtractor,
-  WwwQbitaiComExtractor: WwwQbitaiComExtractor
+  WwwQbitaiComExtractor: WwwQbitaiComExtractor,
+  EconomictimesIndiatimesComExtractor: EconomictimesIndiatimesComExtractor,
+  FactorioComExtractor: FactorioComExtractor,
+  WwwTagesschauDeExtractor: WwwTagesschauDeExtractor,
+  Nineto5googleComExtractor: Nineto5googleComExtractor,
+  WwwEngadgetComExtractor: WwwEngadgetComExtractor,
+  TarnkappeInfoExtractor: TarnkappeInfoExtractor
 });
 var Extractors = _Object$keys(CustomExtractors).reduce(function (acc, key) {