npm - magpie-html - Versions diffs - 0.1.3 → 0.1.5 - Mend

magpie-html 0.1.3 → 0.1.5

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

package/README.md CHANGED Viewed

@@ -7,11 +7,16 @@
 [![License: MIT](https://img.shields.io/badge/License-MIT-blue.svg?style=flat-square)](https://opensource.org/licenses/MIT)
 [![TypeScript](https://img.shields.io/badge/TypeScript-5.7-blue?style=flat-square&logo=typescript)](https://www.typescriptlang.org/)
 [![Node.js](https://img.shields.io/badge/Node.js-%3E%3D18-green?style=flat-square&logo=node.js)](https://nodejs.org/)
+[![Live Demo](https://img.shields.io/badge/Live_Demo-CrispRead-eb6864?style=flat-square&logo=rss&logoColor=white)](https://crispread.com)
 **Modern web scraping for when you need the good parts, not the markup soup.** Extracts clean article content, parses feeds (RSS, Atom, JSON), and gathers metadata from any page. Handles broken encodings, malformed feeds, and the chaos of real-world HTML. TypeScript-native, works everywhere. Named after the bird known for collecting valuable things... you get the idea.
 <div align="center">
   <img src="https://raw.githubusercontent.com/Anonyfox/magpie-html/main/assets/magpie-html-logo.png" alt="Magpie HTML Logo" width="300">
+<br><br>
+<strong>Production-ready</strong> · Powers <a href="https://crispread.com">CrispRead</a>, a trilingual news aggregator processing thousands of articles daily.
 </div>
 ## Features
@@ -454,6 +459,6 @@ If this package helps your project, consider sponsoring its maintenance:
 ---
-**[Anonyfox](https://anonyfox.com) • [MIT License](LICENSE)**
+**[Anonyfox](https://anonyfox.com) • [API Docs](https://anonyfox.github.io/magpie-html) • [MIT License](LICENSE)**
 </div>

package/dist/index.cjs CHANGED Viewed

@@ -838,6 +838,32 @@ function parseAtomDate(dateString) {
 }
 // src/feed/atom/extract-entry.ts
+function extractAtomDate(element) {
+  let dateText = element.querySelector("updated")?.textContent;
+  if (dateText) {
+    const parsed = parseAtomDate(dateText);
+    if (parsed) return parsed;
+  }
+  dateText = element.querySelector("modified")?.textContent;
+  if (dateText) {
+    const parsed = parseAtomDate(dateText);
+    if (parsed) return parsed;
+  }
+  dateText = element.querySelector("issued")?.textContent;
+  if (dateText) {
+    const parsed = parseAtomDate(dateText);
+    if (parsed) return parsed;
+  }
+  const dcDateElements = element.children.filter((child) => child.tagName === "dc:date");
+  if (dcDateElements.length > 0) {
+    dateText = dcDateElements[0].textContent;
+    if (dateText) {
+      const parsed = parseAtomDate(dateText);
+      if (parsed) return parsed;
+    }
+  }
+  return null;
+}
 function extractPerson(element) {
   const name = element.querySelector("name")?.textContent;
   if (!name) {
@@ -980,13 +1006,11 @@ function extractEntry(entryElement) {
   if (!title) {
     throw new Error("Invalid Atom entry: missing required <title> element");
   }
-  const updatedRaw = entryElement.querySelector("updated")?.textContent;
-  if (!updatedRaw) {
-    throw new Error("Invalid Atom entry: missing required <updated> element");
-  }
-  const updated = parseAtomDate(updatedRaw);
+  const updated = extractAtomDate(entryElement);
   if (!updated) {
-    throw new Error("Invalid Atom entry: invalid <updated> date");
+    throw new Error(
+      "Invalid Atom entry: missing or invalid date (tried <updated>, <modified>, <issued>, <dc:date>)"
+    );
   }
   const entry = {
     id: cleanText(id),
@@ -1236,6 +1260,32 @@ function parseXML(xml) {
 }
 // src/feed/atom/extract-feed.ts
+function extractAtomDate2(element) {
+  let dateText = element.querySelector("updated")?.textContent;
+  if (dateText) {
+    const parsed = parseAtomDate(dateText);
+    if (parsed) return parsed;
+  }
+  dateText = element.querySelector("modified")?.textContent;
+  if (dateText) {
+    const parsed = parseAtomDate(dateText);
+    if (parsed) return parsed;
+  }
+  dateText = element.querySelector("issued")?.textContent;
+  if (dateText) {
+    const parsed = parseAtomDate(dateText);
+    if (parsed) return parsed;
+  }
+  const dcDateElements = element.children.filter((child) => child.tagName === "dc:date");
+  if (dcDateElements.length > 0) {
+    dateText = dcDateElements[0].textContent;
+    if (dateText) {
+      const parsed = parseAtomDate(dateText);
+      if (parsed) return parsed;
+    }
+  }
+  return null;
+}
 function extractPerson2(element) {
   const name = element.querySelector("name")?.textContent;
   if (!name) {
@@ -1383,13 +1433,11 @@ function extractFeed(xml) {
   if (!title) {
     throw new Error("Invalid Atom feed: missing required <title> element");
   }
-  const updatedRaw = feed.querySelector("updated")?.textContent;
-  if (!updatedRaw) {
-    throw new Error("Invalid Atom feed: missing required <updated> element");
-  }
-  const updated = parseAtomDate(updatedRaw);
+  const updated = extractAtomDate2(feed);
   if (!updated) {
-    throw new Error("Invalid Atom feed: invalid <updated> date");
+    throw new Error(
+      "Invalid Atom feed: missing or invalid date (tried <updated>, <modified>, <issued>, <dc:date>)"
+    );
   }
   const result = {
     id: cleanText(id),
@@ -2451,13 +2499,12 @@ async function pluck(input, init) {
   const startTime = Date.now();
   const options = normalizeOptions2(init);
   const originalUrl = typeof input === "string" || input instanceof URL ? String(input) : input.url;
-  const abortController = new AbortController();
-  const timeoutId = setTimeout(() => abortController.abort(), options.timeout);
+  const signal = AbortSignal.timeout(options.timeout);
   try {
     const { response, redirectChain, redirectDuration } = await followRedirects(
       input,
       options,
-      abortController.signal
+      signal
     );
     const finalUrl = response.url;
     if (options.throwOnHttpError && !response.ok) {
@@ -2494,15 +2541,13 @@ async function pluck(input, init) {
     if (error instanceof PluckTimeoutError || error instanceof PluckNetworkError) {
       throw error;
     }
-    if (error.name === "AbortError") {
+    if (error.name === "TimeoutError") {
       throw new PluckTimeoutError(`Request timeout after ${options.timeout}ms`, options.timeout);
     }
     if (error instanceof TypeError) {
       throw new PluckNetworkError(`Network error: ${error.message}`, error);
     }
     throw error;
-  } finally {
-    clearTimeout(timeoutId);
   }
 }
 function normalizeOptions2(init) {