npm - defuddle - Versions diffs - 0.3.7 → 0.4.0 - Mend

defuddle 0.3.7 → 0.4.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (17) hide show

package/README.md +6 -4
package/dist/extractor-registry.d.ts +15 -0
package/dist/extractors/_base.d.ts +9 -0
package/dist/extractors/_conversation.d.ts +9 -0
package/dist/extractors/chatgpt.d.ts +13 -0
package/dist/extractors/claude.d.ts +10 -0
package/dist/extractors/hackernews.d.ts +21 -0
package/dist/extractors/reddit.d.ts +16 -0
package/dist/extractors/twitter.d.ts +16 -0
package/dist/extractors/youtube.d.ts +12 -0
package/dist/index.d.ts +2 -1
package/dist/index.full.d.ts +2 -1
package/dist/index.full.js +1 -1
package/dist/index.js +1 -1
package/dist/types/extractors.d.ts +41 -0
package/dist/types.d.ts +13 -0
package/package.json +1 -1

package/README.md CHANGED Viewed

@@ -5,6 +5,8 @@
 Defuddle extracts the main content from web pages. It cleans up web pages by removing clutter like comments, sidebars, headers, footers, and other non-essential elements, leaving only the primary content.
+[Try the Defuddle Playground →](https://kepano.github.io/defuddle/)
 ## Features
 Defuddle aims to output clean and consistent HTML documents. It was written for [Obsidian Web Clipper](https://github.com/obsidianmd/obsidian-clipper) with the goal of creating a more useful input for HTML-to-Markdown converters like [Turndown](https://github.com/mixmark-io/turndown).
@@ -25,7 +27,7 @@ npm install defuddle
 ## Usage
 ```typescript
-import { Defuddle } from 'defuddle';
+import Defuddle from 'defuddle';
 const article = new Defuddle(document).parse();
@@ -40,11 +42,11 @@ Defuddle comes in two bundles:
 **Core bundle** (~50kB), no dependencies
 ```js
-import { Defuddle } from 'defuddle';
+import Defuddle from 'defuddle';
 ```
 **Full bundle** (~432kB), includes advanced math conversion capabilities
 ```js
-import { Defuddle } from 'defuddle/full';
+import Defuddle from 'defuddle/full';
 ```
 The core bundle is recommended for most use cases. It still handles math content, but doesn't include fallbacks for converting between MathML and LaTeX formats. The full bundle adds the ability to create reliable `<math>` elements using `mathml-to-latex` and `temml` libraries.
@@ -67,7 +69,7 @@ const article = new Defuddle(document, { debug: true }).parse();
 When using Defuddle in a Node.js environment, you can use JSDOM to create a DOM document:
 ```typescript
-import { Defuddle } from 'defuddle';
+import Defuddle from 'defuddle';
 import { JSDOM } from 'jsdom';
 const html = '...'; // Your HTML string

package/dist/extractor-registry.d.ts ADDED Viewed

@@ -0,0 +1,15 @@
+import { BaseExtractor } from './extractors/_base';
+type ExtractorConstructor = new (document: Document, url: string, schemaOrgData?: any) => BaseExtractor;
+interface ExtractorMapping {
+    patterns: (string | RegExp)[];
+    extractor: ExtractorConstructor;
+}
+export declare class ExtractorRegistry {
+    private static mappings;
+    private static domainCache;
+    static initialize(): void;
+    static register(mapping: ExtractorMapping): void;
+    static findExtractor(document: Document, url: string, schemaOrgData?: any): BaseExtractor | null;
+    static clearCache(): void;
+}
+export {};

package/dist/extractors/_base.d.ts ADDED Viewed

@@ -0,0 +1,9 @@
+import { ExtractorResult } from '../types/extractors';
+export declare abstract class BaseExtractor {
+    protected document: Document;
+    protected url: string;
+    protected schemaOrgData?: any;
+    constructor(document: Document, url: string, schemaOrgData?: any);
+    abstract canExtract(): boolean;
+    abstract extract(): ExtractorResult;
+}

package/dist/extractors/_conversation.d.ts ADDED Viewed

@@ -0,0 +1,9 @@
+import { BaseExtractor } from './_base';
+import { ConversationMessage, ConversationMetadata, Footnote, ExtractorResult } from '../types/extractors';
+export declare abstract class ConversationExtractor extends BaseExtractor {
+    protected abstract extractMessages(): ConversationMessage[];
+    protected abstract getMetadata(): ConversationMetadata;
+    protected getFootnotes(): Footnote[];
+    extract(): ExtractorResult;
+    protected createContentHtml(messages: ConversationMessage[], footnotes: Footnote[]): string;
+}

package/dist/extractors/chatgpt.d.ts ADDED Viewed

@@ -0,0 +1,13 @@
+import { ConversationExtractor } from './_conversation';
+import { ConversationMessage, ConversationMetadata, Footnote } from '../types/extractors';
+export declare class ChatGPTExtractor extends ConversationExtractor {
+    private articles;
+    private footnotes;
+    private footnoteCounter;
+    constructor(document: Document, url: string);
+    canExtract(): boolean;
+    protected extractMessages(): ConversationMessage[];
+    protected getFootnotes(): Footnote[];
+    protected getMetadata(): ConversationMetadata;
+    private getTitle;
+}

package/dist/extractors/claude.d.ts ADDED Viewed

@@ -0,0 +1,10 @@
+import { ConversationExtractor } from './_conversation';
+import { ConversationMessage, ConversationMetadata } from '../types/extractors';
+export declare class ClaudeExtractor extends ConversationExtractor {
+    private articles;
+    constructor(document: Document, url: string);
+    canExtract(): boolean;
+    protected extractMessages(): ConversationMessage[];
+    protected getMetadata(): ConversationMetadata;
+    private getTitle;
+}

package/dist/extractors/hackernews.d.ts ADDED Viewed

@@ -0,0 +1,21 @@
+import { BaseExtractor } from './_base';
+import { ExtractorResult } from '../types/extractors';
+export declare class HackerNewsExtractor extends BaseExtractor {
+    private mainPost;
+    private isCommentPage;
+    private mainComment;
+    constructor(document: Document, url: string);
+    private detectCommentPage;
+    private findMainComment;
+    canExtract(): boolean;
+    extract(): ExtractorResult;
+    private createContentHtml;
+    private getPostContent;
+    private extractComments;
+    private processComments;
+    private getPostId;
+    private getPostTitle;
+    private getPostAuthor;
+    private createDescription;
+    private getPostDate;
+}

package/dist/extractors/reddit.d.ts ADDED Viewed

@@ -0,0 +1,16 @@
+import { BaseExtractor } from './_base';
+import { ExtractorResult } from '../types/extractors';
+export declare class RedditExtractor extends BaseExtractor {
+    private shredditPost;
+    constructor(document: Document, url: string);
+    canExtract(): boolean;
+    extract(): ExtractorResult;
+    private getPostContent;
+    private createContentHtml;
+    private extractComments;
+    private getPostId;
+    private getSubreddit;
+    private getPostAuthor;
+    private createDescription;
+    private processComments;
+}

package/dist/extractors/twitter.d.ts ADDED Viewed

@@ -0,0 +1,16 @@
+import { BaseExtractor } from './_base';
+import { ExtractorResult } from '../types/extractors';
+export declare class TwitterExtractor extends BaseExtractor {
+    private mainTweet;
+    private threadTweets;
+    constructor(document: Document, url: string);
+    canExtract(): boolean;
+    extract(): ExtractorResult;
+    private formatTweetText;
+    private extractTweet;
+    private extractUserInfo;
+    private extractImages;
+    private getTweetId;
+    private getTweetAuthor;
+    private createDescription;
+}

package/dist/extractors/youtube.d.ts ADDED Viewed

@@ -0,0 +1,12 @@
+import { BaseExtractor } from './_base';
+import { ExtractorResult } from '../types/extractors';
+export declare class YoutubeExtractor extends BaseExtractor {
+    private videoElement;
+    protected schemaOrgData: any;
+    constructor(document: Document, url: string, schemaOrgData?: any);
+    canExtract(): boolean;
+    extract(): ExtractorResult;
+    private formatDescription;
+    private getVideoData;
+    private getVideoId;
+}

package/dist/index.d.ts CHANGED Viewed

@@ -1,2 +1,3 @@
-export { Defuddle } from './defuddle';
+import { Defuddle } from './defuddle';
 export type { DefuddleOptions, DefuddleResponse, DefuddleMetadata } from './types';
+export default Defuddle;

package/dist/index.full.d.ts CHANGED Viewed

@@ -1,3 +1,4 @@
 import { Defuddle } from './defuddle';
 import { DefuddleOptions, DefuddleResponse } from './types';
-export { Defuddle, DefuddleOptions, DefuddleResponse };
+export type { DefuddleOptions, DefuddleResponse };
+export default Defuddle;