npm - scrapex - Versions diffs - 0.5.3 → 1.0.0-beta.1 - Mend

scrapex 0.5.3 → 1.0.0-beta.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (47) hide show

package/LICENSE +1 -1
package/README.md +551 -145
package/dist/enhancer-ByjRD-t5.mjs +769 -0
package/dist/enhancer-ByjRD-t5.mjs.map +1 -0
package/dist/enhancer-j0xqKDJm.cjs +847 -0
package/dist/enhancer-j0xqKDJm.cjs.map +1 -0
package/dist/index-CDgcRnig.d.cts +268 -0
package/dist/index-CDgcRnig.d.cts.map +1 -0
package/dist/index-piS5wtki.d.mts +268 -0
package/dist/index-piS5wtki.d.mts.map +1 -0
package/dist/index.cjs +2007 -0
package/dist/index.cjs.map +1 -0
package/dist/index.d.cts +580 -0
package/dist/index.d.cts.map +1 -0
package/dist/index.d.mts +580 -0
package/dist/index.d.mts.map +1 -0
package/dist/index.mjs +1956 -0
package/dist/index.mjs.map +1 -0
package/dist/llm/index.cjs +334 -0
package/dist/llm/index.cjs.map +1 -0
package/dist/llm/index.d.cts +258 -0
package/dist/llm/index.d.cts.map +1 -0
package/dist/llm/index.d.mts +258 -0
package/dist/llm/index.d.mts.map +1 -0
package/dist/llm/index.mjs +317 -0
package/dist/llm/index.mjs.map +1 -0
package/dist/parsers/index.cjs +11 -0
package/dist/parsers/index.d.cts +2 -0
package/dist/parsers/index.d.mts +2 -0
package/dist/parsers/index.mjs +3 -0
package/dist/parsers-Bneuws8x.cjs +569 -0
package/dist/parsers-Bneuws8x.cjs.map +1 -0
package/dist/parsers-CwkYnyWY.mjs +482 -0
package/dist/parsers-CwkYnyWY.mjs.map +1 -0
package/dist/types-CadAXrme.d.mts +674 -0
package/dist/types-CadAXrme.d.mts.map +1 -0
package/dist/types-DPEtPihB.d.cts +674 -0
package/dist/types-DPEtPihB.d.cts.map +1 -0
package/package.json +79 -100
package/dist/index.d.ts +0 -45
package/dist/index.js +0 -8
package/dist/scrapex.cjs.development.js +0 -1130
package/dist/scrapex.cjs.development.js.map +0 -1
package/dist/scrapex.cjs.production.min.js +0 -2
package/dist/scrapex.cjs.production.min.js.map +0 -1
package/dist/scrapex.esm.js +0 -1122
package/dist/scrapex.esm.js.map +0 -1

package/dist/index.d.cts ADDED Viewed

@@ -0,0 +1,580 @@
+import { A as EmbeddingSuccessMultiple, C as EmbeddingMetrics, D as EmbeddingResult, E as EmbeddingProviderConfig, F as SafetyConfig, I as TextChunk, L as HttpEmbeddingConfig, M as OutputConfig, N as PiiRedactionConfig, O as EmbeddingSkipped, P as ResilienceConfig, R as createHttpEmbedding, S as EmbeddingInputConfig, T as EmbeddingProvider, _ as EmbedRequest, a as ExtractedLink, b as EmbeddingCache, c as ExtractionSchemaType, d as FetchResult, f as Fetcher, g as ChunkingConfig, h as ScrapedData, i as ExtractedEntities, j as EmbeddingSuccessSingle, k as EmbeddingSource, l as Extractor, m as ScrapeOptions, n as ContentType, o as ExtractionContext, p as LLMProvider, r as EnhancementType, s as ExtractionSchema, t as CompletionOptions, u as FetchOptions, v as EmbedResponse, w as EmbeddingOptions, x as EmbeddingCacheConfig, y as EmbeddingAggregation } from "./types-DPEtPihB.cjs";
+import { b as ParserResult, m as FeedMeta, n as RSSParserOptions, p as FeedItem, t as RSSParser, v as ParsedFeed } from "./index-CDgcRnig.cjs";
+//#region src/core/context.d.ts
+/**
+ * Create an extraction context with lazy JSDOM loading.
+ *
+ * Cheerio is always available for fast DOM queries.
+ * JSDOM is only loaded when getDocument() is called (for Readability).
+ */
+declare function createExtractionContext(url: string, finalUrl: string, html: string, options: ScrapeOptions): ExtractionContext;
+/**
+ * Merge partial results into the context
+ */
+declare function mergeResults(context: ExtractionContext, extracted: Partial<ScrapedData>): ExtractionContext;
+//#endregion
+//#region src/core/errors.d.ts
+/**
+ * Error codes for scraping failures
+ */
+type ScrapeErrorCode = 'FETCH_FAILED' | 'TIMEOUT' | 'INVALID_URL' | 'BLOCKED' | 'NOT_FOUND' | 'ROBOTS_BLOCKED' | 'PARSE_ERROR' | 'LLM_ERROR' | 'VALIDATION_ERROR';
+/**
+ * Custom error class for scraping failures with structured error codes
+ */
+declare class ScrapeError extends Error {
+  readonly code: ScrapeErrorCode;
+  readonly statusCode?: number;
+  constructor(message: string, code: ScrapeErrorCode, statusCode?: number, cause?: Error);
+  /**
+   * Create a ScrapeError from an unknown error
+   */
+  static from(error: unknown, code?: ScrapeErrorCode): ScrapeError;
+  /**
+   * Check if error is retryable (network issues, timeouts)
+   */
+  isRetryable(): boolean;
+  /**
+   * Convert to a plain object for serialization
+   */
+  toJSON(): Record<string, unknown>;
+}
+//#endregion
+//#region src/core/scrape.d.ts
+/**
+ * Scrape a URL and extract metadata and content.
+ *
+ * @param url - The URL to scrape
+ * @param options - Scraping options
+ * @returns Scraped data with metadata and content
+ *
+ * @example
+ * ```ts
+ * const result = await scrape('https://example.com/article');
+ * console.log(result.title, result.content);
+ * ```
+ */
+declare function scrape(url: string, options?: ScrapeOptions): Promise<ScrapedData>;
+/**
+ * Scrape from raw HTML string (no fetch).
+ *
+ * @param html - The HTML content
+ * @param url - The URL (for resolving relative links)
+ * @param options - Scraping options
+ * @returns Scraped data with metadata and content
+ *
+ * @example
+ * ```ts
+ * const html = await fetchSomehow('https://example.com');
+ * const result = await scrapeHtml(html, 'https://example.com');
+ * ```
+ */
+declare function scrapeHtml(html: string, url: string, options?: ScrapeOptions): Promise<ScrapedData>;
+//#endregion
+//#region src/embeddings/aggregation.d.ts
+/**
+ * Aggregate multiple embedding vectors into a single vector or return all.
+ *
+ * @param vectors - Array of embedding vectors (must all have same dimensions)
+ * @param strategy - Aggregation strategy
+ * @returns Aggregated result based on strategy
+ */
+declare function aggregateVectors(vectors: number[][], strategy?: EmbeddingAggregation): AggregationResult;
+/**
+ * Result of vector aggregation.
+ */
+type AggregationResult = {
+  type: 'single';
+  vector: number[];
+  dimensions: number;
+} | {
+  type: 'multiple';
+  vectors: number[][];
+  dimensions: number;
+};
+/**
+ * Compute cosine similarity between two vectors.
+ * Both vectors should be normalized for accurate results.
+ */
+declare function cosineSimilarity(a: number[], b: number[]): number;
+//#endregion
+//#region src/embeddings/cache.d.ts
+/**
+ * In-memory LRU cache with TTL support.
+ * Content-addressable: uses content hash as key, not URL.
+ */
+declare class InMemoryEmbeddingCache implements EmbeddingCache {
+  private cache;
+  private readonly maxEntries;
+  private readonly defaultTtlMs;
+  constructor(options?: {
+    maxEntries?: number;
+    ttlMs?: number;
+  });
+  get(key: string): Promise<EmbeddingResult | undefined>;
+  set(key: string, value: EmbeddingResult, options?: {
+    ttlMs?: number;
+  }): Promise<void>;
+  delete(key: string): Promise<boolean>;
+  clear(): Promise<void>;
+  /**
+   * Get cache statistics.
+   */
+  getStats(): CacheStats;
+  /**
+   * Evict expired entries.
+   */
+  cleanup(): number;
+  /**
+   * Evict least recently used entry.
+   */
+  private evictLRU;
+}
+/**
+ * Cache statistics.
+ */
+interface CacheStats {
+  /** Current number of entries */
+  size: number;
+  /** Maximum allowed entries */
+  maxEntries: number;
+  /** Number of expired entries (not yet cleaned up) */
+  expired: number;
+  /** Cache utilization (0-1) */
+  utilization: number;
+}
+//#endregion
+//#region src/embeddings/chunking.d.ts
+/**
+ * Split text into overlapping chunks optimized for embedding.
+ * Respects sentence boundaries when possible.
+ */
+declare function chunkText(text: string, config?: ChunkingConfig): TextChunk[];
+/**
+ * Estimate total tokens for a text without chunking.
+ */
+declare function estimateTokens(text: string, tokenizer?: ChunkingConfig['tokenizer']): number;
+//#endregion
+//#region src/embeddings/pipeline.d.ts
+/**
+ * Generate embeddings for scraped data.
+ * This is the main entry point for the embedding pipeline.
+ */
+declare function generateEmbeddings(data: Partial<ScrapedData>, options: EmbeddingOptions): Promise<EmbeddingResult>;
+/**
+ * Embed arbitrary text directly.
+ * Standalone function for embedding text outside of scrape().
+ */
+declare function embed(text: string, options: EmbeddingOptions): Promise<EmbeddingResult>;
+/**
+ * Embed from existing ScrapedData.
+ * Useful when you've already scraped and want to add embeddings later.
+ */
+declare function embedScrapedData(data: ScrapedData, options: EmbeddingOptions): Promise<EmbeddingResult>;
+//#endregion
+//#region src/embeddings/providers/presets.d.ts
+/**
+ * Create an OpenAI embedding provider.
+ *
+ * @example
+ * ```ts
+ * const provider = createOpenAIEmbedding({ apiKey: 'sk-...' });
+ * const { embeddings } = await provider.embed(['Hello'], { model: 'text-embedding-3-small' });
+ * ```
+ */
+declare function createOpenAIEmbedding(options?: {
+  apiKey?: string;
+  model?: string;
+  baseUrl?: string;
+  organization?: string;
+}): EmbeddingProvider;
+/**
+ * Create an Azure OpenAI embedding provider.
+ *
+ * @example
+ * ```ts
+ * const provider = createAzureEmbedding({
+ *   endpoint: 'https://my-resource.openai.azure.com',
+ *   deploymentName: 'text-embedding-ada-002',
+ *   apiVersion: '2023-05-15',
+ * });
+ * ```
+ */
+declare function createAzureEmbedding(options: {
+  endpoint: string;
+  deploymentName: string;
+  apiVersion: string;
+  apiKey?: string;
+}): EmbeddingProvider;
+/**
+ * Create an Ollama embedding provider for local models.
+ *
+ * LIMITATION: Ollama's /api/embeddings endpoint processes one text at a time,
+ * not batches. When multiple chunks are embedded, each chunk triggers a
+ * separate HTTP request. This is handled transparently by the pipeline's
+ * sequential chunk processing, but may be slower than batch-capable providers.
+ * For high-throughput scenarios, consider using OpenAI, Cohere, or HuggingFace
+ * which support batch embedding in a single request.
+ *
+ * @example
+ * ```ts
+ * const provider = createOllamaEmbedding({ model: 'nomic-embed-text' });
+ * ```
+ */
+declare function createOllamaEmbedding(options?: {
+  baseUrl?: string;
+  model?: string;
+}): EmbeddingProvider;
+/**
+ * Create a HuggingFace Inference API embedding provider.
+ *
+ * @example
+ * ```ts
+ * const provider = createHuggingFaceEmbedding({
+ *   model: 'sentence-transformers/all-MiniLM-L6-v2',
+ * });
+ * ```
+ */
+declare function createHuggingFaceEmbedding(options: {
+  model: string;
+  apiKey?: string;
+}): EmbeddingProvider;
+/**
+ * Feature extraction pipeline type for Transformers.js
+ */
+type FeatureExtractionPipeline = (text: string, options?: {
+  pooling?: 'mean' | 'cls' | 'max';
+  normalize?: boolean;
+}) => Promise<{
+  data: Float32Array;
+}>;
+/**
+ * Transformers.js module interface for dependency injection.
+ */
+interface TransformersModule {
+  pipeline: (task: 'feature-extraction', model: string, options?: {
+    quantized?: boolean;
+  }) => Promise<FeatureExtractionPipeline>;
+  env?: {
+    cacheDir?: string;
+  };
+}
+/**
+ * Create a local Transformers.js embedding provider.
+ * Uses dependency injection - user provides the imported transformers module.
+ *
+ * @example
+ * ```typescript
+ * import * as transformers from '@huggingface/transformers';
+ * import { createTransformersEmbedding } from 'scrapex/embeddings';
+ *
+ * const provider = createTransformersEmbedding(transformers, {
+ *   model: 'Xenova/all-MiniLM-L6-v2',
+ * });
+ * ```
+ *
+ * Required Node.js dependencies:
+ * ```
+ * npm install @huggingface/transformers onnxruntime-node
+ * ```
+ */
+declare function createTransformersEmbedding(transformers: TransformersModule, options?: {
+  model?: string;
+  quantized?: boolean;
+  pooling?: 'mean' | 'cls' | 'max';
+  normalize?: boolean;
+  cacheDir?: string;
+}): EmbeddingProvider;
+/** Recommended models for Transformers.js */
+declare const TRANSFORMERS_MODELS: {
+  /** Default - Fast, general purpose (384 dimensions, ~23MB) */
+  readonly DEFAULT: "Xenova/all-MiniLM-L6-v2";
+  /** Higher quality, more resources (768 dimensions, ~110MB) */
+  readonly QUALITY: "Xenova/all-mpnet-base-v2";
+  /** Optimized for retrieval (384 dimensions, ~33MB) */
+  readonly RETRIEVAL: "Xenova/bge-small-en-v1.5";
+  /** Multi-language support (384 dimensions, ~118MB) */
+  readonly MULTILINGUAL: "Xenova/multilingual-e5-small";
+};
+//#endregion
+//#region src/embeddings/providers/index.d.ts
+/**
+ * Create an embedding provider from configuration.
+ * This is the main factory function for creating providers.
+ */
+declare function createEmbeddingProvider(config: EmbeddingProviderConfig): EmbeddingProvider;
+//#endregion
+//#region src/embeddings/safety.d.ts
+/**
+ * Create a redaction function based on configuration.
+ * Returns a function that applies all configured PII patterns.
+ */
+declare function createPiiRedactor(config: PiiRedactionConfig): (text: string) => RedactionResult;
+/**
+ * Result of PII redaction operation.
+ */
+interface RedactionResult {
+  /** Redacted text */
+  text: string;
+  /** Whether any redactions were made */
+  redacted: boolean;
+  /** Total number of redactions */
+  redactionCount: number;
+  /** Count by redaction type */
+  redactionsByType: Record<string, number>;
+}
+/**
+ * Simple redaction that applies all default patterns.
+ * Use createPiiRedactor() for fine-grained control.
+ */
+declare function redactPii(text: string): RedactionResult;
+//#endregion
+//#region src/extractors/content.d.ts
+/**
+ * Extracts main content using Mozilla Readability.
+ * Converts HTML to Markdown for LLM consumption.
+ */
+declare class ContentExtractor implements Extractor {
+  readonly name = "content";
+  readonly priority = 50;
+  extract(context: ExtractionContext): Promise<Partial<ScrapedData>>;
+  private extractFallback;
+  private createExcerpt;
+  private detectContentType;
+}
+//#endregion
+//#region src/extractors/favicon.d.ts
+/**
+ * Extracts favicon URL from the page.
+ * Checks multiple sources in order of preference.
+ */
+declare class FaviconExtractor implements Extractor {
+  readonly name = "favicon";
+  readonly priority = 70;
+  extract(context: ExtractionContext): Promise<Partial<ScrapedData>>;
+}
+//#endregion
+//#region src/extractors/jsonld.d.ts
+/**
+ * Extracts JSON-LD structured data from the page.
+ * Also extracts additional metadata from structured data.
+ */
+declare class JsonLdExtractor implements Extractor {
+  readonly name = "jsonld";
+  readonly priority = 80;
+  extract(context: ExtractionContext): Promise<Partial<ScrapedData>>;
+  private extractMetadata;
+  private getType;
+  private getString;
+  private getAuthor;
+  private getImage;
+  private getKeywords;
+}
+//#endregion
+//#region src/extractors/links.d.ts
+/**
+ * Extracts links from the page content.
+ * Filters out navigation/footer links and focuses on content links.
+ */
+declare class LinksExtractor implements Extractor {
+  readonly name = "links";
+  readonly priority = 30;
+  extract(context: ExtractionContext): Promise<Partial<ScrapedData>>;
+}
+//#endregion
+//#region src/extractors/meta.d.ts
+/**
+ * Extracts metadata from HTML meta tags, Open Graph, and Twitter cards.
+ * Runs first to provide basic metadata for other extractors.
+ */
+declare class MetaExtractor implements Extractor {
+  readonly name = "meta";
+  readonly priority = 100;
+  extract(context: ExtractionContext): Promise<Partial<ScrapedData>>;
+}
+//#endregion
+//#region src/extractors/index.d.ts
+/**
+ * Default extractors in priority order.
+ * Higher priority runs first.
+ */
+declare function createDefaultExtractors(): Extractor[];
+/**
+ * Sort extractors by priority (higher first).
+ */
+declare function sortExtractors(extractors: Extractor[]): Extractor[];
+//#endregion
+//#region src/fetchers/types.d.ts
+/**
+ * Fetcher interface - allows swapping fetch implementation
+ * for Puppeteer, Playwright, or custom solutions
+ */
+interface Fetcher$1 {
+  /**
+   * Fetch HTML from a URL
+   * @returns HTML content and final URL (after redirects)
+   */
+  fetch(url: string, options?: FetchOptions$1): Promise<FetchResult$1>;
+  /** Fetcher name for logging */
+  readonly name: string;
+}
+/**
+ * Options for fetching
+ */
+interface FetchOptions$1 {
+  /** Timeout in milliseconds (default: 10000) */
+  timeout?: number;
+  /** User agent string */
+  userAgent?: string;
+  /** Additional headers to send */
+  headers?: Record<string, string>;
+  /**
+   * Allowed MIME types.
+   * Defaults to HTML/XHTML if undefined.
+   */
+  allowedContentTypes?: string[];
+}
+/**
+ * Result from fetching a URL
+ */
+interface FetchResult$1 {
+  /** Raw HTML content */
+  html: string;
+  /** Final URL after redirects */
+  finalUrl: string;
+  /** HTTP status code */
+  statusCode: number;
+  /** Content-Type header */
+  contentType: string;
+  /** Response headers (optional) */
+  headers?: Record<string, string>;
+}
+/**
+ * Default user agent string
+ */
+declare const DEFAULT_USER_AGENT = "Scrapex-Bot/2.0 (+https://github.com/developer-rakeshpaul/scrapex)";
+/**
+ * Default timeout in milliseconds
+ */
+declare const DEFAULT_TIMEOUT = 10000;
+//#endregion
+//#region src/fetchers/fetch.d.ts
+/**
+ * Default fetcher using native fetch API.
+ * Works in Node.js 18+ without polyfills.
+ */
+declare class NativeFetcher implements Fetcher$1 {
+  readonly name = "native-fetch";
+  fetch(url: string, options?: FetchOptions$1): Promise<FetchResult$1>;
+}
+/**
+ * Default fetcher instance
+ */
+declare const defaultFetcher: NativeFetcher;
+//#endregion
+//#region src/fetchers/robots.d.ts
+/**
+ * Result of robots.txt check
+ */
+interface RobotsCheckResult {
+  allowed: boolean;
+  reason?: string;
+}
+/**
+ * Check if URL is allowed by robots.txt
+ *
+ * @param url - The URL to check
+ * @param userAgent - User agent to check rules for
+ * @returns Whether the URL is allowed and optional reason
+ */
+declare function checkRobotsTxt(url: string, userAgent?: string): Promise<RobotsCheckResult>;
+//#endregion
+//#region src/utils/feed.d.ts
+/**
+ * Fetch and parse an RSS/Atom feed from a URL.
+ * Uses scrapex's fetcher infrastructure for consistent behavior.
+ */
+declare function fetchFeed(url: string, options?: {
+  fetcher?: Fetcher$1;
+  timeout?: number;
+  userAgent?: string;
+  parserOptions?: RSSParserOptions;
+}): Promise<ParserResult<ParsedFeed, FeedMeta>>;
+/**
+ * Detect RSS/Atom feed URLs from HTML.
+ * Supports RSS, Atom, and RDF feed types.
+ */
+declare function discoverFeeds(html: string, baseUrl: string): string[];
+/**
+ * Filter feed items by date range.
+ * Items without publishedAt are included by default.
+ */
+declare function filterByDate(items: FeedItem[], options: {
+  after?: Date;
+  before?: Date;
+  includeUndated?: boolean;
+}): FeedItem[];
+/**
+ * Convert feed items to markdown for LLM consumption.
+ * Uses ISO 8601 date format for consistency across environments.
+ */
+declare function feedToMarkdown(feed: ParsedFeed, options?: {
+  includeContent?: boolean;
+  maxItems?: number;
+}): string;
+/**
+ * Extract plain text from feed items for LLM processing.
+ * Concatenates title, description, and content.
+ */
+declare function feedToText(feed: ParsedFeed, options?: {
+  maxItems?: number;
+  separator?: string;
+}): string;
+/**
+ * Paginate through a feed using rel="next" links (RFC 5005).
+ * Returns an async generator that yields each page.
+ */
+declare function paginateFeed(url: string, options?: {
+  fetcher?: Fetcher$1;
+  timeout?: number;
+  userAgent?: string;
+  maxPages?: number;
+}): AsyncGenerator<ParsedFeed, void, unknown>;
+//#endregion
+//#region src/utils/url.d.ts
+/**
+ * Validate if a string is a valid URL
+ */
+declare function isValidUrl(url: string): boolean;
+/**
+ * Normalize URL by removing tracking params and trailing slashes
+ */
+declare function normalizeUrl(url: string): string;
+/**
+ * Extract domain from URL (without www prefix)
+ */
+declare function extractDomain(url: string): string;
+/**
+ * Resolve a potentially relative URL against a base URL
+ */
+declare function resolveUrl(url: string | undefined | null, baseUrl: string): string | undefined;
+/**
+ * Check if a URL is external relative to a domain
+ */
+declare function isExternalUrl(url: string, baseDomain: string): boolean;
+/**
+ * Extract protocol from URL
+ */
+declare function getProtocol(url: string): string;
+/**
+ * Get the path portion of a URL
+ */
+declare function getPath(url: string): string;
+/**
+ * Check if URL matches a pattern (supports * wildcard)
+ */
+declare function matchesUrlPattern(url: string, pattern: string): boolean;
+//#endregion
+export { type ChunkingConfig, type CompletionOptions, ContentExtractor, type ContentType, DEFAULT_TIMEOUT, DEFAULT_USER_AGENT, type EmbedRequest, type EmbedResponse, type EmbeddingCache, type EmbeddingCacheConfig, type EmbeddingInputConfig, type EmbeddingMetrics, type EmbeddingOptions, type EmbeddingProvider, type EmbeddingProviderConfig, type EmbeddingResult, type EmbeddingSkipped, type EmbeddingSource, type EmbeddingSuccessMultiple, type EmbeddingSuccessSingle, type EnhancementType, type ExtractedEntities, type ExtractedLink, type ExtractionContext, type ExtractionSchema, type ExtractionSchemaType, type Extractor, FaviconExtractor, type FetchOptions, type FetchResult, type Fetcher, type HttpEmbeddingConfig, InMemoryEmbeddingCache, JsonLdExtractor, type LLMProvider, LinksExtractor, MetaExtractor, NativeFetcher, type OutputConfig, RSSParser, type ResilienceConfig, type RobotsCheckResult, type SafetyConfig, ScrapeError, type ScrapeErrorCode, type ScrapeOptions, type ScrapedData, TRANSFORMERS_MODELS, aggregateVectors, checkRobotsTxt, chunkText, cosineSimilarity, createAzureEmbedding, createDefaultExtractors, createEmbeddingProvider, createExtractionContext, createHttpEmbedding, createHuggingFaceEmbedding, createOllamaEmbedding, createOpenAIEmbedding, createPiiRedactor, createTransformersEmbedding, defaultFetcher, discoverFeeds, embed, embedScrapedData, estimateTokens, extractDomain, feedToMarkdown, feedToText, fetchFeed, filterByDate, generateEmbeddings, getPath, getProtocol, isExternalUrl, isValidUrl, matchesUrlPattern, mergeResults, normalizeUrl, paginateFeed, redactPii, resolveUrl, scrape, scrapeHtml, sortExtractors };
+//# sourceMappingURL=index.d.cts.map

package/dist/index.d.cts.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"index.d.cts","names":[],"sources":["../src/core/context.ts","../src/core/errors.ts","../src/core/scrape.ts","../src/embeddings/aggregation.ts","../src/embeddings/cache.ts","../src/embeddings/chunking.ts","../src/embeddings/pipeline.ts","../src/embeddings/providers/presets.ts","../src/embeddings/providers/index.ts","../src/embeddings/safety.ts","../src/extractors/content.ts","../src/extractors/favicon.ts","../src/extractors/jsonld.ts","../src/extractors/links.ts","../src/extractors/meta.ts","../src/extractors/index.ts","../src/fetchers/types.ts","../src/fetchers/fetch.ts","../src/fetchers/robots.ts","../src/utils/feed.ts","../src/utils/url.ts"],"sourcesContent":[],"mappings":";;;;;AA2DA;;;;;;iBArCgB,uBAAA,uDAIL,gBACR;;;ACxBH;AAca,iBD0CG,YAAA,CC1CS,OAAA,ED2Cd,iBC3Cc,EAAA,SAAA,ED4CZ,OC5CY,CD4CJ,WC5CI,CAAA,CAAA,ED6CtB,iBC7CsB;;;;;;KAdb,eAAA;ADmBZ;AAqCA;;AAEqB,cC5CR,WAAA,SAAoB,KAAA,CD4CZ;EAAR,SAAA,IAAA,EC3CW,eD2CX;EACV,SAAA,UAAA,CAAA,EAAA,MAAA;EAAiB,WAAA,CAAA,OAAA,EAAA,MAAA,EAAA,IAAA,ECzCiB,eDyCjB,EAAA,UAAA,CAAA,EAAA,MAAA,EAAA,KAAA,CAAA,ECzC+D,KDyC/D;;;;EC3DR,OAAA,IAAA,CAAA,KAAA,EAAe,OAAA,EAAA,IAAA,CAAA,EAiCS,eAjCT,CAAA,EAiC4C,WAjC5C;EAcd;;;EAIsE,WAAA,CAAA,CAAA,EAAA,OAAA;EAe/C;;;EAnBH,MAAA,CAAA,CAAA,EAyCrB,MAzCqB,CAAA,MAAA,EAAA,OAAA,CAAA;;;;;;;ADKjC;AAqCA;;;;;;;;;ACxDY,iBCmBU,MAAA,CDnBK,GAAA,EAAA,MAAA,EAAA,OAAA,CAAA,ECmBwB,aDnBxB,CAAA,ECmB6C,ODnB7C,CCmBqD,WDnBrD,CAAA;AAc3B;;;;;;;;;;;;ACKA;;AAAgF,iBA4J1D,UAAA,CA5J0D,IAAA,EAAA,MAAA,EAAA,GAAA,EAAA,MAAA,EAAA,OAAA,CAAA,EA+JrE,aA/JqE,CAAA,EAgK7E,OAhK6E,CAgKrE,WAhKqE,CAAA;;;;;;AFAhF;AAqCA;;;AAEa,iBGpDG,gBAAA,CHoDH,OAAA,EAAA,MAAA,EAAA,EAAA,EAAA,QAAA,CAAA,EGlDD,oBHkDC,CAAA,EGjDV,iBHiDU;;;;KGYD,iBAAA;;EFtEA,MAAA,EAAA,MAAA,EAAA;EAcC,UAAA,EAAA,MAAY;CACD,GAAA;EAGa,IAAA,EAAA,UAAA;EAA8C,OAAA,EAAA,MAAA,EAAA,EAAA;EAe/C,UAAA,EAAA,MAAA;CAAmC;;;ACdvE;;AAAgF,iBCmIhE,gBAAA,CDnIgE,CAAA,EAAA,MAAA,EAAA,EAAA,CAAA,EAAA,MAAA,EAAA,CAAA,EAAA,MAAA;;;;;;AAAhF;AAAmD,cEmLtC,sBAAA,YAAkC,cFnLI,CAAA;EAA6B,QAAA,KAAA;EAAR,iBAAA,UAAA;EAAO,iBAAA,YAAA;EA4JzD,WAAA,CAAA,OAInB,CAJ6B,EAAA;IAGrB,UAAA,CAAA,EAAA,MAAA;IACA,KAAA,CAAA,EAAA,MAAA;EAAR,CAAA;EAAO,GAAA,CAAA,GAAA,EAAA,MAAA,CAAA,EE8BgB,OF9BhB,CE8BwB,eF9BxB,GAAA,SAAA,CAAA;0BEmDsB;;MAAgD;EDhOhE,MAAA,CAAA,GAAA,EAAA,MAAA,CAAgB,ECiPH,ODjPG,CAAA,OAEpB,CAAA;EA8DA,KAAA,CAAA,CAAA,ECqLK,ODrLL,CAAA,IAAiB,CAAA;EAgFb;;;cC4GF;EA5DD;;;EAgCmB,OAAA,CAAA,CAAA,EAAA,MAAA;EAAgD;;;EA4BlE,QAAA,QAAA;;;AA0Dd;;UAAiB,UAAA;;EC5ND,IAAA,EAAA,MAAS;EAiFT;;;;ECpIM;EACN,WAAA,EAAA,MAAA;;;;;;;;AL9CJ,iBIgGI,SAAA,CJhGW,IAAA,EAAA,MAAA,EAAA,MAAA,CAAA,EIgGsB,cJhGtB,CAAA,EIgGuC,SJhGvC,EAAA;AAc3B;;;AAImF,iBI+JnE,cAAA,CJ/JmE,IAAA,EAAA,MAAA,EAAA,SAAA,CAAA,EI+J1B,cJ/J0B,CAAA,WAAA,CAAA,CAAA,EAAA,MAAA;;;;;ADCnF;AAqCA;AACW,iBMZW,kBAAA,CNYX,IAAA,EMXH,ONWG,CMXK,WNWL,CAAA,EAAA,OAAA,EMVA,gBNUA,CAAA,EMTR,ONSQ,CMTA,eNSA,CAAA;;;;;iBMkPW,KAAA,wBAA6B,mBAAmB,QAAQ;;;AL3S9E;AAcA;AACwB,iBKkTF,gBAAA,CLlTE,IAAA,EKmThB,WLnTgB,EAAA,OAAA,EKoTb,gBLpTa,CAAA,EKqTrB,OLrTqB,CKqTb,eLrTa,CAAA;;;ADyCxB;;;;;;;;;ACxDY,iBM6BI,qBAAA,CN7BW,OAiCS,CAjCT,EAAA;EAcd,MAAA,CAAA,EAAA,MAAY;EACD,KAAA,CAAA,EAAA,MAAA;EAGa,OAAA,CAAA,EAAA,MAAA;EAA8C,YAAA,CAAA,EAAA,MAAA;CAe/C,CAAA,EMChC,iBNDgC;;;;;;;;ACdpC;;;;;AA4JsB,iBKvGN,oBAAA,CLuGgB,OAAA,EAAA;EAGrB,QAAA,EAAA,MAAA;EACA,cAAA,EAAA,MAAA;EAAR,UAAA,EAAA,MAAA;EAAO,MAAA,CAAA,EAAA,MAAA;IKtGN;;;AJvEJ;AAgEA;AAgFA;;;;ACgDA;;;;;;;AA4Dc,iBGxIE,qBAAA,CHwIF,OA0Dd,CA1Dc,EAAA;EA5DiC,OAAA,CAAA,EAAA,MAAA;EAAc,KAAA,CAAA,EAAA,MAAA;AAsH7D,CAAA,CAAA,EG/LI,iBH+LuB;;;;AC5N3B;AAiFA;;;;ACpIA;;AACQ,iBCwGQ,0BAAA,CDxGR,OAAA,EAAA;EACG,KAAA,EAAA,MAAA;EACA,MAAA,CAAA,EAAA,MAAA;CAAR,CAAA,ECyGC,iBDzGD;;ACnBH;AA2CA;AAkDA,KA6GK,yBAAA,GA7GgC,CAAA,IAAA,EAAA,MAGjC,EAAA,OA6GQ,CA7GR,EAAA;EAyBY,OAAA,CAAA,EAAA,MAAA,GAAA,KAAA,GAAA,KAA0B;EAiFrC,SAAA,CAAA,EAAA,OAAA;AAGO,CAAA,EAAA,GAAP,OAKK,CAAA;EA4BM,IAAA,EAjCK,YAiCL;AAkEhB,CAAA,CAAA;;;;ACpTA,UDsNU,kBAAA,CCtNM;;;QD2NT,QAAQ;EEtNC,GAAA,CAAA,EAAA;IAkEC,QAAA,CAAA,EAAA,MAAe;EAehB,CAAA;;;;AC7FhB;;;;;;;;;;ACdA;;;;;;;iBJuQgB,2BAAA,eACA,2BKrQqC;;;EAJxC,OAAA,CAAA,EAAA,MAAA,GAAgB,KAAA,GAAA,KAAA;EAIJ,SAAA,CAAA,EAAA,OAAA;EAAoC,QAAA,CAAA,EAAA,MAAA;CAAR,CAAA,EL6QlD,iBK7QkD;;AAJb,cL0U3B,mBK1U2B,EAAA;EAAS;;;;ECCpC;EAIY,SAAA,SAAA,EAAA,0BAAA;EAAoC;EAAR,SAAA,YAAA,EAAA,8BAAA;CAAR;;;AbgD7C;;;;AAGG,iBQlCa,uBAAA,CRkCb,MAAA,EQlC6C,uBRkC7C,CAAA,EQlCuE,iBRkCvE;;;;;;AAxCH;AAqCgB,iBS1BA,iBAAA,CT0BY,MAAA,ES1Bc,kBT0Bd,CAAA,EAAA,CAAA,IAAA,EAAA,MAAA,EAAA,GS1BqD,eT0BrD;;;;AAGzB,USqCc,eAAA,CTrCd;EAAiB;;;;EC3DR;EAcC,cAAY,EAAA,MAAA;EACD;EAGa,gBAAA,EQsFjB,MRtFiB,CAAA,MAAA,EAAA,MAAA,CAAA;;;;;;AAJC,iBQiGtB,SAAA,CRjGsB,IAAA,EAAA,MAAA,CAAA,EQiGG,eRjGH;;;;;;ADKtC;AAqCgB,cUtCH,gBAAA,YAA4B,SVsCb,CAAA;EACjB,SAAA,IAAA,GAAA,SAAA;EACU,SAAA,QAAA,GAAA,EAAA;EAAR,OAAA,CAAA,OAAA,EUpCY,iBVoCZ,CAAA,EUpCgC,OVoChC,CUpCwC,OVoCxC,CUpCgD,WVoChD,CAAA,CAAA;EACV,QAAA,eAAA;EAAiB,QAAA,aAAA;;;;;;;;AAxCpB;AAqCgB,cWpDH,gBAAA,YAA4B,SXoDb,CAAA;EACjB,SAAA,IAAA,GAAA,SAAA;EACU,SAAA,QAAA,GAAA,EAAA;EAAR,OAAA,CAAA,OAAA,EWlDY,iBXkDZ,CAAA,EWlDgC,OXkDhC,CWlDwC,OXkDxC,CWlDgD,WXkDhD,CAAA,CAAA;;;;;;;AAvCb;AAqCgB,cYrDH,eAAA,YAA2B,SZqDZ,CAAA;EACjB,SAAA,IAAA,GAAA,QAAA;EACU,SAAA,QAAA,GAAA,EAAA;EAAR,OAAA,CAAA,OAAA,EYnDY,iBZmDZ,CAAA,EYnDgC,OZmDhC,CYnDwC,OZmDxC,CYnDgD,WZmDhD,CAAA,CAAA;EACV,QAAA,eAAA;EAAiB,QAAA,OAAA;;;;EC3DR,QAAA,WAAe;AAc3B;;;;;;ADKA;AAqCgB,capDH,cAAA,YAA0B,SboDX,CAAA;EACjB,SAAA,IAAA,GAAA,OAAA;EACU,SAAA,QAAA,GAAA,EAAA;EAAR,OAAA,CAAA,OAAA,EalDY,iBbkDZ,CAAA,EalDgC,ObkDhC,CalDwC,ObkDxC,CalDgD,WbkDhD,CAAA,CAAA;;;;;;;AAvCb;AAqCgB,ccrDH,aAAA,YAAyB,SdqDV,CAAA;EACjB,SAAA,IAAA,GAAA,MAAA;EACU,SAAA,QAAA,GAAA,GAAA;EAAR,OAAA,CAAA,OAAA,EcnDY,iBdmDZ,CAAA,EcnDgC,OdmDhC,CcnDwC,OdmDxC,CcnDgD,WdmDhD,CAAA,CAAA;;;;;;;;AACO,iBe5CJ,uBAAA,CAAA,Cf4CI,Ee5CuB,Sf4CvB,EAAA;;;;AC3DR,iBc4BI,cAAA,Cd5BW,UAAA,Ec4BgB,Sd5BhB,EAAA,CAAA,Ec4B8B,Sd5B9B,EAAA;;;;;;;ADmBX,UgBlBC,SAAA,ChBkBD;EAqCA;;;;EAGb,KAAA,CAAA,GAAA,EAAA,MAAA,EAAA,OAAA,CAAA,EgBrD4B,chBqD5B,CAAA,EgBrD2C,OhBqD3C,CgBrDmD,ahBqDnD,CAAA;EAAiB;;;;AC3DpB;AAcA;AACwB,UeAP,cAAA,CfAO;EAGa;EAA8C,OAAA,CAAA,EAAA,MAAA;EAe/C;EAAmC,SAAA,CAAA,EAAA,MAAA;EAsB3D;EAzCqB,OAAA,CAAA,EeSrB,MfTqB,CAAA,MAAA,EAAA,MAAA,CAAA;EAAK;;;;ECKhB,mBAAM,CAAA,EAAA,MAAA,EAAA;;;;;AA4JN,Uc5IL,aAAA,Cd4Ie;EAGrB;EACA,IAAA,EAAA,MAAA;EAAR;EAAO,QAAA,EAAA,MAAA;;;;EC7KM,WAAA,EAAA,MAAgB;EAgEpB;EAgFI,OAAA,CAAA,EarGJ,MbqGI,CAAA,MAAgB,EAAA,MAAA,CAAA;;;;ACgDhC;AAWkC,cY1JrB,kBAAA,GZ0JqB,oEAAA;;;;AAsCL,cY1LhB,eAAA,GZ0LgB,KAAA;;;;;;AJpO7B;AAqCgB,ciB9CH,aAAA,YAAyB,SjB8CV,CAAA;EACjB,SAAA,IAAA,GAAA,cAAA;EACU,KAAA,CAAA,GAAA,EAAA,MAAA,EAAA,OAAA,CAAA,EiB7Ce,cjB6Cf,CAAA,EiB7CmC,OjB6CnC,CiB7C2C,ajB6C3C,CAAA;;;;;ciBiER,gBAAc;;;;;;UCzHV,iBAAA;ElBiBD,OAAA,EAAA,OAAA;EAqCA,MAAA,CAAA,EAAA,MAAY;;;;;;;;;ACxDhB,iBiBsBU,cAAA,CjBtBK,GAAA,EAAA,MAAA,EAAA,SAAA,CAAA,EAAA,MAAA,CAAA,EiByBxB,OjBzBwB,CiByBhB,iBjBzBgB,CAAA;;;;ADmB3B;AAqCA;;AAEqB,iBmBnDC,SAAA,CnBmDD,GAAA,EAAA,MAAA,EAAA,QAAA,EAAA;EAAR,OAAA,CAAA,EmBhDC,SnBgDD;EACV,OAAA,CAAA,EAAA,MAAA;EAAiB,SAAA,CAAA,EAAA,MAAA;kBmB9CA;IAEjB,QAAQ,aAAa,YAAY;;AlBfpC;AAcA;;AAIqC,iBkBqBrB,aAAA,ClBrBqB,IAAA,EAAA,MAAA,EAAA,OAAA,EAAA,MAAA,CAAA,EAAA,MAAA,EAAA;;;;;AAJJ,iBkB4DjB,YAAA,ClB5DiB,KAAA,EkB6DxB,QlB7DwB,EAAA,EAAA,OAAA,EAAA;EAAK,KAAA,CAAA,EkB8DjB,IlB9DiB;WkB8DF;;IACjC;AjB1DH;;;;AAA+E,iBiB6E/D,cAAA,CjB7E+D,IAAA,EiB8EvE,UjB9EuE,EAAA,OAgKpE,CAhKoE,EAAA;EA4JzD,cAAU,CAAA,EAAA,OAAA;EAGrB,QAAA,CAAA,EAAA,MAAA;CACA,CAAA,EAAA,MAAA;;;;;iBiBpCK,UAAA,OACR,mBhBMR;EAhJgB,QAAA,CAAA,EAAA,MAAA;EAgEJ,SAAA,CAAA,EAAA,MAAA;AAgFZ,CAAA,CAAA,EAAgB,MAAA;;;;ACgDhB;AAWkC,iBe1CX,YAAA,Cf0CW,GAAA,EAAA,MAAA,EAAA,OA0CjB,CA1CiB,EAAA;EAAR,OAAA,CAAA,EevCZ,SfuCY;EAqBM,OAAA,CAAA,EAAA,MAAA;EAAgD,SAAA,CAAA,EAAA,MAAA;EAiBnD,QAAA,CAAA,EAAA,MAAA;CAIZ,CAAA,Ee5Ed,cf4Ec,Ce5EC,Uf4ED,EAAA,IAAA,EAAA,OAAA,CAAA;;;;;;iBgBnOD,UAAA;ApBLhB;AAqCA;;AAEqB,iBoBtBL,YAAA,CpBsBK,GAAA,EAAA,MAAA,CAAA,EAAA,MAAA;;;;iBoBEL,aAAA;;;AnB5DhB;AAca,iBmB0DG,UAAA,CnB1DS,GAAA,EAAA,MAAA,GAAA,SAAA,GAAA,IAAA,EAAA,OAAA,EAAA,MAAA,CAAA,EAAA,MAAA,GAAA,SAAA;;;;AAmBW,iBmBoDpB,aAAA,CnBpDoB,GAAA,EAAA,MAAA,EAAA,UAAA,EAAA,MAAA,CAAA,EAAA,OAAA;;;;AAnBE,iBmBoFtB,WAAA,CnBpFsB,GAAA,EAAA,MAAA,CAAA,EAAA,MAAA;;;;ACKhB,iBkB0FN,OAAA,ClB1FY,GAAA,EAAA,MAAA,CAAA,EAAA,MAAA;;;;AAAmD,iBkBqG/D,iBAAA,ClBrG+D,GAAA,EAAA,MAAA,EAAA,OAAA,EAAA,MAAA,CAAA,EAAA,OAAA"}