npm - @librechat/agents - Versions diffs - 3.1.75 → 3.1.76 - Mend

@librechat/agents 3.1.75 → 3.1.76

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (221) hide show

package/dist/cjs/graphs/Graph.cjs +13 -3
package/dist/cjs/graphs/Graph.cjs.map +1 -1
package/dist/cjs/langchain/google-common.cjs +3 -0
package/dist/cjs/langchain/google-common.cjs.map +1 -0
package/dist/cjs/langchain/index.cjs +86 -0
package/dist/cjs/langchain/index.cjs.map +1 -0
package/dist/cjs/langchain/language_models/chat_models.cjs +3 -0
package/dist/cjs/langchain/language_models/chat_models.cjs.map +1 -0
package/dist/cjs/langchain/messages/tool.cjs +3 -0
package/dist/cjs/langchain/messages/tool.cjs.map +1 -0
package/dist/cjs/langchain/messages.cjs +51 -0
package/dist/cjs/langchain/messages.cjs.map +1 -0
package/dist/cjs/langchain/openai.cjs +3 -0
package/dist/cjs/langchain/openai.cjs.map +1 -0
package/dist/cjs/langchain/prompts.cjs +11 -0
package/dist/cjs/langchain/prompts.cjs.map +1 -0
package/dist/cjs/langchain/runnables.cjs +19 -0
package/dist/cjs/langchain/runnables.cjs.map +1 -0
package/dist/cjs/langchain/tools.cjs +23 -0
package/dist/cjs/langchain/tools.cjs.map +1 -0
package/dist/cjs/langchain/utils/env.cjs +11 -0
package/dist/cjs/langchain/utils/env.cjs.map +1 -0
package/dist/cjs/llm/anthropic/index.cjs +145 -52
package/dist/cjs/llm/anthropic/index.cjs.map +1 -1
package/dist/cjs/llm/anthropic/types.cjs.map +1 -1
package/dist/cjs/llm/anthropic/utils/message_inputs.cjs +21 -14
package/dist/cjs/llm/anthropic/utils/message_inputs.cjs.map +1 -1
package/dist/cjs/llm/anthropic/utils/message_outputs.cjs +84 -70
package/dist/cjs/llm/anthropic/utils/message_outputs.cjs.map +1 -1
package/dist/cjs/llm/bedrock/index.cjs +1 -1
package/dist/cjs/llm/bedrock/index.cjs.map +1 -1
package/dist/cjs/llm/bedrock/utils/message_inputs.cjs +213 -3
package/dist/cjs/llm/bedrock/utils/message_inputs.cjs.map +1 -1
package/dist/cjs/llm/bedrock/utils/message_outputs.cjs +2 -1
package/dist/cjs/llm/bedrock/utils/message_outputs.cjs.map +1 -1
package/dist/cjs/llm/google/utils/common.cjs +5 -4
package/dist/cjs/llm/google/utils/common.cjs.map +1 -1
package/dist/cjs/llm/openai/index.cjs +519 -655
package/dist/cjs/llm/openai/index.cjs.map +1 -1
package/dist/cjs/llm/openai/utils/index.cjs +20 -458
package/dist/cjs/llm/openai/utils/index.cjs.map +1 -1
package/dist/cjs/llm/openrouter/index.cjs +57 -175
package/dist/cjs/llm/openrouter/index.cjs.map +1 -1
package/dist/cjs/llm/vertexai/index.cjs +5 -3
package/dist/cjs/llm/vertexai/index.cjs.map +1 -1
package/dist/cjs/main.cjs +83 -3
package/dist/cjs/main.cjs.map +1 -1
package/dist/cjs/messages/cache.cjs +2 -1
package/dist/cjs/messages/cache.cjs.map +1 -1
package/dist/cjs/messages/core.cjs +7 -6
package/dist/cjs/messages/core.cjs.map +1 -1
package/dist/cjs/messages/format.cjs +73 -15
package/dist/cjs/messages/format.cjs.map +1 -1
package/dist/cjs/messages/langchain.cjs +26 -0
package/dist/cjs/messages/langchain.cjs.map +1 -0
package/dist/cjs/messages/prune.cjs +7 -6
package/dist/cjs/messages/prune.cjs.map +1 -1
package/dist/cjs/tools/ToolNode.cjs +5 -1
package/dist/cjs/tools/ToolNode.cjs.map +1 -1
package/dist/cjs/tools/search/search.cjs +55 -66
package/dist/cjs/tools/search/search.cjs.map +1 -1
package/dist/cjs/tools/search/tavily-scraper.cjs +189 -0
package/dist/cjs/tools/search/tavily-scraper.cjs.map +1 -0
package/dist/cjs/tools/search/tavily-search.cjs +372 -0
package/dist/cjs/tools/search/tavily-search.cjs.map +1 -0
package/dist/cjs/tools/search/tool.cjs +26 -4
package/dist/cjs/tools/search/tool.cjs.map +1 -1
package/dist/cjs/tools/search/utils.cjs +10 -3
package/dist/cjs/tools/search/utils.cjs.map +1 -1
package/dist/esm/graphs/Graph.mjs +13 -3
package/dist/esm/graphs/Graph.mjs.map +1 -1
package/dist/esm/langchain/google-common.mjs +2 -0
package/dist/esm/langchain/google-common.mjs.map +1 -0
package/dist/esm/langchain/index.mjs +5 -0
package/dist/esm/langchain/index.mjs.map +1 -0
package/dist/esm/langchain/language_models/chat_models.mjs +2 -0
package/dist/esm/langchain/language_models/chat_models.mjs.map +1 -0
package/dist/esm/langchain/messages/tool.mjs +2 -0
package/dist/esm/langchain/messages/tool.mjs.map +1 -0
package/dist/esm/langchain/messages.mjs +2 -0
package/dist/esm/langchain/messages.mjs.map +1 -0
package/dist/esm/langchain/openai.mjs +2 -0
package/dist/esm/langchain/openai.mjs.map +1 -0
package/dist/esm/langchain/prompts.mjs +2 -0
package/dist/esm/langchain/prompts.mjs.map +1 -0
package/dist/esm/langchain/runnables.mjs +2 -0
package/dist/esm/langchain/runnables.mjs.map +1 -0
package/dist/esm/langchain/tools.mjs +2 -0
package/dist/esm/langchain/tools.mjs.map +1 -0
package/dist/esm/langchain/utils/env.mjs +2 -0
package/dist/esm/langchain/utils/env.mjs.map +1 -0
package/dist/esm/llm/anthropic/index.mjs +146 -54
package/dist/esm/llm/anthropic/index.mjs.map +1 -1
package/dist/esm/llm/anthropic/types.mjs.map +1 -1
package/dist/esm/llm/anthropic/utils/message_inputs.mjs +21 -14
package/dist/esm/llm/anthropic/utils/message_inputs.mjs.map +1 -1
package/dist/esm/llm/anthropic/utils/message_outputs.mjs +84 -71
package/dist/esm/llm/anthropic/utils/message_outputs.mjs.map +1 -1
package/dist/esm/llm/bedrock/index.mjs +1 -1
package/dist/esm/llm/bedrock/index.mjs.map +1 -1
package/dist/esm/llm/bedrock/utils/message_inputs.mjs +214 -4
package/dist/esm/llm/bedrock/utils/message_inputs.mjs.map +1 -1
package/dist/esm/llm/bedrock/utils/message_outputs.mjs +2 -1
package/dist/esm/llm/bedrock/utils/message_outputs.mjs.map +1 -1
package/dist/esm/llm/google/utils/common.mjs +5 -4
package/dist/esm/llm/google/utils/common.mjs.map +1 -1
package/dist/esm/llm/openai/index.mjs +520 -656
package/dist/esm/llm/openai/index.mjs.map +1 -1
package/dist/esm/llm/openai/utils/index.mjs +23 -459
package/dist/esm/llm/openai/utils/index.mjs.map +1 -1
package/dist/esm/llm/openrouter/index.mjs +57 -175
package/dist/esm/llm/openrouter/index.mjs.map +1 -1
package/dist/esm/llm/vertexai/index.mjs +5 -3
package/dist/esm/llm/vertexai/index.mjs.map +1 -1
package/dist/esm/main.mjs +4 -0
package/dist/esm/main.mjs.map +1 -1
package/dist/esm/messages/cache.mjs +2 -1
package/dist/esm/messages/cache.mjs.map +1 -1
package/dist/esm/messages/core.mjs +7 -6
package/dist/esm/messages/core.mjs.map +1 -1
package/dist/esm/messages/format.mjs +73 -15
package/dist/esm/messages/format.mjs.map +1 -1
package/dist/esm/messages/langchain.mjs +23 -0
package/dist/esm/messages/langchain.mjs.map +1 -0
package/dist/esm/messages/prune.mjs +7 -6
package/dist/esm/messages/prune.mjs.map +1 -1
package/dist/esm/tools/ToolNode.mjs +5 -1
package/dist/esm/tools/ToolNode.mjs.map +1 -1
package/dist/esm/tools/search/search.mjs +55 -66
package/dist/esm/tools/search/search.mjs.map +1 -1
package/dist/esm/tools/search/tavily-scraper.mjs +186 -0
package/dist/esm/tools/search/tavily-scraper.mjs.map +1 -0
package/dist/esm/tools/search/tavily-search.mjs +370 -0
package/dist/esm/tools/search/tavily-search.mjs.map +1 -0
package/dist/esm/tools/search/tool.mjs +26 -4
package/dist/esm/tools/search/tool.mjs.map +1 -1
package/dist/esm/tools/search/utils.mjs +10 -3
package/dist/esm/tools/search/utils.mjs.map +1 -1
package/dist/types/index.d.ts +1 -0
package/dist/types/langchain/google-common.d.ts +1 -0
package/dist/types/langchain/index.d.ts +8 -0
package/dist/types/langchain/language_models/chat_models.d.ts +1 -0
package/dist/types/langchain/messages/tool.d.ts +1 -0
package/dist/types/langchain/messages.d.ts +2 -0
package/dist/types/langchain/openai.d.ts +1 -0
package/dist/types/langchain/prompts.d.ts +1 -0
package/dist/types/langchain/runnables.d.ts +2 -0
package/dist/types/langchain/tools.d.ts +2 -0
package/dist/types/langchain/utils/env.d.ts +1 -0
package/dist/types/llm/anthropic/index.d.ts +22 -9
package/dist/types/llm/anthropic/types.d.ts +5 -1
package/dist/types/llm/anthropic/utils/message_outputs.d.ts +13 -6
package/dist/types/llm/anthropic/utils/output_parsers.d.ts +1 -1
package/dist/types/llm/openai/index.d.ts +21 -24
package/dist/types/llm/openrouter/index.d.ts +11 -9
package/dist/types/llm/vertexai/index.d.ts +1 -0
package/dist/types/messages/cache.d.ts +4 -1
package/dist/types/messages/format.d.ts +4 -1
package/dist/types/messages/langchain.d.ts +27 -0
package/dist/types/tools/search/tavily-scraper.d.ts +19 -0
package/dist/types/tools/search/tavily-search.d.ts +4 -0
package/dist/types/tools/search/types.d.ts +99 -5
package/dist/types/tools/search/utils.d.ts +2 -2
package/dist/types/types/graph.d.ts +23 -37
package/dist/types/types/llm.d.ts +3 -3
package/dist/types/types/stream.d.ts +1 -1
package/package.json +80 -17
package/src/graphs/Graph.ts +24 -4
package/src/graphs/__tests__/composition.smoke.test.ts +188 -0
package/src/index.ts +3 -0
package/src/langchain/google-common.ts +1 -0
package/src/langchain/index.ts +8 -0
package/src/langchain/language_models/chat_models.ts +1 -0
package/src/langchain/messages/tool.ts +5 -0
package/src/langchain/messages.ts +21 -0
package/src/langchain/openai.ts +1 -0
package/src/langchain/prompts.ts +1 -0
package/src/langchain/runnables.ts +7 -0
package/src/langchain/tools.ts +8 -0
package/src/langchain/utils/env.ts +1 -0
package/src/llm/anthropic/index.ts +252 -84
package/src/llm/anthropic/llm.spec.ts +751 -102
package/src/llm/anthropic/types.ts +9 -1
package/src/llm/anthropic/utils/message_inputs.ts +37 -19
package/src/llm/anthropic/utils/message_outputs.ts +119 -101
package/src/llm/bedrock/index.ts +2 -2
package/src/llm/bedrock/llm.spec.ts +341 -0
package/src/llm/bedrock/utils/message_inputs.ts +303 -4
package/src/llm/bedrock/utils/message_outputs.ts +2 -1
package/src/llm/custom-chat-models.smoke.test.ts +836 -0
package/src/llm/google/llm.spec.ts +339 -57
package/src/llm/google/utils/common.ts +53 -48
package/src/llm/openai/contentBlocks.test.ts +346 -0
package/src/llm/openai/index.ts +856 -833
package/src/llm/openai/utils/index.ts +107 -78
package/src/llm/openai/utils/messages.test.ts +159 -0
package/src/llm/openrouter/index.ts +124 -247
package/src/llm/openrouter/reasoning.test.ts +8 -1
package/src/llm/vertexai/index.ts +11 -5
package/src/llm/vertexai/llm.spec.ts +28 -1
package/src/messages/cache.test.ts +4 -3
package/src/messages/cache.ts +3 -2
package/src/messages/core.ts +16 -9
package/src/messages/format.ts +96 -16
package/src/messages/formatAgentMessages.test.ts +166 -1
package/src/messages/langchain.ts +39 -0
package/src/messages/prune.ts +12 -8
package/src/scripts/caching.ts +2 -3
package/src/specs/summarization.test.ts +51 -58
package/src/tools/ToolNode.ts +5 -1
package/src/tools/search/search.ts +83 -73
package/src/tools/search/tavily-scraper.ts +235 -0
package/src/tools/search/tavily-search.ts +424 -0
package/src/tools/search/tavily.test.ts +965 -0
package/src/tools/search/tool.ts +36 -26
package/src/tools/search/types.ts +134 -11
package/src/tools/search/utils.ts +13 -5
package/src/types/graph.ts +32 -87
package/src/types/llm.ts +3 -3
package/src/types/stream.ts +1 -1
package/src/utils/llmConfig.ts +1 -6

package/src/specs/summarization.test.ts CHANGED Viewed

@@ -138,6 +138,7 @@ async function createSummarizationRun(opts: {
   tools?: t.GraphTools;
   indexTokenCountMap?: Record<string, number>;
   llmConfigOverride?: Record<string, unknown>;
+  maxSummaryTokens?: number;
 }): Promise<Run<t.IState>> {
   const llmConfig = {
     ...getLLMConfig(opts.agentProvider),
@@ -157,6 +158,7 @@ async function createSummarizationRun(opts: {
       summarizationConfig: {
         provider: opts.summarizationProvider,
         model: opts.summarizationModel,
+        maxSummaryTokens: opts.maxSummaryTokens,
       },
     },
     returnContent: true,
@@ -244,6 +246,33 @@ function buildIndexTokenCountMap(
   return map;
 }
+function sumTokenCountMap(map: Record<string, number | undefined>): number {
+  let total = 0;
+  for (const key in map) {
+    total += map[key] ?? 0;
+  }
+  return total;
+}
+function createSeededTokenAuditHistory(): BaseMessage[] {
+  const details =
+    'Token audit context preserves index token counts, summary replacement, calibration data, and post-summary continuity. ' +
+    'Important retained values: alpha=1024, beta=2048, gamma=4096, checksum TOKEN-AUDIT-7F3. ' +
+    'The repeated detail intentionally exceeds a compact context budget. ';
+  const padding = details.repeat(8);
+  return [
+    new HumanMessage(
+      `Audit turn 1: establish the accounting scenario. ${padding}`
+    ),
+    new AIMessage(`Recorded turn 1 accounting notes. ${padding}`),
+    new HumanMessage(`Audit turn 2: add more retained details. ${padding}`),
+    new AIMessage(`Recorded turn 2 accounting notes. ${padding}`),
+    new HumanMessage(`Audit turn 3: preserve final identifiers. ${padding}`),
+    new AIMessage(`Recorded turn 3 accounting notes. ${padding}`),
+  ];
+}
 function logTurn(
   label: string,
   conversationHistory: BaseMessage[],
@@ -2417,10 +2446,10 @@ const hasAnyApiKey =
   test('token count map is accurate after summarization cycle', async () => {
     const spies = createSpies();
     let collectedUsage: UsageMetadata[] = [];
-    const conversationHistory: BaseMessage[] = [];
+    const conversationHistory = createSeededTokenAuditHistory();
     const tokenCounter = await createTokenCounter();
-    const createRun = async (maxTokens = 4000): Promise<Run<t.IState>> => {
+    const createRun = async (maxTokens = 1200): Promise<Run<t.IState>> => {
       collectedUsage = [];
       const { aggregateContent } = createContentAggregator();
       const indexTokenCountMap = buildIndexTokenCountMap(
@@ -2432,80 +2461,44 @@ const hasAnyApiKey =
         summarizationProvider,
         summarizationModel,
         maxContextTokens: maxTokens,
-        instructions: INSTRUCTIONS,
+        instructions:
+          'You are a concise assistant. Preserve checkpoint context and answer in one short sentence.',
         collectedUsage,
         aggregateContent,
         spies,
         tokenCounter,
         indexTokenCountMap,
+        maxSummaryTokens: 300,
+        tools: [],
+        llmConfigOverride: {
+          maxTokens: 128,
+        },
       });
     };
-    // Accumulate messages over 6 turns at generous budget
-    let run = await createRun();
-    await runTurn(
-      { run, conversationHistory },
-      'What is 42 * 58? Calculator.',
-      streamConfig
-    );
-    run = await createRun();
-    await runTurn(
-      { run, conversationHistory },
-      'Now compute 2436 + 1000. Calculator.',
-      streamConfig
-    );
-    run = await createRun();
-    await runTurn(
-      { run, conversationHistory },
-      'What is 3436 / 4? Calculator.',
-      streamConfig
-    );
-    run = await createRun();
-    await runTurn(
-      { run, conversationHistory },
-      'Compute 999 * 2. Calculator.',
-      streamConfig
-    );
-    run = await createRun();
-    await runTurn(
-      { run, conversationHistory },
-      'What is 2^10? Calculator. Also list everything.',
-      streamConfig
+    const originalMap = buildIndexTokenCountMap(
+      conversationHistory,
+      tokenCounter
     );
+    const originalTokenTotal = sumTokenCountMap(originalMap);
+    expect(originalTokenTotal).toBeGreaterThan(1200);
-    run = await createRun();
+    const run = await createRun();
     await runTurn(
       { run, conversationHistory },
-      'Calculate 355 / 113. Calculator.',
+      'Acknowledge the preserved token audit context in one short sentence.',
       streamConfig
     );
-    // Squeeze progressively to force summarization
-    for (const squeeze of [3500, 3200, 3100, 3000, 2800, 2500, 2000]) {
-      if (spies.onSummarizeStartSpy.mock.calls.length > 0) {
-        break;
-      }
-      run = await createRun(squeeze);
-      await runTurn(
-        { run, conversationHistory },
-        `What is ${squeeze} - 1000? Calculator.`,
-        streamConfig
-      );
-    }
-    // Verify summarization fired
     expect(spies.onSummarizeCompleteSpy).toHaveBeenCalled();
     const completePayload = spies.onSummarizeCompleteSpy.mock
       .calls[0][0] as t.SummarizeCompleteEvent;
-    expect(completePayload.summary!.tokenCount).toBeGreaterThan(10);
-    expect(completePayload.summary!.tokenCount).toBeLessThan(1500);
+    const summaryTokenCount = completePayload.summary!.tokenCount ?? 0;
+    expect(summaryTokenCount).toBeGreaterThan(10);
+    expect(summaryTokenCount).toBeLessThan(1500);
+    expect(summaryTokenCount).toBeLessThan(originalTokenTotal);
-    // Token accounting: collectedUsage should have valid entries
     const validUsage = collectedUsage.filter(
       (u: Partial<UsageMetadata>) =>
         u.input_tokens != null && u.input_tokens > 0
@@ -2513,8 +2506,8 @@ const hasAnyApiKey =
     expect(validUsage.length).toBeGreaterThan(0);
     console.log(
-      `  Token audit: summary=${completePayload.summary!.tokenCount} tokens, ` +
-        `usageEntries=${validUsage.length}`
+      `  Token audit: summary=${summaryTokenCount} tokens, ` +
+        `preTotal=${originalTokenTotal}, usageEntries=${validUsage.length}`
     );
   }, 180_000);

package/src/tools/ToolNode.ts CHANGED Viewed

@@ -33,6 +33,7 @@ import {
 } from '@/utils/truncation';
 import { safeDispatchCustomEvent } from '@/utils/events';
 import { executeHooks } from '@/hooks';
+import { toLangChainContent } from '@/messages/langchain';
 import { Constants, GraphEvents, CODE_EXECUTION_TOOLS } from '@/common';
 import {
   buildReferenceKey,
@@ -1282,7 +1283,10 @@ export class ToolNode<T = any> extends RunnableCallable<T, T> {
       if (msg.skillName != null) additional_kwargs.skillName = msg.skillName;
       converted.push(
-        new HumanMessage({ content: msg.content, additional_kwargs })
+        new HumanMessage({
+          content: toLangChainContent(msg.content),
+          additional_kwargs,
+        })
       );
     }
     return converted;

package/src/tools/search/search.ts CHANGED Viewed

@@ -2,6 +2,7 @@ import axios from 'axios';
 import { RecursiveCharacterTextSplitter } from '@langchain/textsplitters';
 import type * as t from './types';
 import { getAttribution, createDefaultLogger } from './utils';
+import { createTavilyAPI } from './tavily-search';
 import { BaseReranker } from './rerankers';
 const chunker = {
@@ -418,15 +419,20 @@ export const createSearchAPI = (
     serperApiKey,
     searxngInstanceUrl,
     searxngApiKey,
+    tavilyApiKey,
+    tavilySearchUrl,
+    tavilySearchOptions,
   } = config;
   if (searchProvider.toLowerCase() === 'serper') {
     return createSerperAPI(serperApiKey);
   } else if (searchProvider.toLowerCase() === 'searxng') {
     return createSearXNGAPI(searxngInstanceUrl, searxngApiKey);
+  } else if (searchProvider.toLowerCase() === 'tavily') {
+    return createTavilyAPI(tavilyApiKey, tavilySearchUrl, tavilySearchOptions);
   } else {
     throw new Error(
-      `Invalid search provider: ${searchProvider}. Must be 'serper' or 'searxng'`
+      `Invalid search provider: ${searchProvider}. Must be 'serper', 'searxng', or 'tavily'`
     );
   }
 };
@@ -454,6 +460,56 @@ export const createSourceProcessor = (
   const logger_ = logger || createDefaultLogger();
   const scraper = scraperInstance;
+  const processResponse = (
+    url: string,
+    response: t.AnyScraperResponse
+  ): t.ScrapeResult => {
+    const rawMetadata = scraper.extractMetadata(response);
+    const metadata =
+      Object.keys(rawMetadata).length > 0 ? rawMetadata : undefined;
+    const attribution = getAttribution(url, metadata, logger_);
+    if (response.success && response.data) {
+      const [content, references] = scraper.extractContent(response);
+      return {
+        url,
+        references,
+        attribution,
+        content: chunker.cleanText(content),
+      };
+    }
+    logger_.error(
+      `Error scraping ${url}: ${response.error ?? 'Unknown error'}`
+    );
+    return { url, attribution, error: true, content: '' };
+  };
+  const addHighlights = async (
+    result: t.ScrapeResult,
+    query: string,
+    onGetHighlights: t.SearchToolConfig['onGetHighlights']
+  ): Promise<t.ScrapeResult> => {
+    if (result.error != null) {
+      return result;
+    }
+    try {
+      const highlights = await getHighlights({
+        query,
+        reranker,
+        content: result.content,
+        logger: logger_,
+      });
+      if (onGetHighlights) {
+        onGetHighlights(result.url);
+      }
+      return { ...result, highlights };
+    } catch (error) {
+      logger_.error('Error processing scraped content:', error);
+      return result;
+    }
+  };
   const webScraper = {
     scrapeMany: async ({
       query,
@@ -465,80 +521,34 @@ export const createSourceProcessor = (
       onGetHighlights: t.SearchToolConfig['onGetHighlights'];
     }): Promise<Array<t.ScrapeResult>> => {
       logger_.debug(`Scraping ${links.length} links`);
-      const promises: Array<Promise<t.ScrapeResult>> = [];
       try {
-        for (let i = 0; i < links.length; i++) {
-          const currentLink = links[i];
-          const promise: Promise<t.ScrapeResult> = scraper
-            .scrapeUrl(currentLink, {})
-            .then(([url, response]) => {
-              const attribution = getAttribution(
-                url,
-                response.data?.metadata,
-                logger_
-              );
-              if (response.success && response.data) {
-                const [content, references] = scraper.extractContent(response);
-                return {
-                  url,
-                  references,
-                  attribution,
-                  content: chunker.cleanText(content),
-                } as t.ScrapeResult;
-              } else {
-                logger_.error(
-                  `Error scraping ${url}: ${response.error ?? 'Unknown error'}`
-                );
-              }
-              return {
-                url,
-                attribution,
-                error: true,
-                content: '',
-              } as t.ScrapeResult;
-            })
-            .then(async (result) => {
-              try {
-                if (result.error != null) {
-                  logger_.error(
-                    `Error scraping ${result.url}: ${result.content}`
-                  );
-                  return {
-                    ...result,
-                  };
-                }
-                const highlights = await getHighlights({
-                  query,
-                  reranker,
-                  content: result.content,
-                  logger: logger_,
-                });
-                if (onGetHighlights) {
-                  onGetHighlights(result.url);
-                }
-                return {
-                  ...result,
-                  highlights,
-                };
-              } catch (error) {
-                logger_.error('Error processing scraped content:', error);
-                return {
-                  ...result,
-                };
-              }
-            })
-            .catch((error) => {
-              logger_.error(`Error scraping ${currentLink}:`, error);
-              return {
-                url: currentLink,
-                error: true,
-                content: '',
-              };
-            });
-          promises.push(promise);
+        let responses: Array<[string, t.AnyScraperResponse]>;
+        if (scraper.scrapeUrls) {
+          responses = await scraper.scrapeUrls(links);
+        } else {
+          responses = await Promise.all(
+            links.map((link) =>
+              scraper
+                .scrapeUrl(link, {})
+                .catch((error): [string, t.AnyScraperResponse] => {
+                  logger_.error(`Error scraping ${link}:`, error);
+                  return [link, { success: false, error: String(error) }];
+                })
+            )
+          );
         }
-        return await Promise.all(promises);
+        const withHighlights = await Promise.all(
+          responses.map(([url, response]) =>
+            addHighlights(
+              processResponse(url, response),
+              query,
+              onGetHighlights
+            )
+          )
+        );
+        return withHighlights;
       } catch (error) {
         logger_.error('Error in scrapeMany:', error);
         return [];

package/src/tools/search/tavily-scraper.ts ADDED Viewed

@@ -0,0 +1,235 @@
+import axios from 'axios';
+import type * as t from './types';
+import { createDefaultLogger } from './utils';
+const DEFAULT_BASIC_TIMEOUT = 15000;
+const DEFAULT_ADVANCED_TIMEOUT = 30000;
+const MAX_BATCH_SIZE = 20;
+const getDefaultTimeout = (extractDepth: 'basic' | 'advanced'): number =>
+  extractDepth === 'advanced'
+    ? DEFAULT_ADVANCED_TIMEOUT
+    : DEFAULT_BASIC_TIMEOUT;
+const normalizeUrlKey = (url: string): string => {
+  try {
+    const parsedUrl = new URL(url);
+    parsedUrl.hash = '';
+    if (parsedUrl.pathname.length > 1) {
+      parsedUrl.pathname = parsedUrl.pathname.replace(/\/+$/, '');
+    }
+    return parsedUrl.toString();
+  } catch {
+    return url;
+  }
+};
+const setUrlResult = (
+  map: Map<string, t.TavilyExtractResult>,
+  result: t.TavilyExtractResult
+): void => {
+  map.set(result.url, result);
+  const normalizedUrl = normalizeUrlKey(result.url);
+  if (!map.has(normalizedUrl)) {
+    map.set(normalizedUrl, result);
+  }
+};
+export class TavilyScraper implements t.BaseScraper {
+  private apiKey: string;
+  private apiUrl: string;
+  private timeout: number;
+  private payloadTimeout: number | undefined;
+  private logger: t.Logger;
+  private extractDepth: 'basic' | 'advanced';
+  private includeImages: boolean;
+  private includeFavicon: boolean;
+  private format: 'markdown' | 'text' | undefined;
+  constructor(config: t.TavilyScraperConfig = {}) {
+    this.apiKey = config.apiKey ?? process.env.TAVILY_API_KEY ?? '';
+    this.apiUrl =
+      config.apiUrl ??
+      process.env.TAVILY_EXTRACT_URL ??
+      'https://api.tavily.com/extract';
+    this.payloadTimeout = config.timeout;
+    this.extractDepth = config.extractDepth ?? 'basic';
+    this.timeout = config.timeout ?? getDefaultTimeout(this.extractDepth);
+    this.includeImages = config.includeImages ?? false;
+    this.includeFavicon = config.includeFavicon ?? false;
+    this.format = config.format;
+    this.logger = config.logger || createDefaultLogger();
+    if (!this.apiKey) {
+      this.logger.warn('TAVILY_API_KEY is not set. Scraping will not work.');
+    }
+  }
+  async scrapeUrl(
+    url: string,
+    options: t.TavilyScrapeOptions = {}
+  ): Promise<[string, t.TavilyScrapeResponse]> {
+    const results = await this.scrapeUrls([url], options);
+    return results[0];
+  }
+  async scrapeUrls(
+    urls: string[],
+    options: t.TavilyScrapeOptions = {}
+  ): Promise<Array<[string, t.TavilyScrapeResponse]>> {
+    if (!this.apiKey) {
+      return urls.map((url) => [
+        url,
+        { success: false, error: 'TAVILY_API_KEY is not set' },
+      ]);
+    }
+    const batches: string[][] = [];
+    for (let i = 0; i < urls.length; i += MAX_BATCH_SIZE) {
+      batches.push(urls.slice(i, i + MAX_BATCH_SIZE));
+    }
+    const allResults: Array<[string, t.TavilyScrapeResponse]> = [];
+    for (const batch of batches) {
+      const batchResults = await this.extractBatch(batch, options);
+      allResults.push(...batchResults);
+    }
+    return allResults;
+  }
+  private async extractBatch(
+    urls: string[],
+    options: t.TavilyScrapeOptions = {}
+  ): Promise<Array<[string, t.TavilyScrapeResponse]>> {
+    try {
+      const includeFavicon = options.includeFavicon ?? this.includeFavicon;
+      const format = options.format ?? this.format;
+      const extractDepth = options.extractDepth ?? this.extractDepth;
+      const payload: t.TavilyExtractPayload = {
+        urls,
+        extract_depth: extractDepth,
+        include_images: options.includeImages ?? this.includeImages,
+      };
+      if (includeFavicon) {
+        payload.include_favicon = true;
+      }
+      if (format != null) {
+        payload.format = format;
+      }
+      const effectiveTimeout =
+        options.timeout ??
+        this.payloadTimeout ??
+        (options.extractDepth != null
+          ? getDefaultTimeout(extractDepth)
+          : this.timeout);
+      const payloadTimeout = options.timeout ?? this.payloadTimeout;
+      if (payloadTimeout != null) {
+        payload.timeout = Math.min(Math.max(payloadTimeout / 1000, 1), 60);
+      }
+      const response = await axios.post<{
+        results?: t.TavilyExtractResult[];
+        failed_results?: t.TavilyExtractResult[];
+      }>(this.apiUrl, payload, {
+        headers: {
+          Authorization: `Bearer ${this.apiKey}`,
+          'Content-Type': 'application/json',
+        },
+        timeout: effectiveTimeout,
+      });
+      const data = response.data;
+      const successMap = new Map<string, t.TavilyExtractResult>();
+      const failedMap = new Map<string, t.TavilyExtractResult>();
+      for (const result of data.results ?? []) {
+        setUrlResult(successMap, result);
+      }
+      for (const result of data.failed_results ?? []) {
+        setUrlResult(failedMap, result);
+      }
+      return urls.map((url): [string, t.TavilyScrapeResponse] => {
+        const success =
+          successMap.get(url) ?? successMap.get(normalizeUrlKey(url));
+        if (success && success.error == null) {
+          return [
+            url,
+            {
+              success: true,
+              data: {
+                rawContent: success.raw_content ?? '',
+                images: success.images ?? [],
+                favicon: success.favicon,
+              },
+            },
+          ];
+        }
+        const failed =
+          failedMap.get(url) ?? failedMap.get(normalizeUrlKey(url));
+        const error =
+          success?.error ??
+          failed?.error ??
+          'URL not found in Tavily Extract response';
+        return [url, { success: false, error }];
+      });
+    } catch (error) {
+      const errorMessage =
+        error instanceof Error ? error.message : String(error);
+      return urls.map((url) => [
+        url,
+        {
+          success: false,
+          error: `Tavily Extract API request failed: ${errorMessage}`,
+        },
+      ]);
+    }
+  }
+  extractContent(
+    response: t.TavilyScrapeResponse
+  ): [string, undefined | t.References] {
+    if (!response.success || !response.data) {
+      return ['', undefined];
+    }
+    const content = response.data.rawContent ?? '';
+    const images = response.data.images ?? [];
+    const references: t.References | undefined =
+      images.length > 0
+        ? {
+            links: [],
+            images: images.map((imageUrl) => ({ originalUrl: imageUrl })),
+            videos: [],
+          }
+        : undefined;
+    return [content, references];
+  }
+  extractMetadata(response: t.TavilyScrapeResponse): t.GenericScrapeMetadata {
+    if (!response.success || !response.data) {
+      return {};
+    }
+    const metadata: t.GenericScrapeMetadata = {
+      images_count: response.data.images?.length ?? 0,
+    };
+    if (response.data.favicon != null) {
+      metadata.favicon = response.data.favicon;
+    }
+    return metadata;
+  }
+}
+export const createTavilyScraper = (
+  config: t.TavilyScraperConfig = {}
+): TavilyScraper => {
+  return new TavilyScraper(config);
+};