npm - @mastra/rag - Versions diffs - 1.2.2 → 1.2.3-alpha.1 - Mend

@mastra/rag 1.2.2 → 1.2.3-alpha.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (77) hide show

package/CHANGELOG.md +22 -0
package/dist/index.cjs +25 -9
package/dist/index.cjs.map +1 -1
package/dist/index.js +25 -9
package/dist/index.js.map +1 -1
package/dist/tools/graph-rag.d.ts.map +1 -1
package/dist/tools/types.d.ts +18 -5
package/dist/tools/types.d.ts.map +1 -1
package/dist/tools/vector-query.d.ts.map +1 -1
package/dist/utils/vector-search.d.ts +6 -7
package/dist/utils/vector-search.d.ts.map +1 -1
package/package.json +19 -6
package/.turbo/turbo-build.log +0 -4
package/docker-compose.yaml +0 -22
package/eslint.config.js +0 -6
package/src/document/document.test.ts +0 -2975
package/src/document/document.ts +0 -335
package/src/document/extractors/base.ts +0 -30
package/src/document/extractors/index.ts +0 -5
package/src/document/extractors/keywords.test.ts +0 -125
package/src/document/extractors/keywords.ts +0 -126
package/src/document/extractors/questions.test.ts +0 -120
package/src/document/extractors/questions.ts +0 -111
package/src/document/extractors/summary.test.ts +0 -107
package/src/document/extractors/summary.ts +0 -122
package/src/document/extractors/title.test.ts +0 -121
package/src/document/extractors/title.ts +0 -185
package/src/document/extractors/types.ts +0 -40
package/src/document/index.ts +0 -2
package/src/document/prompts/base.ts +0 -77
package/src/document/prompts/format.ts +0 -9
package/src/document/prompts/index.ts +0 -15
package/src/document/prompts/prompt.ts +0 -60
package/src/document/prompts/types.ts +0 -29
package/src/document/schema/index.ts +0 -3
package/src/document/schema/node.ts +0 -187
package/src/document/schema/types.ts +0 -40
package/src/document/transformers/character.ts +0 -267
package/src/document/transformers/html.ts +0 -346
package/src/document/transformers/json.ts +0 -536
package/src/document/transformers/latex.ts +0 -11
package/src/document/transformers/markdown.ts +0 -239
package/src/document/transformers/semantic-markdown.ts +0 -227
package/src/document/transformers/sentence.ts +0 -314
package/src/document/transformers/text.ts +0 -158
package/src/document/transformers/token.ts +0 -137
package/src/document/transformers/transformer.ts +0 -5
package/src/document/types.ts +0 -145
package/src/document/validation.ts +0 -158
package/src/graph-rag/index.test.ts +0 -235
package/src/graph-rag/index.ts +0 -306
package/src/index.ts +0 -8
package/src/rerank/index.test.ts +0 -150
package/src/rerank/index.ts +0 -198
package/src/rerank/relevance/cohere/index.ts +0 -56
package/src/rerank/relevance/index.ts +0 -3
package/src/rerank/relevance/mastra-agent/index.ts +0 -32
package/src/rerank/relevance/zeroentropy/index.ts +0 -26
package/src/tools/README.md +0 -153
package/src/tools/document-chunker.ts +0 -34
package/src/tools/graph-rag.test.ts +0 -115
package/src/tools/graph-rag.ts +0 -154
package/src/tools/index.ts +0 -3
package/src/tools/types.ts +0 -110
package/src/tools/vector-query-database-config.test.ts +0 -190
package/src/tools/vector-query.test.ts +0 -418
package/src/tools/vector-query.ts +0 -169
package/src/utils/convert-sources.ts +0 -43
package/src/utils/default-settings.ts +0 -38
package/src/utils/index.ts +0 -3
package/src/utils/tool-schemas.ts +0 -38
package/src/utils/vector-prompts.ts +0 -832
package/src/utils/vector-search.ts +0 -117
package/tsconfig.build.json +0 -9
package/tsconfig.json +0 -5
package/tsup.config.ts +0 -17
package/vitest.config.ts +0 -8

package/src/document/transformers/markdown.ts DELETED Viewed

@@ -1,239 +0,0 @@
-import { Document } from '../schema';
-import { Language } from '../types';
-import type { BaseChunkOptions } from '../types';
-import { RecursiveCharacterTransformer } from './character';
-interface LineType {
-  metadata: Record<string, string>;
-  content: string;
-}
-interface HeaderType {
-  level: number;
-  name: string;
-  data: string;
-}
-export class MarkdownTransformer extends RecursiveCharacterTransformer {
-  constructor(options: BaseChunkOptions = {}) {
-    const separators = RecursiveCharacterTransformer.getSeparatorsForLanguage(Language.MARKDOWN);
-    super({ ...options, separators, isSeparatorRegex: true });
-  }
-}
-export class MarkdownHeaderTransformer {
-  private headersToSplitOn: [string, string][];
-  private returnEachLine: boolean;
-  private stripHeaders: boolean;
-  constructor(headersToSplitOn: [string, string][], returnEachLine: boolean = false, stripHeaders: boolean = true) {
-    this.headersToSplitOn = [...headersToSplitOn].sort((a, b) => b[0].length - a[0].length);
-    this.returnEachLine = returnEachLine;
-    this.stripHeaders = stripHeaders;
-  }
-  private aggregateLinesToChunks(lines: LineType[]): Document[] {
-    if (this.returnEachLine) {
-      return lines.flatMap(line => {
-        const contentLines = line.content.split('\n');
-        return contentLines
-          .filter(l => l.trim() !== '' || this.headersToSplitOn.some(([sep]) => l.trim().startsWith(sep)))
-          .map(
-            l =>
-              new Document({
-                text: l.trim(),
-                metadata: line.metadata,
-              }),
-          );
-      });
-    }
-    const aggregatedChunks: LineType[] = [];
-    for (const line of lines) {
-      const lastLine = aggregatedChunks[aggregatedChunks.length - 1]?.content?.split('\n')?.slice(-1)[0]?.trim();
-      const lastChunkIsHeader = lastLine ? this.headersToSplitOn.some(([sep]) => lastLine.startsWith(sep)) : false;
-      if (
-        aggregatedChunks.length > 0 &&
-        JSON.stringify(aggregatedChunks?.[aggregatedChunks.length - 1]!.metadata) === JSON.stringify(line.metadata)
-      ) {
-        const aggChunk = aggregatedChunks[aggregatedChunks.length - 1];
-        aggChunk!.content += '  \n' + line.content;
-      } else if (
-        aggregatedChunks.length > 0 &&
-        JSON.stringify(aggregatedChunks?.[aggregatedChunks.length - 1]!.metadata) !== JSON.stringify(line.metadata) &&
-        Object.keys(aggregatedChunks?.[aggregatedChunks.length - 1]!.metadata).length <
-          Object.keys(line.metadata).length &&
-        lastChunkIsHeader
-      ) {
-        if (aggregatedChunks && aggregatedChunks?.[aggregatedChunks.length - 1]) {
-          const aggChunk = aggregatedChunks[aggregatedChunks.length - 1];
-          if (aggChunk) {
-            aggChunk.content += '  \n' + line.content;
-            aggChunk.metadata = line.metadata;
-          }
-        }
-      } else {
-        aggregatedChunks.push(line);
-      }
-    }
-    return aggregatedChunks.map(
-      chunk =>
-        new Document({
-          text: chunk.content,
-          metadata: chunk.metadata,
-        }),
-    );
-  }
-  splitText({ text }: { text: string }): Document[] {
-    const lines = text.split('\n');
-    const linesWithMetadata: LineType[] = [];
-    let currentContent: string[] = [];
-    let currentMetadata: Record<string, string> = {};
-    const headerStack: HeaderType[] = [];
-    const initialMetadata: Record<string, string> = {};
-    let inCodeBlock = false;
-    let openingFence = '';
-    for (let i = 0; i < lines.length; i++) {
-      const line = lines[i]!;
-      const strippedLine = line.trim();
-      if (!inCodeBlock) {
-        if (
-          (strippedLine.startsWith('```') && strippedLine.split('```').length === 2) ||
-          strippedLine.startsWith('~~~')
-        ) {
-          inCodeBlock = true;
-          openingFence = strippedLine.startsWith('```') ? '```' : '~~~';
-        }
-      } else {
-        if (strippedLine.startsWith(openingFence)) {
-          inCodeBlock = false;
-          openingFence = '';
-        }
-      }
-      if (inCodeBlock) {
-        currentContent.push(line);
-        continue;
-      }
-      let headerMatched = false;
-      for (const [sep, name] of this.headersToSplitOn) {
-        if (strippedLine.startsWith(sep) && (strippedLine.length === sep.length || strippedLine[sep.length] === ' ')) {
-          headerMatched = true;
-          // If we have existing content, save it before processing the header
-          if (currentContent.length > 0) {
-            linesWithMetadata.push({
-              content: currentContent.join('\n'),
-              metadata: { ...currentMetadata },
-            });
-            currentContent = [];
-          }
-          if (name !== null) {
-            const currentHeaderLevel = (sep.match(/#/g) || []).length;
-            // Pop headers of lower or same level
-            while (headerStack.length > 0 && headerStack?.[headerStack.length - 1]!.level >= currentHeaderLevel) {
-              const poppedHeader = headerStack.pop()!;
-              if (poppedHeader.name in initialMetadata) {
-                delete initialMetadata[poppedHeader.name];
-              }
-            }
-            // Push current header
-            const header: HeaderType = {
-              level: currentHeaderLevel,
-              name,
-              data: strippedLine.slice(sep.length).trim(),
-            };
-            headerStack.push(header);
-            initialMetadata[name] = header.data;
-          }
-          // Only add header to linesWithMetadata if stripHeaders is false
-          if (!this.stripHeaders) {
-            linesWithMetadata.push({
-              content: line,
-              metadata: { ...currentMetadata, ...initialMetadata },
-            });
-          }
-          break;
-        }
-      }
-      if (!headerMatched) {
-        if (strippedLine || this.returnEachLine) {
-          currentContent.push(line);
-          if (this.returnEachLine) {
-            // In returnEachLine mode, flush each non-header line immediately
-            linesWithMetadata.push({
-              content: line,
-              metadata: { ...currentMetadata },
-            });
-            currentContent = [];
-          }
-        } else if (currentContent.length > 0) {
-          linesWithMetadata.push({
-            content: currentContent.join('\n'),
-            metadata: { ...currentMetadata },
-          });
-          currentContent = [];
-        }
-      }
-      // Reset metadata for next line
-      currentMetadata = { ...initialMetadata };
-    }
-    // Handle any remaining content
-    if (currentContent.length > 0) {
-      linesWithMetadata.push({
-        content: currentContent.join('\n'),
-        metadata: currentMetadata,
-      });
-    }
-    return this.aggregateLinesToChunks(linesWithMetadata);
-  }
-  createDocuments(texts: string[], metadatas?: Record<string, any>[]): Document[] {
-    const _metadatas = metadatas || Array(texts.length).fill({});
-    const documents: Document[] = [];
-    texts.forEach((text, i) => {
-      this.splitText({ text }).forEach(chunk => {
-        const metadata = { ..._metadatas[i], ...chunk.metadata };
-        documents.push(
-          new Document({
-            text: chunk.text,
-            metadata,
-          }),
-        );
-      });
-    });
-    return documents;
-  }
-  transformDocuments(documents: Document[]): Document[] {
-    const texts: string[] = [];
-    const metadatas: Record<string, any>[] = [];
-    for (const doc of documents) {
-      texts.push(doc.text);
-      metadatas.push(doc.metadata);
-    }
-    return this.createDocuments(texts, metadatas);
-  }
-}

package/src/document/transformers/semantic-markdown.ts DELETED Viewed

@@ -1,227 +0,0 @@
-import type { TiktokenModel, TiktokenEncoding, Tiktoken } from 'js-tiktoken';
-import { encodingForModel, getEncoding } from 'js-tiktoken';
-import { Document } from '../schema';
-import type { SemanticMarkdownChunkOptions } from '../types';
-import { TextTransformer } from './text';
-interface MarkdownNode {
-  title: string;
-  depth: number;
-  content: string;
-  length: number;
-}
-export class SemanticMarkdownTransformer extends TextTransformer {
-  private tokenizer: Tiktoken;
-  private joinThreshold: number;
-  private allowedSpecial: Set<string> | 'all';
-  private disallowedSpecial: Set<string> | 'all';
-  constructor({
-    joinThreshold = 500,
-    encodingName = 'cl100k_base',
-    modelName,
-    allowedSpecial = new Set(),
-    disallowedSpecial = 'all',
-    ...baseOptions
-  }: SemanticMarkdownChunkOptions = {}) {
-    super(baseOptions);
-    this.joinThreshold = joinThreshold;
-    this.allowedSpecial = allowedSpecial;
-    this.disallowedSpecial = disallowedSpecial;
-    try {
-      this.tokenizer = modelName ? encodingForModel(modelName) : getEncoding(encodingName);
-    } catch {
-      throw new Error('Could not load tiktoken encoding. Please install it with `npm install js-tiktoken`.');
-    }
-  }
-  private countTokens(text: string): number {
-    const allowed = this.allowedSpecial === 'all' ? 'all' : Array.from(this.allowedSpecial);
-    const disallowed = this.disallowedSpecial === 'all' ? 'all' : Array.from(this.disallowedSpecial);
-    const processedText = this.stripWhitespace ? text.trim() : text;
-    return this.tokenizer.encode(processedText, allowed, disallowed).length;
-  }
-  private splitMarkdownByHeaders(markdown: string): MarkdownNode[] {
-    const sections: MarkdownNode[] = [];
-    const lines = markdown.split('\n');
-    let currentContent = '';
-    let currentTitle = '';
-    let currentDepth = 0;
-    let inCodeBlock = false;
-    const headerRegex = /^(#+)\s+(.+)$/;
-    for (let i = 0; i < lines.length; i++) {
-      const line = lines[i]!;
-      const headerMatch = line.match(headerRegex);
-      // Track code blocks to avoid parsing headers inside them
-      if (line.startsWith('```') || line.startsWith('~~~')) {
-        inCodeBlock = !inCodeBlock;
-      }
-      if (headerMatch && !inCodeBlock) {
-        // Save previous section
-        // Push the previous section if it has content or if it's a header.
-        // This ensures headers that only act as parents are not lost.
-        if (currentContent.trim() !== '' || (currentTitle && currentDepth > 0)) {
-          sections.push({
-            title: currentTitle,
-            content: currentContent.trim(),
-            depth: currentDepth,
-            length: this.countTokens(currentContent.trim()),
-          });
-        }
-        currentContent = ''; // Always reset for the new section
-        // Start new section
-        currentDepth = headerMatch[1]!.length;
-        currentTitle = headerMatch[2]!;
-      } else {
-        currentContent += line + '\n';
-      }
-    }
-    // Add the last section
-    if (currentContent.trim() !== '') {
-      sections.push({
-        title: currentTitle,
-        content: currentContent.trim(),
-        depth: currentDepth,
-        length: this.countTokens(currentContent.trim()),
-      });
-    }
-    // Remove initial empty preamble if present, but keep non-empty preambles
-    if (sections.length > 1 && sections[0]!.title === '' && sections[0]!.content.trim() === '') {
-      sections.shift();
-    }
-    return sections;
-  }
-  private mergeSemanticSections(sections: MarkdownNode[]): MarkdownNode[] {
-    if (sections.length === 0) return sections;
-    const workingSections = [...sections];
-    const deepest = Math.max(...workingSections.map(s => s.depth));
-    for (let depth = deepest; depth > 0; depth--) {
-      for (let j = 1; j < workingSections.length; j++) {
-        const current = workingSections[j]!;
-        if (current.depth === depth) {
-          const prev = workingSections[j - 1]!;
-          if (prev.length + current.length < this.joinThreshold && prev.depth <= current.depth) {
-            const title = `${'#'.repeat(current.depth)} ${current.title}`;
-            const formattedTitle = `\n\n${title}`;
-            prev.content += `${formattedTitle}\n${current.content}`;
-            prev.length = this.countTokens(prev.content);
-            workingSections.splice(j, 1);
-            j--;
-          }
-        }
-      }
-    }
-    return workingSections;
-  }
-  splitText({ text }: { text: string }): string[] {
-    if (!text.trim()) return [];
-    const initialSections = this.splitMarkdownByHeaders(text);
-    const mergedSections = this.mergeSemanticSections(initialSections);
-    return mergedSections.map(section => {
-      if (section.title) {
-        const header = `${'#'.repeat(section.depth)} ${section.title}`;
-        return `${header}\n${section.content}`;
-      }
-      return section.content;
-    });
-  }
-  createDocuments(texts: string[], metadatas?: Record<string, any>[]): Document[] {
-    const _metadatas = metadatas || Array(texts.length).fill({});
-    const documents: Document[] = [];
-    texts.forEach((text, i) => {
-      this.splitText({ text }).forEach(chunk => {
-        const metadata = {
-          ..._metadatas[i],
-          tokenCount: this.countTokens(chunk),
-        };
-        documents.push(
-          new Document({
-            text: chunk,
-            metadata,
-          }),
-        );
-      });
-    });
-    return documents;
-  }
-  transformDocuments(documents: Document[]): Document[] {
-    const texts: string[] = [];
-    const metadatas: Record<string, any>[] = [];
-    for (const doc of documents) {
-      texts.push(doc.text);
-      metadatas.push(doc.metadata);
-    }
-    return this.createDocuments(texts, metadatas);
-  }
-  static fromTikToken({
-    encodingName = 'cl100k_base',
-    modelName,
-    options = {},
-  }: {
-    encodingName?: TiktokenEncoding;
-    modelName?: TiktokenModel;
-    options?: SemanticMarkdownChunkOptions;
-  }): SemanticMarkdownTransformer {
-    let tokenizer: Tiktoken;
-    try {
-      tokenizer = modelName ? encodingForModel(modelName) : getEncoding(encodingName);
-    } catch {
-      throw new Error('Could not load tiktoken encoding. Please install it with `npm install js-tiktoken`.');
-    }
-    const tikTokenCounter = (text: string): number => {
-      const allowed =
-        options.allowedSpecial === 'all' ? 'all' : options.allowedSpecial ? Array.from(options.allowedSpecial) : [];
-      const disallowed =
-        options.disallowedSpecial === 'all'
-          ? 'all'
-          : options.disallowedSpecial
-            ? Array.from(options.disallowedSpecial)
-            : [];
-      return tokenizer.encode(text, allowed, disallowed).length;
-    };
-    return new SemanticMarkdownTransformer({
-      ...options,
-      encodingName,
-      modelName,
-      lengthFunction: tikTokenCounter,
-    });
-  }
-}