npm - @workglow/ai - Versions diffs - 0.0.84 → 0.0.86 - Mend

@workglow/ai 0.0.84 → 0.0.86

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (114) hide show

package/README.md +166 -35
package/dist/browser.js +3947 -1449
package/dist/browser.js.map +49 -38
package/dist/bun.js +3947 -1449
package/dist/bun.js.map +49 -38
package/dist/common.d.ts +0 -3
package/dist/common.d.ts.map +1 -1
package/dist/model/ModelRegistry.d.ts +2 -2
package/dist/model/ModelRegistry.d.ts.map +1 -1
package/dist/model/ModelRepository.d.ts +3 -3
package/dist/model/ModelRepository.d.ts.map +1 -1
package/dist/node.js +3947 -1449
package/dist/node.js.map +49 -38
package/dist/task/BackgroundRemovalTask.d.ts +121 -289
package/dist/task/BackgroundRemovalTask.d.ts.map +1 -1
package/dist/task/ChunkRetrievalTask.d.ts +243 -0
package/dist/task/ChunkRetrievalTask.d.ts.map +1 -0
package/dist/task/ChunkToVectorTask.d.ts +183 -0
package/dist/task/ChunkToVectorTask.d.ts.map +1 -0
package/dist/task/ChunkVectorHybridSearchTask.d.ts +160 -0
package/dist/task/ChunkVectorHybridSearchTask.d.ts.map +1 -0
package/dist/task/ChunkVectorSearchTask.d.ts +137 -0
package/dist/task/ChunkVectorSearchTask.d.ts.map +1 -0
package/dist/task/ChunkVectorUpsertTask.d.ts +120 -0
package/dist/task/ChunkVectorUpsertTask.d.ts.map +1 -0
package/dist/task/ContextBuilderTask.d.ts +131 -0
package/dist/task/ContextBuilderTask.d.ts.map +1 -0
package/dist/task/DocumentEnricherTask.d.ts +232 -0
package/dist/task/DocumentEnricherTask.d.ts.map +1 -0
package/dist/task/DownloadModelTask.d.ts +79 -208
package/dist/task/DownloadModelTask.d.ts.map +1 -1
package/dist/task/FaceDetectorTask.d.ts +117 -272
package/dist/task/FaceDetectorTask.d.ts.map +1 -1
package/dist/task/FaceLandmarkerTask.d.ts +117 -272
package/dist/task/FaceLandmarkerTask.d.ts.map +1 -1
package/dist/task/GestureRecognizerTask.d.ts +129 -284
package/dist/task/GestureRecognizerTask.d.ts.map +1 -1
package/dist/task/HandLandmarkerTask.d.ts +125 -280
package/dist/task/HandLandmarkerTask.d.ts.map +1 -1
package/dist/task/HierarchicalChunkerTask.d.ts +212 -0
package/dist/task/HierarchicalChunkerTask.d.ts.map +1 -0
package/dist/task/HierarchyJoinTask.d.ts +318 -0
package/dist/task/HierarchyJoinTask.d.ts.map +1 -0
package/dist/task/ImageClassificationTask.d.ts +117 -272
package/dist/task/ImageClassificationTask.d.ts.map +1 -1
package/dist/task/ImageEmbeddingTask.d.ts +125 -446
package/dist/task/ImageEmbeddingTask.d.ts.map +1 -1
package/dist/task/ImageSegmentationTask.d.ts +117 -272
package/dist/task/ImageSegmentationTask.d.ts.map +1 -1
package/dist/task/ImageToTextTask.d.ts +117 -272
package/dist/task/ImageToTextTask.d.ts.map +1 -1
package/dist/task/ObjectDetectionTask.d.ts +119 -274
package/dist/task/ObjectDetectionTask.d.ts.map +1 -1
package/dist/task/PoseLandmarkerTask.d.ts +117 -272
package/dist/task/PoseLandmarkerTask.d.ts.map +1 -1
package/dist/task/QueryExpanderTask.d.ts +129 -0
package/dist/task/QueryExpanderTask.d.ts.map +1 -0
package/dist/task/RerankerTask.d.ts +209 -0
package/dist/task/RerankerTask.d.ts.map +1 -0
package/dist/task/StructuralParserTask.d.ts +91 -0
package/dist/task/StructuralParserTask.d.ts.map +1 -0
package/dist/task/TextChunkerTask.d.ts +129 -0
package/dist/task/TextChunkerTask.d.ts.map +1 -0
package/dist/task/TextClassificationTask.d.ts +42 -115
package/dist/task/TextClassificationTask.d.ts.map +1 -1
package/dist/task/TextEmbeddingTask.d.ts +55 -277
package/dist/task/TextEmbeddingTask.d.ts.map +1 -1
package/dist/task/TextFillMaskTask.d.ts +42 -115
package/dist/task/TextFillMaskTask.d.ts.map +1 -1
package/dist/task/TextGenerationTask.d.ts +44 -128
package/dist/task/TextGenerationTask.d.ts.map +1 -1
package/dist/task/TextLanguageDetectionTask.d.ts +42 -115
package/dist/task/TextLanguageDetectionTask.d.ts.map +1 -1
package/dist/task/TextNamedEntityRecognitionTask.d.ts +42 -115
package/dist/task/TextNamedEntityRecognitionTask.d.ts.map +1 -1
package/dist/task/TextQuestionAnswerTask.d.ts +47 -144
package/dist/task/TextQuestionAnswerTask.d.ts.map +1 -1
package/dist/task/TextRewriterTask.d.ts +45 -131
package/dist/task/TextRewriterTask.d.ts.map +1 -1
package/dist/task/TextSummaryTask.d.ts +42 -115
package/dist/task/TextSummaryTask.d.ts.map +1 -1
package/dist/task/TextTranslationTask.d.ts +54 -168
package/dist/task/TextTranslationTask.d.ts.map +1 -1
package/dist/task/TopicSegmenterTask.d.ts +148 -0
package/dist/task/TopicSegmenterTask.d.ts.map +1 -0
package/dist/task/UnloadModelTask.d.ts +79 -208
package/dist/task/UnloadModelTask.d.ts.map +1 -1
package/dist/task/VectorQuantizeTask.d.ts +120 -0
package/dist/task/VectorQuantizeTask.d.ts.map +1 -0
package/dist/task/VectorSimilarityTask.d.ts +18 -253
package/dist/task/VectorSimilarityTask.d.ts.map +1 -1
package/dist/task/base/AiTask.d.ts +24 -22
package/dist/task/base/AiTask.d.ts.map +1 -1
package/dist/task/base/AiTaskSchemas.d.ts +3 -127
package/dist/task/base/AiTaskSchemas.d.ts.map +1 -1
package/dist/task/base/AiVisionTask.d.ts +1 -4
package/dist/task/base/AiVisionTask.d.ts.map +1 -1
package/dist/task/index.d.ts +54 -1
package/dist/task/index.d.ts.map +1 -1
package/package.json +14 -9
package/dist/source/Document.d.ts +0 -56
package/dist/source/Document.d.ts.map +0 -1
package/dist/source/DocumentConverter.d.ts +0 -15
package/dist/source/DocumentConverter.d.ts.map +0 -1
package/dist/source/DocumentConverterMarkdown.d.ts +0 -13
package/dist/source/DocumentConverterMarkdown.d.ts.map +0 -1
package/dist/source/DocumentConverterText.d.ts +0 -13
package/dist/source/DocumentConverterText.d.ts.map +0 -1
package/dist/source/MasterDocument.d.ts +0 -27
package/dist/source/MasterDocument.d.ts.map +0 -1
package/dist/source/index.d.ts +0 -10
package/dist/source/index.d.ts.map +0 -1
package/dist/task/DocumentSplitterTask.d.ts +0 -58
package/dist/task/DocumentSplitterTask.d.ts.map +0 -1

package/README.md CHANGED Viewed

@@ -52,7 +52,7 @@ await modelRepo.addModel({
   provider: HF_TRANSFORMERS_ONNX,
   provider_config: {
     pipeline: "text2text-generation",
-    modelPath: "Xenova/LaMini-Flan-T5-783M"
+    model_path: "Xenova/LaMini-Flan-T5-783M"
 });
 // 3. Register provider functions (inline, same thread)
@@ -216,25 +216,6 @@ const result = await task.run();
 // Output: { similarity: 0.85 }
 ```
-### Document Processing Tasks
-#### DocumentSplitterTask
-Splits documents into smaller chunks for processing.
-```typescript
-import { DocumentSplitterTask } from "@workglow/ai";
-const task = new DocumentSplitterTask({
-  document: "Very long document content...",
-  chunkSize: 1000,
-  chunkOverlap: 200,
-});
-const result = await task.run();
-// Output: { chunks: ["chunk1...", "chunk2...", "chunk3..."] }
-```
 ### Model Management Tasks
 #### DownloadModelTask
@@ -415,30 +396,140 @@ const result = await workflow
 console.log("Final similarity score:", result.similarity);
 ```
-## Document Processing
+## RAG (Retrieval-Augmented Generation) Pipelines
+The AI package provides a comprehensive set of tasks for building RAG pipelines. These tasks chain together in workflows without requiring external loops.
+### Document Processing Tasks
+| Task                      | Description                                           |
+| ------------------------- | ----------------------------------------------------- |
+| `StructuralParserTask`    | Parses markdown/text into hierarchical document trees |
+| `TextChunkerTask`         | Splits text into chunks with configurable strategies  |
+| `HierarchicalChunkerTask` | Token-aware chunking that respects document structure |
+| `TopicSegmenterTask`      | Segments text by topic using heuristics or embeddings |
+| `DocumentEnricherTask`    | Adds summaries and entities to document nodes         |
+### Vector and Storage Tasks
-The package includes document processing capabilities:
+| Task                    | Description                              |
+| ----------------------- | ---------------------------------------- |
+| `ChunkToVectorTask`     | Transforms chunks to vector store format |
+| `ChunkVectorUpsertTask` | Stores vectors in a repository           |
+| `ChunkVectorSearchTask` | Searches vectors by similarity           |
+| `VectorQuantizeTask`    | Quantizes vectors for storage efficiency |
+### Retrieval and Generation Tasks
+| Task                          | Description                                   |
+| ----------------------------- | --------------------------------------------- |
+| `QueryExpanderTask`           | Expands queries for better retrieval coverage |
+| `ChunkVectorHybridSearchTask` | Combines vector and full-text search          |
+| `RerankerTask`                | Reranks search results for relevance          |
+| `HierarchyJoinTask`           | Enriches results with parent context          |
+| `ContextBuilderTask`          | Builds context for LLM prompts                |
+| `ChunkRetrievalTask`   | Orchestrates end-to-end retrieval             |
+### Complete RAG Workflow Example
 ```typescript
-import { Document, DocumentConverterMarkdown } from "@workglow/ai";
+import { Workflow } from "@workglow/task-graph";
+import { InMemoryVectorRepository } from "@workglow/storage";
-// Create a document
-const doc = new Document("# My Document\n\nThis is content...", { title: "Sample Doc" });
+const vectorRepo = new InMemoryVectorRepository();
+await vectorRepo.setupDatabase();
-// Convert markdown to structured format
-const converter = new DocumentConverterMarkdown();
-const processedDoc = await converter.convert(doc);
+// Document ingestion - fully chainable, no loops required
+await new Workflow()
+  .structuralParser({
+    text: markdownContent,
+    title: "Documentation",
+    format: "markdown",
+  })
+  .documentEnricher({
+    generateSummaries: true,
+    extractEntities: true,
+  })
+  .hierarchicalChunker({
+    maxTokens: 512,
+    overlap: 50,
+    strategy: "hierarchical",
+  })
+  .textEmbedding({
+    model: "Xenova/all-MiniLM-L6-v2",
+  })
+  .chunkToVector()
+  .vectorStoreUpsert({
+    repository: vectorRepo,
+  })
+  .run();
-// Use with document splitter
-const splitter = new DocumentSplitterTask({
-  document: processedDoc.content,
-  chunkSize: 500,
-  chunkOverlap: 50,
-});
+// Query pipeline
+const answer = await new Workflow()
+  .queryExpander({
+    query: "What is transfer learning?",
+    method: "multi-query",
+    numVariations: 3,
+  })
+  .textEmbedding({
+    model: "Xenova/all-MiniLM-L6-v2",
+  })
+  .vectorStoreSearch({
+    repository: vectorRepo,
+    topK: 10,
+    scoreThreshold: 0.5,
+  })
+  .reranker({
+    query: "What is transfer learning?",
+    topK: 5,
+  })
+  .contextBuilder({
+    format: "markdown",
+    maxLength: 2000,
+  })
+  .textQuestionAnswer({
+    question: "What is transfer learning?",
+    model: "Xenova/LaMini-Flan-T5-783M",
+  })
+  .run();
+```
+### Hierarchical Document Structure
-const chunks = await splitter.run();
+Documents are represented as trees with typed nodes:
+```typescript
+type DocumentNode =
+  | DocumentRootNode // Root of document
+  | SectionNode // Headers, structural sections
+  | ParagraphNode // Text blocks
+  | SentenceNode // Fine-grained (optional)
+  | TopicNode; // Detected topic segments
 ```
+Each node contains:
+- `nodeId` - Deterministic content-based ID
+- `range` - Source character offsets
+- `text` - Content
+- `enrichment` - Summaries, entities, keywords (optional)
+- `children` - Child nodes (for parent nodes)
+### Task Data Flow
+Each task passes through what the next task needs:
+| Task                  | Passes Through           | Adds                                  |
+| --------------------- | ------------------------ | ------------------------------------- |
+| `structuralParser`    | -                        | `doc_id`, `documentTree`, `nodeCount` |
+| `documentEnricher`    | `doc_id`, `documentTree` | `summaryCount`, `entityCount`         |
+| `hierarchicalChunker` | `doc_id`                 | `chunks`, `text[]`, `count`           |
+| `textEmbedding`       | (implicit)               | `vector[]`                            |
+| `chunkToVector`       | -                        | `ids[]`, `vectors[]`, `metadata[]`    |
+| `vectorStoreUpsert`   | -                        | `count`, `ids`                        |
+This design eliminates the need for external loops - the entire pipeline chains together naturally.
 ## Error Handling
 AI tasks include comprehensive error handling:
@@ -466,6 +557,46 @@ try {
 ## Advanced Configuration
+### Model Input Resolution
+AI tasks accept model inputs as either string identifiers or direct `ModelConfig` objects. When a string is provided, the TaskRunner automatically resolves it to a `ModelConfig` before task execution using the `ModelRepository`.
+```typescript
+import { TextGenerationTask } from "@workglow/ai";
+// Using a model ID (resolved from ModelRepository)
+const task1 = new TextGenerationTask({
+  model: "onnx:Xenova/gpt2:q8",
+  prompt: "Generate text",
+});
+// Using a direct ModelConfig object
+const task2 = new TextGenerationTask({
+  model: {
+    model_id: "onnx:Xenova/gpt2:q8",
+    provider: "hf-transformers-onnx",
+    tasks: ["TextGenerationTask"],
+    title: "GPT-2",
+    provider_config: { pipeline: "text-generation" },
+  },
+  prompt: "Generate text",
+});
+// Both approaches work identically
+```
+This resolution is handled by the input resolver system, which inspects schema `format` annotations (like `"model"` or `"model:TextGenerationTask"`) to determine how string values should be resolved.
+### Supported Format Annotations
+| Format                            | Description                              | Resolver                   |
+| --------------------------------- | ---------------------------------------- | -------------------------- |
+| `model`                           | Any AI model configuration               | ModelRepository            |
+| `model:TaskName`                  | Model compatible with specific task type | ModelRepository            |
+| `repository:tabular`              | Tabular data repository                  | TabularStorageRegistry  |
+| `repository:document-node-vector` | Vector storage repository                | VectorRepositoryRegistry   |
+| `repository:document`             | Document repository                      | DocumentRepositoryRegistry |
 ### Custom Model Validation
 Tasks automatically validate that specified models exist and are compatible: