npm - veryfront - Versions diffs - 0.1.99 → 0.1.100 - Mend

veryfront 0.1.99 → 0.1.100

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (18) hide show

package/esm/cli/commands/knowledge/command-help.d.ts.map +1 -1
package/esm/cli/commands/knowledge/command-help.js +3 -2
package/esm/cli/commands/knowledge/command.d.ts +11 -0
package/esm/cli/commands/knowledge/command.d.ts.map +1 -1
package/esm/cli/commands/knowledge/command.js +27 -5
package/esm/cli/commands/knowledge/parser-source.d.ts.map +1 -1
package/esm/cli/commands/knowledge/parser-source.js +163 -94
package/esm/deno.js +2 -2
package/esm/src/utils/version.d.ts +1 -1
package/esm/src/utils/version.d.ts.map +1 -1
package/esm/src/utils/version.js +1 -1
package/package.json +2 -2
package/src/cli/commands/knowledge/command-help.ts +3 -2
package/src/cli/commands/knowledge/command.ts +41 -5
package/src/cli/commands/knowledge/parser-source.ts +163 -94
package/src/deno.js +2 -2
package/src/src/transforms/esm/lexer.ts +1 -1
package/src/src/utils/version.ts +1 -1

package/esm/cli/commands/knowledge/command-help.d.ts.map CHANGED Viewed

	@@ -1 +1 @@
1	- {"version":3,"file":"command-help.d.ts","sourceRoot":"","sources":["../../../../src/cli/commands/knowledge/command-help.ts"],"names":[],"mappings":"AAAA,OAAO,KAAK,EAAE,WAAW,EAAE,MAAM,qBAAqB,CAAC;AAEvD,eAAO,MAAM,aAAa,EAAE,~~WAuC3B~~,CAAC"}
1	+ {"version":3,"file":"command-help.d.ts","sourceRoot":"","sources":["../../../../src/cli/commands/knowledge/command-help.ts"],"names":[],"mappings":"AAAA,OAAO,KAAK,EAAE,WAAW,EAAE,MAAM,qBAAqB,CAAC;AAEvD,eAAO,MAAM,aAAa,EAAE,WAwC3B,CAAC"}

package/esm/cli/commands/knowledge/command-help.js CHANGED Viewed

@@ -34,7 +34,8 @@ export const knowledgeHelp = {
         "Primary subcommand: ingest",
         "`uploads/...` means a remote project upload; use `./uploads/...` or `/workspace/uploads/...` to force a local file",
         "`ingest` orchestrates upload resolution, parsing, and project file writes",
-        "Requires python3; non-text formats also require the supported parser packages unless you run inside the Veryfront sandbox",
-        "The Veryfront sandbox image includes `kreuzberg`, and knowledge ingest falls back to the built-in parser when `kreuzberg` is unavailable or extraction fails",
+        "Requires python3; install `docling` locally to match the sandbox parsing path for PDF, Office, and HTML sources",
+        "Supported PDF, Office, and HTML sources are parsed through `docling` when it is available",
+        "The Veryfront sandbox image includes `docling`, and knowledge ingest falls back to the built-in parser when `docling` is unavailable or extraction fails",
     ],
 };

package/esm/cli/commands/knowledge/command.d.ts CHANGED Viewed

@@ -17,6 +17,12 @@ export interface KnowledgeParserResult {
     stats: Record<string, unknown>;
     warnings: string[];
 }
+export interface KnowledgeParserInput {
+    filePath: string;
+    description?: string;
+    slug?: string;
+    sourceReference?: string;
+}
 type KnowledgeSource = {
     kind: "local";
     input: string;
@@ -128,6 +134,11 @@ export declare function runKnowledgeParser(input: {
     sourceReference?: string;
     env?: Record<string, string>;
 }): Promise<KnowledgeParserResult>;
+export declare function runKnowledgeParsers(input: {
+    files: KnowledgeParserInput[];
+    outputDir: string;
+    env?: Record<string, string>;
+}): Promise<KnowledgeParserResult[]>;
 export declare function collectKnowledgeSources(options: Pick<KnowledgeIngestOptions, "sources" | "path" | "all" | "recursive">, deps: {
     client: ApiClient;
     projectSlug: string;

package/esm/cli/commands/knowledge/command.d.ts.map CHANGED Viewed

	@@ -1 +1 @@
1	- {"version":3,"file":"command.d.ts","sourceRoot":"","sources":["../../../../src/cli/commands/knowledge/command.ts"],"names":[],"mappings":"AACA,OAAO,EAAE,CAAC,EAAE,MAAM,KAAK,CAAC;AAKxB,OAAO,EAAE,KAAK,SAAS,EAA0C,MAAM,wBAAwB,CAAC;AAChG,OAAO,KAAK,EAAE,UAAU,EAAE,MAAM,uBAAuB,CAAC;AAIxD,OAAO,EAAuB,KAAK,MAAM,EAAgB,MAAM,6BAA6B,CAAC;AAG7F,OAAO,EAEL,KAAK,+BAA+B,EAEpC,KAAK,yBAAyB,EAC9B,KAAK,gCAAgC,EACtC,MAAM,aAAa,CAAC;AAErB,MAAM,WAAW,qBAAqB;IACpC,OAAO,EAAE,IAAI,CAAC;IACd,WAAW,EAAE,MAAM,CAAC;IACpB,eAAe,EAAE,MAAM,CAAC;IACxB,WAAW,EAAE,MAAM,CAAC;IACpB,IAAI,EAAE,MAAM,CAAC;IACb,mBAAmB,EAAE,MAAM,CAAC;IAC5B,sBAAsB,EAAE,MAAM,CAAC;IAC/B,WAAW,EAAE,MAAM,CAAC;IACpB,KAAK,EAAE,MAAM,CAAC;IACd,OAAO,EAAE,MAAM,CAAC;IAChB,KAAK,EAAE,MAAM,CAAC,MAAM,EAAE,OAAO,CAAC,CAAC;IAC/B,QAAQ,EAAE,MAAM,EAAE,CAAC;CACpB;AAED,KAAK,eAAe,GAChB;IAAE,IAAI,EAAE,OAAO,CAAC;IAAC,KAAK,EAAE,MAAM,CAAC;IAAC,SAAS,EAAE,MAAM,CAAA;CAAE,GACnD;IAAE,IAAI,EAAE,QAAQ,CAAC;IAAC,KAAK,EAAE,MAAM,CAAC;IAAC,UAAU,EAAE,MAAM,CAAC;IAAC,SAAS,EAAE,MAAM,CAAA;CAAE,CAAC;AAE7E,MAAM,WAAW,yBAAyB;IACxC,OAAO,EAAE,eAAe,EAAE,CAAC;IAC3B,OAAO,EAAE,gCAAgC,EAAE,CAAC;CAC7C;AAED,KAAK,cAAc,GAAG;IAAE,UAAU,EAAE,MAAM,CAAC;IAAC,SAAS,EAAE,MAAM,CAAC;IAAC,KAAK,CAAC,EAAE,MAAM,CAAA;CAAE,CAAC;AAIhF,QAAA,MAAM,yBAAyB;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;EAmD7B,CAAC;AAEH,MAAM,MAAM,sBAAsB,GAAG,CAAC,CAAC,KAAK,CAAC,OAAO,yBAAyB,CAAC,CAAC;AAoD/E,wBAAgB,wBAAwB,CACtC,IAAI,EAAE,UAAU,GACf,CAAC,CAAC,mBAAmB,CAAC,OAAO,EAAE,sBAAsB,CAAC,CAexD;AAED,wBAAgB,2BAA2B,CAAC,SAAS,EAAE,MAAM,GAAG,MAAM,CAMrE;AAED,wBAAgB,0BAA0B,CAAC,SAAS,EAAE,MAAM,GAAG,MAAM,CAGpE;AAED,wBAAgB,2BAA2B,CAAC,UAAU,EAAE,MAAM,GAAG,MAAM,CAKtE;AAcD,wBAAgB,iBAAiB,CAAC,KAAK,EAAE,MAAM,GAAG,OAAO,CAGxD;AAyBD,wBAAgB,qBAAqB,CAAC,IAAI,EAAE,MAAM,GAAG,MAAM,CAE1D;AAMD,wBAAgB,iCAAiC,CAAC,SAAS,EAAE,MAAM,GAAG,MAAM,CAE3E;AAwID,wBAAgB,kBAAkB,CAAC,MAAM,EAAE,eAAe,EAAE,KAAK,EAAE,MAAM,GAAG,MAAM,CAkCjF;AACD,wBAAgB,iBAAiB,CAAC,OAAO,EAAE,eAAe,EAAE,GAAG,MAAM,EAAE,CAQtE;AAED,wBAAgB,yBAAyB,CACvC,UAAU,EAAE,MAAM,EAClB,SAAS,EAAE,MAAM,EACjB,aAAa,EAAE,MAAM,GACpB,MAAM,CAQR;AAED,wBAAgB,2BAA2B,CAAC,KAAK,EAAE;IACjD,MAAM,EAAE,MAAM,CAAC;IACf,eAAe,EAAE,MAAM,CAAC;IACxB,UAAU,EAAE,MAAM,CAAC;IACnB,UAAU,EAAE,MAAM,CAAC;IACnB,MAAM,EAAE,IAAI,CAAC,qBAAqB,EAAE,MAAM,GAAG,OAAO,GAAG,UAAU,GAAG,aAAa,GAAG,SAAS,CAAC,CAAC;CAChG,GAAG,yBAAyB,CAY5B;AAED,wBAAsB,kBAAkB,CAAC,KAAK,EAAE;IAC9C,QAAQ,EAAE,MAAM,CAAC;IACjB,SAAS,EAAE,MAAM,CAAC;IAClB,WAAW,CAAC,EAAE,MAAM,CAAC;IACrB,IAAI,CAAC,EAAE,MAAM,CAAC;IACd,eAAe,CAAC,EAAE,MAAM,CAAC;IACzB,GAAG,CAAC,EAAE,MAAM,CAAC,MAAM,EAAE,MAAM,CAAC,CAAC;CAC9B,GAAG,OAAO,CAAC,qBAAqB,CAAC,~~CAuDjC~~;AAED,wBAAsB,uBAAuB,CAC3C,OAAO,EAAE,IAAI,CAAC,sBAAsB,EAAE,SAAS,GAAG,MAAM,GAAG,KAAK,GAAG,WAAW,CAAC,EAC/E,IAAI,EAAE;IACJ,MAAM,EAAE,SAAS,CAAC;IAClB,WAAW,EAAE,MAAM,CAAC;IACpB,eAAe,EAAE,CAAC,WAAW,EAAE,MAAM,EAAE,KAAK,OAAO,CAAC,cAAc,EAAE,CAAC,CAAC;CACvE,GACA,OAAO,CAAC,yBAAyB,CAAC,CAuJpC;AAED,wBAAsB,qBAAqB,CACzC,OAAO,EAAE,eAAe,EAAE,EAC1B,OAAO,EAAE,sBAAsB,EAC/B,IAAI,EAAE;IACJ,MAAM,EAAE,SAAS,CAAC;IAClB,WAAW,EAAE,MAAM,CAAC;IACpB,SAAS,EAAE,MAAM,CAAC;IAClB,SAAS,EAAE,OAAO,kBAAkB,CAAC;IACrC,mBAAmB,EAAE,CAAC,UAAU,EAAE,MAAM,EAAE,SAAS,EAAE,MAAM,KAAK,OAAO,CAAC;QAAE,IAAI,EAAE,MAAM,CAAA;KAAE,CAAC,CAAC;IAC1F,WAAW,CAAC,EAAE,MAAM,GAAG,IAAI,CAAC;CAC7B,GACA,OAAO,CAAC;IACT,QAAQ,EAAE,yBAAyB,EAAE,CAAC;IACtC,MAAM,EAAE,+BAA+B,EAAE,CAAC;CAC3C,CAAC,CAsGD;AAED,wBAAsB,gBAAgB,CAAC,IAAI,EAAE,UAAU,GAAG,OAAO,CAAC,IAAI,CAAC,CAwItE"}
1	+ {"version":3,"file":"command.d.ts","sourceRoot":"","sources":["../../../../src/cli/commands/knowledge/command.ts"],"names":[],"mappings":"AACA,OAAO,EAAE,CAAC,EAAE,MAAM,KAAK,CAAC;AAKxB,OAAO,EAAE,KAAK,SAAS,EAA0C,MAAM,wBAAwB,CAAC;AAChG,OAAO,KAAK,EAAE,UAAU,EAAE,MAAM,uBAAuB,CAAC;AAIxD,OAAO,EAAuB,KAAK,MAAM,EAAgB,MAAM,6BAA6B,CAAC;AAG7F,OAAO,EAEL,KAAK,+BAA+B,EAEpC,KAAK,yBAAyB,EAC9B,KAAK,gCAAgC,EACtC,MAAM,aAAa,CAAC;AAErB,MAAM,WAAW,qBAAqB;IACpC,OAAO,EAAE,IAAI,CAAC;IACd,WAAW,EAAE,MAAM,CAAC;IACpB,eAAe,EAAE,MAAM,CAAC;IACxB,WAAW,EAAE,MAAM,CAAC;IACpB,IAAI,EAAE,MAAM,CAAC;IACb,mBAAmB,EAAE,MAAM,CAAC;IAC5B,sBAAsB,EAAE,MAAM,CAAC;IAC/B,WAAW,EAAE,MAAM,CAAC;IACpB,KAAK,EAAE,MAAM,CAAC;IACd,OAAO,EAAE,MAAM,CAAC;IAChB,KAAK,EAAE,MAAM,CAAC,MAAM,EAAE,OAAO,CAAC,CAAC;IAC/B,QAAQ,EAAE,MAAM,EAAE,CAAC;CACpB;AAED,MAAM,WAAW,oBAAoB;IACnC,QAAQ,EAAE,MAAM,CAAC;IACjB,WAAW,CAAC,EAAE,MAAM,CAAC;IACrB,IAAI,CAAC,EAAE,MAAM,CAAC;IACd,eAAe,CAAC,EAAE,MAAM,CAAC;CAC1B;AACD,KAAK,eAAe,GAChB;IAAE,IAAI,EAAE,OAAO,CAAC;IAAC,KAAK,EAAE,MAAM,CAAC;IAAC,SAAS,EAAE,MAAM,CAAA;CAAE,GACnD;IAAE,IAAI,EAAE,QAAQ,CAAC;IAAC,KAAK,EAAE,MAAM,CAAC;IAAC,UAAU,EAAE,MAAM,CAAC;IAAC,SAAS,EAAE,MAAM,CAAA;CAAE,CAAC;AAE7E,MAAM,WAAW,yBAAyB;IACxC,OAAO,EAAE,eAAe,EAAE,CAAC;IAC3B,OAAO,EAAE,gCAAgC,EAAE,CAAC;CAC7C;AAED,KAAK,cAAc,GAAG;IAAE,UAAU,EAAE,MAAM,CAAC;IAAC,SAAS,EAAE,MAAM,CAAC;IAAC,KAAK,CAAC,EAAE,MAAM,CAAA;CAAE,CAAC;AAIhF,QAAA,MAAM,yBAAyB;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;EAmD7B,CAAC;AAEH,MAAM,MAAM,sBAAsB,GAAG,CAAC,CAAC,KAAK,CAAC,OAAO,yBAAyB,CAAC,CAAC;AAoD/E,wBAAgB,wBAAwB,CACtC,IAAI,EAAE,UAAU,GACf,CAAC,CAAC,mBAAmB,CAAC,OAAO,EAAE,sBAAsB,CAAC,CAexD;AAED,wBAAgB,2BAA2B,CAAC,SAAS,EAAE,MAAM,GAAG,MAAM,CAMrE;AAED,wBAAgB,0BAA0B,CAAC,SAAS,EAAE,MAAM,GAAG,MAAM,CAGpE;AAED,wBAAgB,2BAA2B,CAAC,UAAU,EAAE,MAAM,GAAG,MAAM,CAKtE;AAcD,wBAAgB,iBAAiB,CAAC,KAAK,EAAE,MAAM,GAAG,OAAO,CAGxD;AAyBD,wBAAgB,qBAAqB,CAAC,IAAI,EAAE,MAAM,GAAG,MAAM,CAE1D;AAMD,wBAAgB,iCAAiC,CAAC,SAAS,EAAE,MAAM,GAAG,MAAM,CAE3E;AAwID,wBAAgB,kBAAkB,CAAC,MAAM,EAAE,eAAe,EAAE,KAAK,EAAE,MAAM,GAAG,MAAM,CAkCjF;AACD,wBAAgB,iBAAiB,CAAC,OAAO,EAAE,eAAe,EAAE,GAAG,MAAM,EAAE,CAQtE;AAED,wBAAgB,yBAAyB,CACvC,UAAU,EAAE,MAAM,EAClB,SAAS,EAAE,MAAM,EACjB,aAAa,EAAE,MAAM,GACpB,MAAM,CAQR;AAED,wBAAgB,2BAA2B,CAAC,KAAK,EAAE;IACjD,MAAM,EAAE,MAAM,CAAC;IACf,eAAe,EAAE,MAAM,CAAC;IACxB,UAAU,EAAE,MAAM,CAAC;IACnB,UAAU,EAAE,MAAM,CAAC;IACnB,MAAM,EAAE,IAAI,CAAC,qBAAqB,EAAE,MAAM,GAAG,OAAO,GAAG,UAAU,GAAG,aAAa,GAAG,SAAS,CAAC,CAAC;CAChG,GAAG,yBAAyB,CAY5B;AAED,wBAAsB,kBAAkB,CAAC,KAAK,EAAE;IAC9C,QAAQ,EAAE,MAAM,CAAC;IACjB,SAAS,EAAE,MAAM,CAAC;IAClB,WAAW,CAAC,EAAE,MAAM,CAAC;IACrB,IAAI,CAAC,EAAE,MAAM,CAAC;IACd,eAAe,CAAC,EAAE,MAAM,CAAC;IACzB,GAAG,CAAC,EAAE,MAAM,CAAC,MAAM,EAAE,MAAM,CAAC,CAAC;CAC9B,GAAG,OAAO,CAAC,qBAAqB,CAAC,CAiBjC;AAED,wBAAsB,mBAAmB,CAAC,KAAK,EAAE;IAC/C,KAAK,EAAE,oBAAoB,EAAE,CAAC;IAC9B,SAAS,EAAE,MAAM,CAAC;IAClB,GAAG,CAAC,EAAE,MAAM,CAAC,MAAM,EAAE,MAAM,CAAC,CAAC;CAC9B,GAAG,OAAO,CAAC,qBAAqB,EAAE,CAAC,CA8DnC;AAED,wBAAsB,uBAAuB,CAC3C,OAAO,EAAE,IAAI,CAAC,sBAAsB,EAAE,SAAS,GAAG,MAAM,GAAG,KAAK,GAAG,WAAW,CAAC,EAC/E,IAAI,EAAE;IACJ,MAAM,EAAE,SAAS,CAAC;IAClB,WAAW,EAAE,MAAM,CAAC;IACpB,eAAe,EAAE,CAAC,WAAW,EAAE,MAAM,EAAE,KAAK,OAAO,CAAC,cAAc,EAAE,CAAC,CAAC;CACvE,GACA,OAAO,CAAC,yBAAyB,CAAC,CAuJpC;AAED,wBAAsB,qBAAqB,CACzC,OAAO,EAAE,eAAe,EAAE,EAC1B,OAAO,EAAE,sBAAsB,EAC/B,IAAI,EAAE;IACJ,MAAM,EAAE,SAAS,CAAC;IAClB,WAAW,EAAE,MAAM,CAAC;IACpB,SAAS,EAAE,MAAM,CAAC;IAClB,SAAS,EAAE,OAAO,kBAAkB,CAAC;IACrC,mBAAmB,EAAE,CAAC,UAAU,EAAE,MAAM,EAAE,SAAS,EAAE,MAAM,KAAK,OAAO,CAAC;QAAE,IAAI,EAAE,MAAM,CAAA;KAAE,CAAC,CAAC;IAC1F,WAAW,CAAC,EAAE,MAAM,GAAG,IAAI,CAAC;CAC7B,GACA,OAAO,CAAC;IACT,QAAQ,EAAE,yBAAyB,EAAE,CAAC;IACtC,MAAM,EAAE,+BAA+B,EAAE,CAAC;CAC3C,CAAC,CAsGD;AAED,wBAAsB,gBAAgB,CAAC,IAAI,EAAE,UAAU,GAAG,OAAO,CAAC,IAAI,CAAC,CAwItE"}

package/esm/cli/commands/knowledge/command.js CHANGED Viewed

@@ -348,6 +348,25 @@ export function createKnowledgeIngestResult(input) {
     };
 }
 export async function runKnowledgeParser(input) {
+    const [result] = await runKnowledgeParsers({
+        files: [{
+                filePath: input.filePath,
+                description: input.description,
+                slug: input.slug,
+                sourceReference: input.sourceReference,
+            }],
+        outputDir: input.outputDir,
+        env: input.env,
+    });
+    if (!result) {
+        throw new Error("knowledge ingest parser returned no results");
+    }
+    return result;
+}
+export async function runKnowledgeParsers(input) {
+    if (!input.files.length) {
+        return [];
+    }
     const tempDir = await dntShim.Deno.makeTempDir({ prefix: "veryfront-knowledge-parser-" });
     const inputJsonPath = `${tempDir}/input.json`;
     const outputJsonPath = `${tempDir}/output.json`;
@@ -355,11 +374,13 @@ export async function runKnowledgeParser(input) {
     try {
         try {
             await dntShim.Deno.writeTextFile(inputJsonPath, JSON.stringify({
-                file_path: input.filePath,
+                files: input.files.map((file) => ({
+                    file_path: file.filePath,
+                    description: file.description,
+                    slug: file.slug,
+                    source_reference: file.sourceReference,
+                })),
                 output_dir: input.outputDir,
-                description: input.description,
-                slug: input.slug,
-                source_reference: input.sourceReference,
             }));
             await dntShim.Deno.writeTextFile(scriptPath, knowledgeIngestPythonSource);
             let result;
@@ -382,7 +403,8 @@ export async function runKnowledgeParser(input) {
                 throw new Error(stderr || "parser exited unsuccessfully");
             }
             const raw = await dntShim.Deno.readTextFile(outputJsonPath);
-            return JSON.parse(raw);
+            const parsed = JSON.parse(raw);
+            return Array.isArray(parsed) ? parsed : [parsed];
         }
         catch (error) {
             if (error instanceof Error && error.message.startsWith("knowledge ingest parser failed")) {

package/esm/cli/commands/knowledge/parser-source.d.ts.map CHANGED Viewed

	@@ -1 +1 @@
1	- {"version":3,"file":"parser-source.d.ts","sourceRoot":"","sources":["../../../../src/cli/commands/knowledge/parser-source.ts"],"names":[],"mappings":"AAAA,eAAO,MAAM,2BAA2B,~~QA2jBvC~~,CAAC"}
1	+ {"version":3,"file":"parser-source.d.ts","sourceRoot":"","sources":["../../../../src/cli/commands/knowledge/parser-source.ts"],"names":[],"mappings":"AAAA,eAAO,MAAM,2BAA2B,QAgoBvC,CAAC"}

package/esm/cli/commands/knowledge/parser-source.js CHANGED Viewed

@@ -2,8 +2,10 @@ export const knowledgeIngestPythonSource = String.raw `#!/usr/bin/env python3
 import argparse
 import csv
 import json
+import os
 import re
 import subprocess
+import tempfile
 from datetime import date
 from pathlib import Path
 from typing import Any, Optional
@@ -14,6 +16,26 @@ def yaml_quote(value: Any) -> str:
 CODE_FENCE = chr(96) * 3
+DEFAULT_DOCLING_TIMEOUT_SECONDS = 900.0
+def read_timeout_seconds(env_name: str, default_seconds: float) -> float:
+    raw_value = os.environ.get(env_name)
+    if raw_value is None or raw_value.strip() == "":
+        return default_seconds
+    try:
+        timeout_seconds = float(raw_value)
+    except ValueError:
+        return default_seconds
+    return timeout_seconds if timeout_seconds > 0 else default_seconds
+DOCLING_TIMEOUT_SECONDS = read_timeout_seconds(
+    "VERYFRONT_KNOWLEDGE_DOCLING_TIMEOUT_SECONDS",
+    DEFAULT_DOCLING_TIMEOUT_SECONDS,
+)
 TEXT_FILE_EXTENSIONS = {
     ".c",
     ".cc",
@@ -119,100 +141,68 @@ def build_frontmatter(source: str, source_type: str, description: str) -> str:
     ])
-def metadata_int(metadata: dict[str, Any], *keys: str) -> Optional[int]:
-    for key in keys:
-        value = metadata.get(key)
-        if isinstance(value, int) and not isinstance(value, bool):
-            return value
-    return None
-def metadata_string_list(metadata: dict[str, Any], *keys: str) -> Optional[list[str]]:
-    for key in keys:
-        value = metadata.get(key)
-        if isinstance(value, list) and all(isinstance(item, str) for item in value):
-            return value
-    return None
-def build_kreuzberg_stats(source_type: str, content: str, metadata: dict[str, Any]):
-    stats: dict[str, Any] = {
+def build_docling_stats(content: str):
+    return {
         "characters": len(content),
         "lines": len(content.splitlines()) if content else 0,
-        "engine": "kreuzberg",
+        "engine": "docling",
     }
-    if isinstance(metadata.get("mime_type"), str):
-        stats["mime_type"] = metadata["mime_type"]
-    if source_type == "pdf":
-        stats["pages"] = metadata_int(metadata, "page_count") or 0
-        stats["tables"] = metadata_int(metadata, "table_count") or 0
-    elif source_type in {"xlsx", "xls"}:
-        stats["sheets"] = metadata_int(metadata, "sheet_count") or 0
-        stats["rows"] = metadata_int(metadata, "row_count") or 0
-        stats["sheet_names"] = metadata_string_list(metadata, "sheet_names") or []
-    elif source_type == "docx":
-        stats["paragraphs"] = metadata_int(metadata, "paragraph_count") or 0
-        stats["tables"] = metadata_int(metadata, "table_count") or 0
-    elif source_type == "pptx":
-        stats["slides"] = metadata_int(metadata, "slide_count", "page_count") or 0
-        stats["tables"] = metadata_int(metadata, "table_count") or 0
-    elif source_type == "html":
-        stats["tables"] = metadata_int(metadata, "table_count") or 0
-    return stats
-def parse_with_kreuzberg(path: str, source_type: str):
-    warnings: list[str] = []
-    completed = subprocess.run(
-        [
-            "kreuzberg",
-            "extract",
-            path,
-            "--format",
-            "json",
-            "--output-format",
-            "markdown",
-        ],
-        capture_output=True,
-        text=True,
-        check=False,
-    )
-    if completed.returncode != 0:
-        detail = completed.stderr.strip() or completed.stdout.strip() or f"exit code {completed.returncode}"
-        raise RuntimeError(f"kreuzberg extract failed: {detail}")
+def run_docling_markdown(path: str):
+    with tempfile.TemporaryDirectory(prefix="veryfront-docling-") as output_dir:
+        try:
+            completed = subprocess.run(
+                [
+                    "docling",
+                    path,
+                    "--to",
+                    "md",
+                    "--image-export-mode",
+                    "placeholder",
+                    "--output",
+                    output_dir,
+                ],
+                capture_output=True,
+                text=True,
+                check=False,
+                timeout=DOCLING_TIMEOUT_SECONDS,
+            )
+        except subprocess.TimeoutExpired as error:
+            raise RuntimeError(
+                f"docling conversion timed out after {DOCLING_TIMEOUT_SECONDS:g}s"
+            ) from error
-    try:
-        payload = json.loads(completed.stdout)
-    except json.JSONDecodeError as error:
-        raise RuntimeError(f"kreuzberg extract returned invalid JSON: {error}") from error
+        if completed.returncode != 0:
+            detail = completed.stderr.strip() or completed.stdout.strip() or f"exit code {completed.returncode}"
+            raise RuntimeError(f"docling conversion failed: {detail}")
-    content = payload.get("content", "")
-    if not isinstance(content, str):
-        raise RuntimeError("kreuzberg extract did not return string content")
+        markdown_files = sorted(Path(output_dir).rglob("*.md"))
+        if not markdown_files:
+            raise RuntimeError("docling conversion did not produce a markdown file")
-    metadata = payload.get("metadata") if isinstance(payload.get("metadata"), dict) else {}
-    normalized_content = clean_text(content)
-    stats = build_kreuzberg_stats(source_type, normalized_content, metadata)
+        return markdown_files[0].read_text(encoding="utf-8")
+def parse_with_docling(path: str):
+    warnings: list[str] = []
+    normalized_content = clean_text(run_docling_markdown(path))
+    stats = build_docling_stats(normalized_content)
     return normalized_content or "_No extractable text found in document._", stats, warnings
-def prefer_kreuzberg(source_type: str, fallback_parser):
+def prefer_docling(fallback_parser):
     def parser(path: str):
         try:
-            return parse_with_kreuzberg(path, source_type)
+            return parse_with_docling(path)
         except FileNotFoundError as error:
-            if getattr(error, "filename", "") == "kreuzberg":
+            if getattr(error, "filename", "") == "docling":
                 return fallback_parser(path)
             raise
         except RuntimeError as error:
             content, stats, warnings = fallback_parser(path)
             warnings.append(
-                "kreuzberg extraction failed; fell back to the built-in parser: "
+                "docling conversion failed; fell back to the built-in parser: "
                 + str(error)
             )
             return content, stats, warnings
@@ -220,6 +210,10 @@ def prefer_kreuzberg(source_type: str, fallback_parser):
     return parser
+def build_parser(fallback_parser, prefers_docling: bool):
+    return prefer_docling(fallback_parser) if prefers_docling else fallback_parser
 def parse_csv_like(path: str, delimiter: str = ","):
     warnings: list[str] = []
     with open(path, newline="", encoding="utf-8-sig") as file:
@@ -451,36 +445,41 @@ def parse_json(path: str):
     return f"{CODE_FENCE}json\n{rendered}\n{CODE_FENCE}", stats, warnings
-def select_parser(path: Path):
+def select_parser_definition(path: Path):
     ext = path.suffix.lower()
     name = path.name.lower()
     if ext == ".pdf":
-        return "pdf", prefer_kreuzberg("pdf", parse_pdf)
+        return "pdf", parse_pdf, True
     if ext in {".csv", ".tsv"}:
         delimiter = "\t" if ext == ".tsv" else ","
-        return ext.lstrip("."), lambda file_path: parse_csv_like(file_path, delimiter)
+        return ext.lstrip("."), lambda file_path: parse_csv_like(file_path, delimiter), False
     if ext in {".xlsx", ".xls"}:
         source_type = ext.lstrip(".")
-        return source_type, prefer_kreuzberg(source_type, parse_excel)
+        return source_type, parse_excel, True
     if ext == ".docx":
-        return "docx", prefer_kreuzberg("docx", parse_docx)
+        return "docx", parse_docx, True
     if ext == ".pptx":
-        return "pptx", prefer_kreuzberg("pptx", parse_pptx)
+        return "pptx", parse_pptx, True
     if ext in {".html", ".htm"}:
-        return "html", prefer_kreuzberg("html", parse_html)
+        return "html", parse_html, True
     if ext in {".txt", ".md", ".mdx"}:
-        return ext.lstrip("."), parse_text
+        return ext.lstrip("."), parse_text, False
     if ext == ".json":
-        return "json", parse_json
+        return "json", parse_json, False
     if ext in TEXT_FILE_EXTENSIONS:
-        return ext.lstrip("."), parse_text
+        return ext.lstrip("."), parse_text, False
     if not ext and name in TEXT_FILE_NAMES:
-        return "text", parse_text
+        return "text", parse_text, False
     raise ValueError(f"Unsupported file type: {ext}")
+def select_parser(path: Path):
+    source_type, fallback_parser, prefers_docling = select_parser_definition(path)
+    return source_type, build_parser(fallback_parser, prefers_docling)
 def build_summary(source_type: str, stats: dict[str, Any]) -> str:
-    if stats.get("engine") == "kreuzberg":
+    if stats.get("engine") == "docling":
         return f"Converted {source_type.upper()} to markdown ({stats.get('characters', 0)} chars)."
     if source_type in {"csv", "tsv"}:
         return f"Parsed {stats.get('rows', 0)} rows across {stats.get('columns', 0)} columns."
@@ -540,6 +539,69 @@ def ingest_document_to_knowledge(file_path: str, output_dir: Optional[str] = Non
     }
+def ingest_documents_to_knowledge(documents: list[dict[str, Any]], output_dir: Optional[str] = None):
+    output_root = Path(output_dir or "/workspace/knowledge")
+    output_root.mkdir(parents=True, exist_ok=True)
+    prepared_documents: list[dict[str, Any]] = []
+    for index, document in enumerate(documents):
+        file_path = document["file_path"]
+        path = Path(file_path)
+        if not path.exists():
+            raise FileNotFoundError(f"File not found: {file_path}")
+        slug = document.get("slug") or slugify(path.stem)
+        source_type, fallback_parser, prefers_docling = select_parser_definition(path)
+        prepared_documents.append({
+            "index": index,
+            "path": path,
+            "slug": slug,
+            "description": document.get("description"),
+            "source_reference": document.get("source_reference"),
+            "source_type": source_type,
+            "fallback_parser": fallback_parser,
+            "prefers_docling": prefers_docling,
+        })
+    results = []
+    for document in prepared_documents:
+        parser = build_parser(
+            document["fallback_parser"],
+            document["prefers_docling"],
+        )
+        content, stats, warnings = parser(str(document["path"]))
+        content = clean_text(content)
+        resolved_description = document["description"] or f"Parsed from {document['path'].name}"
+        title = titleize_filename(document["path"])
+        frontmatter = build_frontmatter(
+            document["source_reference"] or document["path"].name,
+            document["source_type"],
+            resolved_description,
+        )
+        markdown = f"{frontmatter}\n\n# {title}\n\n{content}\n"
+        output_path = output_root / f"{document['slug']}.md"
+        output_path.write_text(markdown, encoding="utf-8")
+        results.append({
+            "success": True,
+            "source_path": str(document["path"]),
+            "source_filename": document["path"].name,
+            "source_type": document["source_type"],
+            "slug": document["slug"],
+            "sandbox_output_path": str(output_path),
+            "suggested_project_path": f"knowledge/{document['slug']}.md",
+            "description": resolved_description,
+            "title": title,
+            "summary": build_summary(document["source_type"], stats),
+            "stats": stats,
+            "warnings": warnings,
+        })
+    return results
 def main():
     parser = argparse.ArgumentParser(description="Convert a local document into knowledge-base markdown")
     parser.add_argument("--input-json", required=True)
@@ -548,20 +610,27 @@ def main():
     try:
         payload = json.loads(Path(args.input_json).read_text(encoding="utf-8"))
-        result = ingest_document_to_knowledge(
-            file_path=payload["file_path"],
-            output_dir=payload.get("output_dir"),
-            description=payload.get("description"),
-            slug=payload.get("slug"),
-            source_reference=payload.get("source_reference"),
-        )
+        files_payload = payload.get("files")
+        if isinstance(files_payload, list):
+            result = ingest_documents_to_knowledge(
+                documents=files_payload,
+                output_dir=payload.get("output_dir"),
+            )
+        else:
+            result = ingest_document_to_knowledge(
+                file_path=payload["file_path"],
+                output_dir=payload.get("output_dir"),
+                description=payload.get("description"),
+                slug=payload.get("slug"),
+                source_reference=payload.get("source_reference"),
+            )
     except ModuleNotFoundError as error:
         missing_package = error.name or "required package"
         raise SystemExit(
             "Missing Python package '"
             + missing_package
             + "'. Install knowledge parser dependencies with: "
-            + "pip install pandas openpyxl xlrd pdfplumber python-docx python-pptx beautifulsoup4 lxml"
+            + "pip install docling pandas openpyxl xlrd pdfplumber python-docx python-pptx beautifulsoup4 lxml"
         )
     Path(args.output_json).write_text(json.dumps(result, ensure_ascii=False, indent=2), encoding="utf-8")

package/esm/deno.js CHANGED Viewed

@@ -1,6 +1,6 @@
 export default {
     "name": "veryfront",
-    "version": "0.1.99",
+    "version": "0.1.100",
     "license": "Apache-2.0",
     "nodeModulesDir": "auto",
     "exclude": [
@@ -237,7 +237,7 @@ export default {
         "rehype-stringify": "npm:rehype-stringify@10.0.1",
         "esbuild": "npm:esbuild@0.27.4",
         "esbuild/mod.js": "npm:esbuild@0.27.4",
-        "es-module-lexer": "npm:es-module-lexer@1.5.0",
+        "es-module-lexer": "npm:es-module-lexer@2.0.0",
         "gray-matter": "npm:gray-matter@4.0.3",
         "zod": "npm:zod@3.25.76",
         "mime-types": "npm:mime-types@2.1.35",

package/esm/src/utils/version.d.ts CHANGED Viewed

@@ -1,4 +1,4 @@
-export declare const VERSION = "0.1.99";
+export declare const VERSION = "0.1.100";
 export declare function normalizeVeryfrontVersion(version: string | undefined): string | undefined;
 export declare function resolveRuntimeVersion(options?: {
     veryfrontVersion?: string;

package/esm/src/utils/version.d.ts.map CHANGED Viewed

	@@ -1 +1 @@
1	- {"version":3,"file":"version.d.ts","sourceRoot":"","sources":["../../../src/src/utils/version.ts"],"names":[],"mappings":"AAKA,eAAO,MAAM,OAAO,~~WAAW~~,CAAC;~~AAEhC~~,wBAAgB,yBAAyB,CAAC,OAAO,EAAE,MAAM,GAAG,SAAS,GAAG,MAAM,GAAG,SAAS,CAGzF;AAUD,wBAAgB,qBAAqB,CAAC,OAAO,GAAE;IAC7C,gBAAgB,CAAC,EAAE,MAAM,CAAC;IAC1B,cAAc,CAAC,EAAE,MAAM,CAAC;IACxB,WAAW,CAAC,EAAE,MAAM,CAAC;IACrB,eAAe,CAAC,EAAE,MAAM,CAAC;CACrB,GAAG,MAAM,CAKd;AAED,eAAO,MAAM,eAAe,QAK1B,CAAC;AAEH,eAAO,MAAM,iBAAiB,EAAE,MAAmB,CAAC;AAEpD,MAAM,WAAW,YAAY;IAC3B,SAAS,EAAE,MAAM,CAAC;IAClB,WAAW,EAAE,MAAM,CAAC;IACpB,cAAc,CAAC,EAAE,MAAM,CAAC;CACzB;AAED,wBAAgB,kBAAkB,CAAC,gBAAgB,CAAC,EAAE,MAAM,GAAG,YAAY,CAM1E"}
1	+ {"version":3,"file":"version.d.ts","sourceRoot":"","sources":["../../../src/src/utils/version.ts"],"names":[],"mappings":"AAKA,eAAO,MAAM,OAAO,YAAY,CAAC;AAEjC,wBAAgB,yBAAyB,CAAC,OAAO,EAAE,MAAM,GAAG,SAAS,GAAG,MAAM,GAAG,SAAS,CAGzF;AAUD,wBAAgB,qBAAqB,CAAC,OAAO,GAAE;IAC7C,gBAAgB,CAAC,EAAE,MAAM,CAAC;IAC1B,cAAc,CAAC,EAAE,MAAM,CAAC;IACxB,WAAW,CAAC,EAAE,MAAM,CAAC;IACrB,eAAe,CAAC,EAAE,MAAM,CAAC;CACrB,GAAG,MAAM,CAKd;AAED,eAAO,MAAM,eAAe,QAK1B,CAAC;AAEH,eAAO,MAAM,iBAAiB,EAAE,MAAmB,CAAC;AAEpD,MAAM,WAAW,YAAY;IAC3B,SAAS,EAAE,MAAM,CAAC;IAClB,WAAW,EAAE,MAAM,CAAC;IACpB,cAAc,CAAC,EAAE,MAAM,CAAC;CACzB;AAED,wBAAgB,kBAAkB,CAAC,gBAAgB,CAAC,EAAE,MAAM,GAAG,YAAY,CAM1E"}

package/esm/src/utils/version.js CHANGED Viewed

@@ -2,7 +2,7 @@ import denoConfig from "../../deno.js";
 import { getEnv } from "../platform/compat/process.js";
 // Keep in sync with deno.json version.
 // scripts/release.ts updates this constant during releases.
-export const VERSION = "0.1.99";
+export const VERSION = "0.1.100";
 export function normalizeVeryfrontVersion(version) {
     if (!version)
         return undefined;

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "veryfront",
-  "version": "0.1.99",
+  "version": "0.1.100",
   "description": "The simplest way to build AI-powered apps",
   "keywords": [
     "react",
@@ -148,7 +148,7 @@
     "ai": "6.0.134",
     "class-variance-authority": "0.7.1",
     "clsx": "2.1.1",
-    "es-module-lexer": "1.5.0",
+    "es-module-lexer": "2.0.0",
     "esbuild": "0.27.4",
     "github-slugger": "2.0.0",
     "gray-matter": "4.0.3",

package/src/cli/commands/knowledge/command-help.ts CHANGED Viewed

@@ -36,7 +36,8 @@ export const knowledgeHelp: CommandHelp = {
     "Primary subcommand: ingest",
     "`uploads/...` means a remote project upload; use `./uploads/...` or `/workspace/uploads/...` to force a local file",
     "`ingest` orchestrates upload resolution, parsing, and project file writes",
-    "Requires python3; non-text formats also require the supported parser packages unless you run inside the Veryfront sandbox",
-    "The Veryfront sandbox image includes `kreuzberg`, and knowledge ingest falls back to the built-in parser when `kreuzberg` is unavailable or extraction fails",
+    "Requires python3; install `docling` locally to match the sandbox parsing path for PDF, Office, and HTML sources",
+    "Supported PDF, Office, and HTML sources are parsed through `docling` when it is available",
+    "The Veryfront sandbox image includes `docling`, and knowledge ingest falls back to the built-in parser when `docling` is unavailable or extraction fails",
   ],
 };

package/src/cli/commands/knowledge/command.ts CHANGED Viewed

@@ -35,6 +35,12 @@ export interface KnowledgeParserResult {
   warnings: string[];
 }
+export interface KnowledgeParserInput {
+  filePath: string;
+  description?: string;
+  slug?: string;
+  sourceReference?: string;
+}
 type KnowledgeSource =
   | { kind: "local"; input: string; localPath: string }
   | { kind: "upload"; input: string; uploadPath: string; localPath: string };
@@ -465,6 +471,33 @@ export async function runKnowledgeParser(input: {
   sourceReference?: string;
   env?: Record<string, string>;
 }): Promise<KnowledgeParserResult> {
+  const [result] = await runKnowledgeParsers({
+    files: [{
+      filePath: input.filePath,
+      description: input.description,
+      slug: input.slug,
+      sourceReference: input.sourceReference,
+    }],
+    outputDir: input.outputDir,
+    env: input.env,
+  });
+  if (!result) {
+    throw new Error("knowledge ingest parser returned no results");
+  }
+  return result;
+}
+export async function runKnowledgeParsers(input: {
+  files: KnowledgeParserInput[];
+  outputDir: string;
+  env?: Record<string, string>;
+}): Promise<KnowledgeParserResult[]> {
+  if (!input.files.length) {
+    return [];
+  }
   const tempDir = await dntShim.Deno.makeTempDir({ prefix: "veryfront-knowledge-parser-" });
   const inputJsonPath = `${tempDir}/input.json`;
   const outputJsonPath = `${tempDir}/output.json`;
@@ -475,11 +508,13 @@ export async function runKnowledgeParser(input: {
       await dntShim.Deno.writeTextFile(
         inputJsonPath,
         JSON.stringify({
-          file_path: input.filePath,
+          files: input.files.map((file) => ({
+            file_path: file.filePath,
+            description: file.description,
+            slug: file.slug,
+            source_reference: file.sourceReference,
+          })),
           output_dir: input.outputDir,
-          description: input.description,
-          slug: input.slug,
-          source_reference: input.sourceReference,
         }),
       );
       await dntShim.Deno.writeTextFile(scriptPath, knowledgeIngestPythonSource);
@@ -507,7 +542,8 @@ export async function runKnowledgeParser(input: {
       }
       const raw = await dntShim.Deno.readTextFile(outputJsonPath);
-      return JSON.parse(raw) as KnowledgeParserResult;
+      const parsed = JSON.parse(raw) as KnowledgeParserResult | KnowledgeParserResult[];
+      return Array.isArray(parsed) ? parsed : [parsed];
     } catch (error) {
       if (error instanceof Error && error.message.startsWith("knowledge ingest parser failed")) {
         throw error;

package/src/cli/commands/knowledge/parser-source.ts CHANGED Viewed

@@ -2,8 +2,10 @@ export const knowledgeIngestPythonSource = String.raw`#!/usr/bin/env python3
 import argparse
 import csv
 import json
+import os
 import re
 import subprocess
+import tempfile
 from datetime import date
 from pathlib import Path
 from typing import Any, Optional
@@ -14,6 +16,26 @@ def yaml_quote(value: Any) -> str:
 CODE_FENCE = chr(96) * 3
+DEFAULT_DOCLING_TIMEOUT_SECONDS = 900.0
+def read_timeout_seconds(env_name: str, default_seconds: float) -> float:
+    raw_value = os.environ.get(env_name)
+    if raw_value is None or raw_value.strip() == "":
+        return default_seconds
+    try:
+        timeout_seconds = float(raw_value)
+    except ValueError:
+        return default_seconds
+    return timeout_seconds if timeout_seconds > 0 else default_seconds
+DOCLING_TIMEOUT_SECONDS = read_timeout_seconds(
+    "VERYFRONT_KNOWLEDGE_DOCLING_TIMEOUT_SECONDS",
+    DEFAULT_DOCLING_TIMEOUT_SECONDS,
+)
 TEXT_FILE_EXTENSIONS = {
     ".c",
     ".cc",
@@ -119,100 +141,68 @@ def build_frontmatter(source: str, source_type: str, description: str) -> str:
     ])
-def metadata_int(metadata: dict[str, Any], *keys: str) -> Optional[int]:
-    for key in keys:
-        value = metadata.get(key)
-        if isinstance(value, int) and not isinstance(value, bool):
-            return value
-    return None
-def metadata_string_list(metadata: dict[str, Any], *keys: str) -> Optional[list[str]]:
-    for key in keys:
-        value = metadata.get(key)
-        if isinstance(value, list) and all(isinstance(item, str) for item in value):
-            return value
-    return None
-def build_kreuzberg_stats(source_type: str, content: str, metadata: dict[str, Any]):
-    stats: dict[str, Any] = {
+def build_docling_stats(content: str):
+    return {
         "characters": len(content),
         "lines": len(content.splitlines()) if content else 0,
-        "engine": "kreuzberg",
+        "engine": "docling",
     }
-    if isinstance(metadata.get("mime_type"), str):
-        stats["mime_type"] = metadata["mime_type"]
-    if source_type == "pdf":
-        stats["pages"] = metadata_int(metadata, "page_count") or 0
-        stats["tables"] = metadata_int(metadata, "table_count") or 0
-    elif source_type in {"xlsx", "xls"}:
-        stats["sheets"] = metadata_int(metadata, "sheet_count") or 0
-        stats["rows"] = metadata_int(metadata, "row_count") or 0
-        stats["sheet_names"] = metadata_string_list(metadata, "sheet_names") or []
-    elif source_type == "docx":
-        stats["paragraphs"] = metadata_int(metadata, "paragraph_count") or 0
-        stats["tables"] = metadata_int(metadata, "table_count") or 0
-    elif source_type == "pptx":
-        stats["slides"] = metadata_int(metadata, "slide_count", "page_count") or 0
-        stats["tables"] = metadata_int(metadata, "table_count") or 0
-    elif source_type == "html":
-        stats["tables"] = metadata_int(metadata, "table_count") or 0
-    return stats
-def parse_with_kreuzberg(path: str, source_type: str):
-    warnings: list[str] = []
-    completed = subprocess.run(
-        [
-            "kreuzberg",
-            "extract",
-            path,
-            "--format",
-            "json",
-            "--output-format",
-            "markdown",
-        ],
-        capture_output=True,
-        text=True,
-        check=False,
-    )
-    if completed.returncode != 0:
-        detail = completed.stderr.strip() or completed.stdout.strip() or f"exit code {completed.returncode}"
-        raise RuntimeError(f"kreuzberg extract failed: {detail}")
+def run_docling_markdown(path: str):
+    with tempfile.TemporaryDirectory(prefix="veryfront-docling-") as output_dir:
+        try:
+            completed = subprocess.run(
+                [
+                    "docling",
+                    path,
+                    "--to",
+                    "md",
+                    "--image-export-mode",
+                    "placeholder",
+                    "--output",
+                    output_dir,
+                ],
+                capture_output=True,
+                text=True,
+                check=False,
+                timeout=DOCLING_TIMEOUT_SECONDS,
+            )
+        except subprocess.TimeoutExpired as error:
+            raise RuntimeError(
+                f"docling conversion timed out after {DOCLING_TIMEOUT_SECONDS:g}s"
+            ) from error
-    try:
-        payload = json.loads(completed.stdout)
-    except json.JSONDecodeError as error:
-        raise RuntimeError(f"kreuzberg extract returned invalid JSON: {error}") from error
+        if completed.returncode != 0:
+            detail = completed.stderr.strip() or completed.stdout.strip() or f"exit code {completed.returncode}"
+            raise RuntimeError(f"docling conversion failed: {detail}")
-    content = payload.get("content", "")
-    if not isinstance(content, str):
-        raise RuntimeError("kreuzberg extract did not return string content")
+        markdown_files = sorted(Path(output_dir).rglob("*.md"))
+        if not markdown_files:
+            raise RuntimeError("docling conversion did not produce a markdown file")
-    metadata = payload.get("metadata") if isinstance(payload.get("metadata"), dict) else {}
-    normalized_content = clean_text(content)
-    stats = build_kreuzberg_stats(source_type, normalized_content, metadata)
+        return markdown_files[0].read_text(encoding="utf-8")
+def parse_with_docling(path: str):
+    warnings: list[str] = []
+    normalized_content = clean_text(run_docling_markdown(path))
+    stats = build_docling_stats(normalized_content)
     return normalized_content or "_No extractable text found in document._", stats, warnings
-def prefer_kreuzberg(source_type: str, fallback_parser):
+def prefer_docling(fallback_parser):
     def parser(path: str):
         try:
-            return parse_with_kreuzberg(path, source_type)
+            return parse_with_docling(path)
         except FileNotFoundError as error:
-            if getattr(error, "filename", "") == "kreuzberg":
+            if getattr(error, "filename", "") == "docling":
                 return fallback_parser(path)
             raise
         except RuntimeError as error:
             content, stats, warnings = fallback_parser(path)
             warnings.append(
-                "kreuzberg extraction failed; fell back to the built-in parser: "
+                "docling conversion failed; fell back to the built-in parser: "
                 + str(error)
             )
             return content, stats, warnings
@@ -220,6 +210,10 @@ def prefer_kreuzberg(source_type: str, fallback_parser):
     return parser
+def build_parser(fallback_parser, prefers_docling: bool):
+    return prefer_docling(fallback_parser) if prefers_docling else fallback_parser
 def parse_csv_like(path: str, delimiter: str = ","):
     warnings: list[str] = []
     with open(path, newline="", encoding="utf-8-sig") as file:
@@ -451,36 +445,41 @@ def parse_json(path: str):
     return f"{CODE_FENCE}json\n{rendered}\n{CODE_FENCE}", stats, warnings
-def select_parser(path: Path):
+def select_parser_definition(path: Path):
     ext = path.suffix.lower()
     name = path.name.lower()
     if ext == ".pdf":
-        return "pdf", prefer_kreuzberg("pdf", parse_pdf)
+        return "pdf", parse_pdf, True
     if ext in {".csv", ".tsv"}:
         delimiter = "\t" if ext == ".tsv" else ","
-        return ext.lstrip("."), lambda file_path: parse_csv_like(file_path, delimiter)
+        return ext.lstrip("."), lambda file_path: parse_csv_like(file_path, delimiter), False
     if ext in {".xlsx", ".xls"}:
         source_type = ext.lstrip(".")
-        return source_type, prefer_kreuzberg(source_type, parse_excel)
+        return source_type, parse_excel, True
     if ext == ".docx":
-        return "docx", prefer_kreuzberg("docx", parse_docx)
+        return "docx", parse_docx, True
     if ext == ".pptx":
-        return "pptx", prefer_kreuzberg("pptx", parse_pptx)
+        return "pptx", parse_pptx, True
     if ext in {".html", ".htm"}:
-        return "html", prefer_kreuzberg("html", parse_html)
+        return "html", parse_html, True
     if ext in {".txt", ".md", ".mdx"}:
-        return ext.lstrip("."), parse_text
+        return ext.lstrip("."), parse_text, False
     if ext == ".json":
-        return "json", parse_json
+        return "json", parse_json, False
     if ext in TEXT_FILE_EXTENSIONS:
-        return ext.lstrip("."), parse_text
+        return ext.lstrip("."), parse_text, False
     if not ext and name in TEXT_FILE_NAMES:
-        return "text", parse_text
+        return "text", parse_text, False
     raise ValueError(f"Unsupported file type: {ext}")
+def select_parser(path: Path):
+    source_type, fallback_parser, prefers_docling = select_parser_definition(path)
+    return source_type, build_parser(fallback_parser, prefers_docling)
 def build_summary(source_type: str, stats: dict[str, Any]) -> str:
-    if stats.get("engine") == "kreuzberg":
+    if stats.get("engine") == "docling":
         return f"Converted {source_type.upper()} to markdown ({stats.get('characters', 0)} chars)."
     if source_type in {"csv", "tsv"}:
         return f"Parsed {stats.get('rows', 0)} rows across {stats.get('columns', 0)} columns."
@@ -540,6 +539,69 @@ def ingest_document_to_knowledge(file_path: str, output_dir: Optional[str] = Non
     }
+def ingest_documents_to_knowledge(documents: list[dict[str, Any]], output_dir: Optional[str] = None):
+    output_root = Path(output_dir or "/workspace/knowledge")
+    output_root.mkdir(parents=True, exist_ok=True)
+    prepared_documents: list[dict[str, Any]] = []
+    for index, document in enumerate(documents):
+        file_path = document["file_path"]
+        path = Path(file_path)
+        if not path.exists():
+            raise FileNotFoundError(f"File not found: {file_path}")
+        slug = document.get("slug") or slugify(path.stem)
+        source_type, fallback_parser, prefers_docling = select_parser_definition(path)
+        prepared_documents.append({
+            "index": index,
+            "path": path,
+            "slug": slug,
+            "description": document.get("description"),
+            "source_reference": document.get("source_reference"),
+            "source_type": source_type,
+            "fallback_parser": fallback_parser,
+            "prefers_docling": prefers_docling,
+        })
+    results = []
+    for document in prepared_documents:
+        parser = build_parser(
+            document["fallback_parser"],
+            document["prefers_docling"],
+        )
+        content, stats, warnings = parser(str(document["path"]))
+        content = clean_text(content)
+        resolved_description = document["description"] or f"Parsed from {document['path'].name}"
+        title = titleize_filename(document["path"])
+        frontmatter = build_frontmatter(
+            document["source_reference"] or document["path"].name,
+            document["source_type"],
+            resolved_description,
+        )
+        markdown = f"{frontmatter}\n\n# {title}\n\n{content}\n"
+        output_path = output_root / f"{document['slug']}.md"
+        output_path.write_text(markdown, encoding="utf-8")
+        results.append({
+            "success": True,
+            "source_path": str(document["path"]),
+            "source_filename": document["path"].name,
+            "source_type": document["source_type"],
+            "slug": document["slug"],
+            "sandbox_output_path": str(output_path),
+            "suggested_project_path": f"knowledge/{document['slug']}.md",
+            "description": resolved_description,
+            "title": title,
+            "summary": build_summary(document["source_type"], stats),
+            "stats": stats,
+            "warnings": warnings,
+        })
+    return results
 def main():
     parser = argparse.ArgumentParser(description="Convert a local document into knowledge-base markdown")
     parser.add_argument("--input-json", required=True)
@@ -548,20 +610,27 @@ def main():
     try:
         payload = json.loads(Path(args.input_json).read_text(encoding="utf-8"))
-        result = ingest_document_to_knowledge(
-            file_path=payload["file_path"],
-            output_dir=payload.get("output_dir"),
-            description=payload.get("description"),
-            slug=payload.get("slug"),
-            source_reference=payload.get("source_reference"),
-        )
+        files_payload = payload.get("files")
+        if isinstance(files_payload, list):
+            result = ingest_documents_to_knowledge(
+                documents=files_payload,
+                output_dir=payload.get("output_dir"),
+            )
+        else:
+            result = ingest_document_to_knowledge(
+                file_path=payload["file_path"],
+                output_dir=payload.get("output_dir"),
+                description=payload.get("description"),
+                slug=payload.get("slug"),
+                source_reference=payload.get("source_reference"),
+            )
     except ModuleNotFoundError as error:
         missing_package = error.name or "required package"
         raise SystemExit(
             "Missing Python package '"
             + missing_package
             + "'. Install knowledge parser dependencies with: "
-            + "pip install pandas openpyxl xlrd pdfplumber python-docx python-pptx beautifulsoup4 lxml"
+            + "pip install docling pandas openpyxl xlrd pdfplumber python-docx python-pptx beautifulsoup4 lxml"
         )
     Path(args.output_json).write_text(json.dumps(result, ensure_ascii=False, indent=2), encoding="utf-8")

package/src/deno.js CHANGED Viewed

@@ -1,6 +1,6 @@
 export default {
   "name": "veryfront",
-  "version": "0.1.99",
+  "version": "0.1.100",
   "license": "Apache-2.0",
   "nodeModulesDir": "auto",
   "exclude": [
@@ -237,7 +237,7 @@ export default {
     "rehype-stringify": "npm:rehype-stringify@10.0.1",
     "esbuild": "npm:esbuild@0.27.4",
     "esbuild/mod.js": "npm:esbuild@0.27.4",
-    "es-module-lexer": "npm:es-module-lexer@1.5.0",
+    "es-module-lexer": "npm:es-module-lexer@2.0.0",
     "gray-matter": "npm:gray-matter@4.0.3",
     "zod": "npm:zod@3.25.76",
     "mime-types": "npm:mime-types@2.1.35",

package/src/src/transforms/esm/lexer.ts CHANGED Viewed

@@ -60,7 +60,7 @@ export type ImportSpecifier = {
   ss: number; // Start of import statement
   se: number; // End of import statement
   d: number; // > -1 if dynamic import
-  a: number; // assert index
+  a: number; // import attribute index
 };
 function logParseError(error: unknown, code: string): void {

package/src/src/utils/version.ts CHANGED Viewed

@@ -3,7 +3,7 @@ import { getEnv } from "../platform/compat/process.js";
 // Keep in sync with deno.json version.
 // scripts/release.ts updates this constant during releases.
-export const VERSION = "0.1.99";
+export const VERSION = "0.1.100";
 export function normalizeVeryfrontVersion(version: string | undefined): string | undefined {
   if (!version) return undefined;