npm - @struktur/sdk - Versions diffs - 2.1.1 → 2.2.0 - Mend

@struktur/sdk 2.1.1 → 2.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (105) hide show

package/dist/index.js +4111 -0
package/dist/index.js.map +1 -0
package/dist/parsers.js +492 -0
package/dist/parsers.js.map +1 -0
package/dist/strategies.js +2435 -0
package/dist/strategies.js.map +1 -0
package/package.json +25 -13
package/src/agent-cli-integration.test.ts +0 -47
package/src/agent-export.test.ts +0 -17
package/src/agent-tool-labels.test.ts +0 -50
package/src/artifacts/AGENTS.md +0 -16
package/src/artifacts/fileToArtifact.test.ts +0 -37
package/src/artifacts/fileToArtifact.ts +0 -44
package/src/artifacts/input.test.ts +0 -243
package/src/artifacts/input.ts +0 -360
package/src/artifacts/providers.test.ts +0 -19
package/src/artifacts/providers.ts +0 -7
package/src/artifacts/urlToArtifact.test.ts +0 -23
package/src/artifacts/urlToArtifact.ts +0 -19
package/src/auth/AGENTS.md +0 -11
package/src/auth/config.test.ts +0 -132
package/src/auth/config.ts +0 -186
package/src/auth/tokens.test.ts +0 -58
package/src/auth/tokens.ts +0 -229
package/src/chunking/AGENTS.md +0 -11
package/src/chunking/ArtifactBatcher.test.ts +0 -22
package/src/chunking/ArtifactBatcher.ts +0 -110
package/src/chunking/ArtifactSplitter.test.ts +0 -38
package/src/chunking/ArtifactSplitter.ts +0 -151
package/src/debug/AGENTS.md +0 -79
package/src/debug/logger.test.ts +0 -244
package/src/debug/logger.ts +0 -211
package/src/extract.test.ts +0 -22
package/src/extract.ts +0 -150
package/src/fields.test.ts +0 -681
package/src/fields.ts +0 -246
package/src/index.test.ts +0 -20
package/src/index.ts +0 -110
package/src/llm/AGENTS.md +0 -9
package/src/llm/LLMClient.test.ts +0 -394
package/src/llm/LLMClient.ts +0 -264
package/src/llm/RetryingRunner.test.ts +0 -174
package/src/llm/RetryingRunner.ts +0 -270
package/src/llm/message.test.ts +0 -42
package/src/llm/message.ts +0 -47
package/src/llm/models.test.ts +0 -82
package/src/llm/models.ts +0 -190
package/src/llm/resolveModel.ts +0 -86
package/src/merge/AGENTS.md +0 -6
package/src/merge/Deduplicator.test.ts +0 -108
package/src/merge/Deduplicator.ts +0 -45
package/src/merge/SmartDataMerger.test.ts +0 -177
package/src/merge/SmartDataMerger.ts +0 -56
package/src/parsers/AGENTS.md +0 -58
package/src/parsers/collect.test.ts +0 -56
package/src/parsers/collect.ts +0 -31
package/src/parsers/index.ts +0 -6
package/src/parsers/mime.test.ts +0 -91
package/src/parsers/mime.ts +0 -137
package/src/parsers/npm.ts +0 -26
package/src/parsers/pdf.test.ts +0 -394
package/src/parsers/pdf.ts +0 -194
package/src/parsers/runner.test.ts +0 -95
package/src/parsers/runner.ts +0 -177
package/src/parsers/types.ts +0 -29
package/src/prompts/AGENTS.md +0 -8
package/src/prompts/DeduplicationPrompt.test.ts +0 -41
package/src/prompts/DeduplicationPrompt.ts +0 -37
package/src/prompts/ExtractorPrompt.test.ts +0 -21
package/src/prompts/ExtractorPrompt.ts +0 -72
package/src/prompts/ParallelMergerPrompt.test.ts +0 -8
package/src/prompts/ParallelMergerPrompt.ts +0 -37
package/src/prompts/SequentialExtractorPrompt.test.ts +0 -24
package/src/prompts/SequentialExtractorPrompt.ts +0 -82
package/src/prompts/formatArtifacts.test.ts +0 -39
package/src/prompts/formatArtifacts.ts +0 -46
package/src/strategies/AGENTS.md +0 -6
package/src/strategies/DoublePassAutoMergeStrategy.test.ts +0 -53
package/src/strategies/DoublePassAutoMergeStrategy.ts +0 -410
package/src/strategies/DoublePassStrategy.test.ts +0 -48
package/src/strategies/DoublePassStrategy.ts +0 -266
package/src/strategies/ParallelAutoMergeStrategy.test.ts +0 -152
package/src/strategies/ParallelAutoMergeStrategy.ts +0 -345
package/src/strategies/ParallelStrategy.test.ts +0 -61
package/src/strategies/ParallelStrategy.ts +0 -208
package/src/strategies/SequentialAutoMergeStrategy.test.ts +0 -66
package/src/strategies/SequentialAutoMergeStrategy.ts +0 -325
package/src/strategies/SequentialStrategy.test.ts +0 -53
package/src/strategies/SequentialStrategy.ts +0 -142
package/src/strategies/SimpleStrategy.test.ts +0 -46
package/src/strategies/SimpleStrategy.ts +0 -94
package/src/strategies/concurrency.test.ts +0 -16
package/src/strategies/concurrency.ts +0 -14
package/src/strategies/index.test.ts +0 -20
package/src/strategies/index.ts +0 -7
package/src/strategies/utils.test.ts +0 -76
package/src/strategies/utils.ts +0 -95
package/src/tokenization.test.ts +0 -119
package/src/tokenization.ts +0 -71
package/src/types.test.ts +0 -25
package/src/types.ts +0 -174
package/src/validation/AGENTS.md +0 -7
package/src/validation/validator.test.ts +0 -204
package/src/validation/validator.ts +0 -90
package/tsconfig.json +0 -22

package/src/llm/LLMClient.test.ts DELETED Viewed

@@ -1,394 +0,0 @@
-import { test, expect, mock } from "bun:test";
-import type { ModelMessage } from "ai";
-type GenerateTextParams = {
-  model: unknown;
-  output: unknown;
-  system: string;
-  messages: ModelMessage[];
-  providerOptions?: unknown;
-};
-let generateTextImpl: (params: GenerateTextParams) => Promise<{
-  output: unknown;
-  usage?: Record<string, unknown>;
-}>;
-const calls: GenerateTextParams[] = [];
-mock.module("ai", () => ({
-  generateText: (params: GenerateTextParams) => {
-    calls.push(params);
-    return generateTextImpl(params);
-  },
-  Output: {
-    object: (config: unknown) => config,
-  },
-  jsonSchema: (schema: unknown) => ({ wrapped: schema }),
-}));
-const { generateStructured } = await import("./LLMClient");
-test("generateStructured maps prompt/completion token usage", async () => {
-  calls.length = 0;
-  generateTextImpl = async () => ({
-    output: { title: "ok" },
-    usage: { promptTokens: 2, completionTokens: 3, totalTokens: 9 },
-  });
-  const result = await generateStructured({
-    model: {},
-    schema: { type: "object" },
-    system: "sys",
-    user: "prompt",
-  });
-  expect(result.usage).toEqual({ inputTokens: 2, outputTokens: 3, totalTokens: 9 });
-  expect(calls[0]?.output).toEqual({ schema: { wrapped: { type: "object" } }, name: "extract" });
-  expect(calls[0]?.messages[0]).toEqual({ role: "user", content: "prompt" });
-});
-test("generateStructured uses explicit messages and totals usage", async () => {
-  calls.length = 0;
-  const messages: ModelMessage[] = [{ role: "user", content: "custom" }];
-  generateTextImpl = async (params) => ({
-    output: { title: "ok" },
-    usage: { inputTokens: 4, outputTokens: 6 },
-  });
-  const result = await generateStructured({
-    model: {},
-    schema: { type: "object" },
-    system: "sys",
-    user: "fallback",
-    messages,
-  });
-  expect(calls[0]?.messages).toBe(messages);
-  expect(result.usage).toEqual({ inputTokens: 4, outputTokens: 6, totalTokens: 10 });
-});
-test("generateStructured passes OpenRouter provider preference", async () => {
-  calls.length = 0;
-  generateTextImpl = async () => ({
-    output: { title: "ok" },
-    usage: { inputTokens: 1, outputTokens: 1 },
-  });
-  const model = { __openrouter_provider: "cerebras" };
-  await generateStructured({
-    model,
-    schema: { type: "object" },
-    system: "sys",
-    user: "prompt",
-  });
-  expect(calls[0]?.providerOptions).toEqual({
-    openrouter: {
-      provider: {
-        order: ["cerebras"],
-      },
-    },
-  });
-});
-test("generateStructured does not add openrouter providerOptions without preference", async () => {
-  calls.length = 0;
-  generateTextImpl = async () => ({
-    output: { title: "ok" },
-    usage: { inputTokens: 1, outputTokens: 1 },
-  });
-  await generateStructured({
-    model: {},
-    schema: { type: "object" },
-    system: "sys",
-    user: "prompt",
-  });
-  expect(calls[0]?.providerOptions).not.toHaveProperty("openrouter");
-});
-test("generateStructured uses inputTokens/outputTokens when promptTokens missing", async () => {
-  calls.length = 0;
-  generateTextImpl = async () => ({
-    output: { title: "ok" },
-    usage: { inputTokens: 5, outputTokens: 7 },
-  });
-  const result = await generateStructured({
-    model: {},
-    schema: { type: "object" },
-    system: "sys",
-    user: "prompt",
-  });
-  expect(result.usage).toEqual({ inputTokens: 5, outputTokens: 7, totalTokens: 12 });
-});
-test("generateStructured uses totalTokens from response when present", async () => {
-  calls.length = 0;
-  generateTextImpl = async () => ({
-    output: { title: "ok" },
-    usage: { inputTokens: 3, outputTokens: 4, totalTokens: 100 },
-  });
-  const result = await generateStructured({
-    model: {},
-    schema: { type: "object" },
-    system: "sys",
-    user: "prompt",
-  });
-  expect(result.usage.totalTokens).toBe(100);
-});
-test("generateStructured handles missing usage", async () => {
-  calls.length = 0;
-  generateTextImpl = async () => ({
-    output: { title: "ok" },
-  });
-  const result = await generateStructured({
-    model: {},
-    schema: { type: "object" },
-    system: "sys",
-    user: "prompt",
-  });
-  expect(result.usage).toEqual({ inputTokens: 0, outputTokens: 0, totalTokens: 0 });
-});
-test("generateStructured uses custom schema name", async () => {
-  calls.length = 0;
-  generateTextImpl = async () => ({
-    output: { title: "ok" },
-    usage: {},
-  });
-  await generateStructured({
-    model: {},
-    schema: { type: "object" },
-    schemaName: "custom_schema",
-    system: "sys",
-    user: "prompt",
-  });
-  expect(calls[0]?.output).toHaveProperty("name", "custom_schema");
-});
-test("generateStructured uses custom schema description", async () => {
-  calls.length = 0;
-  generateTextImpl = async () => ({
-    output: { title: "ok" },
-    usage: {},
-  });
-  await generateStructured({
-    model: {},
-    schema: { type: "object" },
-    schemaDescription: "Extract data",
-    system: "sys",
-    user: "prompt",
-  });
-  expect(calls[0]?.output).toHaveProperty("description", "Extract data");
-});
-test("generateStructured shows friendly error when model doesn't support images", async () => {
-  calls.length = 0;
-  generateTextImpl = async () => {
-    throw {
-      responseBody: '{"error":{"message":"No endpoints found that support image input","code":404}}',
-      statusCode: 404,
-    };
-  };
-  expect(
-    async () =>
-      await generateStructured({
-        model: { modelId: "meta-llama/llama-3.1-8b-instruct" },
-        schema: { type: "object" },
-        system: "sys",
-        user: [{ type: "text", text: "prompt" }, { type: "image", image: "base64data" }],
-      }),
-  ).toThrow(
-    'Model "meta-llama/llama-3.1-8b-instruct" does not support image input. Please use a model that supports images (e.g., gpt-4o, claude-3-5-sonnet, gemini-1.5-pro) or remove the --images and --screenshots flags.',
-  );
-});
-test("generateStructured rethrows other API errors", async () => {
-  calls.length = 0;
-  const originalError = new Error("Some other error");
-  generateTextImpl = async () => {
-    throw originalError;
-  };
-  expect(
-    async () =>
-      await generateStructured({
-        model: {},
-        schema: { type: "object" },
-        system: "sys",
-        user: "prompt",
-      }),
-  ).toThrow("Some other error");
-});
-test("generateStructured shows friendly error for internal server error", async () => {
-  calls.length = 0;
-  generateTextImpl = async () => {
-    throw {
-      statusCode: 200,
-      responseBody: undefined,
-      data: {
-        code: 500,
-        message: "Internal Server Error",
-        type: null,
-        param: null,
-      },
-    };
-  };
-  expect(
-    async () =>
-      await generateStructured({
-        model: { modelId: "openai/gpt-5-mini" },
-        schema: { type: "object" },
-        system: "sys",
-        user: "prompt",
-      }),
-  ).toThrow(
-    'Provider error for model "openai/gpt-5-mini": Internal server error. The model or provider may be experiencing issues. Please try again or use a different model.',
-  );
-});
-test("generateStructured shows friendly error for authentication failure", async () => {
-  calls.length = 0;
-  generateTextImpl = async () => {
-    throw {
-      statusCode: 401,
-      responseBody: '{"error":{"message":"Invalid API key"}}',
-      data: {
-        code: 401,
-        message: "Invalid API key",
-      },
-    };
-  };
-  expect(
-    async () =>
-      await generateStructured({
-        model: { modelId: "gpt-4o" },
-        schema: { type: "object" },
-        system: "sys",
-        user: "prompt",
-      }),
-  ).toThrow(
-    'Authentication failed for model "gpt-4o". Please check your API key is valid and has the necessary permissions.',
-  );
-});
-test("generateStructured shows friendly error for rate limit", async () => {
-  calls.length = 0;
-  generateTextImpl = async () => {
-    throw {
-      statusCode: 429,
-      responseBody: '{"error":{"message":"Rate limit exceeded"}}',
-      data: {
-        code: 429,
-        message: "Rate limit exceeded",
-      },
-    };
-  };
-  expect(
-    async () =>
-      await generateStructured({
-        model: { modelId: "claude-3-5-sonnet" },
-        schema: { type: "object" },
-        system: "sys",
-        user: "prompt",
-      }),
-  ).toThrow(
-    'Rate limit exceeded for model "claude-3-5-sonnet". Please wait a moment and try again, or use a different model.',
-  );
-});
-test("generateStructured shows friendly error for model not found", async () => {
-  calls.length = 0;
-  generateTextImpl = async () => {
-    throw {
-      statusCode: 404,
-      responseBody: '{"error":{"message":"Model not found"}}',
-      data: {
-        code: 404,
-        message: "Model not found",
-      },
-    };
-  };
-  expect(
-    async () =>
-      await generateStructured({
-        model: { modelId: "nonexistent-model" },
-        schema: { type: "object" },
-        system: "sys",
-        user: "prompt",
-      }),
-  ).toThrow(
-    'Model "nonexistent-model" not found or unavailable. Model not found Please check the model name or try a different model.',
-  );
-});
-test("generateStructured shows friendly error for access denied", async () => {
-  calls.length = 0;
-  generateTextImpl = async () => {
-    throw {
-      statusCode: 403,
-      responseBody: '{"error":{"message":"Access denied"}}',
-      data: {
-        code: 403,
-        message: "Access denied",
-      },
-    };
-  };
-  expect(
-    async () =>
-      await generateStructured({
-        model: { modelId: "gpt-4-turbo" },
-        schema: { type: "object" },
-        system: "sys",
-        user: "prompt",
-      }),
-  ).toThrow(
-    'Access denied for model "gpt-4-turbo". Your API key may not have access to this model. Please check your subscription or try a different model.',
-  );
-});
-test("generateStructured shows generic provider error message", async () => {
-  calls.length = 0;
-  generateTextImpl = async () => {
-    throw {
-      statusCode: 400,
-      responseBody: '{"error":{"message":"Context length exceeded"}}',
-      data: {
-        code: 400,
-        message: "Context length exceeded",
-      },
-    };
-  };
-  expect(
-    async () =>
-      await generateStructured({
-        model: { modelId: "gpt-3.5-turbo" },
-        schema: { type: "object" },
-        system: "sys",
-        user: "prompt",
-      }),
-  ).toThrow(
-    'Provider error for model "gpt-3.5-turbo": Context length exceeded',
-  );
-});

package/src/llm/LLMClient.ts DELETED Viewed

@@ -1,264 +0,0 @@
-import { generateText, Output, jsonSchema, type ModelMessage } from "ai";
-import type { AnyJSONSchema, Usage, TelemetryAdapter } from "../types";
-import type { UserContent } from "./message";
-type GenerateTextParams = Parameters<typeof generateText>[0];
-type ModelType = GenerateTextParams extends { model: infer M } ? M : unknown;
-type MessageType = Array<ModelMessage>;
-export type StructuredRequest<T> = {
-  model: ModelType | unknown;
-  system: string;
-  user: UserContent;
-  messages?: MessageType;
-  schema: unknown;
-  schemaName?: string;
-  schemaDescription?: string;
-  strict?: boolean;
-  /**
-   * Telemetry adapter for tracing LLM calls
-   */
-  telemetry?: TelemetryAdapter;
-  /**
-   * Parent span for creating hierarchical traces
-   */
-  parentSpan?: { id: string; traceId: string; name: string; kind: string; startTime: number; parentId?: string };
-};
-export type StructuredResponse<T> = {
-  data: T;
-  usage: Usage;
-};
-const isZodSchema = (
-  schema: unknown,
-): schema is { safeParse: (data: unknown) => unknown } => {
-  return (
-    typeof schema === "object" &&
-    schema !== null &&
-    "safeParse" in schema &&
-    typeof (schema as { safeParse?: unknown }).safeParse === "function"
-  );
-};
-export const generateStructured = async <T>(
-  request: StructuredRequest<T>,
-): Promise<StructuredResponse<T>> => {
-  const { telemetry, parentSpan } = request;
-  // Start LLM span if telemetry is enabled
-  const llmSpan = telemetry?.startSpan({
-    name: "llm.generateStructured",
-    kind: "LLM",
-    parentSpan,
-    attributes: {
-      "llm.schema_name": request.schemaName ?? "extract",
-      "llm.strict": request.strict ?? false,
-    },
-  });
-  const startTime = Date.now();
-  const schema = isZodSchema(request.schema)
-    ? request.schema
-    : jsonSchema(request.schema as AnyJSONSchema);
-  // Check for OpenRouter provider preference attached to the model
-  const preferredProvider = (
-    request.model as { __openrouter_provider?: string }
-  )?.__openrouter_provider;
-  if (preferredProvider && process.env.DEBUG) {
-    console.error(
-      `[DEBUG] Routing to OpenRouter provider: ${preferredProvider}`,
-    );
-  }
-  const providerOptions = preferredProvider
-    ? {
-        openrouter: {
-          provider: {
-            order: [preferredProvider],
-          },
-        },
-      }
-    : undefined;
-  let result;
-  try {
-    result = await generateText({
-      model: request.model as ModelType,
-      output: Output.object({
-        schema: schema as GenerateTextParams extends { schema: infer S }
-          ? S
-          : never,
-        name: request.schemaName ?? "extract",
-        description: request.schemaDescription,
-      }),
-      providerOptions: {
-        openai: {
-          strictJsonSchema: request.strict ?? false,
-        },
-      },
-      system: request.system,
-      messages: (request.messages ?? [
-        { role: "user", content: request.user },
-      ]) as MessageType,
-      ...(providerOptions ? { providerOptions } : {}),
-    });
-  } catch (error) {
-    // Determine model ID for error messages
-    const modelId =
-      typeof request.model === "object" && request.model !== null
-        ? (request.model as { modelId?: string }).modelId ??
-          JSON.stringify(request.model)
-        : String(request.model);
-    if (
-      error &&
-      typeof error === "object" &&
-      "responseBody" in error &&
-      "statusCode" in error
-    ) {
-      const apiError = error as {
-        responseBody: unknown;
-        statusCode: number;
-        data?: {
-          code?: number;
-          message?: string;
-          type?: string | null;
-          param?: string | null;
-        };
-      };
-      const responseBody = apiError.responseBody;
-      const errorData = apiError.data;
-      if (
-        typeof responseBody === "string" &&
-        responseBody.includes("No endpoints found that support image input")
-      ) {
-        throw new Error(
-          `Model "${modelId}" does not support image input. Please use a model that supports images (e.g., gpt-4o, claude-3-5-sonnet, gemini-1.5-pro) or remove the --images and --screenshots flags.`,
-        );
-      }
-      if (errorData?.code === 500 || errorData?.message?.includes("Internal Server Error")) {
-        throw new Error(
-          `Provider error for model "${modelId}": Internal server error. The model or provider may be experiencing issues. Please try again or use a different model.`,
-        );
-      }
-      if (apiError.statusCode === 401 || errorData?.code === 401) {
-        throw new Error(
-          `Authentication failed for model "${modelId}". Please check your API key is valid and has the necessary permissions.`,
-        );
-      }
-      if (apiError.statusCode === 403 || errorData?.code === 403) {
-        throw new Error(
-          `Access denied for model "${modelId}". Your API key may not have access to this model. Please check your subscription or try a different model.`,
-        );
-      }
-      if (apiError.statusCode === 429 || errorData?.code === 429) {
-        throw new Error(
-          `Rate limit exceeded for model "${modelId}". Please wait a moment and try again, or use a different model.`,
-        );
-      }
-      if (apiError.statusCode === 404 || errorData?.code === 404) {
-        const errorMsg = errorData?.message || "Model not found";
-        throw new Error(
-          `Model "${modelId}" not found or unavailable. ${errorMsg} Please check the model name or try a different model.`,
-        );
-      }
-      if (errorData?.message) {
-        throw new Error(
-          `Provider error for model "${modelId}": ${errorData.message}`,
-        );
-      }
-    }
-    // Record error in telemetry
-    if (llmSpan && telemetry) {
-      const latencyMs = Date.now() - startTime;
-      telemetry.recordEvent(llmSpan, {
-        type: "llm_call",
-        model: modelId,
-        provider: "unknown", // Will be determined by the model
-        input: {
-          messages: request.messages ?? [{ role: "user", content: typeof request.user === "string" ? request.user : "" }],
-          temperature: undefined,
-          maxTokens: undefined,
-          schema: request.schema,
-        },
-        error: error instanceof Error ? error : new Error(String(error)),
-        latencyMs,
-      });
-      telemetry.endSpan(llmSpan, {
-        status: "error",
-        error: error instanceof Error ? error : new Error(String(error)),
-        latencyMs,
-      });
-    }
-    throw error;
-  }
-  const usageRaw = result.usage ?? {};
-  const inputTokens =
-    "promptTokens" in usageRaw
-      ? (usageRaw.promptTokens as number)
-      : ((usageRaw as { inputTokens?: number }).inputTokens ?? 0);
-  const outputTokens =
-    "completionTokens" in usageRaw
-      ? (usageRaw.completionTokens as number)
-      : ((usageRaw as { outputTokens?: number }).outputTokens ?? 0);
-  const totalTokens =
-    "totalTokens" in usageRaw
-      ? (usageRaw.totalTokens as number)
-      : inputTokens + outputTokens;
-  const usage: Usage = {
-    inputTokens,
-    outputTokens,
-    totalTokens,
-  };
-  // Record successful LLM call in telemetry
-  if (llmSpan && telemetry) {
-    const latencyMs = Date.now() - startTime;
-    telemetry.recordEvent(llmSpan, {
-      type: "llm_call",
-      model: typeof request.model === "object" && request.model !== null
-        ? (request.model as { modelId?: string }).modelId ?? "unknown"
-        : String(request.model),
-      provider: preferredProvider ?? "unknown",
-      input: {
-        messages: request.messages ?? [{ role: "user", content: typeof request.user === "string" ? request.user : "" }],
-        temperature: undefined,
-        maxTokens: undefined,
-        schema: request.schema,
-      },
-      output: {
-        content: JSON.stringify(result.output),
-        structured: true,
-        usage: {
-          input: inputTokens,
-          output: outputTokens,
-          total: totalTokens,
-        },
-      },
-      latencyMs,
-    });
-    telemetry.endSpan(llmSpan, {
-      status: "ok",
-      output: result.output,
-      latencyMs,
-    });
-  }
-  return { data: result.output as T, usage };
-};