npm - @lota-sdk/core - Versions diffs - 0.4.8 → 0.4.10 - Mend

@lota-sdk/core 0.4.8 → 0.4.10

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (272) hide show

package/package.json +11 -12
package/src/ai/embedding-cache.ts +96 -22
package/src/ai-gateway/ai-gateway.ts +766 -223
package/src/config/agent-defaults.ts +189 -75
package/src/config/agent-types.ts +54 -4
package/src/config/background-processing.ts +1 -1
package/src/config/constants.ts +8 -2
package/src/config/index.ts +0 -1
package/src/config/logger.ts +299 -19
package/src/config/thread-defaults.ts +40 -20
package/src/create-runtime.ts +200 -449
package/src/db/base.service.ts +52 -28
package/src/db/cursor-pagination.ts +71 -30
package/src/db/memory-query-builder.ts +2 -1
package/src/db/memory-store.helpers.ts +4 -7
package/src/db/memory-store.ts +868 -601
package/src/db/memory.ts +396 -280
package/src/db/record-id.ts +32 -10
package/src/db/schema-fingerprint.ts +30 -12
package/src/db/service-normalization.ts +288 -0
package/src/db/service.ts +912 -779
package/src/db/startup.ts +153 -68
package/src/db/transaction-conflict.ts +15 -0
package/src/effect/awaitable-effect.ts +96 -0
package/src/effect/errors.ts +121 -0
package/src/effect/helpers.ts +123 -0
package/src/effect/index.ts +24 -0
package/src/effect/layers.ts +238 -0
package/src/effect/runtime-ref.ts +25 -0
package/src/effect/runtime.ts +46 -0
package/src/effect/services.ts +61 -0
package/src/effect/zod.ts +43 -0
package/src/embeddings/provider.ts +128 -83
package/src/index.ts +48 -1
package/src/openrouter/direct-provider.ts +11 -35
package/src/queues/autonomous-job.queue.ts +117 -73
package/src/queues/context-compaction.queue.ts +50 -17
package/src/queues/delayed-node-promotion.queue.ts +46 -17
package/src/queues/document-processor.queue.ts +52 -77
package/src/queues/memory-consolidation.queue.ts +47 -32
package/src/queues/organization-learning.queue.ts +26 -4
package/src/queues/plan-agent-heartbeat.queue.ts +71 -24
package/src/queues/plan-scheduler.queue.ts +97 -33
package/src/queues/post-chat-memory.queue.ts +56 -26
package/src/queues/queue-factory.ts +227 -59
package/src/queues/standalone-worker.ts +39 -0
package/src/queues/title-generation.queue.ts +45 -11
package/src/redis/connection.ts +182 -113
package/src/redis/index.ts +6 -8
package/src/redis/org-memory-lock.ts +60 -27
package/src/redis/redis-lease-lock.ts +200 -121
package/src/redis/runtime-connection.ts +20 -0
package/src/redis/stream-context.ts +92 -46
package/src/runtime/agent-identity-overrides.ts +2 -2
package/src/runtime/agent-runtime-policy.ts +5 -2
package/src/runtime/agent-stream-helpers.ts +24 -9
package/src/runtime/chat-run-orchestration.ts +102 -19
package/src/runtime/chat-run-registry.ts +36 -2
package/src/runtime/context-compaction/context-compaction-runtime.ts +107 -0
package/src/runtime/{context-compaction.ts → context-compaction/context-compaction.ts} +161 -94
package/src/runtime/domain-layer.ts +192 -0
package/src/runtime/execution-plan-visibility.ts +2 -2
package/src/runtime/execution-plan.ts +42 -15
package/src/runtime/graph-designer.ts +16 -4
package/src/runtime/helper-model.ts +139 -48
package/src/runtime/index.ts +7 -8
package/src/runtime/indexed-repositories-policy.ts +3 -3
package/src/runtime/{memory-block.ts → memory/memory-block.ts} +50 -36
package/src/runtime/{memory-digest-policy.ts → memory/memory-digest-policy.ts} +1 -1
package/src/runtime/{memory-pipeline.ts → memory/memory-pipeline.ts} +54 -67
package/src/runtime/{memory-prompts-fact.ts → memory/memory-prompts-fact.ts} +2 -2
package/src/runtime/memory/memory-scope.ts +53 -0
package/src/runtime/plugin-resolution.ts +124 -25
package/src/runtime/plugin-types.ts +9 -1
package/src/runtime/post-turn-side-effects.ts +177 -130
package/src/runtime/retrieval-adapters.ts +40 -6
package/src/runtime/runtime-accessors.ts +92 -0
package/src/runtime/runtime-config.ts +150 -61
package/src/runtime/runtime-extensions.ts +23 -25
package/src/runtime/runtime-lifecycle.ts +124 -0
package/src/runtime/runtime-services.ts +386 -0
package/src/runtime/runtime-token.ts +47 -0
package/src/runtime/social-chat/social-chat-agent-runner.ts +159 -0
package/src/runtime/{social-chat-history.ts → social-chat/social-chat-history.ts} +51 -20
package/src/runtime/social-chat/social-chat.ts +630 -0
package/src/runtime/specialist-runner.ts +36 -10
package/src/runtime/team-consultation/team-consultation-orchestrator.ts +433 -0
package/src/runtime/{team-consultation-prompts.ts → team-consultation/team-consultation-prompts.ts} +6 -2
package/src/runtime/thread-chat-helpers.ts +2 -2
package/src/runtime/thread-plan-turn.ts +2 -1
package/src/runtime/thread-turn-context.ts +183 -111
package/src/runtime/turn-lifecycle.ts +93 -27
package/src/services/agent-activity.service.ts +287 -203
package/src/services/agent-executor.service.ts +253 -149
package/src/services/artifact.service.ts +231 -149
package/src/services/attachment.service.ts +171 -115
package/src/services/autonomous-job.service.ts +890 -491
package/src/services/background-work.service.ts +54 -0
package/src/services/chat-run-registry.service.ts +13 -1
package/src/services/context-compaction.service.ts +136 -86
package/src/services/document-chunk.service.ts +151 -88
package/src/services/execution-plan/execution-plan-approval.ts +26 -0
package/src/services/execution-plan/execution-plan-context.ts +29 -0
package/src/services/execution-plan/execution-plan-graph.ts +278 -0
package/src/services/execution-plan/execution-plan-schedule.ts +84 -0
package/src/services/execution-plan/execution-plan-spec.ts +75 -0
package/src/services/execution-plan/execution-plan.service.ts +1041 -0
package/src/services/feedback-loop.service.ts +132 -76
package/src/services/global-orchestrator.service.ts +101 -168
package/src/services/graph-full-routing.ts +193 -0
package/src/services/index.ts +19 -21
package/src/services/institutional-memory.service.ts +213 -125
package/src/services/learned-skill.service.ts +368 -260
package/src/services/memory/memory-conversation.ts +95 -0
package/src/services/memory/memory-errors.ts +27 -0
package/src/services/memory/memory-org-memory.ts +50 -0
package/src/services/memory/memory-preseeded.ts +86 -0
package/src/services/memory/memory-rerank.ts +297 -0
package/src/services/{memory-utils.ts → memory/memory-utils.ts} +6 -5
package/src/services/memory/memory.service.ts +674 -0
package/src/services/memory/rerank.service.ts +201 -0
package/src/services/monitoring-window.service.ts +92 -70
package/src/services/mutating-approval.service.ts +62 -53
package/src/services/node-workspace.service.ts +141 -98
package/src/services/notification.service.ts +29 -16
package/src/services/organization-member.service.ts +120 -66
package/src/services/organization.service.ts +153 -77
package/src/services/ownership-dispatcher.service.ts +456 -263
package/src/services/plan/plan-agent-heartbeat.service.ts +234 -0
package/src/services/plan/plan-agent-query.service.ts +322 -0
package/src/services/{plan-approval.service.ts → plan/plan-approval.service.ts} +45 -22
package/src/services/plan/plan-artifact.service.ts +60 -0
package/src/services/plan/plan-builder.service.ts +76 -0
package/src/services/plan/plan-checkpoint.service.ts +103 -0
package/src/services/{plan-compiler.service.ts → plan/plan-compiler.service.ts} +26 -9
package/src/services/plan/plan-completion-side-effects.ts +169 -0
package/src/services/plan/plan-coordination.service.ts +181 -0
package/src/services/plan/plan-cycle.service.ts +405 -0
package/src/services/plan/plan-deadline.service.ts +533 -0
package/src/services/plan/plan-event-delivery.service.ts +266 -0
package/src/services/plan/plan-executor-context.ts +35 -0
package/src/services/plan/plan-executor-graph.ts +522 -0
package/src/services/plan/plan-executor-helpers.ts +307 -0
package/src/services/plan/plan-executor-persistence.ts +209 -0
package/src/services/plan/plan-executor.service.ts +1737 -0
package/src/services/{plan-helpers.ts → plan/plan-helpers.ts} +1 -1
package/src/services/{plan-run-data.ts → plan/plan-run-data.ts} +4 -4
package/src/services/plan/plan-run-serialization.ts +15 -0
package/src/services/plan/plan-run.service.ts +637 -0
package/src/services/plan/plan-scheduler.service.ts +379 -0
package/src/services/plan/plan-template.service.ts +224 -0
package/src/services/plan/plan-transaction-events.ts +36 -0
package/src/services/plan/plan-validator.service.ts +907 -0
package/src/services/plan/plan-workspace.service.ts +131 -0
package/src/services/plugin-executor.service.ts +102 -68
package/src/services/quality-metrics.service.ts +112 -94
package/src/services/queue-job.service.ts +288 -231
package/src/services/recent-activity-title.service.ts +73 -36
package/src/services/recent-activity.service.ts +274 -259
package/src/services/skill-resolver.service.ts +38 -12
package/src/services/social-chat-history.service.ts +190 -122
package/src/services/system-executor.service.ts +96 -61
package/src/services/thread/thread-active-run.ts +203 -0
package/src/services/thread/thread-bootstrap.ts +385 -0
package/src/services/thread/thread-listing.ts +199 -0
package/src/services/thread/thread-memory-block.ts +130 -0
package/src/services/thread/thread-message.service.ts +379 -0
package/src/services/thread/thread-record-store.ts +155 -0
package/src/services/thread/thread-title.service.ts +74 -0
package/src/services/thread/thread-turn-execution.ts +280 -0
package/src/services/thread/thread-turn-message-context.ts +73 -0
package/src/services/thread/thread-turn-preparation.service.ts +1148 -0
package/src/services/thread/thread-turn-streaming.ts +403 -0
package/src/services/thread/thread-turn-tracing.ts +35 -0
package/src/services/thread/thread-turn.ts +376 -0
package/src/services/thread/thread.service.ts +344 -0
package/src/services/user.service.ts +82 -32
package/src/services/write-intent-validator.service.ts +63 -51
package/src/storage/attachment-parser.ts +69 -27
package/src/storage/attachment-storage.service.ts +334 -275
package/src/storage/generated-document-storage.service.ts +66 -34
package/src/system-agents/agent-result.ts +3 -1
package/src/system-agents/context-compaction.agent.ts +3 -3
package/src/system-agents/delegated-agent-factory.ts +159 -90
package/src/system-agents/helper-agent-options.ts +1 -1
package/src/system-agents/memory-reranker.agent.ts +3 -3
package/src/system-agents/memory.agent.ts +3 -3
package/src/system-agents/recent-activity-title-refiner.agent.ts +3 -3
package/src/system-agents/regular-chat-memory-digest.agent.ts +3 -3
package/src/system-agents/skill-extractor.agent.ts +3 -3
package/src/system-agents/skill-manager.agent.ts +3 -3
package/src/system-agents/thread-router.agent.ts +157 -113
package/src/system-agents/title-generator.agent.ts +3 -3
package/src/tools/execution-plan.tool.ts +241 -171
package/src/tools/fetch-webpage.tool.ts +29 -18
package/src/tools/firecrawl-client.ts +26 -6
package/src/tools/index.ts +1 -0
package/src/tools/memory-block.tool.ts +14 -6
package/src/tools/plan-approval.tool.ts +57 -47
package/src/tools/read-file-parts.tool.ts +44 -33
package/src/tools/remember-memory.tool.ts +65 -45
package/src/tools/search-web.tool.ts +33 -22
package/src/tools/search.tool.ts +41 -29
package/src/tools/team-think.tool.ts +125 -84
package/src/tools/user-questions.tool.ts +4 -3
package/src/tools/web-tool-shared.ts +6 -0
package/src/utils/async.ts +25 -22
package/src/utils/crypto.ts +21 -0
package/src/utils/date-time.ts +40 -1
package/src/utils/errors.ts +111 -20
package/src/utils/hono-error-handler.ts +24 -39
package/src/utils/index.ts +2 -1
package/src/utils/null-proto-record.ts +41 -0
package/src/utils/sse-keepalive.ts +124 -21
package/src/workers/bootstrap.ts +164 -52
package/src/workers/memory-consolidation.worker.ts +325 -237
package/src/workers/organization-learning.worker.ts +50 -16
package/src/workers/regular-chat-memory-digest.helpers.ts +28 -27
package/src/workers/regular-chat-memory-digest.runner.ts +185 -114
package/src/workers/skill-extraction.runner.ts +176 -93
package/src/workers/utils/file-section-chunker.ts +8 -10
package/src/workers/utils/repo-structure-extractor.ts +349 -260
package/src/workers/utils/repomix-file-sections.ts +2 -2
package/src/workers/utils/thread-message-query.ts +97 -38
package/src/workers/worker-utils.ts +74 -31
package/src/config/debug-logger.ts +0 -47
package/src/config/search.ts +0 -3
package/src/redis/connection-accessor.ts +0 -26
package/src/runtime/agent-types.ts +0 -1
package/src/runtime/context-compaction-runtime.ts +0 -87
package/src/runtime/memory-scope.ts +0 -43
package/src/runtime/social-chat-agent-runner.ts +0 -118
package/src/runtime/social-chat.ts +0 -516
package/src/runtime/team-consultation-orchestrator.ts +0 -272
package/src/services/adaptive-playbook.service.ts +0 -152
package/src/services/artifact-provenance.service.ts +0 -172
package/src/services/chat-attachments.service.ts +0 -17
package/src/services/context-compaction-runtime.singleton.ts +0 -13
package/src/services/execution-plan.service.ts +0 -1118
package/src/services/memory.service.ts +0 -914
package/src/services/plan-agent-heartbeat.service.ts +0 -136
package/src/services/plan-agent-query.service.ts +0 -267
package/src/services/plan-artifact.service.ts +0 -50
package/src/services/plan-builder.service.ts +0 -67
package/src/services/plan-checkpoint.service.ts +0 -81
package/src/services/plan-completion-side-effects.ts +0 -80
package/src/services/plan-coordination.service.ts +0 -157
package/src/services/plan-cycle.service.ts +0 -284
package/src/services/plan-deadline.service.ts +0 -430
package/src/services/plan-event-delivery.service.ts +0 -166
package/src/services/plan-executor.service.ts +0 -1950
package/src/services/plan-run.service.ts +0 -515
package/src/services/plan-scheduler.service.ts +0 -240
package/src/services/plan-template.service.ts +0 -177
package/src/services/plan-validator.service.ts +0 -818
package/src/services/plan-workspace.service.ts +0 -83
package/src/services/rerank.service.ts +0 -156
package/src/services/thread-message.service.ts +0 -275
package/src/services/thread-plan-registry.service.ts +0 -22
package/src/services/thread-title.service.ts +0 -39
package/src/services/thread-turn-preparation.service.ts +0 -1147
package/src/services/thread-turn.ts +0 -172
package/src/services/thread.service.ts +0 -869
package/src/utils/env.ts +0 -8
/package/src/runtime/{context-compaction-constants.ts → context-compaction/context-compaction-constants.ts} +0 -0
/package/src/runtime/{memory-format.ts → memory/memory-format.ts} +0 -0
/package/src/runtime/{memory-prompts-parse.ts → memory/memory-prompts-parse.ts} +0 -0
/package/src/runtime/{memory-prompts-update.ts → memory/memory-prompts-update.ts} +0 -0
/package/src/runtime/{social-chat-prompts.ts → social-chat/social-chat-prompts.ts} +0 -0
/package/src/services/{plan-node-spec.ts → plan/plan-node-spec.ts} +0 -0
/package/src/services/{thread-constants.ts → thread/thread-constants.ts} +0 -0
/package/src/services/{thread.types.ts → thread/thread.types.ts} +0 -0

package/src/ai-gateway/ai-gateway.ts CHANGED Viewed

@@ -1,33 +1,442 @@
 import { devToolsMiddleware } from '@ai-sdk/devtools'
 import { createOpenAI } from '@ai-sdk/openai'
-import { wrapLanguageModel } from 'ai'
+import { wrapEmbeddingModel, wrapLanguageModel } from 'ai'
 import type { LanguageModelMiddleware } from 'ai'
+import { Cause, Clock, Context, Duration, Effect, ExecutionPlan, Fiber, Layer, Semaphore } from 'effect'
-import { getRuntimeConfig } from '../runtime/runtime-config'
+import { DEFAULT_AI_GATEWAY_URL } from '../config/constants'
+import { AiGenerationError, ConfigurationError } from '../effect/errors'
+import { resolveLotaService } from '../effect/runtime'
+import { RuntimeConfigServiceTag } from '../effect/services'
+import { getDirectOpenRouterProvider, normalizeDirectOpenRouterModelId } from '../openrouter/direct-provider'
 import { isRecord, readString } from '../utils/string'
 import { buildAiGatewayCacheHeaders } from './cache-headers'
-type AiGatewayLanguageModel = Parameters<typeof wrapLanguageModel>[0]['model']
-type AiGatewayExtraParams = Record<string, unknown>
 type AiGatewayChatResponse = { body?: unknown }
 type AiGatewayTransformParamsOptions = Parameters<NonNullable<LanguageModelMiddleware['transformParams']>>[0]
 type WrapStreamOptions = Parameters<NonNullable<LanguageModelMiddleware['wrapStream']>>[0]
+type AiGatewayLanguageModel = Parameters<typeof wrapLanguageModel>[0]['model']
+type AiGatewayEmbeddingModel = Parameters<typeof wrapEmbeddingModel>[0]['model']
 type AiGatewayCallOptions = WrapStreamOptions['params']
 type AiGatewayGenerateResult = Awaited<ReturnType<WrapStreamOptions['doGenerate']>>
 type AiGatewayStreamResult = Awaited<ReturnType<WrapStreamOptions['doStream']>>
 type AiGatewayGeneratedContent = AiGatewayGenerateResult['content'][number]
 type AiGatewayStreamPart = AiGatewayStreamResult['stream'] extends ReadableStream<infer T> ? T : never
-type AiGatewayConfig = { apiKey: string; baseURL: string }
 type AiGatewayProviderOptions = NonNullable<AiGatewayCallOptions['providerOptions']>
+type AiGatewayAttemptResult<A> = { source: string; result: A }
+class AiGatewayGenerateAttempt extends Context.Service<
+  AiGatewayGenerateAttempt,
+  { readonly execute: Effect.Effect<AiGatewayAttemptResult<AiGatewayGenerateResult>, AiGenerationError> }
+>()('@lota-sdk/core/internal/AiGatewayGenerateAttempt') {}
+class AiGatewayStreamAttempt extends Context.Service<
+  AiGatewayStreamAttempt,
+  { readonly execute: Effect.Effect<AiGatewayAttemptResult<AiGatewayStreamResult>, AiGenerationError> }
+>()('@lota-sdk/core/internal/AiGatewayStreamAttempt') {}
 const EXPECTED_GATEWAY_KEY_PREFIX = 'sk-bf-'
 const AI_GATEWAY_VIRTUAL_KEY_HEADER = 'x-bf-vk'
-const AI_GATEWAY_EXTRA_PARAMS_HEADER = 'x-bf-passthrough-extra-params'
-const DEFAULT_AI_GATEWAY_URL = 'https://ai-gateway.gobrainy.ai' as const
-const OPENAI_PROMPT_CACHE_RETENTION = '24h' as const
-const OPENROUTER_RESPONSE_HEALING_EXTRA_PARAMS = {
-  plugins: [{ id: 'response-healing' }],
-} as const satisfies AiGatewayExtraParams
+const AI_GATEWAY_TIMEOUT_MS = 30_000
+const AI_GATEWAY_STREAM_IDLE_TIMEOUT_MS = 30_000
+const AI_GATEWAY_MAX_RETRIES = 4
+const AI_GATEWAY_MAX_RETRY_DELAY_MS = 15_000
+const OPENAI_RESPONSES_PROVIDER_ID = 'openai.responses'
+const OPENAI_CHAT_PROVIDER_ID = 'openai.chat'
+const OPENAI_EMBEDDING_PROVIDER_ID = 'openai.embedding'
+const OPENAI_EMBEDDING_MAX_PER_CALL = 2_048
+const RETRYABLE_NETWORK_ERROR_CODES = new Set([
+  'ECONNABORTED',
+  'ECONNREFUSED',
+  'ECONNRESET',
+  'EAI_AGAIN',
+  'EHOSTUNREACH',
+  'ENETDOWN',
+  'ENETUNREACH',
+  'ENOTFOUND',
+  'ETIMEDOUT',
+  'UND_ERR_CONNECT_TIMEOUT',
+  'UND_ERR_SOCKET',
+])
+const RETRYABLE_NETWORK_ERROR_PATTERNS = [
+  /fetch failed/i,
+  /network error/i,
+  /socket hang up/i,
+  /socket closed/i,
+  /connection (?:reset|refused|closed|timed out|timeout)/i,
+  /dns/i,
+  /temporary failure in name resolution/i,
+  /timed out/i,
+]
+function isAiGenerationError(error: unknown): error is AiGenerationError {
+  return isRecord(error) && error._tag === 'AiGenerationError'
+}
+function getNumericField(value: Record<string, unknown>, key: string): number | null {
+  const field = value[key]
+  if (typeof field === 'number' && Number.isFinite(field)) return field
+  if (typeof field === 'string') {
+    const parsed = Number(field)
+    if (Number.isFinite(parsed)) return parsed
+  }
+  return null
+}
+function getErrorStatus(error: unknown): number | null {
+  if (!isRecord(error)) return null
+  return getNumericField(error, 'status') ?? getNumericField(error, 'statusCode')
+}
+function isHeaderEntry(value: unknown): value is readonly [string, string | readonly string[]] {
+  return Array.isArray(value) && value.length >= 2 && typeof value[0] === 'string'
+}
+function readHeaderValue(headers: unknown, name: string): string | null {
+  const normalizedName = name.toLowerCase()
+  if (headers instanceof Headers) {
+    return headers.get(name)
+  }
+  if (Array.isArray(headers)) {
+    for (const entry of headers) {
+      if (!isHeaderEntry(entry)) continue
+      const [headerName, headerValue] = entry
+      if (headerName.toLowerCase() !== normalizedName) continue
+      if (typeof headerValue === 'string') return headerValue
+      if (Array.isArray(headerValue)) {
+        const firstValue = headerValue.find((value): value is string => typeof value === 'string')
+        if (firstValue) return firstValue
+      }
+    }
+    return null
+  }
+  if (!isRecord(headers)) {
+    return null
+  }
+  for (const [headerName, headerValue] of Object.entries(headers)) {
+    if (headerName.toLowerCase() !== normalizedName) continue
+    if (typeof headerValue === 'string') return headerValue
+    if (Array.isArray(headerValue)) {
+      const firstValue = headerValue.find((value): value is string => typeof value === 'string')
+      if (firstValue) return firstValue
+    }
+  }
+  return null
+}
+function extractRetryAfter(error: unknown): string | undefined {
+  if (!isRecord(error)) return undefined
+  const direct =
+    readHeaderValue(error.responseHeaders, 'retry-after') ??
+    readHeaderValue(error.headers, 'retry-after') ??
+    (isRecord(error.response) ? readHeaderValue(error.response.headers, 'retry-after') : null)
+  if (direct) {
+    return direct
+  }
+  if (!isRecord(error.cause)) return undefined
+  return (
+    readHeaderValue(error.cause.responseHeaders, 'retry-after') ??
+    readHeaderValue(error.cause.headers, 'retry-after') ??
+    (isRecord(error.cause.response) ? readHeaderValue(error.cause.response.headers, 'retry-after') : undefined) ??
+    undefined
+  )
+}
+function stringifyProviderField(value: unknown, maxLength: number): string | undefined {
+  if (value === undefined) return undefined
+  try {
+    const stringified = typeof value === 'string' ? value : JSON.stringify(value)
+    return stringified.length > maxLength ? `${stringified.slice(0, maxLength)}...` : stringified
+  } catch {
+    return undefined
+  }
+}
+function classifyAiGatewayError(source: string, error: unknown): AiGenerationError {
+  if (isAiGenerationError(error)) {
+    return error
+  }
+  const status = getErrorStatus(error)
+  const rateLimited = status === 429
+  const retryAfter = extractRetryAfter(error)
+  const errorRecord = isRecord(error) ? error : null
+  const message = error instanceof Error ? error.message : String(error)
+  const providerData = errorRecord ? stringifyProviderField(errorRecord.data, 600) : undefined
+  const cause = errorRecord ? stringifyProviderField(errorRecord.cause, 600) : undefined
+  const responseBody = errorRecord ? stringifyProviderField(errorRecord.responseBody, 600) : undefined
+  const url = errorRecord ? stringifyProviderField(errorRecord.url, 200) : undefined
+  const parts = [`[${source}]`]
+  if (status !== null) parts.push(`status=${status}`)
+  if (rateLimited) parts.push('rate_limited')
+  parts.push(message)
+  if (providerData) parts.push(`provider_data=${providerData}`)
+  if (cause) parts.push(`cause=${cause}`)
+  if (responseBody) parts.push(`response_body=${responseBody}`)
+  if (url) parts.push(`url=${url}`)
+  return new AiGenerationError({
+    source,
+    message: parts.join(' '),
+    ...(status !== null ? { status } : {}),
+    ...(rateLimited ? { rateLimited: true } : {}),
+    ...(retryAfter ? { retryAfter } : {}),
+    ...(providerData ? { providerData } : {}),
+    ...(responseBody ? { responseBody } : {}),
+    ...(url ? { url } : {}),
+  })
+}
+function isRetryableAiGatewayError(error: AiGenerationError): boolean {
+  if (error.rateLimited) return true
+  if (typeof error.status === 'number' && error.status >= 500) {
+    return true
+  }
+  const message = error.message.toLowerCase()
+  if (RETRYABLE_NETWORK_ERROR_PATTERNS.some((pattern) => pattern.test(message))) {
+    return true
+  }
+  for (const code of RETRYABLE_NETWORK_ERROR_CODES) {
+    if (message.includes(code.toLowerCase())) {
+      return true
+    }
+  }
+  return false
+}
+function parseRetryAfterDelayMs(retryAfter: string | undefined, nowMillis: number): number | undefined {
+  if (!retryAfter) return undefined
+  const trimmed = retryAfter.trim()
+  if (!trimmed) return undefined
+  const seconds = Number(trimmed)
+  if (Number.isFinite(seconds) && seconds >= 0) {
+    return Math.min(AI_GATEWAY_MAX_RETRY_DELAY_MS, Math.round(seconds * 1_000))
+  }
+  const retryAt = Date.parse(trimmed)
+  if (Number.isNaN(retryAt)) return undefined
+  return Math.min(AI_GATEWAY_MAX_RETRY_DELAY_MS, Math.max(0, retryAt - nowMillis))
+}
+function computeRetryDelayMs(attempt: number, error: AiGenerationError, nowMillis: number): number {
+  const baseDelayMs = Math.min(AI_GATEWAY_MAX_RETRY_DELAY_MS, 500 * 2 ** attempt)
+  const retryAfterDelayMs = parseRetryAfterDelayMs(error.retryAfter, nowMillis)
+  return retryAfterDelayMs === undefined ? baseDelayMs : Math.max(baseDelayMs, retryAfterDelayMs)
+}
+function withAiGatewayResilience<A>(source: string, effect: Effect.Effect<A, AiGenerationError>) {
+  const retryEffect = Effect.gen(function* () {
+    const runAttempt = (attempt: number): Effect.Effect<A, AiGenerationError> =>
+      effect.pipe(
+        Effect.catchTag('AiGenerationError', (error) =>
+          Effect.gen(function* () {
+            if (!isRetryableAiGatewayError(error) || attempt >= AI_GATEWAY_MAX_RETRIES - 1) {
+              return yield* error
+            }
+            const nowMillis = yield* Clock.currentTimeMillis
+            const retryDelayMs = computeRetryDelayMs(attempt, error, nowMillis)
+            yield* Effect.sleep(Duration.millis(retryDelayMs))
+            return yield* runAttempt(attempt + 1)
+          }),
+        ),
+      )
+    return yield* runAttempt(0)
+  })
+  return retryEffect.pipe(
+    Effect.timeout(Duration.millis(AI_GATEWAY_TIMEOUT_MS)),
+    Effect.catchIf(Cause.isTimeoutError, () =>
+      Effect.fail(new AiGenerationError({ source, message: `[${source}] Timed out after ${AI_GATEWAY_TIMEOUT_MS}ms` })),
+    ),
+  )
+}
+function withAiGatewayStreamIdleTimeout(
+  stream: ReadableStream<AiGatewayStreamPart>,
+  source: string,
+  onFinalize?: () => void,
+): ReadableStream<AiGatewayStreamPart> {
+  let closed = false
+  let reader: ReadableStreamDefaultReader<AiGatewayStreamPart> | null = null
+  let idleTimeoutFiber: ReturnType<typeof Effect.runFork> | null = null
+  let bodyPumpFiber: ReturnType<typeof Effect.runFork> | null = null
+  let finalized = false
+  const finalize = () => {
+    if (finalized) return
+    finalized = true
+    onFinalize?.()
+  }
+  const interruptFiber = (fiber: ReturnType<typeof Effect.runFork> | null) => {
+    if (!fiber) return
+    void Effect.runFork(Fiber.interrupt(fiber))
+  }
+  const stopIdleTimeout = () => {
+    const fiber = idleTimeoutFiber
+    idleTimeoutFiber = null
+    interruptFiber(fiber)
+  }
+  const stopBodyPump = () => {
+    const fiber = bodyPumpFiber
+    bodyPumpFiber = null
+    interruptFiber(fiber)
+  }
+  const releaseReader = (streamReader: ReadableStreamDefaultReader<AiGatewayStreamPart>) => {
+    try {
+      streamReader.releaseLock()
+    } catch {
+      // Best-effort cleanup.
+    }
+  }
+  const enqueueChunk = (
+    controller: ReadableStreamDefaultController<AiGatewayStreamPart>,
+    chunk: AiGatewayStreamPart,
+  ): boolean => {
+    if (closed) return false
+    try {
+      controller.enqueue(chunk)
+      return true
+    } catch {
+      closed = true
+      return false
+    }
+  }
+  const closeStream = (controller: ReadableStreamDefaultController<AiGatewayStreamPart>) => {
+    if (closed) return
+    closed = true
+    finalize()
+    try {
+      controller.close()
+    } catch {
+      // Best-effort cleanup.
+    }
+  }
+  const errorStream = (controller: ReadableStreamDefaultController<AiGatewayStreamPart>, error: unknown) => {
+    if (closed) return
+    closed = true
+    finalize()
+    try {
+      controller.error(error)
+    } catch {
+      // Best-effort cleanup.
+    }
+  }
+  const resetIdleTimeout = (controller: ReadableStreamDefaultController<AiGatewayStreamPart>) => {
+    stopIdleTimeout()
+    idleTimeoutFiber = Effect.runFork(
+      Effect.sleep(Duration.millis(AI_GATEWAY_STREAM_IDLE_TIMEOUT_MS)).pipe(
+        Effect.flatMap(() =>
+          Effect.gen(function* () {
+            if (closed) return
+            const timeoutError = new AiGenerationError({
+              source,
+              message: `[${source}] Stream stalled after ${AI_GATEWAY_STREAM_IDLE_TIMEOUT_MS}ms`,
+            })
+            yield* Effect.sync(() => errorStream(controller, timeoutError))
+            stopBodyPump()
+            const streamReader = reader
+            reader = null
+            if (!streamReader) return
+            yield* Effect.tryPromise(() => streamReader.cancel(timeoutError)).pipe(Effect.catch(() => Effect.void))
+          }),
+        ),
+      ),
+    )
+  }
+  const pumpStreamEffect = (
+    streamReader: ReadableStreamDefaultReader<AiGatewayStreamPart>,
+    controller: ReadableStreamDefaultController<AiGatewayStreamPart>,
+  ): Effect.Effect<void> =>
+    Effect.gen(function* () {
+      resetIdleTimeout(controller)
+      for (;;) {
+        if (closed) return
+        const { done, value } = yield* Effect.tryPromise(() => streamReader.read())
+        if (done) {
+          stopIdleTimeout()
+          yield* Effect.sync(() => closeStream(controller))
+          return
+        }
+        if (!enqueueChunk(controller, value)) {
+          return
+        }
+        resetIdleTimeout(controller)
+      }
+    }).pipe(
+      Effect.catch((error: unknown) => Effect.sync(() => errorStream(controller, error))),
+      Effect.ensuring(
+        Effect.sync(() => {
+          closed = true
+          finalize()
+          stopIdleTimeout()
+          bodyPumpFiber = null
+          reader = null
+          releaseReader(streamReader)
+        }),
+      ),
+    )
+  return new ReadableStream<AiGatewayStreamPart>({
+    start(controller) {
+      const streamReader = stream.getReader()
+      reader = streamReader
+      bodyPumpFiber = Effect.runFork(pumpStreamEffect(streamReader, controller))
+    },
+    cancel(reason) {
+      closed = true
+      finalize()
+      stopIdleTimeout()
+      stopBodyPump()
+      const streamReader = reader
+      reader = null
+      if (!streamReader) {
+        return
+      }
+      return Effect.runPromise(
+        Effect.tryPromise(() => streamReader.cancel(reason)).pipe(Effect.catch(() => Effect.void)),
+      )
+    },
+  })
+}
 function mergeAiGatewayHeaders(
   existingHeaders: AiGatewayCallOptions['headers'] | undefined,
@@ -42,19 +451,6 @@ function mergeAiGatewayHeaders(
   return Object.fromEntries(merged.entries())
 }
-function parseAiGatewayJsonRequestBody(body: BodyInit | null | undefined): Record<string, unknown> | null {
-  if (typeof body !== 'string') return null
-  let parsed: unknown
-  try {
-    parsed = JSON.parse(body)
-  } catch {
-    return null
-  }
-  return isRecord(parsed) ? parsed : null
-}
 function withDefaultAiGatewayCacheHeaders(params: AiGatewayCallOptions): AiGatewayCallOptions {
   return { ...params, headers: mergeAiGatewayHeaders(params.headers, buildAiGatewayCacheHeaders('lota-sdk')) }
 }
@@ -62,31 +458,104 @@ function withDefaultAiGatewayCacheHeaders(params: AiGatewayCallOptions): AiGatew
 function normalizeAiGatewayUrl(value: string): string {
   const trimmed = value.trim()
   if (!trimmed) {
-    throw new Error('[ai-gateway] AI gateway URL is required.')
+    throw new ConfigurationError({ message: '[ai-gateway] AI gateway URL is required.', key: 'aiGateway.url' })
   }
   const normalized = trimmed.replace(/\/+$/, '')
   return normalized.endsWith('/v1') ? normalized : `${normalized}/v1`
 }
-function readDirectEnvAiGatewayConfig(): AiGatewayConfig {
-  const apiKey = (process.env.AI_GATEWAY_KEY ?? '').trim()
-  if (!apiKey) {
-    throw new Error(
-      '[ai-gateway] Missing AI gateway key. Set AI_GATEWAY_KEY, or configure createLotaRuntime({ aiGateway: { key } }).',
-    )
-  }
+// ── AiGateway Effect Layer ────────────────────────────────────────────
+export class AiGatewayTag extends Context.Service<
+  AiGatewayTag,
+  { readonly semaphore: Semaphore.Semaphore; readonly provider: ReturnType<typeof createOpenAI> }
+>()('@lota-sdk/core/AiGateway') {}
+export const AiGatewayLive = Layer.effect(
+  AiGatewayTag,
+  Effect.gen(function* () {
+    const config = yield* RuntimeConfigServiceTag
+    const semaphore = yield* Semaphore.make(config.aiGateway.maxConcurrency)
+    const apiKey = config.aiGateway.key.trim()
+    if (!apiKey.startsWith(EXPECTED_GATEWAY_KEY_PREFIX)) {
+      return yield* new ConfigurationError({
+        message: `[ai-gateway] Gateway keys must use the ${EXPECTED_GATEWAY_KEY_PREFIX}* format.`,
+        key: 'aiGateway.key',
+      })
+    }
+    const baseURL = normalizeAiGatewayUrl(config.aiGateway.url)
+    const provider = createOpenAI({ baseURL, apiKey, headers: { [AI_GATEWAY_VIRTUAL_KEY_HEADER]: apiKey } })
+    return AiGatewayTag.of({ semaphore, provider })
+  }),
+)
+type AiGatewayRuntimeConfig = Context.Service.Shape<typeof RuntimeConfigServiceTag>
-  return { apiKey, baseURL: normalizeAiGatewayUrl(process.env.AI_GATEWAY_URL?.trim() || DEFAULT_AI_GATEWAY_URL) }
+let currentAiGateway: AiGatewayTag['Service'] | null = null
+let currentAiGatewayRuntimeConfig: AiGatewayRuntimeConfig | null = null
+export function configureAiGatewayRuntimeAccessors(params: {
+  aiGateway: AiGatewayTag['Service']
+  runtimeConfig: AiGatewayRuntimeConfig
+}): void {
+  currentAiGateway = params.aiGateway
+  currentAiGatewayRuntimeConfig = params.runtimeConfig
 }
-function readAiGatewayConfig(): AiGatewayConfig {
-  try {
-    const { aiGateway } = getRuntimeConfig()
-    return { apiKey: aiGateway.key.trim(), baseURL: normalizeAiGatewayUrl(aiGateway.url) }
-  } catch {
-    return readDirectEnvAiGatewayConfig()
-  }
+export function clearAiGatewayRuntimeAccessors(): void {
+  currentAiGateway = null
+  currentAiGatewayRuntimeConfig = null
+}
+function getAiGateway(): AiGatewayTag['Service'] {
+  return currentAiGateway ?? resolveLotaService(AiGatewayTag)
+}
+function getAiGatewayRuntimeConfig(): AiGatewayRuntimeConfig {
+  return currentAiGatewayRuntimeConfig ?? resolveLotaService(RuntimeConfigServiceTag)
+}
+function withAiGatewayConcurrency<A>(effect: Effect.Effect<A, AiGenerationError>): Effect.Effect<A, AiGenerationError> {
+  return getAiGateway().semaphore.withPermit(effect)
+}
+function withAiGatewayStreamConcurrency(
+  effect: Effect.Effect<AiGatewayAttemptResult<AiGatewayStreamResult>, AiGenerationError>,
+): Effect.Effect<AiGatewayAttemptResult<AiGatewayStreamResult>, AiGenerationError> {
+  return Effect.uninterruptibleMask((restore) =>
+    Effect.gen(function* () {
+      const { semaphore } = getAiGateway()
+      const currentContext = yield* Effect.context<never>()
+      yield* semaphore.take(1)
+      // NOTE: manual release intentional — permit outlives Effect scope for the
+      // stream lifetime. The stream consumer drains asynchronously after this
+      // Effect resolves; the permit is released by either the idle-timeout
+      // finalize callback or the error path below. The `released` guard makes
+      // the release idempotent across those paths.
+      let released = false
+      const release = () => {
+        if (released) return
+        released = true
+        void Effect.runForkWith(currentContext)(semaphore.release(1))
+      }
+      const attempt = yield* restore(effect).pipe(
+        Effect.catchTag('AiGenerationError', (error) => Effect.sync(release).pipe(Effect.andThen(Effect.fail(error)))),
+        Effect.onInterrupt(() => Effect.sync(release)),
+      )
+      return {
+        ...attempt,
+        result: {
+          ...attempt.result,
+          stream: withAiGatewayStreamIdleTimeout(attempt.result.stream, attempt.source, release),
+        },
+      }
+    }),
+  )
 }
 function readReasoningDetailsText(value: unknown): string | null {
@@ -142,19 +611,6 @@ export function extractAiGatewayChatReasoningDeltaText(rawChunk: unknown): strin
   return null
 }
-type AiGatewayResponsesReasoningDelta = { id: string; delta: string; itemId: string }
-export function extractAiGatewayResponsesReasoningDelta(rawChunk: unknown): AiGatewayResponsesReasoningDelta | null {
-  if (!isRecord(rawChunk) || rawChunk.type !== 'response.reasoning_summary_text.delta') return null
-  if ('summary_index' in rawChunk) return null
-  const itemId = readString(rawChunk.item_id)
-  const delta = readReasoningDeltaText(rawChunk.delta)
-  if (!itemId || !delta) return null
-  return { id: `${itemId}:0`, delta, itemId }
-}
 export function injectAiGatewayChatReasoningContent(
   content: readonly AiGatewayGeneratedContent[],
   response?: AiGatewayChatResponse,
@@ -178,8 +634,158 @@ function isReasoningEnabled(params: AiGatewayCallOptions): boolean {
   return typeof openaiOptions.reasoningEffort === 'string' && openaiOptions.reasoningEffort !== 'none'
 }
+function isOpenRouterModel(modelId: string): boolean {
+  return modelId.trim().toLowerCase().startsWith('openrouter/')
+}
+function hasDirectOpenRouterFallback(modelId: string): boolean {
+  const config = getAiGatewayRuntimeConfig()
+  return isOpenRouterModel(modelId) && Boolean(config.aiGateway.openRouterApiKey?.trim())
+}
+function getDirectOpenRouterChatModel(modelId: string): AiGatewayLanguageModel {
+  const config = getAiGatewayRuntimeConfig()
+  return getDirectOpenRouterProvider(config.aiGateway.openRouterApiKey).chat(normalizeDirectOpenRouterModelId(modelId))
+}
+function shouldFallbackToDirectOpenRouter(modelId: string, error: AiGenerationError): boolean {
+  return hasDirectOpenRouterFallback(modelId) && isRetryableAiGatewayError(error)
+}
+function attemptAiGatewayGenerate(
+  source: string,
+  evaluate: () => PromiseLike<AiGatewayGenerateResult>,
+): Effect.Effect<AiGatewayAttemptResult<AiGatewayGenerateResult>, AiGenerationError> {
+  return withAiGatewayResilience(
+    source,
+    Effect.tryPromise({ try: evaluate, catch: (cause) => classifyAiGatewayError(source, cause) }),
+  ).pipe(
+    Effect.map((result) => ({ source, result })),
+    Effect.withSpan('AiGateway.generateAttempt'),
+    Effect.annotateSpans({ gatewaySource: source }),
+  )
+}
+function attemptAiGatewayStream(
+  source: string,
+  evaluate: () => PromiseLike<AiGatewayStreamResult>,
+): Effect.Effect<AiGatewayAttemptResult<AiGatewayStreamResult>, AiGenerationError> {
+  return withAiGatewayResilience(
+    source,
+    Effect.tryPromise({ try: evaluate, catch: (cause) => classifyAiGatewayError(source, cause) }),
+  ).pipe(
+    Effect.map((result) => ({ source, result })),
+    Effect.withSpan('AiGateway.streamAttempt'),
+    Effect.annotateSpans({ gatewaySource: source }),
+  )
+}
+function attemptDirectOpenRouterGenerate(
+  modelId: string,
+  params: AiGatewayCallOptions,
+): Effect.Effect<AiGatewayAttemptResult<AiGatewayGenerateResult>, AiGenerationError> {
+  const model = getDirectOpenRouterChatModel(modelId)
+  return attemptAiGatewayGenerate('openrouter.generate', () => model.doGenerate(params))
+}
+function attemptDirectOpenRouterStream(
+  modelId: string,
+  params: AiGatewayCallOptions,
+): Effect.Effect<AiGatewayAttemptResult<AiGatewayStreamResult>, AiGenerationError> {
+  const model = getDirectOpenRouterChatModel(modelId)
+  return attemptAiGatewayStream('openrouter.stream', () => model.doStream(params))
+}
+function executeGenerateAttemptPlan(
+  modelId: string,
+  params: AiGatewayCallOptions,
+  doGenerate: () => PromiseLike<AiGatewayGenerateResult>,
+): Effect.Effect<AiGatewayAttemptResult<AiGatewayGenerateResult>, AiGenerationError> {
+  const primary = Layer.succeed(AiGatewayGenerateAttempt, {
+    execute: attemptAiGatewayGenerate('ai-gateway.generate', doGenerate),
+  })
+  const effect = Effect.gen(function* () {
+    const attempt = yield* AiGatewayGenerateAttempt
+    return yield* attempt.execute
+  })
+  if (!hasDirectOpenRouterFallback(modelId)) {
+    return effect.pipe(
+      Effect.provide(primary),
+      Effect.withSpan('AiGateway.executeGeneratePlan'),
+      Effect.annotateSpans({ modelId, directOpenRouterFallbackEnabled: false }),
+    )
+  }
+  return effect.pipe(
+    Effect.withExecutionPlan(
+      ExecutionPlan.make(
+        { provide: primary },
+        {
+          provide: Layer.succeed(AiGatewayGenerateAttempt, {
+            execute: attemptDirectOpenRouterGenerate(modelId, params),
+          }),
+          while: (error: AiGenerationError) => shouldFallbackToDirectOpenRouter(modelId, error),
+        },
+      ),
+    ),
+    Effect.withSpan('AiGateway.executeGeneratePlan'),
+    Effect.annotateSpans({ modelId, directOpenRouterFallbackEnabled: true }),
+  )
+}
+function executeStreamAttemptPlan(
+  modelId: string,
+  params: AiGatewayCallOptions,
+  doStream: () => PromiseLike<AiGatewayStreamResult>,
+): Effect.Effect<AiGatewayAttemptResult<AiGatewayStreamResult>, AiGenerationError> {
+  const primary = Layer.succeed(AiGatewayStreamAttempt, {
+    execute: attemptAiGatewayStream('ai-gateway.stream', doStream),
+  })
+  const effect = Effect.gen(function* () {
+    const attempt = yield* AiGatewayStreamAttempt
+    return yield* attempt.execute
+  })
+  if (!hasDirectOpenRouterFallback(modelId)) {
+    return effect.pipe(
+      Effect.provide(primary),
+      Effect.withSpan('AiGateway.executeStreamPlan'),
+      Effect.annotateSpans({ modelId, directOpenRouterFallbackEnabled: false }),
+    )
+  }
+  return effect.pipe(
+    Effect.withExecutionPlan(
+      ExecutionPlan.make(
+        { provide: primary },
+        {
+          provide: Layer.succeed(AiGatewayStreamAttempt, { execute: attemptDirectOpenRouterStream(modelId, params) }),
+          while: (error: AiGenerationError) => shouldFallbackToDirectOpenRouter(modelId, error),
+        },
+      ),
+    ),
+    Effect.withSpan('AiGateway.executeStreamPlan'),
+    Effect.annotateSpans({ modelId, directOpenRouterFallbackEnabled: true }),
+  )
+}
+function isOpenRouterOpenAIReasoningModel(modelId: string): boolean {
+  return modelId.trim().toLowerCase().startsWith('openrouter/openai/gpt-5')
+}
 function shouldCloseInjectedReasoning(chunk: AiGatewayStreamPart): boolean {
-  return chunk.type !== 'stream-start' && chunk.type !== 'response-metadata' && chunk.type !== 'raw'
+  switch (chunk.type) {
+    case 'stream-start':
+    case 'response-metadata':
+    case 'raw':
+    case 'text-start':
+      return false
+    case 'text-delta':
+      return chunk.delta.length > 0
+    default:
+      return true
+  }
 }
 export function injectAiGatewayChatReasoningStream(
@@ -232,30 +838,6 @@ export function injectAiGatewayChatReasoningStream(
   )
 }
-export function injectAiGatewayResponsesReasoningStream(
-  stream: ReadableStream<AiGatewayStreamPart>,
-): ReadableStream<AiGatewayStreamPart> {
-  return stream.pipeThrough(
-    new TransformStream<AiGatewayStreamPart, AiGatewayStreamPart>({
-      transform(chunk, controller) {
-        controller.enqueue(chunk)
-        if (chunk.type !== 'raw') return
-        const reasoningDelta = extractAiGatewayResponsesReasoningDelta(chunk.rawValue)
-        if (!reasoningDelta) return
-        controller.enqueue({
-          type: 'reasoning-delta',
-          id: reasoningDelta.id,
-          delta: reasoningDelta.delta,
-          providerMetadata: { openai: { itemId: reasoningDelta.itemId } },
-        } satisfies AiGatewayStreamPart)
-      },
-    }),
-  )
-}
 function addAiGatewayReasoningRawChunks(
   params: AiGatewayCallOptions,
   type: AiGatewayTransformParamsOptions['type'],
@@ -267,7 +849,49 @@ function addAiGatewayReasoningRawChunks(
   return { ...params, includeRawChunks: true }
 }
-export function normalizeAiGatewayChatProviderOptions(params: AiGatewayCallOptions): AiGatewayCallOptions {
+function createAiGatewayLanguageModelMiddleware(modelId: string): LanguageModelMiddleware {
+  return {
+    specificationVersion: 'v3',
+    transformParams: ({ params, type }) =>
+      Promise.resolve(
+        withDefaultAiGatewayCacheHeaders(
+          addAiGatewayReasoningRawChunks(normalizeAiGatewayChatProviderOptions(params, modelId), type),
+        ),
+      ),
+    wrapGenerate: ({ doGenerate, params }) =>
+      Effect.runPromise(
+        withAiGatewayConcurrency(
+          executeGenerateAttemptPlan(modelId, params, doGenerate).pipe(
+            Effect.map(({ result }) => ({
+              ...result,
+              content: injectAiGatewayChatReasoningContent(
+                result.content,
+                result.response as AiGatewayChatResponse | undefined,
+              ),
+            })),
+          ),
+        ),
+      ),
+    wrapStream: ({ doStream, params }) =>
+      Effect.runPromise(
+        withAiGatewayStreamConcurrency(
+          executeStreamAttemptPlan(modelId, params, doStream).pipe(
+            Effect.map((attempt) => ({
+              ...attempt,
+              result: isReasoningEnabled(params)
+                ? { ...attempt.result, stream: injectAiGatewayChatReasoningStream(attempt.result.stream) }
+                : attempt.result,
+            })),
+          ),
+        ).pipe(Effect.map(({ result }) => result)),
+      ),
+  }
+}
+export function normalizeAiGatewayChatProviderOptions(
+  params: AiGatewayCallOptions,
+  modelId?: string,
+): AiGatewayCallOptions {
   const providerOptions = isRecord(params.providerOptions)
     ? ({ ...params.providerOptions } as AiGatewayProviderOptions)
     : ({} as AiGatewayProviderOptions)
@@ -275,189 +899,108 @@ export function normalizeAiGatewayChatProviderOptions(params: AiGatewayCallOptio
     ? { ...providerOptions.openai }
     : ({} as Record<string, unknown>)
-  if (openaiOptions.systemMessageMode === 'system') {
+  if (modelId && isOpenRouterOpenAIReasoningModel(modelId) && openaiOptions.forceReasoning === undefined) {
+    openaiOptions.forceReasoning = true
+  }
+  if (providerOptions.openai === openaiOptions || Object.keys(openaiOptions).length === 0) {
     return params
   }
   return {
     ...params,
-    providerOptions: {
-      ...providerOptions,
-      openai: {
-        ...openaiOptions,
-        ...(openaiOptions.systemMessageMode === 'remove' ? {} : { systemMessageMode: 'system' }),
-      },
-    },
+    providerOptions: { ...providerOptions, openai: openaiOptions as AiGatewayProviderOptions['openai'] },
   }
 }
-export function injectAiGatewayExtraParamsRequestBody(
-  body: BodyInit | null | undefined,
-  extraParams: AiGatewayExtraParams,
-): BodyInit | null | undefined {
-  const parsed = parseAiGatewayJsonRequestBody(body)
-  if (!parsed) return body
-  const mergedExtraParams = isRecord(parsed.extra_params)
-    ? { ...parsed.extra_params, ...extraParams }
-    : { ...extraParams }
-  return JSON.stringify({ ...parsed, extra_params: mergedExtraParams })
-}
-function createAiGatewayFetch(extraParams?: AiGatewayExtraParams): typeof fetch {
-  const fetchWithMutations = (input: RequestInfo | URL, init?: RequestInit | BunFetchRequestInit) => {
-    const parsedBody = parseAiGatewayJsonRequestBody(init?.body)
-    let nextBody = init?.body
-    let nextParsedBody = parsedBody
-    if (
-      nextParsedBody &&
-      readString(nextParsedBody.model)?.startsWith('openai/') &&
-      !readString(nextParsedBody.prompt_cache_retention)
-    ) {
-      nextParsedBody = { ...nextParsedBody, prompt_cache_retention: OPENAI_PROMPT_CACHE_RETENTION }
-      nextBody = JSON.stringify(nextParsedBody)
-    }
-    if (nextParsedBody && extraParams !== undefined) {
-      nextParsedBody = {
-        ...nextParsedBody,
-        extra_params: isRecord(nextParsedBody.extra_params)
-          ? { ...nextParsedBody.extra_params, ...extraParams }
-          : { ...extraParams },
-      }
-      nextBody = JSON.stringify(nextParsedBody)
-    }
-    const headers = new Headers(init?.headers)
-    if (
-      extraParams !== undefined ||
-      (readString(nextParsedBody?.model)?.startsWith('openai/') &&
-        readString(nextParsedBody?.prompt_cache_retention) !== null)
-    ) {
-      // Bifrost only forwards provider-specific extra params when passthrough is enabled.
-      headers.set(AI_GATEWAY_EXTRA_PARAMS_HEADER, 'true')
-    }
-    return globalThis.fetch(input, { ...init, headers, body: nextBody })
-  }
-  const preconnect = globalThis.fetch.preconnect
-  if (typeof preconnect !== 'function') {
-    return fetchWithMutations as typeof fetch
+function withAiGatewayDevTools<TModel extends AiGatewayLanguageModel>(model: TModel): TModel {
+  if (Bun.env.NODE_ENV === 'production') {
+    return model
   }
-  return Object.assign(fetchWithMutations, { preconnect: preconnect.bind(globalThis.fetch) })
+  return wrapLanguageModel({ model, middleware: devToolsMiddleware() }) as TModel
 }
-function createAiGatewayProvider(extraParams?: AiGatewayExtraParams) {
-  const { apiKey, baseURL } = readAiGatewayConfig()
-  if (!apiKey.startsWith(EXPECTED_GATEWAY_KEY_PREFIX)) {
-    throw new Error(`[ai-gateway] Gateway keys must use the ${EXPECTED_GATEWAY_KEY_PREFIX}* format.`)
+function createLazyAiGatewayLanguageModel(params: {
+  modelId: string
+  providerId: string
+  resolve: () => AiGatewayLanguageModel
+}): AiGatewayLanguageModel {
+  return {
+    specificationVersion: 'v3',
+    provider: params.providerId,
+    modelId: params.modelId,
+    supportedUrls: {},
+    doGenerate: (options) => params.resolve().doGenerate(options),
+    doStream: (options) => params.resolve().doStream(options),
   }
-  return createOpenAI({
-    baseURL,
-    apiKey,
-    headers: { [AI_GATEWAY_VIRTUAL_KEY_HEADER]: apiKey },
-    fetch: createAiGatewayFetch(extraParams),
-  })
 }
-function withAiGatewayDevTools<TModel extends AiGatewayLanguageModel>(model: TModel): TModel {
-  if (process.env.NODE_ENV === 'production') {
-    return model
+function createLazyAiGatewayEmbeddingModel(modelId: string): AiGatewayEmbeddingModel {
+  return {
+    specificationVersion: 'v3',
+    provider: OPENAI_EMBEDDING_PROVIDER_ID,
+    modelId,
+    maxEmbeddingsPerCall: OPENAI_EMBEDDING_MAX_PER_CALL,
+    supportsParallelCalls: true,
+    doEmbed: (options) => getAiGatewayProvider().embeddingModel(modelId).doEmbed(options),
   }
-  return wrapLanguageModel({ model, middleware: devToolsMiddleware() }) as TModel
 }
-let provider: ReturnType<typeof createOpenAI> | null = null
-let openRouterResponseHealingProvider: ReturnType<typeof createOpenAI> | null = null
 export function getAiGatewayProvider() {
-  if (provider) return provider
-  provider = createAiGatewayProvider()
-  return provider
-}
-export function getAiGatewayOpenRouterResponseHealingProvider() {
-  if (openRouterResponseHealingProvider) return openRouterResponseHealingProvider
-  openRouterResponseHealingProvider = createAiGatewayProvider(OPENROUTER_RESPONSE_HEALING_EXTRA_PARAMS)
-  return openRouterResponseHealingProvider
+  return getAiGateway().provider
 }
 export function aiGatewayModel(modelId: string) {
+  if (isOpenRouterModel(modelId)) {
+    return aiGatewayChatModel(modelId)
+  }
   return withAiGatewayDevTools(
     wrapLanguageModel({
-      model: getAiGatewayProvider()(modelId),
-      middleware: {
-        specificationVersion: 'v3',
-        transformParams: async ({ params, type }) =>
-          withDefaultAiGatewayCacheHeaders(addAiGatewayReasoningRawChunks(params, type)),
-        wrapStream: async ({ doStream, params }) => {
-          const result = await doStream()
-          if (!isReasoningEnabled(params)) return result
-          return { ...result, stream: injectAiGatewayResponsesReasoningStream(result.stream) }
-        },
-      },
+      model: createLazyAiGatewayLanguageModel({
+        modelId,
+        providerId: OPENAI_RESPONSES_PROVIDER_ID,
+        resolve: () => getAiGatewayProvider()(modelId),
+      }),
+      middleware: createAiGatewayLanguageModelMiddleware(modelId),
     }),
   )
 }
 export function aiGatewayOpenRouterResponseHealingModel(modelId: string) {
-  return withAiGatewayDevTools(
-    wrapLanguageModel({
-      model: getAiGatewayOpenRouterResponseHealingProvider()(modelId),
-      middleware: {
-        specificationVersion: 'v3',
-        transformParams: async ({ params }) => withDefaultAiGatewayCacheHeaders(params),
-      },
-    }),
-  )
+  return aiGatewayChatModel(modelId)
 }
 export function aiGatewayChatModel(modelId: string) {
   return withAiGatewayDevTools(
     wrapLanguageModel({
-      model: getAiGatewayProvider().chat(modelId),
-      middleware: {
-        specificationVersion: 'v3',
-        transformParams: async ({ params, type }) =>
-          normalizeAiGatewayChatProviderOptions(
-            withDefaultAiGatewayCacheHeaders(addAiGatewayReasoningRawChunks(params, type)),
-          ),
-        wrapGenerate: async ({ doGenerate }) => {
-          const result = await doGenerate()
-          return {
-            ...result,
-            content: injectAiGatewayChatReasoningContent(
-              result.content,
-              result.response as AiGatewayChatResponse | undefined,
-            ),
-          }
-        },
-        wrapStream: async ({ doStream, params }) => {
-          const result = await doStream()
-          if (!isReasoningEnabled(params)) return result
-          return { ...result, stream: injectAiGatewayChatReasoningStream(result.stream) }
-        },
-      },
+      model: createLazyAiGatewayLanguageModel({
+        modelId,
+        providerId: OPENAI_CHAT_PROVIDER_ID,
+        resolve: () => getAiGatewayProvider().chat(modelId),
+      }),
+      middleware: createAiGatewayLanguageModelMiddleware(modelId),
     }),
   )
 }
 export function aiGatewayEmbeddingModel(modelId: string) {
-  return getAiGatewayProvider().embeddingModel(modelId)
+  return wrapEmbeddingModel({
+    model: createLazyAiGatewayEmbeddingModel(modelId),
+    middleware: {
+      specificationVersion: 'v3',
+      wrapEmbed: ({ doEmbed }) =>
+        Effect.runPromise(
+          withAiGatewayConcurrency(
+            withAiGatewayResilience(
+              'ai-gateway.embed',
+              Effect.tryPromise({ try: doEmbed, catch: (cause) => classifyAiGatewayError('ai-gateway.embed', cause) }),
+            ),
+          ).pipe(Effect.withSpan('AiGateway.embed'), Effect.annotateSpans({ modelId })),
+        ),
+    },
+  })
 }
 export { DEFAULT_AI_GATEWAY_URL, normalizeAiGatewayUrl }