RubyGems - lex-llm-bedrock - Versions diffs - 0.3.12 → 0.3.18 - Mend

lex-llm-bedrock 0.3.12 → 0.3.18

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +36 -0
data/README.md +103 -15
data/lib/legion/extensions/llm/bedrock/provider.rb +696 -24
data/lib/legion/extensions/llm/bedrock/version.rb +1 -1
metadata +1 -1

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 939ac50e6240dcde55f7bc9b24fb0a7f1f6fd527ec46cea27d8255f8a401fcd6
-  data.tar.gz: 899da50daa4595d92b0bb23a14bd4c873c03d41bc72235e8337b17f61fe69d99
+  metadata.gz: e0a7bdd5a1097bfe7caf898a8b47649c5b29d7ae2d73c980e47bec743f343b2c
+  data.tar.gz: bab966bb6aa10487d43f1f4d01ae531b701ef74c49884ad820c127ee3d7efc91
 SHA512:
-  metadata.gz: b2e824ee11517dbbfaf7710bd25a8329ee9007ccb35226776a57131d4ba859fc90fc2b8f0dc3e31ff349b2cc15e3a82778e491fca0f75b2b76d6a4783a8e7e67
-  data.tar.gz: c06248c9b3c047db80193c7a3c9666b0b251de5bb6a62199f135902f91295cfcfc069e2994cdc93168b66a1c11a7ad755875bc1c9ba8fd60ae0850a7277dae30
+  metadata.gz: 34d5f3629994cda2216de0826249516659e39e3e908152a66d62e46d4a9ce6b01f983e094c1c30f9c233227e810231d67dadfd8bed1fa86b70f448ea59b7c1b4
+  data.tar.gz: 6cc2164e232cada49623ec316ea2a767227196ed7526ac1956c7c0ebf9110e52d1aaa69823c51bb06f33f4779772e4dce1037ed0e9aaf17601db4c9e2e0ec089

data/CHANGELOG.md CHANGED Viewed

@@ -1,5 +1,41 @@
 # Changelog
+## 0.3.18 - 2026-06-05
+### Fixed
+- **Spec and RuboCop compliance** — Verified all 54 specs pass cleanly. RuboCop auto-correct applied; 0 offenses remaining.
+## 0.3.17 - 2026-06-05
+### Fixed
+- **Unused method arguments** — Prefixed unused keyword parameters (`params`, `model`, `streaming`) in `invoke_model_chat`, `invoke_model_stream`, and `build_invoke_model_body` with underscore prefix to satisfy RuboCop `Lint/UnusedMethodArgument` (provider.rb)
+- **Keyword parameter ordering** — Moved optional keyword parameters to the end of `build_invoke_model_body` signature per `Style/KeywordParametersOrder` (provider.rb)
+## 0.3.16 - 2026-06-04
+### Fixed
+- **Thinking config silently ignored by Converse API for Claude Sonnet 4+** — Bedrock Converse API does not support extended thinking for Claude Sonnet 4 and newer. When thinking is enabled for an Anthropic model, the provider now routes through `invoke_model` with the native Anthropic Messages API payload (the same format Phase 1 direct tests use), which correctly generates and returns thinking blocks (provider.rb)
+- **Thinking extraction failed on AWS SDK structs** — `extract_thinking_from_content` assumed content blocks were Hashes. Bedrock Converse returns `Aws::BedrockRuntime::Types` structs that don't respond to `[]` the same way. Now uses `value()` helper for safe struct access on reasoning content blocks (provider.rb)
+- **Streaming reasoning/thinking blocks not detected** — `wire_block_start` only checked `:thinking` blocks but Bedrock Converse uses `:reasoning` blocks for thinking content. Added `:reasoning` check. `wire_block_delta` now extracts from `delta.reasoning.text` and `delta.thinking.text` in addition to `delta.text` (provider.rb)
+### Added
+- **Debug logging for Bedrock converse calls** — Logs thinking config sent, elapsed time, usage, additional_fields keys, and content block types on response. Logs stream completion with accumulated length, tool use block count, and stop reason (provider.rb)
+## 0.3.15 - 2026-06-04
+### Fixed
+- **Thinking config ignored in chat/stream/complete** — The `chat`, `stream`, and `complete` methods accepted `thinking:` kwarg but never passed it to Bedrock's converse API. Now passes thinking through `additional_model_request_fields[:thinking]` with AWS-format `{ type: "enabled", budget_tokens: N }`, accepting both `:budget_tokens` and `:budget` keys for compatibility with Anthropic API format (provider.rb)
+## 0.3.14 - 2026-06-04
+### Fixed
+- **`NameError` on unpopulated AWS SDK struct fields** — `Aws::Structure` objects declare all members in their schema (including `cache_creation_input_tokens`), so `key?` returns `true`, but accessing a missing member raises `NameError` instead of returning `nil`. Added `safe_struct_access` helper that wraps `object[key]` in `rescue NameError → nil`, so unpopulated struct fields gracefully return `nil` instead of crashing the request (provider.rb)
+## 0.3.13 - 2026-06-02
+### Fixed
+- **Tool call iteration crash on Bedrock escalation** — `assistant_tool_use_blocks` iterated `message.tool_calls` (a `Hash`) with `each`, which yields `[key, value]` pairs rather than `ToolCall` objects. Calling `.id` on the Array raised `NoMethodError` on every Bedrock call with tool-call history, tripping the circuit breaker and exhausting the escalation chain. Fixed by using `each_value` (provider.rb)
 ## 0.3.12 - 2026-06-02
 ### Fixed

data/README.md CHANGED Viewed

@@ -8,18 +8,44 @@ This gem adds a hosted Bedrock provider surface for Legion LLM routing. It uses
 ```
 Legion::Extensions::Llm::Bedrock
-├── Provider               # Bedrock implementation of the lex-llm Provider contract
-│   ├── Capabilities       # Capability predicates inferred from model IDs
-│   ├── chat / stream      # Converse / ConverseStream API calls
-│   ├── embed              # Titan InvokeModel embedding
-│   ├── count_tokens       # CountTokens API call
-│   ├── discover_offerings # Static catalog + live ListFoundationModels
-│   ├── health / readiness # Provider health checks with live AWS verification
-│   └── list_models        # Live model enumeration
-├── Actor::FleetWorker     # Provider-owned fleet subscription gate
-└── Runners::FleetWorker   # Delegates fleet requests to lex-llm ProviderResponder
+├── Provider                    # Bedrock implementation of the lex-llm Provider contract
+│   ├── Capabilities            # Capability predicates inferred from model IDs
+│   ├── chat / stream           # Converse / ConverseStream API calls
+│   ├── embed                   # Titan InvokeModel embedding
+│   ├── count_tokens            # CountTokens API call
+│   ├── discover_offerings      # Static catalog + live ListFoundationModels
+│   ├── health / readiness      # Provider health checks with live AWS verification
+│   ├── list_models             # Live model enumeration
+│   ├── invoke_model_chat       # Native Anthropic payload for thinking-enabled models
+│   └── invoke_model_stream     # Native Anthropic streaming for thinking-enabled models
+├── Actor::FleetWorker          # Provider-owned fleet subscription gate
+├── Actor::DiscoveryRefresh     # Periodic model catalog refresh (conditional on actor runtime)
+└── Runners::FleetWorker        # Delegates fleet requests to lex-llm ProviderResponder
 ```
+### Provider Dispatch
+The `Provider` class decides at call time which API path to use:
+| Condition | Path | Why |
+|-----------|------|-----|
+| Anthropic model + `thinking` or `tools` | `invoke_model` (native Anthropic payload) | Bedrock Converse silently drops thinking config and tool_use blocks for Claude Sonnet 4+ |
+| All other cases | `Converse` / `ConverseStream` | Standard Bedrock managed inference API |
+### Instance Discovery
+`Legion::Extensions::Llm::Bedrock.discover_instances` scans five credential sources in priority order, deduplicates by fingerprint, and returns a hash of `{ instance_name => config_hash }` pairs:
+| Source | Key | How it works |
+|--------|-----|--------------|
+| ENV bearer | `:env_bearer` | Reads `AWS_BEARER_TOKEN_BEDROCK` from environment |
+| Claude config bearer | `:claude` | Reads `AWS_BEARER_TOKEN_BEDROCK` from Claude env/config, falls back to pattern match on any key containing `AWS`, `BEARER`, `TOKEN`, `BEDROCK` |
+| ENV SigV4 | `:env_sigv4` | Reads `AWS_ACCESS_KEY_ID` + `AWS_SECRET_ACCESS_KEY` from environment |
+| Extension settings | `:settings` + named instances | Reads from `extensions.llm.bedrock` settings, normalizes generic keys to `bedrock_*` prefix |
+| Identity Broker | `:broker` | Reads `Legion::Identity::Broker.credentials_for(:aws)` when the module is defined |
+Instances with unresolved credential references (`vault://` or `env://` URIs) are filtered out.
 ## Dependencies
 | Gem | Required | Purpose |
@@ -36,9 +62,10 @@ Legion::Extensions::Llm::Bedrock
 | Path | Purpose |
 |------|---------|
-| `lib/legion/extensions/llm/bedrock.rb` | Entry point: namespace, default settings, discovery, and shared provider registration metadata |
-| `lib/legion/extensions/llm/bedrock/provider.rb` | Full Bedrock provider implementation |
+| `lib/legion/extensions/llm/bedrock.rb` | Entry point: namespace, default settings, instance discovery, credential sources, and shared provider registration metadata |
+| `lib/legion/extensions/llm/bedrock/provider.rb` | Full Bedrock provider implementation (1500+ lines) — Converse, invoke_model, streaming, tool calls, thinking, embeddings, health, and discovery |
 | `lib/legion/extensions/llm/bedrock/actors/fleet_worker.rb` | Starts the provider-owned fleet subscriber when an instance opts in |
+| `lib/legion/extensions/llm/bedrock/actors/discovery_refresh.rb` | Periodic model catalog refresh actor (loaded only when `Legion::Extensions::Actors::Every` is available) |
 | `lib/legion/extensions/llm/bedrock/runners/fleet_worker.rb` | Hands provider fleet requests to `Legion::Extensions::Llm::Fleet::ProviderResponder` |
 | `lib/legion/extensions/llm/bedrock/version.rb` | `VERSION` constant |
@@ -69,7 +96,7 @@ If explicit keys are not configured, the AWS SDK default credential provider cha
 Legion::Extensions::Llm::Bedrock.default_settings
 ```
-Configuration options: `bedrock_region`, `bedrock_endpoint`, `bedrock_access_key_id`, `bedrock_secret_access_key`, `bedrock_session_token`, `bedrock_profile`, `bedrock_stub_responses`.
+Configuration options: `bedrock_region`, `bedrock_endpoint`, `bedrock_access_key_id`, `bedrock_secret_access_key`, `bedrock_session_token`, `bedrock_profile`, `bedrock_stub_responses`, `bearer_token`.
 ## Fleet Responder
@@ -121,7 +148,33 @@ Every offering uses:
 Known aliases are intentionally small and conservative. For example, `claude-3-haiku` resolves to `anthropic.claude-3-haiku-20240307-v1:0`, while the preserved Bedrock model ID remains the routing model.
-Static models: `claude-3-haiku`, `titan-text-express`, `titan-embed-text-v2`, `llama-3.2-11b-instruct`, `mistral-large-3`.
+Static models: `claude-3-haiku`, `anthropic.claude-sonnet-4`, `titan-text-express`, `titan-embed-text-v2`, `llama-3.2-11b-instruct`, `mistral-large-3`.
+## Inference Profiles
+Bare model IDs (e.g. `anthropic.claude-sonnet-4`) are automatically prefixed with the region-based inference profile prefix (`us.`, `eu.`, `ap.`) based on the configured region. Region mapping is defined in `REGION_PREFIX`:
+| Region | Prefix |
+|--------|--------|
+| `us-east-1`, `us-east-2`, `us-west-1`, `us-west-2` | `us` |
+| `eu-central-1`, `eu-west-*` | `eu` |
+| `ap-south-1`, `ap-southeast-*`, `ap-northeast-1` | `ap` |
+Models already prefixed (`us.`, `eu.`, `ap.`, `arn:`) are passed through unchanged.
+## Context Windows
+Static context window data is available for known models without making live API calls. Looked up by prefix match in `Provider::CONTEXT_WINDOWS`.
+| Model prefix | Context |
+|-------------|---------|
+| `anthropic.claude-*` (all) | 200,000 |
+| `meta.llama3*` | 128,000 |
+| `mistral.mistral-*` | 128,000 |
+| `amazon.nova-pro`, `nova-lite` | 300,000 |
+| `amazon.nova-micro` | 128,000 |
+| `amazon.titan-text-premier` | 32,000 |
+| `amazon.titan-text-express` | 8,192 |
 ## API Contract
@@ -132,17 +185,41 @@ The implementation is intentionally limited to Bedrock operations documented by
 - `ConverseStream` for streaming chat responses
 - `CountTokens` for token estimates
 - `InvokeModel` only for the Titan text embedding request shape implemented here
+- `InvokeModel` (non-streaming) for Anthropic models with thinking/tool use enabled
+- `InvokeModelWithResponseStream` for Anthropic models with thinking/tool use enabled
 Provider-specific request bodies are not guessed. Non-Titan embedding models raise until their documented body shape is added explicitly.
+## Tool Calls
+Tool calls follow the Bedrock Converse `tool_config` shape. When tool call history is present in the message array, assistant messages emit proper `{ tool_use: { tool_use_id, name, input } }` content blocks. Tool results use `{ tool_result: { tool_use_id, content } }` blocks.
+For Anthropic models with tools, the `invoke_model` path is used with native Anthropic tool formatting (`input_schema` wrapped in the tool definition).
+## Thinking (Extended Reasoning)
+When `thinking:` is passed to `chat`, `stream`, or `complete` for an Anthropic model:
+1. The provider detects the Anthropic model prefix and routes through `invoke_model` with the native Anthropic Messages API payload.
+2. Thinking config is serialized as `{ type: 'enabled', budget_tokens: N }`, accepting both `:budget_tokens` and `:budget` keys.
+3. Provider-specific keys (e.g. `:effort` from OpenAI) are stripped before sending.
+4. Responses parse thinking content from `content_blocks[type: 'thinking']` for `invoke_model`, and from `delta.reasoning.text` for `ConverseStream`.
+## Security
+- Static AWS credentials emit a deprecation warning. Set `security.block_static_aws_credentials: true` in settings to reject them entirely.
+- Bearer token authentication is supported via `Aws::StaticTokenProvider`, eliminating IMDS timeout on startup.
 ## Observability
 The Bedrock namespace and provider implementation include `Legion::Logging::Helper` for structured logging:
 - **Info-level**: provider connections, API calls (chat, stream, embed), model listing, health checks
-- **Debug-level**: offline health checks, readiness probes, and token counting
+- **Debug-level**: offline health checks, readiness probes, token counting, thinking config, request/response metadata
 - **Rescue blocks**: handled provider failures call `handle_exception(e, level:, handled:, operation:)` with dot-separated operation names such as `bedrock.provider.health`
+Set `BEDROCK_DEBUG_OUTPUT=/path/to/dir` to dump raw Bedrock responses and streaming events to JSON files for debugging.
 ## Development
 ```bash
@@ -152,12 +229,23 @@ bundle exec rubocop -A               # auto-fix
 bundle exec rubocop                  # lint check (0 offenses expected)
 ```
+### Test Structure
+| Spec file | Coverage |
+|-----------|----------|
+| `bedrock_spec.rb` | Provider surface: offerings, chat, stream, tools, embed, count_tokens, health, readiness, model listing, caching |
+| `discover_instances_spec.rb` | Credential discovery from ENV, Claude config, settings, Identity Broker, and deduplication |
+| `provider_contract_spec.rb` | Verifies all canonical methods use keyword-only arguments (no positional params) |
+| `actors/fleet_worker_spec.rb` | Fleet worker actor: runner class, function, use_runner?, enabled? |
+| `runners/fleet_worker_spec.rb` | Fleet worker runner: delegation to shared ProviderResponder |
 ## AWS References
 - [Converse](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_Converse.html)
 - [ConverseStream](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_ConverseStream.html)
 - [CountTokens](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_CountTokens.html)
 - [ListFoundationModels](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ListFoundationModels.html)
+- [InvokeModel](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html)
 - [Foundation model information](https://docs.aws.amazon.com/bedrock/latest/userguide/foundation-models-reference.html)
 ## License

data/lib/legion/extensions/llm/bedrock/provider.rb CHANGED Viewed

@@ -1,5 +1,6 @@
 # frozen_string_literal: true
+require 'base64'
 require 'aws-sdk-bedrock'
 require 'aws-sdk-bedrockruntime'
 require 'legion/json'
@@ -16,6 +17,7 @@ module Legion
           STATIC_MODELS = [
             { model: 'anthropic.claude-3-haiku-20240307-v1:0', alias: 'claude-3-haiku' },
+            { model: 'anthropic.claude-sonnet-4-20250514-v1:0', alias: 'anthropic.claude-sonnet-4' },
             { model: 'amazon.titan-text-express-v1', alias: 'titan-text-express' },
             { model: 'amazon.titan-embed-text-v2:0', alias: 'titan-embed-text-v2', usage_type: :embedding },
             { model: 'meta.llama3-2-11b-instruct-v1:0', alias: 'llama-3.2-11b-instruct' },
@@ -210,32 +212,124 @@ module Legion
             tools: {},
             tool_prefs: nil,
             params: {},
+            thinking: nil,
             **_provider_options
           )
             log.info { "bedrock.provider.chat: model=#{model_id(model)} messages=#{messages.size}" }
+            # Bedrock Converse API silently drops thinking config and tool_use blocks
+            # for Claude Sonnet 4+. Use invoke_model with native Anthropic payload.
+            if anthropic_model?(model_id(model)) && (thinking || (tools && !tools.empty?))
+              return invoke_model_chat(messages:, model:, temperature:, max_tokens:, tools:, tool_prefs:,
+                                       thinking:, params:)
+            end
             request = Utils.deep_merge(
-              converse_request(messages, model:, temperature:, max_tokens:, tools:, tool_prefs:),
+              converse_request(messages, model:, temperature:, max_tokens:, tools:, tool_prefs:, thinking:),
               params
             )
             log.debug do
               "bedrock.provider.chat: request prepared model=#{model_id(model)} tools=#{tools.size} " \
                 "tool_choice=#{tool_choice_label(tool_prefs)} param_keys=#{params.keys.map(&:to_s).sort.join(',')}"
             end
-            parse_converse_response(runtime_client.converse(**request), model_id(model))
+            # Log the thinking config being sent
+            thinking_config = request.dig(:additional_model_request_fields, :thinking)
+            log.debug { "bedrock.provider.chat: thinking_config=#{thinking_config.inspect}" } if thinking_config
+            start_time = Time.now
+            response = begin
+              runtime_client.converse(**request)
+            rescue StandardError => e
+              elapsed = ((Time.now - start_time) * 1000).round
+              log.error do
+                "bedrock.provider.chat: converse failed model=#{model_id(model)} " \
+                  "error=#{e.class}: #{e.message} elapsed_ms=#{elapsed}"
+              end
+              raise
+            end
+            elapsed = ((Time.now - start_time) * 1000).round
+            # Dump raw Bedrock response for debugging
+            raw_debug = response.respond_to?(:to_h) ? response.to_h : response.inspect[0, 2000]
+            dump_path = ENV.fetch('BEDROCK_DEBUG_OUTPUT', nil)
+            if dump_path
+              begin
+                dump_file = File.join(dump_path, "bedrock_chat_#{Time.now.strftime('%Y%m%d_%H%M%S')}.json")
+                File.write(dump_file, Legion::JSON.pretty_generate(raw_debug))
+                log.debug { "bedrock.provider.chat: raw response dumped to #{dump_file}" }
+              rescue StandardError => e
+                log.warn { "bedrock.provider.chat: failed to dump raw response: #{e.message}" }
+              end
+            end
+            # Log response metadata
+            usage = value(response, :usage) || {}
+            additional_fields = value(response, :additional_model_response_fields)
+            output = value(response, :output)
+            content_blocks = output ? value(output, :message) : nil
+            # AWS SDK content blocks are structs, not hashes — use safe inspection
+            block_types = if content_blocks
+                            Array(value(content_blocks, :content)).map do |b|
+                              if b.respond_to?(:reasoning)
+                                'reasoning'
+                              elsif b.respond_to?(:text)
+                                'text'
+                              elsif b.respond_to?(:tool_use)
+                                'tool_use'
+                              else
+                                b.class.name
+                              end
+                            end.inspect
+                          else
+                            'none'
+                          end
+            af_keys = if additional_fields.respond_to?(:to_h)
+                        additional_fields.to_h.keys.map(&:to_s).sort
+                      else
+                        additional_fields.respond_to?(:keys) ? additional_fields.keys.map(&:to_s).sort : []
+                      end
+            log.debug do
+              "bedrock.provider.chat: response received model=#{model_id(model)} elapsed_ms=#{elapsed} " \
+                "usage=#{usage.inspect} additional_fields_keys=#{af_keys.inspect} " \
+                "content_block_types=#{block_types}"
+            end
+            parse_converse_response(response, model_id(model))
           end
           def stream(messages:, model:, temperature: nil, max_tokens: nil, tools: {}, tool_prefs: nil, params: {},
-                     **_provider_options, &)
-            log.info { "bedrock.provider.stream: model=#{model_id(model)} messages=#{messages.size}" }
+                     thinking: nil, **_provider_options, &)
+            log.info do
+              "bedrock.provider.stream: model=#{model_id(model)} messages=#{messages.size} tools=#{tools.size}"
+            end
+            # Bedrock Converse API silently drops thinking config and tool_use blocks
+            # for Claude Sonnet 4+. Use invoke_model with native Anthropic payload.
+            if anthropic_model?(model_id(model)) && (thinking || (tools && !tools.empty?))
+              return invoke_model_stream(messages:, model:, temperature:, max_tokens:, tools:, tool_prefs:,
+                                         thinking:, params:, &)
+            end
             request = Utils.deep_merge(
-              converse_request(messages, model:, temperature:, max_tokens:, tools:, tool_prefs:),
+              converse_request(messages, model:, temperature:, max_tokens:, tools:, tool_prefs:, thinking:),
               params
             )
             log.debug do
               "bedrock.provider.stream: request prepared model=#{model_id(model)} tools=#{tools.size} " \
                 "tool_choice=#{tool_choice_label(tool_prefs)} param_keys=#{params.keys.map(&:to_s).sort.join(',')}"
             end
-            stream_converse(request, model_id(model), &)
+            # Log the thinking config being sent
+            thinking_config = request.dig(:additional_model_request_fields, :thinking)
+            log.debug { "bedrock.provider.stream: thinking_config=#{thinking_config.inspect}" } if thinking_config
+            start_time = Time.now
+            result = stream_converse(request, model_id(model), &)
+            elapsed = ((Time.now - start_time) * 1000).round
+            log.debug { "bedrock.provider.stream: completed model=#{model_id(model)} elapsed_ms=#{elapsed}" }
+            result
           end
           def count_tokens(
@@ -284,18 +378,434 @@ module Legion
                        tool_prefs: nil, &)
             payload = params.dup
             payload[:additional_model_request_fields] ||= {}
-            payload[:additional_model_request_fields][:thinking] = thinking if thinking
             payload[:additional_model_request_fields][:response_format] = schema if schema
             if block_given?
-              stream(messages:, model:, temperature:, tools:, tool_prefs:, params: payload, &)
+              stream(messages:, model:, temperature:, tools:, tool_prefs:, params: payload, thinking:, &)
             else
-              chat(messages:, model:, temperature:, tools:, tool_prefs:, params: payload)
+              chat(messages:, model:, temperature:, tools:, tool_prefs:, params: payload, thinking:)
             end
           end
           private
+          # Returns true if the model is an Anthropic model on Bedrock
+          def anthropic_model?(model_id)
+            return false unless model_id
+            mid = model_id.to_s
+            mid.start_with?('anthropic.', 'us.anthropic.', 'eu.anthropic.', 'ap.anthropic.')
+          end
+          # --- invoke_model path for thinking-enabled Anthropic models ---
+          # Bedrock Converse API silently drops thinking config for Claude Sonnet 4+.
+          # invoke_model uses the native Anthropic Messages API payload format which supports thinking.
+          def invoke_model_chat(messages:, model:, temperature:, max_tokens:, tools:, tool_prefs:,
+                                thinking:, _params: nil, **_rest)
+            mid = model_id(model)
+            body = build_invoke_model_body(
+              messages: messages, model: mid, temperature: temperature, max_tokens: max_tokens,
+              tools: tools, tool_prefs: tool_prefs, thinking: thinking
+            )
+            log.debug { "bedrock.provider.invoke_model_chat: model=#{mid} thinking=#{thinking.inspect}" }
+            response = runtime_client.invoke_model(
+              model_id: self.class.inference_profile_id(mid, region: region),
+              content_type: 'application/json',
+              accept: 'application/json',
+              body: Legion::JSON.generate(body)
+            )
+            # Read body once — it's a stream that can only be consumed once
+            body_raw = value(response, :body)
+            body_raw = body_raw.read if body_raw.respond_to?(:read)
+            body_raw = body_raw.string if body_raw.respond_to?(:string)
+            body_str = body_raw.to_s
+            # Dump raw invoke_model response for debugging
+            dump_path = ENV.fetch('BEDROCK_DEBUG_OUTPUT', nil)
+            if dump_path
+              begin
+                dump_file = File.join(dump_path, "bedrock_invoke_chat_#{Time.now.strftime('%Y%m%d_%H%M%S')}.json")
+                File.write(dump_file, body_str)
+                log.debug { "bedrock.provider.invoke_model_chat: raw response dumped to #{dump_file}" }
+              rescue StandardError => e
+                log.warn { "bedrock.provider.invoke_model_chat: failed to dump raw response: #{e.message}" }
+              end
+            end
+            # Wrap body string back into response so parse_invoke_model_response can use it
+            parsed_body = Legion::JSON.parse(body_str, symbolize_names: false)
+            parse_invoke_model_response_hash(parsed_body, mid)
+          end
+          def invoke_model_stream(messages:, model:, temperature:, max_tokens:, tools:, tool_prefs:,
+                                  thinking:, _params: nil, **_rest, &)
+            mid = model_id(model)
+            body = build_invoke_model_body(
+              messages: messages, model: mid, temperature: temperature, max_tokens: max_tokens,
+              tools: tools, tool_prefs: tool_prefs, thinking: thinking, streaming: true
+            )
+            log.debug { "bedrock.provider.invoke_model_stream: model=#{mid} thinking=#{thinking.inspect}" }
+            state = {
+              accumulated: +'',
+              thinking: +'',
+              final_usage: nil,
+              stop_reason: nil,
+              tool_use_blocks: [],
+              current_tool_use: nil,
+              in_thinking: false,
+              raw_events: []
+            }
+            dump_path = ENV.fetch('BEDROCK_DEBUG_OUTPUT', nil)
+            # rubocop:disable Metrics/BlockLength
+            runtime_client.invoke_model_with_response_stream(
+              model_id: self.class.inference_profile_id(mid, region: region),
+              content_type: 'application/json',
+              accept: 'application/json',
+              body: Legion::JSON.generate(body)
+            ) do |stream|
+              # ResponseStream is an event emitter (Aws::BedrockRuntime::EventStreams::ResponseStream).
+              # Wire on_chunk_event to receive actual data events.
+              # Each chunk contains base64-encoded JSON lines with Anthropic events.
+              log.debug { "bedrock.provider.invoke_model_stream: stream class=#{stream.class}" }
+              stream.on_chunk_event do |event|
+                raw = event.respond_to?(:bytes) ? event.bytes : nil
+                raw = raw.read if raw.respond_to?(:read)
+                next unless raw&.length&.positive?
+                # Bedrock invoke_model_with_response_stream payloads are gzip-compressed.
+                # Detect gzip magic bytes (0x1f8b) and decompress.
+                require 'zlib'
+                raw = Zlib::GzipReader.wrap(StringIO.new(raw), &:read) if raw.byteslice(0, 2) == "\x1f\x8b"
+                # Now raw is UTF-8 JSON lines (newline-delimited Anthropic events)
+                text = raw.force_encoding('UTF-8')
+                text.lines.each do |line|
+                  line = line.strip
+                  next if line.empty?
+                  raw_event = Legion::JSON.parse(line, symbolize_names: false)
+                  next unless raw_event.is_a?(Hash)
+                  event_type = raw_event['type'] || 'unknown'
+                  state[:raw_events] << { event: event_type, data: raw_event } if dump_path
+                  handle_invoke_model_stream_json(raw_event, state, mid) { |chunk| yield chunk if block_given? }
+                end
+              rescue StandardError => e
+                log.warn { "bedrock.provider.invoke_model_stream: chunk decode error=#{sanitize_log(e.message)}" }
+              end
+              stream.on_error_event do |event|
+                log.warn do
+                  "bedrock.provider.invoke_model_stream: error event ivars=#{event.instance_variables.inspect}"
+                end
+              end
+              stream.on_internal_server_exception_event do |event|
+                log.warn do
+                  'bedrock.provider.invoke_model_stream: internal_server_exception ' \
+                    "ivars=#{event.instance_variables.inspect}"
+                end
+              end
+              stream.on_model_stream_error_exception_event do |event|
+                log.warn do
+                  "bedrock.provider.invoke_model_stream: model_stream_error ivars=#{event.instance_variables.inspect}"
+                end
+              end
+            end
+            # rubocop:enable Metrics/BlockLength
+            # Dump raw streaming events for debugging
+            if dump_path && state[:raw_events].any?
+              begin
+                dump_file = File.join(dump_path, "bedrock_invoke_stream_#{Time.now.strftime('%Y%m%d_%H%M%S')}.json")
+                File.write(dump_file, Legion::JSON.pretty_generate(state[:raw_events]))
+                log.debug do
+                  "bedrock.provider.invoke_model_stream: #{state[:raw_events].size} raw events dumped to #{dump_file}"
+                end
+              rescue StandardError => e
+                log.warn { "bedrock.provider.invoke_model_stream: failed to dump raw events: #{e.message}" }
+              end
+            end
+            usage = state[:final_usage] || {}
+            msg_attrs = {
+              role: :assistant,
+              content: state[:accumulated],
+              model_id: mid,
+              tool_calls: build_stream_tool_calls(state[:tool_use_blocks]),
+              input_tokens: usage.fetch(:input_tokens, 0) || usage.fetch('input_tokens', 0),
+              output_tokens: usage.fetch(:output_tokens, 0) || usage.fetch('output_tokens', 0),
+              cached_tokens: usage.fetch(:cache_read_input_tokens, nil) || usage.fetch('cache_read_input_tokens', nil),
+              cache_creation_tokens: usage.fetch(:cache_creation_input_tokens,
+                                                 nil) || usage.fetch('cache_creation_input_tokens', nil),
+              stop_reason: state[:stop_reason]
+            }
+            msg_attrs[:thinking] = state[:thinking] unless state[:thinking].empty?
+            Legion::Extensions::Llm::Message.new(**msg_attrs)
+          end
+          def build_invoke_model_body(messages:, temperature:, max_tokens:, tools:, tool_prefs:, thinking:,
+                                      _model: nil, _streaming: false)
+            body = {
+              max_tokens: max_tokens || 4096,
+              messages: format_invoke_model_messages(messages),
+              anthropic_version: 'bedrock-2023-05-31'
+            }
+            body[:temperature] = temperature if temperature
+            if tools && !tools.empty?
+              tool_format = format_invoke_model_tools(tools, tool_prefs)
+              body[:tools] = tool_format[:tools]
+              body[:tool_choice] = tool_format[:tool_choice] if tool_format[:tool_choice]
+            end
+            body[:thinking] = invoke_model_thinking(thinking) if thinking
+            # NOTE: Don't include body[:stream] = true in the JSON body for invoke_model_with_response_stream.
+            # The endpoint itself implies streaming; Bedrock rejects the extra field.
+            body
+          end
+          # Strip provider-specific keys (e.g. effort from OpenAI) that Bedrock/Anthropic APIs don't accept.
+          def invoke_model_thinking(thinking)
+            return thinking unless thinking.is_a?(Hash)
+            thinking.except(:effort, 'effort')
+          end
+          def format_invoke_model_messages(messages)
+            messages.filter_map do |msg|
+              role = msg.respond_to?(:role) ? msg.role.to_s : (msg[:role] || msg['role']).to_s
+              next if role == 'system'
+              content = case role
+                        when 'tool'
+                          format_invoke_model_tool_result(msg)
+                        when 'assistant'
+                          format_invoke_model_assistant(msg)
+                        else
+                          format_invoke_model_content(msg)
+                        end
+              next if content.nil? || (content.is_a?(Array) && content.empty?)
+              { role: role, content: content }
+            end
+          end
+          def format_invoke_model_content(msg)
+            content = msg.respond_to?(:content) ? msg.content : (msg[:content] || msg['content'])
+            return [] if content.nil?
+            if content.is_a?(String)
+              [{ type: 'text', text: content }]
+            elsif content.is_a?(Array)
+              content.filter_map do |block|
+                type = (block[:type] || block['type']).to_s
+                next { type: 'text', text: block[:text] || block['text'] } if type == 'text'
+                block
+              end
+            else
+              [{ type: 'text', text: content.to_s }]
+            end
+          end
+          def format_invoke_model_tool_result(msg)
+            tool_call_id = if msg.respond_to?(:tool_call_id)
+                             msg.tool_call_id
+                           else
+                             msg[:tool_call_id] || msg['tool_call_id']
+                           end
+            content = if msg.respond_to?(:tool_results)
+                        msg.tool_results.to_s
+                      else
+                        (msg[:content] || msg['content']).to_s
+                      end
+            [{ type: 'tool_result', tool_use_id: tool_call_id, content: [{ type: 'text', text: content }] }]
+          end
+          def format_invoke_model_assistant(msg)
+            blocks = []
+            text = msg.respond_to?(:content) ? msg.content : (msg[:content] || msg['content'])
+            text_str = text.to_s
+            blocks << { type: 'text', text: text_str } unless text_str.strip.empty?
+            tool_calls = msg.respond_to?(:tool_calls) ? msg.tool_calls : (msg[:tool_calls] || msg['tool_calls'] || {})
+            call_array = tool_calls.is_a?(Hash) ? tool_calls.values : Array(tool_calls)
+            call_array.each do |call|
+              call_id = call.respond_to?(:id) ? call.id : (call[:id] || call['id'])
+              call_name = call.respond_to?(:name) ? call.name : (call[:name] || call['name'])
+              call_args = if call.respond_to?(:arguments)
+                            call.arguments
+                          else
+                            call[:arguments] || call['arguments'] || {}
+                          end
+              blocks << {
+                type: 'tool_use',
+                id: call_id,
+                name: call_name,
+                input: call_args
+              }
+            end
+            blocks
+          end
+          def format_invoke_model_tools(tools, tool_prefs)
+            tool_list = tools.values.map do |tool|
+              {
+                name: tool[:name] || tool['name'],
+                description: tool[:description] || tool['description'] || '',
+                input_schema: tool[:params_schema] || tool['params_schema'] ||
+                  { type: 'object', properties: {} }
+              }
+            end
+            result = { tools: tool_list }
+            if tool_prefs
+              choice = tool_prefs[:choice] || tool_prefs['choice']
+              result[:tool_choice] = if [:required, 'required'].include?(choice)
+                                       { type: 'any' }
+                                     elsif choice.to_s != 'auto' && !choice.to_s.empty?
+                                       { type: 'tool', name: choice.to_s }
+                                     else
+                                       { type: 'auto' }
+                                     end
+            end
+            result
+          end
+          def parse_invoke_model_response(response, model_id)
+            body_raw = value(response, :body)
+            body_raw = body_raw.read if body_raw.respond_to?(:read)
+            body_raw = body_raw.string if body_raw.respond_to?(:string)
+            body = Legion::JSON.parse(body_raw, symbolize_names: false)
+            build_invoke_model_message(body, model_id)
+          end
+          def parse_invoke_model_response_hash(body, model_id)
+            # body is already a parsed Hash from Legion::JSON.parse
+            build_invoke_model_message(body, model_id)
+          end
+          def build_invoke_model_message(body, model_id)
+            content_blocks = body['content'] || []
+            text_parts = content_blocks.filter_map { |b| b['text'] if b['type'] == 'text' }.join
+            thinking_text = content_blocks.filter_map { |b| b['thinking'] if b['type'] == 'thinking' }.join
+            tool_calls_raw = content_blocks.select { |b| b['type'] == 'tool_use' }
+            tc = {}
+            tool_calls_raw.each do |tc_block|
+              tc[tc_block['id']] = Legion::Extensions::Llm::ToolCall.new(
+                id: tc_block['id'], name: tc_block['name'], arguments: tc_block['input'] || {}
+              )
+            end
+            usage = body['usage'] || {}
+            msg_attrs = {
+              role: :assistant,
+              content: text_parts,
+              model_id: model_id,
+              tool_calls: tc.empty? ? nil : tc,
+              input_tokens: usage['input_tokens'] || 0,
+              output_tokens: usage['output_tokens'] || 0,
+              cached_tokens: usage['cache_read_input_tokens'],
+              cache_creation_tokens: usage['cache_creation_input_tokens']
+            }
+            msg_attrs[:thinking] = thinking_text unless thinking_text.empty?
+            Legion::Extensions::Llm::Message.new(**msg_attrs)
+          end
+          def handle_invoke_model_stream_json(event_json, state, model_id)
+            # event_json is a Hash like { "type": "message_start", "message": { ... } }
+            case event_json['type']
+            when 'message_start'
+              msg = event_json['message'] || {}
+              state[:final_usage] = msg['usage'] || {}
+            when 'content_block_start'
+              block = event_json['content_block'] || {}
+              block_type = block['type'].to_s
+              state[:in_thinking] = (block_type == 'thinking')
+              if block_type == 'tool_use'
+                state[:current_tool_use] = {
+                  tool_use_id: block['id'],
+                  name: block['name'],
+                  input_json: +''
+                }
+              elsif block_type != 'thinking'
+                state[:in_thinking] = false
+              end
+            when 'content_block_delta'
+              delta = event_json['delta'] || {}
+              delta_type = delta['type'].to_s
+              case delta_type
+              when 'thinking_delta'
+                text = delta['thinking'] || ''
+                state[:thinking] << text
+                if block_given? && !text.empty?
+                  yield Legion::Extensions::Llm::Chunk.new(
+                    role: :assistant,
+                    content: '',
+                    thinking: { content: text, enabled: true },
+                    model_id: model_id
+                  )
+                end
+              when 'text_delta'
+                text = delta['text'] || ''
+                state[:accumulated] << text
+                if block_given?
+                  yield Legion::Extensions::Llm::Chunk.new(role: :assistant, content: text,
+                                                           model_id: model_id)
+                end
+              when 'input_json_delta'
+                partial = delta['partial_json'] || ''
+                state[:current_tool_use][:input_json] << partial
+                if block_given? && !partial.empty?
+                  yield Legion::Extensions::Llm::Chunk.new(
+                    role: :assistant,
+                    content: '',
+                    tool_calls: {
+                      state[:current_tool_use][:tool_use_id].to_sym =>
+                        Legion::Extensions::Llm::ToolCall.new(
+                          id: state[:current_tool_use][:tool_use_id],
+                          name: state[:current_tool_use][:name],
+                          arguments: partial
+                        )
+                    },
+                    model_id: model_id
+                  )
+                end
+              end
+            when 'content_block_stop'
+              if state[:current_tool_use]
+                state[:tool_use_blocks] << state[:current_tool_use]
+                state[:current_tool_use] = nil
+              end
+            when 'message_delta'
+              delta = event_json['delta'] || {}
+              state[:stop_reason] = delta['stop_reason']
+            end
+          rescue StandardError => e
+            log.warn { "bedrock.provider.invoke_model_stream_json: error=#{e.message}" }
+          end
           def static_offerings(**filters)
             STATIC_MODELS.filter_map do |entry|
               provider_filter = normalize_provider(filters[:by_provider])
@@ -363,17 +873,35 @@ module Legion
             ctx ? { context_window: ctx } : nil
           end
-          def converse_request(messages, model:, temperature:, max_tokens:, tools:, tool_prefs:, guardrail_config: nil)
+          def converse_request(messages, model:, temperature:, max_tokens:, tools:, tool_prefs:, guardrail_config: nil,
+                               thinking: nil)
             {
               model_id: self.class.inference_profile_id(model_id(model), region: region),
               messages: format_messages(messages.reject { |message| message.role == :system }),
               system: format_system(messages),
               inference_config: { temperature: temperature, max_tokens: max_tokens || model_max_tokens(model) }.compact,
               tool_config: format_tool_config(tools, tool_prefs),
-              guardrail_config: guardrail_config
+              guardrail_config: guardrail_config,
+              additional_model_request_fields: bedrock_additional_fields(thinking)
             }.compact
           end
+          def bedrock_additional_fields(thinking)
+            fields = {}
+            if thinking
+              fields[:thinking] = {
+                type: 'enabled',
+                budget_tokens: if thinking.is_a?(Hash)
+                                 thinking[:budget_tokens] || thinking['budget_tokens'] ||
+                                   thinking[:budget] || thinking['budget'] || 1024
+                               else
+                                 1024
+                               end
+              }
+            end
+            fields.empty? ? nil : fields
+          end
           def format_messages(messages)
             total = messages.size
             messages.filter_map.with_index do |message, idx|
@@ -389,9 +917,10 @@ module Legion
             return [] unless message.tool_result?
             [{
-              type: 'tool_result',
-              tool_use: { tool_use_id: message.tool_call_id },
-              content: [{ type: 'text', text: message.tool_results.to_s }]
+              tool_result: {
+                tool_use_id: message.tool_call_id,
+                content: [{ text: message.tool_results.to_s }]
+              }
             }]
           end
@@ -439,7 +968,7 @@ module Legion
             text = content_text(message.content)
             blocks << { text: text } if text && !text.strip.empty?
-            message.tool_calls.each do |call|
+            message.tool_calls.each_value do |call|
               blocks << {
                 tool_use: {
                   tool_use_id: call.id,
@@ -562,27 +1091,133 @@ module Legion
           def parse_converse_response(response, fallback_model)
             output = value(response, :output)
             message = value(output, :message)
+            content_blocks = value(message, :content)
             usage = value(response, :usage) || {}
+            additional_fields = value(response, :additional_model_response_fields)
-            Legion::Extensions::Llm::Message.new(
+            msg_attrs = {
               role: :assistant,
-              content: text_from(value(message, :content)),
+              content: text_from(content_blocks),
               model_id: fallback_model,
-              tool_calls: parse_tool_calls(value(message, :content)),
+              tool_calls: parse_tool_calls(content_blocks),
               input_tokens: value(usage, :input_tokens),
               output_tokens: value(usage, :output_tokens),
               cached_tokens: cache_read_tokens(usage),
               cache_creation_tokens: cache_write_tokens(usage),
               raw: normalize_response(response)
-            )
+            }
+            # Bedrock Converse returns thinking in two possible locations:
+            # 1. Content blocks: { reasoning: { text: "..." } }
+            # 2. Additional model response fields: { thinking: { reasoningContent: { chunk: { text } } } }
+            thinking_text = extract_thinking_from_content(content_blocks) ||
+                            (additional_fields ? extract_thinking_from_fields(additional_fields) : nil)
+            msg_attrs[:thinking] = thinking_text if thinking_text
+            Legion::Extensions::Llm::Message.new(**msg_attrs)
+          end
+          def extract_thinking_from_content(content_blocks)
+            return nil unless content_blocks
+            Array(content_blocks).each do |block|
+              reasoning = value(block, :reasoning)
+              # reasoning can be a Hash or an AWS SDK struct (Aws::BedrockRuntime::Types::ReasoningContent)
+              next if reasoning.nil?
+              text = if reasoning.is_a?(Hash)
+                       reasoning[:text] || reasoning['text']
+                     else
+                       # AWS SDK struct — use value() to safely extract the :text field
+                       value(reasoning, :text)
+                     end
+              return text.to_s unless text.to_s.empty?
+            end
+            nil
+          end
+          def extract_thinking_from_fields(additional_fields)
+            thinking = additional_fields[:thinking] || additional_fields['thinking']
+            return nil unless thinking.is_a?(Hash)
+            # Bedrock Converse API returns thinking in multiple shapes depending on model:
+            # - Claude direct: { text: "..." }
+            # - Claude via Converse: { reasoningContent: { chunk: { text: "..." } } }
+            # - Some models: { reasoning_text: "..." } or { reasoning: "..." }
+            content = thinking[:text] || thinking['text'] ||
+                      thinking[:reasoning_text] || thinking['reasoningText'] ||
+                      thinking[:reasoning] || thinking['reasoning'] ||
+                      reasoning_content_text(thinking)
+            content.to_s unless content.to_s.empty?
+          end
+          def reasoning_content_text(thinking)
+            rc = thinking[:reasoningContent] || thinking['reasoningContent']
+            return nil unless rc.is_a?(Hash)
+            # Handle the nested chunk structure from Bedrock Converse
+            chunk = rc[:chunk] || rc['chunk']
+            if chunk.is_a?(Hash)
+              chunk[:text] || chunk['text']
+            else
+              rc[:text] || rc['text']
+            end
           end
           def stream_converse(request, fallback_model)
             state = { accumulated: +'', thinking: +'', final_usage: nil, stop_reason: nil,
-                      tool_use_blocks: [], current_tool_use: nil, in_thinking: false }
+                      tool_use_blocks: [], current_tool_use: nil, in_thinking: false,
+                      raw_events: [] }
+            log.debug do
+              "bedrock.provider.stream_converse: starting model=#{fallback_model} tools=#{state[:tool_use_blocks].size}"
+            end
+            dump_path = ENV.fetch('BEDROCK_DEBUG_OUTPUT', nil)
             runtime_client.converse_stream(**request) do |stream|
               wire_stream_handlers(stream, state, fallback_model) { |chunk| yield chunk if block_given? }
+              # Capture all raw events for debugging
+              if dump_path
+                stream.on_content_block_start_event do |evt|
+                  state[:raw_events] << { event: 'content_block_start', data: safe_event_data(evt) }
+                end
+                stream.on_content_block_delta_event do |evt|
+                  state[:raw_events] << { event: 'content_block_delta', data: safe_event_data(evt) }
+                end
+                stream.on_content_block_stop_event do |evt|
+                  state[:raw_events] << { event: 'content_block_stop', data: safe_event_data(evt) }
+                end
+                stream.on_message_start_event do |evt|
+                  state[:raw_events] << { event: 'message_start', data: safe_event_data(evt) }
+                end
+                stream.on_message_stop_event do |evt|
+                  state[:raw_events] << { event: 'message_stop', data: safe_event_data(evt) }
+                end
+                stream.on_metadata_event do |evt|
+                  state[:raw_events] << { event: 'metadata', data: safe_event_data(evt) }
+                end
+              end
+            end
+            # Dump raw streaming events for debugging
+            if dump_path && state[:raw_events].any?
+              begin
+                dump_file = File.join(dump_path, "bedrock_stream_#{Time.now.strftime('%Y%m%d_%H%M%S')}.json")
+                File.write(dump_file, Legion::JSON.pretty_generate(state[:raw_events]))
+                log.debug do
+                  "bedrock.provider.stream_converse: #{state[:raw_events].size} raw events dumped to #{dump_file}"
+                end
+              rescue StandardError => e
+                log.warn { "bedrock.provider.stream_converse: failed to dump raw events: #{e.message}" }
+              end
+            end
+            log.debug do
+              "bedrock.provider.stream_converse: completed model=#{fallback_model} " \
+                "accumulated_length=#{state[:accumulated].length} thinking_length=#{state[:thinking].length} " \
+                "tool_use_blocks=#{state[:tool_use_blocks].size} stop_reason=#{state[:stop_reason]}"
             end
             msg_attrs = {
@@ -614,7 +1249,9 @@ module Legion
             stream.on_content_block_start_event do |event|
               start = value(event, :start)
-              if value(start, :thinking)
+              # Bedrock Converse uses 'reasoning' blocks for thinking content,
+              # and 'thinking' blocks for legacy/direct invoke_model responses
+              if value(start, :thinking) || value(start, :reasoning)
                 state[:in_thinking] = true
                 next
               end
@@ -634,7 +1271,11 @@ module Legion
           def wire_block_delta(stream, state, fallback_model)
             stream.on_content_block_delta_event do |event|
               delta = value(event, :delta)
-              text = value(delta, :text)
+              # Bedrock streaming: text blocks use delta.text,
+              # reasoning/thinking blocks use delta.reasoning.text or delta.thinking.text
+              text = value(delta, :text) ||
+                     (value(delta, :reasoning) ? value(reasoning_delta, :text) : nil) ||
+                     (value(delta, :thinking) ? value(thinking_delta, :text) : nil)
               if text
                 if state[:in_thinking]
                   state[:thinking] << text
@@ -857,6 +1498,12 @@ module Legion
             body.is_a?(String) ? Legion::JSON.parse(body, symbolize_names: false) : body.to_h
           end
+          # Safely extract event data for debugging — AWS SDK structs
+          # may or may not respond to #to_h
+          def safe_event_data(evt)
+            evt.respond_to?(:to_h) ? evt.to_h : evt.inspect[0, 500]
+          end
           def normalize_response(response)
             response.respond_to?(:to_h) ? response.to_h : {}
           end
@@ -865,8 +1512,13 @@ module Legion
             return nil if object.nil?
             string_key = key.to_s
-            return object[key] if object.respond_to?(:key?) && object.key?(key)
-            return object[string_key] if object.respond_to?(:key?) && object.key?(string_key)
+            val = safe_struct_access(object, key)
+            return val unless val.nil?
+            val = safe_struct_access(object, string_key)
+            return val unless val.nil?
             return object.public_send(key) if object.respond_to?(key)
             if object.respond_to?(:to_h)
@@ -877,6 +1529,26 @@ module Legion
             nil
           end
+          # Sanitize potentially binary/non-UTF-8 strings for safe logging
+          def sanitize_log(str)
+            return str unless str.is_a?(String)
+            str.force_encoding('UTF-8').scrub('?')
+          rescue StandardError
+            str.inspect
+          end
+          def safe_struct_access(object, key)
+            return nil unless object.respond_to?(:key?) && object.key?(key)
+            object[key]
+          rescue NameError
+            # AWS SDK structs (Aws::Structure) define members in their schema
+            # but may not populate them in every response. A missing value
+            # raises NameError instead of returning nil.
+            nil
+          end
         end
       end
     end

data/lib/legion/extensions/llm/bedrock/version.rb CHANGED Viewed

@@ -4,7 +4,7 @@ module Legion
   module Extensions
     module Llm
       module Bedrock
-        VERSION = '0.3.12'
+        VERSION = '0.3.18'
       end
     end
   end

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: lex-llm-bedrock
 version: !ruby/object:Gem::Version
-  version: 0.3.12
+  version: 0.3.18
 platform: ruby
 authors:
 - LegionIO