npm - @livekit/agents - Versions diffs - 1.0.47 → 1.1.0-dev.0 - Mend

@livekit/agents 1.0.47 → 1.1.0-dev.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (444) hide show

package/dist/beta/index.cjs +29 -0
package/dist/beta/index.cjs.map +1 -0
package/dist/beta/index.d.cts +2 -0
package/dist/beta/index.d.ts +2 -0
package/dist/beta/index.d.ts.map +1 -0
package/dist/beta/index.js +7 -0
package/dist/beta/index.js.map +1 -0
package/dist/beta/workflows/index.cjs +29 -0
package/dist/beta/workflows/index.cjs.map +1 -0
package/dist/beta/workflows/index.d.cts +2 -0
package/dist/beta/workflows/index.d.ts +2 -0
package/dist/beta/workflows/index.d.ts.map +1 -0
package/dist/beta/workflows/index.js +7 -0
package/dist/beta/workflows/index.js.map +1 -0
package/dist/beta/workflows/task_group.cjs +162 -0
package/dist/beta/workflows/task_group.cjs.map +1 -0
package/dist/beta/workflows/task_group.d.cts +32 -0
package/dist/beta/workflows/task_group.d.ts +32 -0
package/dist/beta/workflows/task_group.d.ts.map +1 -0
package/dist/beta/workflows/task_group.js +138 -0
package/dist/beta/workflows/task_group.js.map +1 -0
package/dist/constants.cjs +27 -0
package/dist/constants.cjs.map +1 -1
package/dist/constants.d.cts +9 -0
package/dist/constants.d.ts +9 -0
package/dist/constants.d.ts.map +1 -1
package/dist/constants.js +18 -0
package/dist/constants.js.map +1 -1
package/dist/index.cjs +3 -0
package/dist/index.cjs.map +1 -1
package/dist/index.d.cts +2 -1
package/dist/index.d.ts +2 -1
package/dist/index.d.ts.map +1 -1
package/dist/index.js +2 -0
package/dist/index.js.map +1 -1
package/dist/inference/api_protos.d.cts +12 -12
package/dist/inference/api_protos.d.ts +12 -12
package/dist/inference/interruption/defaults.cjs +81 -0
package/dist/inference/interruption/defaults.cjs.map +1 -0
package/dist/inference/interruption/defaults.d.cts +19 -0
package/dist/inference/interruption/defaults.d.ts +19 -0
package/dist/inference/interruption/defaults.d.ts.map +1 -0
package/dist/inference/interruption/defaults.js +46 -0
package/dist/inference/interruption/defaults.js.map +1 -0
package/dist/inference/interruption/errors.cjs +44 -0
package/dist/inference/interruption/errors.cjs.map +1 -0
package/dist/inference/interruption/errors.d.cts +12 -0
package/dist/inference/interruption/errors.d.ts +12 -0
package/dist/inference/interruption/errors.d.ts.map +1 -0
package/dist/inference/interruption/errors.js +20 -0
package/dist/inference/interruption/errors.js.map +1 -0
package/dist/inference/interruption/http_transport.cjs +147 -0
package/dist/inference/interruption/http_transport.cjs.map +1 -0
package/dist/inference/interruption/http_transport.d.cts +63 -0
package/dist/inference/interruption/http_transport.d.ts +63 -0
package/dist/inference/interruption/http_transport.d.ts.map +1 -0
package/dist/inference/interruption/http_transport.js +121 -0
package/dist/inference/interruption/http_transport.js.map +1 -0
package/dist/inference/interruption/interruption_cache_entry.cjs +58 -0
package/dist/inference/interruption/interruption_cache_entry.cjs.map +1 -0
package/dist/inference/interruption/interruption_cache_entry.d.cts +30 -0
package/dist/inference/interruption/interruption_cache_entry.d.ts +30 -0
package/dist/inference/interruption/interruption_cache_entry.d.ts.map +1 -0
package/dist/inference/interruption/interruption_cache_entry.js +34 -0
package/dist/inference/interruption/interruption_cache_entry.js.map +1 -0
package/dist/inference/interruption/interruption_detector.cjs +181 -0
package/dist/inference/interruption/interruption_detector.cjs.map +1 -0
package/dist/inference/interruption/interruption_detector.d.cts +59 -0
package/dist/inference/interruption/interruption_detector.d.ts +59 -0
package/dist/inference/interruption/interruption_detector.d.ts.map +1 -0
package/dist/inference/interruption/interruption_detector.js +147 -0
package/dist/inference/interruption/interruption_detector.js.map +1 -0
package/dist/inference/interruption/interruption_stream.cjs +368 -0
package/dist/inference/interruption/interruption_stream.cjs.map +1 -0
package/dist/inference/interruption/interruption_stream.d.cts +46 -0
package/dist/inference/interruption/interruption_stream.d.ts +46 -0
package/dist/inference/interruption/interruption_stream.d.ts.map +1 -0
package/dist/inference/interruption/interruption_stream.js +344 -0
package/dist/inference/interruption/interruption_stream.js.map +1 -0
package/dist/inference/interruption/types.cjs +17 -0
package/dist/inference/interruption/types.cjs.map +1 -0
package/dist/inference/interruption/types.d.cts +66 -0
package/dist/inference/interruption/types.d.ts +66 -0
package/dist/inference/interruption/types.d.ts.map +1 -0
package/dist/inference/interruption/types.js +1 -0
package/dist/inference/interruption/types.js.map +1 -0
package/dist/inference/interruption/utils.cjs +130 -0
package/dist/inference/interruption/utils.cjs.map +1 -0
package/dist/inference/interruption/utils.d.cts +41 -0
package/dist/inference/interruption/utils.d.ts +41 -0
package/dist/inference/interruption/utils.d.ts.map +1 -0
package/dist/inference/interruption/utils.js +105 -0
package/dist/inference/interruption/utils.js.map +1 -0
package/dist/inference/interruption/utils.test.cjs +105 -0
package/dist/inference/interruption/utils.test.cjs.map +1 -0
package/dist/inference/interruption/utils.test.js +104 -0
package/dist/inference/interruption/utils.test.js.map +1 -0
package/dist/inference/interruption/ws_transport.cjs +329 -0
package/dist/inference/interruption/ws_transport.cjs.map +1 -0
package/dist/inference/interruption/ws_transport.d.cts +33 -0
package/dist/inference/interruption/ws_transport.d.ts +33 -0
package/dist/inference/interruption/ws_transport.d.ts.map +1 -0
package/dist/inference/interruption/ws_transport.js +295 -0
package/dist/inference/interruption/ws_transport.js.map +1 -0
package/dist/inference/llm.cjs +14 -10
package/dist/inference/llm.cjs.map +1 -1
package/dist/inference/llm.d.cts +2 -1
package/dist/inference/llm.d.ts +2 -1
package/dist/inference/llm.d.ts.map +1 -1
package/dist/inference/llm.js +8 -10
package/dist/inference/llm.js.map +1 -1
package/dist/inference/stt.cjs +7 -2
package/dist/inference/stt.cjs.map +1 -1
package/dist/inference/stt.d.cts +2 -0
package/dist/inference/stt.d.ts +2 -0
package/dist/inference/stt.d.ts.map +1 -1
package/dist/inference/stt.js +8 -3
package/dist/inference/stt.js.map +1 -1
package/dist/inference/tts.cjs +7 -2
package/dist/inference/tts.cjs.map +1 -1
package/dist/inference/tts.d.cts +2 -0
package/dist/inference/tts.d.ts +2 -0
package/dist/inference/tts.d.ts.map +1 -1
package/dist/inference/tts.js +8 -3
package/dist/inference/tts.js.map +1 -1
package/dist/inference/utils.cjs +26 -7
package/dist/inference/utils.cjs.map +1 -1
package/dist/inference/utils.d.cts +13 -0
package/dist/inference/utils.d.ts +13 -0
package/dist/inference/utils.d.ts.map +1 -1
package/dist/inference/utils.js +18 -2
package/dist/inference/utils.js.map +1 -1
package/dist/llm/chat_context.cjs +108 -2
package/dist/llm/chat_context.cjs.map +1 -1
package/dist/llm/chat_context.d.cts +28 -1
package/dist/llm/chat_context.d.ts +28 -1
package/dist/llm/chat_context.d.ts.map +1 -1
package/dist/llm/chat_context.js +108 -2
package/dist/llm/chat_context.js.map +1 -1
package/dist/llm/chat_context.test.cjs +43 -0
package/dist/llm/chat_context.test.cjs.map +1 -1
package/dist/llm/chat_context.test.js +43 -0
package/dist/llm/chat_context.test.js.map +1 -1
package/dist/llm/index.cjs +2 -0
package/dist/llm/index.cjs.map +1 -1
package/dist/llm/index.d.cts +2 -2
package/dist/llm/index.d.ts +2 -2
package/dist/llm/index.d.ts.map +1 -1
package/dist/llm/index.js +3 -1
package/dist/llm/index.js.map +1 -1
package/dist/llm/llm.cjs +16 -1
package/dist/llm/llm.cjs.map +1 -1
package/dist/llm/llm.d.cts +9 -0
package/dist/llm/llm.d.ts +9 -0
package/dist/llm/llm.d.ts.map +1 -1
package/dist/llm/llm.js +16 -1
package/dist/llm/llm.js.map +1 -1
package/dist/llm/provider_format/index.d.cts +1 -1
package/dist/llm/provider_format/index.d.ts +1 -1
package/dist/llm/realtime.cjs +3 -0
package/dist/llm/realtime.cjs.map +1 -1
package/dist/llm/realtime.d.cts +1 -0
package/dist/llm/realtime.d.ts +1 -0
package/dist/llm/realtime.d.ts.map +1 -1
package/dist/llm/realtime.js +3 -0
package/dist/llm/realtime.js.map +1 -1
package/dist/llm/tool_context.cjs +7 -0
package/dist/llm/tool_context.cjs.map +1 -1
package/dist/llm/tool_context.d.cts +10 -2
package/dist/llm/tool_context.d.ts +10 -2
package/dist/llm/tool_context.d.ts.map +1 -1
package/dist/llm/tool_context.js +6 -0
package/dist/llm/tool_context.js.map +1 -1
package/dist/metrics/base.cjs.map +1 -1
package/dist/metrics/base.d.cts +45 -1
package/dist/metrics/base.d.ts +45 -1
package/dist/metrics/base.d.ts.map +1 -1
package/dist/metrics/index.cjs +5 -0
package/dist/metrics/index.cjs.map +1 -1
package/dist/metrics/index.d.cts +2 -1
package/dist/metrics/index.d.ts +2 -1
package/dist/metrics/index.d.ts.map +1 -1
package/dist/metrics/index.js +6 -0
package/dist/metrics/index.js.map +1 -1
package/dist/metrics/model_usage.cjs +189 -0
package/dist/metrics/model_usage.cjs.map +1 -0
package/dist/metrics/model_usage.d.cts +92 -0
package/dist/metrics/model_usage.d.ts +92 -0
package/dist/metrics/model_usage.d.ts.map +1 -0
package/dist/metrics/model_usage.js +164 -0
package/dist/metrics/model_usage.js.map +1 -0
package/dist/metrics/model_usage.test.cjs +474 -0
package/dist/metrics/model_usage.test.cjs.map +1 -0
package/dist/metrics/model_usage.test.js +476 -0
package/dist/metrics/model_usage.test.js.map +1 -0
package/dist/metrics/usage_collector.cjs +3 -0
package/dist/metrics/usage_collector.cjs.map +1 -1
package/dist/metrics/usage_collector.d.cts +9 -0
package/dist/metrics/usage_collector.d.ts +9 -0
package/dist/metrics/usage_collector.d.ts.map +1 -1
package/dist/metrics/usage_collector.js +3 -0
package/dist/metrics/usage_collector.js.map +1 -1
package/dist/metrics/utils.cjs +9 -0
package/dist/metrics/utils.cjs.map +1 -1
package/dist/metrics/utils.d.ts.map +1 -1
package/dist/metrics/utils.js +9 -0
package/dist/metrics/utils.js.map +1 -1
package/dist/stream/multi_input_stream.test.cjs +4 -0
package/dist/stream/multi_input_stream.test.cjs.map +1 -1
package/dist/stream/multi_input_stream.test.js +5 -1
package/dist/stream/multi_input_stream.test.js.map +1 -1
package/dist/stream/stream_channel.cjs +31 -0
package/dist/stream/stream_channel.cjs.map +1 -1
package/dist/stream/stream_channel.d.cts +4 -2
package/dist/stream/stream_channel.d.ts +4 -2
package/dist/stream/stream_channel.d.ts.map +1 -1
package/dist/stream/stream_channel.js +31 -0
package/dist/stream/stream_channel.js.map +1 -1
package/dist/stt/stt.cjs +34 -2
package/dist/stt/stt.cjs.map +1 -1
package/dist/stt/stt.d.cts +22 -0
package/dist/stt/stt.d.ts +22 -0
package/dist/stt/stt.d.ts.map +1 -1
package/dist/stt/stt.js +34 -2
package/dist/stt/stt.js.map +1 -1
package/dist/telemetry/otel_http_exporter.cjs +24 -5
package/dist/telemetry/otel_http_exporter.cjs.map +1 -1
package/dist/telemetry/otel_http_exporter.d.cts +1 -0
package/dist/telemetry/otel_http_exporter.d.ts +1 -0
package/dist/telemetry/otel_http_exporter.d.ts.map +1 -1
package/dist/telemetry/otel_http_exporter.js +24 -5
package/dist/telemetry/otel_http_exporter.js.map +1 -1
package/dist/telemetry/trace_types.cjs +5 -5
package/dist/telemetry/trace_types.cjs.map +1 -1
package/dist/telemetry/trace_types.d.cts +9 -5
package/dist/telemetry/trace_types.d.ts +9 -5
package/dist/telemetry/trace_types.d.ts.map +1 -1
package/dist/telemetry/trace_types.js +5 -5
package/dist/telemetry/trace_types.js.map +1 -1
package/dist/telemetry/traces.cjs +47 -8
package/dist/telemetry/traces.cjs.map +1 -1
package/dist/telemetry/traces.d.ts.map +1 -1
package/dist/telemetry/traces.js +47 -8
package/dist/telemetry/traces.js.map +1 -1
package/dist/tts/tts.cjs +64 -2
package/dist/tts/tts.cjs.map +1 -1
package/dist/tts/tts.d.cts +34 -0
package/dist/tts/tts.d.ts +34 -0
package/dist/tts/tts.d.ts.map +1 -1
package/dist/tts/tts.js +64 -2
package/dist/tts/tts.js.map +1 -1
package/dist/utils.cjs +1 -0
package/dist/utils.cjs.map +1 -1
package/dist/utils.d.ts.map +1 -1
package/dist/utils.js +1 -0
package/dist/utils.js.map +1 -1
package/dist/version.cjs +1 -1
package/dist/version.js +1 -1
package/dist/voice/agent.cjs +34 -4
package/dist/voice/agent.cjs.map +1 -1
package/dist/voice/agent.d.cts +11 -2
package/dist/voice/agent.d.ts +11 -2
package/dist/voice/agent.d.ts.map +1 -1
package/dist/voice/agent.js +34 -4
package/dist/voice/agent.js.map +1 -1
package/dist/voice/agent_activity.cjs +292 -44
package/dist/voice/agent_activity.cjs.map +1 -1
package/dist/voice/agent_activity.d.cts +27 -6
package/dist/voice/agent_activity.d.ts +27 -6
package/dist/voice/agent_activity.d.ts.map +1 -1
package/dist/voice/agent_activity.js +293 -45
package/dist/voice/agent_activity.js.map +1 -1
package/dist/voice/agent_session.cjs +105 -48
package/dist/voice/agent_session.cjs.map +1 -1
package/dist/voice/agent_session.d.cts +90 -20
package/dist/voice/agent_session.d.ts +90 -20
package/dist/voice/agent_session.d.ts.map +1 -1
package/dist/voice/agent_session.js +105 -46
package/dist/voice/agent_session.js.map +1 -1
package/dist/voice/audio_recognition.cjs +287 -6
package/dist/voice/audio_recognition.cjs.map +1 -1
package/dist/voice/audio_recognition.d.cts +42 -3
package/dist/voice/audio_recognition.d.ts +42 -3
package/dist/voice/audio_recognition.d.ts.map +1 -1
package/dist/voice/audio_recognition.js +289 -7
package/dist/voice/audio_recognition.js.map +1 -1
package/dist/voice/client_events.cjs +554 -0
package/dist/voice/client_events.cjs.map +1 -0
package/dist/voice/client_events.d.cts +195 -0
package/dist/voice/client_events.d.ts +195 -0
package/dist/voice/client_events.d.ts.map +1 -0
package/dist/voice/client_events.js +548 -0
package/dist/voice/client_events.js.map +1 -0
package/dist/voice/events.cjs +1 -0
package/dist/voice/events.cjs.map +1 -1
package/dist/voice/events.d.cts +8 -5
package/dist/voice/events.d.ts +8 -5
package/dist/voice/events.d.ts.map +1 -1
package/dist/voice/events.js +1 -0
package/dist/voice/events.js.map +1 -1
package/dist/voice/generation.cjs +43 -8
package/dist/voice/generation.cjs.map +1 -1
package/dist/voice/generation.d.cts +3 -3
package/dist/voice/generation.d.ts +3 -3
package/dist/voice/generation.d.ts.map +1 -1
package/dist/voice/generation.js +43 -8
package/dist/voice/generation.js.map +1 -1
package/dist/voice/index.cjs +1 -0
package/dist/voice/index.cjs.map +1 -1
package/dist/voice/index.d.cts +1 -0
package/dist/voice/index.d.ts +1 -0
package/dist/voice/index.d.ts.map +1 -1
package/dist/voice/index.js +1 -0
package/dist/voice/index.js.map +1 -1
package/dist/voice/report.cjs +20 -8
package/dist/voice/report.cjs.map +1 -1
package/dist/voice/report.d.cts +5 -0
package/dist/voice/report.d.ts +5 -0
package/dist/voice/report.d.ts.map +1 -1
package/dist/voice/report.js +20 -8
package/dist/voice/report.js.map +1 -1
package/dist/voice/report.test.cjs +106 -0
package/dist/voice/report.test.cjs.map +1 -0
package/dist/voice/report.test.js +105 -0
package/dist/voice/report.test.js.map +1 -0
package/dist/voice/room_io/room_io.cjs +16 -41
package/dist/voice/room_io/room_io.cjs.map +1 -1
package/dist/voice/room_io/room_io.d.cts +4 -9
package/dist/voice/room_io/room_io.d.ts +4 -9
package/dist/voice/room_io/room_io.d.ts.map +1 -1
package/dist/voice/room_io/room_io.js +17 -43
package/dist/voice/room_io/room_io.js.map +1 -1
package/dist/voice/testing/fake_llm.cjs +127 -0
package/dist/voice/testing/fake_llm.cjs.map +1 -0
package/dist/voice/testing/fake_llm.d.cts +30 -0
package/dist/voice/testing/fake_llm.d.ts +30 -0
package/dist/voice/testing/fake_llm.d.ts.map +1 -0
package/dist/voice/testing/fake_llm.js +103 -0
package/dist/voice/testing/fake_llm.js.map +1 -0
package/dist/voice/testing/index.cjs +3 -0
package/dist/voice/testing/index.cjs.map +1 -1
package/dist/voice/testing/index.d.cts +1 -0
package/dist/voice/testing/index.d.ts +1 -0
package/dist/voice/testing/index.d.ts.map +1 -1
package/dist/voice/testing/index.js +2 -0
package/dist/voice/testing/index.js.map +1 -1
package/dist/voice/turn_config/endpointing.cjs +33 -0
package/dist/voice/turn_config/endpointing.cjs.map +1 -0
package/dist/voice/turn_config/endpointing.d.cts +30 -0
package/dist/voice/turn_config/endpointing.d.ts +30 -0
package/dist/voice/turn_config/endpointing.d.ts.map +1 -0
package/dist/voice/turn_config/endpointing.js +9 -0
package/dist/voice/turn_config/endpointing.js.map +1 -0
package/dist/voice/turn_config/interruption.cjs +37 -0
package/dist/voice/turn_config/interruption.cjs.map +1 -0
package/dist/voice/turn_config/interruption.d.cts +53 -0
package/dist/voice/turn_config/interruption.d.ts +53 -0
package/dist/voice/turn_config/interruption.d.ts.map +1 -0
package/dist/voice/turn_config/interruption.js +13 -0
package/dist/voice/turn_config/interruption.js.map +1 -0
package/dist/voice/turn_config/turn_handling.cjs +35 -0
package/dist/voice/turn_config/turn_handling.cjs.map +1 -0
package/dist/voice/turn_config/turn_handling.d.cts +36 -0
package/dist/voice/turn_config/turn_handling.d.ts +36 -0
package/dist/voice/turn_config/turn_handling.d.ts.map +1 -0
package/dist/voice/turn_config/turn_handling.js +11 -0
package/dist/voice/turn_config/turn_handling.js.map +1 -0
package/dist/voice/turn_config/utils.cjs +97 -0
package/dist/voice/turn_config/utils.cjs.map +1 -0
package/dist/voice/turn_config/utils.d.cts +25 -0
package/dist/voice/turn_config/utils.d.ts +25 -0
package/dist/voice/turn_config/utils.d.ts.map +1 -0
package/dist/voice/turn_config/utils.js +73 -0
package/dist/voice/turn_config/utils.js.map +1 -0
package/dist/voice/turn_config/utils.test.cjs +86 -0
package/dist/voice/turn_config/utils.test.cjs.map +1 -0
package/dist/voice/turn_config/utils.test.js +85 -0
package/dist/voice/turn_config/utils.test.js.map +1 -0
package/dist/voice/wire_format.cjs +798 -0
package/dist/voice/wire_format.cjs.map +1 -0
package/dist/voice/wire_format.d.cts +5503 -0
package/dist/voice/wire_format.d.ts +5503 -0
package/dist/voice/wire_format.d.ts.map +1 -0
package/dist/voice/wire_format.js +728 -0
package/dist/voice/wire_format.js.map +1 -0
package/package.json +2 -1
package/src/beta/index.ts +9 -0
package/src/beta/workflows/index.ts +9 -0
package/src/beta/workflows/task_group.ts +194 -0
package/src/constants.ts +13 -0
package/src/index.ts +2 -1
package/src/inference/interruption/defaults.ts +51 -0
package/src/inference/interruption/errors.ts +25 -0
package/src/inference/interruption/http_transport.ts +187 -0
package/src/inference/interruption/interruption_cache_entry.ts +50 -0
package/src/inference/interruption/interruption_detector.ts +188 -0
package/src/inference/interruption/interruption_stream.ts +467 -0
package/src/inference/interruption/types.ts +84 -0
package/src/inference/interruption/utils.test.ts +132 -0
package/src/inference/interruption/utils.ts +137 -0
package/src/inference/interruption/ws_transport.ts +402 -0
package/src/inference/llm.ts +9 -12
package/src/inference/stt.ts +10 -3
package/src/inference/tts.ts +10 -3
package/src/inference/utils.ts +29 -1
package/src/llm/chat_context.test.ts +48 -0
package/src/llm/chat_context.ts +161 -0
package/src/llm/index.ts +2 -0
package/src/llm/llm.ts +16 -0
package/src/llm/realtime.ts +4 -0
package/src/llm/tool_context.ts +14 -0
package/src/metrics/base.ts +48 -1
package/src/metrics/index.ts +11 -0
package/src/metrics/model_usage.test.ts +545 -0
package/src/metrics/model_usage.ts +262 -0
package/src/metrics/usage_collector.ts +11 -0
package/src/metrics/utils.ts +11 -0
package/src/stream/multi_input_stream.test.ts +6 -1
package/src/stream/stream_channel.ts +34 -2
package/src/stt/stt.ts +38 -0
package/src/telemetry/otel_http_exporter.ts +28 -5
package/src/telemetry/trace_types.ts +11 -8
package/src/telemetry/traces.ts +111 -54
package/src/tts/tts.ts +69 -1
package/src/utils.ts +5 -0
package/src/voice/agent.ts +41 -3
package/src/voice/agent_activity.ts +371 -34
package/src/voice/agent_session.ts +207 -59
package/src/voice/audio_recognition.ts +385 -9
package/src/voice/client_events.ts +838 -0
package/src/voice/events.ts +14 -4
package/src/voice/generation.ts +52 -9
package/src/voice/index.ts +1 -0
package/src/voice/report.test.ts +117 -0
package/src/voice/report.ts +29 -6
package/src/voice/room_io/room_io.ts +21 -64
package/src/voice/testing/fake_llm.ts +138 -0
package/src/voice/testing/index.ts +2 -0
package/src/voice/turn_config/endpointing.ts +33 -0
package/src/voice/turn_config/interruption.ts +56 -0
package/src/voice/turn_config/turn_handling.ts +45 -0
package/src/voice/turn_config/utils.test.ts +100 -0
package/src/voice/turn_config/utils.ts +103 -0
package/src/voice/wire_format.ts +827 -0

package/src/voice/agent_activity.ts CHANGED Viewed

@@ -7,8 +7,11 @@ import type { Span } from '@opentelemetry/api';
 import { ROOT_CONTEXT, context as otelContext, trace } from '@opentelemetry/api';
 import { Heap } from 'heap-js';
 import { AsyncLocalStorage } from 'node:async_hooks';
-import { ReadableStream } from 'node:stream/web';
-import { type ChatContext, ChatMessage } from '../llm/chat_context.js';
+import { ReadableStream, TransformStream } from 'node:stream/web';
+import type { InterruptionDetectionError } from '../inference/interruption/errors.js';
+import { AdaptiveInterruptionDetector } from '../inference/interruption/interruption_detector.js';
+import type { OverlappingSpeechEvent } from '../inference/interruption/types.js';
+import { type ChatContext, ChatMessage, type MetricsReport } from '../llm/chat_context.js';
 import {
   type ChatItem,
   type FunctionCall,
@@ -23,12 +26,14 @@ import {
   type RealtimeSession,
   type ToolChoice,
   type ToolContext,
+  ToolFlag,
 } from '../llm/index.js';
 import type { LLMError } from '../llm/llm.js';
 import { isSameToolChoice, isSameToolContext } from '../llm/tool_context.js';
 import { log } from '../log.js';
 import type {
   EOUMetrics,
+  InterruptionMetrics,
   LLMMetrics,
   RealtimeModelMetrics,
   STTMetrics,
@@ -56,7 +61,6 @@ import {
   type EndOfTurnInfo,
   type PreemptiveGenerationInfo,
   type RecognitionHooks,
-  type _TurnDetector,
 } from './audio_recognition.js';
 import {
   AgentSessionEventTypes,
@@ -83,6 +87,12 @@ import { SpeechHandle } from './speech_handle.js';
 import { setParticipantSpanAttributes } from './utils.js';
 export const agentActivityStorage = new AsyncLocalStorage<AgentActivity>();
+export const onEnterStorage = new AsyncLocalStorage<OnEnterData>();
+interface OnEnterData {
+  session: AgentSession;
+  agent: Agent;
+}
 interface PreemptiveGeneration {
   speechHandle: SpeechHandle;
@@ -94,6 +104,7 @@ interface PreemptiveGeneration {
   createdAt: number;
 }
+// TODO add false interruption handling and barge in handling for https://github.com/livekit/agents/pull/3109/changes
 export class AgentActivity implements RecognitionHooks {
   agent: Agent;
   agentSession: AgentSession;
@@ -104,7 +115,7 @@ export class AgentActivity implements RecognitionHooks {
   private audioRecognition?: AudioRecognition;
   private realtimeSession?: RealtimeSession;
   private realtimeSpans?: Map<string, Span>; // Maps response_id to OTEL span for metrics recording
-  private turnDetectionMode?: Exclude<TurnDetectionMode, _TurnDetector>;
+  private turnDetectionMode?: TurnDetectionMode;
   private logger = log();
   private _schedulingPaused = true;
   private _drainBlockedTasks: Task<any>[] = [];
@@ -119,6 +130,43 @@ export class AgentActivity implements RecognitionHooks {
   // default to null as None, which maps to the default provider tool choice value
   private toolChoice: ToolChoice | null = null;
   private _preemptiveGeneration?: PreemptiveGeneration;
+  private interruptionDetector?: AdaptiveInterruptionDetector;
+  private isInterruptionDetectionEnabled: boolean;
+  private isInterruptionByAudioActivityEnabled: boolean;
+  private isDefaultInterruptionByAudioActivityEnabled: boolean;
+  private readonly onRealtimeGenerationCreated = (ev: GenerationCreatedEvent): void =>
+    this.onGenerationCreated(ev);
+  private readonly onRealtimeInputSpeechStarted = (ev: InputSpeechStartedEvent): void =>
+    this.onInputSpeechStarted(ev);
+  private readonly onRealtimeInputSpeechStopped = (ev: InputSpeechStoppedEvent): void =>
+    this.onInputSpeechStopped(ev);
+  private readonly onRealtimeInputAudioTranscriptionCompleted = (
+    ev: InputTranscriptionCompleted,
+  ): void => this.onInputAudioTranscriptionCompleted(ev);
+  private readonly onModelError = (ev: RealtimeModelError | STTError | TTSError | LLMError): void =>
+    this.onError(ev);
+  private readonly onInterruptionOverlappingSpeech = (ev: OverlappingSpeechEvent): void => {
+    this.agentSession.emit(AgentSessionEventTypes.UserOverlappingSpeech, ev);
+  };
+  private readonly onInterruptionMetricsCollected = (ev: InterruptionMetrics): void => {
+    this.agentSession.emit(
+      AgentSessionEventTypes.MetricsCollected,
+      createMetricsCollectedEvent({ metrics: ev }),
+    );
+  };
+  private readonly onInterruptionError = (ev: InterruptionDetectionError): void => {
+    const errorEvent = createErrorEvent(ev, this.interruptionDetector);
+    this.agentSession.emit(AgentSessionEventTypes.Error, errorEvent);
+    this.agentSession._onError(ev);
+  };
   /** @internal */
   _mainTask?: Task<void>;
@@ -126,16 +174,6 @@ export class AgentActivity implements RecognitionHooks {
   _onExitTask?: Task<void>;
   _userTurnCompletedTask?: Task<void>;
-  private readonly onRealtimeGenerationCreated = (ev: GenerationCreatedEvent) =>
-    this.onGenerationCreated(ev);
-  private readonly onRealtimeInputSpeechStarted = (ev: InputSpeechStartedEvent) =>
-    this.onInputSpeechStarted(ev);
-  private readonly onRealtimeInputSpeechStopped = (ev: InputSpeechStoppedEvent) =>
-    this.onInputSpeechStopped(ev);
-  private readonly onRealtimeInputAudioTranscriptionCompleted = (ev: InputTranscriptionCompleted) =>
-    this.onInputAudioTranscriptionCompleted(ev);
-  private readonly onModelError = (ev: RealtimeModelError | STTError | TTSError | LLMError) =>
-    this.onError(ev);
   constructor(agent: Agent, agentSession: AgentSession) {
     this.agent = agent;
     this.agentSession = agentSession;
@@ -228,6 +266,16 @@ export class AgentActivity implements RecognitionHooks {
           'for more responsive interruption handling.',
       );
     }
+    this.interruptionDetector = this.resolveInterruptionDetector();
+    this.isInterruptionDetectionEnabled = !!this.interruptionDetector;
+    // this allows taking over audio interruption temporarily until interruption is detected
+    // by default is is ture unless turnDetection is manual or realtime_llm
+    this.isInterruptionByAudioActivityEnabled =
+      this.turnDetectionMode !== 'manual' && this.turnDetectionMode !== 'realtime_llm';
+    this.isDefaultInterruptionByAudioActivityEnabled = this.isInterruptionByAudioActivityEnabled;
   }
   async start(): Promise<void> {
@@ -312,6 +360,8 @@ export class AgentActivity implements RecognitionHooks {
       }
     }
+    // TODO(parity): Record initial AgentConfigUpdate in chat context
     // metrics and error handling
     if (this.llm instanceof LLM) {
       this.llm.on('metrics_collected', this.onMetricsCollected);
@@ -339,8 +389,9 @@ export class AgentActivity implements RecognitionHooks {
       vad: this.vad,
       turnDetector: typeof this.turnDetection === 'string' ? undefined : this.turnDetection,
       turnDetectionMode: this.turnDetectionMode,
-      minEndpointingDelay: this.agentSession.options.minEndpointingDelay,
-      maxEndpointingDelay: this.agentSession.options.maxEndpointingDelay,
+      interruptionDetection: this.interruptionDetector,
+      minEndpointingDelay: this.agentSession.options.turnHandling.endpointing.minDelay,
+      maxEndpointingDelay: this.agentSession.options.turnHandling.endpointing.maxDelay,
       rootSpanContext: this.agentSession.rootSpanContext,
       sttModel: this.stt?.label,
       sttProvider: this.getSttProvider(),
@@ -354,11 +405,13 @@ export class AgentActivity implements RecognitionHooks {
     if (runOnEnter) {
       this._onEnterTask = this.createSpeechTask({
         taskFn: () =>
-          tracer.startActiveSpan(async () => this.agent.onEnter(), {
-            name: 'on_enter',
-            context: trace.setSpan(ROOT_CONTEXT, startSpan),
-            attributes: { [traceTypes.ATTR_AGENT_LABEL]: this.agent.id },
-          }),
+          onEnterStorage.run({ session: this.agentSession, agent: this.agent }, () =>
+            tracer.startActiveSpan(async () => this.agent.onEnter(), {
+              name: 'on_enter',
+              context: trace.setSpan(ROOT_CONTEXT, startSpan),
+              attributes: { [traceTypes.ATTR_AGENT_LABEL]: this.agent.id },
+            }),
+          ),
         inlineTask: true,
         name: 'AgentActivity_onEnter',
       });
@@ -412,7 +465,7 @@ export class AgentActivity implements RecognitionHooks {
   get allowInterruptions(): boolean {
     // TODO(AJS-51): Allow options to be defined in Agent class
-    return this.agentSession.options.allowInterruptions;
+    return this.agentSession.options.turnHandling.interruption?.mode !== false;
   }
   get useTtsAlignedTranscript(): boolean {
@@ -429,6 +482,11 @@ export class AgentActivity implements RecognitionHooks {
     return this.agent.toolCtx;
   }
+  /** @internal */
+  get inputStartedAt() {
+    return this.audioRecognition?.inputStartedAt;
+  }
   async updateChatCtx(chatCtx: ChatContext): Promise<void> {
     chatCtx = chatCtx.copy({ toolCtx: this.toolCtx });
@@ -446,7 +504,27 @@ export class AgentActivity implements RecognitionHooks {
     }
   }
-  updateOptions({ toolChoice }: { toolChoice?: ToolChoice | null }): void {
+  // TODO: Add when AgentConfigUpdate is ported to ChatContext.
+  async updateTools(tools: ToolContext): Promise<void> {
+    this.agent._tools = { ...tools };
+    if (this.realtimeSession) {
+      await this.realtimeSession.updateTools(tools);
+    }
+    if (this.llm instanceof LLM) {
+      // for realtime LLM, we assume the server will remove unvalid tool messages
+      await this.updateChatCtx(this.agent._chatCtx.copy({ toolCtx: tools }));
+    }
+  }
+  updateOptions({
+    toolChoice,
+    turnDetection,
+  }: {
+    toolChoice?: ToolChoice | null;
+    turnDetection?: TurnDetectionMode;
+  }): void {
     if (toolChoice !== undefined) {
       this.toolChoice = toolChoice;
     }
@@ -454,14 +532,46 @@ export class AgentActivity implements RecognitionHooks {
     if (this.realtimeSession) {
       this.realtimeSession.updateOptions({ toolChoice: this.toolChoice });
     }
+    if (turnDetection !== undefined) {
+      this.turnDetectionMode = turnDetection;
+      this.isDefaultInterruptionByAudioActivityEnabled =
+        this.turnDetectionMode !== 'manual' && this.turnDetectionMode !== 'realtime_llm';
+      // sync live flag immediately when not speaking so the change takes effect right away
+      if (this.agentSession.agentState !== 'speaking') {
+        this.isInterruptionByAudioActivityEnabled =
+          this.isDefaultInterruptionByAudioActivityEnabled;
+      }
+    }
+    if (this.audioRecognition) {
+      this.audioRecognition.updateOptions({ turnDetection: this.turnDetectionMode });
+    }
   }
   attachAudioInput(audioStream: ReadableStream<AudioFrame>): void {
     void this.audioStream.close();
     this.audioStream = new MultiInputStream<AudioFrame>();
+    // Filter is applied on this.audioStream.stream (downstream of MultiInputStream) rather
+    // than on the source audioStream via pipeThrough. pipeThrough locks its source stream, so
+    // if it were applied directly on audioStream, that lock would survive MultiInputStream.close()
+    // and make audioStream permanently locked for subsequent attachAudioInput calls (e.g. handoff).
+    const aecWarmupAudioFilter = new TransformStream<AudioFrame, AudioFrame>({
+      transform: (frame, controller) => {
+        const shouldDiscardForAecWarmup =
+          this.agentSession.agentState === 'speaking' && this.agentSession._aecWarmupRemaining > 0;
+        if (!shouldDiscardForAecWarmup) {
+          controller.enqueue(frame);
+        }
+      },
+    });
     this.audioStreamId = this.audioStream.addInputStream(audioStream);
-    const [realtimeAudioStream, recognitionAudioStream] = this.audioStream.stream.tee();
+    const [realtimeAudioStream, recognitionAudioStream] = this.audioStream.stream
+      .pipeThrough(aecWarmupAudioFilter)
+      .tee();
     if (this.realtimeSession) {
       this.realtimeSession.setInputAudioStream(realtimeAudioStream);
@@ -614,6 +724,13 @@ export class AgentActivity implements RecognitionHooks {
     if (!this.vad) {
       this.agentSession._updateUserState('speaking');
+      if (this.isInterruptionDetectionEnabled && this.audioRecognition) {
+        this.audioRecognition.onStartOfOverlapSpeech(
+          0,
+          Date.now(),
+          this.agentSession._userSpeakingSpan,
+        );
+      }
     }
     // this.interrupt() is going to raise when allow_interruptions is False,
@@ -632,6 +749,9 @@ export class AgentActivity implements RecognitionHooks {
     this.logger.info(ev, 'onInputSpeechStopped');
     if (!this.vad) {
+      if (this.isInterruptionDetectionEnabled && this.audioRecognition) {
+        this.audioRecognition.onEndOfOverlapSpeech(Date.now(), this.agentSession._userSpeakingSpan);
+      }
       this.agentSession._updateUserState('listening');
     }
@@ -705,15 +825,32 @@ export class AgentActivity implements RecognitionHooks {
   onStartOfSpeech(ev: VADEvent): void {
     let speechStartTime = Date.now();
     if (ev) {
-      speechStartTime = speechStartTime - ev.speechDuration;
+      // Subtract both speechDuration and inferenceDuration to correct for VAD model latency.
+      speechStartTime = speechStartTime - ev.speechDuration - ev.inferenceDuration;
     }
     this.agentSession._updateUserState('speaking', speechStartTime);
+    if (this.isInterruptionDetectionEnabled && this.audioRecognition) {
+      // Pass speechStartTime as the absolute startedAt timestamp.
+      this.audioRecognition.onStartOfOverlapSpeech(
+        ev.speechDuration,
+        speechStartTime,
+        this.agentSession._userSpeakingSpan,
+      );
+    }
   }
   onEndOfSpeech(ev: VADEvent): void {
     let speechEndTime = Date.now();
     if (ev) {
-      speechEndTime = speechEndTime - ev.silenceDuration;
+      // Subtract both silenceDuration and inferenceDuration to correct for VAD model latency.
+      speechEndTime = speechEndTime - ev.silenceDuration - ev.inferenceDuration;
+    }
+    if (this.isInterruptionDetectionEnabled && this.audioRecognition) {
+      // Pass speechEndTime as the absolute endedAt timestamp.
+      this.audioRecognition.onEndOfOverlapSpeech(
+        speechEndTime,
+        this.agentSession._userSpeakingSpan,
+      );
     }
     this.agentSession._updateUserState('listening', speechEndTime);
   }
@@ -724,12 +861,21 @@ export class AgentActivity implements RecognitionHooks {
       return;
     }
-    if (ev.speechDuration >= this.agentSession.options.minInterruptionDuration) {
+    if (ev.speechDuration >= this.agentSession.options.turnHandling.interruption?.minDuration) {
       this.interruptByAudioActivity();
     }
   }
   private interruptByAudioActivity(): void {
+    if (!this.isInterruptionByAudioActivityEnabled) {
+      return;
+    }
+    if (this.agentSession._aecWarmupRemaining > 0) {
+      // Disable interruption from audio activity while AEC warmup is active.
+      return;
+    }
     if (this.llm instanceof RealtimeModel && this.llm.capabilities.turnDetection) {
       // skip speech handle interruption if server side turn detection is enabled
       return;
@@ -739,7 +885,11 @@ export class AgentActivity implements RecognitionHooks {
     // - Always apply minInterruptionWords filtering when STT is available and minInterruptionWords > 0
     // - Apply check to all STT results: empty string, undefined, or any length
     // - This ensures consistent behavior across all interruption scenarios
-    if (this.stt && this.agentSession.options.minInterruptionWords > 0 && this.audioRecognition) {
+    if (
+      this.stt &&
+      this.agentSession.options.turnHandling.interruption?.minWords > 0 &&
+      this.audioRecognition
+    ) {
       const text = this.audioRecognition.currentTranscript;
       // TODO(shubhra): better word splitting for multi-language
@@ -749,7 +899,7 @@ export class AgentActivity implements RecognitionHooks {
       // Only allow interruption if word count meets or exceeds minInterruptionWords
       // This applies to all cases: empty strings, partial speech, and full speech
-      if (wordCount < this.agentSession.options.minInterruptionWords) {
+      if (wordCount < this.agentSession.options.turnHandling.interruption?.minWords) {
         return;
       }
     }
@@ -770,6 +920,14 @@ export class AgentActivity implements RecognitionHooks {
     }
   }
+  onInterruption(ev: OverlappingSpeechEvent) {
+    this.restoreInterruptionByAudioActivity();
+    this.interruptByAudioActivity();
+    if (this.audioRecognition) {
+      this.audioRecognition.onEndOfAgentSpeech(ev.overlapStartedAt || ev.timestamp);
+    }
+  }
   onInterimTranscript(ev: SpeechEvent): void {
     if (this.llm instanceof RealtimeModel && this.llm.capabilities.userTranscription) {
       // skip stt transcription if userTranscription is enabled on the realtime model
@@ -845,6 +1003,7 @@ export class AgentActivity implements RecognitionHooks {
     const userMessage = ChatMessage.create({
       role: 'user',
       content: info.newTranscript,
+      transcriptConfidence: info.transcriptConfidence,
     });
     const chatCtx = this.agent.chatCtx.copy();
     const speechHandle = this.generateReply({
@@ -940,16 +1099,16 @@ export class AgentActivity implements RecognitionHooks {
       this._currentSpeech &&
       this._currentSpeech.allowInterruptions &&
       !this._currentSpeech.interrupted &&
-      this.agentSession.options.minInterruptionWords > 0
+      this.agentSession.options.turnHandling.interruption?.minWords > 0
     ) {
       const wordCount = splitWords(info.newTranscript, true).length;
-      if (wordCount < this.agentSession.options.minInterruptionWords) {
+      if (wordCount < this.agentSession.options.turnHandling.interruption?.minWords) {
         // avoid interruption if the new_transcript contains fewer words than minInterruptionWords
         this.cancelPreemptiveGeneration();
         this.logger.info(
           {
             wordCount,
-            minInterruptionWords: this.agentSession.options.minInterruptionWords,
+            minInterruptionWords: this.agentSession.options.turnHandling.interruption.minWords,
           },
           'skipping user input, word count below minimum interruption threshold',
         );
@@ -1129,12 +1288,25 @@ export class AgentActivity implements RecognitionHooks {
         instructions = `${this.agent.instructions}\n${instructions}`;
       }
+      // Filter out tools with IGNORE_ON_ENTER flag when generateReply is called inside onEnter
+      const onEnterData = onEnterStorage.getStore();
+      const shouldFilterTools =
+        onEnterData?.agent === this.agent && onEnterData?.session === this.agentSession;
+      const tools = shouldFilterTools
+        ? Object.fromEntries(
+            Object.entries(this.agent.toolCtx).filter(
+              ([, fnTool]) => !(fnTool.flags & ToolFlag.IGNORE_ON_ENTER),
+            ),
+          )
+        : this.agent.toolCtx;
       const task = this.createSpeechTask({
         taskFn: (abortController: AbortController) =>
           this.pipelineReplyTask(
             handle,
             chatCtx ?? this.agent.chatCtx,
-            this.agent.toolCtx,
+            tools,
             {
               toolChoice: toOaiToolChoice(toolChoice !== undefined ? toolChoice : this.toolChoice),
             },
@@ -1234,6 +1406,7 @@ export class AgentActivity implements RecognitionHooks {
     let userMessage: ChatMessage | undefined = ChatMessage.create({
       role: 'user',
       content: info.newTranscript,
+      transcriptConfidence: info.transcriptConfidence,
     });
     // create a temporary mutable chat context to pass to onUserTurnCompleted
@@ -1260,6 +1433,24 @@ export class AgentActivity implements RecognitionHooks {
       return;
     }
+    const userMetricsReport: MetricsReport = {};
+    if (info.startedSpeakingAt !== undefined) {
+      userMetricsReport.startedSpeakingAt = info.startedSpeakingAt / 1000; // ms -> seconds
+    }
+    if (info.stoppedSpeakingAt !== undefined) {
+      userMetricsReport.stoppedSpeakingAt = info.stoppedSpeakingAt / 1000; // ms -> seconds
+    }
+    if (info.transcriptionDelay !== undefined) {
+      userMetricsReport.transcriptionDelay = info.transcriptionDelay / 1000; // ms -> seconds
+    }
+    if (info.endOfUtteranceDelay !== undefined) {
+      userMetricsReport.endOfTurnDelay = info.endOfUtteranceDelay / 1000; // ms -> seconds
+    }
+    userMetricsReport.onUserTurnCompletedDelay = callbackDuration / 1000; // ms -> seconds
+    if (userMessage) {
+      userMessage.metrics = userMetricsReport;
+    }
     let speechHandle: SpeechHandle | undefined;
     if (this._preemptiveGeneration !== undefined) {
       const preemptive = this._preemptiveGeneration;
@@ -1272,6 +1463,14 @@ export class AgentActivity implements RecognitionHooks {
         isSameToolChoice(preemptive.toolChoice, this.toolChoice)
       ) {
         speechHandle = preemptive.speechHandle;
+        // The preemptive userMessage was created without metrics.
+        // Copy the metrics and transcriptConfidence from the new userMessage
+        // to the preemptive message BEFORE scheduling (so the pipeline inserts
+        // the message with metrics already set).
+        if (preemptive.userMessage && userMessage) {
+          preemptive.userMessage.metrics = userMetricsReport;
+          preemptive.userMessage.transcriptConfidence = userMessage.transcriptConfidence;
+        }
         this.scheduleSpeech(speechHandle, SpeechHandle.SPEECH_PRIORITY_NORMAL);
         this.logger.debug(
           {
@@ -1365,11 +1564,19 @@ export class AgentActivity implements RecognitionHooks {
       tasks.push(textForwardTask);
     }
+    let replyStartedSpeakingAt: number | undefined;
+    let replyTtsGenData: _TTSGenerationData | null = null;
     const onFirstFrame = (startedSpeakingAt?: number) => {
+      replyStartedSpeakingAt = startedSpeakingAt ?? Date.now();
       this.agentSession._updateAgentState('speaking', {
         startTime: startedSpeakingAt,
         otelContext: speechHandle._agentTurnContext,
       });
+      if (this.isInterruptionDetectionEnabled && this.audioRecognition) {
+        this.audioRecognition.onStartOfAgentSpeech();
+        this.isInterruptionByAudioActivityEnabled = false;
+      }
     };
     if (!audioOutput) {
@@ -1387,8 +1594,11 @@ export class AgentActivity implements RecognitionHooks {
           audioSource,
           modelSettings,
           replyAbortController,
+          this.tts?.model,
+          this.tts?.provider,
         );
         tasks.push(ttsTask);
+        replyTtsGenData = ttsGenData;
         const [forwardTask, _audioOut] = performAudioForwarding(
           ttsGenData.audioStream,
@@ -1428,10 +1638,21 @@ export class AgentActivity implements RecognitionHooks {
     }
     if (addToChatCtx) {
+      const replyStoppedSpeakingAt = Date.now();
+      const replyAssistantMetrics: MetricsReport = {};
+      if (replyTtsGenData?.ttfb !== undefined) {
+        replyAssistantMetrics.ttsNodeTtfb = replyTtsGenData.ttfb;
+      }
+      if (replyStartedSpeakingAt !== undefined) {
+        replyAssistantMetrics.startedSpeakingAt = replyStartedSpeakingAt / 1000; // ms -> seconds
+        replyAssistantMetrics.stoppedSpeakingAt = replyStoppedSpeakingAt / 1000; // ms -> seconds
+      }
       const message = ChatMessage.create({
         role: 'assistant',
         content: textOut?.text || '',
         interrupted: speechHandle.interrupted,
+        metrics: replyAssistantMetrics,
       });
       this.agent._chatCtx.insert(message);
       this.agentSession._conversationItemAdded(message);
@@ -1439,6 +1660,10 @@ export class AgentActivity implements RecognitionHooks {
     if (this.agentSession.agentState === 'speaking') {
       this.agentSession._updateAgentState('listening');
+      if (this.isInterruptionDetectionEnabled && this.audioRecognition) {
+        this.audioRecognition.onEndOfAgentSpeech(Date.now());
+      }
+      this.restoreInterruptionByAudioActivity();
     }
   }
@@ -1452,6 +1677,7 @@ export class AgentActivity implements RecognitionHooks {
     newMessage,
     toolsMessages,
     span,
+    _previousUserMetrics,
   }: {
     speechHandle: SpeechHandle;
     chatCtx: ChatContext;
@@ -1462,6 +1688,7 @@ export class AgentActivity implements RecognitionHooks {
     newMessage?: ChatMessage;
     toolsMessages?: ChatItem[];
     span: Span;
+    _previousUserMetrics?: MetricsReport;
   }): Promise<void> => {
     speechHandle._agentTurnContext = otelContext.active();
@@ -1514,6 +1741,8 @@ export class AgentActivity implements RecognitionHooks {
       toolCtx,
       modelSettings,
       replyAbortController,
+      this.llm?.model,
+      this.llm?.provider,
     );
     tasks.push(llmTask);
@@ -1530,6 +1759,8 @@ export class AgentActivity implements RecognitionHooks {
         ttsTextInput,
         modelSettings,
         replyAbortController,
+        this.tts?.model,
+        this.tts?.provider,
       );
       tasks.push(ttsTask);
     } else {
@@ -1539,10 +1770,12 @@ export class AgentActivity implements RecognitionHooks {
     await speechHandle.waitIfNotInterrupted([speechHandle._waitForScheduled()]);
+    let userMetrics: MetricsReport | undefined = _previousUserMetrics;
     // Add new message to actual chat context if the speech is scheduled
     if (newMessage && speechHandle.scheduled) {
       this.agent._chatCtx.insert(newMessage);
       this.agentSession._conversationItemAdded(newMessage);
+      userMetrics = newMessage.metrics;
     }
     if (speechHandle.interrupted) {
@@ -1588,11 +1821,17 @@ export class AgentActivity implements RecognitionHooks {
       textOut = _textOut;
     }
+    let agentStartedSpeakingAt: number | undefined;
     const onFirstFrame = (startedSpeakingAt?: number) => {
+      agentStartedSpeakingAt = startedSpeakingAt ?? Date.now();
       this.agentSession._updateAgentState('speaking', {
         startTime: startedSpeakingAt,
         otelContext: speechHandle._agentTurnContext,
       });
+      if (this.isInterruptionDetectionEnabled && this.audioRecognition) {
+        this.audioRecognition.onStartOfAgentSpeech();
+        this.isInterruptionByAudioActivityEnabled = false;
+      }
     };
     let audioOut: _AudioOut | null = null;
@@ -1649,6 +1888,29 @@ export class AgentActivity implements RecognitionHooks {
       await speechHandle.waitIfNotInterrupted([audioOutput.waitForPlayout()]);
     }
+    const agentStoppedSpeakingAt = Date.now();
+    const assistantMetrics: MetricsReport = {};
+    if (llmGenData.ttft !== undefined) {
+      assistantMetrics.llmNodeTtft = llmGenData.ttft; // already in seconds
+    }
+    if (ttsGenData?.ttfb !== undefined) {
+      assistantMetrics.ttsNodeTtfb = ttsGenData.ttfb; // already in seconds
+    }
+    if (agentStartedSpeakingAt !== undefined) {
+      assistantMetrics.startedSpeakingAt = agentStartedSpeakingAt / 1000; // ms -> seconds
+      assistantMetrics.stoppedSpeakingAt = agentStoppedSpeakingAt / 1000; // ms -> seconds
+      if (userMetrics?.stoppedSpeakingAt !== undefined) {
+        const e2eLatency = agentStartedSpeakingAt / 1000 - userMetrics.stoppedSpeakingAt;
+        assistantMetrics.e2eLatency = e2eLatency;
+        span.setAttribute(traceTypes.ATTR_E2E_LATENCY, e2eLatency);
+      }
+    }
+    span.setAttribute(traceTypes.ATTR_SPEECH_INTERRUPTED, speechHandle.interrupted);
+    let hasSpeechMessage = false;
     // add the tools messages that triggers this reply to the chat context
     if (toolsMessages) {
       for (const msg of toolsMessages) {
@@ -1703,45 +1965,54 @@ export class AgentActivity implements RecognitionHooks {
       }
       if (forwardedText) {
+        hasSpeechMessage = true;
         const message = ChatMessage.create({
           role: 'assistant',
           content: forwardedText,
           id: llmGenData.id,
           interrupted: true,
           createdAt: replyStartedAt,
+          metrics: assistantMetrics,
         });
         chatCtx.insert(message);
         this.agent._chatCtx.insert(message);
         speechHandle._itemAdded([message]);
         this.agentSession._conversationItemAdded(message);
+        span.setAttribute(traceTypes.ATTR_RESPONSE_TEXT, forwardedText);
       }
       if (this.agentSession.agentState === 'speaking') {
         this.agentSession._updateAgentState('listening');
+        if (this.isInterruptionDetectionEnabled && this.audioRecognition) {
+          this.audioRecognition.onEndOfAgentSpeech(Date.now());
+          this.restoreInterruptionByAudioActivity();
+        }
       }
       this.logger.info(
         { speech_id: speechHandle.id, message: forwardedText },
         'playout completed with interrupt',
       );
-      // TODO(shubhra) add chat message to speech handle
       speechHandle._markGenerationDone();
       await executeToolsTask.cancelAndWait(AgentActivity.REPLY_TASK_CANCEL_TIMEOUT);
       return;
     }
     if (textOut && textOut.text) {
+      hasSpeechMessage = true;
       const message = ChatMessage.create({
         role: 'assistant',
         id: llmGenData.id,
         interrupted: false,
         createdAt: replyStartedAt,
         content: textOut.text,
+        metrics: assistantMetrics,
       });
       chatCtx.insert(message);
       this.agent._chatCtx.insert(message);
       speechHandle._itemAdded([message]);
       this.agentSession._conversationItemAdded(message);
+      span.setAttribute(traceTypes.ATTR_RESPONSE_TEXT, textOut.text);
       this.logger.info(
         { speech_id: speechHandle.id, message: textOut.text },
         'playout completed without interruption',
@@ -1752,6 +2023,12 @@ export class AgentActivity implements RecognitionHooks {
       this.agentSession._updateAgentState('thinking');
     } else if (this.agentSession.agentState === 'speaking') {
       this.agentSession._updateAgentState('listening');
+      if (this.isInterruptionDetectionEnabled && this.audioRecognition) {
+        {
+          this.audioRecognition.onEndOfAgentSpeech(Date.now());
+          this.restoreInterruptionByAudioActivity();
+        }
+      }
     }
     // mark the playout done before waiting for the tool execution
@@ -1811,6 +2088,7 @@ export class AgentActivity implements RecognitionHooks {
             instructions,
             undefined,
             toolMessages,
+            hasSpeechMessage ? undefined : userMetrics,
           ),
         ownedSpeechHandle: speechHandle,
         name: 'AgentActivity.pipelineReply',
@@ -1844,6 +2122,7 @@ export class AgentActivity implements RecognitionHooks {
     instructions?: string,
     newMessage?: ChatMessage,
     toolsMessages?: ChatItem[],
+    _previousUserMetrics?: MetricsReport,
   ): Promise<void> =>
     tracer.startActiveSpan(
       async (span) =>
@@ -1857,6 +2136,7 @@ export class AgentActivity implements RecognitionHooks {
           newMessage,
           toolsMessages,
           span,
+          _previousUserMetrics,
         }),
       {
         name: 'agent_turn',
@@ -2007,6 +2287,8 @@ export class AgentActivity implements RecognitionHooks {
                 ttsTextInput,
                 modelSettings,
                 abortController,
+                this.tts?.model,
+                this.tts?.provider,
               );
               tasks.push(ttsTask);
               realtimeAudioResult = ttsGenData.audioStream;
@@ -2516,6 +2798,14 @@ export class AgentActivity implements RecognitionHooks {
       if (this._mainTask) {
         await this._mainTask.cancelAndWait();
       }
+      if (this.interruptionDetector) {
+        this.interruptionDetector.off(
+          'user_overlapping_speech',
+          this.onInterruptionOverlappingSpeech,
+        );
+        this.interruptionDetector.off('metrics_collected', this.onInterruptionMetricsCollected);
+        this.interruptionDetector.off('error', this.onInterruptionError);
+      }
       this.agent._agentActivity = undefined;
     } finally {
@@ -2523,6 +2813,53 @@ export class AgentActivity implements RecognitionHooks {
     }
   }
+  private resolveInterruptionDetector(): AdaptiveInterruptionDetector | undefined {
+    const interruptionDetection =
+      this.agent.interruptionDetection ?? this.agentSession.interruptionDetection;
+    if (
+      !(
+        this.stt &&
+        this.stt.capabilities.alignedTranscript &&
+        this.stt.capabilities.streaming &&
+        this.vad &&
+        this.turnDetection !== 'manual' &&
+        this.turnDetection !== 'realtime_llm' &&
+        !(this.llm instanceof RealtimeModel)
+      )
+    ) {
+      if (interruptionDetection === 'adaptive') {
+        this.logger.warn(
+          "interruptionDetection is provided, but it's not compatible with the current configuration and will be disabled",
+        );
+        return undefined;
+      }
+    }
+    if (
+      (interruptionDetection !== undefined && interruptionDetection === false) ||
+      interruptionDetection === 'vad'
+    ) {
+      return undefined;
+    }
+    try {
+      const detector = new AdaptiveInterruptionDetector();
+      detector.on('user_overlapping_speech', this.onInterruptionOverlappingSpeech);
+      detector.on('metrics_collected', this.onInterruptionMetricsCollected);
+      detector.on('error', this.onInterruptionError);
+      return detector;
+    } catch (error: unknown) {
+      this.logger.warn({ error }, 'could not instantiate AdaptiveInterruptionDetector');
+    }
+    return undefined;
+  }
+  private restoreInterruptionByAudioActivity(): void {
+    this.isInterruptionByAudioActivityEnabled = this.isDefaultInterruptionByAudioActivityEnabled;
+  }
   private async _closeSessionResources(): Promise<void> {
     // Unregister event handlers to prevent duplicate metrics
     if (this.llm instanceof LLM) {