PyPI - sarvamai - Versions diffs - 0.1.19a5__tar.gz → 0.1.20a1__tar.gz - Mend

sarvamai 0.1.19a5tar.gz → 0.1.20a1tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (233) hide show

{sarvamai-0.1.19a5 → sarvamai-0.1.20a1}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: sarvamai
-Version: 0.1.19a5
+Version: 0.1.20a1
 Summary:
 Requires-Python: >=3.8,<4.0
 Classifier: Intended Audience :: Developers

{sarvamai-0.1.19a5 → sarvamai-0.1.20a1}/pyproject.toml RENAMED Viewed

@@ -3,7 +3,7 @@ name = "sarvamai"
 [tool.poetry]
 name = "sarvamai"
-version = "0.1.19a5"
+version = "0.1.20a1"
 description = ""
 readme = "README.md"
 authors = []

{sarvamai-0.1.19a5 → sarvamai-0.1.20a1}/src/sarvamai/__init__.py RENAMED Viewed

@@ -4,6 +4,7 @@
 from .types import (
     AudioData,
+    AudioDataInputAudioCodec,
     AudioMessage,
     AudioOutput,
     AudioOutputData,
@@ -19,6 +20,7 @@ from .types import (
     ChatCompletionRequestUserMessage,
     ChatCompletionResponseMessage,
     Choice,
+    CompletionEventFlag,
     CompletionUsage,
     ConfigMessage,
     ConfigureConnection,
@@ -27,6 +29,7 @@ from .types import (
     ConfigureConnectionDataOutputAudioCodec,
     ConfigureConnectionDataSpeaker,
     ConfigureConnectionDataTargetLanguageCode,
+    ConnectionSampleRate,
     CreateChatCompletionResponse,
     DiarizedEntry,
     DiarizedTranscript,
@@ -36,6 +39,8 @@ from .types import (
     ErrorMessage,
     ErrorResponse,
     ErrorResponseData,
+    EventResponse,
+    EventResponseData,
     EventsData,
     EventsDataSignalType,
     FileSignedUrlDetails,
@@ -146,6 +151,8 @@ from .requests import (
     ErrorMessageParams,
     ErrorResponseDataParams,
     ErrorResponseParams,
+    EventResponseDataParams,
+    EventResponseParams,
     EventsDataParams,
     FileSignedUrlDetailsParams,
     FilesDownloadResponseParams,
@@ -180,6 +187,7 @@ from .requests import (
 from .speech_to_text_streaming import (
     SpeechToTextStreamingFlushSignal,
     SpeechToTextStreamingHighVadSensitivity,
+    SpeechToTextStreamingInputAudioCodec,
     SpeechToTextStreamingLanguageCode,
     SpeechToTextStreamingModel,
     SpeechToTextStreamingVadSignals,
@@ -187,14 +195,17 @@ from .speech_to_text_streaming import (
 from .speech_to_text_translate_streaming import (
     SpeechToTextTranslateStreamingFlushSignal,
     SpeechToTextTranslateStreamingHighVadSensitivity,
+    SpeechToTextTranslateStreamingInputAudioCodec,
     SpeechToTextTranslateStreamingModel,
     SpeechToTextTranslateStreamingVadSignals,
 )
+from .text_to_speech_streaming import TextToSpeechStreamingSendCompletionEvent
 from .version import __version__
 __all__ = [
     "AsyncSarvamAI",
     "AudioData",
+    "AudioDataInputAudioCodec",
     "AudioDataParams",
     "AudioMessage",
     "AudioMessageParams",
@@ -227,6 +238,7 @@ __all__ = [
     "ChatCompletionResponseMessageParams",
     "Choice",
     "ChoiceParams",
+    "CompletionEventFlag",
     "CompletionUsage",
     "CompletionUsageParams",
     "ConfigMessage",
@@ -239,6 +251,7 @@ __all__ = [
     "ConfigureConnectionDataSpeaker",
     "ConfigureConnectionDataTargetLanguageCode",
     "ConfigureConnectionParams",
+    "ConnectionSampleRate",
     "CreateChatCompletionResponse",
     "CreateChatCompletionResponseParams",
     "DiarizedEntry",
@@ -256,6 +269,10 @@ __all__ = [
     "ErrorResponseData",
     "ErrorResponseDataParams",
     "ErrorResponseParams",
+    "EventResponse",
+    "EventResponseData",
+    "EventResponseDataParams",
+    "EventResponseParams",
     "EventsData",
     "EventsDataParams",
     "EventsDataSignalType",
@@ -303,6 +320,7 @@ __all__ = [
     "SpeechToTextResponseParams",
     "SpeechToTextStreamingFlushSignal",
     "SpeechToTextStreamingHighVadSensitivity",
+    "SpeechToTextStreamingInputAudioCodec",
     "SpeechToTextStreamingLanguageCode",
     "SpeechToTextStreamingModel",
     "SpeechToTextStreamingResponse",
@@ -320,6 +338,7 @@ __all__ = [
     "SpeechToTextTranslateResponseParams",
     "SpeechToTextTranslateStreamingFlushSignal",
     "SpeechToTextTranslateStreamingHighVadSensitivity",
+    "SpeechToTextTranslateStreamingInputAudioCodec",
     "SpeechToTextTranslateStreamingModel",
     "SpeechToTextTranslateStreamingResponse",
     "SpeechToTextTranslateStreamingResponseParams",
@@ -343,6 +362,7 @@ __all__ = [
     "TextToSpeechResponse",
     "TextToSpeechResponseParams",
     "TextToSpeechSpeaker",
+    "TextToSpeechStreamingSendCompletionEvent",
     "TimestampsModel",
     "TimestampsModelParams",
     "TooManyRequestsError",

{sarvamai-0.1.19a5 → sarvamai-0.1.20a1}/src/sarvamai/core/client_wrapper.py RENAMED Viewed

@@ -23,10 +23,10 @@ class BaseClientWrapper:
     def get_headers(self) -> typing.Dict[str, str]:
         headers: typing.Dict[str, str] = {
-            "User-Agent": "sarvamai/0.1.19a5",
+            "User-Agent": "sarvamai/0.1.20a1",
             "X-Fern-Language": "Python",
             "X-Fern-SDK-Name": "sarvamai",
-            "X-Fern-SDK-Version": "0.1.19a5",
+            "X-Fern-SDK-Version": "0.1.20a1",
             **(self.get_custom_headers() or {}),
         }
         headers["api-subscription-key"] = self.api_subscription_key

{sarvamai-0.1.19a5 → sarvamai-0.1.20a1}/src/sarvamai/requests/__init__.py RENAMED Viewed

@@ -32,6 +32,8 @@ from .error_details import ErrorDetailsParams
 from .error_message import ErrorMessageParams
 from .error_response import ErrorResponseParams
 from .error_response_data import ErrorResponseDataParams
+from .event_response import EventResponseParams
+from .event_response_data import EventResponseDataParams
 from .events_data import EventsDataParams
 from .file_signed_url_details import FileSignedUrlDetailsParams
 from .files_download_response import FilesDownloadResponseParams
@@ -92,6 +94,8 @@ __all__ = [
     "ErrorMessageParams",
     "ErrorResponseDataParams",
     "ErrorResponseParams",
+    "EventResponseDataParams",
+    "EventResponseParams",
     "EventsDataParams",
     "FileSignedUrlDetailsParams",
     "FilesDownloadResponseParams",

sarvamai-0.1.20a1/src/sarvamai/requests/audio_data.py ADDED Viewed

@@ -0,0 +1,34 @@
+# This file was auto-generated by Fern from our API Definition.
+import typing
+import typing_extensions
+from ..types.audio_data_input_audio_codec import AudioDataInputAudioCodec
+class AudioDataParams(typing_extensions.TypedDict):
+    data: str
+    """
+    Base64 encoded audio data
+    """
+    sample_rate: int
+    """
+    Audio sample rate in Hz for individual audio messages.
+    **Backward Compatibility**: This property is maintained for legacy support.
+    **Recommended**: Use the connection-level sample_rate parameter instead.
+    **Note**: 8kHz is only supported via connection parameter, not in AudioData messages.
+    Supported values: 16kHz (preferred), 22.05kHz, 24kHz
+    """
+    encoding: typing.Literal["audio/wav"]
+    """
+    Audio encoding format
+    """
+    input_audio_codec: typing_extensions.NotRequired[AudioDataInputAudioCodec]
+    """
+    Audio codec/format of the input file. Our API automatically detects all codec formats, but for PCM files specifically (pcm_s16le, pcm_l16, pcm_raw), you must pass this parameter. PCM files supports sample rate 16000 and 8000.
+    """

sarvamai-0.1.20a1/src/sarvamai/requests/event_response.py ADDED Viewed

@@ -0,0 +1,19 @@
+# This file was auto-generated by Fern from our API Definition.
+import typing
+import typing_extensions
+from .event_response_data import EventResponseDataParams
+class EventResponseParams(typing_extensions.TypedDict):
+    """
+    Event notification message sent when specific events occur during TTS processing
+    """
+    type: typing.Literal["event"]
+    """
+    Message type identifier for events
+    """
+    data: EventResponseDataParams

sarvamai-0.1.20a1/src/sarvamai/requests/event_response_data.py ADDED Viewed

@@ -0,0 +1,23 @@
+# This file was auto-generated by Fern from our API Definition.
+import datetime as dt
+import typing
+import typing_extensions
+class EventResponseDataParams(typing_extensions.TypedDict):
+    event_type: typing.Literal["final"]
+    """
+    Type of event that occurred
+    """
+    message: typing_extensions.NotRequired[str]
+    """
+    Human-readable description of the event
+    """
+    timestamp: typing_extensions.NotRequired[dt.datetime]
+    """
+    ISO 8601 timestamp when the event occurred
+    """

{sarvamai-0.1.19a5 → sarvamai-0.1.20a1}/src/sarvamai/speech_to_text_streaming/__init__.py RENAMED Viewed

@@ -5,6 +5,7 @@
 from .types import (
     SpeechToTextStreamingFlushSignal,
     SpeechToTextStreamingHighVadSensitivity,
+    SpeechToTextStreamingInputAudioCodec,
     SpeechToTextStreamingLanguageCode,
     SpeechToTextStreamingModel,
     SpeechToTextStreamingVadSignals,
@@ -13,6 +14,7 @@ from .types import (
 __all__ = [
     "SpeechToTextStreamingFlushSignal",
     "SpeechToTextStreamingHighVadSensitivity",
+    "SpeechToTextStreamingInputAudioCodec",
     "SpeechToTextStreamingLanguageCode",
     "SpeechToTextStreamingModel",
     "SpeechToTextStreamingVadSignals",

{sarvamai-0.1.19a5 → sarvamai-0.1.20a1}/src/sarvamai/speech_to_text_streaming/client.py RENAMED Viewed

@@ -13,6 +13,7 @@ from .raw_client import AsyncRawSpeechToTextStreamingClient, RawSpeechToTextStre
 from .socket_client import AsyncSpeechToTextStreamingSocketClient, SpeechToTextStreamingSocketClient
 from .types.speech_to_text_streaming_flush_signal import SpeechToTextStreamingFlushSignal
 from .types.speech_to_text_streaming_high_vad_sensitivity import SpeechToTextStreamingHighVadSensitivity
+from .types.speech_to_text_streaming_input_audio_codec import SpeechToTextStreamingInputAudioCodec
 from .types.speech_to_text_streaming_language_code import SpeechToTextStreamingLanguageCode
 from .types.speech_to_text_streaming_model import SpeechToTextStreamingModel
 from .types.speech_to_text_streaming_vad_signals import SpeechToTextStreamingVadSignals
@@ -44,6 +45,8 @@ class SpeechToTextStreamingClient:
         *,
         language_code: SpeechToTextStreamingLanguageCode,
         model: typing.Optional[SpeechToTextStreamingModel] = None,
+        input_audio_codec: typing.Optional[SpeechToTextStreamingInputAudioCodec] = None,
+        sample_rate: typing.Optional[str] = None,
         high_vad_sensitivity: typing.Optional[SpeechToTextStreamingHighVadSensitivity] = None,
         vad_signals: typing.Optional[SpeechToTextStreamingVadSignals] = None,
         flush_signal: typing.Optional[SpeechToTextStreamingFlushSignal] = None,
@@ -61,6 +64,12 @@ class SpeechToTextStreamingClient:
         model : typing.Optional[SpeechToTextStreamingModel]
             Speech to text model to use
+        input_audio_codec : typing.Optional[SpeechToTextStreamingInputAudioCodec]
+            Audio codec/format of the input file. Our API automatically detects all codec formats, but for PCM files specifically (pcm_s16le, pcm_l16, pcm_raw), you must pass this parameter. PCM files supports sample rate 16000 and 8000.
+        sample_rate : typing.Optional[str]
+            Audio sample rate for the WebSocket connection. When specified as a connection parameter, only 16kHz and 8kHz are supported. 8kHz is only available via this connection parameter. If not specified, defaults to 16kHz.
         high_vad_sensitivity : typing.Optional[SpeechToTextStreamingHighVadSensitivity]
             Enable high VAD (Voice Activity Detection) sensitivity
@@ -86,6 +95,10 @@ class SpeechToTextStreamingClient:
             query_params = query_params.add("language-code", language_code)
         if model is not None:
             query_params = query_params.add("model", model)
+        if input_audio_codec is not None:
+            query_params = query_params.add("input_audio_codec", input_audio_codec)
+        if sample_rate is not None:
+            query_params = query_params.add("sample_rate", sample_rate)
         if high_vad_sensitivity is not None:
             query_params = query_params.add("high_vad_sensitivity", high_vad_sensitivity)
         if vad_signals is not None:
@@ -137,6 +150,8 @@ class AsyncSpeechToTextStreamingClient:
         *,
         language_code: SpeechToTextStreamingLanguageCode,
         model: typing.Optional[SpeechToTextStreamingModel] = None,
+        input_audio_codec: typing.Optional[SpeechToTextStreamingInputAudioCodec] = None,
+        sample_rate: typing.Optional[str] = None,
         high_vad_sensitivity: typing.Optional[SpeechToTextStreamingHighVadSensitivity] = None,
         vad_signals: typing.Optional[SpeechToTextStreamingVadSignals] = None,
         flush_signal: typing.Optional[SpeechToTextStreamingFlushSignal] = None,
@@ -154,6 +169,12 @@ class AsyncSpeechToTextStreamingClient:
         model : typing.Optional[SpeechToTextStreamingModel]
             Speech to text model to use
+        input_audio_codec : typing.Optional[SpeechToTextStreamingInputAudioCodec]
+            Audio codec/format of the input file. Our API automatically detects all codec formats, but for PCM files specifically (pcm_s16le, pcm_l16, pcm_raw), you must pass this parameter. PCM files supports sample rate 16000 and 8000.
+        sample_rate : typing.Optional[str]
+            Audio sample rate for the WebSocket connection. When specified as a connection parameter, only 16kHz and 8kHz are supported. 8kHz is only available via this connection parameter. If not specified, defaults to 16kHz.
         high_vad_sensitivity : typing.Optional[SpeechToTextStreamingHighVadSensitivity]
             Enable high VAD (Voice Activity Detection) sensitivity
@@ -179,6 +200,10 @@ class AsyncSpeechToTextStreamingClient:
             query_params = query_params.add("language-code", language_code)
         if model is not None:
             query_params = query_params.add("model", model)
+        if input_audio_codec is not None:
+            query_params = query_params.add("input_audio_codec", input_audio_codec)
+        if sample_rate is not None:
+            query_params = query_params.add("sample_rate", sample_rate)
         if high_vad_sensitivity is not None:
             query_params = query_params.add("high_vad_sensitivity", high_vad_sensitivity)
         if vad_signals is not None:

{sarvamai-0.1.19a5 → sarvamai-0.1.20a1}/src/sarvamai/speech_to_text_streaming/raw_client.py RENAMED Viewed

@@ -12,6 +12,7 @@ from ..core.request_options import RequestOptions
 from .socket_client import AsyncSpeechToTextStreamingSocketClient, SpeechToTextStreamingSocketClient
 from .types.speech_to_text_streaming_flush_signal import SpeechToTextStreamingFlushSignal
 from .types.speech_to_text_streaming_high_vad_sensitivity import SpeechToTextStreamingHighVadSensitivity
+from .types.speech_to_text_streaming_input_audio_codec import SpeechToTextStreamingInputAudioCodec
 from .types.speech_to_text_streaming_language_code import SpeechToTextStreamingLanguageCode
 from .types.speech_to_text_streaming_model import SpeechToTextStreamingModel
 from .types.speech_to_text_streaming_vad_signals import SpeechToTextStreamingVadSignals
@@ -32,6 +33,8 @@ class RawSpeechToTextStreamingClient:
         *,
         language_code: SpeechToTextStreamingLanguageCode,
         model: typing.Optional[SpeechToTextStreamingModel] = None,
+        input_audio_codec: typing.Optional[SpeechToTextStreamingInputAudioCodec] = None,
+        sample_rate: typing.Optional[str] = None,
         high_vad_sensitivity: typing.Optional[SpeechToTextStreamingHighVadSensitivity] = None,
         vad_signals: typing.Optional[SpeechToTextStreamingVadSignals] = None,
         flush_signal: typing.Optional[SpeechToTextStreamingFlushSignal] = None,
@@ -49,6 +52,12 @@ class RawSpeechToTextStreamingClient:
         model : typing.Optional[SpeechToTextStreamingModel]
             Speech to text model to use
+        input_audio_codec : typing.Optional[SpeechToTextStreamingInputAudioCodec]
+            Audio codec/format of the input file. Our API automatically detects all codec formats, but for PCM files specifically (pcm_s16le, pcm_l16, pcm_raw), you must pass this parameter. PCM files supports sample rate 16000 and 8000.
+        sample_rate : typing.Optional[str]
+            Audio sample rate for the WebSocket connection. When specified as a connection parameter, only 16kHz and 8kHz are supported. 8kHz is only available via this connection parameter. If not specified, defaults to 16kHz.
         high_vad_sensitivity : typing.Optional[SpeechToTextStreamingHighVadSensitivity]
             Enable high VAD (Voice Activity Detection) sensitivity
@@ -74,6 +83,10 @@ class RawSpeechToTextStreamingClient:
             query_params = query_params.add("language-code", language_code)
         if model is not None:
             query_params = query_params.add("model", model)
+        if input_audio_codec is not None:
+            query_params = query_params.add("input_audio_codec", input_audio_codec)
+        if sample_rate is not None:
+            query_params = query_params.add("sample_rate", sample_rate)
         if high_vad_sensitivity is not None:
             query_params = query_params.add("high_vad_sensitivity", high_vad_sensitivity)
         if vad_signals is not None:
@@ -114,6 +127,8 @@ class AsyncRawSpeechToTextStreamingClient:
         *,
         language_code: SpeechToTextStreamingLanguageCode,
         model: typing.Optional[SpeechToTextStreamingModel] = None,
+        input_audio_codec: typing.Optional[SpeechToTextStreamingInputAudioCodec] = None,
+        sample_rate: typing.Optional[str] = None,
         high_vad_sensitivity: typing.Optional[SpeechToTextStreamingHighVadSensitivity] = None,
         vad_signals: typing.Optional[SpeechToTextStreamingVadSignals] = None,
         flush_signal: typing.Optional[SpeechToTextStreamingFlushSignal] = None,
@@ -131,6 +146,12 @@ class AsyncRawSpeechToTextStreamingClient:
         model : typing.Optional[SpeechToTextStreamingModel]
             Speech to text model to use
+        input_audio_codec : typing.Optional[SpeechToTextStreamingInputAudioCodec]
+            Audio codec/format of the input file. Our API automatically detects all codec formats, but for PCM files specifically (pcm_s16le, pcm_l16, pcm_raw), you must pass this parameter. PCM files supports sample rate 16000 and 8000.
+        sample_rate : typing.Optional[str]
+            Audio sample rate for the WebSocket connection. When specified as a connection parameter, only 16kHz and 8kHz are supported. 8kHz is only available via this connection parameter. If not specified, defaults to 16kHz.
         high_vad_sensitivity : typing.Optional[SpeechToTextStreamingHighVadSensitivity]
             Enable high VAD (Voice Activity Detection) sensitivity
@@ -156,6 +177,10 @@ class AsyncRawSpeechToTextStreamingClient:
             query_params = query_params.add("language-code", language_code)
         if model is not None:
             query_params = query_params.add("model", model)
+        if input_audio_codec is not None:
+            query_params = query_params.add("input_audio_codec", input_audio_codec)
+        if sample_rate is not None:
+            query_params = query_params.add("sample_rate", sample_rate)
         if high_vad_sensitivity is not None:
             query_params = query_params.add("high_vad_sensitivity", high_vad_sensitivity)
         if vad_signals is not None:

{sarvamai-0.1.19a5 → sarvamai-0.1.20a1}/src/sarvamai/speech_to_text_streaming/types/__init__.py RENAMED Viewed

@@ -4,6 +4,7 @@
 from .speech_to_text_streaming_flush_signal import SpeechToTextStreamingFlushSignal
 from .speech_to_text_streaming_high_vad_sensitivity import SpeechToTextStreamingHighVadSensitivity
+from .speech_to_text_streaming_input_audio_codec import SpeechToTextStreamingInputAudioCodec
 from .speech_to_text_streaming_language_code import SpeechToTextStreamingLanguageCode
 from .speech_to_text_streaming_model import SpeechToTextStreamingModel
 from .speech_to_text_streaming_vad_signals import SpeechToTextStreamingVadSignals
@@ -11,6 +12,7 @@ from .speech_to_text_streaming_vad_signals import SpeechToTextStreamingVadSignal
 __all__ = [
     "SpeechToTextStreamingFlushSignal",
     "SpeechToTextStreamingHighVadSensitivity",
+    "SpeechToTextStreamingInputAudioCodec",
     "SpeechToTextStreamingLanguageCode",
     "SpeechToTextStreamingModel",
     "SpeechToTextStreamingVadSignals",

sarvamai-0.1.20a1/src/sarvamai/speech_to_text_streaming/types/speech_to_text_streaming_input_audio_codec.py ADDED Viewed

@@ -0,0 +1,33 @@
+# This file was auto-generated by Fern from our API Definition.
+import typing
+SpeechToTextStreamingInputAudioCodec = typing.Union[
+    typing.Literal[
+        "wav",
+        "x-wav",
+        "wave",
+        "mp3",
+        "mpeg",
+        "mpeg3",
+        "x-mp3",
+        "x-mpeg-3",
+        "aac",
+        "x-aac",
+        "aiff",
+        "x-aiff",
+        "ogg",
+        "opus",
+        "flac",
+        "x-flac",
+        "mp4",
+        "x-m4a",
+        "amr",
+        "x-ms-wma",
+        "webm",
+        "pcm_s16le",
+        "pcm_l16",
+        "pcm_raw",
+    ],
+    typing.Any,
+]

{sarvamai-0.1.19a5 → sarvamai-0.1.20a1}/src/sarvamai/speech_to_text_translate_streaming/__init__.py RENAMED Viewed

@@ -5,6 +5,7 @@
 from .types import (
     SpeechToTextTranslateStreamingFlushSignal,
     SpeechToTextTranslateStreamingHighVadSensitivity,
+    SpeechToTextTranslateStreamingInputAudioCodec,
     SpeechToTextTranslateStreamingModel,
     SpeechToTextTranslateStreamingVadSignals,
 )
@@ -12,6 +13,7 @@ from .types import (
 __all__ = [
     "SpeechToTextTranslateStreamingFlushSignal",
     "SpeechToTextTranslateStreamingHighVadSensitivity",
+    "SpeechToTextTranslateStreamingInputAudioCodec",
     "SpeechToTextTranslateStreamingModel",
     "SpeechToTextTranslateStreamingVadSignals",
 ]

{sarvamai-0.1.19a5 → sarvamai-0.1.20a1}/src/sarvamai/speech_to_text_translate_streaming/client.py RENAMED Viewed

@@ -15,6 +15,7 @@ from .types.speech_to_text_translate_streaming_flush_signal import SpeechToTextT
 from .types.speech_to_text_translate_streaming_high_vad_sensitivity import (
     SpeechToTextTranslateStreamingHighVadSensitivity,
 )
+from .types.speech_to_text_translate_streaming_input_audio_codec import SpeechToTextTranslateStreamingInputAudioCodec
 from .types.speech_to_text_translate_streaming_model import SpeechToTextTranslateStreamingModel
 from .types.speech_to_text_translate_streaming_vad_signals import SpeechToTextTranslateStreamingVadSignals
@@ -44,6 +45,8 @@ class SpeechToTextTranslateStreamingClient:
         self,
         *,
         model: typing.Optional[SpeechToTextTranslateStreamingModel] = None,
+        input_audio_codec: typing.Optional[SpeechToTextTranslateStreamingInputAudioCodec] = None,
+        sample_rate: typing.Optional[str] = None,
         high_vad_sensitivity: typing.Optional[SpeechToTextTranslateStreamingHighVadSensitivity] = None,
         vad_signals: typing.Optional[SpeechToTextTranslateStreamingVadSignals] = None,
         flush_signal: typing.Optional[SpeechToTextTranslateStreamingFlushSignal] = None,
@@ -58,6 +61,12 @@ class SpeechToTextTranslateStreamingClient:
         model : typing.Optional[SpeechToTextTranslateStreamingModel]
             Speech to text model to use (defaults to "saaras:v2.5" if not specified)
+        input_audio_codec : typing.Optional[SpeechToTextTranslateStreamingInputAudioCodec]
+            Audio codec/format of the input file. Our API automatically detects all codec formats, but for PCM files specifically (pcm_s16le, pcm_l16, pcm_raw), you must pass this parameter. PCM files supports sample rate 16000 and 8000.
+        sample_rate : typing.Optional[str]
+            Audio sample rate for the WebSocket connection. When specified as a connection parameter, only 16kHz and 8kHz are supported. 8kHz is only available via this connection parameter. If not specified, defaults to 16kHz.
         high_vad_sensitivity : typing.Optional[SpeechToTextTranslateStreamingHighVadSensitivity]
             Enable high VAD (Voice Activity Detection) sensitivity
@@ -81,6 +90,10 @@ class SpeechToTextTranslateStreamingClient:
         query_params = httpx.QueryParams()
         if model is not None:
             query_params = query_params.add("model", model)
+        if input_audio_codec is not None:
+            query_params = query_params.add("input_audio_codec", input_audio_codec)
+        if sample_rate is not None:
+            query_params = query_params.add("sample_rate", sample_rate)
         if high_vad_sensitivity is not None:
             query_params = query_params.add("high_vad_sensitivity", high_vad_sensitivity)
         if vad_signals is not None:
@@ -131,6 +144,8 @@ class AsyncSpeechToTextTranslateStreamingClient:
         self,
         *,
         model: typing.Optional[SpeechToTextTranslateStreamingModel] = None,
+        input_audio_codec: typing.Optional[SpeechToTextTranslateStreamingInputAudioCodec] = None,
+        sample_rate: typing.Optional[str] = None,
         high_vad_sensitivity: typing.Optional[SpeechToTextTranslateStreamingHighVadSensitivity] = None,
         vad_signals: typing.Optional[SpeechToTextTranslateStreamingVadSignals] = None,
         flush_signal: typing.Optional[SpeechToTextTranslateStreamingFlushSignal] = None,
@@ -145,6 +160,12 @@ class AsyncSpeechToTextTranslateStreamingClient:
         model : typing.Optional[SpeechToTextTranslateStreamingModel]
             Speech to text model to use (defaults to "saaras:v2.5" if not specified)
+        input_audio_codec : typing.Optional[SpeechToTextTranslateStreamingInputAudioCodec]
+            Audio codec/format of the input file. Our API automatically detects all codec formats, but for PCM files specifically (pcm_s16le, pcm_l16, pcm_raw), you must pass this parameter. PCM files supports sample rate 16000 and 8000.
+        sample_rate : typing.Optional[str]
+            Audio sample rate for the WebSocket connection. When specified as a connection parameter, only 16kHz and 8kHz are supported. 8kHz is only available via this connection parameter. If not specified, defaults to 16kHz.
         high_vad_sensitivity : typing.Optional[SpeechToTextTranslateStreamingHighVadSensitivity]
             Enable high VAD (Voice Activity Detection) sensitivity
@@ -168,6 +189,10 @@ class AsyncSpeechToTextTranslateStreamingClient:
         query_params = httpx.QueryParams()
         if model is not None:
             query_params = query_params.add("model", model)
+        if input_audio_codec is not None:
+            query_params = query_params.add("input_audio_codec", input_audio_codec)
+        if sample_rate is not None:
+            query_params = query_params.add("sample_rate", sample_rate)
         if high_vad_sensitivity is not None:
             query_params = query_params.add("high_vad_sensitivity", high_vad_sensitivity)
         if vad_signals is not None:

{sarvamai-0.1.19a5 → sarvamai-0.1.20a1}/src/sarvamai/speech_to_text_translate_streaming/raw_client.py RENAMED Viewed

@@ -14,6 +14,7 @@ from .types.speech_to_text_translate_streaming_flush_signal import SpeechToTextT
 from .types.speech_to_text_translate_streaming_high_vad_sensitivity import (
     SpeechToTextTranslateStreamingHighVadSensitivity,
 )
+from .types.speech_to_text_translate_streaming_input_audio_codec import SpeechToTextTranslateStreamingInputAudioCodec
 from .types.speech_to_text_translate_streaming_model import SpeechToTextTranslateStreamingModel
 from .types.speech_to_text_translate_streaming_vad_signals import SpeechToTextTranslateStreamingVadSignals
@@ -32,6 +33,8 @@ class RawSpeechToTextTranslateStreamingClient:
         self,
         *,
         model: typing.Optional[SpeechToTextTranslateStreamingModel] = None,
+        input_audio_codec: typing.Optional[SpeechToTextTranslateStreamingInputAudioCodec] = None,
+        sample_rate: typing.Optional[str] = None,
         high_vad_sensitivity: typing.Optional[SpeechToTextTranslateStreamingHighVadSensitivity] = None,
         vad_signals: typing.Optional[SpeechToTextTranslateStreamingVadSignals] = None,
         flush_signal: typing.Optional[SpeechToTextTranslateStreamingFlushSignal] = None,
@@ -46,6 +49,12 @@ class RawSpeechToTextTranslateStreamingClient:
         model : typing.Optional[SpeechToTextTranslateStreamingModel]
             Speech to text model to use (defaults to "saaras:v2.5" if not specified)
+        input_audio_codec : typing.Optional[SpeechToTextTranslateStreamingInputAudioCodec]
+            Audio codec/format of the input file. Our API automatically detects all codec formats, but for PCM files specifically (pcm_s16le, pcm_l16, pcm_raw), you must pass this parameter. PCM files supports sample rate 16000 and 8000.
+        sample_rate : typing.Optional[str]
+            Audio sample rate for the WebSocket connection. When specified as a connection parameter, only 16kHz and 8kHz are supported. 8kHz is only available via this connection parameter. If not specified, defaults to 16kHz.
         high_vad_sensitivity : typing.Optional[SpeechToTextTranslateStreamingHighVadSensitivity]
             Enable high VAD (Voice Activity Detection) sensitivity
@@ -69,6 +78,10 @@ class RawSpeechToTextTranslateStreamingClient:
         query_params = httpx.QueryParams()
         if model is not None:
             query_params = query_params.add("model", model)
+        if input_audio_codec is not None:
+            query_params = query_params.add("input_audio_codec", input_audio_codec)
+        if sample_rate is not None:
+            query_params = query_params.add("sample_rate", sample_rate)
         if high_vad_sensitivity is not None:
             query_params = query_params.add("high_vad_sensitivity", high_vad_sensitivity)
         if vad_signals is not None:
@@ -108,6 +121,8 @@ class AsyncRawSpeechToTextTranslateStreamingClient:
         self,
         *,
         model: typing.Optional[SpeechToTextTranslateStreamingModel] = None,
+        input_audio_codec: typing.Optional[SpeechToTextTranslateStreamingInputAudioCodec] = None,
+        sample_rate: typing.Optional[str] = None,
         high_vad_sensitivity: typing.Optional[SpeechToTextTranslateStreamingHighVadSensitivity] = None,
         vad_signals: typing.Optional[SpeechToTextTranslateStreamingVadSignals] = None,
         flush_signal: typing.Optional[SpeechToTextTranslateStreamingFlushSignal] = None,
@@ -122,6 +137,12 @@ class AsyncRawSpeechToTextTranslateStreamingClient:
         model : typing.Optional[SpeechToTextTranslateStreamingModel]
             Speech to text model to use (defaults to "saaras:v2.5" if not specified)
+        input_audio_codec : typing.Optional[SpeechToTextTranslateStreamingInputAudioCodec]
+            Audio codec/format of the input file. Our API automatically detects all codec formats, but for PCM files specifically (pcm_s16le, pcm_l16, pcm_raw), you must pass this parameter. PCM files supports sample rate 16000 and 8000.
+        sample_rate : typing.Optional[str]
+            Audio sample rate for the WebSocket connection. When specified as a connection parameter, only 16kHz and 8kHz are supported. 8kHz is only available via this connection parameter. If not specified, defaults to 16kHz.
         high_vad_sensitivity : typing.Optional[SpeechToTextTranslateStreamingHighVadSensitivity]
             Enable high VAD (Voice Activity Detection) sensitivity
@@ -145,6 +166,10 @@ class AsyncRawSpeechToTextTranslateStreamingClient:
         query_params = httpx.QueryParams()
         if model is not None:
             query_params = query_params.add("model", model)
+        if input_audio_codec is not None:
+            query_params = query_params.add("input_audio_codec", input_audio_codec)
+        if sample_rate is not None:
+            query_params = query_params.add("sample_rate", sample_rate)
         if high_vad_sensitivity is not None:
             query_params = query_params.add("high_vad_sensitivity", high_vad_sensitivity)
         if vad_signals is not None:

{sarvamai-0.1.19a5 → sarvamai-0.1.20a1}/src/sarvamai/speech_to_text_translate_streaming/types/__init__.py RENAMED Viewed

@@ -4,12 +4,14 @@
 from .speech_to_text_translate_streaming_flush_signal import SpeechToTextTranslateStreamingFlushSignal
 from .speech_to_text_translate_streaming_high_vad_sensitivity import SpeechToTextTranslateStreamingHighVadSensitivity
+from .speech_to_text_translate_streaming_input_audio_codec import SpeechToTextTranslateStreamingInputAudioCodec
 from .speech_to_text_translate_streaming_model import SpeechToTextTranslateStreamingModel
 from .speech_to_text_translate_streaming_vad_signals import SpeechToTextTranslateStreamingVadSignals
 __all__ = [
     "SpeechToTextTranslateStreamingFlushSignal",
     "SpeechToTextTranslateStreamingHighVadSensitivity",
+    "SpeechToTextTranslateStreamingInputAudioCodec",
     "SpeechToTextTranslateStreamingModel",
     "SpeechToTextTranslateStreamingVadSignals",
 ]

sarvamai 0.1.19a5__tar.gz → 0.1.20a1__tar.gz

sarvamai 0.1.19a5tar.gz → 0.1.20a1tar.gz