PyPI - sarvamai - Versions diffs - 0.1.22a4__py3-none-any.whl → 0.1.22a7__py3-none-any.whl - Mend

sarvamai 0.1.22a4py3-none-any.whl → 0.1.22a7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (76) hide show

sarvamai/__init__.py +62 -3
sarvamai/client.py +3 -0
sarvamai/core/client_wrapper.py +2 -2
sarvamai/doc_digitization_job/__init__.py +4 -0
sarvamai/doc_digitization_job/client.py +776 -0
sarvamai/doc_digitization_job/job.py +496 -0
sarvamai/doc_digitization_job/raw_client.py +1176 -0
sarvamai/requests/__init__.py +20 -0
sarvamai/requests/audio_data.py +0 -6
sarvamai/requests/configure_connection.py +4 -0
sarvamai/requests/configure_connection_data.py +40 -11
sarvamai/requests/doc_digitization_create_job_response.py +25 -0
sarvamai/requests/doc_digitization_download_files_response.py +37 -0
sarvamai/requests/doc_digitization_error_details.py +21 -0
sarvamai/requests/doc_digitization_error_message.py +11 -0
sarvamai/requests/doc_digitization_job_detail.py +64 -0
sarvamai/requests/doc_digitization_job_parameters.py +21 -0
sarvamai/requests/doc_digitization_job_status_response.py +65 -0
sarvamai/requests/doc_digitization_page_error.py +24 -0
sarvamai/requests/doc_digitization_upload_files_response.py +34 -0
sarvamai/requests/doc_digitization_webhook_callback.py +19 -0
sarvamai/requests/speech_to_text_job_parameters.py +43 -2
sarvamai/requests/speech_to_text_translate_job_parameters.py +4 -1
sarvamai/speech_to_text/client.py +95 -10
sarvamai/speech_to_text/raw_client.py +95 -10
sarvamai/speech_to_text_job/client.py +60 -15
sarvamai/speech_to_text_streaming/__init__.py +4 -0
sarvamai/speech_to_text_streaming/client.py +102 -18
sarvamai/speech_to_text_streaming/raw_client.py +102 -18
sarvamai/speech_to_text_streaming/types/__init__.py +4 -0
sarvamai/speech_to_text_streaming/types/speech_to_text_streaming_input_audio_codec.py +1 -27
sarvamai/speech_to_text_streaming/types/speech_to_text_streaming_mode.py +7 -0
sarvamai/speech_to_text_streaming/types/speech_to_text_streaming_model.py +5 -0
sarvamai/speech_to_text_translate_streaming/client.py +20 -12
sarvamai/speech_to_text_translate_streaming/raw_client.py +20 -12
sarvamai/speech_to_text_translate_streaming/types/speech_to_text_translate_streaming_input_audio_codec.py +1 -27
sarvamai/text/client.py +0 -12
sarvamai/text/raw_client.py +0 -12
sarvamai/text_to_speech/client.py +116 -14
sarvamai/text_to_speech/raw_client.py +116 -14
sarvamai/text_to_speech_streaming/__init__.py +2 -2
sarvamai/text_to_speech_streaming/client.py +19 -6
sarvamai/text_to_speech_streaming/raw_client.py +19 -6
sarvamai/text_to_speech_streaming/types/__init__.py +2 -1
sarvamai/text_to_speech_streaming/types/text_to_speech_streaming_model.py +5 -0
sarvamai/types/__init__.py +34 -2
sarvamai/types/audio_data.py +0 -6
sarvamai/types/configure_connection.py +4 -0
sarvamai/types/configure_connection_data.py +40 -11
sarvamai/types/configure_connection_data_model.py +5 -0
sarvamai/types/configure_connection_data_speaker.py +35 -1
sarvamai/types/doc_digitization_create_job_response.py +37 -0
sarvamai/types/doc_digitization_download_files_response.py +47 -0
sarvamai/types/doc_digitization_error_code.py +15 -0
sarvamai/types/doc_digitization_error_details.py +33 -0
sarvamai/types/doc_digitization_error_message.py +23 -0
sarvamai/types/doc_digitization_job_detail.py +74 -0
sarvamai/types/doc_digitization_job_detail_state.py +7 -0
sarvamai/types/doc_digitization_job_parameters.py +33 -0
sarvamai/types/doc_digitization_job_state.py +7 -0
sarvamai/types/doc_digitization_job_status_response.py +75 -0
sarvamai/types/doc_digitization_output_format.py +5 -0
sarvamai/types/doc_digitization_page_error.py +36 -0
sarvamai/types/doc_digitization_supported_language.py +32 -0
sarvamai/types/doc_digitization_upload_files_response.py +44 -0
sarvamai/types/doc_digitization_webhook_callback.py +31 -0
sarvamai/types/mode.py +5 -0
sarvamai/types/speech_to_text_job_parameters.py +43 -2
sarvamai/types/speech_to_text_model.py +1 -1
sarvamai/types/speech_to_text_translate_job_parameters.py +4 -1
sarvamai/types/text_to_speech_model.py +1 -1
sarvamai/types/text_to_speech_speaker.py +35 -1
{sarvamai-0.1.22a4.dist-info → sarvamai-0.1.22a7.dist-info}/METADATA +1 -1
{sarvamai-0.1.22a4.dist-info → sarvamai-0.1.22a7.dist-info}/RECORD +75 -42
sarvamai/types/audio_data_input_audio_codec.py +0 -33
{sarvamai-0.1.22a4.dist-info → sarvamai-0.1.22a7.dist-info}/WHEEL +0 -0

sarvamai/speech_to_text_streaming/client.py CHANGED Viewed

@@ -15,6 +15,8 @@ from .types.speech_to_text_streaming_flush_signal import SpeechToTextStreamingFl
 from .types.speech_to_text_streaming_high_vad_sensitivity import SpeechToTextStreamingHighVadSensitivity
 from .types.speech_to_text_streaming_input_audio_codec import SpeechToTextStreamingInputAudioCodec
 from .types.speech_to_text_streaming_language_code import SpeechToTextStreamingLanguageCode
+from .types.speech_to_text_streaming_mode import SpeechToTextStreamingMode
+from .types.speech_to_text_streaming_model import SpeechToTextStreamingModel
 from .types.speech_to_text_streaming_vad_signals import SpeechToTextStreamingVadSignals
 try:
@@ -43,12 +45,13 @@ class SpeechToTextStreamingClient:
         self,
         *,
         language_code: SpeechToTextStreamingLanguageCode,
-        model: typing.Optional[typing.Literal["saarika:v2.5"]] = None,
-        input_audio_codec: typing.Optional[SpeechToTextStreamingInputAudioCodec] = None,
+        model: typing.Optional[SpeechToTextStreamingModel] = None,
+        mode: typing.Optional[SpeechToTextStreamingMode] = None,
         sample_rate: typing.Optional[str] = None,
         high_vad_sensitivity: typing.Optional[SpeechToTextStreamingHighVadSensitivity] = None,
         vad_signals: typing.Optional[SpeechToTextStreamingVadSignals] = None,
         flush_signal: typing.Optional[SpeechToTextStreamingFlushSignal] = None,
+        input_audio_codec: typing.Optional[SpeechToTextStreamingInputAudioCodec] = None,
         api_subscription_key: typing.Optional[str] = None,
         request_options: typing.Optional[RequestOptions] = None,
     ) -> typing.Iterator[SpeechToTextStreamingSocketClient]:
@@ -62,13 +65,47 @@ class SpeechToTextStreamingClient:
         Parameters
         ----------
         language_code : SpeechToTextStreamingLanguageCode
-            Language code for speech recognition
+            Specifies the language of the input audio in BCP-47 format.
-        model : typing.Optional[typing.Literal["saarika:v2.5"]]
-            Speech to text model to use
+            **Available Options:**
+            - `hi-IN`: Hindi
+            - `bn-IN`: Bengali
+            - `gu-IN`: Gujarati
+            - `kn-IN`: Kannada
+            - `ml-IN`: Malayalam
+            - `mr-IN`: Marathi
+            - `od-IN`: Odia
+            - `pa-IN`: Punjabi
+            - `ta-IN`: Tamil
+            - `te-IN`: Telugu
+            - `en-IN`: English
-        input_audio_codec : typing.Optional[SpeechToTextStreamingInputAudioCodec]
-            Audio codec/format of the input file. Our API automatically detects all codec formats, but for PCM files specifically (pcm_s16le, pcm_l16, pcm_raw), you must pass this parameter. PCM files supports sample rate 16000 and 8000.
+        model : typing.Optional[SpeechToTextStreamingModel]
+            Specifies the model to use for speech-to-text conversion.
+            - **saarika:v2.5** (default): Transcribes audio in the spoken language.
+            - **saaras:v3**: State-of-the-art model with flexible output formats. Supports multiple modes via the `mode` parameter: transcribe, translate, verbatim, translit, codemix.
+        mode : typing.Optional[SpeechToTextStreamingMode]
+            Mode of operation. **Only applicable when using saaras:v3 model.**
+            Example audio: 'मेरा फोन नंबर है 9840950950'
+            - **transcribe** (default): Standard transcription in the original language with proper formatting and number normalization.
+              - Output: `मेरा फोन नंबर है 9840950950`
+            - **translate**: Translates speech from any supported Indic language to English.
+              - Output: `My phone number is 9840950950`
+            - **verbatim**: Exact word-for-word transcription without normalization, preserving filler words and spoken numbers as-is.
+              - Output: `मेरा फोन नंबर है नौ आठ चार zero नौ पांच zero नौ पांच zero`
+            - **translit**: Romanization - Transliterates speech to Latin/Roman script only.
+              - Output: `mera phone number hai 9840950950`
+            - **codemix**: Code-mixed text with English words in English and Indic words in native script.
+              - Output: `मेरा phone number है 9840950950`
         sample_rate : typing.Optional[str]
             Audio sample rate for the WebSocket connection. When specified as a connection parameter, only 16kHz and 8kHz are supported. 8kHz is only available via this connection parameter. If not specified, defaults to 16kHz.
@@ -82,6 +119,10 @@ class SpeechToTextStreamingClient:
         flush_signal : typing.Optional[SpeechToTextStreamingFlushSignal]
             Signal to flush the audio buffer and finalize transcription
+        input_audio_codec : typing.Optional[SpeechToTextStreamingInputAudioCodec]
+            Audio codec/format of the input stream. Use this when sending raw PCM audio.
+            Supported values: wav, pcm_s16le, pcm_l16, pcm_raw.
         api_subscription_key : typing.Optional[str]
             API subscription key for authentication
@@ -98,8 +139,8 @@ class SpeechToTextStreamingClient:
             query_params = query_params.add("language-code", language_code)
         if model is not None:
             query_params = query_params.add("model", model)
-        if input_audio_codec is not None:
-            query_params = query_params.add("input_audio_codec", input_audio_codec)
+        if mode is not None:
+            query_params = query_params.add("mode", mode)
         if sample_rate is not None:
             query_params = query_params.add("sample_rate", sample_rate)
         if high_vad_sensitivity is not None:
@@ -108,6 +149,8 @@ class SpeechToTextStreamingClient:
             query_params = query_params.add("vad_signals", vad_signals)
         if flush_signal is not None:
             query_params = query_params.add("flush_signal", flush_signal)
+        if input_audio_codec is not None:
+            query_params = query_params.add("input_audio_codec", input_audio_codec)
         ws_url = ws_url + f"?{query_params}"
         headers = self._raw_client._client_wrapper.get_headers()
         if api_subscription_key is not None:
@@ -152,12 +195,13 @@ class AsyncSpeechToTextStreamingClient:
         self,
         *,
         language_code: SpeechToTextStreamingLanguageCode,
-        model: typing.Optional[typing.Literal["saarika:v2.5"]] = None,
-        input_audio_codec: typing.Optional[SpeechToTextStreamingInputAudioCodec] = None,
+        model: typing.Optional[SpeechToTextStreamingModel] = None,
+        mode: typing.Optional[SpeechToTextStreamingMode] = None,
         sample_rate: typing.Optional[str] = None,
         high_vad_sensitivity: typing.Optional[SpeechToTextStreamingHighVadSensitivity] = None,
         vad_signals: typing.Optional[SpeechToTextStreamingVadSignals] = None,
         flush_signal: typing.Optional[SpeechToTextStreamingFlushSignal] = None,
+        input_audio_codec: typing.Optional[SpeechToTextStreamingInputAudioCodec] = None,
         api_subscription_key: typing.Optional[str] = None,
         request_options: typing.Optional[RequestOptions] = None,
     ) -> typing.AsyncIterator[AsyncSpeechToTextStreamingSocketClient]:
@@ -171,13 +215,47 @@ class AsyncSpeechToTextStreamingClient:
         Parameters
         ----------
         language_code : SpeechToTextStreamingLanguageCode
-            Language code for speech recognition
+            Specifies the language of the input audio in BCP-47 format.
-        model : typing.Optional[typing.Literal["saarika:v2.5"]]
-            Speech to text model to use
+            **Available Options:**
+            - `hi-IN`: Hindi
+            - `bn-IN`: Bengali
+            - `gu-IN`: Gujarati
+            - `kn-IN`: Kannada
+            - `ml-IN`: Malayalam
+            - `mr-IN`: Marathi
+            - `od-IN`: Odia
+            - `pa-IN`: Punjabi
+            - `ta-IN`: Tamil
+            - `te-IN`: Telugu
+            - `en-IN`: English
-        input_audio_codec : typing.Optional[SpeechToTextStreamingInputAudioCodec]
-            Audio codec/format of the input file. Our API automatically detects all codec formats, but for PCM files specifically (pcm_s16le, pcm_l16, pcm_raw), you must pass this parameter. PCM files supports sample rate 16000 and 8000.
+        model : typing.Optional[SpeechToTextStreamingModel]
+            Specifies the model to use for speech-to-text conversion.
+            - **saarika:v2.5** (default): Transcribes audio in the spoken language.
+            - **saaras:v3**: State-of-the-art model with flexible output formats. Supports multiple modes via the `mode` parameter: transcribe, translate, verbatim, translit, codemix.
+        mode : typing.Optional[SpeechToTextStreamingMode]
+            Mode of operation. **Only applicable when using saaras:v3 model.**
+            Example audio: 'मेरा फोन नंबर है 9840950950'
+            - **transcribe** (default): Standard transcription in the original language with proper formatting and number normalization.
+              - Output: `मेरा फोन नंबर है 9840950950`
+            - **translate**: Translates speech from any supported Indic language to English.
+              - Output: `My phone number is 9840950950`
+            - **verbatim**: Exact word-for-word transcription without normalization, preserving filler words and spoken numbers as-is.
+              - Output: `मेरा फोन नंबर है नौ आठ चार zero नौ पांच zero नौ पांच zero`
+            - **translit**: Romanization - Transliterates speech to Latin/Roman script only.
+              - Output: `mera phone number hai 9840950950`
+            - **codemix**: Code-mixed text with English words in English and Indic words in native script.
+              - Output: `मेरा phone number है 9840950950`
         sample_rate : typing.Optional[str]
             Audio sample rate for the WebSocket connection. When specified as a connection parameter, only 16kHz and 8kHz are supported. 8kHz is only available via this connection parameter. If not specified, defaults to 16kHz.
@@ -191,6 +269,10 @@ class AsyncSpeechToTextStreamingClient:
         flush_signal : typing.Optional[SpeechToTextStreamingFlushSignal]
             Signal to flush the audio buffer and finalize transcription
+        input_audio_codec : typing.Optional[SpeechToTextStreamingInputAudioCodec]
+            Audio codec/format of the input stream. Use this when sending raw PCM audio.
+            Supported values: wav, pcm_s16le, pcm_l16, pcm_raw.
         api_subscription_key : typing.Optional[str]
             API subscription key for authentication
@@ -207,8 +289,8 @@ class AsyncSpeechToTextStreamingClient:
             query_params = query_params.add("language-code", language_code)
         if model is not None:
             query_params = query_params.add("model", model)
-        if input_audio_codec is not None:
-            query_params = query_params.add("input_audio_codec", input_audio_codec)
+        if mode is not None:
+            query_params = query_params.add("mode", mode)
         if sample_rate is not None:
             query_params = query_params.add("sample_rate", sample_rate)
         if high_vad_sensitivity is not None:
@@ -217,6 +299,8 @@ class AsyncSpeechToTextStreamingClient:
             query_params = query_params.add("vad_signals", vad_signals)
         if flush_signal is not None:
             query_params = query_params.add("flush_signal", flush_signal)
+        if input_audio_codec is not None:
+            query_params = query_params.add("input_audio_codec", input_audio_codec)
         ws_url = ws_url + f"?{query_params}"
         headers = self._raw_client._client_wrapper.get_headers()
         if api_subscription_key is not None:

sarvamai/speech_to_text_streaming/raw_client.py CHANGED Viewed

@@ -14,6 +14,8 @@ from .types.speech_to_text_streaming_flush_signal import SpeechToTextStreamingFl
 from .types.speech_to_text_streaming_high_vad_sensitivity import SpeechToTextStreamingHighVadSensitivity
 from .types.speech_to_text_streaming_input_audio_codec import SpeechToTextStreamingInputAudioCodec
 from .types.speech_to_text_streaming_language_code import SpeechToTextStreamingLanguageCode
+from .types.speech_to_text_streaming_mode import SpeechToTextStreamingMode
+from .types.speech_to_text_streaming_model import SpeechToTextStreamingModel
 from .types.speech_to_text_streaming_vad_signals import SpeechToTextStreamingVadSignals
 try:
@@ -31,12 +33,13 @@ class RawSpeechToTextStreamingClient:
         self,
         *,
         language_code: SpeechToTextStreamingLanguageCode,
-        model: typing.Optional[typing.Literal["saarika:v2.5"]] = None,
-        input_audio_codec: typing.Optional[SpeechToTextStreamingInputAudioCodec] = None,
+        model: typing.Optional[SpeechToTextStreamingModel] = None,
+        mode: typing.Optional[SpeechToTextStreamingMode] = None,
         sample_rate: typing.Optional[str] = None,
         high_vad_sensitivity: typing.Optional[SpeechToTextStreamingHighVadSensitivity] = None,
         vad_signals: typing.Optional[SpeechToTextStreamingVadSignals] = None,
         flush_signal: typing.Optional[SpeechToTextStreamingFlushSignal] = None,
+        input_audio_codec: typing.Optional[SpeechToTextStreamingInputAudioCodec] = None,
         api_subscription_key: typing.Optional[str] = None,
         request_options: typing.Optional[RequestOptions] = None,
     ) -> typing.Iterator[SpeechToTextStreamingSocketClient]:
@@ -50,13 +53,47 @@ class RawSpeechToTextStreamingClient:
         Parameters
         ----------
         language_code : SpeechToTextStreamingLanguageCode
-            Language code for speech recognition
+            Specifies the language of the input audio in BCP-47 format.
-        model : typing.Optional[typing.Literal["saarika:v2.5"]]
-            Speech to text model to use
+            **Available Options:**
+            - `hi-IN`: Hindi
+            - `bn-IN`: Bengali
+            - `gu-IN`: Gujarati
+            - `kn-IN`: Kannada
+            - `ml-IN`: Malayalam
+            - `mr-IN`: Marathi
+            - `od-IN`: Odia
+            - `pa-IN`: Punjabi
+            - `ta-IN`: Tamil
+            - `te-IN`: Telugu
+            - `en-IN`: English
-        input_audio_codec : typing.Optional[SpeechToTextStreamingInputAudioCodec]
-            Audio codec/format of the input file. Our API automatically detects all codec formats, but for PCM files specifically (pcm_s16le, pcm_l16, pcm_raw), you must pass this parameter. PCM files supports sample rate 16000 and 8000.
+        model : typing.Optional[SpeechToTextStreamingModel]
+            Specifies the model to use for speech-to-text conversion.
+            - **saarika:v2.5** (default): Transcribes audio in the spoken language.
+            - **saaras:v3**: State-of-the-art model with flexible output formats. Supports multiple modes via the `mode` parameter: transcribe, translate, verbatim, translit, codemix.
+        mode : typing.Optional[SpeechToTextStreamingMode]
+            Mode of operation. **Only applicable when using saaras:v3 model.**
+            Example audio: 'मेरा फोन नंबर है 9840950950'
+            - **transcribe** (default): Standard transcription in the original language with proper formatting and number normalization.
+              - Output: `मेरा फोन नंबर है 9840950950`
+            - **translate**: Translates speech from any supported Indic language to English.
+              - Output: `My phone number is 9840950950`
+            - **verbatim**: Exact word-for-word transcription without normalization, preserving filler words and spoken numbers as-is.
+              - Output: `मेरा फोन नंबर है नौ आठ चार zero नौ पांच zero नौ पांच zero`
+            - **translit**: Romanization - Transliterates speech to Latin/Roman script only.
+              - Output: `mera phone number hai 9840950950`
+            - **codemix**: Code-mixed text with English words in English and Indic words in native script.
+              - Output: `मेरा phone number है 9840950950`
         sample_rate : typing.Optional[str]
             Audio sample rate for the WebSocket connection. When specified as a connection parameter, only 16kHz and 8kHz are supported. 8kHz is only available via this connection parameter. If not specified, defaults to 16kHz.
@@ -70,6 +107,10 @@ class RawSpeechToTextStreamingClient:
         flush_signal : typing.Optional[SpeechToTextStreamingFlushSignal]
             Signal to flush the audio buffer and finalize transcription
+        input_audio_codec : typing.Optional[SpeechToTextStreamingInputAudioCodec]
+            Audio codec/format of the input stream. Use this when sending raw PCM audio.
+            Supported values: wav, pcm_s16le, pcm_l16, pcm_raw.
         api_subscription_key : typing.Optional[str]
             API subscription key for authentication
@@ -86,8 +127,8 @@ class RawSpeechToTextStreamingClient:
             query_params = query_params.add("language-code", language_code)
         if model is not None:
             query_params = query_params.add("model", model)
-        if input_audio_codec is not None:
-            query_params = query_params.add("input_audio_codec", input_audio_codec)
+        if mode is not None:
+            query_params = query_params.add("mode", mode)
         if sample_rate is not None:
             query_params = query_params.add("sample_rate", sample_rate)
         if high_vad_sensitivity is not None:
@@ -96,6 +137,8 @@ class RawSpeechToTextStreamingClient:
             query_params = query_params.add("vad_signals", vad_signals)
         if flush_signal is not None:
             query_params = query_params.add("flush_signal", flush_signal)
+        if input_audio_codec is not None:
+            query_params = query_params.add("input_audio_codec", input_audio_codec)
         ws_url = ws_url + f"?{query_params}"
         headers = self._client_wrapper.get_headers()
         if api_subscription_key is not None:
@@ -129,12 +172,13 @@ class AsyncRawSpeechToTextStreamingClient:
         self,
         *,
         language_code: SpeechToTextStreamingLanguageCode,
-        model: typing.Optional[typing.Literal["saarika:v2.5"]] = None,
-        input_audio_codec: typing.Optional[SpeechToTextStreamingInputAudioCodec] = None,
+        model: typing.Optional[SpeechToTextStreamingModel] = None,
+        mode: typing.Optional[SpeechToTextStreamingMode] = None,
         sample_rate: typing.Optional[str] = None,
         high_vad_sensitivity: typing.Optional[SpeechToTextStreamingHighVadSensitivity] = None,
         vad_signals: typing.Optional[SpeechToTextStreamingVadSignals] = None,
         flush_signal: typing.Optional[SpeechToTextStreamingFlushSignal] = None,
+        input_audio_codec: typing.Optional[SpeechToTextStreamingInputAudioCodec] = None,
         api_subscription_key: typing.Optional[str] = None,
         request_options: typing.Optional[RequestOptions] = None,
     ) -> typing.AsyncIterator[AsyncSpeechToTextStreamingSocketClient]:
@@ -148,13 +192,47 @@ class AsyncRawSpeechToTextStreamingClient:
         Parameters
         ----------
         language_code : SpeechToTextStreamingLanguageCode
-            Language code for speech recognition
+            Specifies the language of the input audio in BCP-47 format.
-        model : typing.Optional[typing.Literal["saarika:v2.5"]]
-            Speech to text model to use
+            **Available Options:**
+            - `hi-IN`: Hindi
+            - `bn-IN`: Bengali
+            - `gu-IN`: Gujarati
+            - `kn-IN`: Kannada
+            - `ml-IN`: Malayalam
+            - `mr-IN`: Marathi
+            - `od-IN`: Odia
+            - `pa-IN`: Punjabi
+            - `ta-IN`: Tamil
+            - `te-IN`: Telugu
+            - `en-IN`: English
-        input_audio_codec : typing.Optional[SpeechToTextStreamingInputAudioCodec]
-            Audio codec/format of the input file. Our API automatically detects all codec formats, but for PCM files specifically (pcm_s16le, pcm_l16, pcm_raw), you must pass this parameter. PCM files supports sample rate 16000 and 8000.
+        model : typing.Optional[SpeechToTextStreamingModel]
+            Specifies the model to use for speech-to-text conversion.
+            - **saarika:v2.5** (default): Transcribes audio in the spoken language.
+            - **saaras:v3**: State-of-the-art model with flexible output formats. Supports multiple modes via the `mode` parameter: transcribe, translate, verbatim, translit, codemix.
+        mode : typing.Optional[SpeechToTextStreamingMode]
+            Mode of operation. **Only applicable when using saaras:v3 model.**
+            Example audio: 'मेरा फोन नंबर है 9840950950'
+            - **transcribe** (default): Standard transcription in the original language with proper formatting and number normalization.
+              - Output: `मेरा फोन नंबर है 9840950950`
+            - **translate**: Translates speech from any supported Indic language to English.
+              - Output: `My phone number is 9840950950`
+            - **verbatim**: Exact word-for-word transcription without normalization, preserving filler words and spoken numbers as-is.
+              - Output: `मेरा फोन नंबर है नौ आठ चार zero नौ पांच zero नौ पांच zero`
+            - **translit**: Romanization - Transliterates speech to Latin/Roman script only.
+              - Output: `mera phone number hai 9840950950`
+            - **codemix**: Code-mixed text with English words in English and Indic words in native script.
+              - Output: `मेरा phone number है 9840950950`
         sample_rate : typing.Optional[str]
             Audio sample rate for the WebSocket connection. When specified as a connection parameter, only 16kHz and 8kHz are supported. 8kHz is only available via this connection parameter. If not specified, defaults to 16kHz.
@@ -168,6 +246,10 @@ class AsyncRawSpeechToTextStreamingClient:
         flush_signal : typing.Optional[SpeechToTextStreamingFlushSignal]
             Signal to flush the audio buffer and finalize transcription
+        input_audio_codec : typing.Optional[SpeechToTextStreamingInputAudioCodec]
+            Audio codec/format of the input stream. Use this when sending raw PCM audio.
+            Supported values: wav, pcm_s16le, pcm_l16, pcm_raw.
         api_subscription_key : typing.Optional[str]
             API subscription key for authentication
@@ -184,8 +266,8 @@ class AsyncRawSpeechToTextStreamingClient:
             query_params = query_params.add("language-code", language_code)
         if model is not None:
             query_params = query_params.add("model", model)
-        if input_audio_codec is not None:
-            query_params = query_params.add("input_audio_codec", input_audio_codec)
+        if mode is not None:
+            query_params = query_params.add("mode", mode)
         if sample_rate is not None:
             query_params = query_params.add("sample_rate", sample_rate)
         if high_vad_sensitivity is not None:
@@ -194,6 +276,8 @@ class AsyncRawSpeechToTextStreamingClient:
             query_params = query_params.add("vad_signals", vad_signals)
         if flush_signal is not None:
             query_params = query_params.add("flush_signal", flush_signal)
+        if input_audio_codec is not None:
+            query_params = query_params.add("input_audio_codec", input_audio_codec)
         ws_url = ws_url + f"?{query_params}"
         headers = self._client_wrapper.get_headers()
         if api_subscription_key is not None:

sarvamai/speech_to_text_streaming/types/__init__.py CHANGED Viewed

@@ -6,6 +6,8 @@ from .speech_to_text_streaming_flush_signal import SpeechToTextStreamingFlushSig
 from .speech_to_text_streaming_high_vad_sensitivity import SpeechToTextStreamingHighVadSensitivity
 from .speech_to_text_streaming_input_audio_codec import SpeechToTextStreamingInputAudioCodec
 from .speech_to_text_streaming_language_code import SpeechToTextStreamingLanguageCode
+from .speech_to_text_streaming_mode import SpeechToTextStreamingMode
+from .speech_to_text_streaming_model import SpeechToTextStreamingModel
 from .speech_to_text_streaming_vad_signals import SpeechToTextStreamingVadSignals
 __all__ = [
@@ -13,5 +15,7 @@ __all__ = [
     "SpeechToTextStreamingHighVadSensitivity",
     "SpeechToTextStreamingInputAudioCodec",
     "SpeechToTextStreamingLanguageCode",
+    "SpeechToTextStreamingMode",
+    "SpeechToTextStreamingModel",
     "SpeechToTextStreamingVadSignals",
 ]

sarvamai/speech_to_text_streaming/types/speech_to_text_streaming_input_audio_codec.py CHANGED Viewed

@@ -3,31 +3,5 @@
 import typing
 SpeechToTextStreamingInputAudioCodec = typing.Union[
-    typing.Literal[
-        "wav",
-        "x-wav",
-        "wave",
-        "mp3",
-        "mpeg",
-        "mpeg3",
-        "x-mp3",
-        "x-mpeg-3",
-        "aac",
-        "x-aac",
-        "aiff",
-        "x-aiff",
-        "ogg",
-        "opus",
-        "flac",
-        "x-flac",
-        "mp4",
-        "x-m4a",
-        "amr",
-        "x-ms-wma",
-        "webm",
-        "pcm_s16le",
-        "pcm_l16",
-        "pcm_raw",
-    ],
-    typing.Any,
+    typing.Literal["wav", "pcm_s16le", "pcm_l16", "pcm_raw"], typing.Any
 ]

sarvamai/speech_to_text_streaming/types/speech_to_text_streaming_mode.py ADDED Viewed

@@ -0,0 +1,7 @@
+# This file was auto-generated by Fern from our API Definition.
+import typing
+SpeechToTextStreamingMode = typing.Union[
+    typing.Literal["transcribe", "translate", "verbatim", "translit", "codemix"], typing.Any
+]

sarvamai/speech_to_text_streaming/types/speech_to_text_streaming_model.py ADDED Viewed

@@ -0,0 +1,5 @@
+# This file was auto-generated by Fern from our API Definition.
+import typing
+SpeechToTextStreamingModel = typing.Union[typing.Literal["saarika:v2.5", "saaras:v3"], typing.Any]

sarvamai/speech_to_text_translate_streaming/client.py CHANGED Viewed

@@ -44,11 +44,11 @@ class SpeechToTextTranslateStreamingClient:
         self,
         *,
         model: typing.Optional[typing.Literal["saaras:v2.5"]] = None,
-        input_audio_codec: typing.Optional[SpeechToTextTranslateStreamingInputAudioCodec] = None,
         sample_rate: typing.Optional[str] = None,
         high_vad_sensitivity: typing.Optional[SpeechToTextTranslateStreamingHighVadSensitivity] = None,
         vad_signals: typing.Optional[SpeechToTextTranslateStreamingVadSignals] = None,
         flush_signal: typing.Optional[SpeechToTextTranslateStreamingFlushSignal] = None,
+        input_audio_codec: typing.Optional[SpeechToTextTranslateStreamingInputAudioCodec] = None,
         api_subscription_key: typing.Optional[str] = None,
         request_options: typing.Optional[RequestOptions] = None,
     ) -> typing.Iterator[SpeechToTextTranslateStreamingSocketClient]:
@@ -62,10 +62,10 @@ class SpeechToTextTranslateStreamingClient:
         Parameters
         ----------
         model : typing.Optional[typing.Literal["saaras:v2.5"]]
-            Speech to text model to use (defaults to "saaras:v2.5" if not specified)
+            Model to be used for speech to text translation.
-        input_audio_codec : typing.Optional[SpeechToTextTranslateStreamingInputAudioCodec]
-            Audio codec/format of the input file. Our API automatically detects all codec formats, but for PCM files specifically (pcm_s16le, pcm_l16, pcm_raw), you must pass this parameter. PCM files supports sample rate 16000 and 8000.
+            - **saaras:v2.5** (default): Translation model that translates audio from any spoken Indic language to English.
+              - Example: Hindi audio → English text output
         sample_rate : typing.Optional[str]
             Audio sample rate for the WebSocket connection. When specified as a connection parameter, only 16kHz and 8kHz are supported. 8kHz is only available via this connection parameter. If not specified, defaults to 16kHz.
@@ -79,6 +79,10 @@ class SpeechToTextTranslateStreamingClient:
         flush_signal : typing.Optional[SpeechToTextTranslateStreamingFlushSignal]
             Signal to flush the audio buffer and finalize transcription and translation
+        input_audio_codec : typing.Optional[SpeechToTextTranslateStreamingInputAudioCodec]
+            Audio codec/format of the input stream. Use this when sending raw PCM audio.
+            Supported values: wav, pcm_s16le, pcm_l16, pcm_raw.
         api_subscription_key : typing.Optional[str]
             API subscription key for authentication
@@ -93,8 +97,6 @@ class SpeechToTextTranslateStreamingClient:
         query_params = httpx.QueryParams()
         if model is not None:
             query_params = query_params.add("model", model)
-        if input_audio_codec is not None:
-            query_params = query_params.add("input_audio_codec", input_audio_codec)
         if sample_rate is not None:
             query_params = query_params.add("sample_rate", sample_rate)
         if high_vad_sensitivity is not None:
@@ -103,6 +105,8 @@ class SpeechToTextTranslateStreamingClient:
             query_params = query_params.add("vad_signals", vad_signals)
         if flush_signal is not None:
             query_params = query_params.add("flush_signal", flush_signal)
+        if input_audio_codec is not None:
+            query_params = query_params.add("input_audio_codec", input_audio_codec)
         ws_url = ws_url + f"?{query_params}"
         headers = self._raw_client._client_wrapper.get_headers()
         if api_subscription_key is not None:
@@ -147,11 +151,11 @@ class AsyncSpeechToTextTranslateStreamingClient:
         self,
         *,
         model: typing.Optional[typing.Literal["saaras:v2.5"]] = None,
-        input_audio_codec: typing.Optional[SpeechToTextTranslateStreamingInputAudioCodec] = None,
         sample_rate: typing.Optional[str] = None,
         high_vad_sensitivity: typing.Optional[SpeechToTextTranslateStreamingHighVadSensitivity] = None,
         vad_signals: typing.Optional[SpeechToTextTranslateStreamingVadSignals] = None,
         flush_signal: typing.Optional[SpeechToTextTranslateStreamingFlushSignal] = None,
+        input_audio_codec: typing.Optional[SpeechToTextTranslateStreamingInputAudioCodec] = None,
         api_subscription_key: typing.Optional[str] = None,
         request_options: typing.Optional[RequestOptions] = None,
     ) -> typing.AsyncIterator[AsyncSpeechToTextTranslateStreamingSocketClient]:
@@ -165,10 +169,10 @@ class AsyncSpeechToTextTranslateStreamingClient:
         Parameters
         ----------
         model : typing.Optional[typing.Literal["saaras:v2.5"]]
-            Speech to text model to use (defaults to "saaras:v2.5" if not specified)
+            Model to be used for speech to text translation.
-        input_audio_codec : typing.Optional[SpeechToTextTranslateStreamingInputAudioCodec]
-            Audio codec/format of the input file. Our API automatically detects all codec formats, but for PCM files specifically (pcm_s16le, pcm_l16, pcm_raw), you must pass this parameter. PCM files supports sample rate 16000 and 8000.
+            - **saaras:v2.5** (default): Translation model that translates audio from any spoken Indic language to English.
+              - Example: Hindi audio → English text output
         sample_rate : typing.Optional[str]
             Audio sample rate for the WebSocket connection. When specified as a connection parameter, only 16kHz and 8kHz are supported. 8kHz is only available via this connection parameter. If not specified, defaults to 16kHz.
@@ -182,6 +186,10 @@ class AsyncSpeechToTextTranslateStreamingClient:
         flush_signal : typing.Optional[SpeechToTextTranslateStreamingFlushSignal]
             Signal to flush the audio buffer and finalize transcription and translation
+        input_audio_codec : typing.Optional[SpeechToTextTranslateStreamingInputAudioCodec]
+            Audio codec/format of the input stream. Use this when sending raw PCM audio.
+            Supported values: wav, pcm_s16le, pcm_l16, pcm_raw.
         api_subscription_key : typing.Optional[str]
             API subscription key for authentication
@@ -196,8 +204,6 @@ class AsyncSpeechToTextTranslateStreamingClient:
         query_params = httpx.QueryParams()
         if model is not None:
             query_params = query_params.add("model", model)
-        if input_audio_codec is not None:
-            query_params = query_params.add("input_audio_codec", input_audio_codec)
         if sample_rate is not None:
             query_params = query_params.add("sample_rate", sample_rate)
         if high_vad_sensitivity is not None:
@@ -206,6 +212,8 @@ class AsyncSpeechToTextTranslateStreamingClient:
             query_params = query_params.add("vad_signals", vad_signals)
         if flush_signal is not None:
             query_params = query_params.add("flush_signal", flush_signal)
+        if input_audio_codec is not None:
+            query_params = query_params.add("input_audio_codec", input_audio_codec)
         ws_url = ws_url + f"?{query_params}"
         headers = self._raw_client._client_wrapper.get_headers()
         if api_subscription_key is not None:

sarvamai 0.1.22a4__py3-none-any.whl → 0.1.22a7__py3-none-any.whl

sarvamai 0.1.22a4py3-none-any.whl → 0.1.22a7py3-none-any.whl