PyPI - cartesia - Versions diffs - 1.4.0__py3-none-any.whl → 2.0.0__py3-none-any.whl - Mend

cartesia 1.4.0py3-none-any.whl → 2.0.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (181) hide show

cartesia/__init__.py +302 -3
cartesia/api_status/__init__.py +6 -0
cartesia/api_status/client.py +104 -0
cartesia/api_status/requests/__init__.py +5 -0
cartesia/api_status/requests/api_info.py +8 -0
cartesia/api_status/types/__init__.py +5 -0
cartesia/api_status/types/api_info.py +20 -0
cartesia/base_client.py +156 -0
cartesia/client.py +163 -40
cartesia/core/__init__.py +50 -0
cartesia/core/api_error.py +15 -0
cartesia/core/client_wrapper.py +55 -0
cartesia/core/datetime_utils.py +28 -0
cartesia/core/file.py +67 -0
cartesia/core/http_client.py +499 -0
cartesia/core/jsonable_encoder.py +101 -0
cartesia/core/pagination.py +88 -0
cartesia/core/pydantic_utilities.py +296 -0
cartesia/core/query_encoder.py +58 -0
cartesia/core/remove_none_from_dict.py +11 -0
cartesia/core/request_options.py +35 -0
cartesia/core/serialization.py +272 -0
cartesia/datasets/__init__.py +24 -0
cartesia/datasets/requests/__init__.py +15 -0
cartesia/datasets/requests/create_dataset_request.py +7 -0
cartesia/datasets/requests/dataset.py +9 -0
cartesia/datasets/requests/dataset_file.py +9 -0
cartesia/datasets/requests/paginated_dataset_files.py +10 -0
cartesia/datasets/requests/paginated_datasets.py +10 -0
cartesia/datasets/types/__init__.py +17 -0
cartesia/datasets/types/create_dataset_request.py +19 -0
cartesia/datasets/types/dataset.py +21 -0
cartesia/datasets/types/dataset_file.py +21 -0
cartesia/datasets/types/file_purpose.py +5 -0
cartesia/datasets/types/paginated_dataset_files.py +21 -0
cartesia/datasets/types/paginated_datasets.py +21 -0
cartesia/embedding/__init__.py +5 -0
cartesia/embedding/types/__init__.py +5 -0
cartesia/embedding/types/embedding.py +201 -0
cartesia/environment.py +7 -0
cartesia/infill/__init__.py +2 -0
cartesia/infill/client.py +318 -0
cartesia/tts/__init__.py +167 -0
cartesia/{_async_websocket.py → tts/_async_websocket.py} +212 -85
cartesia/tts/_websocket.py +479 -0
cartesia/tts/client.py +407 -0
cartesia/tts/requests/__init__.py +76 -0
cartesia/tts/requests/cancel_context_request.py +17 -0
cartesia/tts/requests/controls.py +11 -0
cartesia/tts/requests/generation_request.py +58 -0
cartesia/tts/requests/mp_3_output_format.py +11 -0
cartesia/tts/requests/output_format.py +30 -0
cartesia/tts/requests/phoneme_timestamps.py +10 -0
cartesia/tts/requests/raw_output_format.py +11 -0
cartesia/tts/requests/speed.py +7 -0
cartesia/tts/requests/tts_request.py +24 -0
cartesia/tts/requests/tts_request_embedding_specifier.py +16 -0
cartesia/tts/requests/tts_request_id_specifier.py +16 -0
cartesia/tts/requests/tts_request_voice_specifier.py +7 -0
cartesia/tts/requests/wav_output_format.py +7 -0
cartesia/tts/requests/web_socket_base_response.py +11 -0
cartesia/tts/requests/web_socket_chunk_response.py +11 -0
cartesia/tts/requests/web_socket_done_response.py +7 -0
cartesia/tts/requests/web_socket_error_response.py +7 -0
cartesia/tts/requests/web_socket_flush_done_response.py +9 -0
cartesia/tts/requests/web_socket_phoneme_timestamps_response.py +9 -0
cartesia/tts/requests/web_socket_raw_output_format.py +11 -0
cartesia/tts/requests/web_socket_request.py +7 -0
cartesia/tts/requests/web_socket_response.py +70 -0
cartesia/tts/requests/web_socket_stream_options.py +8 -0
cartesia/tts/requests/web_socket_timestamps_response.py +9 -0
cartesia/tts/requests/web_socket_tts_output.py +18 -0
cartesia/tts/requests/web_socket_tts_request.py +25 -0
cartesia/tts/requests/word_timestamps.py +10 -0
cartesia/tts/socket_client.py +302 -0
cartesia/tts/types/__init__.py +90 -0
cartesia/tts/types/cancel_context_request.py +28 -0
cartesia/tts/types/context_id.py +3 -0
cartesia/tts/types/controls.py +22 -0
cartesia/tts/types/emotion.py +34 -0
cartesia/tts/types/flush_id.py +3 -0
cartesia/tts/types/generation_request.py +71 -0
cartesia/tts/types/mp_3_output_format.py +23 -0
cartesia/tts/types/natural_specifier.py +5 -0
cartesia/tts/types/numerical_specifier.py +3 -0
cartesia/tts/types/output_format.py +58 -0
cartesia/tts/types/phoneme_timestamps.py +21 -0
cartesia/tts/types/raw_encoding.py +5 -0
cartesia/tts/types/raw_output_format.py +22 -0
cartesia/tts/types/speed.py +7 -0
cartesia/tts/types/supported_language.py +7 -0
cartesia/tts/types/tts_request.py +35 -0
cartesia/tts/types/tts_request_embedding_specifier.py +27 -0
cartesia/tts/types/tts_request_id_specifier.py +27 -0
cartesia/tts/types/tts_request_voice_specifier.py +7 -0
cartesia/tts/types/wav_output_format.py +17 -0
cartesia/tts/types/web_socket_base_response.py +22 -0
cartesia/tts/types/web_socket_chunk_response.py +22 -0
cartesia/tts/types/web_socket_done_response.py +17 -0
cartesia/tts/types/web_socket_error_response.py +19 -0
cartesia/tts/types/web_socket_flush_done_response.py +21 -0
cartesia/tts/types/web_socket_phoneme_timestamps_response.py +20 -0
cartesia/tts/types/web_socket_raw_output_format.py +22 -0
cartesia/tts/types/web_socket_request.py +7 -0
cartesia/tts/types/web_socket_response.py +125 -0
cartesia/tts/types/web_socket_stream_options.py +19 -0
cartesia/tts/types/web_socket_timestamps_response.py +20 -0
cartesia/tts/types/web_socket_tts_output.py +29 -0
cartesia/tts/types/web_socket_tts_request.py +37 -0
cartesia/tts/types/word_timestamps.py +21 -0
cartesia/{_constants.py → tts/utils/constants.py} +2 -2
cartesia/tts/utils/tts.py +64 -0
cartesia/tts/utils/types.py +70 -0
cartesia/version.py +3 -1
cartesia/voice_changer/__init__.py +27 -0
cartesia/voice_changer/client.py +395 -0
cartesia/voice_changer/requests/__init__.py +15 -0
cartesia/voice_changer/requests/streaming_response.py +38 -0
cartesia/voice_changer/types/__init__.py +17 -0
cartesia/voice_changer/types/output_format_container.py +5 -0
cartesia/voice_changer/types/streaming_response.py +64 -0
cartesia/voices/__init__.py +81 -0
cartesia/voices/client.py +1218 -0
cartesia/voices/requests/__init__.py +29 -0
cartesia/voices/requests/create_voice_request.py +23 -0
cartesia/voices/requests/embedding_response.py +8 -0
cartesia/voices/requests/embedding_specifier.py +10 -0
cartesia/voices/requests/get_voices_response.py +24 -0
cartesia/voices/requests/id_specifier.py +10 -0
cartesia/voices/requests/localize_dialect.py +11 -0
cartesia/voices/requests/localize_voice_request.py +28 -0
cartesia/voices/requests/mix_voice_specifier.py +7 -0
cartesia/voices/requests/mix_voices_request.py +9 -0
cartesia/voices/requests/update_voice_request.py +15 -0
cartesia/voices/requests/voice.py +43 -0
cartesia/voices/requests/voice_metadata.py +36 -0
cartesia/voices/types/__init__.py +53 -0
cartesia/voices/types/base_voice_id.py +5 -0
cartesia/voices/types/clone_mode.py +5 -0
cartesia/voices/types/create_voice_request.py +34 -0
cartesia/voices/types/embedding_response.py +20 -0
cartesia/voices/types/embedding_specifier.py +22 -0
cartesia/voices/types/gender.py +5 -0
cartesia/voices/types/gender_presentation.py +5 -0
cartesia/voices/types/get_voices_response.py +34 -0
cartesia/voices/types/id_specifier.py +22 -0
cartesia/voices/types/localize_dialect.py +11 -0
cartesia/voices/types/localize_english_dialect.py +5 -0
cartesia/voices/types/localize_french_dialect.py +5 -0
cartesia/voices/types/localize_portuguese_dialect.py +5 -0
cartesia/voices/types/localize_spanish_dialect.py +5 -0
cartesia/voices/types/localize_target_language.py +7 -0
cartesia/voices/types/localize_voice_request.py +39 -0
cartesia/voices/types/mix_voice_specifier.py +7 -0
cartesia/voices/types/mix_voices_request.py +20 -0
cartesia/voices/types/update_voice_request.py +27 -0
cartesia/voices/types/voice.py +54 -0
cartesia/voices/types/voice_expand_options.py +5 -0
cartesia/voices/types/voice_id.py +3 -0
cartesia/voices/types/voice_metadata.py +48 -0
cartesia/voices/types/weight.py +3 -0
cartesia-2.0.0.dist-info/METADATA +414 -0
cartesia-2.0.0.dist-info/RECORD +165 -0
{cartesia-1.4.0.dist-info → cartesia-2.0.0.dist-info}/WHEEL +1 -1
cartesia/_async_sse.py +0 -95
cartesia/_logger.py +0 -3
cartesia/_sse.py +0 -143
cartesia/_types.py +0 -70
cartesia/_websocket.py +0 -358
cartesia/async_client.py +0 -82
cartesia/async_tts.py +0 -176
cartesia/resource.py +0 -44
cartesia/tts.py +0 -292
cartesia/utils/deprecated.py +0 -55
cartesia/utils/retry.py +0 -87
cartesia/utils/tts.py +0 -78
cartesia/voices.py +0 -204
cartesia-1.4.0.dist-info/METADATA +0 -663
cartesia-1.4.0.dist-info/RECORD +0 -23
cartesia-1.4.0.dist-info/licenses/LICENSE.md +0 -21
/cartesia/{utils/__init__.py → py.typed} +0 -0

cartesia/tts/requests/tts_request_id_specifier.py ADDED Viewed

@@ -0,0 +1,16 @@
+# This file was auto-generated by Fern from our API Definition.
+import typing_extensions
+import typing
+from ...voices.types.voice_id import VoiceId
+import typing_extensions
+from .controls import ControlsParams
+from ...core.serialization import FieldMetadata
+class TtsRequestIdSpecifierParams(typing_extensions.TypedDict):
+    mode: typing.Literal["id"]
+    id: VoiceId
+    experimental_controls: typing_extensions.NotRequired[
+        typing_extensions.Annotated[ControlsParams, FieldMetadata(alias="__experimental_controls")]
+    ]

cartesia/tts/requests/tts_request_voice_specifier.py ADDED Viewed

@@ -0,0 +1,7 @@
+# This file was auto-generated by Fern from our API Definition.
+import typing
+from .tts_request_id_specifier import TtsRequestIdSpecifierParams
+from .tts_request_embedding_specifier import TtsRequestEmbeddingSpecifierParams
+TtsRequestVoiceSpecifierParams = typing.Union[TtsRequestIdSpecifierParams, TtsRequestEmbeddingSpecifierParams]

cartesia/tts/requests/wav_output_format.py ADDED Viewed

@@ -0,0 +1,7 @@
+# This file was auto-generated by Fern from our API Definition.
+from .raw_output_format import RawOutputFormatParams
+class WavOutputFormatParams(RawOutputFormatParams):
+    pass

cartesia/tts/requests/web_socket_base_response.py ADDED Viewed

@@ -0,0 +1,11 @@
+# This file was auto-generated by Fern from our API Definition.
+import typing_extensions
+import typing_extensions
+from ..types.context_id import ContextId
+class WebSocketBaseResponseParams(typing_extensions.TypedDict):
+    context_id: typing_extensions.NotRequired[ContextId]
+    status_code: int
+    done: bool

cartesia/tts/requests/web_socket_chunk_response.py ADDED Viewed

@@ -0,0 +1,11 @@
+# This file was auto-generated by Fern from our API Definition.
+from .web_socket_base_response import WebSocketBaseResponseParams
+import typing_extensions
+from ..types.flush_id import FlushId
+class WebSocketChunkResponseParams(WebSocketBaseResponseParams):
+    data: str
+    step_time: float
+    flush_id: typing_extensions.NotRequired[FlushId]

cartesia/tts/requests/web_socket_done_response.py ADDED Viewed

@@ -0,0 +1,7 @@
+# This file was auto-generated by Fern from our API Definition.
+from .web_socket_base_response import WebSocketBaseResponseParams
+class WebSocketDoneResponseParams(WebSocketBaseResponseParams):
+    pass

cartesia/tts/requests/web_socket_error_response.py ADDED Viewed

@@ -0,0 +1,7 @@
+# This file was auto-generated by Fern from our API Definition.
+from .web_socket_base_response import WebSocketBaseResponseParams
+class WebSocketErrorResponseParams(WebSocketBaseResponseParams):
+    error: str

cartesia/tts/requests/web_socket_flush_done_response.py ADDED Viewed

@@ -0,0 +1,9 @@
+# This file was auto-generated by Fern from our API Definition.
+from .web_socket_base_response import WebSocketBaseResponseParams
+from ..types.flush_id import FlushId
+class WebSocketFlushDoneResponseParams(WebSocketBaseResponseParams):
+    flush_id: FlushId
+    flush_done: bool

cartesia/tts/requests/web_socket_phoneme_timestamps_response.py ADDED Viewed

@@ -0,0 +1,9 @@
+# This file was auto-generated by Fern from our API Definition.
+from .web_socket_base_response import WebSocketBaseResponseParams
+import typing_extensions
+from .phoneme_timestamps import PhonemeTimestampsParams
+class WebSocketPhonemeTimestampsResponseParams(WebSocketBaseResponseParams):
+    phoneme_timestamps: typing_extensions.NotRequired[PhonemeTimestampsParams]

cartesia/tts/requests/web_socket_raw_output_format.py ADDED Viewed

@@ -0,0 +1,11 @@
+# This file was auto-generated by Fern from our API Definition.
+import typing_extensions
+import typing
+from ..types.raw_encoding import RawEncoding
+class WebSocketRawOutputFormatParams(typing_extensions.TypedDict):
+    container: typing.Literal["raw"]
+    encoding: RawEncoding
+    sample_rate: int

cartesia/tts/requests/web_socket_request.py ADDED Viewed

@@ -0,0 +1,7 @@
+# This file was auto-generated by Fern from our API Definition.
+import typing
+from .generation_request import GenerationRequestParams
+from .cancel_context_request import CancelContextRequestParams
+WebSocketRequestParams = typing.Union[GenerationRequestParams, CancelContextRequestParams]

cartesia/tts/requests/web_socket_response.py ADDED Viewed

@@ -0,0 +1,70 @@
+# This file was auto-generated by Fern from our API Definition.
+from __future__ import annotations
+import typing_extensions
+import typing
+import typing_extensions
+from ..types.flush_id import FlushId
+from ..types.context_id import ContextId
+from .word_timestamps import WordTimestampsParams
+from .phoneme_timestamps import PhonemeTimestampsParams
+class WebSocketResponse_ChunkParams(typing_extensions.TypedDict):
+    type: typing.Literal["chunk"]
+    data: str
+    step_time: float
+    flush_id: typing_extensions.NotRequired[FlushId]
+    context_id: typing_extensions.NotRequired[ContextId]
+    status_code: int
+    done: bool
+class WebSocketResponse_FlushDoneParams(typing_extensions.TypedDict):
+    type: typing.Literal["flush_done"]
+    flush_id: FlushId
+    flush_done: bool
+    context_id: typing_extensions.NotRequired[ContextId]
+    status_code: int
+    done: bool
+class WebSocketResponse_DoneParams(typing_extensions.TypedDict):
+    type: typing.Literal["done"]
+    context_id: typing_extensions.NotRequired[ContextId]
+    status_code: int
+    done: bool
+class WebSocketResponse_TimestampsParams(typing_extensions.TypedDict):
+    type: typing.Literal["timestamps"]
+    word_timestamps: typing_extensions.NotRequired[WordTimestampsParams]
+    context_id: typing_extensions.NotRequired[ContextId]
+    status_code: int
+    done: bool
+class WebSocketResponse_ErrorParams(typing_extensions.TypedDict):
+    type: typing.Literal["error"]
+    error: str
+    context_id: typing_extensions.NotRequired[ContextId]
+    status_code: int
+    done: bool
+class WebSocketResponse_PhonemeTimestampsParams(typing_extensions.TypedDict):
+    type: typing.Literal["phoneme_timestamps"]
+    phoneme_timestamps: typing_extensions.NotRequired[PhonemeTimestampsParams]
+    context_id: typing_extensions.NotRequired[ContextId]
+    status_code: int
+    done: bool
+WebSocketResponseParams = typing.Union[
+    WebSocketResponse_ChunkParams,
+    WebSocketResponse_FlushDoneParams,
+    WebSocketResponse_DoneParams,
+    WebSocketResponse_TimestampsParams,
+    WebSocketResponse_ErrorParams,
+    WebSocketResponse_PhonemeTimestampsParams,
+]

cartesia/tts/requests/web_socket_stream_options.py ADDED Viewed

@@ -0,0 +1,8 @@
+# This file was auto-generated by Fern from our API Definition.
+import typing_extensions
+import typing_extensions
+class WebSocketStreamOptionsParams(typing_extensions.TypedDict):
+    timeout: typing_extensions.NotRequired[float]

cartesia/tts/requests/web_socket_timestamps_response.py ADDED Viewed

@@ -0,0 +1,9 @@
+# This file was auto-generated by Fern from our API Definition.
+from .web_socket_base_response import WebSocketBaseResponseParams
+import typing_extensions
+from .word_timestamps import WordTimestampsParams
+class WebSocketTimestampsResponseParams(WebSocketBaseResponseParams):
+    word_timestamps: typing_extensions.NotRequired[WordTimestampsParams]

cartesia/tts/requests/web_socket_tts_output.py ADDED Viewed

@@ -0,0 +1,18 @@
+# This file was auto-generated by Fern from our API Definition.
+import typing_extensions
+import typing_extensions
+from .word_timestamps import WordTimestampsParams
+from .phoneme_timestamps import PhonemeTimestampsParams
+import typing
+from ..types.context_id import ContextId
+from ..types.flush_id import FlushId
+class WebSocketTtsOutputParams(typing_extensions.TypedDict):
+    word_timestamps: typing_extensions.NotRequired[WordTimestampsParams]
+    phoneme_timestamps: typing_extensions.NotRequired[PhonemeTimestampsParams]
+    audio: typing_extensions.NotRequired[typing.Optional[typing.Any]]
+    context_id: typing_extensions.NotRequired[ContextId]
+    flush_id: typing_extensions.NotRequired[FlushId]
+    flush_done: typing_extensions.NotRequired[bool]

cartesia/tts/requests/web_socket_tts_request.py ADDED Viewed

@@ -0,0 +1,25 @@
+# This file was auto-generated by Fern from our API Definition.
+import typing_extensions
+import typing_extensions
+from .output_format import OutputFormatParams
+from .tts_request_voice_specifier import TtsRequestVoiceSpecifierParams
+from ...core.serialization import FieldMetadata
+class WebSocketTtsRequestParams(typing_extensions.TypedDict):
+    model_id: str
+    """
+    The ID of the model to use for the generation. See [Models](/build-with-sonic/models) for available models.
+    """
+    output_format: typing_extensions.NotRequired[OutputFormatParams]
+    transcript: typing_extensions.NotRequired[str]
+    voice: TtsRequestVoiceSpecifierParams
+    duration: typing_extensions.NotRequired[int]
+    language: typing_extensions.NotRequired[str]
+    add_timestamps: typing_extensions.NotRequired[bool]
+    use_original_timestamps: typing_extensions.NotRequired[bool]
+    add_phoneme_timestamps: typing_extensions.NotRequired[bool]
+    continue_: typing_extensions.NotRequired[typing_extensions.Annotated[bool, FieldMetadata(alias="continue")]]
+    context_id: typing_extensions.NotRequired[str]

cartesia/tts/requests/word_timestamps.py ADDED Viewed

@@ -0,0 +1,10 @@
+# This file was auto-generated by Fern from our API Definition.
+import typing_extensions
+import typing
+class WordTimestampsParams(typing_extensions.TypedDict):
+    words: typing.Sequence[str]
+    start: typing.Sequence[float]
+    end: typing.Sequence[float]

cartesia/tts/socket_client.py ADDED Viewed

@@ -0,0 +1,302 @@
+import io
+import typing
+from json.decoder import JSONDecodeError
+from pydub import AudioSegment  # type: ignore
+from ..core.api_error import ApiError
+from ._async_websocket import AsyncTtsWebsocket
+from ._websocket import TtsWebsocket
+from .client import AsyncTtsClient, TtsClient
+from .requests import TtsRequestVoiceSpecifierParams
+from .requests.output_format import OutputFormatParams
+from .utils.tts import concat_audio_segments, get_output_format
+class TtsClientWithWebsocket(TtsClient):
+    """
+    Extension of TtsClient that supports a synchronous WebSocket TTS connection.
+    """
+    def __init__(self, *, client_wrapper):
+        super().__init__(client_wrapper=client_wrapper)
+    def get_output_format(self, output_format_name: str) -> OutputFormatParams:
+        return get_output_format(output_format_name)
+    def _ws_url(self):
+        base_url = self._client_wrapper.get_base_url()
+        if base_url.startswith("ws://") or base_url.startswith("wss://"):
+            return base_url
+        else:
+            prefix = "ws" if "localhost" in base_url else "wss"
+            base_url_without_protocol = base_url.split("://")[-1]
+            return f"{prefix}://{base_url_without_protocol}"
+    def infill(
+        self,
+        *,
+        model_id: str,
+        language: str,
+        transcript: str,
+        voice: TtsRequestVoiceSpecifierParams,
+        output_format: OutputFormatParams,
+        left_audio_path: typing.Optional[str] = None,
+        right_audio_path: typing.Optional[str] = None,
+    ) -> typing.Tuple[bytes, bytes]:
+        """Generate infill audio between two existing audio segments.
+        Args:
+            model_id: The ID of the model to use for generating audio
+            language: The language of the transcript
+            transcript: The text to synthesize
+            voice: The voice to use for generating audio
+            output_format: The desired audio output format
+            left_audio_path: Path to the audio file that comes before the infill
+            right_audio_path: Path to the audio file that comes after the infill
+        Returns:
+            A tuple containing:
+            - The generated infill audio (bytes)
+            - The complete concatenated audio (bytes)
+        """
+        if not left_audio_path and not right_audio_path:
+            raise ValueError(
+                "Must specify at least one of left_audio_path or right_audio_path"
+            )
+        if voice["mode"] != "id":
+            raise ValueError("Infill is only supported for id-based voice specifiers")
+        if output_format["container"] == "raw":
+            raise ValueError(
+                "Raw format is not supported for infill. Use wav or mp3 format instead."
+            )
+        headers = self._client_wrapper.get_headers()
+        headers.pop("Content-Type", None)
+        left_audio_file = None
+        right_audio_file = None
+        try:
+            files = {}
+            if left_audio_path:
+                left_audio_file = open(left_audio_path, "rb")
+                files["left_audio"] = left_audio_file
+            if right_audio_path:
+                right_audio_file = open(right_audio_path, "rb")
+                files["right_audio"] = right_audio_file
+            # Construct form data with output_format fields directly
+            data = {
+                "model_id": model_id,
+                "language": language,
+                "transcript": transcript,
+                "voice_id": voice["id"],
+                "output_format[container]": output_format["container"],
+                "output_format[sample_rate]": output_format["sample_rate"],
+            }
+            # Add bit_rate for mp3 container
+            if "bit_rate" in output_format and output_format["bit_rate"] is not None:
+                data["output_format[bit_rate]"] = output_format["bit_rate"]
+            if (
+                output_format["container"] != "mp3"
+                and "encoding" in output_format
+                and output_format["encoding"] is not None
+            ):
+                data["output_format[encoding]"] = output_format["encoding"]
+            _response = self._client_wrapper.httpx_client.request(
+                "infill/bytes",
+                method="POST",
+                files=files,  # type: ignore
+                data=data,
+                headers=headers,
+            )
+            try:
+                if 200 <= _response.status_code < 300:
+                    if left_audio_file:
+                        left_audio_file.seek(0)
+                        left_audio = left_audio_file.read()
+                    else:
+                        left_audio = None
+                    if right_audio_file:
+                        right_audio_file.seek(0)
+                        right_audio = right_audio_file.read()
+                    else:
+                        right_audio = None
+                    infill_audio = _response.content
+                    format = output_format["container"].lower()
+                    total_audio = concat_audio_segments(
+                        left_audio, infill_audio, right_audio, format=format
+                    )
+                    return infill_audio, total_audio
+                _response_json = _response.json()
+            except JSONDecodeError:
+                raise ApiError(status_code=_response.status_code, body=_response.text)
+            raise ApiError(status_code=_response.status_code, body=_response_json)
+        finally:
+            if left_audio_file:
+                left_audio_file.close()
+            if right_audio_file:
+                right_audio_file.close()
+    def websocket(self):
+        client_headers = self._client_wrapper.get_headers()
+        ws = TtsWebsocket(
+            ws_url=self._ws_url(),
+            cartesia_version=client_headers["Cartesia-Version"],
+            api_key=client_headers["X-API-Key"],
+        )
+        ws.connect()
+        return ws
+class AsyncTtsClientWithWebsocket(AsyncTtsClient):
+    """
+    Extension of AsyncTtsClient that supports an asynchronous WebSocket TTS connection.
+    """
+    def __init__(self, *, client_wrapper, get_session):
+        super().__init__(client_wrapper=client_wrapper)
+        self._get_session = get_session
+    def get_output_format(self, output_format_name: str) -> OutputFormatParams:
+        return get_output_format(output_format_name)
+    def _ws_url(self) -> str:
+        base_url = self._client_wrapper.get_base_url()
+        if base_url.startswith("ws://") or base_url.startswith("wss://"):
+            return base_url
+        else:
+            prefix = "ws" if "localhost" in base_url else "wss"
+            base_url_without_protocol = base_url.split("://")[-1]
+            return f"{prefix}://{base_url_without_protocol}"
+    async def infill(
+        self,
+        *,
+        model_id: str,
+        language: str,
+        transcript: str,
+        voice: TtsRequestVoiceSpecifierParams,
+        output_format: OutputFormatParams,
+        left_audio_path: typing.Optional[str] = None,
+        right_audio_path: typing.Optional[str] = None,
+    ) -> typing.Tuple[bytes, bytes]:
+        """Generate infill audio between two existing audio segments.
+        Args:
+            model_id: The ID of the model to use for generating audio
+            language: The language of the transcript
+            transcript: The text to synthesize
+            voice_id: The ID of the voice to use for generating audio
+            output_format: The desired audio output format
+            left_audio_path: Path to the audio file that comes before the infill
+            right_audio_path: Path to the audio file that comes after the infill
+            experimental_voice_controls: Optional voice control parameters
+        Returns:
+            A tuple containing:
+            - The generated infill audio (bytes)
+            - The complete concatenated audio (bytes)
+        """
+        if not left_audio_path and not right_audio_path:
+            raise ValueError(
+                "Must specify at least one of left_audio_path or right_audio_path"
+            )
+        if voice["mode"] != "id":
+            raise ValueError("Infill is only supported for id-based voice specifiers")
+        if output_format["container"] == "raw":
+            raise ValueError(
+                "Raw format is not supported for infill. Use wav or mp3 format instead."
+            )
+        headers = self._client_wrapper.get_headers()
+        headers.pop("Content-Type", None)
+        left_audio_file = None
+        right_audio_file = None
+        try:
+            files = {}
+            if left_audio_path:
+                left_audio_file = open(left_audio_path, "rb")
+                files["left_audio"] = left_audio_file
+            if right_audio_path:
+                right_audio_file = open(right_audio_path, "rb")
+                files["right_audio"] = right_audio_file
+            data = {
+                "model_id": model_id,
+                "language": language,
+                "transcript": transcript,
+                "voice_id": voice["id"],
+                "output_format[container]": output_format["container"],
+                "output_format[sample_rate]": output_format["sample_rate"],
+            }
+            if "bit_rate" in output_format and output_format["bit_rate"] is not None:
+                data["output_format[bit_rate]"] = output_format["bit_rate"]
+            if (
+                output_format["container"] != "mp3"
+                and "encoding" in output_format
+                and output_format["encoding"] is not None
+            ):
+                data["output_format[encoding]"] = output_format["encoding"]
+            _response = await self._client_wrapper.httpx_client.request(
+                "infill/bytes",
+                method="POST",
+                files=files,  # type: ignore
+                headers=headers,
+                data=data,
+                request_options=None,
+            )
+            try:
+                if 200 <= _response.status_code < 300:
+                    if left_audio_file:
+                        left_audio_file.seek(0)
+                        left_audio = left_audio_file.read()
+                    else:
+                        left_audio = None
+                    if right_audio_file:
+                        right_audio_file.seek(0)
+                        right_audio = right_audio_file.read()
+                    else:
+                        right_audio = None
+                    infill_audio = _response.content
+                    audio_format = output_format["container"].lower()
+                    total_audio = concat_audio_segments(
+                        left_audio, infill_audio, right_audio, format=audio_format
+                    )
+                    return infill_audio, total_audio
+                _response_json = _response.json()
+            except JSONDecodeError:
+                raise ApiError(status_code=_response.status_code, body=_response.text)
+            raise ApiError(status_code=_response.status_code, body=_response_json)
+        finally:
+            if left_audio_file:
+                left_audio_file.close()
+            if right_audio_file:
+                right_audio_file.close()
+    async def websocket(self):
+        client_headers = self._client_wrapper.get_headers()
+        ws = AsyncTtsWebsocket(
+            ws_url=self._ws_url(),
+            cartesia_version=client_headers["Cartesia-Version"],
+            api_key=client_headers["X-API-Key"],
+            get_session=self._get_session,
+        )
+        await ws.connect()
+        return ws

cartesia/tts/types/__init__.py ADDED Viewed

@@ -0,0 +1,90 @@
+# This file was auto-generated by Fern from our API Definition.
+from .cancel_context_request import CancelContextRequest
+from .context_id import ContextId
+from .controls import Controls
+from .emotion import Emotion
+from .flush_id import FlushId
+from .generation_request import GenerationRequest
+from .mp_3_output_format import Mp3OutputFormat
+from .natural_specifier import NaturalSpecifier
+from .numerical_specifier import NumericalSpecifier
+from .output_format import OutputFormat, OutputFormat_Mp3, OutputFormat_Raw, OutputFormat_Wav
+from .phoneme_timestamps import PhonemeTimestamps
+from .raw_encoding import RawEncoding
+from .raw_output_format import RawOutputFormat
+from .speed import Speed
+from .supported_language import SupportedLanguage
+from .tts_request import TtsRequest
+from .tts_request_embedding_specifier import TtsRequestEmbeddingSpecifier
+from .tts_request_id_specifier import TtsRequestIdSpecifier
+from .tts_request_voice_specifier import TtsRequestVoiceSpecifier
+from .wav_output_format import WavOutputFormat
+from .web_socket_base_response import WebSocketBaseResponse
+from .web_socket_chunk_response import WebSocketChunkResponse
+from .web_socket_done_response import WebSocketDoneResponse
+from .web_socket_error_response import WebSocketErrorResponse
+from .web_socket_flush_done_response import WebSocketFlushDoneResponse
+from .web_socket_phoneme_timestamps_response import WebSocketPhonemeTimestampsResponse
+from .web_socket_raw_output_format import WebSocketRawOutputFormat
+from .web_socket_request import WebSocketRequest
+from .web_socket_response import (
+    WebSocketResponse,
+    WebSocketResponse_Chunk,
+    WebSocketResponse_Done,
+    WebSocketResponse_Error,
+    WebSocketResponse_FlushDone,
+    WebSocketResponse_PhonemeTimestamps,
+    WebSocketResponse_Timestamps,
+)
+from .web_socket_stream_options import WebSocketStreamOptions
+from .web_socket_timestamps_response import WebSocketTimestampsResponse
+from .web_socket_tts_output import WebSocketTtsOutput
+from .web_socket_tts_request import WebSocketTtsRequest
+from .word_timestamps import WordTimestamps
+__all__ = [
+    "CancelContextRequest",
+    "ContextId",
+    "Controls",
+    "Emotion",
+    "FlushId",
+    "GenerationRequest",
+    "Mp3OutputFormat",
+    "NaturalSpecifier",
+    "NumericalSpecifier",
+    "OutputFormat",
+    "OutputFormat_Mp3",
+    "OutputFormat_Raw",
+    "OutputFormat_Wav",
+    "PhonemeTimestamps",
+    "RawEncoding",
+    "RawOutputFormat",
+    "Speed",
+    "SupportedLanguage",
+    "TtsRequest",
+    "TtsRequestEmbeddingSpecifier",
+    "TtsRequestIdSpecifier",
+    "TtsRequestVoiceSpecifier",
+    "WavOutputFormat",
+    "WebSocketBaseResponse",
+    "WebSocketChunkResponse",
+    "WebSocketDoneResponse",
+    "WebSocketErrorResponse",
+    "WebSocketFlushDoneResponse",
+    "WebSocketPhonemeTimestampsResponse",
+    "WebSocketRawOutputFormat",
+    "WebSocketRequest",
+    "WebSocketResponse",
+    "WebSocketResponse_Chunk",
+    "WebSocketResponse_Done",
+    "WebSocketResponse_Error",
+    "WebSocketResponse_FlushDone",
+    "WebSocketResponse_PhonemeTimestamps",
+    "WebSocketResponse_Timestamps",
+    "WebSocketStreamOptions",
+    "WebSocketTimestampsResponse",
+    "WebSocketTtsOutput",
+    "WebSocketTtsRequest",
+    "WordTimestamps",
+]

cartesia 1.4.0__py3-none-any.whl → 2.0.0__py3-none-any.whl

cartesia 1.4.0py3-none-any.whl → 2.0.0py3-none-any.whl