PyPI - livekit-plugins-elevenlabs - Versions diffs - 0.7.13__py3-none-any.whl → 0.7.14__py3-none-any.whl - Mend

livekit-plugins-elevenlabs 0.7.13py3-none-any.whl → 0.7.14py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

livekit/plugins/elevenlabs/tts.py CHANGED Viewed

@@ -19,13 +19,13 @@ import base64
 import dataclasses
 import json
 import os
+import weakref
 from dataclasses import dataclass
-from typing import Any, List, Literal
+from typing import Any, List, Literal, Optional
 import aiohttp
 from livekit import rtc
 from livekit.agents import (
-    DEFAULT_API_CONNECT_OPTIONS,
     APIConnectionError,
     APIConnectOptions,
     APIStatusError,
@@ -170,6 +170,24 @@ class TTS(tts.TTS):
             language=language,
         )
         self._session = http_session
+        self._pool = utils.ConnectionPool[aiohttp.ClientWebSocketResponse](
+            connect_cb=self._connect_ws,
+            close_cb=self._close_ws,
+        )
+        self._streams = weakref.WeakSet[SynthesizeStream]()
+    async def _connect_ws(self) -> aiohttp.ClientWebSocketResponse:
+        session = self._ensure_session()
+        return await asyncio.wait_for(
+            session.ws_connect(
+                _stream_url(self._opts),
+                headers={AUTHORIZATION_HEADER: self._opts.api_key},
+            ),
+            self._conn_options.timeout,
+        )
+    async def _close_ws(self, ws: aiohttp.ClientWebSocketResponse):
+        await ws.close()
     def _ensure_session(self) -> aiohttp.ClientSession:
         if not self._session:
@@ -205,7 +223,7 @@ class TTS(tts.TTS):
         self,
         text: str,
         *,
-        conn_options: APIConnectOptions = DEFAULT_API_CONNECT_OPTIONS,
+        conn_options: Optional[APIConnectOptions] = None,
     ) -> "ChunkedStream":
         return ChunkedStream(
             tts=self,
@@ -216,14 +234,18 @@ class TTS(tts.TTS):
         )
     def stream(
-        self, *, conn_options: APIConnectOptions = DEFAULT_API_CONNECT_OPTIONS
+        self, *, conn_options: Optional[APIConnectOptions] = None
     ) -> "SynthesizeStream":
-        return SynthesizeStream(
-            tts=self,
-            conn_options=conn_options,
-            opts=self._opts,
-            session=self._ensure_session(),
-        )
+        stream = SynthesizeStream(tts=self, pool=self._pool, opts=self._opts)
+        self._streams.add(stream)
+        return stream
+    async def aclose(self) -> None:
+        for stream in list(self._streams):
+            await stream.aclose()
+        self._streams.clear()
+        await self._pool.aclose()
+        await super().aclose()
 class ChunkedStream(tts.ChunkedStream):
@@ -235,7 +257,7 @@ class ChunkedStream(tts.ChunkedStream):
         tts: TTS,
         input_text: str,
         opts: _TTSOptions,
-        conn_options: APIConnectOptions,
+        conn_options: Optional[APIConnectOptions] = None,
         session: aiohttp.ClientSession,
     ) -> None:
         super().__init__(tts=tts, input_text=input_text, conn_options=conn_options)
@@ -317,15 +339,15 @@ class SynthesizeStream(tts.SynthesizeStream):
         self,
         *,
         tts: TTS,
-        session: aiohttp.ClientSession,
-        conn_options: APIConnectOptions,
+        pool: utils.ConnectionPool[aiohttp.ClientWebSocketResponse],
         opts: _TTSOptions,
     ):
-        super().__init__(tts=tts, conn_options=conn_options)
-        self._opts, self._session = opts, session
+        super().__init__(tts=tts)
+        self._opts, self._pool = opts, pool
         self._mp3_decoder = utils.codecs.Mp3StreamDecoder()
     async def _run(self) -> None:
+        request_id = utils.shortuuid()
         self._segments_ch = utils.aio.Chan[tokenize.WordStream]()
         @utils.log_exceptions(logger=logger)
@@ -343,185 +365,177 @@ class SynthesizeStream(tts.SynthesizeStream):
                 elif isinstance(input, self._FlushSentinel):
                     if word_stream is not None:
                         word_stream.end_input()
                     word_stream = None
             self._segments_ch.close()
         @utils.log_exceptions(logger=logger)
-        async def _run():
+        async def _process_segments():
             async for word_stream in self._segments_ch:
-                await self._run_ws(word_stream)
+                await self._run_ws(word_stream, request_id)
         tasks = [
             asyncio.create_task(_tokenize_input()),
-            asyncio.create_task(_run()),
+            asyncio.create_task(_process_segments()),
         ]
         try:
             await asyncio.gather(*tasks)
+        except asyncio.TimeoutError as e:
+            raise APITimeoutError() from e
+        except aiohttp.ClientResponseError as e:
+            raise APIStatusError(
+                message=e.message,
+                status_code=e.status,
+                request_id=request_id,
+                body=None,
+            ) from e
+        except Exception as e:
+            raise APIConnectionError() from e
         finally:
             await utils.aio.gracefully_cancel(*tasks)
     async def _run_ws(
         self,
         word_stream: tokenize.WordStream,
-        max_retry: int = 3,
+        request_id: str,
     ) -> None:
-        ws_conn: aiohttp.ClientWebSocketResponse | None = None
-        for try_i in range(max_retry):
-            retry_delay = 5
-            try:
-                if try_i > 0:
-                    await asyncio.sleep(retry_delay)
-                ws_conn = await self._session.ws_connect(
-                    _stream_url(self._opts),
-                    headers={AUTHORIZATION_HEADER: self._opts.api_key},
-                )
-                break
-            except Exception as e:
-                logger.warning(
-                    f"failed to connect to 11labs, retrying in {retry_delay}s",
-                    exc_info=e,
+        async with self._pool.connection() as ws_conn:
+            segment_id = utils.shortuuid()
+            expected_text = ""  # accumulate all tokens sent
+            # 11labs protocol expects the first message to be an "init msg"
+            init_pkt = dict(
+                text=" ",
+                voice_settings=_strip_nones(
+                    dataclasses.asdict(self._opts.voice.settings)
                 )
-        if ws_conn is None:
-            raise Exception(f"failed to connect to 11labs after {max_retry} retries")
-        request_id = utils.shortuuid()
-        segment_id = utils.shortuuid()
-        # 11labs protocol expects the first message to be an "init msg"
-        init_pkt = dict(
-            text=" ",
-            try_trigger_generation=True,
-            voice_settings=_strip_nones(dataclasses.asdict(self._opts.voice.settings))
-            if self._opts.voice.settings
-            else None,
-            generation_config=dict(
-                chunk_length_schedule=self._opts.chunk_length_schedule
-            ),
-        )
-        await ws_conn.send_str(json.dumps(init_pkt))
-        eos_sent = False
-        async def send_task():
-            nonlocal eos_sent
-            xml_content = []
-            async for data in word_stream:
-                text = data.token
-                # send the xml phoneme in one go
-                if (
-                    self._opts.enable_ssml_parsing
-                    and data.token.startswith("<phoneme")
-                    or xml_content
-                ):
-                    xml_content.append(text)
-                    if data.token.find("</phoneme>") > -1:
-                        text = self._opts.word_tokenizer.format_words(xml_content)
-                        xml_content = []
-                    else:
-                        continue
-                # try_trigger_generation=True is a bad practice, we expose
-                # chunk_length_schedule instead
-                data_pkt = dict(
-                    text=f"{text} ",  # must always end with a space
-                    try_trigger_generation=False,
-                )
-                self._mark_started()
-                await ws_conn.send_str(json.dumps(data_pkt))
-            if xml_content:
-                logger.warning("11labs stream ended with incomplete xml content")
-            # no more token, mark eos
-            eos_pkt = dict(text="")
-            await ws_conn.send_str(json.dumps(eos_pkt))
-            eos_sent = True
-        async def recv_task():
-            nonlocal eos_sent
-            audio_bstream = utils.audio.AudioByteStream(
-                sample_rate=self._opts.sample_rate,
-                num_channels=1,
+                if self._opts.voice.settings
+                else None,
+                generation_config=dict(
+                    chunk_length_schedule=self._opts.chunk_length_schedule
+                ),
             )
-            last_frame: rtc.AudioFrame | None = None
-            def _send_last_frame(*, segment_id: str, is_final: bool) -> None:
-                nonlocal last_frame
-                if last_frame is not None:
-                    self._event_ch.send_nowait(
-                        tts.SynthesizedAudio(
-                            request_id=request_id,
-                            segment_id=segment_id,
-                            frame=last_frame,
-                            is_final=is_final,
+            await ws_conn.send_str(json.dumps(init_pkt))
+            async def send_task():
+                nonlocal expected_text
+                xml_content = []
+                async for data in word_stream:
+                    text = data.token
+                    expected_text += text
+                    # send the xml phoneme in one go
+                    if (
+                        self._opts.enable_ssml_parsing
+                        and data.token.startswith("<phoneme")
+                        or xml_content
+                    ):
+                        xml_content.append(text)
+                        if text.find("</phoneme>") > -1:
+                            text = self._opts.word_tokenizer.format_words(xml_content)
+                            xml_content = []
+                        else:
+                            continue
+                    data_pkt = dict(text=f"{text} ")  # must always end with a space
+                    self._mark_started()
+                    await ws_conn.send_str(json.dumps(data_pkt))
+                if xml_content:
+                    logger.warning("11labs stream ended with incomplete xml content")
+                await ws_conn.send_str(json.dumps({"flush": True}))
+            async def recv_task():
+                nonlocal expected_text
+                received_text = ""
+                audio_bstream = utils.audio.AudioByteStream(
+                    sample_rate=self._opts.sample_rate,
+                    num_channels=1,
+                )
+                last_frame: rtc.AudioFrame | None = None
+                def _send_last_frame(*, segment_id: str, is_final: bool) -> None:
+                    nonlocal last_frame
+                    if last_frame is not None:
+                        self._event_ch.send_nowait(
+                            tts.SynthesizedAudio(
+                                request_id=request_id,
+                                segment_id=segment_id,
+                                frame=last_frame,
+                                is_final=is_final,
+                            )
                         )
-                    )
-                    last_frame = None
-            while True:
-                msg = await ws_conn.receive()
-                if msg.type in (
-                    aiohttp.WSMsgType.CLOSED,
-                    aiohttp.WSMsgType.CLOSE,
-                    aiohttp.WSMsgType.CLOSING,
-                ):
-                    if not eos_sent:
+                        last_frame = None
+                while True:
+                    msg = await ws_conn.receive()
+                    if msg.type in (
+                        aiohttp.WSMsgType.CLOSED,
+                        aiohttp.WSMsgType.CLOSE,
+                        aiohttp.WSMsgType.CLOSING,
+                    ):
                         raise APIStatusError(
                             "11labs connection closed unexpectedly, not all tokens have been consumed",
                             request_id=request_id,
                         )
-                    return
-                if msg.type != aiohttp.WSMsgType.TEXT:
-                    logger.warning("unexpected 11labs message type %s", msg.type)
-                    continue
+                    if msg.type != aiohttp.WSMsgType.TEXT:
+                        logger.warning("unexpected 11labs message type %s", msg.type)
+                        continue
-                data = json.loads(msg.data)
-                encoding = _encoding_from_format(self._opts.encoding)
-                if data.get("audio"):
-                    b64data = base64.b64decode(data["audio"])
-                    if encoding == "mp3":
-                        for frame in self._mp3_decoder.decode_chunk(b64data):
-                            for frame in audio_bstream.write(frame.data.tobytes()):
+                    data = json.loads(msg.data)
+                    encoding = _encoding_from_format(self._opts.encoding)
+                    if data.get("audio"):
+                        b64data = base64.b64decode(data["audio"])
+                        if encoding == "mp3":
+                            for frame in self._mp3_decoder.decode_chunk(b64data):
+                                for frame in audio_bstream.write(frame.data.tobytes()):
+                                    _send_last_frame(
+                                        segment_id=segment_id, is_final=False
+                                    )
+                                    last_frame = frame
+                        else:
+                            for frame in audio_bstream.write(b64data):
                                 _send_last_frame(segment_id=segment_id, is_final=False)
                                 last_frame = frame
-                    else:
-                        for frame in audio_bstream.write(b64data):
+                    elif data.get("isFinal"):
+                        for frame in audio_bstream.flush():
                             _send_last_frame(segment_id=segment_id, is_final=False)
                             last_frame = frame
+                        _send_last_frame(segment_id=segment_id, is_final=True)
+                        break
+                    elif data.get("error"):
+                        logger.error("11labs reported an error: %s", data["error"])
+                    else:
+                        logger.error("unexpected 11labs message %s", data)
-                elif data.get("isFinal"):
-                    for frame in audio_bstream.flush():
-                        _send_last_frame(segment_id=segment_id, is_final=False)
-                        last_frame = frame
-                    _send_last_frame(segment_id=segment_id, is_final=True)
-                    pass
-                elif data.get("error"):
-                    logger.error("11labs reported an error: %s", data["error"])
-                else:
-                    logger.error("unexpected 11labs message %s", data)
-        tasks = [
-            asyncio.create_task(send_task()),
-            asyncio.create_task(recv_task()),
-        ]
+                    if alignment := data.get("normalizedAlignment"):
+                        received_text += "".join(alignment.get("chars", [])).replace(
+                            " ", ""
+                        )
+                        if received_text == expected_text:
+                            for frame in audio_bstream.flush():
+                                _send_last_frame(segment_id=segment_id, is_final=False)
+                                last_frame = frame
+                            _send_last_frame(segment_id=segment_id, is_final=True)
+                            break
-        try:
-            await asyncio.gather(*tasks)
-        finally:
-            await utils.aio.gracefully_cancel(*tasks)
-            if ws_conn is not None:
-                await ws_conn.close()
+            tasks = [
+                asyncio.create_task(send_task()),
+                asyncio.create_task(recv_task()),
+            ]
+            try:
+                await asyncio.gather(*tasks)
+            except asyncio.TimeoutError as e:
+                raise APITimeoutError() from e
+            except aiohttp.ClientResponseError as e:
+                raise APIStatusError(
+                    message=e.message,
+                    status_code=e.status,
+                    request_id=request_id,
+                    body=None,
+                ) from e
+            except Exception as e:
+                raise APIConnectionError() from e
+            finally:
+                await utils.aio.gracefully_cancel(*tasks)
 def _dict_to_voices_list(data: dict[str, Any]):

livekit/plugins/elevenlabs/version.py CHANGED Viewed

@@ -12,4 +12,4 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
-__version__ = "0.7.13"
+__version__ = "0.7.14"

{livekit_plugins_elevenlabs-0.7.13.dist-info → livekit_plugins_elevenlabs-0.7.14.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.2
 Name: livekit-plugins-elevenlabs
-Version: 0.7.13
+Version: 0.7.14
 Summary: Agent Framework plugin for voice synthesis with ElevenLabs' API.
 Home-page: https://github.com/livekit/agents
 License: Apache-2.0

livekit_plugins_elevenlabs-0.7.14.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,10 @@
+livekit/plugins/elevenlabs/__init__.py,sha256=YZVadomFq3JWiZN6GWXJbuE4vaNNWq1CmdH25du8qwg,1249
+livekit/plugins/elevenlabs/log.py,sha256=hIuXqDsEB5GBa7rQY3z4Uqi1oCqc_lRmCHZEmXz0LHw,73
+livekit/plugins/elevenlabs/models.py,sha256=cVoaMYNlUXZzP-HOpbtU16OM9m-bACnSat8-o87tTyk,435
+livekit/plugins/elevenlabs/py.typed,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+livekit/plugins/elevenlabs/tts.py,sha256=_d8V_YLx1tuScKtmDipoKHhqF3y68lXg03phixEHU3M,21419
+livekit/plugins/elevenlabs/version.py,sha256=1Trenk6kp4J1gdS0z55hdro60GNOnD1s0F3-AoNr4VM,601
+livekit_plugins_elevenlabs-0.7.14.dist-info/METADATA,sha256=WGgcKpZb9PYymh1pNvF7B5dhLXUlQj3n0ALlwJmfYfE,1523
+livekit_plugins_elevenlabs-0.7.14.dist-info/WHEEL,sha256=jB7zZ3N9hIM9adW7qlTAyycLYW9npaWKLRzaoVcLKcM,91
+livekit_plugins_elevenlabs-0.7.14.dist-info/top_level.txt,sha256=OoDok3xUmXbZRvOrfvvXB-Juu4DX79dlq188E19YHoo,8
+livekit_plugins_elevenlabs-0.7.14.dist-info/RECORD,,

{livekit_plugins_elevenlabs-0.7.13.dist-info → livekit_plugins_elevenlabs-0.7.14.dist-info}/WHEEL RENAMED Viewed

@@ -1,5 +1,5 @@
 Wheel-Version: 1.0
-Generator: setuptools (75.8.0)
+Generator: setuptools (75.8.2)
 Root-Is-Purelib: true
 Tag: py3-none-any

livekit_plugins_elevenlabs-0.7.13.dist-info/RECORD DELETED Viewed

@@ -1,10 +0,0 @@
-livekit/plugins/elevenlabs/__init__.py,sha256=YZVadomFq3JWiZN6GWXJbuE4vaNNWq1CmdH25du8qwg,1249
-livekit/plugins/elevenlabs/log.py,sha256=hIuXqDsEB5GBa7rQY3z4Uqi1oCqc_lRmCHZEmXz0LHw,73
-livekit/plugins/elevenlabs/models.py,sha256=cVoaMYNlUXZzP-HOpbtU16OM9m-bACnSat8-o87tTyk,435
-livekit/plugins/elevenlabs/py.typed,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-livekit/plugins/elevenlabs/tts.py,sha256=dFeEtnNYR0sIDjQZARvUb6cG3VUD4gUNU3hpbFGpyNo,19744
-livekit/plugins/elevenlabs/version.py,sha256=ePihhrwb0N1YVz4mZBMdwgECen0up-RbS8yrvmQGHt4,601
-livekit_plugins_elevenlabs-0.7.13.dist-info/METADATA,sha256=en67LviRFvRsErhZ5qvb8UvbmQc2nLcYSijszgdMj1Q,1523
-livekit_plugins_elevenlabs-0.7.13.dist-info/WHEEL,sha256=In9FTNxeP60KnTkGw7wk6mJPYd_dQSjEZmXdBdMCI-8,91
-livekit_plugins_elevenlabs-0.7.13.dist-info/top_level.txt,sha256=OoDok3xUmXbZRvOrfvvXB-Juu4DX79dlq188E19YHoo,8
-livekit_plugins_elevenlabs-0.7.13.dist-info/RECORD,,

{livekit_plugins_elevenlabs-0.7.13.dist-info → livekit_plugins_elevenlabs-0.7.14.dist-info}/top_level.txt RENAMED Viewed

File without changes

livekit-plugins-elevenlabs 0.7.13__py3-none-any.whl → 0.7.14__py3-none-any.whl

livekit-plugins-elevenlabs 0.7.13py3-none-any.whl → 0.7.14py3-none-any.whl