PyPI - livekit-plugins-elevenlabs - Versions diffs - 0.8.1__py3-none-any.whl → 1.0.0.dev4__py3-none-any.whl - Mend

livekit-plugins-elevenlabs 0.8.1py3-none-any.whl → 1.0.0.dev4py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

livekit/plugins/elevenlabs/tts.py CHANGED Viewed

@@ -21,9 +21,10 @@ import json
 import os
 import weakref
 from dataclasses import dataclass
-from typing import Any, List, Optional
+from typing import Any
 import aiohttp
 from livekit.agents import (
     APIConnectionError,
     APIConnectOptions,
@@ -106,9 +107,9 @@ class TTS(tts.TTS):
         base_url: str | None = None,
         streaming_latency: int = 0,
         inactivity_timeout: int = WS_INACTIVITY_TIMEOUT,
-        word_tokenizer: Optional[tokenize.WordTokenizer] = None,
+        word_tokenizer: tokenize.WordTokenizer | None = None,
         enable_ssml_parsing: bool = False,
-        chunk_length_schedule: list[int] = [80, 120, 200, 260],  # range is [50, 500]
+        chunk_length_schedule: list[int] = None,  # range is [50, 500]
         http_session: aiohttp.ClientSession | None = None,
         # deprecated
         model_id: TTSModels | str | None = None,
@@ -131,6 +132,8 @@ class TTS(tts.TTS):
             language (str | None): Language code for the TTS model, as of 10/24/24 only valid for "eleven_turbo_v2_5". Optional.
         """
+        if chunk_length_schedule is None:
+            chunk_length_schedule = [80, 120, 200, 260]
         super().__init__(
             capabilities=tts.TTSCapabilities(
                 streaming=True,
@@ -171,15 +174,37 @@ class TTS(tts.TTS):
             inactivity_timeout=inactivity_timeout,
         )
         self._session = http_session
+        self._pool = utils.ConnectionPool[aiohttp.ClientWebSocketResponse](
+            connect_cb=self._connect_ws,
+            close_cb=self._close_ws,
+            max_session_duration=inactivity_timeout,
+            mark_refreshed_on_get=True,
+        )
         self._streams = weakref.WeakSet[SynthesizeStream]()
+    async def _connect_ws(self) -> aiohttp.ClientWebSocketResponse:
+        session = self._ensure_session()
+        return await asyncio.wait_for(
+            session.ws_connect(
+                _stream_url(self._opts),
+                headers={AUTHORIZATION_HEADER: self._opts.api_key},
+            ),
+            self._conn_options.timeout,
+        )
+    async def _close_ws(self, ws: aiohttp.ClientWebSocketResponse):
+        await ws.close()
     def _ensure_session(self) -> aiohttp.ClientSession:
         if not self._session:
             self._session = utils.http_context.http_session()
         return self._session
-    async def list_voices(self) -> List[Voice]:
+    def prewarm(self) -> None:
+        self._pool.prewarm()
+    async def list_voices(self) -> list[Voice]:
         async with self._ensure_session().get(
             f"{self._opts.base_url}/voices",
             headers={AUTHORIZATION_HEADER: self._opts.api_key},
@@ -207,8 +232,8 @@ class TTS(tts.TTS):
         self,
         text: str,
         *,
-        conn_options: Optional[APIConnectOptions] = None,
-    ) -> "ChunkedStream":
+        conn_options: APIConnectOptions | None = None,
+    ) -> ChunkedStream:
         return ChunkedStream(
             tts=self,
             input_text=text,
@@ -217,15 +242,8 @@ class TTS(tts.TTS):
             session=self._ensure_session(),
         )
-    def stream(
-        self, *, conn_options: Optional[APIConnectOptions] = None
-    ) -> "SynthesizeStream":
-        stream = SynthesizeStream(
-            tts=self,
-            conn_options=conn_options,
-            opts=self._opts,
-            session=self._ensure_session(),
-        )
+    def stream(self, *, conn_options: APIConnectOptions | None = None) -> SynthesizeStream:
+        stream = SynthesizeStream(tts=self, pool=self._pool, opts=self._opts)
         self._streams.add(stream)
         return stream
@@ -233,6 +251,7 @@ class TTS(tts.TTS):
         for stream in list(self._streams):
             await stream.aclose()
         self._streams.clear()
+        await self._pool.aclose()
         await super().aclose()
@@ -245,7 +264,7 @@ class ChunkedStream(tts.ChunkedStream):
         tts: TTS,
         input_text: str,
         opts: _TTSOptions,
-        conn_options: Optional[APIConnectOptions] = None,
+        conn_options: APIConnectOptions | None = None,
         session: aiohttp.ClientSession,
     ) -> None:
         super().__init__(tts=tts, input_text=input_text, conn_options=conn_options)
@@ -320,12 +339,11 @@ class SynthesizeStream(tts.SynthesizeStream):
         self,
         *,
         tts: TTS,
-        session: aiohttp.ClientSession,
+        pool: utils.ConnectionPool[aiohttp.ClientWebSocketResponse],
         opts: _TTSOptions,
-        conn_options: Optional[APIConnectOptions] = None,
     ):
-        super().__init__(tts=tts, conn_options=conn_options)
-        self._opts, self._session = opts, session
+        super().__init__(tts=tts)
+        self._opts, self._pool = opts, pool
     async def _run(self) -> None:
         request_id = utils.shortuuid()
@@ -380,147 +398,138 @@ class SynthesizeStream(tts.SynthesizeStream):
         word_stream: tokenize.WordStream,
         request_id: str,
     ) -> None:
-        ws_conn = await self._session.ws_connect(
-            _stream_url(self._opts),
-            headers={AUTHORIZATION_HEADER: self._opts.api_key},
-        )
-        segment_id = utils.shortuuid()
-        decoder = utils.codecs.AudioStreamDecoder(
-            sample_rate=self._opts.sample_rate,
-            num_channels=1,
-        )
-        # 11labs protocol expects the first message to be an "init msg"
-        init_pkt = dict(
-            text=" ",
-            voice_settings=_strip_nones(dataclasses.asdict(self._opts.voice.settings))
-            if self._opts.voice.settings
-            else None,
-            generation_config=dict(
-                chunk_length_schedule=self._opts.chunk_length_schedule
-            ),
-        )
-        await ws_conn.send_str(json.dumps(init_pkt))
-        eos_sent = False
-        @utils.log_exceptions(logger=logger)
-        async def send_task():
-            nonlocal eos_sent
-            xml_content = []
-            async for data in word_stream:
-                text = data.token
-                # send the xml phoneme in one go
-                if (
-                    self._opts.enable_ssml_parsing
-                    and data.token.startswith("<phoneme")
-                    or xml_content
-                ):
-                    xml_content.append(text)
-                    if data.token.find("</phoneme>") > -1:
-                        text = self._opts.word_tokenizer.format_words(xml_content)
-                        xml_content = []
-                    else:
-                        continue
-                data_pkt = dict(text=f"{text} ")  # must always end with a space
-                self._mark_started()
-                await ws_conn.send_str(json.dumps(data_pkt))
-            if xml_content:
-                logger.warning("11labs stream ended with incomplete xml content")
-            # no more token, mark eos
-            eos_pkt = dict(text="")
-            await ws_conn.send_str(json.dumps(eos_pkt))
-            eos_sent = True
+        async with self._pool.connection() as ws_conn:
+            segment_id = utils.shortuuid()
+            expected_text = ""  # accumulate all tokens sent
-        # consumes from decoder and generates events
-        @utils.log_exceptions(logger=logger)
-        async def generate_task():
-            emitter = tts.SynthesizedAudioEmitter(
-                event_ch=self._event_ch,
-                request_id=request_id,
-                segment_id=segment_id,
+            decoder = utils.codecs.AudioStreamDecoder(
+                sample_rate=self._opts.sample_rate,
+                num_channels=1,
             )
-            async for frame in decoder:
-                emitter.push(frame)
-            emitter.flush()
-        # receives from ws and decodes audio
-        @utils.log_exceptions(logger=logger)
-        async def recv_task():
-            nonlocal eos_sent
-            while True:
-                msg = await ws_conn.receive()
-                if msg.type in (
-                    aiohttp.WSMsgType.CLOSED,
-                    aiohttp.WSMsgType.CLOSE,
-                    aiohttp.WSMsgType.CLOSING,
-                ):
-                    if not eos_sent:
+            # 11labs protocol expects the first message to be an "init msg"
+            init_pkt = {
+                "text": " ",
+                "voice_settings": _strip_nones(dataclasses.asdict(self._opts.voice.settings))
+                if self._opts.voice.settings
+                else None,
+                "generation_config": {"chunk_length_schedule": self._opts.chunk_length_schedule},
+            }
+            await ws_conn.send_str(json.dumps(init_pkt))
+            @utils.log_exceptions(logger=logger)
+            async def send_task():
+                nonlocal expected_text
+                xml_content = []
+                async for data in word_stream:
+                    text = data.token
+                    expected_text += text
+                    # send the xml phoneme in one go
+                    if (
+                        self._opts.enable_ssml_parsing
+                        and data.token.startswith("<phoneme")
+                        or xml_content
+                    ):
+                        xml_content.append(text)
+                        if text.find("</phoneme>") > -1:
+                            text = self._opts.word_tokenizer.format_words(xml_content)
+                            xml_content = []
+                        else:
+                            continue
+                    data_pkt = {"text": f"{text} "}  # must always end with a space
+                    self._mark_started()
+                    await ws_conn.send_str(json.dumps(data_pkt))
+                if xml_content:
+                    logger.warning("11labs stream ended with incomplete xml content")
+                await ws_conn.send_str(json.dumps({"flush": True}))
+            # consumes from decoder and generates events
+            @utils.log_exceptions(logger=logger)
+            async def generate_task():
+                emitter = tts.SynthesizedAudioEmitter(
+                    event_ch=self._event_ch,
+                    request_id=request_id,
+                    segment_id=segment_id,
+                )
+                async for frame in decoder:
+                    emitter.push(frame)
+                emitter.flush()
+            # receives from ws and decodes audio
+            @utils.log_exceptions(logger=logger)
+            async def recv_task():
+                nonlocal expected_text
+                received_text = ""
+                while True:
+                    msg = await ws_conn.receive()
+                    if msg.type in (
+                        aiohttp.WSMsgType.CLOSED,
+                        aiohttp.WSMsgType.CLOSE,
+                        aiohttp.WSMsgType.CLOSING,
+                    ):
                         raise APIStatusError(
                             "11labs connection closed unexpectedly, not all tokens have been consumed",
                             request_id=request_id,
                         )
-                    return
-                if msg.type != aiohttp.WSMsgType.TEXT:
-                    logger.warning("unexpected 11labs message type %s", msg.type)
-                    continue
-                data = json.loads(msg.data)
-                if data.get("audio"):
-                    b64data = base64.b64decode(data["audio"])
-                    decoder.push(b64data)
-                elif data.get("isFinal"):
-                    decoder.end_input()
-                    break
-                elif data.get("error"):
-                    raise APIStatusError(
-                        message=data["error"],
-                        status_code=500,
-                        request_id=request_id,
-                        body=None,
-                    )
-                else:
-                    raise APIStatusError(
-                        message=f"unexpected 11labs message {data}",
-                        status_code=500,
-                        request_id=request_id,
-                        body=None,
-                    )
+                    if msg.type != aiohttp.WSMsgType.TEXT:
+                        logger.warning("unexpected 11labs message type %s", msg.type)
+                        continue
-        tasks = [
-            asyncio.create_task(send_task()),
-            asyncio.create_task(recv_task()),
-            asyncio.create_task(generate_task()),
-        ]
-        try:
-            await asyncio.gather(*tasks)
-        except asyncio.TimeoutError as e:
-            raise APITimeoutError() from e
-        except aiohttp.ClientResponseError as e:
-            raise APIStatusError(
-                message=e.message,
-                status_code=e.status,
-                request_id=request_id,
-                body=None,
-            ) from e
-        except APIStatusError:
-            raise
-        except Exception as e:
-            raise APIConnectionError() from e
-        finally:
-            await utils.aio.gracefully_cancel(*tasks)
-            await decoder.aclose()
-            if ws_conn is not None:
-                await ws_conn.close()
+                    data = json.loads(msg.data)
+                    if data.get("audio"):
+                        b64data = base64.b64decode(data["audio"])
+                        decoder.push(b64data)
+                        if alignment := data.get("normalizedAlignment"):
+                            received_text += "".join(alignment.get("chars", [])).replace(" ", "")
+                            if received_text == expected_text:
+                                decoder.end_input()
+                                break
+                    elif data.get("error"):
+                        raise APIStatusError(
+                            message=data["error"],
+                            status_code=500,
+                            request_id=request_id,
+                            body=None,
+                        )
+                    else:
+                        raise APIStatusError(
+                            message=f"unexpected 11labs message {data}",
+                            status_code=500,
+                            request_id=request_id,
+                            body=None,
+                        )
+            tasks = [
+                asyncio.create_task(send_task()),
+                asyncio.create_task(recv_task()),
+                asyncio.create_task(generate_task()),
+            ]
+            try:
+                await asyncio.gather(*tasks)
+            except asyncio.TimeoutError as e:
+                raise APITimeoutError() from e
+            except aiohttp.ClientResponseError as e:
+                raise APIStatusError(
+                    message=e.message,
+                    status_code=e.status,
+                    request_id=request_id,
+                    body=None,
+                ) from e
+            except APIStatusError:
+                raise
+            except Exception as e:
+                raise APIConnectionError() from e
+            finally:
+                await utils.aio.gracefully_cancel(*tasks)
+                await decoder.aclose()
 def _dict_to_voices_list(data: dict[str, Any]):
-    voices: List[Voice] = []
+    voices: list[Voice] = []
     for voice in data["voices"]:
         voices.append(
             Voice(

livekit/plugins/elevenlabs/version.py CHANGED Viewed

@@ -12,4 +12,4 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
-__version__ = "0.8.1"
+__version__ = "1.0.0.dev4"

{livekit_plugins_elevenlabs-0.8.1.dist-info → livekit_plugins_elevenlabs-1.0.0.dev4.dist-info}/METADATA RENAMED Viewed

@@ -1,35 +1,25 @@
-Metadata-Version: 2.2
+Metadata-Version: 2.4
 Name: livekit-plugins-elevenlabs
-Version: 0.8.1
+Version: 1.0.0.dev4
 Summary: Agent Framework plugin for voice synthesis with ElevenLabs' API.
-Home-page: https://github.com/livekit/agents
-License: Apache-2.0
 Project-URL: Documentation, https://docs.livekit.io
 Project-URL: Website, https://livekit.io/
 Project-URL: Source, https://github.com/livekit/agents
-Keywords: webrtc,realtime,audio,video,livekit,elevenlabs
+Author-email: LiveKit <support@livekit.io>
+License-Expression: Apache-2.0
+Keywords: audio,elevenlabs,livekit,realtime,video,webrtc
 Classifier: Intended Audience :: Developers
 Classifier: License :: OSI Approved :: Apache Software License
-Classifier: Topic :: Multimedia :: Sound/Audio
-Classifier: Topic :: Multimedia :: Video
-Classifier: Topic :: Scientific/Engineering :: Artificial Intelligence
 Classifier: Programming Language :: Python :: 3
+Classifier: Programming Language :: Python :: 3 :: Only
 Classifier: Programming Language :: Python :: 3.9
 Classifier: Programming Language :: Python :: 3.10
-Classifier: Programming Language :: Python :: 3 :: Only
+Classifier: Topic :: Multimedia :: Sound/Audio
+Classifier: Topic :: Multimedia :: Video
+Classifier: Topic :: Scientific/Engineering :: Artificial Intelligence
 Requires-Python: >=3.9.0
+Requires-Dist: livekit-agents>=1.0.0.dev4
 Description-Content-Type: text/markdown
-Requires-Dist: livekit-agents[codecs]<1.0.0,>=0.12.16
-Dynamic: classifier
-Dynamic: description
-Dynamic: description-content-type
-Dynamic: home-page
-Dynamic: keywords
-Dynamic: license
-Dynamic: project-url
-Dynamic: requires-dist
-Dynamic: requires-python
-Dynamic: summary
 # LiveKit Plugins Elevenlabs

livekit_plugins_elevenlabs-1.0.0.dev4.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,9 @@
+livekit/plugins/elevenlabs/__init__.py,sha256=YZVadomFq3JWiZN6GWXJbuE4vaNNWq1CmdH25du8qwg,1249
+livekit/plugins/elevenlabs/log.py,sha256=hIuXqDsEB5GBa7rQY3z4Uqi1oCqc_lRmCHZEmXz0LHw,73
+livekit/plugins/elevenlabs/models.py,sha256=nB43wLS1ilzS7IxLYVSQxBjKPnbiPl4AHpHAOlG2i00,273
+livekit/plugins/elevenlabs/py.typed,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+livekit/plugins/elevenlabs/tts.py,sha256=eJ66yP3ta2FH0LgQ64wHdjOHEoavwguOg6GeaMIr9IU,20394
+livekit/plugins/elevenlabs/version.py,sha256=koM_bT4QbztrKQ60Gjg7V4oe99CuxgGcpuUtWMOEKqU,605
+livekit_plugins_elevenlabs-1.0.0.dev4.dist-info/METADATA,sha256=1YSGTLIaJURkWYEOIl2LqZLdgU3y1KFM4YvGvd8s4G8,1316
+livekit_plugins_elevenlabs-1.0.0.dev4.dist-info/WHEEL,sha256=qtCwoSJWgHk21S1Kb4ihdzI2rlJ1ZKaIurTj_ngOhyQ,87
+livekit_plugins_elevenlabs-1.0.0.dev4.dist-info/RECORD,,

{livekit_plugins_elevenlabs-0.8.1.dist-info → livekit_plugins_elevenlabs-1.0.0.dev4.dist-info}/WHEEL RENAMED Viewed

@@ -1,5 +1,4 @@
 Wheel-Version: 1.0
-Generator: setuptools (76.1.0)
+Generator: hatchling 1.27.0
 Root-Is-Purelib: true
 Tag: py3-none-any

livekit_plugins_elevenlabs-0.8.1.dist-info/RECORD DELETED Viewed

@@ -1,10 +0,0 @@
-livekit/plugins/elevenlabs/__init__.py,sha256=YZVadomFq3JWiZN6GWXJbuE4vaNNWq1CmdH25du8qwg,1249
-livekit/plugins/elevenlabs/log.py,sha256=hIuXqDsEB5GBa7rQY3z4Uqi1oCqc_lRmCHZEmXz0LHw,73
-livekit/plugins/elevenlabs/models.py,sha256=nB43wLS1ilzS7IxLYVSQxBjKPnbiPl4AHpHAOlG2i00,273
-livekit/plugins/elevenlabs/py.typed,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-livekit/plugins/elevenlabs/tts.py,sha256=-w8IeAvyQER4PLraajJz6OWDufvKpD_fPM8oPsYtX9s,19335
-livekit/plugins/elevenlabs/version.py,sha256=PoHw-_DNE2B5SpeoQ-r6HSfVmbDgYuGamg0dN2jhayQ,600
-livekit_plugins_elevenlabs-0.8.1.dist-info/METADATA,sha256=l8gbEDr8EsedqYQiqBhx6K9XwAdTtnQWVCxmlyjVG9w,1529
-livekit_plugins_elevenlabs-0.8.1.dist-info/WHEEL,sha256=beeZ86-EfXScwlR_HKu4SllMC9wUEj_8Z_4FJ3egI2w,91
-livekit_plugins_elevenlabs-0.8.1.dist-info/top_level.txt,sha256=OoDok3xUmXbZRvOrfvvXB-Juu4DX79dlq188E19YHoo,8
-livekit_plugins_elevenlabs-0.8.1.dist-info/RECORD,,

livekit_plugins_elevenlabs-0.8.1.dist-info/top_level.txt DELETED Viewed

	@@ -1 +0,0 @@
1	- livekit

livekit-plugins-elevenlabs 0.8.1__py3-none-any.whl → 1.0.0.dev4__py3-none-any.whl

livekit-plugins-elevenlabs 0.8.1py3-none-any.whl → 1.0.0.dev4py3-none-any.whl