PyPI - livekit-plugins-elevenlabs - Versions diffs - 0.7.0.dev7__py3-none-any.whl → 0.7.2__py3-none-any.whl - Mend

livekit-plugins-elevenlabs 0.7.0.dev7py3-none-any.whl → 0.7.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

livekit/plugins/elevenlabs/__init__.py CHANGED Viewed

@@ -28,13 +28,12 @@ __all__ = [
 from livekit.agents import Plugin
+from .log import logger
 class ElevenLabsPlugin(Plugin):
     def __init__(self):
-        super().__init__(__name__, __version__, __package__)
-    def download_files(self):
-        pass
+        super().__init__(__name__, __version__, __package__, logger)
 Plugin.register_plugin(ElevenLabsPlugin())

livekit/plugins/elevenlabs/models.py CHANGED Viewed

@@ -5,6 +5,7 @@ TTSModels = Literal[
     "eleven_multilingual_v1",
     "eleven_multilingual_v2",
     "eleven_turbo_v2",
+    "eleven_turbo_v2_5",
 ]
 TTSEncoding = Literal[

livekit/plugins/elevenlabs/tts.py CHANGED Viewed

@@ -93,7 +93,7 @@ class TTS(tts.TTS):
         self,
         *,
         voice: Voice = DEFAULT_VOICE,
-        model_id: TTSModels = "eleven_turbo_v2",
+        model_id: TTSModels = "eleven_turbo_v2_5",
         api_key: str | None = None,
         base_url: str | None = None,
         encoding: TTSEncoding = "mp3_22050_32",
@@ -101,9 +101,7 @@ class TTS(tts.TTS):
         word_tokenizer: tokenize.WordTokenizer = tokenize.basic.WordTokenizer(
             ignore_punctuation=False  # punctuation can help for intonation
         ),
-        # default value of 11labs is [120, 160, 250, 290], but we want faster responses by default
-        # (range is 50-500)
-        chunk_length_schedule: list[int] = [80, 120, 200, 260],
+        chunk_length_schedule: list[int] = [80, 120, 200, 260],  # range is [50, 500]
         http_session: aiohttp.ClientSession | None = None,
     ) -> None:
         super().__init__(
@@ -158,6 +156,8 @@ class ChunkedStream(tts.ChunkedStream):
     ) -> None:
         super().__init__()
         self._text, self._opts, self._session = text, opts, session
+        if _encoding_from_format(self._opts.encoding) == "mp3":
+            self._mp3_decoder = utils.codecs.Mp3StreamDecoder()
     @utils.log_exceptions(logger=logger)
     async def _main_task(self) -> None:
@@ -183,21 +183,39 @@ class ChunkedStream(tts.ChunkedStream):
             headers={AUTHORIZATION_HEADER: self._opts.api_key},
             json=data,
         ) as resp:
-            async for bytes_data, _ in resp.content.iter_chunks():
-                for frame in bstream.write(bytes_data):
+            if not resp.content_type.startswith("audio/"):
+                content = await resp.text()
+                logger.error("11labs returned non-audio data: %s", content)
+                return
+            encoding = _encoding_from_format(self._opts.encoding)
+            if encoding == "mp3":
+                async for bytes_data, _ in resp.content.iter_chunks():
+                    for frame in self._mp3_decoder.decode_chunk(bytes_data):
+                        self._event_ch.send_nowait(
+                            tts.SynthesizedAudio(
+                                request_id=request_id,
+                                segment_id=segment_id,
+                                frame=frame,
+                            )
+                        )
+            else:
+                async for bytes_data, _ in resp.content.iter_chunks():
+                    for frame in bstream.write(bytes_data):
+                        self._event_ch.send_nowait(
+                            tts.SynthesizedAudio(
+                                request_id=request_id,
+                                segment_id=segment_id,
+                                frame=frame,
+                            )
+                        )
+                for frame in bstream.flush():
                     self._event_ch.send_nowait(
                         tts.SynthesizedAudio(
                             request_id=request_id, segment_id=segment_id, frame=frame
                         )
                     )
-            for frame in bstream.flush():
-                self._event_ch.send_nowait(
-                    tts.SynthesizedAudio(
-                        request_id=request_id, segment_id=segment_id, frame=frame
-                    )
-                )
 class SynthesizeStream(tts.SynthesizeStream):
     """Streamed API using websockets"""
@@ -208,8 +226,7 @@ class SynthesizeStream(tts.SynthesizeStream):
         opts: _TTSOptions,
     ):
         super().__init__()
-        self._opts = opts
-        self._session = session
+        self._opts, self._session = opts, session
         self._mp3_decoder = utils.codecs.Mp3StreamDecoder()
     @utils.log_exceptions(logger=logger)
@@ -222,31 +239,39 @@ class SynthesizeStream(tts.SynthesizeStream):
             word_stream = None
             async for input in self._input_ch:
                 if isinstance(input, str):
-                    if not word_stream:
+                    if word_stream is None:
+                        # new segment (after flush for e.g)
                         word_stream = self._opts.word_tokenizer.stream()
                         self._segments_ch.send_nowait(word_stream)
                     word_stream.push_text(input)
                 elif isinstance(input, self._FlushSentinel):
-                    word_stream.end_input()
+                    if word_stream is not None:
+                        word_stream.end_input()
                     word_stream = None
             self._segments_ch.close()
+        @utils.log_exceptions(logger=logger)
         async def _run():
             async for word_stream in self._segments_ch:
                 await self._run_ws(word_stream)
-        await asyncio.gather(_tokenize_input(), _run(), return_exceptions=True)
+        tasks = [
+            asyncio.create_task(_tokenize_input()),
+            asyncio.create_task(_run()),
+        ]
+        try:
+            await asyncio.gather(*tasks)
+        finally:
+            await utils.aio.gracefully_cancel(*tasks)
     async def _run_ws(
         self,
         word_stream: tokenize.WordStream,
-        max_retry: int = 1,
+        max_retry: int = 3,
     ) -> None:
-        request_id = utils.shortuuid()
-        segment_id = utils.shortuuid()
         ws_conn: aiohttp.ClientWebSocketResponse | None = None
         for try_i in range(max_retry):
             retry_delay = 5
@@ -268,6 +293,10 @@ class SynthesizeStream(tts.SynthesizeStream):
         if ws_conn is None:
             raise Exception(f"failed to connect to 11labs after {max_retry} retries")
+        request_id = utils.shortuuid()
+        segment_id = utils.shortuuid()
+        # 11labs protocol expects the first message to be an "init msg"
         init_pkt = dict(
             text=" ",
             try_trigger_generation=True,
@@ -291,7 +320,6 @@ class SynthesizeStream(tts.SynthesizeStream):
                     text=f"{data.token} ",  # must always end with a space
                     try_trigger_generation=False,
                 )
-                print(data_pkt)
                 await ws_conn.send_str(json.dumps(data_pkt))
             # no more token, mark eos
@@ -300,6 +328,8 @@ class SynthesizeStream(tts.SynthesizeStream):
             eos_sent = True
         async def recv_task():
+            nonlocal eos_sent
             while True:
                 msg = await ws_conn.receive()
                 if msg.type in (
@@ -378,11 +408,11 @@ def _synthesize_url(opts: _TTSOptions) -> str:
     base_url = opts.base_url
     voice_id = opts.voice.id
     model_id = opts.model_id
-    sample_rate = _sample_rate_from_format(opts.encoding)
+    output_format = opts.encoding
     latency = opts.streaming_latency
     return (
         f"{base_url}/text-to-speech/{voice_id}/stream?"
-        f"model_id={model_id}&output_format=pcm_{sample_rate}&optimize_streaming_latency={latency}"
+        f"model_id={model_id}&output_format={output_format}&optimize_streaming_latency={latency}"
     )

livekit/plugins/elevenlabs/version.py CHANGED Viewed

@@ -12,4 +12,4 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
-__version__ = "0.7.0-dev.7"
+__version__ = "0.7.2"

{livekit_plugins_elevenlabs-0.7.0.dev7.dist-info → livekit_plugins_elevenlabs-0.7.2.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: livekit-plugins-elevenlabs
-Version: 0.7.0.dev7
+Version: 0.7.2
 Summary: Agent Framework plugin for voice synthesis with ElevenLabs' API.
 Home-page: https://github.com/livekit/agents
 License: Apache-2.0

livekit_plugins_elevenlabs-0.7.2.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,10 @@
+livekit/plugins/elevenlabs/__init__.py,sha256=cYRVIPXkRvB3-jK9bKZ9rYiMBACytWlCSq6yoZXaSgA,1080
+livekit/plugins/elevenlabs/log.py,sha256=hIuXqDsEB5GBa7rQY3z4Uqi1oCqc_lRmCHZEmXz0LHw,73
+livekit/plugins/elevenlabs/models.py,sha256=ddBUlDT4707f64WDJASR0B60X0yQ-LRHK1ZpTuBJXK8,387
+livekit/plugins/elevenlabs/py.typed,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+livekit/plugins/elevenlabs/tts.py,sha256=g5w__bq5OdtZDjjclw3zYq4mAPMpkVgWPqlhkb_qpBg,14320
+livekit/plugins/elevenlabs/version.py,sha256=wNTnO8L3jrMdUjS-xAEFoMTKPaPYiFY9Kxnvzm4hTBc,600
+livekit_plugins_elevenlabs-0.7.2.dist-info/METADATA,sha256=WdOaTQBGsLgrjKQIM2_pgXLyPUqzBfTml14OFRv2qLQ,1311
+livekit_plugins_elevenlabs-0.7.2.dist-info/WHEEL,sha256=R0nc6qTxuoLk7ShA2_Y-UWkN8ZdfDBG2B6Eqpz2WXbs,91
+livekit_plugins_elevenlabs-0.7.2.dist-info/top_level.txt,sha256=OoDok3xUmXbZRvOrfvvXB-Juu4DX79dlq188E19YHoo,8
+livekit_plugins_elevenlabs-0.7.2.dist-info/RECORD,,

{livekit_plugins_elevenlabs-0.7.0.dev7.dist-info → livekit_plugins_elevenlabs-0.7.2.dist-info}/WHEEL RENAMED Viewed

@@ -1,5 +1,5 @@
 Wheel-Version: 1.0
-Generator: setuptools (71.1.0)
+Generator: setuptools (72.1.0)
 Root-Is-Purelib: true
 Tag: py3-none-any

livekit_plugins_elevenlabs-0.7.0.dev7.dist-info/RECORD DELETED Viewed

@@ -1,10 +0,0 @@
-livekit/plugins/elevenlabs/__init__.py,sha256=ez1ybDPt7GfKAKgPkxZFRB7Vyd-_i-0hfUMI79GQ5w4,1091
-livekit/plugins/elevenlabs/log.py,sha256=hIuXqDsEB5GBa7rQY3z4Uqi1oCqc_lRmCHZEmXz0LHw,73
-livekit/plugins/elevenlabs/models.py,sha256=8jTchztgpiTokHEaWUK8PPxWWfvm5SMrOGsJpzxbYAw,362
-livekit/plugins/elevenlabs/py.typed,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-livekit/plugins/elevenlabs/tts.py,sha256=HpaHJQysUhThDdlYDHpQxroo9L2_m6G6QBAaNXs04K4,13032
-livekit/plugins/elevenlabs/version.py,sha256=z7YbosRr6jiTE2IIvHSRWSl4-yyS21CiHE5WD547wJo,606
-livekit_plugins_elevenlabs-0.7.0.dev7.dist-info/METADATA,sha256=7yOB_7fjkuBAXd6RRWzO6n8FnERRNUT3FP1uhn3-JtY,1316
-livekit_plugins_elevenlabs-0.7.0.dev7.dist-info/WHEEL,sha256=Wyh-_nZ0DJYolHNn1_hMa4lM7uDedD_RGVwbmTjyItk,91
-livekit_plugins_elevenlabs-0.7.0.dev7.dist-info/top_level.txt,sha256=OoDok3xUmXbZRvOrfvvXB-Juu4DX79dlq188E19YHoo,8
-livekit_plugins_elevenlabs-0.7.0.dev7.dist-info/RECORD,,

{livekit_plugins_elevenlabs-0.7.0.dev7.dist-info → livekit_plugins_elevenlabs-0.7.2.dist-info}/top_level.txt RENAMED Viewed

File without changes

livekit-plugins-elevenlabs 0.7.0.dev7__py3-none-any.whl → 0.7.2__py3-none-any.whl

livekit-plugins-elevenlabs 0.7.0.dev7py3-none-any.whl → 0.7.2py3-none-any.whl