PyPI - minicpmo-utils - Versions diffs - 0.1.0__py3-none-any.whl - Mend

minicpmo-utils 0.1.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (148) hide show

cosyvoice/__init__.py +17 -0
cosyvoice/bin/average_model.py +93 -0
cosyvoice/bin/export_jit.py +103 -0
cosyvoice/bin/export_onnx.py +120 -0
cosyvoice/bin/inference_deprecated.py +126 -0
cosyvoice/bin/train.py +195 -0
cosyvoice/cli/__init__.py +0 -0
cosyvoice/cli/cosyvoice.py +209 -0
cosyvoice/cli/frontend.py +238 -0
cosyvoice/cli/model.py +386 -0
cosyvoice/dataset/__init__.py +0 -0
cosyvoice/dataset/dataset.py +151 -0
cosyvoice/dataset/processor.py +434 -0
cosyvoice/flow/decoder.py +494 -0
cosyvoice/flow/flow.py +281 -0
cosyvoice/flow/flow_matching.py +227 -0
cosyvoice/flow/length_regulator.py +70 -0
cosyvoice/hifigan/discriminator.py +230 -0
cosyvoice/hifigan/f0_predictor.py +58 -0
cosyvoice/hifigan/generator.py +582 -0
cosyvoice/hifigan/hifigan.py +67 -0
cosyvoice/llm/llm.py +610 -0
cosyvoice/tokenizer/assets/multilingual_zh_ja_yue_char_del.tiktoken +58836 -0
cosyvoice/tokenizer/tokenizer.py +279 -0
cosyvoice/transformer/__init__.py +0 -0
cosyvoice/transformer/activation.py +84 -0
cosyvoice/transformer/attention.py +330 -0
cosyvoice/transformer/convolution.py +145 -0
cosyvoice/transformer/decoder.py +396 -0
cosyvoice/transformer/decoder_layer.py +132 -0
cosyvoice/transformer/embedding.py +302 -0
cosyvoice/transformer/encoder.py +474 -0
cosyvoice/transformer/encoder_layer.py +236 -0
cosyvoice/transformer/label_smoothing_loss.py +96 -0
cosyvoice/transformer/positionwise_feed_forward.py +115 -0
cosyvoice/transformer/subsampling.py +383 -0
cosyvoice/transformer/upsample_encoder.py +320 -0
cosyvoice/utils/__init__.py +0 -0
cosyvoice/utils/class_utils.py +83 -0
cosyvoice/utils/common.py +186 -0
cosyvoice/utils/executor.py +176 -0
cosyvoice/utils/file_utils.py +129 -0
cosyvoice/utils/frontend_utils.py +136 -0
cosyvoice/utils/losses.py +57 -0
cosyvoice/utils/mask.py +265 -0
cosyvoice/utils/scheduler.py +738 -0
cosyvoice/utils/train_utils.py +367 -0
cosyvoice/vllm/cosyvoice2.py +103 -0
matcha/__init__.py +0 -0
matcha/app.py +357 -0
matcha/cli.py +418 -0
matcha/hifigan/__init__.py +0 -0
matcha/hifigan/config.py +28 -0
matcha/hifigan/denoiser.py +64 -0
matcha/hifigan/env.py +17 -0
matcha/hifigan/meldataset.py +217 -0
matcha/hifigan/models.py +368 -0
matcha/hifigan/xutils.py +60 -0
matcha/models/__init__.py +0 -0
matcha/models/baselightningmodule.py +209 -0
matcha/models/components/__init__.py +0 -0
matcha/models/components/decoder.py +443 -0
matcha/models/components/flow_matching.py +132 -0
matcha/models/components/text_encoder.py +410 -0
matcha/models/components/transformer.py +316 -0
matcha/models/matcha_tts.py +239 -0
matcha/onnx/__init__.py +0 -0
matcha/onnx/export.py +181 -0
matcha/onnx/infer.py +168 -0
matcha/text/__init__.py +53 -0
matcha/text/cleaners.py +116 -0
matcha/text/numbers.py +71 -0
matcha/text/symbols.py +17 -0
matcha/train.py +122 -0
matcha/utils/__init__.py +5 -0
matcha/utils/audio.py +82 -0
matcha/utils/generate_data_statistics.py +111 -0
matcha/utils/instantiators.py +56 -0
matcha/utils/logging_utils.py +53 -0
matcha/utils/model.py +90 -0
matcha/utils/monotonic_align/__init__.py +22 -0
matcha/utils/monotonic_align/setup.py +7 -0
matcha/utils/pylogger.py +21 -0
matcha/utils/rich_utils.py +101 -0
matcha/utils/utils.py +219 -0
minicpmo/__init__.py +24 -0
minicpmo/utils.py +636 -0
minicpmo/version.py +2 -0
minicpmo_utils-0.1.0.dist-info/METADATA +72 -0
minicpmo_utils-0.1.0.dist-info/RECORD +148 -0
minicpmo_utils-0.1.0.dist-info/WHEEL +5 -0
minicpmo_utils-0.1.0.dist-info/top_level.txt +5 -0
s3tokenizer/__init__.py +153 -0
s3tokenizer/assets/BAC009S0764W0121.wav +0 -0
s3tokenizer/assets/BAC009S0764W0122.wav +0 -0
s3tokenizer/assets/mel_filters.npz +0 -0
s3tokenizer/cli.py +183 -0
s3tokenizer/model.py +546 -0
s3tokenizer/model_v2.py +605 -0
s3tokenizer/utils.py +390 -0
stepaudio2/__init__.py +40 -0
stepaudio2/cosyvoice2/__init__.py +1 -0
stepaudio2/cosyvoice2/flow/__init__.py +0 -0
stepaudio2/cosyvoice2/flow/decoder_dit.py +585 -0
stepaudio2/cosyvoice2/flow/flow.py +230 -0
stepaudio2/cosyvoice2/flow/flow_matching.py +205 -0
stepaudio2/cosyvoice2/transformer/__init__.py +0 -0
stepaudio2/cosyvoice2/transformer/attention.py +328 -0
stepaudio2/cosyvoice2/transformer/embedding.py +119 -0
stepaudio2/cosyvoice2/transformer/encoder_layer.py +163 -0
stepaudio2/cosyvoice2/transformer/positionwise_feed_forward.py +56 -0
stepaudio2/cosyvoice2/transformer/subsampling.py +79 -0
stepaudio2/cosyvoice2/transformer/upsample_encoder_v2.py +483 -0
stepaudio2/cosyvoice2/utils/__init__.py +1 -0
stepaudio2/cosyvoice2/utils/class_utils.py +41 -0
stepaudio2/cosyvoice2/utils/common.py +101 -0
stepaudio2/cosyvoice2/utils/mask.py +49 -0
stepaudio2/flashcosyvoice/__init__.py +0 -0
stepaudio2/flashcosyvoice/cli.py +424 -0
stepaudio2/flashcosyvoice/config.py +80 -0
stepaudio2/flashcosyvoice/cosyvoice2.py +160 -0
stepaudio2/flashcosyvoice/cosyvoice3.py +1 -0
stepaudio2/flashcosyvoice/engine/__init__.py +0 -0
stepaudio2/flashcosyvoice/engine/block_manager.py +114 -0
stepaudio2/flashcosyvoice/engine/llm_engine.py +125 -0
stepaudio2/flashcosyvoice/engine/model_runner.py +310 -0
stepaudio2/flashcosyvoice/engine/scheduler.py +77 -0
stepaudio2/flashcosyvoice/engine/sequence.py +90 -0
stepaudio2/flashcosyvoice/modules/__init__.py +0 -0
stepaudio2/flashcosyvoice/modules/flow.py +198 -0
stepaudio2/flashcosyvoice/modules/flow_components/__init__.py +0 -0
stepaudio2/flashcosyvoice/modules/flow_components/estimator.py +974 -0
stepaudio2/flashcosyvoice/modules/flow_components/upsample_encoder.py +998 -0
stepaudio2/flashcosyvoice/modules/hifigan.py +249 -0
stepaudio2/flashcosyvoice/modules/hifigan_components/__init__.py +0 -0
stepaudio2/flashcosyvoice/modules/hifigan_components/layers.py +433 -0
stepaudio2/flashcosyvoice/modules/qwen2.py +92 -0
stepaudio2/flashcosyvoice/modules/qwen2_components/__init__.py +0 -0
stepaudio2/flashcosyvoice/modules/qwen2_components/layers.py +616 -0
stepaudio2/flashcosyvoice/modules/sampler.py +231 -0
stepaudio2/flashcosyvoice/utils/__init__.py +0 -0
stepaudio2/flashcosyvoice/utils/audio.py +77 -0
stepaudio2/flashcosyvoice/utils/context.py +28 -0
stepaudio2/flashcosyvoice/utils/loader.py +116 -0
stepaudio2/flashcosyvoice/utils/memory.py +19 -0
stepaudio2/stepaudio2.py +204 -0
stepaudio2/token2wav.py +248 -0
stepaudio2/utils.py +91 -0

minicpmo_utils-0.1.0.dist-info/METADATA ADDED Viewed

@@ -0,0 +1,72 @@
+Metadata-Version: 2.4
+Name: minicpmo-utils
+Version: 0.1.0
+Summary: Unified utilities package for MiniCPM-o: includes cosyvoice + stepaudio2 and extensible utils.
+Author: MiniCPM-o Utils Maintainers
+License: Apache-2.0
+Keywords: minicpmo,audio,tts,utils,cosyvoice,stepaudio2
+Classifier: Development Status :: 4 - Beta
+Classifier: Intended Audience :: Developers
+Classifier: License :: OSI Approved :: Apache Software License
+Classifier: Programming Language :: Python :: 3
+Classifier: Programming Language :: Python :: 3.10
+Classifier: Programming Language :: Python :: 3.11
+Classifier: Programming Language :: Python :: 3.12
+Requires-Python: >=3.10
+Description-Content-Type: text/markdown
+Requires-Dist: torch>=2.3.0
+Requires-Dist: torchaudio>=2.3.0
+Requires-Dist: transformers>=4.49.0
+Requires-Dist: numpy
+Requires-Dist: hyperpyyaml
+Requires-Dist: modelscope
+Requires-Dist: openai-whisper
+Requires-Dist: tqdm
+Requires-Dist: tiktoken
+Requires-Dist: inflect
+Requires-Dist: omegaconf
+Requires-Dist: einops
+Requires-Dist: librosa
+Requires-Dist: onnxruntime>=1.18.0
+Requires-Dist: diffusers
+Provides-Extra: gpu
+Requires-Dist: onnxruntime-gpu>=1.18.0; sys_platform == "linux" and extra == "gpu"
+## minicpmo-utils
+一个统一安装的工具包（一个 PyPI 分发包），把仓库里的 `cosyvoice` 与 `stepaudio2` 一起打进同一个 wheel，并预留 `minicpmo` 作为后续扩展 utils 的统一入口。
+### 安装方式
+- 从源码本地安装（开发态，可编辑）：
+```bash
+cd minicpmo-utils
+pip install -e .
+```
+- 构建并安装 wheel（推荐分发）：
+```bash
+cd minicpmo-utils
+python -m build        # 生成 dist/*.whl
+pip install dist/minicpmo_utils-0.1.0-py3-none-any.whl
+```
+### 导入方式
+包会暴露以下顶层模块，安装后可直接使用：
+- `import cosyvoice`
+- `import stepaudio2`
+- `import matcha`
+- `import minicpmo`
+也支持通过统一入口导入子包：
+```python
+from minicpmo import cosyvoice, stepaudio2, matcha
+```
+以及通过统一的 utils 入口使用通用工具函数，例如：
+```python
+from minicpmo.utils import get_video_frame_audio_segments
+```

minicpmo_utils-0.1.0.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,148 @@
+cosyvoice/__init__.py,sha256=yXNTKqiEBedjE7e_Qav__IUpv9XfG9-em4yJxmoH5Zs,530
+cosyvoice/bin/average_model.py,sha256=82LeGlvQh8xFHA_T9fJJDBTtDhJ_UzukJJcFRjyjc9Y,3202
+cosyvoice/bin/export_jit.py,sha256=36EvvRkOE621pMqDL3Il69hXdLXsJtSGtDO3_r13nmA,3906
+cosyvoice/bin/export_onnx.py,sha256=nUHWmNTkGMowvHuXI92OR7R6v1doVsDxvxEzP5GWiQk,4661
+cosyvoice/bin/inference_deprecated.py,sha256=d4x-8eER00VwuOEHnObd9kd7cOriv_xbXZOAEXG60fk,6126
+cosyvoice/bin/train.py,sha256=1bpuU0d8fwc5ygrY65FbT9kfWpdZkfsXX83NBkNAMLc,8071
+cosyvoice/cli/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+cosyvoice/cli/cosyvoice.py,sha256=WCNOWg-_CJ-y9HDxL1tFrCirnB2a030jyN5EaELke6s,12808
+cosyvoice/cli/frontend.py,sha256=8z3yYsmjTpi8olTD2DNooPuW0nFnwDKSJIzPETvqv4c,13827
+cosyvoice/cli/model.py,sha256=X3Za8Ak5LEeRUldLalztoSnu6UsCP9WcYQFvu9MDacQ,24008
+cosyvoice/dataset/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+cosyvoice/dataset/dataset.py,sha256=QlINnr5R2kyDQQudr9jqdK_z63VQME2WJo8UBX8sVTo,4804
+cosyvoice/dataset/processor.py,sha256=RBpJ8QlP00_e8qkjEo86h2nBvYcuttNVtp_HIixx-wY,15876
+cosyvoice/flow/decoder.py,sha256=717Oudt_Y93aHVvKa_prKLjqEWVsSx-cEJ0o9lbLvyk,19866
+cosyvoice/flow/flow.py,sha256=qEl_61gzbnVmsfCF0RrP-ctPGiSUmr0sJE-_l8dvm20,12156
+cosyvoice/flow/flow_matching.py,sha256=sa1nH-N_hywDS96PdcwZwbiHWNVON1-itU4UoIit3-Y,10499
+cosyvoice/flow/length_regulator.py,sha256=srvavaBIUN8Mk0Vi35WyN8og-n6P6J0E2bgnqZ1nQRs,3137
+cosyvoice/hifigan/discriminator.py,sha256=PbWxtVhMYAyZbujFPqAhNwqK2cYuP1oo1c8l8Dq5-c8,8617
+cosyvoice/hifigan/f0_predictor.py,sha256=uoymCIodAtYIb-oh0E1p7pgXvdjqICiZgJnLCXGhhmk,2065
+cosyvoice/hifigan/generator.py,sha256=90YB5v6-tBCpYejtiTG0QHTThd7X9vd-6RigKbPUJiY,22754
+cosyvoice/hifigan/hifigan.py,sha256=6QDaL15-wwLbmm6m0rcZkOq9iCPgfllBm32MUt99wNY,3240
+cosyvoice/llm/llm.py,sha256=aYR8ZUgeYrXba-zoS7hONqbCIMsWVlHqt65Ug1uw6uQ,30566
+cosyvoice/tokenizer/tokenizer.py,sha256=lDQPx83ycMaaOutjKQxSQQROIHFOAf6nNvNh-eWlbfI,7456
+cosyvoice/tokenizer/assets/multilingual_zh_ja_yue_char_del.tiktoken,sha256=dHl5Yx6BMZNDaqvP98HCNdN96Al7ccVj7Itjt6UVxxg,907395
+cosyvoice/transformer/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+cosyvoice/transformer/activation.py,sha256=pKlsrqn3sFERKG3l6nYL39-cTlNEj1NCCFfcBKUEQMI,3089
+cosyvoice/transformer/attention.py,sha256=QdJpstXjo5UsClOPRkgK_4Vwdn64joBFLzZ0Ns72KLE,14389
+cosyvoice/transformer/convolution.py,sha256=619B8ySpciXHO5xDCvi7IxvXc4bvGEULsP0yn0aatOE,5230
+cosyvoice/transformer/decoder.py,sha256=2wQscn4OZTrJJHM7H7FeaXkv_YDJ089iJIN0VV1Yocw,16580
+cosyvoice/transformer/decoder_layer.py,sha256=uVZiq3LsawsPUMOhX77PFvrLeG0yO0rKHQY7nCHA1k4,4807
+cosyvoice/transformer/embedding.py,sha256=tQwwvlxmw5yV4NsQFYFMVF_NBiqTbA6nrUwBUIslldw,11777
+cosyvoice/transformer/encoder.py,sha256=J_nXSZcgNy--Z3TQkLif8GPH7PiPk6TXWye7GtspGKU,21434
+cosyvoice/transformer/encoder_layer.py,sha256=GSBYK-LJt894Nee1ORGOweudqPLHEcYlf4WYs3kpUbk,9602
+cosyvoice/transformer/label_smoothing_loss.py,sha256=24gEzxwg4a-_bDPeSDZYmxlH2IF5fQLVB8KoqNT0D90,3459
+cosyvoice/transformer/positionwise_feed_forward.py,sha256=boA447zIyght3KUI-5udQL86uYvrq89clJNdAyMp0Pg,4219
+cosyvoice/transformer/subsampling.py,sha256=MfwDR6hRq8EgXf1M9oCZwMQWWJw-maB7JQ6GMM7OGdA,12666
+cosyvoice/transformer/upsample_encoder.py,sha256=qAA8ISzmRpfOQwAfd2kC7mBpajt-Nzk1R5Ap3Mr31Wk,14149
+cosyvoice/utils/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+cosyvoice/utils/class_utils.py,sha256=ddaXf3V0ME-EZM21DIiVZMpVepmhEkGZGLKYHw6Nz8I,3321
+cosyvoice/utils/common.py,sha256=YWGo2Q176wdm9tLeZ8zONadUr0OTDCivN8TRm2Xu-Jc,6792
+cosyvoice/utils/executor.py,sha256=LqeifOT3xpwno9oy97jBBi1nuyCMZVsJsVeJh6n5vp4,8835
+cosyvoice/utils/file_utils.py,sha256=mV_0mRdhZSTODqVBgopxrjeLGbCWf-VLGVtHfgNcN_8,5461
+cosyvoice/utils/frontend_utils.py,sha256=DQypTgz1GeLRf3LNHcq2yweuoN5I5-eSgmNiKE6hjTA,4273
+cosyvoice/utils/losses.py,sha256=XND3_XjOViLBm7kRZRa3BWmeSMCPIXubiqESfyv5XBA,2121
+cosyvoice/utils/mask.py,sha256=hSxuSxQgGiOKsHY5bbWZwVey7lpaKqzw8nfdzoxkiXY,9728
+cosyvoice/utils/scheduler.py,sha256=lEfquE_Lcer2VG2zUVa0n-UxgvJEdEodyT66so-h6jQ,24920
+cosyvoice/utils/train_utils.py,sha256=yUFlYHUZRtrqQBx7kBJiYPbx2ArtAPKWzAxHQk4vsoo,16581
+cosyvoice/vllm/cosyvoice2.py,sha256=csgta5DvFgOjo_D6lrBPBdc66b5pBAwAfk_6SPTyb4k,4056
+matcha/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+matcha/app.py,sha256=bBOG1VM5L8X64aF8rH4iddu45dje9lmkyr5ubAq_4-4,13992
+matcha/cli.py,sha256=Iw_SITi4QrYGb_HZnxBNZ_ivnZ_zvXSJJEbyQ4clad8,15519
+matcha/train.py,sha256=eKFZFkaSvmdfMNhOAcvp63kp-Wvj_9IE47mAp4sHGxg,4613
+matcha/hifigan/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+matcha/hifigan/config.py,sha256=cxS_YTK_UoO2uma_Ue8QRFtNA6ldSEt1EL36u2-NgCc,779
+matcha/hifigan/denoiser.py,sha256=Q2juI2a3QTqce6fuvqWQnShoV671kVW2JsQyoqwwvLI,2644
+matcha/hifigan/env.py,sha256=QthDmqTWWAIo2tSI-arVteRVxnKUnm9mkjlQVnXbmDc,429
+matcha/hifigan/meldataset.py,sha256=4Ps0NXA3Yv0oV2PyCdHcptc4lZ43tp978m3BM2NYWxc,6786
+matcha/hifigan/models.py,sha256=Ln7J7YzeN4h33tBKQHhlPcoNfmX-_-kwBkTZIYJY5q8,11668
+matcha/hifigan/xutils.py,sha256=aNtYu1SyQaGtbN_NnSfLGhTi-r_y3vYKMIf7EYGaDOA,1396
+matcha/models/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+matcha/models/baselightningmodule.py,sha256=45aD1xV6AunZ7_O6RU6-B0OaUMMNO_gFKUWprs3EfCc,7003
+matcha/models/matcha_tts.py,sha256=zbpw9noGwR_fG9yBKxxtMhmHgnxS7PPE1_ft9KK-jPo,10059
+matcha/models/components/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+matcha/models/components/decoder.py,sha256=fqlKYc08lnA6oQf9zRuC3i8vat4go8X0NLYAUxgXams,14459
+matcha/models/components/flow_matching.py,sha256=pvKy7somAHSdV13ahiTYZNkEIn4qn3ZKbLK4kpBEXmw,4657
+matcha/models/components/text_encoder.py,sha256=QEQynUB7PaBsdlJ-e1TUBAe9rL2LBnmk5bAkr_vCTek,14845
+matcha/models/components/transformer.py,sha256=Zv8gktl0qZslG52OXAi7zszq7fr0HivYrytLx6Vty-o,13237
+matcha/onnx/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+matcha/onnx/export.py,sha256=VUAviRbyh9WhXaxLPQjdQLwaVK_ZZNgaWPMFA2UKh4c,5386
+matcha/onnx/infer.py,sha256=ACgjtfMdvzuU4XmalNLrebmkBD2W8VLcLi8blXnjUmU,6293
+matcha/text/__init__.py,sha256=6dxZsGZ25Fvk4_b72yfA7NVcNInCJLSjpvN9Mc66uBI,1696
+matcha/text/cleaners.py,sha256=t4-wsMBQdJT6J12mHiXME23tmpOi8pmV-GkejDVcNf8,3560
+matcha/text/numbers.py,sha256=Nwp-HmqaqstAELVqqlMu_7bj4qiWQzMXFmw56nBq1h0,2249
+matcha/text/symbols.py,sha256=hw78I8JtBmkri5HiDUQC05i2N9MFkxWJoHujIxJFP1c,635
+matcha/utils/__init__.py,sha256=YNs91rjzeUcVSs3aZjv9thma42I81Jksy9RF3nquvOo,326
+matcha/utils/audio.py,sha256=L3QQZL_MlIXRmkI1ZJbYriTeyAw9bvXKf06Kv7-cYco,2282
+matcha/utils/generate_data_statistics.py,sha256=E5Z9Tpa6ZFXfSLLQcAwhg7YYqBgLZDkIqBoGoOZhEjA,3269
+matcha/utils/instantiators.py,sha256=QxqOnRVabCSeurpPODXqh3JSZ-E7m8jKSsxy1WvTX-I,1828
+matcha/utils/logging_utils.py,sha256=glOI_JG8_YBKHWwD5RRKKkCez3N7DJlH27Vz48yAEtU,1711
+matcha/utils/model.py,sha256=UViKHaV89_IeaKJFww1xHV_RTXqv0YvfQWqwOtnzQ-I,2935
+matcha/utils/pylogger.py,sha256=YbC8Ym5HZrJcDBIsQO6jSnuyY5CLZQR13E_oAS9SYZQ,720
+matcha/utils/rich_utils.py,sha256=Oj5jrkz5s1b3RJL6m_8EXj85LY079FWClMIzf_Gwvcc,3279
+matcha/utils/utils.py,sha256=-XaKibvqf6mXCoGPkNcFKB8Ynq_bK6_S8-ntUhSR1WE,7159
+matcha/utils/monotonic_align/__init__.py,sha256=_s_INV7vL_N9mhYtZADAk11CsSGP8kykn0fEyyM73ts,646
+matcha/utils/monotonic_align/setup.py,sha256=bf0d0cvGRaACC22qq0sqgZEBBhz4qzDlMqBxOyTKC2g,207
+minicpmo/__init__.py,sha256=wyo8jLG2ATqFcTUrcTcvIzzaf37AYcbHdOAK15PLTjE,556
+minicpmo/utils.py,sha256=XJ717gRjAto7KytP8LFiwBfyFaom6fYtVG9oOMOKkiw,22445
+minicpmo/version.py,sha256=p4MxVO8ih2-hnh7INVBkrqMKBDGTkMso1LEbM6mx3jg,23
+s3tokenizer/__init__.py,sha256=8fg7P72mJjjvkyieA6Y2thBj2eNV_9hBxJp8aW3gcVg,5048
+s3tokenizer/cli.py,sha256=qUUA-5Ro-ILeQd-6YXVuItpYikEdaphIUfabpUTlIh4,5942
+s3tokenizer/model.py,sha256=v-DfJg11h9ztX1gHlUOLcpx9xq4ZZT5aqHOKNtG7Hzw,19542
+s3tokenizer/model_v2.py,sha256=x3hNCIT4UaHb715HojZ3AbEBy-wcPDWR-EohJiY4Aw0,21806
+s3tokenizer/utils.py,sha256=baAg5C7yi0AZx7caF0hJBU-pkj3coMPKM8QrLqgk-9k,14140
+s3tokenizer/assets/BAC009S0764W0121.wav,sha256=RtvJmMnR1IERJnxAdB3TIA8uW89AdfjEyX9EURYNzlA,134570
+s3tokenizer/assets/BAC009S0764W0122.wav,sha256=V2DHrOCSOkmfYF03MBHHqvZY4wSgmZpJPGNmnHVjhOE,131724
+s3tokenizer/assets/mel_filters.npz,sha256=dFCucHI6XvnTQePO5ijHywF382zkLES37SvzMl8PbUw,4271
+stepaudio2/__init__.py,sha256=ahfLETm7fp_A320ERK6j2xT4nTyecy8OA8Z-syVLuQQ,1547
+stepaudio2/stepaudio2.py,sha256=hf1EZl5odF8wFqs0VqC-B_DBioHrfpzWgZN501o1-YA,9265
+stepaudio2/token2wav.py,sha256=eAhDCCXjf9R7F5TsNfbNP5Se256Kqq9gKIrKFh0I5qE,11642
+stepaudio2/utils.py,sha256=p83TqxnLAu2OyAq3eCnESlkbU9kkNdH5Tnh1Da-J7Fg,3384
+stepaudio2/cosyvoice2/__init__.py,sha256=VFv7gYSAXPuP6d6arx-EqTy8W1WbPM4lGmdmPENMWT8,44
+stepaudio2/cosyvoice2/flow/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+stepaudio2/cosyvoice2/flow/decoder_dit.py,sha256=eQxV2JjZLI2HSWHltHtfnU3VwGfsIMpepmgzsyzisV0,22418
+stepaudio2/cosyvoice2/flow/flow.py,sha256=-zF1KSmD8PouUvJ6Bg_V_2RwwotBXbqFjE_oALoXJ4Q,8284
+stepaudio2/cosyvoice2/flow/flow_matching.py,sha256=CdXiwC78e2ViEre35wP2pVxlz6Xvtmv8bEcHrfuRYOM,8385
+stepaudio2/cosyvoice2/transformer/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+stepaudio2/cosyvoice2/transformer/attention.py,sha256=Yy3xmqfnEjE9DxsGeJ7NKKh5YLu7nsLSLcCgmieUo90,14314
+stepaudio2/cosyvoice2/transformer/embedding.py,sha256=2xDZKyM0P26YG2ZBevr-G3ZkyVukZEKjetho0yobSo4,4766
+stepaudio2/cosyvoice2/transformer/encoder_layer.py,sha256=3lRTqu3m7KhJJhqc6B4M5Oqgvakz3junmX2TTYtVXEE,6838
+stepaudio2/cosyvoice2/transformer/positionwise_feed_forward.py,sha256=r49V1dFDxbnGocDqCO-B8OXhb3Z4oykhRD5DmBMghAo,1887
+stepaudio2/cosyvoice2/transformer/subsampling.py,sha256=uFjanKdf855iAlq3sv4YhpbOQoInRI2Q7xADLIfIFqc,2529
+stepaudio2/cosyvoice2/transformer/upsample_encoder_v2.py,sha256=YVqzOMmNj1-GqJCbDXzzX6XS_WgZD2laYF8LIuNgbAQ,18854
+stepaudio2/cosyvoice2/utils/__init__.py,sha256=J3q6oPwKcQzvgZAdW8pZ58wpCRgx73ZDa12YdsggeTw,35
+stepaudio2/cosyvoice2/utils/class_utils.py,sha256=dGLa5anz6qeHKMAcPMh_z2gNGp2SuFLbjT30YN5gGp0,1377
+stepaudio2/cosyvoice2/utils/common.py,sha256=WIuAd4n0cGwwk1NyD0oeU1oK-5csW76kXL-xz1graII,3334
+stepaudio2/cosyvoice2/utils/mask.py,sha256=CkCYG5pGBHLH-Fdt5fEeQqnc3ytXFYA5g3dhsD5RtpY,1703
+stepaudio2/flashcosyvoice/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+stepaudio2/flashcosyvoice/cli.py,sha256=eSDEAFtGbgUv91vTzx4KXFRfAtx6eIgXg_5Ut3EtxUs,19863
+stepaudio2/flashcosyvoice/config.py,sha256=4VoEScKra4qgHxbcFuTycYAPMYYijt-Jjf6GEeKzCdU,2619
+stepaudio2/flashcosyvoice/cosyvoice2.py,sha256=7t2pRvJRxxVHrLRAOMMXwQjsOTHnxnHGGG3ciBk6xmk,7729
+stepaudio2/flashcosyvoice/cosyvoice3.py,sha256=UMxsD-RBudOyiUc4zLNwveluKfwwP4AcrrDOWRrSXLk,57
+stepaudio2/flashcosyvoice/engine/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+stepaudio2/flashcosyvoice/engine/block_manager.py,sha256=Q6Fd3GbUwYlXUJlFdjVh_t682C0N0yCAjUVSrAeQb3w,4027
+stepaudio2/flashcosyvoice/engine/llm_engine.py,sha256=j16UKgoPVxmO-f4oMQ4cR6CxmR4OqRQvlHjm2GFnhHM,5430
+stepaudio2/flashcosyvoice/engine/model_runner.py,sha256=fzYoPoUkcr1epAtaDeKVTTypWTcpkDj87MD4-f88opU,14036
+stepaudio2/flashcosyvoice/engine/scheduler.py,sha256=4o8M0XhFCrkaFtoGQHgz0BitYA_YpZP_mvTrfo0PwM4,3134
+stepaudio2/flashcosyvoice/engine/sequence.py,sha256=pwYdtCST9ZHqxPK62JCPRxt-G885nAbYh26oOuLHuao,2835
+stepaudio2/flashcosyvoice/modules/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+stepaudio2/flashcosyvoice/modules/flow.py,sha256=INAXZTIkGCxdosq7LBSNxb6BNQmWqDGyQV2Xshh228s,8292
+stepaudio2/flashcosyvoice/modules/hifigan.py,sha256=5wrEedjKzE8D6m1JNcaKxyLkvH2cgI0tBbU_1OWFzoo,9991
+stepaudio2/flashcosyvoice/modules/qwen2.py,sha256=L4Kx5s0SdqUmOYv6X6UCkcbRIctG3Dl8IPCNmiuB0Y0,3346
+stepaudio2/flashcosyvoice/modules/sampler.py,sha256=xhRQW6yP9e5mHjY8npypwZY1oe9mZ5CLH_IG5Oz1EAw,10914
+stepaudio2/flashcosyvoice/modules/flow_components/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+stepaudio2/flashcosyvoice/modules/flow_components/estimator.py,sha256=N7DmynOzkItXY2jTZl6eqaSH5IsXlkumpDxyOP-__5g,38148
+stepaudio2/flashcosyvoice/modules/flow_components/upsample_encoder.py,sha256=B2G2NM9xPeIx6r3v8n6Y49qh07PGBo55YZajL_m1Xjw,41265
+stepaudio2/flashcosyvoice/modules/hifigan_components/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+stepaudio2/flashcosyvoice/modules/hifigan_components/layers.py,sha256=jEb8ZuPZZ6Q2Nx5CKBrmCkAeTLR-Hlw7k1qxuUJ4kD0,16353
+stepaudio2/flashcosyvoice/modules/qwen2_components/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+stepaudio2/flashcosyvoice/modules/qwen2_components/layers.py,sha256=34Z0U3Qus11b6iE8I-k42lGq0lHz0KYDnVjUt6f0f84,21366
+stepaudio2/flashcosyvoice/utils/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+stepaudio2/flashcosyvoice/utils/audio.py,sha256=afxVAIkV_QliIzAwyOW1QygyjZxBUXjLwz4rSCbBs-c,2162
+stepaudio2/flashcosyvoice/utils/context.py,sha256=y_u92r100Wp7xjs4tQd70eB00iaqUOa92qkb5sw-8ho,821
+stepaudio2/flashcosyvoice/utils/loader.py,sha256=ETQwg7E6HxndH-hWSwTcSg2Q2MWrPDTEZtb2ebZaxS0,6030
+stepaudio2/flashcosyvoice/utils/memory.py,sha256=ciip3CEUfiSGe6qOFOfsYsGi6yYFcNcZVoAjnABVp28,597
+minicpmo_utils-0.1.0.dist-info/METADATA,sha256=dVIxQpW56luyHDeDXMrGMnyKNgUo9VBEo61Zi1a5YCA,2120
+minicpmo_utils-0.1.0.dist-info/WHEEL,sha256=wUyA8OaulRlbfwMtmQsvNngGrxQHAvkKcvRmdizlJi0,92
+minicpmo_utils-0.1.0.dist-info/top_level.txt,sha256=yIeAnGCB_ihapVKakC0wqRtAwCjezcDPCC-z6Vjlt0s,49
+minicpmo_utils-0.1.0.dist-info/RECORD,,

minicpmo_utils-0.1.0.dist-info/WHEEL ADDED Viewed

@@ -0,0 +1,5 @@
+Wheel-Version: 1.0
+Generator: setuptools (80.10.2)
+Root-Is-Purelib: true
+Tag: py3-none-any

minicpmo_utils-0.1.0.dist-info/top_level.txt ADDED Viewed

@@ -0,0 +1,5 @@
+cosyvoice
+matcha
+minicpmo
+s3tokenizer
+stepaudio2

s3tokenizer/__init__.py ADDED Viewed

@@ -0,0 +1,153 @@
+# Copyright (c) 2023 OpenAI. (authors: Whisper Team)
+#               2024 Tsinghua Univ. (authors: Xingchen Song)
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Modified from
+    https://github.com/openai/whisper/blob/main/whisper/__init__.py
+"""
+import hashlib
+import os
+import urllib
+import warnings
+from typing import List, Union
+from tqdm import tqdm
+from s3tokenizer.model_v2 import S3TokenizerV2
+from .model import S3Tokenizer
+from .utils import (load_audio, log_mel_spectrogram, make_non_pad_mask,
+                    mask_to_bias, onnx2torch, padding, merge_tokenized_segments)
+__all__ = [
+    'load_audio', 'log_mel_spectrogram', 'make_non_pad_mask', 'mask_to_bias',
+    'onnx2torch', 'padding', 'merge_tokenized_segments'
+]
+_MODELS = {
+    "speech_tokenizer_v1":
+    "https://www.modelscope.cn/models/iic/cosyvoice-300m/"
+    "resolve/master/speech_tokenizer_v1.onnx",
+    "speech_tokenizer_v1_25hz":
+    "https://www.modelscope.cn/models/iic/CosyVoice-300M-25Hz/"
+    "resolve/master/speech_tokenizer_v1.onnx",
+    "speech_tokenizer_v2_25hz":
+    "https://www.modelscope.cn/models/iic/CosyVoice2-0.5B/"
+    "resolve/master/speech_tokenizer_v2.onnx",
+}
+_SHA256S = {
+    "speech_tokenizer_v1":
+    "23b5a723ed9143aebfd9ffda14ac4c21231f31c35ef837b6a13bb9e5488abb1e",
+    "speech_tokenizer_v1_25hz":
+    "56285ddd4a83e883ee0cb9f8d69c1089b53a94b1f78ff7e4a0224a27eb4cb486",
+    "speech_tokenizer_v2_25hz":
+    "d43342aa12163a80bf07bffb94c9de2e120a8df2f9917cd2f642e7f4219c6f71",
+}
+def _download(name: str, root: str) -> Union[bytes, str]:
+    os.makedirs(root, exist_ok=True)
+    expected_sha256 = _SHA256S[name]
+    url = _MODELS[name]
+    download_target = os.path.join(root, f"{name}.onnx")
+    if os.path.exists(download_target) and not os.path.isfile(download_target):
+        raise RuntimeError(
+            f"{download_target} exists and is not a regular file")
+    if os.path.isfile(download_target):
+        with open(download_target, "rb") as f:
+            model_bytes = f.read()
+        if hashlib.sha256(model_bytes).hexdigest() == expected_sha256:
+            return download_target
+        else:
+            warnings.warn(
+                f"{download_target} exists, but the SHA256 checksum does not"
+                " match; re-downloading the file")
+    with urllib.request.urlopen(url) as source, open(download_target,
+                                                     "wb") as output:
+        with tqdm(
+                total=int(source.info().get("Content-Length")),
+                ncols=80,
+                unit="iB",
+                unit_scale=True,
+                unit_divisor=1024,
+                desc="Downloading onnx checkpoint",
+        ) as loop:
+            while True:
+                buffer = source.read(8192)
+                if not buffer:
+                    break
+                output.write(buffer)
+                loop.update(len(buffer))
+    model_bytes = open(download_target, "rb").read()
+    if hashlib.sha256(model_bytes).hexdigest() != expected_sha256:
+        raise RuntimeError(
+            "Model has been downloaded but the SHA256 checksum does not not"
+            " match. Please retry loading the model.")
+    return download_target
+def available_models() -> List[str]:
+    """Returns the names of available models"""
+    return list(_MODELS.keys())
+def load_model(
+    name: str,
+    download_root: str = None,
+) -> S3Tokenizer:
+    """
+    Load a S3Tokenizer ASR model
+    Parameters
+    ----------
+    name : str
+        one of the official model names listed by
+        `s3tokenizer.available_models()`, or path to a model checkpoint
+         containing the model dimensions and the model state_dict.
+    download_root: str
+        path to download the model files; by default,
+        it uses "~/.cache/s3tokenizer"
+    Returns
+    -------
+    model : S3Tokenizer
+        The S3Tokenizer model instance
+    """
+    if download_root is None:
+        default = os.path.join(os.path.expanduser("~"), ".cache")
+        download_root = os.path.join(os.getenv("XDG_CACHE_HOME", default),
+                                     "s3tokenizer")
+    if name in _MODELS:
+        checkpoint_file = _download(name, download_root)
+    elif os.path.isfile(name):
+        checkpoint_file = name
+    else:
+        raise RuntimeError(
+            f"Model {name} not found; available models = {available_models()}")
+    if 'v2' in name:
+        model = S3TokenizerV2(name)
+    else:
+        model = S3Tokenizer(name)
+    model.init_from_onnx(checkpoint_file)
+    return model

s3tokenizer/assets/BAC009S0764W0121.wav ADDED Viewed

Binary file

s3tokenizer/assets/BAC009S0764W0122.wav ADDED Viewed

Binary file

s3tokenizer/assets/mel_filters.npz ADDED Viewed

Binary file

s3tokenizer/cli.py ADDED Viewed

@@ -0,0 +1,183 @@
+# Copyright (c) 2024 Tsinghua Univ. (authors: Xingchen Song)
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+""" Example Usage
+cpu:
+s3tokenizer --wav_scp xxx.scp \
+            --device "cpu" \
+            --output_dir "./" \
+            --batch_size 32
+gpu:
+torchrun --nproc_per_node=8 --nnodes=1 \
+     --rdzv_id=2024 --rdzv_backend="c10d" --rdzv_endpoint="localhost:0" \
+    `which s3tokenizer` --wav_scp xxx.scp \
+                --device "cuda" \
+                --output_dir "./" \
+                --batch_size 32
+"""
+import argparse
+import json
+import os
+import torch
+import torch.distributed as dist
+from torch.utils.data import DataLoader, Dataset, DistributedSampler
+from tqdm import tqdm
+import s3tokenizer
+class AudioDataset(Dataset):
+    def __init__(self, wav_scp):
+        self.data = []
+        self.keys = []
+        with open(wav_scp, 'r', encoding='utf-8') as f:
+            for line in f:
+                key, file_path = line.strip().split()
+                self.data.append(file_path)
+                self.keys.append(key)
+    def __len__(self):
+        return len(self.data)
+    def __getitem__(self, idx):
+        file_path = self.data[idx]
+        key = self.keys[idx]
+        audio = s3tokenizer.load_audio(file_path)
+        mel = s3tokenizer.log_mel_spectrogram(audio)
+        return key, mel
+def collate_fn(batch):
+    keys = [item[0] for item in batch]
+    mels = [item[1] for item in batch]
+    mels, mels_lens = s3tokenizer.padding(mels)
+    return keys, mels, mels_lens
+def init_distributed():
+    world_size = int(os.environ.get('WORLD_SIZE', 1))
+    local_rank = int(os.environ.get('LOCAL_RANK', 0))
+    rank = int(os.environ.get('RANK', 0))
+    print('Inference on multiple gpus, this gpu {}'.format(local_rank) +
+          ', rank {}, world_size {}'.format(rank, world_size))
+    torch.cuda.set_device(local_rank)
+    dist.init_process_group("nccl")
+    return world_size, local_rank, rank
+def get_args():
+    parser = argparse.ArgumentParser(description='extract speech code')
+    parser.add_argument('--model',
+                        required=True,
+                        type=str,
+                        choices=[
+                            "speech_tokenizer_v1", "speech_tokenizer_v1_25hz",
+                            "speech_tokenizer_v2_25hz"
+                        ],
+                        help='model version')
+    parser.add_argument('--wav_scp',
+                        required=True,
+                        type=str,
+                        help='each line contains `wav_name wav_path`')
+    parser.add_argument('--device',
+                        required=True,
+                        type=str,
+                        choices=["cuda", "cpu"],
+                        help='device for inference')
+    parser.add_argument('--output_dir',
+                        required=True,
+                        type=str,
+                        help='dir to save result')
+    parser.add_argument('--batch_size',
+                        required=True,
+                        type=int,
+                        help='batch size (per-device) for inference')
+    parser.add_argument('--num_workers',
+                        type=int,
+                        default=4,
+                        help='workers for dataloader')
+    parser.add_argument('--prefetch',
+                        type=int,
+                        default=5,
+                        help='prefetch for dataloader')
+    args = parser.parse_args()
+    return args
+def main():
+    args = get_args()
+    os.makedirs(args.output_dir, exist_ok=True)
+    if args.device == "cuda":
+        assert (torch.cuda.is_available())
+        world_size, local_rank, rank = init_distributed()
+    else:
+        world_size, local_rank, rank = 1, 0, 0
+    device = torch.device(args.device)
+    model = s3tokenizer.load_model(args.model).to(device)
+    dataset = AudioDataset(args.wav_scp)
+    if args.device == "cuda":
+        model = torch.nn.parallel.DistributedDataParallel(
+            model, device_ids=[local_rank])
+        sampler = DistributedSampler(dataset,
+                                     num_replicas=world_size,
+                                     rank=rank)
+    else:
+        sampler = None
+    dataloader = DataLoader(dataset,
+                            batch_size=args.batch_size,
+                            sampler=sampler,
+                            shuffle=False,
+                            num_workers=args.num_workers,
+                            prefetch_factor=args.prefetch,
+                            collate_fn=collate_fn)
+    total_steps = len(dataset)
+    if rank == 0:
+        progress_bar = tqdm(total=total_steps, desc="Processing", unit="wavs")
+    writer = open(f"{args.output_dir}/part_{rank + 1}_of_{world_size}", "w")
+    for keys, mels, mels_lens in dataloader:
+        codes, codes_lens = model(mels.to(device), mels_lens.to(device))
+        for i, k in enumerate(keys):
+            code = codes[i, :codes_lens[i].item()].tolist()
+            writer.write(
+                json.dumps({
+                    "key": k,
+                    "code": code
+                }, ensure_ascii=False) + "\n")
+        if rank == 0:
+            progress_bar.update(world_size * len(keys))
+    if rank == 0:
+        progress_bar.close()
+    writer.close()
+    if args.device == "cuda":
+        dist.barrier()
+        dist.destroy_process_group()
+if __name__ == "__main__":
+    main()