阿里通义开源Fun-CosyVoice3-0.5B 提供零样本音色克隆能力

凤凰网科技讯 12月15日，阿里通义宣布开源Fun-CosyVoice3-0.5B，该版本提供了zero-shot（注：零样本）音色克隆能力，只需要你提供一段3秒以上的参考音频，即可复刻其音色并合成新语音，并且支持本地部署和二次开发。

此外，通义推出轻量化版本Fun-ASR-Nano模型，总参数量压缩到0.8B，推理成本更低，现已开源，支持本地部署与定制化微调。

值得一提的是，通义还增强了Fun-ASR模型，噪声场景准确率93%、支持歌词与说唱识别。

本文转自：凤凰网科技

原文地址： https://tech.ifeng.com/c/8p6hBddgWJU

搜索一下