前沿技术|FunAudioLLM-SenseVoice+CosyVoice-论文阅读笔记

前言：

我一直认为TTS或者端到端S2S，都离不开一个好的ASR模型。
前几天试了一下阿里通义语音团队开源的SenseVoice，发现这个音频识别效果（ASR）还挺好的。
我试了几个B站的视频，可以出一些有意思的结果：
视频链接：https://www.bilibili.com/video/BV1m1421b77q
它竟然还有BGM的占位，以及会加表情包。但肉眼可见的错误还是有的

这里的错误有：从衣怒开始，就识别错了，因为这部分插入的是一段日语。但后面的内容都还好。

但我估计，它这里用来训练的三十万小时视频中，包含了B站的视频，没道理我能拿到，阿里拿不到。

为了提高一下特定领域的识别效果，最好的还是加热词（关键词术语库），或者是微调一下模型。所以，我准备看看Sense voice的论文，看看它到底是个什么东西。

翻开FunAudioLLM全家桶，发现他们是把asr的sensevoice和tts的CosyVoice放一起介绍了。
一个负责听，一个负责说，破开了模型**“聋/哑”**的困局，还是非常有价值的工作。

另外，在他们的工作中表明，这两个部分，确实是可以互相促进的。利用SenseVoice-Large 这个更加精准的大号模型，来为CosyVoice做“有监督的语义语音标记器”，可以提高模型对数据的鲁棒性和上下文语义关系。

另外，在文章最后的展望中，他们还提到一点，CosyVoice这样的一个语音生成器，也能为SenseVoice提供“更高多样性的”音频样本，也能显著提高SenseVoice的能力，并且在他们的实验中表明，**“训练音频文件的多样性”**可能比音频文件的长度更重要，当然，这个多样性的评价标准，我目前没有看到一个标准的量化规则。

他们内部应该已经开始利用这样一套完整的管线，来生成对应的端到端speech to speech方案了，不知道还有没有机会看到开源版本。

哎，作为没啥资源的小白，还是先老老实实，好好学习他们开源的小号模型，看看这条路该怎么走。

虽然，看到他们论文中，非常多的内部数据处理工具，以及没有开源的数据集，看着就非常绝望。

摘要的人话总结：

这个报告介绍了FunAudioLLM，一个旨在增强人类与大型语言模型（LLMs）之间自然语音交互的模型家族。其核心包含两个创新模型： SenseVoice，处理多语言语音识别、情感识别和音频事件检测；以及CosyVoice，促进自然语音生成，可控制多种语言、音色、说话风格和说话者身份。

SenseVoice-Small为5种语言提供了极低延迟的自动语音识别（ASR）
SenseVoice-Large支持超过50种语言的高精度ASR（目前还没有开源）。
CosyVoice在多语言语音生成、零样本（zero-shot）上下文学习、跨语言语音克隆和遵循指令的能力方面表现出色。

与SenseVoice和CosyVoice相关的模型已在Modelscope和Huggingface上开源，并在GitHub上发布了相应的训练、推断和微调代码。通过将这些模型与LLMs整合， FunAudioLLM使得语音对语音翻译、情感语音聊天、互动播客和富有表现力的有声书叙述等应用成为可能，从而推动了语音交互技术的边界。

introduction就不介绍了，没什么特别的信息量，重要性我在前言里基本上也都提到了。
我个人认为，语音这部分内容，是比图像生成，更有意思的工作，能让agent听懂我的话，以及开口跟我说话，不是太酷了么？手动狗头
后面，我只列出，我认为有价值的内容，并且努力将这些信息串起来。

FunAudioLLM

大小号的模型功能定位不一样，有点像gpt4和3.5的区别。一个是大力出奇迹的，比较慢的大号，一个是推理速度快，成本低的小号。具体到这里：

SenseVoice-Small在推理时高效，识别延迟低于80毫秒，分别比WhisperSmall和Whisper-large快5倍和15倍。训练时长30万小时，中英粤日韩五种语言。
SenseVoice-Large支持超过50种语言的高精度自动语音识别(ASR)。在small的基础上，增加了10万其他45种语言。
CosyVoice能够生成多语言语音，训练时长超过17万小时，并涵盖中文(ZH)、英语(EN)、日语(JP)、粤语(Yue)和韩语(KO)五种语言。CosyVoice生成的样本可以实现低于2%的词错误率(WER)和超过75%的说话者相似性，达到了与人类相当的质量水平。 CosyVoice支持零样本(zero-shot)上下文学习，能够在仅有3秒的提示语音下实现语音克隆。音色、情感、韵律和风格可以在语言间或语言内被重现。我们还发布了一个指令模型，能够通过自然语言说明控制说话者身份、说话风格（例如情感）及其他细粒度的超语言特征。

图 6: 跨语言的SenseVoice训练数据小时数（以对数刻度表示）。

在这里插入图片描述

Voice Understanding Model: SenseVoice

SenseVoice 是一个具备多种语音理解能力的语音基础模型，包括自动语音识别（Automatic Speech Recognition，ASR）、口语语言识别（Language Identification, LID）、语音情感识别（Speech Emotion Recognition, SER）以及音频事件分类（Audio Event Classification, AEC）或音频事件检测（Audio Event Detection, AED）。为了适应不同的需求，提出了两种具有不同规模和架构的模型：SenseVoice-Small，一个仅包含编码器的语音基础模型，用于快速语音理解，以及 SenseVoice-Large，一个编码器-解码器 (Vaswani et al., 2017) 的语音基础模型，旨在提供更准确的语音理解，并支持更多语言，如图 2 所示。
注意！大小号模型的结构并不一样！

SenseVoice-Small

SenseVoice-Small 是一个非自回归的仅含编码器的模型，用于多语言多风格的 ASR 和多个语音理解任务。在给定输入波形后，我们首先计算 80 维的对数梅尔滤波器组，然后堆叠连续帧，将其下采样一个因子为6（这里我没看懂，但这部分应该是图2中的特征提取模块）。提取的特征被映射到编码器的维度 D，表示为 $X_{speech} ∈ R^{T ×D}$ ，其中 T 是下采样特征的长度。编码器被实现为一个配备内存的自注意力网络（SAN-M） (Gao et al., 2020)。为了指定任务类型，我们在语音特征前添加四个嵌入标志，然后将其作为编码器的输入：
在这里插入图片描述
这部分内容太难敲了，大家凑活看吧

我也没太懂这个0.8的概率是什么操作，类似于Mask？感觉不自己炼一炉，是体会不到的

SenseVoice-Large

SenseVoice-Large 是一个用于多语言 ASR 和多种语音理解任务的自回归编码器-解码器模型。类似于 Whisper (Radford et al., 2023)，SenseVoice-Large 通过一系列输入标记（Token）来指定任务。具体来说，我们通过分别包含 ⟨LID⟩、⟨SER⟩、⟨AED⟩ 标记（Token）来指定是否预测语言、语音情感和带时间戳的音频事件。与 SenseVoice-Small 相比，SenseVoice-Large 的优势在于转录准确率和支持大量语言（50+）。

从表1中可以看出来，大家都不是非常准。但sensevoice系列会有一些事件的占位符，输出粒度更精细一些。

表 1: Whisper、SenseVoice-S、SenseVoice-L 的转录示例以及真实值 (ground truth)。

Semantic Speech Tokenizer（语义语音标记器）

这里就是asr对tts的作用了。下面是直接复制的论文翻译。

一个语音标记器将语音信号转换为离散标记（Token），使得其能够被自回归transformer（转换器）建模和预测以进行语音生成。我们的初步实验表明，语音标记器的选择对于整体系统性能以及数据质量和数量的需求至关重要。我们评估了三类语音标记器：1) 基于余量量化的标记器，如SoundStream (Zeghidour et al., 2022)、Encodec (Defossez et al., 2022) ´ 和FunCodec (Du et al., 2024b)；2) 利用多组量化的标记器，如HifiCodec (Yang et al., 2023)；以及3) “语义”语音标记，特别是HuBERT(Hsu et al., 2021)。以上所有标记器都以无监督或自监督的方式进行训练。因此，它们与语义内容的关联往往较为微弱，导致合成过程不稳定，并对干净训练数据的需求较高。此外，无监督标记器对数据噪声敏感，需要精心策划的干净数据集。

基于SenseVoice模型的成功，我们引入了一种监督语义语音标记器，记作S3 (Du et al., 2024a)。我们以预训练的SenseVoice-Large模型为基础，在编码器的前六层后整合了一个向量量化器，如图3所示。重要的是，量化后增加的位置信息嵌入增强了时间信息。 Encoder1与向量量化器的组合被视为语音标记器，采用最接近的代码向量的索引作为语音标记（Token）。向量量化器使用一个包含4,096个条目的大型词典的单一代码本。所获得的标记（Token）序列的频率为50 Hz，从而减少了语言模型中从文本到标记生成的计算负担。

由于语音标记器经过训练以最小化端到端丰富文本的识别错误，提取的标记（Token）与文本和超语言信息具有较强的语义关系。此外，我们的S3标记器受益于监督训练，提高了其对数据噪声的鲁棒性，并减少了对干净数据采集的依赖。因此，可以利用更广泛的数据进行模型训练。

在这里插入图片描述

Voice Generation Model: CosyVoice

CosyVoice，一类基础语音生成模型 (Du et al., 2024a)，利用 S3 标记（Token）合成适用于各种应用的自然声音。作为一个多功能模型，CosyVoice 在生成针对特定说话者的多语言声音、在没有训练的情况下适应新说话者（零样本（zero-shot）上下文学习）、跨语言复制声音（跨语言声音克隆）、创造情感共鸣的声音以及通过指令文本对语音输出进行细致影响等任务中表现出色。CosyVoice 支持五种语言，包括中文（ZH）、英语（EN）、日语（JP）、粤语（Yue）和韩语（KO）。我们发布了三个开源模型。

第一个，CosyVoice-base-300M，在准确表示说话者身份、无需任何微调适应上下文以及跨语言克隆声音方面表现优异
第二个，CosyVoice-instruct-300M，擅长生成情感丰富的声音，并允许通过指令文本进行细致调整。
最后，CosyVoice-sft-300M 在七个多语言说话者上进行了微调，并准备立即部署。

它们都共享相同的模型架构和学习框架。与其他开源项目相比，CosyVoice 发布了最广泛的支持特性，如表 2 所示：
在这里插入图片描述

System Overview of CosyVoice

CosyVoice 结合了一个自回归 transformer（transformer）基础的语言模型（模型）来为输入文本生成语音标记（Token）。一个基于常微分方程（ODE-based）扩散模型，通过流对齐 (Lipman et al., 2023) 从生成的标记（Token）中重建 Mel 谱。随后，采用基于 HiFTNet 的声码器 (Li et al., 2023) 从重建的 Mel 谱合成波形。虚线模型在某些应用中是可选的，例如跨语言克隆和说话者微调推理。

这个跨语言还挺有意思的，非常适合英语视频翻译

CosyVoice Model Training

在训练阶段，自回归语言模型（LM）使用教师强迫（teacher-forcing）范式进行训练。在此过程中，标记（Token）化的文本和语音标记的左移版本作为输入，以预测后续的语音标记。

听fish-speech的作者说，这些模型架构差别都不太大，我得多看几个才行

流匹配（Flow-Matching）模型被开发用于估计条件概率 P(S|X, v, Sref)，其中 X 和 v 分别表示语音标记和说话人嵌入 (Wang et al., 2023b)。S 和 Sref 分别表示目标语音和参考语音的梅尔谱（Mel spectrum）。使用卷积transformer U-Net (Mehta et al., 2023) 来确定先验分布与所需分布之间的向量场，该分布源自最优传输常微分方程（optimal transport ODE）。解决OT-ODE的简单性质在推理阶段显著减少了迭代次数，通常只需五到十次迭代便可生成令人满意的梅尔谱。我们还采用了无分类器引导（classifier-free guidance, CFG） (Ho & Salimans, 2022) 技术，并掩盖70%∼100%的进行特征条件，以增强上下文学习能力。

为了从预测的梅尔谱合成波形，我们利用基于HiFTNet的声码器 (Li et al., 2023)。对HiFTNet进行了修改以支持流式生成，包括对某些组件的替换和重新设计。有关这些调整的完整细节，请参见我们发布的代码。

前几天看了冷月的EVA-GAN，发现大家都有在做自己的高质量声码器，新手想攒一套管线太难了。

Zero-shot In-context Learning

CosyVoice 模型（model）展现出零样本（zero-shot）上下文学习能力，只需简短的参考语音样本即可复制任意声音。该过程涉及为标记（Token）语言模型（LM）精心构建输入序列，如图 5 所示。对于同一语言的提示语音和输入文本，我们将它们合并以形成统一输入，将提示语音标记视为预生成的。利用这个输入序列，自回归 LM 迭代预测后续标记（Token），直到遇到“序列结束”标记 E 为止。然而，当提示语音和输入文本在语言上存在差异时，我们省略与提示相关的文本和标记，以防原语言的韵律特征影响目标语言。需要注意的是，对应于提示语音内容的提示文本可以通过人工注释或自动语音识别（ASR）模型进行转录，例如 SenseVoice。与提示文本类似，提示标记（Token）是通过 S3 标记器从提示语音中提取的。

在生成语音标记（Token）后，它们被附加到提示标记之后，形成流匹配模型的复合条件。此外，还纳入了提示语音的说话者嵌入和 Mel 声谱图，以进一步增强音色和环境一致性。

Instruction Fine-tuning

为了进一步增强CosyVoice的可控性，我们实验性地集成了额外的指令微调(Ji et al., 2023)。 CosyVoice-instruct在CosyVoice-base的基础上扩展了增强的指令跟随能力。具体而言，它支持对多个方面的可控性，例如说话者身份（即说话者的特征）、说话风格（包括情感、性别、语速和音高）以及细粒度的旁语特征。这些特征包括插入笑声、呼吸、在笑声中说话以及强调某些词的能力。表3展示了一些说话者身份、说话风格和细粒度旁语特征的示例。
这个细粒度的标注，也是非常令人羡慕了

Training Set for CosyVoice

为了训练CosyVoice模型，我们汇集了一个涵盖多种语言的庞大数据集。在收集过程中，我们使用专门的内部工具进行语音检测、信噪比（SNR）估计、说话人分离和分段。随后，使用SenseVoice-Large和Paraformer生成伪文本标签。这些标签经过强制对齐（FA）模型的辅助处理，帮助去除低质量数据并提高标点符号的准确性。训练数据在不同语言中持续时间的详细分解见表4。

这里的内部管线，羡慕的已经说不出话了。

在这里插入图片描述

对于CosyVoice-instruct模型，我们使用指令训练数据微调CosyVoice-base，而未在自回归语言模型中加入说话人嵌入。表5呈现了不同类型指令的训练数据持续时间。

在这里插入图片描述

实验结果：

指标：

我们使用字符错误率 (CER) 来评估五种语言的模型：汉语、粤语、日语、韩语和泰语，并对所有其他语言使用词错误率 (WER)。在计算错误率之前，真实值 (ground truth) 转录和识别输出都使用文本normalization进行标准化，这与Whisper使用的方法一致。所有汉字都被转换为简体中文版本，并增加了一个额外的文本normalization流程3。

表 6中的结果显示了Whisper、 SenseVoice和Paraformer (Gao et al., 2022, 2023; Shi et al., 2024)在多个流行的开放语音识别基准数据集上的比较，包括AISHELL-1 (Bu et al., 2017)、 AISHELL-2 (Du et al., 2018)、WenetSpeech (Zhang et al., 2022)、Librispeech (Panayotov et al.,2015)和Common Voice (Ardila et al., 2019)。可以看出，SenseVoice-S和SenseVoice-L在大多数测试集上明显优于它们的Whisper对应模型，除了Librispeech。比较有意思的是，阿里的老模型paraformer-zh和small在中文的能力不相上下，回头也得看看这篇工作了。

图 7展示了SenseVoice-Large和Whisper-Large-V3在更广泛语言范围上的比较性能，输入中有或没有真实值 (ground truth) LID。尽管一般而言，SenseVoice-Large与Whisper-Large-V3的表现相当，但在粤语 (Yue)、加泰罗尼亚语 (CA) 和马拉地语 (MR) 等语言中，SenseVoiceLarge的表现明显更好。

不指定语言的话，模型的识别能力还是会有影响的，尤其是小语种。中英混杂其实也不太行

推理效率的评估见表 7。实时因子 (RTF，转录时间与音频长度的比率) 和10秒音频延迟 (转录10秒音频时的平均时间成本) 在A800机器上进行基准测试，解码批量大小为1。对于基于编码器-解码器的模型（Whipser-S，Whipser-L-V3和SenseVoice-L），我们在解码时执行大小为5的束搜索。由于其非自回归架构，SenseVoice-S获得了极低的推理延迟——与Whispersmall相比快了5倍以上，与Whisper-L-V3相比快了15倍以上。SenseVoice-L的表现与WhipserL-V3相近。
在这里插入图片描述

这里的small模型速度确实快，非常快，5分钟的音频，也只需要一秒多点。

Speech Emotion Recognition

这个能力其实很适合做同声翻译，要是无法识别情感，你的tts是做不好的。

我们评估了SenseVoice在7个流行情感识别数据集上的SER能力，包括CREMA-D(Cao et al., 2014)、MELD(Poria et al., 2019)、IEMOCAP(Busso et al., 2008)、MSP-Podcast(Martinez-Lucas et al., 2020)、CASIA(Zhang & Jia, 2008)、MER2023(Lian et al., 2023)和ESD(Zhou et al., 2021)。这些语料库涵盖中文和英文，以及像表演、电视剧和日常对话等场景。我们报告了无权重平均准确率（UA）、加权平均准确率（WA）、宏观F1分数（F1）和加权平均F1（WF1），并将其与文献中最近发布的一些SER基准（EmoBox (Ma et al., 2024a)、Emo-Superb(Wu et al., 2024)和MerBench (Lian et al., 2024)）进行比较，见表8。我们展示了SenseVoice在所有测试集和所有指标上都取得了良好的表现，即使在目标领域没有进行微调。

我们进一步将SenseVoice与一些开源的语音情感识别（SER，speech emotion recognition）模型进行比较。结果如图 8所示。XLSR-SER是HuggingFace上最流行的SER模型，而Qwen-Audio(Chu et al., 2023)和SALMONN(Tang et al., 2024)是两个可以通过自然语言提示识别语音情感的Audio-LLM模型 。EmoBox的结果也作为参考包含在图中。 SenseVoice-Large在几乎所有数据集上都取得了最佳结果，而SenseVoice-Small在大多数数据集上也优于其他基线模型。

Audio Event Detection

两个SenseVoice-Small和SenseVoice-Large模型可以对语音中的音频事件进行分类，包括音乐（BGM）、掌声和笑声。SenseVoice-L进一步可以预测音频事件的开始和结束位置，而SenseVoice-Small只能预测音频中发生了什么，每次发声最多可以有一个事件。SenseVoice-Small可以检测更多种类的事件，例如咳嗽、打喷嚏、呼吸和哭泣，这些事件可能在人与机器的交互过程中发生。

在这里插入图片描述
我们将SenseVoice与最先进的音频事件检测模型BEATs(Chen et al., 2023a)和PANNs(Kong et al., 2020)在不同任务上进行了比较，包括环境声音分类（ESC-50） (Piczak, 2015)，婴儿哭声/笑声检测5，咳嗽检测（Coswara）(Sharma et al., 2020) 6和家庭脱口秀事件检测。由于SenseVoice仅预测我们感兴趣的事件，这可能不包括其他模型中的事件类别，因此我们使用每个事件的F1分数进行评估。Qwen-audio也进行了比较评估。

我们发现，尽管BEATs和PANNs可能具有更好的F1分数，这可能归因于两个原因， SenseVoice作为一个良好的音频事件分类或检测模型。首先， BEATs和PANNs可以修改检测阈值，以权衡准确性和召回率，从而获得更高的F1分数，但对于SenseVoice和QwenAudio来说，阈值修改要困难得多（一个有趣的发现是， SenseVoice和Qwen-Audio的准确率总是远高于召回率，这可能对人机交互更友好）。其次，SenseVoice使用带有AED伪标记的ASR数据进行训练，而不是特定于AED的数据。

说实话，这段我没怎么看懂。

Preserving Semantic Information by S3 Tokenizer

这算是一个验证实验结果了。

为了评估 S3 标记（Token）生成器保持语义信息的能力，我们比较了增强量化器的 SenseVoice-L 模型与其原始版本以及 Whisper-Large V3 模型的识别性能。这些模型使用 Common Voice zh-CN 和 en 基准进行了评估，结果详细列在表 9 中。

从表中可以看出，我们的 S3 标记（Token）在中文和英文测试集上表现出强大的识别性能。值得注意的是，在 common voice zh-CN 集上，S3 标记（Token）超越了 Whisper-Large V3 模型，达到了 4.14% 的相对误差率降低。这表明 S3 标记（Token）与语义内容之间存在显著的相关性。值得一提的是，S3 标记（Token）生成器中只有一个代码本，其字典大小为 4,096 条目。

在这里插入图片描述

Evaluation on Generation Quality of CosyVoice

我们通过检查内容一致性和说话者相似性来评估CosyVoice的语音合成质量。 LibriTTS的“test-clean”子集 (Zen et al., 2019) 和AISHELL-3的测试集 (Shi et al., 2021) 被用于分别构建英语和中文的评估集。对于这些集合中的每个文本，我们随机选择一个提示语音。

内容一致性使用Whisper-Large V3 (Radford et al., 2023)进行英语评估，而中文识别则使用Paraformer (Gao et al., 2022)。
通过计算生成和提示语音的说话者嵌入的余弦相似度，采用ERes2Net (Chen et al., 2023b)提取特征来量化说话者相似性。

与其他自回归语言模型类似，我们对我们的标记（Token）语言模型采用随机抽样解码策略，并使用五个不同的随机种子值进行合成过程的评估：0、7、42、123和1,337。结果评估指标的平均值用于确定均值和标准差。此外，我们进行了ASR重排序，以展示离线模式中潜在的性能提升。

表10 和 11 分别呈现了英语和中文的结果。在英语数据集中，CosyVoice达到了人类水平的表现，具有相似的内容识别能力和更高的说话者相似性。ASR重排序显著提高了内容一致性，导致词错误率（WER）降低至1.51%。CosyVoice在WER和插入、删除错误数量方面优于ChatTTS，表明其内容一致性更佳。我们未对ChatTTS评估说话者相似性，因为其未发布语音克隆能力。

在这里插入图片描述

关于中文的结果，CosyVoice生成的语句在与原始语句相比时，其字错误率（CER）是相近的，同时插入和删除错误也相当。在字错误率（CER）方面，ChatTTS在中文生成能力上优于英文。虽然ChatTTS和CosyVoice的字错误率（CER）相似，但ChatTTS产生了更多的插入和删除错误。这是由于说话者泄露的问题，其中意外生成了另一位说话者的助词。相反，CosyVoice在插入和删除错误方面没有遭受此问题，错误显著较少。通过**自动语音识别（ASR）重新排序，CosyVoice达到了令人瞩目的低字错误率（CER）1.84%。**与英文相似，CosyVoice也展示了比原始语句更大的说话者相似性，展示了其有效的声音克隆能力。

这里的asr重排，我没太懂。抽卡我知道，但重排是啥？生成N个，然后用ASR排序，抽取和原文本最接近的那个？

Evaluation on Emotion Controllability of CosyVoice

这个我在B站看到有UP主测试过，确实有情绪变化，但音色保持的不太好。

为了验证情感可控性，我们使用公共演讲情感识别模型 emo2vec7 (Ma et al., 2024b)。我们为六种情感（快乐、愤怒、悲伤、惊讶、恐惧和厌恶）各生成并评估 100 条英语发言。合成文本的内容旨在与目标情感相匹配。然后，我们测量每种情感从合成语音中预测的情感的准确性。

所以，人的情感一共有多少种？

表 12 显示了 CosyVoice-base 与 CosyVoice-instruct 之间的情感控制准确性比较。对于 CosyVoice-instruct，输入由内容文本和一种讲话风格的指令（例如，“快乐.内容文本”）组成。相比之下， CosyVoice-base 仅接收内容文本作为输入。结果表明，带有情感指令的 CosyVoice-instruct 相较于没有情感指令的 CosyVoice-base 和 CosyVoice-instruct 显示出显著的改进。

在这里插入图片描述

CosyVoice as a Data Generator

CosyVoice的一个直接应用，是作为数据生成器，以增强其他任务的训练数据，例如自动语音识别（ASR）和语音到语音翻译（S2ST）。以ASR任务为例，我们在Librispeech语料库上进行实验，以评估CosyVoice生成高质量数据的能力。实验结果如表13所示，其中“Librispeech”表示原始的960小时数据。“Syn on LS text”和“Syn on MLS text”分别表示使用Librispeech和MLS训练集文本生成的数据。从表中我们可以看到，仅在合成数据上训练， ASR模型就能达到与原始Librispeech训练集相当的结果。将它们结合后，识别准确率显著提高。一个有趣的发现是，涉及MLS文本上的合成数据显著提高了识别性能。这可能表明，对于ASR任务，文本多样性比语音本身的持续时间更为关键。此改进可归因于CosyVoice合成样本引入的多样化语言内容。我们评估的结果强调了CosyVoice生成样本的高质量。

在这里插入图片描述

Applications

FunAudioLLM 是一个创新框架，旨在促进人类与大型语言模型 (LLMs) 之间的自然语音交互。通过整合 SenseVoice、CosyVoice 和 LLMs，FunAudioLLM 提供了一系列丰富的应用演示，包括语音到语音翻译 (S2ST)、情感语音聊天、互动播客和富有表现力的有声读物讲述。这些演示可在 https://fun-audio-llm.github.io 获得。

我之前做过一点英语视频翻译，当时就苦于不能保留音色和性别，回头可以试一下这个。

在这里插入图片描述

Limitations

SenseVoice 有一些需要解决的局限性。首先，对于资源不足的语言，自动语音识别（ASR）的性能通常仍然较低。其次，**SenseVoice 并不是为流式转录设计的。**因此，未来的工作可能会集中在基于 SenseVoice 开发可流式处理的语音理解模型上。

CosyVoice 也有若干局限性。首先，它支持的语言数量有限。虽然它可以根据明确的指示表达情感和讲话风格，但它无法根据文本的语义内容推断出合适的情感或风格。此外， CosyVoice 在唱歌任务上表现不佳。在实现富有表现力的情感变化的同时保持声音的原始音色方面仍有改进的空间。

另一个局限性是 FunAudioLLM 中的两个创新模型并没有与大型语言模型（LLMs）进行端到端训练。这种管道式的方法可能会引入错误传播，从而影响整体性能。

在这里插入图片描述

后面也得看看tortoise的工作，要看的东西实在是太多了

总结：

其实总结在前言里已经写过了，但把正片帖子写完，还是有一些内容需要回顾的：

音频的听写领域在24年应该是比较火的，最近翻arxiv，相关的论文非常多
相关的高质量开源数据很少，尤其是细粒度标注的。
一些基础的管线，比如高精度ASR，语音检测、信噪比（SNR）估计、说话人分离和分段等工具，阿里的fun系列已经开源了不少，但还有一些没有开源。

小白刚入坑，欢迎相关大佬批评指正，欢迎推荐一些经典的/重要的工作！

FunAudioLLM-SenseVoice+CosyVoice-论文阅读笔记

前言：

相关链接：

摘要的人话总结：

FunAudioLLM

Voice Understanding Model: SenseVoice

SenseVoice-Small

SenseVoice-Large

Semantic Speech Tokenizer（语义语音标记器）

Voice Generation Model: CosyVoice

System Overview of CosyVoice

CosyVoice Model Training

Zero-shot In-context Learning

Instruction Fine-tuning

Training Set for CosyVoice

实验结果：

指标：

Speech Emotion Recognition

Audio Event Detection

Preserving Semantic Information by S3 Tokenizer

Evaluation on Generation Quality of CosyVoice

Evaluation on Emotion Controllability of CosyVoice

CosyVoice as a Data Generator

Applications

Limitations

总结：

评论记录：