首页 最新 热门 推荐

  • 首页
  • 最新
  • 热门
  • 推荐

李宏毅 GENERATIVE AI——Extra lesson——GPT-4o背后可能的语音技术猜测

  • 25-02-16 23:40
  • 2924
  • 6135
blog.csdn.net

目录

0 完整章节内容

1 GPT-4 的语音模式(Voice Mode)

2 与旧版语音界面的区别

3 GPT-4 Voice 模式的技术创新

4 利用多模组提升语音理解能力的可能性

5 基于符号标注的语音合成增强

6 基于多模态单模型的全新设计

7 免责声明

8 GPT-4o Voice 模式背后技术的可能运作逻辑

8.1 文字语言模型的训练过程回顾

8.2 语音版语言模型的运作逻辑

8.3 语音信号的复杂性与处理挑战​​​​​​​

8.4 Speech Units 的运作流程​​​​​​​

8.5 Speech Units 的优势与不足

8.6 混合编码器与解码器的改进策略

8.7 语音版语言模型的代表性技术​​​​​​​

9 语音版语言模型的关键技术挑战​​​​​​​​​​​​​​——​​​​​​​背景音与噪声的干扰​​​​​​​

10 语音版语言模型的训练

11 语音版语言模型的额外功能

12 ​​​​​​​语音训练数据的局限性​​​​​​​

13 语音与文字的结合训练

14 微调阶段的需求(Alignment)

15 解决数据不足的方法

16 语音交互与文字交互的本质区别——两大核心挑战​​​​​​​

17 听与说的分离设计​​​​​​​

18 ​​​​​​​多模态交互的扩展​​​​​​​

19 更多有关语音版语言模型的论文


0 完整章节内容

本文为李宏毅学习笔记——2024春《GENERATIVE AI》篇——“Extra lesson”章节的课堂笔记,完整内容参见:

李宏毅学习笔记——2024春《GENERATIVE AI》篇

本章节主要浅谈“GPT-4o背后可能的语音技术猜测”。

1 GPT-4 的语音模式(Voice Mode)

  • 丰富的语音风格
    GPT-4 Voice 模式允许用户通过文字指令调整语音的表达方式,比如:

    • 语速(如“讲快一点”)。
    • 情感和语气(如“轻声细语”)。
    • 创意表达(如“用唱的方式说出内容”)。
  • 超越语音内容的理解

    • 能够识别语音中的情绪信息,例如从喘气声中判断对方可能气喘吁吁。
    • 能发出非语音性的声音(例如笑声),增强对话的自然感。
  • 自然而及时的互动
    在演示中,GPT-4 能及时插入对话。例如,当用户说“我们来做一个有趣的尝试”时,GPT-4 能在对方话未说完时插入反应,如“哇哦”。


2 与旧版语音界面的区别

许多人误解当前的 ChatGPT 手机版语音功能即为 GPT-4 Voice 模式,但事实并非如此:

  • 现状澄清

    • 截至 5 月 19 日晚间,GPT-4 Voice 模式仍未完全释出,只是宣布即将上线(Coming Soon)。目前的语音互动功能其实是旧版语音界面。
    • 当前 ChatGPT 手机版的语音功能采用常规流程:
      1. 用户语音通过语音识别转成文字。
      2. 文字由语言模型生成回应。
      3. 生成的文字通过语音合成转为语音信号。

  • 旧版界面的局限性

    • 情感识别:旧版只能处理文字内容,无法识别语音中的情绪或语境。
    • 语音风格:旧版语音合成仅限于单一风格,缺乏多样化表达。

3 GPT-4 Voice 模式的技术创新

  • 对比传统方法的突破
    GPT-4 Voice 模式与传统语音交互的核心区别在于其对实时性、多样性和语音情感的高级理解:

    • 实时打断:用户可在语音生成过程中打断模型,并继续互动。
    • 情绪适应:模型能根据语境调整对话方式,更贴近自然交流。
  • 潜在应用场景

    • 作为语音助手,提供更加自然且拟人的服务体验。
    • 支持更复杂的多模态交互,为教育、客服等场景赋能。

4 利用多模组提升语音理解能力的可能性

  • 额外模组的加入

    • 在传统语音识别模块外,可以增加:
      • 语音事件检测:识别特殊音效(如叹气、喘气等)。
      • 情绪识别:分析语音信号中情绪特征(如兴奋、悲伤等)。
    • 情绪识别的结果可附加到语音识别文本之后,作为辅助信息提供给语言模型,从而增强模型对情感的理解。
  • 已有相关技术支持

    • 现有论文支持通过情绪辨认模块提取情感特征,帮助语言模型更准确地解读语音内容。
    • 将这些模组组合使用,能在一定程度上模拟 GPT-4o 的语音模式功能。

5 基于符号标注的语音合成增强

  • 语言模型生成附加符号

    • 在语言模型输出文本中加入特殊标注(如“[笑]”或“[叹气]”),并传递给语音合成系统。
    • 语音合成系统根据这些标注,生成对应的非语音声音效果(如笑声、叹气声等)。
  • 现有技术的支持案例:Meta 的 AudioBox 系统:能够根据文字指令调整语气和语调,进行个性化语音合成。


6 基于多模态单模型的全新设计

  • 与传统模块化架构的区别

    • 当前推测的 GPT-4o Voice 模式并非依靠多个独立模块串接(如语音识别、情绪分析、语音合成),而是一个端到端(End-to-End)的多模态单模型:
      • 输入:语音信号
      • 输出:对应的语音响应
    • 此单一模型能够直接处理语音内容、情绪、语调等信息,无需复杂的中间流程。
  • 推测技术实现的优劣势

    • 优点:
      • 系统整体更加简洁,降低工程复杂度。
      • 更高的响应速度,满足实时性要求。
    • 挑战:
      • 训练此类模型需要多模态大数据的支持。
      • 模型参数规模和推理成本可能较高。

7 免责声明

8 GPT-4o Voice 模式背后技术的可能运作逻辑


8.1 文字语言模型的训练过程回顾

  1. 预训练(Pretraining)使用大量无标注的文本数据,训练模型预测下一个文字的 token。
  2. 微调(Fine-tuning)利用少量有标注的数据对模型进一步调整,提升其对特定任务的表现。
  3. 对齐(Alignment,通过 RLHF 和 ILHF)
    • 基于用户反馈进行强化学习微调,使模型输出更符合人类偏好。
    • 这一过程也称为 对齐(Alignment),确保生成式 AI 的输出内容更贴近用户需求。

8.2 语音版语言模型的运作逻辑

  • 语音版语言模型的核心任务:“声音接龙”。
    • 输入:一段语音信号
    • 输出:预测接下来应产生的语音信号
  • 表面看似与文字语言模型类似,但语音信号的复杂性带来了额外的挑战。

8.3 语音信号的复杂性与处理挑战​​​​​​​

  1. 语音信号的高维复杂性

    • 如果采样率为 16kHz,1 秒语音信号包含 16,000 个数值取样点。
    • 若直接在取样点级别进行“声音接龙”,生成 1 秒语音需执行 16,000 次推理,计算成本过高。
  2. 压缩语音信号的必要性

    • 为解决上述问题,引入编码器(Encoder),对语音信号进行压缩。
    • 压缩结果是一系列 Speech Units(语音单位),每个单位可以表示特定类型的声音(如“B”音、人类笑声、甚至狗叫声)。
  3. 编码器与解码器的角色

    • 编码器(Encoder)将原始语音信号压缩为更紧凑的 Speech Units 序列。
    • 解码器(Decoder)通过解码 Speech Units 序列,还原为可播放的语音信号。


8.4 Speech Units 的运作流程​​​​​​​

  1. 声音信号到 Speech Units 的转化

    • 一段语音信号输入到编码器后,被转化为对应的 Speech Units 序列。
    • 语音版语言模型的输入是这些 Speech Units,而非原始语音信号。
  2. 生成 Speech Units 的接龙任务

    • 模型任务是预测下一个 Speech Unit,而不是直接生成复杂的语音信号。
    • 最终由解码器将 Speech Units 转化回语音信号。

8.5 Speech Units 的优势与不足

  1. 优势

    • Speech Units 保留了文字无法表达的语音信息(如语气、情绪、笑声等)。
    • 提高模型对非语言声音(如笑声、叹气声)的生成能力。
  2. 不足

    • 部分 Speech Units 与文字信息重复(如“好好笑”中的“好”、“笑”可以直接用文字表示),可能导致冗余。
    • 编码器需为可用文字表示的信息重新定义符号,有时像“重造轮子”。(这里的意思是我原本就可以用文字去表示,干嘛非要用一个编码器去得到与文字信息重复的Speech Units呢?也即Speech Units除了包含一些文字无法表达的语音信息外,还包含了文字也能表示的重复信息。但我感觉这个不算重复,毕竟文字表示不也得拿语音识别模块来得到么?)

8.6 混合编码器与解码器的改进策略

  • 混合编码器的概念

    • 将语音识别与编码器结合:
      • 可识别部分语音信号并转化为文字。
      • 对无法用文字表示的信号(如笑声)使用 Speech Units 表示。
    • 示例:
      • 输入语音“好好笑哈哈哈”。
      • 编码器将“好好笑”转化为文字,“哈哈哈”用 Speech Units 表示。
  • 混合解码器的概念

    • 将语音合成与解码器结合:
      • 可处理文字和 Speech Units,将两者转化为对应的语音信号。
      • 示例:输入包含文字“好好笑”和 Speech Units “哈哈哈”符号的序列,解码器生成完整语音信号。
  • 混合策略的优点

    • 提高编码效率,减少冗余。
    • 保留语音信号中的全部信息,包括语言内容与非语言内容。

8.7 语音版语言模型的代表性技术

  1. Meta 的 GSLM:一种将语音压缩为 Speech Units 的编码技术。

  2. Google 的 AudioLM:提供基于 Speech Units 的语音生成能力。

9 语音版语言模型的关键技术挑战​​​​​​​​​​​​​​——​​​​​​​背景音与噪声的干扰​​​​​​​

网络上的声音数据(如YouTube视频)常伴有背景音乐或音效,可能影响模型训练。

例子:在GPT-4V(代号GPT-4O)的Demo中,生成的语音自带钢琴背景声,这可能是模型学习到了背景音效。


10 语音版语言模型的训练

  1. 训练数据来源:

    • 使用大量语音数据(如从YouTube获取的超过100万小时视频)作为训练素材。
    • 通过多样化的训练数据,模型可以学习到丰富的声学特征。
  2. 对比语音合成的进步:

    • 过去语音合成模型因数据不足,生成的声音平淡无趣(俗称“棒读”)。
    • 大量数据训练使模型学会根据语境调节声音,增加情感与戏剧性。
      • 例子:在句子中遇到“whisper”(轻声细语)时,模型会自动用更轻的声音合成该句。


11 语音版语言模型的额外功能

  1. 说话人分离(Speaker Diarization):

    • 通过说话人自动分段标记技术,模型可以识别语音信号中不同说话人对应的段落。
    • 示例:GPT-4V Demo中,模型能准确区分两位以上用户的对话,标记“说话人A”和“说话人B”。
  2. 多样化语音生成:

    • GPT-4V的语音合成展示了戏剧性、情感化的声音表达能力。
    • 示例:生成“轻声细语”的效果远超普通的语音合成模型,可能得益于更大的训练数据规模(如从10万小时提升至100万小时)。
  3. 背景音效作为特色:模型生成的声音可能包含背景音或音效,这种“自带BGM”的特性虽然源自数据中的噪声,但可能被认为是一个创新的功能。

12 ​​​​​​​语音训练数据的局限性​​​​​​​

  • 语音数据的数量与文字数据的差距:
    • 100万小时的语音相当于6000万分钟,而每分钟约有100个文字token,总计约60亿个token。
    • 对比LLaMA-3使用的15万亿文字token,仅为其1/250,因此单凭语音数据训练,知识覆盖会严重不足。
  • 解决办法:
    • 使用现有的语言模型作为初始化(pre-trained),让模型学习语音。
    • 在语音表示中加入文字信息,帮助模型更容易理解。

13 语音与文字的结合训练

  • 语音符号与文字的混合模式:使用语音表示的特殊符号(如speech unit)和文字共同训练,减少模型的学习负担。
  • 利用预训练语言模型的优势:已有的文字语言模型中,文字的含义已经被掌握。模型仅需额外学习语音符号的含义,这可以更高效地让模型理解语音输入。

14 微调阶段的需求(Alignment)

  • 语音对话数据的收集:
    • 需要大量语音对话数据,其中一方模拟使用者,另一方模拟AI角色。
    • 对语音模型进行微调,让它能够听懂说话内容并生成合理回应。
  • 固定说话者声音的需求:
    • 如果希望语音模型模仿特定说话者(如Sky),则需大量该说话者的语音对话数据。
    • 示例:在ChatGPT的语音页面中,用户可以选择固定的说话者声音,如Sky。

15 解决数据不足的方法

前面我们提到,ChatGPT的语音界面可以选择固定的语者,但是真的要搜集大量的真实的和这个固定语者的对话数据么?其实没必要

  • 少样本学习:预训练后的模型已经学会模仿各种声音风格,只需少量样本(如几句Sky的录音),即可进行微调。
  • 语音转换技术:利用语音转换技术,将其他人的语音转换为目标说话者(如Sky)的语音,从而生成大量用于训练的Sky对话录音。

16 语音交互与文字交互的本质区别——两大核心挑战​​​​​​​

与文字交互相比,语音交互有两大核心挑战:

  • 开始与结束的界定模糊:
    在文字交互中,用户通过明确的输入(如按下Enter键)来指示模型开始回应;在语音中,模型需要通过停顿或语境判断何时开始和停止说话。
  • 动态交互:
    在语音界面中,用户可能随时打断或补充信息,模型需要灵活应对,甚至要区分用户的意图(如合唱、打断还是补充说明)。


17 听与说的分离设计​​​​​​​

例1
例2

 

语音交互需要模型同时听和说,而不是像文字模型那样听与说是独立的顺序行为。解决方案包括:

  • 双通道机制:
    • 一个通道监听外界声音(用户语音输入)。
    • 一个通道记录模型自身的语音输出,确保生成的声音不干扰自身的理解。
    • 例如,人说“我们来做件有趣的事”后保持安静(例1),模型在判断用户说完时输出“Wow”(安静标记)。
    • 例如,人说“我们来做件有趣的事”后继续说“我要你”(例2),模型在判断用户未说完时输出“silence”(安静标记)。
  • 实时判断何时接话:
    模型基于听到的内容和语境判断用户是否完成发言,并决定是否回应。

18 ​​​​​​​多模态交互的扩展​​​​​​​

语音模型不仅需要听和说,还可能需要同时处理视觉输入,如在OpenAI和Google的多模态系统Demo中展示的例子:

  • 语音与视觉的结合:
    模型在描述场景时,需要对实时视觉输入和用户提问做attention,整合所有模态的信息生成答案。
    • 示例1:当用户问“你有没有看到什么奇怪的东西?”时,模型回忆到之前视觉输入中的“比耶动作”。
    • 示例2:在Google的Project Extra中,模型从视频中看到眼镜,尽管之后不再显示眼镜,但它仍能根据记忆回答“眼镜在桌上”。

19 更多有关语音版语言模型的论文

技术的部分呢就讲到这边,如果大家想知道更多有关语音版语言模型的论文,我这边附了一个链接,里面收集了很多语音版语言模型相关的论文,给大家参考,好谢谢大家,谢谢!

“2024春《GENERATIVE AI》篇”的课程笔记就到这里,完结撒花!!!

注:本文转载自blog.csdn.net的笨笨sg的文章"https://blog.csdn.net/a131529/article/details/144297937"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
复制链接
复制链接
相关推荐
发表评论
登录后才能发表评论和回复 注册

/ 登录

评论记录:

未查询到任何数据!
回复评论:

分类栏目

后端 (14832) 前端 (14280) 移动开发 (3760) 编程语言 (3851) Java (3904) Python (3298) 人工智能 (10119) AIGC (2810) 大数据 (3499) 数据库 (3945) 数据结构与算法 (3757) 音视频 (2669) 云原生 (3145) 云平台 (2965) 前沿技术 (2993) 开源 (2160) 小程序 (2860) 运维 (2533) 服务器 (2698) 操作系统 (2325) 硬件开发 (2491) 嵌入式 (2955) 微软技术 (2769) 软件工程 (2056) 测试 (2865) 网络空间安全 (2948) 网络与通信 (2797) 用户体验设计 (2592) 学习和成长 (2593) 搜索 (2744) 开发工具 (7108) 游戏 (2829) HarmonyOS (2935) 区块链 (2782) 数学 (3112) 3C硬件 (2759) 资讯 (2909) Android (4709) iOS (1850) 代码人生 (3043) 阅读 (2841)

热门文章

101
推荐
关于我们 隐私政策 免责声明 联系我们
Copyright © 2020-2025 蚁人论坛 (iYenn.com) All Rights Reserved.
Scroll to Top