从GPT-4o看AI进化 | 为何高质量语音数据至关重要？【数据堂吧】

数据堂吧关注：1,129贴子：2,250

0回复贴，共1页

从GPT-4o看AI进化 | 为何高质量语音数据至关重要？

近期，OpenAI正式发布大模型GPT-4升级版——GPT-4o，并已对注册用户开放使用。在演示中，具备“听、看、说”能力的GPT-4o凭借快速、自然且富有同理心的亮眼回答，引起了全网的广泛关注和好评。
GPT-4o支持语音输入，模型效果实现飞跃式提升
本次发布最为亮眼的就是GPT-4o同时处理文本、语音和图像三种模态的强大能力。其中，GPT-4o的语音输入效果最为突出，特别体现在以下两方面。
一是GPT-4o接近人类的响应速度。现在的 GPT-4o 可以在最短232毫秒内响应对话，平均响应时间320毫秒。作为对比，人类平均反应速度是250毫秒，两者已十分接近。而采用语音模式与GPT-3.5对话的平均延迟为2.8秒，与GPT-4对话的平均延迟为5.4秒，可谓是实现质的飞跃。
二是GPT-4o强大的理解力——实现自然和具有同理心的语音回复。在演示中，GPT-4o能像真实的人类一样，可以被打断回复、可以进行语义联想。比如，它能听懂OpenAI研发负责人Mark Chen大声喘气背后的“言外之意”，并像人类一样，用开玩笑的方式帮助Mark放松。甚至GPT-4o被要求唱首歌时，它还先叹了口气。这已十分接近人类的自然反应和回答。

高质量语音数据是类GPT-4o模型发展关键所在
GPT-4o模型在低延迟、回复质量高等方面的亮眼成绩在行业内引起热烈讨论，也启发大模型从业者进一步思考，什么是语音端到端技术能力的重要因素。
据相关分析文章指出，本次OpenAI在训练过程中使用了更多元化和更多的高质量数据集。其中也涵盖了来自不同领域和不同语言的高质量语音数据，这种改进在需要深度语境理解、拟人化回应的复杂对话环境中尤为明显。因此GPT-4o能够更准确、更连贯地理解和生成文本并合成语音。
可以说，语音端到端模型要实现输出稳定性，提高理解质量和输出效果，既要求所训练的数据的精细化处理，更要求提高高质量语音数据集的规模。因此，获取、使用更多高质量数据集正是提高大模型效果的关键所在。
数据堂高质量语音数据集及多种数据服务，助力类GPT-4o大模型提效升级
数据堂作为全球领先的人工智能数据服务提供商，秉承“更高质量的数据更有竞争力的AI”使命，已经帮助全球上千家企业提升AI模型性能。
在高质量语音数据方面，数据堂基于海量语音数据项目实施经验，高质量的录音软硬件环境，和丰富、专业的声优资源库，积累了超100万小时的语音数据集，可为语音识别模型优化提供极大帮助，包括：
超20万小时以上中文方言语音数据集：覆盖全国8大方言区域，全部采自本土发音人。
40万小时多语种语音数据集：涵盖超30个国家和地区的外语及本地口音。
30万小时自然对话语音数据：完全由发音人根据话题自由发挥，覆盖多国家与地区采集人的口语化表达习惯。
多音色语音合成数据集：可以完美匹配多个语种环境新闻播报、智能客服、有声阅读、虚拟主播、语音交互、音乐合成等多领域声音特色需求。
同时，我们还支持按照不同语种与采集设备定制语音数据需求。
此外，我们提供高质量无监督文本数据、多模态成品数据集、指令微调（SFT）问答对数据集和RM数据调优标注服务，能实现高质量、快速部署、更具成本效益的数据服务，有效助力大模型迭代升级。
高质量无监督文本数据：大规模高质量无标注文本、30多个中/英和其他语种的翻译数据，超过2亿对大规模平行语料等。
多模态成品数据集：5亿组图像文本描述数据集、1000万组高质量视频描述数据集等。
指令微调（SFT）问答对数据：20万组中文大模型通用SFT指令微调文本、10万条复杂指令跟随数据、50万条内容安全类文本数据，覆盖31大类别，针对性提升对敏感问题的回答能力。
RM数据调优标注：对于每个问题生成不同的回答，人类标注者对这些结果综合考虑给出排名顺序及标签分类等，从而持续训练大模型的奖励模型。
数据堂还将进一步紧跟大模型发展趋势，提供更高质量、高准确率的数据服务，并充分发挥行业专业优势，同合作伙伴携手一道，助力大模型突破发展，为AI赋能行业数智化转型做出更多贡献。

送TA礼物

IP属地:北京

1楼2024-06-05 13:34回复

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

0回复贴，共1页

<返回数据堂吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

从GPT-4o看AI进化 | 为何高质量语音数据至关重要？

登录百度账号

扫二维码下载贴吧客户端