数据堂吧 关注:1,129贴子:2,250
  • 0回复贴,共1

从GPT-4o看AI进化 | 为何高质量语音数据至关重要?

只看楼主收藏回复

近期,OpenAI正式发布大模型GPT-4升级版——GPT-4o,并已对注册用户开放使用。在演示中,具备“听、看、说”能力的GPT-4o凭借快速、自然且富有同理心的亮眼回答,引起了全网的广泛关注和好评。
GPT-4o支持语音输入,模型效果实现飞跃式提升
本次发布最为亮眼的就是GPT-4o同时处理文本、语音和图像三种模态的强大能力。其中,GPT-4o的语音输入效果最为突出,特别体现在以下两方面。
一是GPT-4o接近人类的响应速度。现在的 GPT-4o 可以在最短232毫秒内响应对话,平均响应时间320毫秒。作为对比,人类平均反应速度是250毫秒,两者已十分接近。而采用语音模式与GPT-3.5对话的平均延迟为2.8秒,与GPT-4对话的平均延迟为5.4秒,可谓是实现质的飞跃。
二是GPT-4o强大的理解力——实现自然和具有同理心的语音回复。在演示中,GPT-4o能像真实的人类一样,可以被打断回复、可以进行语义联想。比如,它能听懂OpenAI研发负责人Mark Chen大声喘气背后的“言外之意”,并像人类一样,用开玩笑的方式帮助Mark放松。甚至GPT-4o被要求唱首歌时,它还先叹了口气。这已十分接近人类的自然反应和回答。

高质量语音数据是类GPT-4o模型发展关键所在
GPT-4o模型在低延迟、回复质量高等方面的亮眼成绩在行业内引起热烈讨论,也启发大模型从业者进一步思考,什么是语音端到端技术能力的重要因素。
据相关分析文章指出,本次OpenAI在训练过程中使用了更多元化和更多的高质量数据集。其中也涵盖了来自不同领域和不同语言的高质量语音数据,这种改进在需要深度语境理解、拟人化回应的复杂对话环境中尤为明显。因此GPT-4o能够更准确、更连贯地理解和生成文本并合成语音。
可以说,语音端到端模型要实现输出稳定性,提高理解质量和输出效果,既要求所训练的数据的精细化处理,更要求提高高质量语音数据集的规模。因此,获取、使用更多高质量数据集正是提高大模型效果的关键所在。
数据堂高质量语音数据集及多种数据服务,助力类GPT-4o大模型提效升级
数据堂作为全球领先的人工智能数据服务提供商,秉承“更高质量的数据 更有竞争力的AI”使命,已经帮助全球上千家企业提升AI模型性能。
在高质量语音数据方面,数据堂基于海量语音数据项目实施经验,高质量的录音软硬件环境,和丰富、专业的声优资源库,积累了超100万小时的语音数据集,可为语音识别模型优化提供极大帮助,包括:
超20万小时以上中文方言语音数据集:覆盖全国8大方言区域,全部采自本土发音人。
40万小时多语种语音数据集:涵盖超30个国家和地区的外语及本地口音。
30万小时自然对话语音数据:完全由发音人根据话题自由发挥,覆盖多国家与地区采集人的口语化表达习惯。
多音色语音合成数据集:可以完美匹配多个语种环境新闻播报、智能客服、有声阅读、虚拟主播、语音交互、音乐合成等多领域声音特色需求。
同时,我们还支持按照不同语种与采集设备定制语音数据需求。
此外,我们提供高质量无监督文本数据、多模态成品数据集、指令微调(SFT)问答对数据集和RM数据调优标注服务,能实现高质量、快速部署、更具成本效益的数据服务,有效助力大模型迭代升级。
高质量无监督文本数据:大规模高质量无标注文本、30多个中/英和其他语种的翻译数据,超过2亿对大规模平行语料等。
多模态成品数据集:5亿组图像文本描述数据集、1000万组高质量视频描述数据集等。
指令微调(SFT)问答对数据:20万组中文大模型通用SFT指令微调文本、10万条复杂指令跟随数据、50万条内容安全类文本数据,覆盖31大类别,针对性提升对敏感问题的回答能力。
RM数据调优标注:对于每个问题生成不同的回答,人类标注者对这些结果综合考虑给出排名顺序及标签分类等,从而持续训练大模型的奖励模型。
数据堂还将进一步紧跟大模型发展趋势,提供更高质量、高准确率的数据服务,并充分发挥行业专业优势,同合作伙伴携手一道,助力大模型突破发展,为AI赋能行业数智化转型做出更多贡献。


IP属地:北京1楼2024-06-05 13:34回复