11月26日讯,英伟达近日展示了其最新研发的人工智能模型——Fugatto。
Fugatto是一款基于生成式Transformer架构的人工智能模型,其完整版配备了25亿个参数,并在由32个NVIDIA H100 Tensor Core GPU组成的NVIDIA DGX系统上进行了训练。
这款模型的主要功能在于能够修改和生成声音效果,专为音乐、电影和视频游戏制作人设计,英伟达将其形象地称为声音的瑞士军刀。
据NVIDIA应用音频研究经理Rafael Valle透露,Fugatto的研发初衷是创建一个能够像人类一样理解和生成声音的模型。
它支持多种音频生成和转换任务,是首个展示紧急属性的基础生成式AI模型,这得益于其各种训练能力的交互以及组合自由格式指令的能力。
Fugatto的功能十分强大,能够根据文本描述生成音效和音乐,例如将钢琴演奏转换成人声歌唱,或改变录音的口音和情绪。
对于音乐制作人而言,Fugatto可以帮助他们快速制作原型或编辑歌曲创意,尝试不同的风格、声音和乐器,同时添加效果并提高现有轨道的整体音频质量。
广告代理商则可以利用Fugatto快速定位多个地区或情况的现有广告活动,将不同的口音和情感应用于画外音。
视频游戏开发人员则可以使用该模型修改游戏中预先录制的素材,或根据文本说明和可选的音频输入动态创建新素材。
另外,Fugatto 的新颖性主要体现在以下方面:
首先,在推理过程中,该模型采用了称为ComposableART的技术,能够组合在训练期间只能单独看到的指令。
例如,通过组合提示,可以要求模型以法国口音说出带有悲伤情绪的文本。
此外,该模型在指令之间进行插值的能力使用户能够对文本指令进行精细控制,如重音的沉重程度或悲伤的程度。
其次,Fugatto还能够生成随时间变化的声音,NVIDIA将这一功能称为时间插值。
例如,它可以模拟暴雨穿过区域的声音,雷声逐渐增强,然后慢慢消失在远处。这一功能使用户能够精细地控制音景的演变方式。
最后,与大多数只能重现所接触的训练数据的模型不同,Fugatto允许用户创建以前从未见过的音景。
例如,它可以模拟雷雨随着鸟儿的歌声缓和为黎明的场景。
总而言之,Fugatto凭借其功能多样性和创新性,在音频领域具有广阔的发展空间。
以上就是关于【全球首个!英伟达发布了一把用于“声音的瑞士军刀”】的相关消息了,希望对大家有所帮助!
近日,PlayStation首席架构师马克·塞尔尼(Mark Cerny)解释了为何索尼中期升级主机PS5 Pro性能提升幅度有限,在硬件升级上更侧重于GPU性能而非CPU提升。
12月22日消息,鸿蒙智行近日宣布全面推送泊车代驾VPD功能,该功能基于华为ADS 3.0技术,带来了多项创新。
12月22日消息,iCar汽车官方今日发布公告称: 近期,我们注意到大量水军账号利用虚假信息,通过单一账号重复发布、多账号联动转发等手段,对iCAR品牌、V23产品进行高频次恶意攻击,甚至不惜网暴真实车主,造成恶劣影响。 对此,我们已迅速采取行动,收集 ...
12月22日消息,在Android Authority近期的年度最佳手机票选中,三星Galaxy S24 Ultra经过两轮激烈竞争后脱颖而出,被网友们选为年度最佳手机。
《龙腾世纪4》跨性别总监Corinne Busche最近接受Inverse采访时,将该游戏令人失望的表现归咎于社区玩家的仇恨活动和差评轰炸,暗示这些外部压力盖过了游戏的内部缺陷。
12月22日消息,据报道,本田和日产汽车23日起将正式启动经营合并磋商,三菱汽车则在协调于明年年初决定是否参与合并,弄清以何种方式进入持股公司等条件。
12月22日消息,近日,伪中国语在日本网络上翻红。 一款名为对多(推特的谐音)的App在12月18日更新上线后,引发下载高潮,在苹果应用商店免费社交软件排行榜最高排名第四,网友一度将服务器挤爆。 该应用类似于推特,用户可以匿名发帖并回复留言。唯一的特 ...
极越事件,夏一平不再独自感受炮火了。 12月20日上午,一封极越汽车内部邮件显示,公司出现危机以来,公关负责人徐继业不仅没有维护公司和员工声誉,反而在12月19日工作组努力促成、员工焦急等待补偿方案的时候,在其朋友圈发表分裂员工的不当言论,对员 ...
12月22日消息,近年来曲面屏在Android市场中逐渐失宠,三星作为曲面屏幕手机的先驱,连自家旗舰S24 Ultra也放弃了曲面设计,转而采用平面屏幕。