第A08版:科创 上一版   
下一篇

人工智能大模型“卷向”虚拟世界

青岛财经日报/首页新闻讯 近日,谷歌Deep Mind团队发布基础世界模型Genie。它可以接收文本提示、草图或想法,将其变成一个可以互动和玩耍的虚拟世界。

谷歌Genie主要是在交互性上下功夫,可推断出生成环境中的潜在动作,但在视频真实性和清晰度的层面,Genie还未呈现出Sora般的水平。

DeepMind团队认为,Genie引入了一个能从图像或文本生成整个交互式世界的时代,它将成为训练未来通才AI智能体的催化剂。

DeepMind团队表示,Genie是一个从互联网视频中训练出来的基础世界模型,可以根据合成图像、照片甚至草图生成各种各样动作可控的2D世界,使人们能够与他们想象的虚拟世界互动。

“只需要一张图片,Genie就可以创建一个全新的互动环境。”DeepMind团队表示,这为生成和进入虚拟世界打开了大门。例如可以采用最先进的文生图大模型来生成初始帧,然后用Genie赋予它们“生命”。

据了解,Genie是一个110亿参数的基础世界模型,其出现要归功于谷歌研究人员开发的可推断视频帧之间动作的潜在动作模型、将原始视频帧转换为离散标记的视频分词器,以及推测下一帧的动态模型。

不过,与Sora呈现出来的高清晰度、高真实度相比,Genie似乎不那么强调画面真实性,而是将重点放在潜在动作预测上。目前,生成高真实度的视频并非Genie的着力点。

DeepMind团队表示:“Genie专注于2D平台类游戏和机器人的视频,但我们的方法是通用的,适用于任何类型的领域,并可以扩展到更大的互联网数据集。”DeepMind团队认为,Genie引入了一个能从图像或文本生成整个交互式世界的时代,它将成为训练未来通才AI智能体的催化剂。

然而,目前Genie是一个研究项目,并非最终产品。其训练视频是160×90像素的超低分辨率视频,每秒只有10帧,它生成的“游戏”同样是低分辨率的,每秒只有1帧。“该模型目前以每秒1帧的速度运行,所以现在它离实时可玩还很远。”DeepMind团队开发人员表示。

AI领域进展不断

2月16日,OpenAI在官网发布了创新性文生视频模型——Sora。从OpenAI在官网展示的Sora生成视频的效果来看,其在生成视频质量、分辨率、文本语义还原、视频动作一致性、可控性、细节、色彩等方面均表现得很出色。特别是可以生成最长1分钟的视频,超过Gen-2、SVD-XT、Pika等主流产品。

除谷歌和OpenAI在大模型能力上持续突破外,英伟达近期发布了一款名为“Chat with RTX”的工具,该工具专为GeForce RTX 30和GeForce RTX 40系列显卡的所有者设计,让他们能够在电脑上脱机运行AI聊天机器人。该款工具允许用户根据个人需求定制GenAI模型。用户可以将该工具与文档、文件和笔记相连接,进而进行查询。

多模态大模型浪潮有望开启

开源证券认为,当前AI技术已迅速越过文生文阶段,大举进入视频生成领域。支持AI视频生成的AI多模态模型不断突破,特别是Sora能够理解和模拟现实世界的模型基础,有望成为实现通用人工智能(AGI)的重要突破节点。

浙商证券指出,2024年国内外厂商有望发布更加复杂的多模态大模型,实现文本、语音、图像以及音视频等多模态数据的复杂处理和交互。随着各厂商持续布局AI领域,多模态大模型新一轮浪潮有望开启。

上市公司方面,万兴科技旗下“天幕”大模型是以视频创意类AI技术为核心的多媒体大模型,涵盖音频、图像、视频等多模态能力,将支撑公司在影视、广告、动画等内容创作领域的应用升级与拓展。

易点天下生成式人工智能产品Kreado AI是公司对外的AI类产品,该产品包含了多模态模型的融合,包括文本生成、图生图、文本生成视频、语音生成、声纹克隆、数字人生成等,也包括了文字到广告创意图片及视频的生成能力。

昆仑万维的多模态预训练大模型已完成数据收集和清理,目前进入实验性训练阶段,后续将继续紧密跟踪国际前沿技术进展。

相关新闻

微软押注“欧洲版OpenAI”

AI风起云涌,新话题之王当属法国初创公司Mistral AI,其推出的大模型得分仅次于OpenAI的大模型。

Mistral Large大模型北京时间2月26日凌晨发布后,在社交圈掀起巨浪,目前服务器已被全世界涌入的用户挤爆。不过,Mistral Large走的是闭源路线,既不开放也不免费。

此外,微软宣布与Mistral AI建立合作伙伴关系。

公告显示,微软与Mistral AI的合作主要集中在三个核心领域,包括微软将通过Azure AI超级计算基础设施支持Mistral AI,为Mistral AI旗舰模型的AI训练和推理工作提供支持;通过Azure AI Studio和Azure机器学习模型目录中的模型即服务(MaaS),向客户提供Mistral AI大模型,借此促进Mistral AI的市场推广节奏;此外,微软和Mistral AI将合作探索为特定客户训练特定目的模型。

Mistral AI成立仅9个月,创始成员均在30岁左右,短期内即吸引了巨量资金,快速冲出巨头包围圈,如今又与微软牵手,大有“欧洲AI大模型领袖”“下一个OpenAI”之姿。

据不完全统计,创立至今,Mistral AI的总融资额超过5亿美元,当前估值超20亿美元。巨头们正瞄准机会,希望从Mistral AI股权中分得一杯羹,以期在未来的AI大战中占得先机。

供稿:《21世纪经济报道》 孔海丽/文

版权所有(c)青岛出版集团 COPYRIGHTS @2010 ALL RIGHTS RESERVED备案号:鲁ICP备10001583-1号
中国互联网举报中心