21世纪经济报道记者孔海丽 北京报道
硅谷巨头的AI竞赛愈发激烈,你来我往,全速出击。
北京时间10月4日,OpenAI和Meta同时亮出了自己的新武器。
Meta公布了名为 Movie Gen 的全新 AI 模型。它是由视频生成(Movie Gen Video)和音频生成(Movie Gen Audio)两个模型组成,可无缝生产出完整的多媒体内容,实现从图像、视觉到听觉的全方位覆盖。Meta称,这是“迄今最先进的媒体基础模型”。
OpenAI则重磅推出交互界面canvas,并称“这是一种使用 ChatGPT 写作和编程的新方式”,也是ChatGPT发布以来的重大视觉界面升级。用户可以与ChatGPT 一起协作完成写作和编码项目,整个过程可考、可视,而不再局限于简单的聊天。
可以预见的是,在未来一段时间里,科技巨头将会不断推陈出新,既包括有革命性意义的新产品、新技术,也有不断掀起小高潮的持续性上新。
不确定这场AI竞赛何时见分晓,但可以确定的是,巨头们高居塔尖的算力资源和不断延展的业务边界,会导致AI创企的生存空间越来越小。
“马太效应”,正在新兴的AI领域里逐渐清晰。
Meta版Sora上线
将Meta的Movie Gen称之为“Sora”其实不太精准,更应该说“青出于蓝而胜于蓝”,除了Sora具备的视频生成功能,Movie Gen还可以为视频生成配套的背景音乐和音效,并根据指令编辑视频,直接一步到位。
具体来看,Movie Gen Video是一个30B参数的Transformer模型,可以从单个文本提示生成16秒、每秒16帧的高清视频。同时发布的Movie Gen Audio接受视频输入以及可选的文本提示,生成与视频同步的高保真音频。
刚刚凭借“地表最强”全息AR眼镜站上热搜的扎克伯格,在社交平台为Movie Gen站台,将自己的静态照片转化为形式多样的动态健身视频,场景不乏幽默和科幻。
Meta放出来的其他示例视频,展示了Movie Gen生成物体运动轨迹、保持主体物理运动规律、背景统一、栩栩如生的效果。
作为一体化的 AI 媒体工具,Movie Gen还具备视频编辑功能,它可以执行添加、删除或替换元素,背景替换、样式更改等全局修改。
有海外网友感慨说:“随着大量创作者学会使用AI视频编辑工具,很难想象几年后TikTok(短视频代表)和YouTube(长视频代表)会变成什么样。”
与Sora的推出节奏相似,Movie Gen也还需要一段时间才能面向公众开放,但不同于OpenAI常被调侃的“close”,Meta爽快公布了一篇长达92页的论文,介绍了其在架构、训练方法、数据管理、评估、并行训练和推理优化以及音频模型的信息。
据Meta介绍,视频生成模型在 1 亿个视频和 10 亿张图像上进行了预训练,而音频生成模型则使用了约 100 万小时的音频数据。
此外,Meta还开源了多个基准测试数据集,包括Movie Gen Video Bench、Movie Gen Edit Bench和Movie Gen Audio Bench,为后续研究者提供了权威的评测工具。
Movie Gen在OpenAI 今年2月展示的文生视频Sora基础上,朝着AI视频编辑方向推进了一大步。先行一步的Sora至今仍未正式开放,不过,Sora能够生成时长一分钟的视频,而Movie Gen 目前只有16秒。
万亿OpenAI新动作不断
Meta向OpenAI开了一枪,但后者并没闲着。
此前的9月13日,OpenAI正式发布新的通用语言大模型o1,基于慢思考,在推理能力上完胜人类博士,并在数学、物理、化学、生物学等领域表现极为优异。
其文本编辑系统也在进化。同在Movie Gen面世的10月4日,OpenAI宣布推出一个名为canvas的视觉产品,它实际上是一种新的人机交互界面。
canvas是一个内置于ChatGPT的文档和代码编辑器。用户不必再在ChatGPT和文档编辑器之间来回切换,写文档时它会自动弹出,可直接在ChatGPT中编辑任何文档或代码,在一个界面内完成从构思到成文的全过程,实现与AI的无缝协作,从而大大提升工作效率。
有业内人士评论说,OpenAI借由canvas暗示,ChatGPT不仅仅是一个聊天机器人,而是要打造AI时代的操作系统。这暴露了其CEO萨姆·奥特曼(Sam Altman)的非凡野心。不过,canvas下周才会向Enterprise 和 Edu 用户推出,Plus用户则可以直接调用。
此前一天,当地时间10月2日,OpenAI宣布完成新一轮66亿美元融资,投后估值达到1570亿美元(约合人民币1.1万亿元)。这标志着OpenAI从“明星独角兽”公司过渡到了不折不扣的人工智能巨头。
本轮融资由风投巨头Thrive Capital领投13亿美元,微软跟投7.5亿美元,软银集团、英伟达分别投资了5亿美元和1亿美元,苹果在最后时刻决定退出。此外,OpenAI还获得了40亿美元的新循环信用额度。据介绍,ChatGPT每周用户数已超2.5亿人,预计今年收入将达到37亿美元。
据悉,OpenAI本轮融资资金以可转换票据的形式提供,但如果它未能在两年内完成公司结构的重组(即公司架构由非营利型公司向营利型公司转变),本轮融资的投资者将有权要求退回投资。
值得注意的是,OpenAI也被曝出要求参与融资的投资者“二选一”,即不得支持其竞争对手的初创公司,包括OpenAI前员工们创立的AI初创公司Anthropic,埃隆·马斯克(Elon Musk)创立的xAI,OpenAI联合创始人、前首席科学家伊尔亚·苏茨克维(Ilya Sutskever)成立的新公司SSI(safe superintelligence,安全超级智能)等。消息传出,马斯克在社交媒体再次向奥特曼开怼。
伴随OpenAI公司性质转变和发展方向的分歧,是公司高管持续的大动荡。
一周前的9月26日,OpenAI CTO(首席技术官)米拉·穆拉蒂(Mira Murati)、首席研究官鲍勃·麦格(BobMcGrew)、研究副总裁巴雷特·佐夫(Barret Zoph)同时宣布离职。几天后的10月2日,OpenAI 联合创始人杜尔克·金马(Diederik Kingma)宣布加入Anthropic。而公司总裁格雷戈里·布罗克曼(Greg Brockman)仍在长期休假中。OpenAI最初的11名创始成员中,除了宫斗回归的奥特曼,就只剩下语言和代码生成团队负责人沃伊切赫·扎伦巴(Wojciech Zaremba)。
似乎“多事之秋”不足以概括OpenAI的动荡程度,一边“着火”一边“极速前行”,才是OpenAI的常态。