腾讯首个3D世界AI模型开源!亲测:普通人也能做“上帝”了
在《圣经》的记载里,上帝通过一句句“话语”在六天时间里创造了世界,对两三千年前的人来说,确实能让人心感震撼,但是在2025年,或许有人会脱口而出:“这事情我也能干啊”。
让每个人都能成为虚拟世界里的“上帝”,或许是腾讯混元3D世界模型的最佳诠释。作为业内首个支持沉浸漫游、交互和物理仿真的3D世界生成大模型,最让人意外的还是腾讯直接将该模型的1.0版本开源,给了用户一个惊喜。
图源:腾讯
官方称,混元3D世界模型旨在将复杂的3D场景建模简单化,用户只需要用文字描述场景,就可以搭建出一个支持交互、拥有物理引擎的3D世界,直接免去了以往复杂且繁琐的建模流程,将3D游戏的开发门槛降到了谷底。
毫不夸张地说,“全民”游戏开发的时代或许真的离我们不远了。看到这里,或许大家都会好奇,腾讯到底是怎么做到的?又为什么要开源这个模型呢?普通用户真的可以零门槛使用吗?现在,就让我们一起来寻找这些问题的答案。
首先还是让我们来详细了解一下混元3D世界模型能够做的事情,除了前面聊到的可交互外,其实还支持360度漫游和自主编辑,你可以对场景中的单个或多个建模进行修改,让3D场景看起来更契合你的要求,或是修复那些AI随机生成的“瑕疵”。
不仅如此,模型还支持直接导出标准的3D模型文件,可以兼容Unity、Unreal等主流游戏引擎。简单来说,腾讯并不打算将你绑定在他们的游戏制作生态里,而是给开发者提供一个通用的3D模型输出器,然后你可以选择自己喜欢的引擎制作游戏。
图源:混元3D
不过,在这里要提前说明一下,混元3D世界模型虽然已经开源,但是其使用的开源协议为腾讯定制的特别版本。首先,协议中写明了混元3D世界模型1.0可以免费商用,但是前提得满足协议的条款,具体要求可以前往Hugging Face、Github等平台查看,这里就不多说了。
至少从其中的部分条款来看,对于独立游戏的开发者来说倒其实是挺厚道的,为什么这么说?比如“商用授权”的要求是100万月活,而非100万用户。这么说吧,100万注册用户的小游戏一抓一大把,但是100万月活的游戏却不常见,即使是商业大作里也少之又少,所以一般的游戏开发者基本不用担心腾讯突然找上门。
在小雷看来,比较危险的也就是微信小游戏的开发商了,不少热门小游戏的月活突破百万是轻轻松松的,但是其中很多都是免费游戏,主要靠插播广告变现。这也给开发商的收入带去不确定性,如果混元3D世界模型的商用授权过于昂贵,或许关闭游戏才是最佳的“止损”方式。
咳咳,不过个人认为腾讯应该会提供一个灵活的授权方案,比如按比例分成或多少钱买断等,只不过目前还没有查询到相关方案,感兴趣的朋友可以去腾讯混元官网咨询客服。
聊回混元3D世界模型本身,从腾讯公布的技术讲解文档来看,这个AI模型主要融合了全景图像生成与分层3D重建技术,通过先生成一张360°的全景图,把所需的场景信息压缩到这张2D图像里。再让AI模型通过“语义层次化3D场景表示与生成算法”,逐级拆分全景图,然后根据拆分出来的信息逐一搭建3D建模。
图源:雷科技
听起来有点难懂?那么举个例子,乐高积木大家应该都玩过吧?当你打开积木盒时一般会得到一堆积木和一份说明书,按照说明书的顺序拼装后就能得到一个3D的积木模型。混元3D世界模型的原理也是如此,将根据文字或图片生成的全景图拆解成一块块“积木”,然后再按照顺序搭建起来,最终组成一个3D世界。
在以前,通过数个AI模型的协作,其实也能实现类似的效果,但是混元3D世界模型的优势就在于将原本复杂的流程进一步简化,实现了一句话、一张图就能生成3D世界模型的效果,这对于初学者来说无疑更加友好。
看起来,腾讯确实发布了一个很了不起的玩意,那么问题来了,混元3D世界模型的硬件要求如何?从检索到的信息来看,对硬件的要求并不算低,显卡性能是其次,重点在于显存,如果你的显卡是消费级产品,那么可能要分多次来生成模型,再到Unity等引擎上做拼接修改(果然想做‘上帝’也得要有钱才行)。
不过,腾讯混元官网目前提供免费的混元3D世界模型使用次数,每人每天20次的免费名额(目前暂不支持充值,只能通过邀请好友体验获得额外次数),支持文生3D、图生3D以及拓扑生成等功能,你甚至可以在混元官网搭建一套属于自己的工作流,直接调用多个AI大模型。
图源:腾讯
从这里就不难看出,腾讯所图甚大,从开源到免费在线使用,背后的成本显然都不低,作为一家商业公司腾讯所求的显然不是AI模型授权费用或使用费这些简单的收入,而是将目光看向了更遥远的未来。
虽然混元3D世界模型目前还处于开源初期,并没有引起太多的关注,但是在我看来其真正意义上实现了“所见即所得”,让人类可以用自然语言和图片为桥梁,直接将创意转化为可交互的3D世界。
试想一下,当每个人都能生成自己梦想中的“世界”时,会发生什么?首先,游戏开发的门槛将大幅度降低,而且不仅仅是游戏,3D交互视频、3D动画视频创作等都将受到影响。因为,原本需要专业人员花数天甚至数周时间制作的3D模型,现在能够以分钟为单位生成,无疑给了创作者更大的试错和选择空间。
小雷在撰写这篇文章的时候,就简单尝试了一下混元3D世界模型,只是上传了一张风景图,在不到5分钟的时间里就得到了一个3D的山脉模型,并且允许后期再进行拓扑建模和纹理生成,对于一个没有学过3D建模的人来说,恐怕给我一天时间也无法凭自己在3D软件中将这个模型还原出来。
下面是原图
图源:雷科技
在雷科技看来,AI大模型所带来的“创作平权”无疑会催生出海量的新内容和创意,同时也会直接影响到整个数字娱乐行业的发展。而作为模型的提供者,腾讯也将拥有前所未有的影响力,让腾讯在游戏开发市场掌握更大的话语权。
不要小看这一点,从虚幻到Unity,这些主流的游戏引擎可以说决定了许多游戏公司的生死。此前游戏引擎公司仅仅是修改授权收费条例,就一度引起整个游戏市场的剧烈震荡,从中就可以看出游戏开发的底层引擎对于整个游戏行业的重要性。
而腾讯就是希望通过混元3D世界模型等AI大模型,对整个游戏开发市场下手,重新“分配”这块大蛋糕。事实上,腾讯一直都在布局游戏开发市场,早在2021年就以3.3亿美元收购了虚幻引擎的开发公司Epic Games的40%股份,并促使虚幻引擎的商业模式改为免费使用加版税抽成,使得虚幻引擎在游戏行业的使用率飙升。
现在,腾讯显然想更进一步,在实际的游戏开发过程中施加自己的影响力,同时也扶持更多的独立工作室走上舞台。以前大厂凭借人力和资金优势制作出3A游戏,而独立游戏开发者却因为资源有限,只能制作小体量的独立游戏。
图源:微博
但是,随着AI模型的普及,整个局势都在发生快速的变化,“一人成团”虽然有些夸张,不过一个十几个人的团队,只要熟练掌握AI工具,制作一款大作却并非难事。或许正是注意到这一点,一贯以大投入、大制作著称的腾讯,才会投入资源对混元3D模型进行深度开发。
一方面混元3D世界模型可以运用在腾讯自己的游戏开发流程中,提升效率降低成本,另一方面也可以通过抢占市场的方式,确保在未来的“全面游戏制作人”时代可以保有足够的话语权。
腾讯并非唯一布局3D模型的科技巨头。字节跳动作为国内最看重AI的企业,其2024年的AI开发投入就达到800亿元,几乎相当于腾讯、百度、阿里的总和。而在游戏领域,字节跳动CEO梁汝波也直言未来的游戏将分为三种:1、基于AIGC等技术开发的游戏;2、基于UGC开发的游戏;3、传统游戏。
第一种游戏就很好理解,简单来说就是以AI为主,人类仅充当创意总监,提供一个点子然后让AI进行扩大和补充。第二种则是为玩家提供一个平台和一系列开发工具,玩家自行设计、创作游戏世界,著名游戏《Roblox》《我的世界》等就是这种形式。
图源:roblox
事实上,这两种游戏形式都在AI的影响下,未来也将越发向AI靠拢。所以,字节其实也在提前布局游戏开发行业,在自研的AI编程助手Trae上,字节就加入了与主流游戏引擎的集成协作,让开发者可以通过文字描述快速生成基础游戏代码。
同时,字节也上线了如“炉米Lumi”这也的AIGC图像创作平台,让开发者可以分享自己的AI模型,只不过目前该平台仍处于内测过程中,仅受邀用户可以进入。而在另一边,阿里也与巨人网络合作,展开“游戏+AI”的深度合作,除了通过AIGC进行内容生成和玩法创新外,也将部分游戏直接接入AI大模型,为玩家提供截然不同的体验。
或许不久的将来,个性化游戏会成为现实:AI根据每个玩家的喜好动态生成剧情走向和关卡内容,让每个人都体验“专属”的游戏冒险。AI智能体可以在游戏中扮演重要角色,从更聪明的NPC到与玩家同行的伙伴AI,即使是单机游戏也可以体验到传统网游的乐趣。
对于一众互联网企业来说,3D AI模型的潜力也不止于游戏,视频制作、3D动画等一系列涉及的领域也将面临新的冲击,这背后可就不仅仅是“游戏”这么简单了。
2、美印关系现裂痕,莫迪呼吁推“国货”,印度无视特朗普威胁“坚持买俄油”
3、伯克希尔二季度利润骤降59%,巴菲特接班人还能保持投资神话吗?