排名前十证券公司腾讯发布混元3D世界模型1.0：首个支持物理仿真的开源世界生成系统

排名前十证券公司来源：长沙股票配资网站：银河配资日期：2025-07-31 16:41:35 查看：172

首个支持物理仿真的开源 3D 世界生成模型来了！排名前十证券公司

一句话、一张图就能生成完整 3D 世界，可编辑、可仿真。

在 2025 年世界人工智能大会（WAIC）上，腾讯正式发布混元 3D 世界模型 1.0——首个开源且兼容传统 CG 管线的可漫游世界生成模型。

实现可漫游 3D 场景生成

从文本或图像生成沉浸式且可交互的 3D 世界，是计算机视觉与图形学领域的核心挑战。在理解混元世界生成模型的创新之前，不妨先看看现有技术面临的挑战。现有世界生成方法主要分为两类：

视频驱动方法

想象一下制作动画片，传统的视频生成方法就像是一帧一帧地画画。虽然能画出丰富多彩的内容，但存在缺乏 3D 一致性、逐帧渲染成本高昂、无法与现有 3D 建模工具兼容等致命问题。

三维驱动方法

直接生成 3D 形式的世界场景，而不是视频序列帧。这种方法虽具备更好的 3D 结构的一致性，却受限于 3D 训练数据稀缺与 3D 表征内存效率低下等问题。

此外，现有 3D 生成方法往往将场景表示为一个整体，无法对场景中的物体进行单独交互。

混元 3D 世界模型 1.0（HunyunWorld-1.0）是融合两类方法优势的创新框架，能够依据文本或图像输入生成沉浸式、可探索、可交互的 3D 场景。有以下三大核心优势：

1、360 ° 沉浸体验：通过全景图将复杂的 3D 世界高效地表征为 360 度覆盖的 2D 图像代理，为后续生成完整的 3D 世界建模提供了丰富的空间信息；

2、工业级兼容性：生成的世界场景支持导出标准的 3D 网格格式，能够无缝导入现有 3D 建模软件和主流游戏引擎，用于二次开发；

3、原子级交互：通过物体解耦的 3D 建模方式，生成物体和背景可分离的 3D 世界，支持精准的物体级交互控制，提升了生成世界的操作自由度。

HunyunWorld-1.0 采用生成式架构，结合全景图像合成与分层 3D 重建技术，实现了高质量、沉浸式的可漫游 3D 场景生成。

该模型通过语义分层的 3D 场景表征与生成算法，同时支持"文生世界"和"图生世界"两种生成方式。主要技术框架包括三部分，即全景世界代理生成、基于语义的世界分层与分层世界重建。

一键生成不同风格的高质量 3D 场景 3D 全景代理生成

3D 全景可以捕获场景的 360 ° 视觉信息，可通过等距柱状投影（ERP）转化为全景图像，这使其成为 3D 世界生成的中间媒介。

HunyunWorld-1.0 正是通过文本或图像条件生成全景图，作为驱动 3D 世界生成的代理媒介。

HunyunWorld-1.0 的全景生成基于扩散变换器（Diffusion Transformer, DiT）框架，同时支持输入文本和图像生成 3D 全景。

文本到全景生成

将文本输入（prompt）通过文本编码器（Text Encoder）转化为扩散模型的输入条件。

图像到全景生成

将输入图像投影至全景空间，并通过变分自编码器（Variational Autoencoder, VAE）将其编码至潜在空间（Latent Space）得到条件图像的潜在表示（Latent Tokens）。

该潜在表示会与随机噪声的潜在表示（Noisy Latent）拼接，输入扩散模型进行去噪，生成最终的 3D 全景世界代理。

相较于通用图像生成，全景图生成面临两大独特挑战：球面投影导致的几何畸变以及全景拼接引发的边界不连续问题。针对上述挑战，HunyunWorld-1.0 引入两项关键策略：

高程感知增强（Elevation-Aware Augmentation）

在训练阶段，以一定概率和位移比例对真实全景图像进行随机垂直偏移，以增强对视点变化的鲁棒性。

环形去噪（Circular Denoising）

在推理阶段，在去噪过程中采用环形填充（Circular Padding）与渐进混合（Progressive Blending）技术，确保全景图边界的结构与语义连续性。

HunyunWorld-1.0 可以生成高质量的 3D 全景。

△文生 360 ° 全景指标

△图生 360 ° 全景指标分层世界重建

尽管全景图能有效充当世界代理，但其无法提供被遮挡区域的信息，无法实现自由探索（如视角平移）。

为了解决该问题，HunyunWorld-1.0 创新性地提出了"语义层次化 3D 场景表征及生成算法" ，将复杂的 3D 世界解构为不同的语义层级，实现前景与背景、地面与天空的智能分离，并基于该分层表示搭建 3D 世界。

基于语义的世界分层

为实现语义分层的自动化，此研究利用智能体（VLM 视觉语言模型）识别可交互物体，然后采用"洋葱剥离法"分离天空、背景、前景，最终达到前景物体与背景分离，地面与天空分层处理的效果。

该智能化的世界分层方法，主要包含三阶段流程：实例识别（检测场景中的独立物体），图层分解（将物体分配到语义层），图层补全（生成被遮挡区域的合理内容）。通过该分层方案支持后续的分层 3D 重建。

分层深度估计与对齐

基于全景世界代理，研究人员预测各图层的深度并执行跨图层深度对齐。采用深度估计模型（如 MoGe 或 UniK3D）获取原始全景图基础深度图，并对后续图层分别预测深度，最终通过跨层深度匹配技术将各层深度向基础深度图对齐。

具体而言，该跨层深度方法最小化不同图层重叠区域的深度距离，确保跨图层深度关系一致性，维持重建 3D 场景的几何连贯性。

分层的 3D 世界生成

给定分层图像和深度对齐后的各层深度，研究采用 WorldSheet 提出的网格表示（Grid Mesh Representation）进行薄板变形（Sheet Warping），将 3D 全景转换为 3D 网格进行实现世界重建。

针对每个前景层，HunyunWorld-1.0 提供直接投影法、3D 生成两种重建策略。

前者基于物体深度与语义掩码，通过薄板变形将前景物体直接转换为 3D 网格，研究提出极区平滑处理（Polar Region Smoothing）与网格边界抗锯齿（Mesh Boundary Anti-Aliasing）来保证重建世界的质量。

后者则借助 3D 物体生成大模型（如 Hunyuan3D 2.5），创建高质量 3D 物体资产后通过自动布景算法将生成物体植入 3D 场景中。

此外研究也针对背景层与天空层进行了重建。

对于背景层全景图，研究人员采用自适应深度压缩以确保深度分布合理性，再通过薄板变形转换为 3D 网格。天空层则是使用天空图像重建，其深度设为大于背景深度的固定值，确保天空深度的合理性。

除通过薄板变形获取传统网格表示外，HunyunWorld-1.0 也支持 HDRI 环境贴图（HDRI Environment Map）表示法，以在 VR 应用中实现更逼真的天空光照效果。

△文生 3D 场景指标

△图生 3D 场景指标长距离、世界一致的漫游拓展

尽管分层世界重建提供了初步的场景探索能力，其仍面临遮挡视图与探索范围受限（Limited Exploration Range）的挑战。

为突破此局限，HunyunWorld-1.0 提出基于视频生成的视图补全模型 Voyager，支持空间一致的世界拓展与长距离探索，从初始场景视图和用户指定相机轨迹中，合成空间连贯的 RGB-D 视频。

空间一致的视频扩散模型

研究提出可扩展的世界缓存机制，以维持空间一致性并抑制视觉幻象（Visual Lallucination）。

该机制利用生成的 3D 场景构建一个初始的 3D 点云缓存，然后将此缓存投影到目标相机视图中，为扩散模型生成提供指导。生成的帧不断更新并扩展世界缓存，从而创建一个闭环系统，该系统支持任意相机轨迹，同时保持几何一致性。

长距离世界探索

为解决单次生成长距离视频的局限，提出结合平滑视频采样的世界缓存方案，用于自回归世界探索。

支持 VR、游戏、物体编辑与物理仿真，无限应用可能

得益于 HunyuanWorld-1.0 的分层 3D 网格表示法，生成的 3D 网格世界能够高效支持多种专业应用场景，包括虚拟现实（VR）、游戏开发、物体编辑和物理仿真四大核心领域。

虚拟现实（VR）应用

通过全景世界代理（panoramic world proxies），HunyuanWorld-1.0 生成 360 ° 无缝覆盖的环境，可直接部署至主流 VR 平台如 Apple Vision Pro，支持自由视角旋转和探索，适用于虚拟旅游、教育培训等场景，提供真实的临场感。

游戏开发应用

生成的 3D 网格世界导出为标准格式，无缝集成行业引擎如 Unity 和 Unreal Engine，支持快速构建多样化场景，包括外星景观、中世纪遗迹和未来都市，加速游戏原型开发和内容迭代，同时保持高保真视觉质量。

物体编辑应用

基于解耦对象表示（disentangled object representations），用户可在场景中对单个元素进行精确 3D 操控，包括平移、旋转和缩放，而不会破坏环境整体性。

这为交互式设计提供了灵活性，例如在虚拟环境中调整物体布局或创建定制场景，适用于建筑预览、艺术创作等领域，提升用户控制的自由度。

物理仿真应用

导出的分层网格兼容主流物理引擎，支持碰撞检测、刚体动力学和流体模拟等真实世界行为仿真。这确保了场景元素（如物体和地形）的物理属性准确再现，适用于自动驾驶测试、工程模拟等专业领域，实现从视觉到行为的全链路一致性。

论文链接：https://arxiv.org/abs/2507.21809

Github 项目地址：https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0

项目主页：https://3d-models.hunyuan.tencent.com/world/

体验地址：https://3d.hunyuan.tencent.com/sceneTo3D

Hugging Face 模型地址：https://huggingface.co/tencent/HunyuanWorld-1

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

� � 点亮星标 � �

科技前沿进展每日见排名前十证券公司

银河配资提示：文章来自网络，不代表本站观点。

排名前十证券公司腾讯发布混元3D世界模型1.0：首个支持物理仿真的开源世界生成系统

配资行业论坛交行瘦身，一天之内关停6家信用卡分中心

排名第一的炒股软件 1.5B参数撬动“吉卜力级”全能体验，国产开源之光多模态统一模型，来了

排名第一的炒股软件国庆中秋假期出游“量价齐升”，多条线路返程车次车票所剩无几

股票配资炒股交流香港RWA赛道沸腾！宜搜科技携手绿地金创强势入局，共筑千亿级资产数字化新通道

十大配资排行新乳业董事长席刚：跳出存量市场“内卷” 在创新和增量中寻找解法

股票配资炒股交流香港RWA赛道沸腾！宜搜科技携手绿地金创强势入局，共筑千亿级资产数字化新通道

专业在线配资润欣科技：控股股东拟减持不超过3.00%公司股份

配资股网址河南力推民营经济高质量发展华鼎冷链“数智大模型”领跑行业

排名第一的炒股软件 vivo S30夏日"甜酷"限定！撞色设计+果味小直屏颜值担当_潜望_手机_影像

配资行业论坛 交行瘦身，一天之内关停6家信用卡分中心

排名第一的炒股软件 1.5B参数撬动“吉卜力级”全能体验，国产开源之光多模态统一模型，来了

排名第一的炒股软件 国庆中秋假期出游“量价齐升”，多条线路返程车次车票所剩无几

股票配资炒股交流 香港RWA赛道沸腾！宜搜科技携手绿地金创强势入局，共筑千亿级资产数字化新通道

十大配资排行 新乳业董事长席刚：跳出存量市场“内卷” 在创新和增量中寻找解法

股票配资炒股交流 香港RWA赛道沸腾！宜搜科技携手绿地金创强势入局，共筑千亿级资产数字化新通道

专业在线配资 润欣科技：控股股东拟减持不超过3.00%公司股份

配资股网址 河南力推民营经济高质量发展 华鼎冷链“数智大模型”领跑行业

排名第一的炒股软件 vivo S30夏日&quot;甜酷&quot;限定！撞色设计+果味小直屏颜值担当_潜望_手机_影像

配资行业论坛交行瘦身，一天之内关停6家信用卡分中心

排名第一的炒股软件国庆中秋假期出游“量价齐升”，多条线路返程车次车票所剩无几

股票配资炒股交流香港RWA赛道沸腾！宜搜科技携手绿地金创强势入局，共筑千亿级资产数字化新通道

十大配资排行新乳业董事长席刚：跳出存量市场“内卷” 在创新和增量中寻找解法

股票配资炒股交流香港RWA赛道沸腾！宜搜科技携手绿地金创强势入局，共筑千亿级资产数字化新通道

专业在线配资润欣科技：控股股东拟减持不超过3.00%公司股份

配资股网址河南力推民营经济高质量发展华鼎冷链“数智大模型”领跑行业

排名第一的炒股软件 vivo S30夏日"甜酷"限定！撞色设计+果味小直屏颜值担当_潜望_手机_影像