深度AIGC技术解析：2D到3D新突破！

(资料图片)

“AIGC是否会取代人类？”作者｜Chengxi 编辑｜蔓蔓周过去18个月，AI内容生成（AIGC）是无疑是硅谷科技创投圈内最火爆、最热门的话题。 DALL-E（2021年1月推出） Midjourney（2022年7月推出） Stable Diffusion（2022年8月推出）这类2D生成式工具，能够在短短几秒内将文本提示（prompt）生成艺术风格的图片。随着这类2D AIGC工具的演化和进步，艺术家、设计师和游戏工作室的创作工作流正在被迅速颠覆革新。 AIGC的下一个突破口在哪？不少投资者和领域资深人士都给出了预测 — 3D数据生成。我们注意到3D AIGC正在经历着2D AIGC曾经发展过的阶段。这篇文章中，我们将更深入地讨论AIGC在3D数据领域的新突破，以及展望生成式AI工具如何提高3D数据生成的效率和创新。 01回顾2D AIGC的高速发展2D AIGC的发展可以简单概括为以下三个发展阶段：第一阶段：智能图像编辑早在2014年，随着生成对抗网络（GAN，典型后续工作StyleGAN）和变分自编码器（VAE，典型后续工作VQVAE，alignDRAW）的提出，AI模型便开始被广泛运用到2D图片的智能生成与编辑中。早期的AI模型主要被用于学习一些相对简单的图像分布或者进行一些图像编辑，常见的应用包括：人脸生成、图像风格迁移、图像超分辨率、图像补全和可控图像编辑。但早期的图像生成/编辑网络与文本的多模态交互非常有限。此外，GAN网络通常较难训练，常遇到模式坍塌（mode collapse）和不稳定等问题，生成的数据通常多样性较差，模型容量也决定了可利用数据规模的上限；VAE则常遇到生成的图像模糊等问题。第二阶段：文生图模型的飞跃随着扩散生成（diffusion）技术的突破、大规模多模态数据集（如LAION数据集）和多模态表征模型（如OpenAI发布的CLIP模型）的出现与发展，2D图像生成领域在2021年前后取得重要进展。图像生成模型开始与文本进行深入的交互，大规模文生图模型惊艳登场。当OpenAI在2021年初发布DALL-E时，AIGC技术开始真正显现出巨大的商业潜力。DALL-E可以从任意的文本提示中生成真实和复杂的图像，并且成功率大大提高。一年之内，大量文生图模型迅速跟进，包括DALL-E 2（于2022年4月升级）和Imagen（谷歌于2022年5月发布）。虽然这些技术当时还无法高效帮助艺术创作者产出能够直接投入生产的内容，但它们已经吸引了公众的注意，激发了艺术家、设计师和游戏工作室的创造力和生产潜力。第三阶段：从惊艳到生产力随着技术细节上的完善和工程优化上的迭代，2D AIGC得到迅猛发展。到2022年下半年，Midjourney、Stable Diffusion等模型已成为了广受欢迎的AIGC工具。他们通过大规模的训练数据集的驱动，使得AIGC技术在现实世界应用中的性能已经让媒体、广告和游戏行业的早期采用者受益。此外，大模型微调技术的出现与发展（如ControlNet和LoRA）也使得人们能够根据自己的实际需求和少量训练数据来“自定义”调整、扩展AI大模型，更好地适应不同的具体应用（如二次元风格化、logo生成、二维码生成等）。现在，使用AIGC工具进行创意和原型设计很多情况下只需几小时甚至更短，而不是过去需要的几天或几周。虽然大多数专业的图形设计师仍然会修改或重新创建AI生成的草图，但个人博客或广告直接使用AI生成的图像的情况越来越普遍。 alignDRAW, DALL-E 2, 和Midjourney 文本转图像的不同效果。除了文本转图像，2D AIGC持续有更多的最新发展。例如，Midjourney和其他创业公司如Runway和Phenaki正在开发文本到视频的功能。此外，Zero-1-to-3已经提出了一种从物体的单一2D图像生成其在不同视角下对应图片的方法。由于游戏和机器人产业对3D数据的需求不断增长，目前关于AIGC的前沿研究正在逐渐向3D数据生成转移。我们预计3D AIGC会有类似的发展模式。 023D AIGC的“DALL-E”时刻近期在3D领域的种种技术突破告诉我们，3D AIGC的“DALL-E”时刻正在到来！从2021年末的DreamFields到2022年下半年的DreamFusion和Magic3D，再到今年五月的ProlificDreamer，得益于多模态领域和文生图模型的发展，学术界文生3D模型也得到了不少突破。不少方法都能够从输入文本生成高质量的3D模型。然而这些早期探索大多数需要在生成每一个3D模型时，都从头优化一个3D表示，从而使得3D表示对应的各个2D视角都符合输入和先验模型的期待。由于这样的优化通常需要成千上万次迭代，因此通常非常耗时。例如，在Magic3D中生成单个3D网格模型可能需要长达40分钟，ProlificDreamer则需要数小时。此外，3D生成的一个巨大挑战便是3D模型必须具备从不同角度看物体形状的一致性。现有的3D AIGC方法常遇到雅努斯问题（Janus Problem），即AI生成的3D对象有多个头或者多个面。由于ProlificDreamer缺乏3D形状一致性而出现的雅努斯问题。左边是一只看似正常的蓝鸟的正面视图。右边是一幅令人困惑的图像，描绘了一只有双面的鸟。但另外一方面，一些团队正在尝试突破现有的基于优化的生成范式，通过单次前向预测的技术路线来生成3D模型，这大大提高了3D生成速度和准确度。这些方法包括Point-E和Shap-E（分别于2022年和2023年由OpenAI发布）和One-2–3–45（2023年由加州大学圣地亚哥分校发布）。特别值得注意的是，最近一个月发布的One-2–3–45能够在仅45秒的时间内从2D图像生成高质量和具备一致性的3D网格！对单图像到3D网格方法的比较分析。从左到右，我们可以观察到，处理时间从超过一个小时大幅度减少到不到一分钟。Point-E、Shap-E和One-2–3–45在速度和准确性上都有出色表现。这些3D AIGC领域最新的技术突破，不仅大大提高了生成速度和质量，同时让用户的输入也变得更加灵活。用户既可以通过文本提示进行输入，也可以通过信息量更加丰富的单张2D图像来生成想要的3D模型。这大大扩展了3D AIGC在商业应用方面的可能性。 03AI革新3D生产过程首先，让我们了解一下传统3D设计师创建3D模型，所需要经历的工作流程： 1.概念草图：概念艺术设计师根据客户输入和视觉参考进行头脑风暴和构思所需的模型。 2.3D原型制作：模型设计师使用专业软件创建模型的基本形状，并根据客户反馈进行迭代。 3.模型细化：将细节、颜色、纹理和动画属性（如绑定、照明等）添加到粗糙的3D模型中。 4.模型最终定型：设计师使用图像编辑软件增强最终的渲染效果，调整颜色，添加效果，或进行元素合成。这个过程通常需要几周的时间，如果涉及到动画，甚至可能需要更长。然而，如果有AI的帮助，上述每个步骤都可能会更快。 1.强大的多视图图像生成器（例如，基于Stable Diffusion和Midjourney的Zero-1–to–3）有助于进行创意头脑风暴，并生成多视图图像草图。 2.文本到3D或图像到3D技术（例如，One-2–3–45或Shap-E）可以在几分钟内生成多个3D原型，为设计师提供了广泛的选择空间。 3.利用3D模型优化（例如，Magic 3D或ProlificDreamer），选定的原型可以在几小时内自动进行精炼。 4.一旦精炼的模型准备好，3D设计师就可以进一步设计并完成高保真模型。传统与AI驱动的3D生产工作流程对比 043D AIGC是否会取代人类？我们的结论是，暂时不会。人仍然是3D AIGC环节中不可缺失的一环。尽管以上提到的3D模型生成技术，能在机器人技术、自动驾驶和3D游戏中有许多应用，然而目前的生产流程仍然不能满足广泛的应用。为此，硅兔君采访了来自加州大学圣迭戈分校的苏昊教授，他是3D深度学习（3D Deep Learning）和具身人工智能（Embodied AI）领域的领军专家，也是One-2–3–45模型的作者之一。苏昊教授认为，目前3D生成模型的主要瓶颈是缺乏大量高质量的3D数据集。目前常用的3D数据集如ShapeNet（约52K 3D网格）或Objaverse（约800K 3D模型）包含的模型数量和细节质量都有待提升。尤其是比起2D领域的大数据集（例如，LAION-5B），它们的数据量仍然远不够来训练3D大模型。苏昊教授曾师从几何计算的先驱、美国三院院士Leonidas Guibas教授，并曾作为早期贡献者参与了李飞飞教授领导的ImageNet项目。受到他们的启发，苏昊教授强调广泛的3D数据集在推进技术方面的关键作用，为3D深度学习领域的出现和繁荣做出了奠基性工作。此外，3D模型远比2D图像的复杂很多，例如: 1.部件结构：游戏或数字孪生应用需要3D对象的结构化部件（例如，PartNet），而不是单一的3D网格； 2.关节和绑定：与3D对象互动的关键属性； 3.纹理和材料：例如反光率、表面摩擦系数、密度分布、杨氏模量等支持交互的关键性质； 4.操作和操控：让设计师能够对3D模型进行更有效地交互和操纵。而以上几点，就是人类专业知识能够继续发挥重要作用的地方。苏昊教授认为，在未来，AI驱动的3D数据生成应具有以下特性： 1.支持生成支撑交互性应用的3D模型，这种交互既包括物体与物体的物理交互（如碰撞），也包括人与物体的交互（物理与非物理的交互方式），使得3D数据在游戏、元宇宙、物理仿真等场景下能够被广泛应用； 2.支持AI辅助的3D内容生成，使得建模的生产效率更高； 3.支持Human-in-the-loop的创作过程，利用人类艺术天赋提升生成数据的质量，从而进一步提升建模性能，形成闭环的数据飞轮效应。类似于过去18个月来像DALL-E和ChatGPT这样的技术所取得的惊人发展，我们坚信在3D AIGC领域即将发生，其创新和应用极有可能会超过我们的预期，硅兔君会持续深入探索和输出。文末互动：你认为AIGC会对人类产生哪些深远影响？评论区留言告诉我们哦～别忘了点关注，不迷路啊。

推荐内容

深度AIGC技术解析：2D到3D新突破！

买房3楼的好处与坏处（公司买房的好处坏处是什么）

百家云美股涨21.85%

崇信：“积分超市”让“分值”更有“价值”

欧央行“九连加”难解通胀压力

ゆれる采访（三）

《热烈》毫无竞争力，不至于垫底，但必然低预期值

这话能说啊？Gumayusi：kt能不能让一下？不行吗.. 没办法呢

看！成都大运会焰火多机位纯享版来了

今日陕西有一次强降水过程 带来一个凉爽的周末

让更多中国品质成为世界标准

昵称网名简单又好听（昵称网）

股票行情快报：科士达（002518）7月28日主力资金净卖出1474.66万元

云南水务(06839)：周志密辞任财务总监

中国代表团旗手郭涵煜：向世界展现出中国大学生的风采

暑假带娃难 工会来帮忙——工会暑期托管班为职工解忧

2023贵州贵阳市修文县“特岗计划”教师招聘试教试题公告

王哲林硬刚2米30高塔，面对夹臂脏动作还击，乔帅获5号位3答案！

台风黄色预警：“杜苏芮”已减弱为强热带风暴级，预计29日凌晨移入江西东部地区

逸飞激光科创板上市，成A股首家圆柱全极耳电池智能装备上市企业！

无人车自动投喂，科技化数字渔场在南沙运行

WTT球星挑战赛兰州站10月开战 200余名国内外运动员参赛

财政部对5家会计师事务所、19名注册会计师作出行政处罚

7月31日听华夏平安银华基金等公司大咖说: 历次政策底后 市场的同与不同？

小程序商城系统开发-微信商城平台定制公司方案

的学校植树节活动方案

儿童音乐剧《摇啊摇》全国巡演

培育专精特新“小巨人”，浙江有“方法”！

新研股份顺利摘帽，“农机+军工”双主业发展

住房城乡建设部召开企业座谈会 释放积极信号

鼎捷软件上半年营收超9亿元 同比增长11%

金水区东风路街道绿财社区开展消防安全大排查

张少华现在还人世吗（演员张少华离世 享年七十五岁）

湖南何以成为湖南的历史追问

成都大运会来了！这些看点值得期待

咸鱼之王孙策装备加点_起凡孙策如何出装备

手机用免流被限速了怎么办？移动用户需要花钱吗？

2023湖北神农架林区招聘高中学段教师面试公告

王建球任湖南省农业农村厅厅长

山子股份达成2连板 公司拟退出房地产业务

从集成电路进出口看行业周期

青春主场|成都大运会“网上新闻中心”平台正式上线

金界控股（03918.HK）：7月27日南向资金减持3.2万股

东北石油大学王薇（王妍-东北石油大学机械科学与工程学院副教授简介）

男子求刺激网购“听话水” ，取快递当场被抓获

8家上市公司股票遭重要股东减持 东软集团减持金额最高

欧洲央行将三大关键利率上调25个基点

赌博类应用引发诉讼风波，苹果、Meta、谷歌被视为“博彩公司”

海南：青年创业就业，“税务蓝”护航同行

2023长春净月区汽车补贴申请需要什么资料

今日陕西有一次强降水过程带来一个凉爽的周末

暑假带娃难工会来帮忙——工会暑期托管班为职工解忧

7月31日听华夏平安银华基金等公司大咖说: 历次政策底后市场的同与不同？

住房城乡建设部召开企业座谈会释放积极信号

鼎捷软件上半年营收超9亿元同比增长11%

张少华现在还人世吗（演员张少华离世享年七十五岁）

山子股份达成2连板公司拟退出房地产业务

8家上市公司股票遭重要股东减持东软集团减持金额最高