分享好友 最新动态首页 最新动态分类 切换频道
AI辅助设计产品开发:从线稿到3D模型
2024-12-26 12:02

背景

在我们的团队项目中,我们最初的设想是通过拍摄实物照片生成商品海报。然而,由于效果不佳,我们决定转变思路,开发一款帮助设计师从线稿到3D模型的设计产品。我们的目标是简化设计流程,让设计师能够从线稿出发,通过AI技术生成成品图像,并进一步转化为3D模型。以下是我们在这一过程中经历的探索、尝试和反思。

初步设想

新的设想是利用AI技术,通过输入设计师的线稿,生成多幅成品图像。然后,设计师可以从这些生成的图像中选择一幅最满意的,再通过3D建模工具将其转换为3D模型。这一过程的核心步骤包括

  1. 线稿输入:设计师提供初步的线稿。
  2. 成品图生成:使用AI模型生成多幅成品图像。
  3. 用户选择:设计师从生成的图像中选取一幅最满意的。
  4. 3D建模:将选定的图像转换为3D模型。

线稿到成品图像的生成

在从线稿生成成品图像方面,我们决定使用Stable Diffusion。这是一种基于扩散过程的图像生成模型,通过逐步去噪生成高质量的图像。我们选择Stable Diffusion是因为它在这一任务中的表现非常出色,生成的图像在细节和质量上都非常优异,因此我们没有调研其他模型。其基本原理在上一篇文章中已经简要概括,此处不再赘述。

成品图像到3D模型的转换

在将成品图像转换为3D模型方面,我们进行了广泛的调研和测试,包括以下几种模型:Wonder3D、Image Dream、MVDream-three studio、HiFA、GeoDream、3DFuse-three studio和Gaussian Dreamer。

Image Dream

Image Dream是一种图像生成工具,可以将线稿转换为成品图像。然而,在我们尝试过程中,生成的图像质量和细节不如Stable Diffusion,且风格化处理过于明显,影响了原始设计的表达。

  • 扩散网络训练

    • 蓝色箭头:表示扩散网络的训练过程。
    • 多视角渲染:根据标准相机坐标渲染多个视角图像。
    • 图像提示渲染:随机设置渲染正视图图像提示。
    • 训练目标:多视角图像作为多视角扩散网络的训练目标,图像提示通过多级控制器编码后作为输入进行扩散。
  • NeRF模型训练

    • 绿色箭头:表示NeRF模型的训练过程。
    • 评分蒸馏:使用已训练的扩散网络进行图像提示的评分蒸馏

多控制器

含义

多级控制器是指在ImageDream系统中,用于处理和调节图像特征的多个控制器。这些控制器包括全球控制器、局部控制器和像素控制器。每个控制器在不同的层级上对图像特征进行处理,以实现更精细的控制和更高的生成质量。

作用
  1. 全球控制器(Global Controller

    • 作用:处理图像的全局特征。
    • 功能:接收CLIP编码后的图像特征,输出调整后的特征到交叉注意力层。
    • 目标:捕捉图像的全局语义信息,确保生成结果具有一致的整体语义。
  2. 局部控制器(Local Controller

    • 作用:处理图像的局部特征。
    • 功能:接收和处理局部区域的图像特征,输出调整后的特征到交叉注意力层。
    • 目标:捕捉图像的局部细节,增强生成结果的细腻度和细节丰富度。
  3. 像素控制器(Pixel Controller

    • 作用:处理图像的像素级特征。
    • 功能:将VAE编码的特征发送到扩散网络,在每一层与相应的隐藏特征执行像素级密集自注意力。
    • 目标:在像素级别进行精细调整,确保生成结果的高分辨率和细节清晰度。
综合作用

多级控制器通过在不同层级上对图像特征进行处理和调节,确保生成的图像既具有全局一致性,又包含丰富的局部细节和高分辨率的像素级信息。这种多层次的控制机制使得ImageDream能够生成高质量的3D模型,并在各种视角和细节层面上表现出色。

  • 全球控制器和局部控制器

    • 输入:接收 CLIP 编码后的图像特征。
    • 输出:将调整后的特征输出到交叉注意力层,表示图像的语义信息。
  • 像素控制器

    • 输入:将 VAE 编码的特征发送到扩散网络。
    • 操作:在四视图 MVDiffusion 的每一层,与相应的隐藏特征执行像素级密集自注意力。

效果

MVDream-three studio

MVDream-three studio专注于多视角图像生成和3D建模,是ImageDream的基础,其功能是从文字生成3D模型,不符合我们的目的,此处不再赘述。

Wonder3D

Wonder3D 能够根据单张图像生成一致的多视图法线图和彩色图像。具体过程如下

  1. 输入图像:接收单张输入图像。
  2. 文本嵌入:利用 CLIP 模型生成的文本嵌入。
  3. 相机参数:多个视角的相机参数。
  4. 领域转换器:作为条件输入。

在这些条件下,Wonder3D 生成一致的多视图法线图和彩色图像。随后,Wonder3D 采用创新的法线融合算法,从2D表示中稳健地重建高质量的3D几何形状,最终生成高保真度的纹理网格模型。

效果

TripoSR

TripoSR是一种用于生成高分辨率3D模型的工具。虽然在生成模型的正面效果尚可,但在处理模型的其他面时,效果非常糟糕,导致整体模型质量不佳。TripoSR的技术原理基于超级分辨率算法,试图通过提高图像分辨率来改善3D模型的细节。然而,我们发现其在生成全面和一致的3D模型方面存在显著不足。

效果

尝试

输入图片

输出模型

GeoDream、3DFuse-three studio、Gaussian Dreamer表现均欠佳,和Wonder3D、TripoSR有通病,此处不再赘述,文章后面会总结
HiFA

HiFA(High Fidelity Augmentation)是一种高保真度的图像到3D模型转换工具。经过多次测试,我们发现HiFA在保持原始图像细节和精度方面表现最佳,能够将设计师选定的成品图像高质量地转换为3D模型。

  • 预训练的2D潜变量扩散先验

    • 定义:g(θ)表示使用预训练的2D潜变量扩散模型作为先验。
  • 评分蒸馏

    • 模型:采用潜变量扩散模型进行评分蒸馏。
    • 输入:扩散模型接收渲染图像x作为输入。
    • 输出:提供输入渲染图像x的估计值ˆx。

效果

对比与选择

Wonder3D、GeoDream、3DFuse-three studio 和 Gaussian Dreamer

这些模型在发布开源的年份相似,基本都是去年发布的。尽管它们在某些示例模型上表现良好,但在将随机图片转换为3D模型时表现很差。这些模型存在以下共性问题

  1. 只在示例模型上表现好:这些模型在预设的示例中可以生成高质量的3D模型,但在处理随机图片时,效果显著下降,生成的模型质量不佳。
  2. 对性能要求高:这些模型对硬件性能要求较高。如果没有高性能的计算资源,这些模型在加载和运行时可能会出现问题,甚至无法正常工作。
  3. 实际应用局限性:由于以上问题,这些模型在实际应用中的普适性和稳定性都存在明显不足。

Image Dream

Image Dream 是字节跳动新开源的模型,尽管其生成效果较好,但也存在一些问题

  1. 硬件要求高:Image Dream 要求使用高性能的 A100 GPU,这对于一般用户和小型团队来说,硬件门槛过高,难以广泛应用。
  2. 实际应用局限性:虽然生成效果较好,但由于硬件要求高,限制了其在实际应用中的普及。

HiFA

在我们测试的模型中,HiFA 的表现是最好的,但仍有改进空间

  1. 生成效果相对较好:HiFA 在保持原始图像细节和生成高质量3D模型方面表现优异。
  2. 代码需要修改:尽管HiFA整体表现最佳,但在实际使用中,代码仍需要一定的修改和优化,以进一步提升其性能和易用性。

最终方案

我们最终确定了以下方案

  1. 线稿输入:设计师输入初步的线稿。
  2. 成品图生成:使用Stable Diffusion生成多幅高质量的成品图像。Stable Diffusion在这一过程中表现尤为出色,能够生成细节丰富且质量极高的图像。
  3. 用户选择:设计师从生成的图像中选取一幅最满意的。
  4. 3D建模:使用HiFA将选定的图像转换为高质量的3D模型。

总结

最新文章
AI行业“范式大转变”,芯片双雄分化:博通两日暴涨38%,英伟达跌进调整区
从英伟达到博通,AI行业“范式大转变”。在上周五市值突破1万亿美元并创下24%的单日最大涨幅后,博通周一又大涨超11%,收于250美元,盘中创下251.88美元的历史新高,受华尔街上调目标价的推动。相比之下,周一英伟达股价下跌,盘中跌近3%、
22314期排列五预测号码 今晚排列五预测号精选一注
2022314期排列五开奖号为1,6,9,8,5。一、形态特征分析大小形态为小大大大大,大小比为4:1,奇偶形态为奇偶奇偶奇,质合形态为质合合合质,质合比为:2:3,和值为29点,和尾为9点,跨度为8。二、定位分析万位分析:本位近期连续在0-6之间振荡后
2024兆鑫汇金广场(售楼处)首页网站-兆鑫汇金广场欢迎您-楼盘详情 @售楼部
位于罗湖核心区域深南大道3085号的兆鑫汇金广场正式开业。项目总建筑体量28万㎡,为涵盖商业办公、总裁公寓、星级酒店、住宅于一体的高端商业综合体。兆鑫汇金广场坐落于蔡屋围、东门、人民南三大商圈核心,周边商业氛围成熟,交通便利。项
AI辅助产品设计全攻略:从方案生成到实步骤详解
在数字化浪潮的推动下人工智能()已经渗透到了产品设计的各个环节,从最初的创意构思到最的实方案,的应用极大地增进了设计效率和创新能力。本文将为您详细解析辅助产品设计的全攻略,从方案生成到实步骤的详解帮助您更好地理解和应用技术
2024年滨州邹平分数低的高三艺考生文化课补习学校排名前三+2024top5高中冲刺培训班一览
  2. 滨州邹平高三复读辅导班  3. 滨州邹平立行高考复读冲刺班  4. 滨州邹平立行高中复读集训班
5G工业云AI”未来已来中冶赛迪携手华为发布钢铁工业智能制造
5G 工业云 AI”未来已来中冶赛迪携手华为发布钢铁工业智能制造云智能升级正当时 中冶赛迪携手华为发布钢铁工业智能制造云发布时间:2019-08-28 12:21:37  |  来源:北国网  |  作者:  |  责任编辑:科学频道8月27日,“重庆选
2024年1月24日维护公告:春节活动盛大开幕
亲爱的玩家朋友:为保证服务器的运行稳定和服务质量,《梦幻西游》手游及电脑端版本(《梦幻西游:时空》)所有服务器将于2024年1月24日停机,进行维护工作。预计维护时间为8:00~9:00。如果在预定时间内无法完成维护内容,开服时间将顺延
AIGC如何落地培训行业最后一公里?看这篇文章就够了
  近年来,随着疫情之下外部环境骤变,市场竞争日益激烈。而在当下,如何让企业培训降本增效,最大化发挥价值成为培训人的共识。  AIGC(人工智能生成内容)技术的进步,已经超越了传统的文生文、文生图的简单应用,文生视频工具的问世
2024不用氪金的手游排行榜
《神话奇兵》是一款以魔幻冒险为背景,玩法多样的高品质卡牌策略游戏。游戏内大部分英雄以东西方神话中的神明为原型设计,冒险家将可以和美猴王、哪吒、刑天、堕天使、美杜莎等耳熟能详的神明一起并肩作战,在创世神之后,承担起击退恶魔保
2024-2029年中国肉羊养殖及羊肉深加工行业市场前瞻与投资战略规划分析报告
权威数据来源一手调研资料调研方法直接观察法(实地走访、网络观察)访谈调查法(个别面访、集体面访、电话访谈、视频访谈、小组座谈)问券调查法(在线问券、电子邮件问券、入户分发等)会议调查法(参加博览会、展览会、高峰论坛、研修会
相关文章
推荐文章
发表评论
0评