AI大观日报 | 23.07.23

 

1.港大阿里「视觉AI任意门」,一键向场景中无缝传送物体
2.一张图转3D质量起飞!GitHub刚建空仓就有300+人赶来标星

港大阿里「视觉AI任意门」,一键向场景中无缝传送物体

文章来源:量子位

概述

阿里巴巴和香港大学的研究人员开发出一种名为AnyDoor的AI技术,可以实现零样本的图像嵌入,即通过在一张图片上进行操作,将物体无缝“传送”到另一张图片中,同时自动适应光线角度和透视。这项技术可以应用于网购试衣、图像编辑等场景,提高用户体验。

要点

  • [🔬] 阿里巴巴和香港大学的研究人员开发出一种名为AnyDoor的AI技术,可以实现零样本的图像嵌入,即通过在一张图片上进行操作,将物体无缝“传送”到另一张图片中,同时自动适应光线角度和透视。
  • [👕] AnyDoor的应用场景包括网购试衣,用户可以直接看到衣服的上身效果,提高购物体验。
  • [🎨] AnyDoor不仅可以传送物体,还能移动图像里的已有物品,甚至改变其姿态,具有很高的图像编辑能力。
  • [⚙️] AnyDoor的工作流程包括:首先进行背景消除,然后进行自监督式的物体提取并转换成token,接着提取物品的整体特征和细节信息,最后将这些信息进行注入,通过文生图模型对图像进行合成。
  • [🎞️] AnyDoor的训练数据部分来自视频,通过将物体与背景分离后标注配对,形成训练数据。团队还设计了自适应时间步采样策略,在不同时刻分别采集变化和细节信息,提高了模型的学习效果。
  • [🏅] 用户评价的结果证实,AnyDoor在质量和准确度方面表现均优于现有模型(满分4分)。

一张图转3D质量起飞!GitHub刚建空仓就有300+人赶来标星

文章来源:量子位

概述

KAUST、Snap和牛津联合团队开发出一种名为Magic123的AI技术,可以实现只用一张图转3D的高保真效果。这种技术采用了两阶段方案,首先使用Instant-NGP进行快速推理和重建,然后使用DMTet方法细化和解耦3D模型。Magic123在NeRF4和RealFusion15数据集上的表现超过了之前的最优方法。

要点

  • [🔬] KAUST、Snap和牛津联合团队开发出一种名为Magic123的AI技术,可以实现只用一张图转3D的高保真效果。
  • [⚙️] Magic123采用了两阶段方案,首先使用Instant-NGP进行快速推理和重建,然后使用DMTet方法细化和解耦3D模型。
  • [🌟] Magic123在NeRF4和RealFusion15数据集上的表现超过了之前的最优方法,取得了所有指标上的Top-1成绩。
  • [📊] Magic123的训练方法结合了2D和3D先验信息,通过反复试验,最终找到了二者的平衡点,取得了最好的效果。
  • [⚠️] Magic123的局限性在于,整个方法都建立在“假设参考图像是正视图”的基础上,输入其他角度的图像会导致生成的几何性质较差。另外,由于使用了SDS损失,Magic123倾向于生成过度饱和的纹理。
  • [🎉] 尽管论文刚挂在arXiv上,代码还没来得及上传时,就已经有300+人赶来标星码住,显示出该技术的受欢迎程度。

(AI大观日报会为您推送每日的AI热点新闻,其中所有的概述及要点都由AI自动总结生成。若想查看详细内容,可点击标题进入原文)

给TA打赏
共{{data.count}}人
人已打赏
AI资讯

AI大观日报 | 23.07.22

2023-7-22 17:13:00

AI资讯

AI大观日报 | 23.07.24

2023-7-24 17:25:53

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索