一张相片为深度学习巨子们定制人像图片
主题驱动的文本到图画生成,常常要在多张包括该主题(如人物、风格)的数据集上进行练习,这类办法中的代表作业包括 DreamBooth、Textual Inversion、LoRAs 等,但这类计划因需求更新整个网络或较长时刻的定制化练习,往往无法很有用地兼容社区已有的模型,并无法在实在场景中快速且低成本运用。而现在根据单张图片特征进行嵌入的办法(FaceStudio、PhotoMaker、IP-Adapter),要么需求对文生图模型的全参数练习或 PEFT 微调,影响本来模型的泛化功用,缺少与社区预练习模型的兼容性,要么无法坚持高保真度。
为了处理这样一些问题,来自 InstantX 团队的研究人员提出了 InstantID,该模型不练习文生图模型的 UNet 部分,仅练习可插拔模块,在推理过程中无需 test-time tuning,在简直不影响文本操控才能的情况下,完成高保真 ID 坚持。
InstantID 是一个高效的、轻量级、可插拔的适配器,赋予预练习的文本到图画分散模型以 ID 保存的才能。作者经过(1)将弱对齐的 CLIP 特征替换为强语义的人脸特征;(2)人脸图画的特征在 Cross-Attention 中作为 Image Prompt 嵌入;(3)提出 IdentityNet 来对人脸施加强语义和弱空间的条件操控,然后增强 ID 的保真度以及文本的操控力。
下图为运用 InstantID 进行风格化的成果,输入仅为最左边的人物图画。
(1) InstantID 作为一种全新的 ID 保存办法,有用弥补了练习功率与 ID 保线)InstantID 是可插拔的,与现在社区内文生图根底模型、LoRAs、ControlNets 等彻底兼容,可以零成本地在推理过程中坚持人物 ID 特点。此外,InstantID 坚持了杰出的文本修改才能,使 ID 可以丝滑地嵌入到各种风格傍边。
(3)试验成果表明,InstantID 不只逾越现在根据单张图片特征进行嵌入的办法(IP-Adapter-FaceID),还与 ROOP、LoRAs 等办法在特定场景下不分伯仲。它杰出的功用和功率激发了其在一系列实践运用中的巨大潜力,例如新颖的视图组成、ID 插值、多 ID 和多风格组成等。
仅给定一张参阅 ID 图画,InstantID 的方针是从单个参阅 ID 图画生成具有各种姿态或风格的定制图画,一起确保高保真度。上图概述了咱们的办法。它包括三个要害组成部分:(1) 鲁棒的人脸表征;(2) 具有解耦功用的穿插注意力,支撑 Image Prompt;(3) IdentityNet,引进额定的弱空间操控对参阅面部图画的杂乱特征进行编码。
1. 因为 CLIP 只供给了弱语义表征,无法在人脸等强语义场景下直接运用,考虑了人脸辨认范畴现已适当老练,所以咱们选用预练习的人脸编码器来提取人脸特征。在本文中,个人会运用来自 insightface 供给的 antelopev2 模型来提取人脸特征。
2. 如从前办法所述,预练习的文本到图画分散模型中的图画提示功用可以增强了文本提示,特别是关于难以用文字描述的内容,因而,咱们选用和 IP-Adapter 共同的具有解耦功用的穿插注意力机制,但不同在于个人会运用人脸特征,而非 CLIP 表征。
3. 引进 IdentityNet 来对人脸图画进行编码。在完成中,IdentityNet 选用与 ControlNet 共同的残差结构,然后坚持原始模型的兼容性。在 IdentityNet 中,主要有两个关于原版 ControlNet 的修正:1)只运用五个面部要害点,而不是细粒度的 OpenPose 面部要害点 (两个用于眼睛,一个用于鼻子,两个用于嘴巴)用于条件输入。2)咱们消除文本提示并运用 ID 嵌入作为条件加入到 ControlNet 中的穿插注意力层。
作者首要展现了办法的稳健性、可修改性和兼容性,别离对应在空文本、修改文本、额定运用 ControlNets 下的生成作用。可以正常的看到,InstantID 仍就坚持了较好的文本操控才能,一起与开源的 ControlNet 模型兼容。
(1)根据单图特征注入(IP-Adapter 与 PhotoMaker)。相比之下,IP-Adapter 具有可插拔性,兼容社区模型,且其 FaceID 版别的人脸保真度有显着提高,可是关于文本的操控才能呈现显着退化;而近期新推出的 PhotoMaker,需求练习整个模型(尽管选用了 LoRA 的方法),风格退化问题削弱,但其人脸保真度未见显着提高,乃至不如 IP-Adapter-FaceID。而咱们提出的 InstantID 统筹了人脸保真度和文本操控才能。
根据高功用的人像注入和修改才能,InstantID能支撑许多衍生运用玩法
上一篇:浦发信用卡论坛吧