当前位置:AIGC资讯 > AIGC > 正文

Datewhale×魔搭 AI夏令营第四期 AIGC方向Task3笔记

·Part1 ComfyUI

1.ComfyUI简介:

GUI 是 "Graphical User Interface"(图形用户界面)的缩写。简单来说,GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的交互方式。

ComfyUI 是GUI的一种,是基于节点工作的用户界面,主要用于操作图像的生成技术,ComfyUI 的特别之处在于它采用了一种模块化的设计,把图像生成的过程分解成了许多小的步骤,每个步骤都是一个节点。这些节点可以连接起来形成一个工作流程,这样用户就可以根据需要定制自己的图像生成过程。

2.ComfyUI核心模块

核心模块由模型加载器、提示词管理器、采样器、解码器。

模型加载器:模型加载器:Load Checkpoint用于加载基础的模型文件,包含了Model、CLIP、VAE三部

CLIP模块:将文本类型的输入变为模型可以理解的latent space embedding作为模型的输入

解码器:VAE模块的作用是将Latent space中的embedding解码为像素级别的图像

采样器:用于控制模型生成图像,不同的采样取值会影响最终输出图像的质量和多样性。采样器可以调节生成过程的速度和质量之间的平衡。

3.ComfyUI图片生成流程

4.ComfyUI的优势

模块化和灵活性、可视化界面、多模型支持、调试和优化、开放和可扩展性、用户友好性

5.ComfyUI实操

不带Lora的工作流样例

带Lora的工作流样例

·Part2:Lora微调

1.Lora简介

LoRA (Low-Rank Adaptation) 微调是一种用于在预训练模型上进行高效微调的技术。它可以通过高效且灵活的方式实现模型的个性化调整,使其能够适应特定的任务或领域,同时保持良好的泛化能力和较低的资源消耗。这对于推动大规模预训练模型的实际应用至关重要。

2.Lora微调的原理

LoRA通过在预训练模型的关键层中添加低秩矩阵来实现。这些低秩矩阵通常被设计成具有较低维度的参数空间,这样它们就可以在不改变模型整体结构的情况下进行微调。在训练过程中,只有这些新增的低秩矩阵被更新,而原始模型的大部分权重保持不变。

3.Lora微调的优势

快速适应新任务:在特定领域有少量标注数据的情况下,也可以有效地对模型进行个性化调整,可以迅速适应新的领域或特定任务。

保持泛化能力:LoRA通过微调模型的一部分,有助于保持模型在未见过的数据上的泛化能力,同时还能学习到特定任务的知识。

资源效率:LoRA旨在通过仅微调模型的部分权重,而不是整个模型,从而减少所需的计算资源和存储空间。

 4.UNet、VAE和文本编码器的协作关系

UNet:负责根据输入的噪声和文本条件生成图像。在Stable Diffusion模型中,UNet接收由VAE编码器产生的噪声和文本编码器转换的文本向量作为输入,并预测去噪后的噪声,从而生成与文本描述相符的图像

VAE:生成模型,用于将输入数据映射到潜在空间,并从中采样以生成新图像。在Stable Diffusion中,VAE编码器首先生成带有噪声的潜在表示,这些表示随后与文本条件一起输入到UNet中

文本编码器:将文本输入转换为模型可以理解的向量表示。在Stable Diffusion模型中,文本编码器使用CLIP模型将文本提示转换为向量,这些向量与VAE生成的噪声一起输入到UNet中,指导图像的生成过程

总结

**文章总结:ComfyUI与Lora微调**
**一、ComfyUI概述**
ComfyUI是一种基于节点的图形用户界面(GUI),专门用于操作图像生成技术。它采用模块化设计将复杂的图像生成过程拆分为多个小步骤(即节点),这些节点可通过连接形成一个定制化工作流程。其核心模块包括模型加载器、CLIP模块、解码器及采样器,分别负责加载基础模型文件、将文本输入转换为模型可理解的latent space embedding、将latent space中的embedding解码为图像,以及控制生成图像的质量和多样性。CompfyUI的优势主要体现在模块化灵活性、可视化界面、多模型支持、调试优化便捷、开放可扩展性以及用户友好性上。
**二、ComfyUI的实操与应用展示**
文章还简要介绍了ComfyUI的实操流程,包括不带Lora和带Lora的工作流样例,展示了其如何应用于实际的图像生成任务中。
**三、Lora微调技术**
LoRA (Low-Rank Adaptation) 是一种高效的微调技术,它能在保持模型大多数权重不变的情况下,通过添加低秩矩阵实现对预训练模型的个性化调整。这使得LoRA能够在资源有限的情况下,使模型快速适应新任务或领域,同时保持良好的泛化能力。LoRA的优势在于,它能在少量标注数据的支持下有效进行模型调整,减少了计算和资源消耗。
**四、UNet、VAE与文本编码器的协作**
在Stable Diffusion等模型中,UNet、VAE和文本编码器共同发挥着核心作用。UNet根据输入的噪声和文本条件生成图像,VAE则生成包含噪声的潜在表示并与文本条件一同输入UNet,文本编码器则将文本输入转换为模型可理解的向量表示,指导图像的生成过程。这三者的紧密协作,构建了一个高效、灵活且强大的图像生成系统。
综上所述,ComfyUI以其模块化和灵活性为用户提供了强大的图像生成平台,而Lora微调技术则为模型的个性化调整提供了新的高效途径。两者结合,进一步推动了图像生成技术的创新和发展。

更新时间 2024-09-26