Stable Diffusion 初尝试

Published: February 20, 2023

最近利用 stable diffusion 模型生成图片的讨论又在 Twitter 上流行了起来,主要是基于 ChilloutMix 和 Lora 模型。利用 GitHub 上开源的 stable-diffusion-webui 项目可以很方便地在有 GPU 的机器上进行部署.

效果展示

我使用的是 Taiwan Doll 这个 Lora 模型,它会生成接近台湾女孩👯‍♀️长相的图片,其他类似的模型包括 Korean DollJapanness Doll, 会生成对应风格的图片🏞️.

安装完 webui 项目后请确保 ChilloutMix 和对应的 Lora 模型均已被正确加载。然后可以根据输入的 prompts 和调整图片生成选项来产生图片,我使用的 prompt 是:

best quality, ultra high res, (photorealistic:1.4), 1girl, blazer, button shirt, black skirt, school, dark brown hair, large breasts, (blonde hair:1.2), looking at viewer, low angle

在一张 40G 的 A100 GPU 上生成分辨率为 512x512 的图片需要大概 25 秒,生成过程中显存占用大概为 20G, 运行功耗在 250W 左右。最终的效果为:

可以看到人物的脸部还是有些奇怪,并且风格有些过于脸谱化了 (跟 Taiwan Doll 原本的模型过于相似了).

我还尝试了另外一组参数,prompts 是:

taking off her bikini, showing one breast, ultra high res, best quality, photo, 4k, (photorealistic:1.4), beach, nude, half naked, show nipple, perfect hand

Emmm, 不知道如何评价,只能说细节部分有待加强.

个人感受

虽说近年来一直有 AI 应用的落地,但还没有一个像这次 ChatGPT 一样🔥出圈。昨晚还简单设想过用 Stable Diffusion 生成图片,再让 ChatGPT 帮我写文案,发到小红书上当网红的路子🤪.

虽说现在 AI 内容生成在质量上可能不如人类,但在速度和数量上有着明显优势。社交媒体上有不少人表达了对工作岗位可能被 AI 取代的忧虑,但 AI 领域已经很久没有出现像 2017 年 AlphaGo 战胜柯洁让人眼前一亮的应用了,这波 ChatGPT 的出圈可以说重新燃起了投资人对 AI 产业的信心 (至少从国内各大公司争相模仿 ChatGPT 来看), 不论是对于 AI 算法设计,还是从事 MLSys 或是通过软硬件协同设计绞尽脑汁让 AI 模型训练 & 推理速度更快的工程师来说都是利好.

Jensen Huang: We have done nothing but make computer harder and harder for people to program. — Berkeley Dean's Speaker Series 2023