轻松部署你自己的 Stable Diffusion 云服务
原文:Deploying Your Own Stable Diffusion Service
原作者:bozhao
译者:larme, bo jiang

以上艺术图像是使用近来最火热的 AI 数字作画模型 Stable Diffusion 根据图像下方的文本语句生成的,而 AI 生成每张图只需要数秒到数分钟。Stable Diffusion 是由 stability.ai 发布的文本到图像模型,已在近期开源。我们可以在 Stable Diffusion 的官方 Hugging Face Space 直接输入自己的文本体验。
官方展示页只是一个样例展示。如何在本地或者自己的云服务器上部署一个 Stable Diffusion,甚至能够支撑起自己生产环境的应用?下面来分享一种不需要和复杂的部署环境打交道、也不需要很多服务器知识,就能够部署一个稳定、高效的 Stable Diffusion 服务的办法。
本文参考了 https://github.com/bentoml/stable-diffusion-bentoml 的代码和示例。
本地部署
如果想直接导入预先制作好的 Stable Diffusion bento,请选择下载包含单精度(fp32)或半精度(fp16)模型的 bento。单精度模型适用于纯 CPU 环境(推理时间较长)或者显存大于 10GB 的 GPU 环境,半精度适用于显存小于 10GB 的 GPU 环境。
安装本地部署依赖
pip install "bentoml>=1.0.5" torch transformers diffusers ftfy
# 如果想在 GPU 上执行,还需要保证 CUDA、CUDNN 的环境。可以使用 conda 安装
下载打包好的 Stable Diffusion 服务(bento)
curl -O <https://s3.us-west-2.amazonaws.com/bentoml.com/stable_diffusion_bentoml/sd_fp32.bento>
# 或者使用半精度模型,占用存储更小,适合在GPU上执行 curl -O <https://s3.us-west-2.amazonaws.com/bentoml.com/stable_diffusion_bentoml/sd_fp16.bento>
# 导入 bento,模型较大,可能会花费比较长的时间
bentoml import sd_fp32.bento
启动服务
bentoml serve stable_diffusion_fp32:latest --production --port 3000
# 如果导入的是半精度版本 bentoml serve stable_diffusion_fp16:latest --production --port 3000
# 如果在 CPU 上运行 Stable Diffusion 服务,其生成时间可能超过五分钟,长于 BentoML 默认超时报错时间。这时我们可以运行以下命令,设置更长的超时报错时间后启动服务
# echo "{runners: {timeout: 900}}" > conf.yaml && (BENTOML_CONFIG=conf.yaml bentoml serve stable_diffusion_fp32:latest --production --port 3000)
就可以获得可以直接给 APP 或网页提供服务的 AI 画作 API。浏览器打开 http://127.0.0.1:3000 端口即可以看到 API 描述页面(Swagger UI)。可以点击 txt2img,直接输入 {”prompt”: “a fancy house”}
测试 API 效果。

云部署(以 EC2 为例)
由于本地计算资源有限,Stable Diffusion 模型需要很长时间才能生成高质量的图像。用云服务在线使用这个模型,能节省硬件费用,随时调用强大的云端计算资源,并使我们能够更快地获得高质量的结果。将模型托管为微服务还允许其他 AI 生成程序更容易地利用模型的功能,而同时无需烦恼在线运行 ML 模型推理的复杂性。我们可以使用 bentoctl 工具来快速创建云部署。
云部署依赖
导入 Bento
(如果在之前已经导入可以跳过这个步骤)
curl -O <https://s3.us-west-2.amazonaws.com/bentoml.com/stable_diffusion_bentoml/sd_fp32.bento>
# 或者使用半精度模型,占用存储更小,适合在 GPU 上执行 curl -O <https://s3.us-west-2.amazonaws.com/bentoml.com/stable_diffusion_bentoml/sd_fp16.bento>
# 导入 bento
bentoml import sd_fp32.bento
将 Stable Diffusion Bento 部署到 EC2
我们将使用 bentoctl 将 bento 部署到 EC2。bentoctl
通过 Terraform 帮助我们将 bento 部署到多种云平台。首先我们需要安装 AWS EC2 Operator(其他云服务的 operator 请参考此列表)以生成和应用 Terraform 文件。
bentoctl operator install aws-ec2
创建一个 deployment_config.yaml 来指定 EC2 部署设置,我们也可以按照自己的需求更改这些设置,如地区、镜像。 默认的部署设置将会把 bento 部署在一台 ap-northeast-1
区的 g4dn.xlarge 实例上。 我们使用 Deep Learning AMI GPU PyTorch 1.12.0 (Ubuntu 20.04) AMI 来解决 nivida 依赖安装方面的问题.
api_version: v1
name: stable-diffusion-bentoml-tokyo
operator:
name: aws-ec2
template: terraform
spec:
region: ap-northeast-1
instance_type: g4dn.xlarge
# points to Deep Learning AMI GPU PyTorch 1.12.0 (Ubuntu 20.04) 20220913 AMI
ami_id: ami-06052cdcadbcf015d
enable_gpus: true
运行 bentoctl 命令,生成 Terraform files 和 Docker 镜像。注意:创建 Docker 镜像并推送到 AWS ECR 由于镜像体积较大,推送所需时间可能较长。
$ bentoctl generate -f deployment_config.yaml
$ bentoctl build -b stable_diffusion_fp32:latest -f deployment_config.yaml
Image pushed!
✨ generated template files.
- ./bentoctl.tfvars
- ./startup_script.sh
运行 Terraform 文件将服务部署到 AWS EC2. 然后我们可以在 EC2 控制台看到该服务。 我们也可以在浏览器里打开 EC2 实例的 IPv4 地址访问 Swagger UI.
bentoctl apply -f deployment_config.yaml
现在一个云服务就部署好了。我们可以运行以下请求来测试服务,得到以下的效果:
curl -X POST <http://127.0.0.1:3000/img2img> -H 'Content-Type: multipart/form-data' -F img="@bento.jpg" -F data="{\\"prompt\\":\\"Black and white cats.\\"}" --output output.jpg

最后,当我们不再需要 EC2 上部署的服务时,我们可以运行以下命令删除这个部署
bentoctl destroy -f deployment_config.yaml
bentoctl 也支持部署到 EC2 其他的云服务平台,参考此列表。
构建自己的服务逻辑
以上步骤都基于预先打包好的 sd_fp32.bento
,打包代码在这里 stable-diffusion-bentoml/fp32 at main · bentoml/stable-diffusion-bentoml (github.com)。如果我们想要让服务拥有自己定制的逻辑(比如用户验证)或使用其它模型,可以通过使用 BentoML 和少量的 Python 代码构建自己的 bento 包。
为什么使用 BentoML
从模型到一个服务并非一个简单的 flask 应用就可以满足需求。一个现代的适合生产环境的需要考虑可扩展性、可观测性等必要的特性。
BentoML 是一个用于构建、部署和管理机器学习模型推理服务的开源框架。算法工程师和数据科学家们可以使用 BentoML 轻松地将多种 ML 框架训练好的模型打包为 API 服务,管理模型和服务的版本并将其部署到各种生产环境。BentoML 的架构通过 API Server 和 Runner 来分离请求处理和模型推理的逻辑。逻辑分离可以有效帮助相关组件的独立扩展,更有效地使用资源,以及规避 Python GIL 带来的并行限制。而 bento 是 BentoML 用来包含一个 BentoML 服务运行所需的源文件、模型文件、数据以及部署环境依赖的一种标准化格式。

准备开发环境
用 git 克隆参考的代码示例仓库,然后安装依赖库。
git clone <https://github.com/bentoml/stable-diffusion-bentoml.git> && cd stable-diffusion-bentoml
python3 -m venv venv && . venv/bin/activate
pip install -U pip
pip install -r requirements.txt
接下来我们可以选择下载 Stable Diffusion 模型或训练自己的模型。
构建自己的 Stable Diffusion bento 可以有机会去自定义预处理逻辑。如果选择自己构建,请下载单精度(fp32)或半精度(fp16)模型,单精度模型适用于纯 CPU 环境(但推理时间较长)或者显存大于 10GB 的 GPU 环境,半精度适用于显存小于 10GB 的 GPU 环境
- 下载单精度模型
cd fp32/ curl -O <https://s3.us-west-2.amazonaws.com/bentoml.com/stable_diffusion_bentoml/sd_model_v1_4.tgz> && tar zxf sd_model_v1_4.tgz -C models/ - 下载半精度模型
cd fp16/ curl -O <https://s3.us-west-2.amazonaws.com/bentoml.com/stable_diffusion_bentoml/sd_model_v1_4_fp16.tgz> && tar zxf sd_model_v1_4_fp16.tgz -C models/
构建 Stable Diffusion Bento
我们首先创建一个 BentoML 服务来把 Stable Diffusion 模型提供的接口函数转换为 RESTful API 接口。以下示例中我们会使用单精度(fp32)模型进行推理,通过 service.py 模块将服务与业务逻辑联系在一起。我们可以使用 @svc.api
装饰器装饰模型的接口函数,BentoML 将会把它们转换成 API 接口。此外,我们可以在参数中指定 API 的 input
和 output
类型。例如,txt2img
接口接受 JSON
类型输入并返回 Image
类型输出,而 img2img
接口接受 一个 Image
类型以及一个 JSON
类型作为输入,并返回一个 Image
类型作为输出。我们可以在这里加入自己的请求处理逻辑。
@svc.api(input=JSON(), output=Image())
def txt2img(input_data):
return stable_diffusion_runner.txt2img.run(input_data)
@svc.api(input=Multipart(img=Image(), data=JSON()), output=Image())
def img2img(img, data):
return stable_diffusion_runner.img2img.run(img, data)
StableDiffusionRunnable
的代码是我们模型推理的核心逻辑,它负责调用 txt2img_pipe
和 img2img_pipe
这两个模型接口函数以及处理吊用的各种参数。StableDiffusionRunnable
会启动一个自定义的 Runner 实例。该实例负责在我们的 RESTful API 后运行模型的推理逻辑并返回推理结果。BentoML 内置对各种主流的机器学习框架的支持,大部分情况下开发者不需要自己写 Runnable
相关代码
stable_diffusion_runner = bentoml.Runner(StableDiffusionRunnable, name='stable_diffusion_runner', max_batch_size=10)
接下来,运行以下命令以启动 BentoML 服务进行测试。使用 CPU 在本地运行 Stable Diffusion 模型推理耗时较多,每个请求大约需要 5 分钟甚至更长才能完成。
BENTOML_CONFIG=configuration.yaml bentoml serve service:svc --production
我们可以运行以下的脚本来测试 /txt2img
和 /img2img
这两个接口,生成结果会被保存为 output.jpg
curl -X POST <http://127.0.0.1:3000/txt2img> -H 'Content-Type: application/json' -d "{\\"prompt\\":\\"View of a cyberpunk city\\"}" --output output.jpg
curl -X POST <http://127.0.0.1:3000/img2img> -H 'Content-Type: multipart/form-data' -F img="@input.jpg" -F data="{\\"prompt\\":\\"View of a cyberpunk city\\"}" --output output.jpg
测试完毕后,我们可以把当前的服务打包为一个 bento。通过创建一个 bentofile.yaml 文件(更多关于此文件格式的信息请参照这里), 我们可以让 BentoML 得知它需要构建 bento 所需的全部信息:
service: "service.py:svc"
include:
- "service.py"
- "requirements.txt"
- "models/v1_4"
- "configuration.yaml"
python:
packages:
- torch
- transformers
- diffusers
- ftfy
docker:
distro: debian
cuda_version: "11.6.2"
env:
BENTOML_CONFIG: "configuration.yaml"
运行下面的命令我们就可以构建我们的 Stable Diffusion bento
bentoml build
# 查看现有的所有 bento
bentoml list
总结
在本文中,我们使用 BentoML 为 Stable Diffusion 构建了一个可以轻松部署在各种生产环境的服务,并将其部署到 AWS EC2。在 AWS EC2 上部署该服务使我们能够在更强大的硬件上运行 Stable Diffusion 模型,生成具有低延迟的图像。同时服务也可以随时扩展到多台机器。如果你喜欢这篇文章,可以加入 BentoML 的 Slack 社区,结识更多志同道合的朋友。
本文使用到的链接:
-
DeepSeek 一体机:开启智算新时代,融合知识库与智能体的创新力量
在当今人工智能飞速发展的时代,技术的创新与融合正以前所未有的速度重塑着各个行业。其中,DeepSeek 一体机凭借其卓越的性能和独特的设计,成为了推动人工智能应用落地的关键力量。它不仅集成了强大的 DeepSeek-R1 大模型,还在本地化部署、与知识库及智能体的融合等方面展现出巨大优势,为企业和开发者提供了高效、便捷且安全的智算解决方案。同时,随着市场对其需求的增长,如何正确购买 DeepSeek 一体机也成为了关注焦点。
넶0 2025-04-30 -
RAG、知识库与智能体:n8n、coze、dify、fastgpt、mcp 驱动的智能生态新变革
在当今人工智能蓬勃发展的时代,新技术、新应用层出不穷,不断重塑着各个行业的格局。其中,RAG(Retrieval-Augmented Generation,检索增强生成)、知识库与智能体技术正逐渐成为推动智能化发展的关键力量,而 n8n、coze、dify、fastgpt、mcp 等平台和工具则为这些技术的落地与创新应用提供了有力支撑,共同构建起一个充满活力的智能生态体系。
넶0 2025-04-30 -
InfiniBand 组网与 GPU 池化管理:英伟达与迈络思携手构建高效算力调度体系
在当今数字化浪潮中,随着人工智能、大数据分析、科学模拟等数据密集型应用的迅猛发展,对算力的需求呈指数级增长。为了满足这一需求,构建高效的计算架构成为关键。其中,InfiniBand(IB)组网、GPU 池化管理以及算力调度技术,在提升计算效率、优化资源利用方面发挥着核心作用,而英伟达与迈络思的深度合作更是为这一领域带来了创新的解决方案。
넶0 2025-04-30 -
PICO 与 HTCVIVE 引领大空间多人互动新潮流,解锁数字人动作捕捉新体验
在科技飞速发展的当下,虚拟现实(VR)技术正以前所未有的速度改变着我们的生活与娱乐方式。从最初简单的头戴式设备体验,到如今能够实现大空间多人互动的沉浸式环境,VR 技术不断突破边界。而在这一发展浪潮中,PICO 与 HTCVIVE 作为行业的佼佼者,正引领着新的潮流,尤其是在大空间多人互动以及数字人动作捕捉领域,展现出了强大的技术实力与无限的应用潜力。
넶0 2025-04-30 -
算力租赁市场崛起:英伟达 H20 驱动的 GPU 集群与 AI 服务器新变革
在当今数字化时代,数据量呈爆炸式增长,人工智能(AI)技术的应用也日益广泛。从智能语音助手到图像识别系统,从自动驾驶汽车到医疗诊断辅助工具,AI 技术正深刻改变着我们的生活和工作方式。而这一切的背后,强大的算力支撑起着至关重要的作用。算力,作为推动 AI 发展的核心动力,其需求正随着 AI 应用的不断拓展而急剧攀升。在此背景下,算力租赁市场应运而生,并逐渐成为行业关注的焦点。
넶0 2025-04-30 -
DeepSeek 一体机:开启智能体、知识库与大模型本地化部署新篇
在人工智能技术日新月异的当下,企业与开发者对高效、便捷且安全的 AI 解决方案需求愈发迫切。DeepSeek 一体机的出现,宛如一场及时雨,为智能体应用开发、知识库搭建以及大模型本地化部署带来了全新的可能。它与 n8n 工作流平台的潜在协同,更是为构建全面智能生态系统提供了强大助力。
넶4 2025-04-29