mirror of
https://github.com/langgenius/dify-docs.git
synced 2026-03-26 13:18:34 +07:00
fix some bold rendering and update enterprise docs (#554)
* fix bold failure in cn docs * update load balancing content for enterprise docs --------- Co-authored-by: Riskey <riskey47@dify.ai>
This commit is contained in:
@@ -207,8 +207,8 @@ API密钥安全存储但授予工作区范围的模型访问权限。只将管
|
||||
|
||||
## 故障排除
|
||||
|
||||
**身份验证失败:**验证API密钥准确性,检查过期时间,确保有足够积分,确认密钥权限。
|
||||
**身份验证失败**:验证API密钥准确性,检查过期时间,确保有足够积分,确认密钥权限。
|
||||
|
||||
**模型不可用:**检查供应商配置是否包含该模型,验证API密钥等级访问权限,刷新供应商设置。
|
||||
**模型不可用**:检查供应商配置是否包含该模型,验证API密钥等级访问权限,刷新供应商设置。
|
||||
|
||||
**速率限制:**升级供应商账户,实施请求队列,考虑使用自定义供应商获得更高限制。
|
||||
**速率限制**:升级供应商账户,实施请求队列,考虑使用自定义供应商获得更高限制。
|
||||
|
||||
@@ -1,44 +1,41 @@
|
||||
---
|
||||
title: 负载均衡
|
||||
version: '简体中文'
|
||||
title: 配置负载均衡
|
||||
---
|
||||
|
||||
模型速率限制(Rate limits)是模型厂商对用户或客户在指定时间内访问 API 服务次数所添加的限制。它有助于防止 API 的滥用或误用,有助于确保每个用户都能公平地访问 API,控制基础设施的总体负载。
|
||||
## 介绍
|
||||
|
||||
在企业级大规模调用模型 API 时,高并发请求会导致超过请求速率限制并影响用户访问。负载均衡可以通过在多个 API 端点之间分配 API 请求,确保所有用户都能获得最快的响应和最高的模型调用吞吐量,保障业务稳定运行。
|
||||
<Info>
|
||||
负载均衡为付费特性,可通过 [订阅 SaaS 付费服务或者购买企业版](https://dify.ai/zh/pricing) 以启用。
|
||||
</Info>
|
||||
|
||||
你可以在 **模型供应商 -- 模型列表 -- 设置模型负载均衡** 打开该功能,并在同一个模型上添加多个凭据 (API key)。
|
||||
通常,模型供应商会限制用户在指定时间内访问 API 服务的次数(模型速率限制),以确保服务的稳定性与合理使用。对于企业级应用,来自单一凭据的高并发请求容易触发模型速率限制,从而影响用户访问。
|
||||
|
||||
<Frame caption="模型负载均衡" width="563">
|
||||
<img src="/zh-cn/user-guide/.gitbook/assets/load-balancing.png" alt="模型负载均衡设置界面" />
|
||||
</Frame>
|
||||
而负载均衡可将请求流量分配至多个模型凭据,有效避免模型速率限制和单点故障,并为所有用户提供更快的响应速度,保障业务稳定运行。
|
||||
|
||||
默认配置中的 API Key 为初次配置模型供应商时添加的凭据,你需要点击 **增加配置** 添加同一模型的不同 API Key 来正常使用负载均衡功能。
|
||||
Dify 采用轮询策略的负载均衡机制,即:将模型请求按顺序依次分配给负载均衡池中的各个凭据。若某个凭据触发模型速率限制,系统将在接下来一分钟内的轮询中暂时跳过该凭据,以避免无效重试。
|
||||
|
||||
<Frame caption="配置负载均衡" width="563">
|
||||
<img src="/zh-cn/user-guide/.gitbook/assets/load-balancing-1.png" alt="负载均衡配置界面" />
|
||||
</Frame>
|
||||
## 步骤
|
||||
|
||||
**需要额外添加至少 1 个模型凭据**即可保存并开启负载均衡。
|
||||
为模型配置负载均衡,按照以下步骤操作:
|
||||
|
||||
你也可以将已配置的凭据**临时停用**或者**删除**。
|
||||
1. 在模型列表中找到目标模型,点击对应的 **配置**,选择 **负载均衡** 模式。
|
||||
|
||||
<Frame caption="凭据管理" width="563">
|
||||
<img src="/zh-cn/user-guide/.gitbook/assets/load-balancing-3.png" alt="凭据停用和删除选项" />
|
||||
</Frame>
|
||||
2. 在负载均衡池中,点击 **添加凭据**,从已有凭据中选择或添加新凭据。
|
||||
|
||||
配置完成后再模型列表内会显示所有已开启负载均衡的模型。
|
||||
|
||||
<Frame caption="开启负载均衡" width="563">
|
||||
<img src="/zh-cn/user-guide/.gitbook/assets/load-balancing-4.png" alt="已开启负载均衡的模型列表" />
|
||||
</Frame>
|
||||
<Info>
|
||||
**默认配置** 为当前指定的默认凭据。
|
||||
</Info>
|
||||
|
||||
<Tip>
|
||||
默认情况下,负载均衡使用 Round-robin 策略。如果触发速率限制,将应用 1 分钟的冷却时间。
|
||||
若某个凭据的配额充足或性能更优,可重复添加该凭据以增加其在负载均衡中的权重,使其承担更大比例的请求负载。
|
||||
</Tip>
|
||||
|
||||
你也可以从 **添加模型** 配置负载均衡,配置流程与上面一致。
|
||||

|
||||
|
||||
<Frame caption="从添加模型配置负载均衡" width="563">
|
||||
<img src="/zh-cn/user-guide/.gitbook/assets/load-balancing-5.png" alt="从添加模型界面配置负载均衡" />
|
||||
</Frame>
|
||||
3. 在负载均衡池中启用至少 2 个凭据,点击 **保存**。已启用负载均衡的模型将带有特殊标识。
|
||||
|
||||

|
||||
|
||||
<Info>
|
||||
从负载均衡模式切换回默认的单凭据模式时,系统将保留负载均衡配置以备后用。
|
||||
</Info>
|
||||
@@ -1,34 +1,41 @@
|
||||
---
|
||||
title: 負荷分散
|
||||
version: '日本語'
|
||||
title: "負荷分散の構成"
|
||||
---
|
||||
|
||||
モデルのレート制限(Rate limits)とは、モデルプロバイダーがユーザーまたは顧客に対し、指定された時間内にAPIサービスへアクセスする回数に対して設ける制限のことです。これにより、APIの乱用や誤用を防ぎ、すべてのユーザーが公平にAPIにアクセスできるようにし、インフラ全体の負荷を管理することができます。
|
||||
## はじめに
|
||||
|
||||
企業レベルで大規模にモデルAPIを呼び出す際、同時リクエストが多いとレート制限を超えてしまい、ユーザーのアクセスに影響を及ぼすことがあります。負荷分散は、複数のAPIエンドポイント間でAPIリクエストを分配することで、すべてのユーザーがレート制限にかからずに最速の応答とモデル呼び出しのスループットを得られるようにし、ビジネスの安定した運用を保障する仕組みです。
|
||||
<Info>
|
||||
ロードバランシングは有料機能です。[SaaS有料プランのサブスクリプションまたはエンタープライズ版の購入](https://dify.ai/jp/pricing)によって有効化できます。
|
||||
</Info>
|
||||
|
||||
**モデルプロバイダー -- モデルリスト -- 負荷分散の設定** でこの機能を有効にし、同じモデルに複数の認証情報(APIキー)を追加することができます。
|
||||
モデルプロバイダーは通常、安定性と公平な利用を確保するため、特定の時間枠内でのAPIアクセスにレート制限を設けています。エンタープライズアプリケーションでは、単一の認証情報に対して大量の同時リクエストが発生すると、この制限に容易に達してしまい、ユーザーアクセスが中断される可能性があります。
|
||||
|
||||

|
||||
効果的な解決策はロードバランシングです。これは、リクエストのトラフィックを複数のモデル認証情報に分散させる手法です。これにより、レート制限の問題や単一障害点を回避し、ビジネスの継続性を確保するとともに、すべてのユーザーに対してより速い応答時間を実現します。
|
||||
|
||||
デフォルト設定では、APIキーは初回設定時にモデルプロバイダーに追加された認証情報です。**設定の追加** をクリックして、同じモデルの異なるAPIキーを追加することで、負荷分散機能を使用できます。
|
||||
Difyはロードバランシングにラウンドロビン方式を採用しており、モデルへのリクエストをロードバランシングプール内の各認証情報に順番にルーティングします。ある認証情報がレート制限に達した場合、無駄な再試行を避けるために、その認証情報は1分間、ローテーションから一時的に除外されます。
|
||||
|
||||

|
||||
## 手順
|
||||
|
||||
**少なくとも1つの追加モデル認証情報**を追加することで、負荷分散を有効にできます。
|
||||
モデルのロードバランシングを設定するには、次の手順に従います。
|
||||
|
||||
既に設定されている認証情報を**一時的に無効化**または**削除**することも可能です。
|
||||
1. モデルリストで対象のモデルを探し、対応する **コンフィグ** をクリックして **負荷分散** を選択します。
|
||||
|
||||

|
||||
2. ロードバランシングプールで **認証情報を追加する** をクリックし、既存の認証情報を選択するか、新しい認証情報を追加します。
|
||||
|
||||
設定完了後、モデルリスト内にすべての有効な負荷分散モデルが表示されます。
|
||||
|
||||

|
||||
<Info>
|
||||
**デフォルトの設定** は、そのモデルに現在指定されているデフォルトの認証情報を指します。
|
||||
</Info>
|
||||
|
||||
<Tip>
|
||||
デフォルトでは、負荷分散はラウンドロビン戦略を使用します。レート制限を超えた場合、1分間のクールダウンタイムが適用されます。
|
||||
特定の認証情報がより高いクォータを持つ、またはより優れたパフォーマンスを示す場合は、その認証情報を複数回追加することでロードバランシングにおける重みを増し、より多くのリクエストを処理させることができます。
|
||||
</Tip>
|
||||
|
||||
**モデルの追加**からも負荷分散を設定することができ、設定手順は上記と同じです。
|
||||

|
||||
|
||||

|
||||
3. 負荷分散プールで少なくとも2つの認証情報を有効にし、**保存** をクリックします。負荷分散が有効になったモデルには、特別なアイコンが表示されます。
|
||||
|
||||

|
||||
|
||||
<Info>
|
||||
ロード バランシング モードからデフォルトの単一認証情報モードに戻しても、ロード バランシングの設定は将来の使用のために保持されます。
|
||||
</Info>
|
||||
|
||||
Reference in New Issue
Block a user