- 
-
- **パラメータ設定**
+
+
+
+
+
+
+
+**パラメータ設定**
+
+| パラメータ | 種類 | 説明 |
+|--------------------|--------|------------------------------------------------|
+| URL | 必須 | 対象Webページのアドレス |
+| サブページのクロール | 任意 | リンク先ページもクロールするか |
+| サイトマップ使用 | 任意 | サイトマップを利用してクロール |
+| 制限 | 必須 | クロールする最大ページ数 |
+| Extractor有効化 | 任意 | データ抽出方式の選択 |
+
+
- | パラメータ | 種類 | 説明 |
- |--------------------|--------|------------------------------------------------|
- | URL | 必須 | 対象Webページのアドレス |
- | サブページのクロール | 任意 | リンク先ページもクロールするか |
- | サイトマップ使用 | 任意 | サイトマップを利用してクロール |
- | 制限 | 必須 | クロールする最大ページ数 |
- | Extractor有効化 | 任意 | データ抽出方式の選択 |
-
#### Firecrawl
きめ細かなクロール制御オプションとAPIサービスを持つオープンソースのWeb解析ツールです。複雑なサイトの深層クロールやバッチ処理に適しています。
-
-
- 
-
-
- **パラメータ設定**
+
+
+
+
+
+
+
+**パラメータ設定**
+
+| パラメータ | 種類 | 説明 |
+|-----------------------|--------|------------------------------------------------|
+| URL | 必須 | 対象Webページのアドレス |
+| 制限 | 必須 | クロールする最大ページ数 |
+| サブページクロール | 任意 | リンク先ページもクロールするか |
+| 最大深度 | 任意 | 開始URLからクロールする階層の深さ |
+| 除外パス | 任意 | クロール対象から除外したいURLパターン |
+| 限定パス | 任意 | 指定したパスのみクロール |
+| Extractor | 任意 | データ処理方式の選択 |
+| 主要コンテンツのみ抽出 | 任意 | ページの主要テキストやメディアのみ抽出 |
+
+
- | パラメータ | 種類 | 説明 |
- |-----------------------|--------|------------------------------------------------|
- | URL | 必須 | 対象Webページのアドレス |
- | 制限 | 必須 | クロールする最大ページ数 |
- | サブページクロール | 任意 | リンク先ページもクロールするか |
- | 最大深度 | 任意 | 開始URLからクロールする階層の深さ |
- | 除外パス | 任意 | クロール対象から除外したいURLパターン |
- | 限定パス | 任意 | 指定したパスのみクロール |
- | Extractor | 任意 | データ抽出方式の選択 |
- | 主要コンテンツのみ抽出 | 任意 | ページの主要テキストやメディアのみ抽出 |
-
---
@@ -179,41 +193,41 @@ Google Drive、Dropbox、OneDriveなどのクラウドストレージサービ
### ドキュメントプロセッサ
-PDF, XLSX, DOCXなど多様な形式のドキュメントが存在しますが、LLMはこれらをそのまま扱えません。そのため、抽出器(Extractor)が各種ファイルを解析・変換し、LLMが扱いやすい形式に変換します。
+PDF、XLSX、DOCXなど多様な形式のドキュメントが存在しますが、LLMはこれらをそのまま扱えません。そのため、抽出器(Extractor)が各種ファイルを解析・変換し、LLMが扱いやすい形式に変換します。
Difyのドキュメント抽出器、あるいはMarketplaceから「Dify Extractor」「Unstructured」等のツールを選択できます。
- ドキュメント内の画像は、適切なドキュメントプロセッサを使用して抽出できます。抽出された画像は対応するチャンクに添付され、個別に管理でき、検索時にはそのチャンクと一緒に返されます。
-
- 各チャンクには最大10枚まで画像を添付できます。これを超える画像は抽出されません。
+ドキュメント内の画像は、適切なドキュメントプロセッサを使用して抽出できます。抽出された画像は対応するチャンクに添付され、個別に管理でき、検索時にはそのチャンクと一緒に返されます。
- 選択したプロセッサで画像が抽出されなかった場合、Difyは以下のMarkdown記法でアクセス可能なURLが参照されている2MB未満のJPG、PNG、GIF画像を自動的に抽出します:
+各チャンクには最大10枚まで画像を添付できます。これを超える画像は抽出されません。
- - ``
- - ``
+選択したプロセッサで画像が抽出されなかった場合、Difyは以下のMarkdown記法でアクセス可能なURLが参照されている2MB未満のJPG、JPEG、PNG、GIF画像を自動的に抽出します:
-
- セルフホスト環境では、以下の上限を環境変数で調整できます:
-
- - 画像サイズの上限:`ATTACHMENT_IMAGE_FILE_SIZE_LIMIT`
-
- - 1チャンクあたりの添付画像数上限:`SINGLE_CHUNK_ATTACHMENT_LIMIT`
-
+ - ``
+ - ``
- その後のインデックス設定で**Vision**アイコン付きのマルチモーダル埋め込みモデルを選択した場合、抽出された画像も埋め込み・インデックス化され、検索対象となります。
+
+ セルフホスト環境では、以下の上限を環境変数で調整できます:
+
+ - 画像サイズの上限:`ATTACHMENT_IMAGE_FILE_SIZE_LIMIT`
+
+ - 1チャンクあたりの添付画像数上限:`SINGLE_CHUNK_ATTACHMENT_LIMIT`
+
+
+その後のインデックス設定で**Vision**アイコン付きのマルチモーダル埋め込みモデルを選択した場合、抽出された画像も埋め込み・インデックス化され、検索対象となります。
#### Doc Extractor(ドキュメント抽出器)
-
+
-情報処理の中核となり、入力ファイルを識別・読取・情報抽出を行い、次のノードで利用できる形式へ変換します。
+情報処理の中核となり、入力変数からファイルを識別・読取・情報抽出を行い、次のノードで利用できる形式へ変換します。
-詳細は[ドキュメント抽出器](/ja-jp/use-dify/nodes/doc-extractor)をご参照ください。
+詳細は[ドキュメント抽出器](/ja/use-dify/nodes/doc-extractor)をご参照ください。
#### Dify Extractor
@@ -224,15 +238,18 @@ Dify Extractorは、Difyが提供する内蔵ドキュメント解析ツール
#### Unstructured
-
-
- 
-
-
- [Unstructured](https://marketplace.dify.ai/plugins/langgenius/unstructured)は、高度なカスタマイズ可能性を備えた抽出戦略でドキュメントを機械可読形式へ変換します。
- 抽出戦略(auto, hi_res, fast, OCR-only)や分割方法(by_title, by_page, by_similarity)に柔軟に対応。要素ごとの座標や信頼度、レイアウトなどリッチなメタデータも出力し、企業のドキュメントワークフローや混合タイプファイルの精密な処理に適しています。
-
-
+
+
+
+
+
+
+
+[Unstructured](https://marketplace-staging.dify.dev/plugins/langgenius/unstructured)は、高度なカスタマイズ可能性を備えた抽出戦略でドキュメントを機械可読形式へ変換します。抽出戦略(auto、hi_res、fast、OCR-only)や分割方法(by_title、by_page、by_similarity)に柔軟に対応。要素ごとの座標や信頼度、レイアウトなどリッチなメタデータも出力し、企業のドキュメントワークフローや混合タイプファイルの精密な処理に適しています。
+
+
+
+
他のツールについては[Dify Marketplace](https://marketplace.dify.ai)をご覧ください。
@@ -278,22 +295,22 @@ Dify Extractorは、Difyが提供する内蔵ドキュメント解析ツール
| 設定項目 | 説明 |
|-------------------|--------------------------------------------------------------------------|
-| 区切り文字 | デフォルトは`\n`(段落区切り用改行)。正規表現も利用可。 |
-| 最大チャンク長 | 各セグメントの最大文字数(上限超過時は自動分割) |
+| 区切り文字 | デフォルトは`\n`(段落区切り用改行)。正規表現によるカスタム分割ルールも利用可。テキスト内に区切り文字が出現すると自動的に分割されます。 |
+| 最大チャンク長 | 各セグメントの最大文字数。上限超過時は強制分割されます。 |
| チャンク重複 | 分割時にセグメント間で部分重複させることで情報保持・検索精度を向上 |
#### 親子分割器(Parent-child Chunker)
-クエリマッチング精度と豊富なコンテキスト両立のため、二層チャンク構造を採用しています。
+クエリマッチング精度と豊富なコンテキスト両立のため、二層チャンク構造を採用し、RAGシステムにおけるコンテキストと精度の矛盾を解決します。
**親子分割器の仕組み**
-- **子チャンク(高精度マッチング用)**:通常、1文ごとの細かなセグメント
-- **親チャンク(豊富なコンテキスト)**:該当する子チャンクを含む広い範囲(段落やセクション単位)
+- **子チャンク(高精度マッチング用)**:ユーザーのクエリに高精度でマッチングするための小さく精密な情報セグメント(通常、1文ごと)
+- **親チャンク(豊富なコンテキスト)**:該当する子チャンクを含む広い範囲のコンテンツブロック(段落、セクション、またはドキュメント全体)で、大規模言語モデル(LLM)に包括的な背景情報を提供
| タイプ | 変数 | 説明 |
|------------|---------------------------|------------------------------|
-| 入力変数 | `{x} Content` | 原文テキスト |
+| 入力変数 | `{x} Content` | 分割対象となる文書コンテンツ |
| 出力変数 | `{x} Array[ParentChunk]` | 親チャンク配列 |
**分割設定**
@@ -304,7 +321,7 @@ Dify Extractorは、Difyが提供する内蔵ドキュメント解析ツール
| 親チャンク最大長 | 親チャンクの最大文字数 |
| 子チャンク区切り文字 | 子チャンク分割ルール |
| 子チャンク最大長 | 子チャンクの最大文字数 |
-| 親モード | 「段落」または「全文書」いずれか選択 |
+| 親モード | 「段落」(テキストを段落に分割)または「全文書」(ドキュメント全体を親チャンクとして直接検索に使用)いずれか選択 |
#### Q&Aプロセッサ
@@ -315,14 +332,14 @@ Dify Extractorは、Difyが提供する内蔵ドキュメント解析ツール
| タイプ | 変数 | 説明 |
|-----------|------------------------|---------------------------------------|
| 入力変数 | `{x} Document` | 単一ファイル |
-| 出力変数 | `{x} Array[QAChunk]` | Q&Aチャンク配列 |
+| 出力変数 | `{x} Array[QAChunk]` | Q&Aチャンク |
**変数設定**
| 設定項目 | 説明 |
|-----------------|------------------|
-| 質問用カラム番号 | 質問内容の列番号 |
-| 回答用カラム番号 | 回答内容の列番号 |
+| 質問用カラム番号 | 質問として設定するコンテンツ列 |
+| 回答用カラム番号 | 回答として設定する列 |
---
@@ -336,9 +353,9 @@ Dify Extractorは、Difyが提供する内蔵ドキュメント解析ツール

-チャンク構造は、ナレッジベースが文書コンテンツをどう整理・インデックス化するかを定めます。用途やコストに適したモードを選択してください。
+チャンク構造は、ナレッジベースが文書コンテンツをどう整理・インデックス化するかを定めます。ドキュメントタイプ、用途、コストに適したモードを選択してください。
-ナレッジベースは3つのチャンクモードをサポートします:**汎用モード**、**親子モード**、**Q&Aモード**。初めて設定する場合は親子モードが推奨されます。
+ナレッジベースは3つのチャンクモードをサポートします:**汎用モード**、**親子モード**、**Q&Aモード**。初めてナレッジベースを作成する場合は親子モードが推奨されます。
**重要:** チャンク構造は一度保存・公開すると変更できません。慎重にご選択ください。
@@ -346,146 +363,157 @@ Dify Extractorは、Difyが提供する内蔵ドキュメント解析ツール
#### 汎用モード
-標準的なドキュメント処理に最適です。ニーズに応じ、柔軟なインデックスと検索設定が選択可能です。
+標準的なドキュメント処理に最適です。柔軟なインデックスオプションを提供し、品質やコストの異なる要件に応じて適切なインデックス方法を選択できます。
+
+汎用モードは高品質とコスト効率の両方のインデックス方法、および各種検索設定をサポートします。
#### 親子モード
-検索時の高精度マッチングと文脈提供が必要なエンタープライズ向け専門ドキュメントに最適です。HQ(高品質)インデックスのみ対応です。
+検索時の高精度マッチングと対応するコンテキスト情報を提供し、完全なコンテキストを維持する必要がある専門ドキュメントに適しています。
+
+親子モードはHQ(高品質)モードのみ対応で、クエリマッチング用の子チャンクと検索時のコンテキスト情報用の親チャンクを提供します。
#### Q&Aモード
-構造化された質問回答データ向けです。Q&Aペアが質問部に基づいてインデックス化され、関連回答が検索できます。こちらもHQモードのみ対応です。
+構造化された質問回答データを使用する際に、質問と回答をペアにしたドキュメントを作成します。これらのドキュメントは質問部分に基づいてインデックス化され、クエリの類似性に基づいて関連する回答を検索できます。
+
+Q&AモードはHQ(高品質)モードのみ対応です。
### 入力変数
-入力変数はデータ処理ノードからの出力をナレッジベースのデータソースとして受け取ります。分割器の出力をナレッジベースノードへ接続します。
+入力変数はデータ処理ノードからの処理結果をナレッジベースのデータソースとして受け取ります。分割器の出力をナレッジベースノードへ入力として接続する必要があります。
-- **汎用モード**:`{x} Array[Chunk]`(汎用チャンク配列)
-- **親子モード**:`{x} Array[ParentChunk]`(親チャンク配列)
-- **Q&Aモード**:`{x} Array[QAChunk]`(Q&Aチャンク配列)
+ノードは選択したチャンク構造に基づいて異なるタイプの標準入力をサポートします:
+
+- **汎用モード**:x Array[Chunk] - 汎用チャンク配列
+- **親子モード**:x Array[ParentChunk] - 親チャンク配列
+- **Q&Aモード**:x Array[QAChunk] - Q&Aチャンク配列
### インデックス方法と検索設定
-インデックス方法はナレッジベース内のコンテンツ整理法を決定し、検索設定はそれに基づいた検索戦略を指定します。
-ナレッジベースでは**高品質**と**コスト効率**の2方式があり、それぞれ検索方法が異なります。
+インデックス方法はナレッジベース内のコンテンツインデックスの構築方法を決定し、検索設定は選択したインデックス方法に基づいた対応する検索戦略を提供します。
-**高品質モード**では、埋め込みモデル(Embedding)によりテキストをベクトル化し、意味的な関連性検索が可能です(完全一致でなくても適切な回答に辿り着けます)。
+つまり、インデックス方法はドキュメントの整理方法を決定し、検索設定はユーザーがドキュメントを見つけるために使用できる方法を指定します。
+
+ナレッジベースでは**高品質**と**コスト効率**の2つのインデックス方法があり、それぞれ異なる検索設定オプションを提供します。
+
+**高品質モード**では、埋め込みモデルを使用してチャンクを数値ベクトルに変換し、大量の情報をより効果的に圧縮・保存できます。これにより、ユーザーの質問の言い回しがドキュメントと完全に一致しなくても、意味的に関連する正確な回答をシステムが見つけることができます。
-
- クロスモーダル検索(テキストと画像を意味的関連性に基づいて取得)を有効にするには、**Vision**アイコン付きのマルチモーダル埋め込みモデルを選択してください。ドキュメントから抽出された画像もベクトル化され、検索用にインデックス化されます。
+ クロスモーダル検索(テキストと画像を意味的関連性に基づいて取得)を有効にするには、**Vision**アイコン付きのマルチモーダル埋め込みモデルを選択してください。ドキュメントから抽出された画像も埋め込み・インデックス化され、検索対象となります。
このような埋め込みモデルを使用するナレッジベースは、カード上で**Multimodal**と表示されます。
-
-**コスト効率モード**では、各ブロックは10個のキーワードでインデックス化され、埋め込みモデルのコストは発生しません。
+**コスト効率モード**では、各ブロックは10個のキーワードで検索用にインデックス化され、埋め込みモデルを呼び出さないためコストは発生しません。
-
-詳細は[インデックス方法と検索設定を指定](/ja/use-dify/knowledge/create-knowledge-and-upload-documents/setting-indexing-methods)もご参照ください。
-
+
+詳細は[インデックス方法と検索設定を指定](/ja/use-dify/knowledge/create-knowledge/setting-indexing-methods)をご参照ください。
+
-#### インデックス方法と検索設定概要
-
-| インデックス方法 | 検索設定 | 説明 |
+| インデックス方法 | 利用可能な検索設定 | 説明 |
|----------------|----------------|-----------------------------------------------------|
-| 高品質 | ベクトル検索 | 意味的類似性(自然言語での深い検索) |
-| | 全文検索 | キーワードベースの包括的検索 |
-| | ハイブリッド検索| 意味検索+キーワード検索の組合せ |
-| コスト効率 | 逆引きインデックス| 一般的な検索エンジン型方式 |
+| 高品質 | ベクトル検索 | 意味的類似性に基づいてクエリの深い意味を理解 |
+| | 全文検索 | キーワードベースの包括的検索機能を提供 |
+| | ハイブリッド検索| 意味検索とキーワード検索を組み合わせ |
+| コスト効率 | 逆引きインデックス| 一般的な検索エンジン検索方式で、クエリを主要コンテンツとマッチング |
- 選択した埋め込みモデルがマルチモーダルの場合は、**Vision**アイコンが表示されたマルチモーダルリランキングモデルも選択してください。そうでない場合、検索された画像は再ランクおよび最終出力から除外されます。
+ 選択した埋め込みモデルがマルチモーダルの場合は、**Vision**アイコンが表示されたマルチモーダルリランキングモデルも選択してください。そうでない場合、検索された画像は再ランクおよび検索結果から除外されます。
-詳細は以下の表をご参照ください。
+チャンク構造、インデックス方法、パラメータ、検索設定の構成については、以下の表もご参照ください。
| チャンク構造 | インデックス方法 | パラメータ | 検索設定 |
|-------------|----------------|-------------------|----------------------|
-| 汎用モード | 高品質
コスト効率 | 埋め込みモデル
キーワード数 | ベクトル
全文
ハイブリッド検索
逆引きインデックス |
-| 親子モード | 高品質のみ | 埋め込みモデル | ベクトル
全文
ハイブリッド検索 |
-| Q&Aモード | 高品質のみ | 埋め込みモデル | ベクトル
全文
ハイブリッド検索 |
+| 汎用モード | 高品質
コスト効率 | 埋め込みモデル
キーワード数 | ベクトル検索
全文検索
ハイブリッド検索
逆引きインデックス |
+| 親子モード | 高品質のみ | 埋め込みモデル | ベクトル検索
全文検索
ハイブリッド検索 |
+| Q&Aモード | 高品質のみ | 埋め込みモデル | ベクトル検索
全文検索
ハイブリッド検索 |
---
## ステップ4:ユーザー入力フォームの作成
-ユーザー入力フォームは、パイプライン実行時に必要な初期情報をユーザーから収集します。ワークフローの開始ノードと同様に、必要な设置情報(アップロードファイル、特定パラメータなど)を収集し、パイプラインの柔軟性・利便性を高めます。
+ユーザー入力フォームは、パイプラインを効果的に実行するために必要な初期情報を収集するために不可欠です。ワークフローの[ユーザー入力ノード](/ja/use-dify/nodes/user-input)と同様に、このフォームはユーザーから必要な詳細情報(アップロードするファイル、ドキュメント処理の特定パラメータなど)を収集し、パイプラインが正確な結果を提供するために必要なすべての情報を確保します。
+
+これにより、さまざまなユースケースシナリオに特化した入力フォームを作成でき、さまざまなデータソースやドキュメント処理ステップに対するパイプラインの柔軟性と使いやすさを向上できます。
### フォームの作成方法
-1. **パイプライン構築UI**
- - 「入力フィールド」をクリックして作成・設定を開始
- 
+ユーザー入力フィールドを作成する方法は2つあります:
-2. **ノードパラメータパネル**
- - ノード選択後、パラメータ入力欄の「+ ユーザー入力を作成」をクリック
- 
+1. **パイプライン構築インターフェース**\
+ **入力フィールド**をクリックして入力フォームの作成と設定を開始します。\
+
+2. **ノードパラメータパネル**\
+ ノードを選択します。次に、右側パネルのパラメータ入力で、新しい入力項目のために「+ ユーザー入力を作成」をクリックします。新しい入力項目は入力フィールドにも収集されます。
### ユーザー入力フィールドの追加
-#### 各エントランス固有入力
+#### 各エントランス固有の入力
-
+
-これは各データソースや下流ノードに固有です。該当データソース選択時のみ入力対象となります(例:異なるURLの指定等)。
+これらの入力は各データソースとその下流ノードに固有です。ユーザーは対応するデータソースを選択した場合にのみ、これらのフィールドに入力する必要があります(例:異なるデータソース用の異なるURL)。
-**作成方法**:データソース横の`+`ボタンからそのソース専用フィールドを追加できます。選択したソースからのみアクセス可能です。
+**作成方法**:データソースの右側にある`+`ボタンをクリックして、その特定のデータソース用のフィールドを追加します。これらのフィールドは、そのデータソースとその後続の接続ノードからのみ参照できます。
-
+#### すべてのエントランス用のグローバル入力
-#### すべてのエントランス共通入力
+
-
+グローバル共有入力はすべてのノードから参照できます。これらの入力は、区切り文字、最大チャンク長、ドキュメント処理設定など、汎用的な処理パラメータに適しています。ユーザーはどのデータソースを選択しても、これらのフィールドに入力する必要があります。
-全ノードから参照できるグローバル共有入力です。チャンク区切りや最大長等、汎用パラメータの入力に適します。
-
-**作成方法**:グローバル入力の`+`ボタンから追加できます。
+**作成方法**:グローバル入力の右側にある`+`ボタンをクリックして、任意のノードから参照できるフィールドを追加します。
### サポートされる入力フィールドタイプ
-ナレッジパイプラインでは7種の入力変数をサポートします:
+ナレッジパイプラインは7種類の入力変数をサポートします:
+
+
+
+
-
-
- 
-
-
- | フィールドタイプ | 説明 |
- |---------------|-----------------------------------------------------------------------|
- | テキスト | 256文字以内の短文の入力欄 |
- | 段落 | 長文テキストの入力欄 |
- | セレクト | 設定済み候補リストから選択(カスタム不可) |
- | ブール値 | 真偽値 |
- | 数値 | 数値のみ入力 |
- | 単一ファイル | 単一ファイルアップロード(各ファイルタイプ対応) |
- | ファイルリスト | 複数ファイルの一括アップロード(各ファイルタイプ対応) |
-
-
-詳細は[入力フィールドのドキュメント](/ja/use-dify/nodes/user-input)をご参照ください。
-
+
+| フィールドタイプ | 説明 |
+|---------------|-----------------------------------------------------------------------|
+| テキスト | ナレッジベースユーザーが入力する短文、最大256文字 |
+| 段落 | 長い文字列用の長文テキスト入力欄 |
+| セレクト | オーケストレーターが事前設定した固定オプションから選択、ユーザーはカスタムコンテンツを追加不可 |
+| ブール値 | true/false値のみ |
+| 数値 | 数値入力のみ受付 |
+| 単一ファイル | 単一ファイルアップロード、複数のファイルタイプ(ドキュメント、画像、音声、その他のファイルタイプ)をサポート |
+| ファイルリスト | 複数ファイルの一括アップロード、複数のファイルタイプ(ドキュメント、画像、音声、その他のファイルタイプ)をサポート |
+
+
+
+
+
+
+サポートされるフィールドタイプの詳細については、[ユーザー入力](/ja/use-dify/nodes/user-input)をご参照ください。
+
### フィールド設定オプション
-全入力フィールドには必須/任意および追加設定があります。適切なチェックで必須化等を指定します。
+すべての入力フィールドタイプには、必須、任意、および追加設定があります。適切なオプションをチェックしてフィールドを必須にするかどうかを設定できます。
| 設定 | 名称 | 説明 | 例 |
|-------------------|---------------|--------------------------------------------------|--------------------------|
-| 必須設定 | 変数名 | 内部識別用(英数字・アンダースコア推奨) | `user_email` |
-| | 表示名 | UI上に表示される名称 | ユーザーメール |
-| タイプ固有設定 | | タイプごとの条件 | テキストの最大長制限等 |
-| 追加設定 | デフォルト値 | 未入力時の既定値 | 数値は0、テキストは空文字 |
-| | プレースホルダー | 入力欄が空のときのヒント表示 | 「メールアドレス入力」 |
-| | ツールチップ | 補足説明(マウスホバー時表示) | 「有効なメールアドレスを…」 |
-| 特殊任意設定 | | タイプごとの特殊バリデーション | メール形式チェック等 |
+| 必須設定 | 変数名 | 内部システム識別子、通常は英語とアンダースコアで命名 | `user_email` |
+| | 表示名 | インターフェース表示名、通常は簡潔で読みやすいテキスト | ユーザーメール |
+| タイプ固有設定 | | 異なるフィールドタイプの特別な要件 | テキストフィールドの最大長100文字 |
+| 追加設定 | デフォルト値 | ユーザーが入力していない場合のデフォルト値 | 数値フィールドのデフォルトは0、テキストフィールドのデフォルトは空 |
+| | プレースホルダー | 入力ボックスが空のときに表示されるヒントテキスト | 「メールアドレスを入力してください」 |
+| | ツールチップ | ユーザー入力をガイドする説明テキスト、通常はマウスホバー時に表示 | 「有効なメールアドレスを入力してください」 |
+| 特殊任意設定 | | 異なるフィールドタイプに基づく追加設定オプション | メール形式のバリデーション |
-設定後、右上のプレビューボタンで実際のフォーム動作確認やフィールド並び替えが可能です。「!」マーク表示時は参照無効を示します。
+設定完了後、右上のプレビューボタンをクリックしてフォームプレビューインターフェースを閲覧できます。フィールドのグループ化をドラッグして調整できます。感嘆符が表示された場合は、移動後に参照が無効になっていることを示します。
-
+
---
@@ -493,40 +521,50 @@ Dify Extractorは、Difyが提供する内蔵ドキュメント解析ツール

-デフォルトのナレッジベース名は「Untitled+番号」、権限は「自分のみ」、アイコンはオレンジ色の書籍です。DSLファイルからインポートした場合は元のアイコンが適用されます。
+デフォルトのナレッジベース名は「Untitled+番号」、権限は「自分のみ」、アイコンはオレンジ色の書籍です。DSLファイルからインポートした場合は保存されたアイコンが使用されます。
-左パネルの「設定」をクリックし、以下を設定してください。
-- **名前とアイコン**
- ナレッジベース名を決定します。絵文字選択、画像アップロード、画像URLによるアイコン設定が可能です。
-- **ナレッジベース説明**
- 簡単な説明を記入してください。AIがデータをより適切に理解し検索できるようになります。未入力の場合はDifyのデフォルト検索戦略が使われます。
-- **権限**
- ドロップダウンから適切なアクセス権限を選択してください。
+左パネルの**設定**をクリックし、以下の情報を入力してください:
+
+- **名前とアイコン**\
+ ナレッジベースの名前を決定します。\
+ 絵文字を選択、画像をアップロード、または画像URLを貼り付けてこのナレッジベースのアイコンとして設定できます。
+- **ナレッジベース説明**\
+ ナレッジベースの簡単な説明を入力してください。これによりAIがデータをより適切に理解し検索できるようになります。空のままにすると、Difyはデフォルトの検索戦略を適用します。
+- **権限**\
+ ドロップダウンメニューから適切なアクセス権限を選択してください。
---
## ステップ6:テスト
-いよいよ最終工程です!
+いよいよ最終工程です!これがナレッジパイプラインオーケストレーションの最終ステップです。
-設定が整ったら、まずは全設定の完全性チェックを行いましょう。チェックは右上のチェックリストボタンで行え、不足項目があると通知されます。
+オーケストレーションが完了したら、まずすべての設定を検証する必要があります。次に、いくつかの実行テストを行い、すべての設定を確認します。最後に、ナレッジパイプラインを公開します。
-
+### 設定完全性チェック
-全設定完了後、テスト実行でパイプライン全体の動作確認を行い、不備がないことを確認した上で公開します。
+テスト前に、設定の不備によるテスト失敗を避けるため、設定の完全性をチェックすることをお勧めします。
+
+右上のチェックリストボタンをクリックすると、システムが不足している部分を表示します。
+
+
+
+すべての設定が完了したら、テスト実行を通じてナレッジベースパイプラインの動作をプレビューし、すべての設定が正確であることを確認してから、公開に進みます。
### テスト実行
-
+
-1. **テスト開始**:**テスト実行**をクリック
-2. **テストファイルインポート**:右側ウィンドウからファイル選択
-
- **注意:** デバッグのため、1回につき1ファイルのみアップロード可能です。
-
-3. **パラメータ入力**:設定した入力フォームに従い必要なパラメータを入力
-4. **パイプライン実行**:**次へ**をクリックしテスト開始
+1. **テスト開始**:右上の「テスト実行」ボタンをクリック
+2. **テストファイルインポート**:右側にポップアップするデータソースウィンドウでファイルをインポート
-テスト時は、[履歴ログ](/ja/use-dify/monitor/logs)(実行記録の確認)や[変数インスペクタ](/ja/use-dify/debug/variable-inspect)(ノード入出力内容の可視化)が問題特定に役立ちます。
+
+ **重要:** デバッグと観察を容易にするため、テスト実行ごとに1ファイルのみアップロード可能です。
+
+
+3. **パラメータ入力**:インポート成功後、先に設定したユーザー入力フォームに従って対応するパラメータを入力
+4. **テスト実行開始**:次のステップをクリックしてパイプライン全体のテストを開始
+
+テスト中は、[履歴ログ](/ja/use-dify/monitor/logs)(タイムスタンプ、実行ステータス、入出力サマリーを含むすべての実行記録を追跡)と[変数インスペクタ](/ja/use-dify/debug/variable-inspect)(各ノードの入出力データを表示し、問題の特定とデータフローの検証を支援するダッシュボード)にアクセスして、効率的なトラブルシューティングとエラー修正を行えます。

\ No newline at end of file
diff --git a/ja/use-dify/knowledge/manage-knowledge/maintain-knowledge-documents.mdx b/ja/use-dify/knowledge/manage-knowledge/maintain-knowledge-documents.mdx
index ec9a2028..ba9a961b 100644
--- a/ja/use-dify/knowledge/manage-knowledge/maintain-knowledge-documents.mdx
+++ b/ja/use-dify/knowledge/manage-knowledge/maintain-knowledge-documents.mdx
@@ -7,7 +7,9 @@ sidebarTitle: コンテンツの管理
## ドキュメントの管理
-ナレッジベース内では、インポートされたすべてのアイテム(ローカルファイル、Notion ページ、またはウェブページなど)がドキュメントとして扱われます。ドキュメント一覧から、すべてのドキュメントを閲覧・管理し、ナレッジの正確性、関連性、最新性を維持できます。
+ナレッジベース内では、インポートされたすべてのアイテム(ローカルファイル、Notion ページ、またはウェブページなど)がドキュメントとして扱われます。
+
+ドキュメント一覧から、すべてのドキュメントを閲覧・管理し、ナレッジの正確性、関連性、最新性を維持できます。
画面上部のナレッジベース名をクリックすると、他のナレッジベースへ素早く切り替えできます。
@@ -20,14 +22,16 @@ sidebarTitle: コンテンツの管理
| 追加 | 新しいドキュメントをインポートします。|
| チャンク設定の変更 | ドキュメントのチャンク設定を変更します(チャンク構造を除く)。各ドキュメントには個別のチャンク設定を持たせることができますが、チャンク構造はナレッジベース全体で共通であり、一度設定すると変更できません。|
| 削除 | ドキュメントを完全に削除します。**削除は元に戻せません。**|
-| 有効/無効 | 一時的にドキュメントを検索対象に含める/除外します。Dify Cloud では、一定期間更新または検索に使用されていないドキュメントは、自動的に無効化されパフォーマンスが最適化されます。
非アクティブ期間はプランごとに異なります:- Sandbox:7日
- Professional/Team:30日
Professional および Team プランのユーザーは、**ワンクリックで**これらのドキュメントを再有効化できます。 |
+| 有効/無効 | 一時的にドキュメントを検索対象に含める/除外します。Dify Cloud では、一定期間更新または検索に使用されていないドキュメントは、自動的に無効化されパフォーマンスが最適化されます。
非アクティブ期間はプランごとに異なります:- Sandbox:7日
- Professional/Team:30日
Professional および Team プランのユーザーは、**ワンクリックで**これらのドキュメントを再有効化できます。|
| アーカイブ/アーカイブ解除 | 検索には不要だが保持しておきたいドキュメントをアーカイブします。アーカイブ済みドキュメントは読み取り専用で、いつでもアーカイブ解除可能です。|
| 編集 | ドキュメント内のチャンクを編集して、コンテンツを修正します。詳細は [チャンクの管理](#チャンクの管理) を参照してください。|
| 名前を変更 | ドキュメントの名前を変更します。|
## チャンクの管理
-チャンク設定に基づき、すべてのドキュメントは検索の基本単位であるコンテンツチャンクに分割されます。各ドキュメント内のチャンク一覧からそれらを閲覧・管理し、検索の効率と精度を最適化できます。
+チャンク設定に基づき、すべてのドキュメントは検索の基本単位であるコンテンツチャンクに分割されます。
+
+各ドキュメント内のチャンク一覧からそれらを閲覧・管理し、検索の効率と精度を最適化できます。
左上のドキュメント名をクリックして、別のドキュメントに素早く切り替えられます。
@@ -37,12 +41,12 @@ sidebarTitle: コンテンツの管理
| 操作 | 説明 |
|:-------- |:---------------------|
-| 追加 | 新しいチャンクを1つまたは複数まとめて追加します。
親子分割モード(階層分割モード)のドキュメントでは、親チャンクと子チャンクの両方を追加可能です。「チャンクを追加」は有料機能です。Dify Cloud で利用するには [Professional または Team プラン](https://dify.ai/jp/pricing) へのアップグレードが必要です。|
+| 追加 | 新しいチャンクを1つまたは複数まとめて追加します。
親子分割モードのドキュメントでは、親チャンクと子チャンクの両方を追加可能です。「チャンクを追加」は Dify Cloud の有料機能です。利用するには [Professional または Team プラン](https://dify.ai/pricing) へのアップグレードが必要です。|
| 削除 | チャンクを完全に削除します。**削除は元に戻せません。**|
| 有効/無効 | 一時的にチャンクを検索対象に含める/除外します。無効化されたチャンクは編集できません。|
-| 編集 | チャンクの内容を修正します。編集されたチャンクは **「編集済み」** と表示されます。
親子分割モード(階層分割モード)のドキュメントでは:- 親チャンクを編集するとき、子チャンクを再生成するか保持するかを選択できます。
- 子チャンクを編集しても、親チャンクには影響しません。
ドキュメント内の画像が添付ファイルとして抽出される場合、そのURLはチャンクテキスト内に残ります。これらのURLを削除しても、抽出された画像の添付ファイルには影響しません。|
-| キーワードの追加/編集/削除 | 経済的インデックス方式を使用するナレッジベースでは、各チャンクに対してキーワードを追加・編集して検索精度を向上させることができます。
1つのチャンクにつき最大10個のキーワードを設定可能です。 |
-| 画像の追加/削除 | ドキュメントから抽出された画像を削除したり、対応するチャンク内に新しい画像をアップロードしたりできます。
画像の添付ファイルとチャンクは独立して編集でき、互いに影響しません。 各チャンクには最大10枚まで画像の添付が可能で、検索時に一緒に返されます。これを超える画像は抽出されません。
セルフホスティング環境では、環境変数 `SINGLE_CHUNK_ATTACHMENT_LIMIT` を変更してこの制限を調整できます。クロスモーダル検索(テキストと画像の両方を意味的関連性に基づいて検索)を有効にするには、ナレッジベースに多モーダル埋め込みモデル(**Vision** アイコン付き)を選択してください。画像の添付ファイルは埋め込み・インデックス化され、検索に利用されます。|
+| 編集 | チャンクの内容を修正します。編集されたチャンクは **「編集済み」** と表示されます。
親子分割モードのドキュメントでは:- 親チャンクを編集するとき、子チャンクを再生成するか保持するかを選択できます。
- 子チャンクを編集しても、親チャンクには影響しません。
ドキュメント内の画像がチャンクの添付ファイルとして抽出される場合、そのURLはチャンクテキスト内に残ります。これらのURLを削除しても、抽出された画像の添付ファイルには影響しません。|
+| キーワードの追加/編集/削除 | 経済的インデックス方式を使用するナレッジベースでは、各チャンクに対してキーワードを追加・編集して検索精度を向上させることができます。
1つのチャンクにつき最大10個のキーワードを設定可能です。|
+| 画像添付ファイルの追加/削除 | ドキュメントから抽出された画像を削除したり、対応するチャンク内に新しい画像をアップロードしたりできます。
画像の添付ファイルとチャンクは独立して編集でき、互いに影響しません。各チャンクには最大10枚まで画像の添付が可能で、検索時に一緒に返されます。これを超える画像は抽出されません。
セルフホスティング環境では、環境変数 `SINGLE_CHUNK_ATTACHMENT_LIMIT` を変更してこの制限を調整できます。クロスモーダル検索(テキストと画像の両方を意味的関連性に基づいて検索)を有効にするには、ナレッジベースにマルチモーダル埋め込みモデル(**Vision** アイコン付き)を選択してください。
画像の添付ファイルは埋め込み・インデックス化され、検索に利用されます。|
## ベストプラクティス
@@ -60,7 +64,7 @@ sidebarTitle: コンテンツの管理
### 子チャンクを親チャンクの検索フックとして使用
-親子分割モード(階層分割モード)で分割されたドキュメントでは、システムは子チャンクを検索し、結果として親チャンクを返します。子チャンクを編集しても親チャンクは更新されないため、子チャンクを親チャンクの **セマンティックタグ(意味的タグ)** や **検索ヒント** として活用できます。
+親子分割モードで分割されたドキュメントでは、システムは子チャンクを検索し、結果として親チャンクを返します。子チャンクを編集しても親チャンクは更新されないため、子チャンクを親チャンクの **セマンティックタグ(意味的タグ)** や **検索ヒント** として活用できます。
そのためには、子チャンクを **キーワード**・**要約**・**ユーザーの一般的な質問** のいずれかに書き換えることを推奨します。
たとえば、親チャンクが *返品ポリシー* 全体を扱う場合、子チャンクを次のように設定できます:
diff --git a/ja/use-dify/nodes/knowledge-retrieval.mdx b/ja/use-dify/nodes/knowledge-retrieval.mdx
index a5730f29..3c73bd49 100644
--- a/ja/use-dify/nodes/knowledge-retrieval.mdx
+++ b/ja/use-dify/nodes/knowledge-retrieval.mdx
@@ -7,48 +7,50 @@ icon: "database"
## はじめに
-知識検索ノードを使用すると、既存のナレッジベースを Chatflow や Workflow に統合できます。
+知識検索ノードを使用すると、既存のナレッジベースをChatflowやワークフローに統合できます。このノードは指定されたナレッジからクエリに関連する情報を検索し、その結果を下流ノード(例:LLM)で利用できるコンテキスト情報として出力します。
-このノードは指定されたナレッジからクエリに関連する情報を検索し、その結果を下流ノード(例:LLM)で利用できるコンテキスト情報として出力します。
-
-以下は Chatflow における 知識検索ノード の利用例です:
+以下はChatflowにおける知識検索ノードの利用例です:
1. **ユーザー入力** ノードがユーザーの質問を収集します。
-2. **知識検索** ノードが選択されたナレッジベースから関連情報を検索し、結果を出力します。
+2. **知識検索** ノードが選択されたナレッジベースからユーザーの質問に関連するコンテンツを検索し、検索結果を出力します。
-3. **LLM** ノードがユーザー質問と検索結果の両方をもとに回答を生成します。
+3. **LLM** ノードがユーザーの質問と検索されたナレッジの両方をもとに回答を生成します。
-4. **回答** ノードが LLM の出力をユーザーへ返します。
+4. **回答** ノードがLLMの応答をユーザーへ返します。

- 知識検索ノードを使用する前に、少なくとも1つの利用可能なナレッジベースが存在することを確認してください。
-
- ナレッジベースの作成方法については、[ナレッジ](/ja/use-dify/knowledge/readme#ナレッジの作成) を参照してください。
+ 知識検索ノードを使用する前に、少なくとも1つのナレッジベースが利用可能であることを確認してください。ナレッジベースの作成方法については、[ナレッジ](/ja/use-dify/knowledge/readme#ナレッジの作成)を参照してください。
-## 知識検索ノードの設定
+
+ Dify Cloudでは、知識検索の操作は契約プランに応じたレートリミットが適用されます。詳細は[ナレッジベースの要求頻度制限](/ja/use-dify/knowledge/knowledge-request-rate-limit)を参照してください。
+
-知識検索ノードを正常に機能させるには、次の3点を指定する必要があります:
+## 設定
-- **何を検索するか**(クエリ)
-- **どこを検索するか**(ナレッジベース)
-- **どのように検索結果を処理するか**(ノードレベルの検索設定)
+知識検索ノードを正常に機能させるには、次の点を指定する必要があります:
+
+- **何を**検索するか(クエリ)
+
+- **どこを**検索するか(ナレッジベース)
+
+- **どのように**検索結果を処理するか(ノードレベルの検索設定)
また、ドキュメントのメタデータを利用してフィルタベースの検索を有効化し、検索精度をさらに向上させることもできます。
### クエリの指定
-ノードが選択されたナレッジベースで検索する対象を指定します。
+ノードが選択されたナレッジベースで検索するクエリ内容を指定します。
-- **クエリテキスト**:テキスト変数を選択します。たとえば、Chatflow では `userinput.query`(ユーザー入力ノードの入力)を指定できます。Workflow ではテキスト型のユーザー入力変数を利用します。
+- **クエリテキスト**:テキスト変数を選択します。たとえば、Chatflowでは`userinput.query`を使用してユーザー入力を参照したり、ワークフローではカスタムのテキスト型ユーザー入力変数を使用したりできます。
- **クエリ画像**:画像検索を行う場合は、ユーザー入力ノードを通じてアップロードされた画像など、画像変数を選択してください。最大サイズは 2 MB です。
+- **クエリ画像**:画像変数を選択します。例えば、ユーザー入力ノードを通じてユーザーがアップロードした画像を使用して画像検索を行います。画像サイズの上限は2 MBです。
- 自己ホスティング環境では、環境変数 `ATTACHMENT_IMAGE_FILE_SIZE_LIMIT` を変更することで画像サイズ上限を調整できます。
+ セルフホスト環境では、環境変数`ATTACHMENT_IMAGE_FILE_SIZE_LIMIT`を変更することで画像サイズ上限を調整できます。
@@ -59,82 +61,76 @@ icon: "database"
### 検索対象ナレッジベースの選択
-ノードで検索対象とするナレッジベースを1つ以上追加します。
+ノードでクエリ内容に関連するコンテンツを検索するためのナレッジベースを1つ以上追加します。
-複数のナレッジベースを追加した場合、すべてのナレッジベースから同時に検索を行い、その結果を統合して[ノードレベルの検索設定](#ノードレベルの検索設定)に従って処理します。
+複数のナレッジベースを追加した場合、まずすべてのナレッジベースから同時に検索を行い、その後[ノードレベルの検索設定](#ノードレベルの検索設定)に従って結果を統合・処理します。
- **Vision**アイコンが付いたナレッジベースは、セマンティックな関連性に基づいてテキストと画像の両方をクロスモーダルで検索できます。
+ **Vision**アイコンが付いたナレッジベースはクロスモーダル検索をサポートしており、セマンティックな関連性に基づいてテキストと画像の両方を検索できます。
- ノード内で任意のナレッジベースの **編集** アイコンをクリックすると、直接その設定を変更できます。
-
- 詳細な設定方法については、[ナレッジ設定の管理](/ja/use-dify/knowledge/manage-knowledge/introduction)をご覧ください。
+ 追加したナレッジベースの横にある**編集**アイコンをクリックすると、知識検索ノード内で直接その設定を変更できます。
+
+ これらの設定の詳細については、[ナレッジ設定の管理](/ja/use-dify/knowledge/manage-knowledge/introduction)をご覧ください。
### ノードレベルの検索設定
-ナレッジベースから取得した検索結果を、ノード内でどのように絞り込み・再ランク付けするかを調整できます。
+ナレッジベースから取得した検索結果を、ノード内でどのように処理するかを微調整できます。
- 検索設定には2つのレイヤー(階層)があります。
-
- ナレッジベースレベルの設定が最初の検索プールを決定し、ノードレベルの設定がその結果を再スコアリングまたは絞り込みします。
+ 検索設定には2つのレイヤーがあります—ナレッジベースレベルと知識検索ノードレベルです。
+
+ これらは2つの連続したフィルターと考えてください:ナレッジベースの設定が最初の結果プールを決定し、ノードの設定がさらに結果を再ランク付けまたは絞り込みます。
-- **Rerank 設定**
+- **Rerank設定**
- - **ウェイト設定**: 再ランク付け時におけるセマンティック類似度(意味の近さ)とキーワード一致の比重を調整します。セマンティックの比重を高くすると意味的関連性を重視し、キーワードの比重を高くすると正確な一致を重視します。
+ - **ウェイト設定**:再ランク付け時におけるセマンティック類似度とキーワード一致の相対的な比重です。セマンティックの比重を高くすると意味的関連性を重視し、キーワードの比重を高くすると正確な一致を重視します。
- **ウェイト設定** は、追加したナレッジベースがすべて「高品質」タイプである場合に利用できます。
+ **ウェイト設定**は、追加したナレッジベースがすべて高品質タイプである場合のみ利用できます。
- - **Rerank モデル**: クエリとの関連度に基づいてすべての検索結果を再スコアリング・並べ替えします。
-
-
- 選択したナレッジベースの中にマルチモーダル対応のものが含まれている場合は、**Vision**アイコンが表示されたマルチモーダル再ランクモデルを選択してください。そうでない場合、検索された画像は再ランクおよび最終出力から除外されます。
-
-
-- **トップ K**: 再ランク後に返す最大件数を指定します。 Rerank モデルを選択している場合、この値はモデルが処理可能な最大入力サイズ(トークン上限)に応じて自動的に調整されます。
+ - **Rerankモデル**:クエリとの関連度に基づいてすべての結果を再スコアリング・並べ替えするRerankモデルです。
- 選択したナレッジベースの中にマルチモーダル対応のものが含まれている場合は、**Vision**アイコンが表示されたマルチモーダル再ランクモデルを選択してください。そうでない場合、検索された画像は再ランクおよび最終出力から除外されます。
+ マルチモーダルナレッジベースが追加されている場合は、マルチモーダルRerankモデル(**Vision**アイコン付き)も選択してください。そうでない場合、検索された画像は再ランク付けおよび最終出力から除外されます。
-- **スコア閾値**: 結果を返す際の最低スコア(類似度)を指定します。この閾値未満の結果は除外されます。高めに設定すると関連性の厳密な検索が行われ、低めにするとより広範なマッチを含めることができます。
+- **トップK**:再ランク後に返す結果の最大件数です。Rerankモデルを選択している場合、この値はモデルの最大入力容量(モデルが一度に処理できるテキスト量)に基づいて自動的に調整されます。
+
+- **スコア閾値**:返される結果の最低類似度スコアです。この閾値未満の結果は除外されます。高めに設定すると関連性の厳密な検索が行われ、低めにするとより広範なマッチを含めることができます。
### メタデータフィルタの有効化
-ナレッジベース内のドキュメントメタデータを利用して、特定の条件に合致するドキュメントのみを検索対象とすることができます。これにより、大規模または多様なナレッジベース内での検索精度が向上します。
+既存のドキュメントメタデータを使用して、ナレッジベース内の特定のドキュメントに検索を制限し、検索精度を向上させます。
+
+メタデータフィルタを有効にすると、知識検索ノードはナレッジベース全体を検索するのではなく、指定されたメタデータ条件に一致するドキュメントのみを検索します。これは、大規模で多様なナレッジベースでのターゲット検索に特に有用です。
- ドキュメントメタデータの作成と管理については、[メタデータ](/ja/use-dify/knowledge/metadata) を参照してください。
+ ドキュメントメタデータの作成と管理については、[メタデータ](/ja/use-dify/knowledge/metadata)を参照してください。
## 出力
-知識検索ノードの出力は `result` という変数として返されます。この変数は検索されたドキュメントチャンクの配列で、各チャンクには内容・メタデータ・タイトルなどの情報が含まれます。
+知識検索ノードの出力は`result`という変数として返されます。この変数は検索されたドキュメントチャンクの配列で、各チャンクにはコンテンツ、メタデータ、タイトル、その他の属性が含まれます。
-検索結果に画像が含まれる場合、`result` 変数には画像の詳細が格納された `files` フィールドも含まれます。
+検索結果に画像添付が含まれる場合、`result`変数には画像メタデータを含む`files`というフィールドも含まれます。
-## LLM ノードとの連携
+## LLMノードとの連携
-検索結果を活用して LLM ノードで質問応答を行うには:
+LLMノードでユーザーの質問に回答するためのコンテキストとして検索結果を使用するには:
-1. **コンテキスト** フィールドで、知識検索ノードの `result` 変数を選択します。
+1. **コンテキスト**フィールドで、知識検索ノードの`result`変数を選択します。
-2. LLM のプロンプト入力欄では、`コンテキスト` 変数とユーザー入力変数(例:Chatflow の `userinput.query`)の両方を参照してください。
+2. プロンプトフィールドで、`Context`変数とユーザー入力変数(例:Chatflowの`userinput.query`)の両方を参照します。
-3. (任意)LLMがVision機能に対応している場合は、**Vision**を有効にすると、`コンテキスト`変数内の画像添付を解釈できるようになります。
+3. (任意)LLMがVision機能に対応している場合(**Vision**アイコン付き)、**Vision**を有効にして検索された画像を解釈させることができます。
- **Vision**を有効にすると、LLMは`コンテキスト`変数内の画像を直接理解できます。別途**Vision**入力変数を設定する必要はありません。
+ **Vision**を有効にすると、LLMは検索された画像を自動的に処理します。**Vision**入力フィールドで`Context`変数を再度手動で参照する必要はありません。
-
-
-
- Dify Cloud では、知識検索の操作は契約プランに応じたレートリミット(リクエスト上限)が適用されます。詳細は [ナレッジベースの要求頻度制限](/ja/use-dify/knowledge/knowledge-request-rate-limit) を参照してください。
-
\ No newline at end of file
+
diff --git a/zh/use-dify/knowledge/create-knowledge/import-text-data/readme.mdx b/zh/use-dify/knowledge/create-knowledge/import-text-data/readme.mdx
index 6089a815..4a571891 100644
--- a/zh/use-dify/knowledge/create-knowledge/import-text-data/readme.mdx
+++ b/zh/use-dify/knowledge/create-knowledge/import-text-data/readme.mdx
@@ -17,7 +17,7 @@ title: 上传本地文件
- 单次最多可上传 5 个文件
- 在 Dify Cloud 上,仅 [**Professional** 和 **Team** 套餐](https://dify.ai/zh/pricing) 支持 **批量上传**(单次最多 50 个文件)。
+ 在 Dify Cloud 上,仅[付费套餐](https://dify.ai/zh/pricing)支持**批量上传**(单次最多 50 个文件)。
- 单个文件最大支持 15 MB
@@ -47,7 +47,7 @@ title: 上传本地文件
- DOCX 文件中嵌入的图片
- 更多文件类型(如 PDF)中嵌入的图片,只能通过在 [知识流水线](/zh/use-dify/knowledge/knowledge-pipeline/readme) 中使用合适的文档提取器插件(如 MinerU)进行提取。
+ 其他文件类型(如 PDF)中嵌入的图片,只能通过在[知识流水线](/zh/use-dify/knowledge/knowledge-pipeline/readme)中使用合适的文档提取器插件进行提取。
- 在任何文件类型中,通过以下 Markdown 语法引用、URL 可访问的图片:
@@ -57,4 +57,4 @@ title: 上传本地文件
若在后续的索引设置中选择多模态嵌入模型(带有 **Vision** 图标),则提取出的图片将被向量化并参与检索。
-
\ No newline at end of file
+
diff --git a/zh/use-dify/knowledge/create-knowledge/setting-indexing-methods.mdx b/zh/use-dify/knowledge/create-knowledge/setting-indexing-methods.mdx
index 2a566718..43023051 100644
--- a/zh/use-dify/knowledge/create-knowledge/setting-indexing-methods.mdx
+++ b/zh/use-dify/knowledge/create-knowledge/setting-indexing-methods.mdx
@@ -4,7 +4,7 @@ title: 指定索引方式与检索设置
⚠️ 本文档由 AI 自动翻译。如有任何不准确之处,请参考[英文原版](/en/use-dify/knowledge/create-knowledge/setting-indexing-methods)。
-选定内容的分段模式后,接下来设定对于结构化内容的**索引方式**与**检索设置**。
+选定内容的分段模式后,接下来设定对于结构化内容的**索引方式**。
## 选择索引方式
@@ -23,162 +23,172 @@ title: 指定索引方式与检索设置
这些向量可理解为多维空间中的坐标点——两个点越接近,它们的语义越相似。这使得系统能够基于语义相似度(而不仅仅是关键词匹配)找到相关信息。
-
- 若要启用跨模态检索——即基于语义相关性同时检索文本和图片,需选择多模态嵌入模型(带有 **Vision** 图标)。从文档中提取的图片将被向量化并参与检索。
+
+ 若要启用跨模态检索——即基于语义相关性同时检索文本和图片——需选择多模态嵌入模型(带有 **Vision** 图标)。从文档中提取的图片将被嵌入并索引以供检索。
- 使用此类嵌入模型的知识库,其卡片上标有 **Multimodal**。
+ 使用此类嵌入模型的知识库,其卡片上标有 **Multimodal**。
-
-
+
+
高质量索引方式支持三种检索策略:向量检索、全文检索或混合检索。详见 [指定检索设置](#指定检索设置)。
- **启用 Q\&A 模式(仅适用于自托管部署)**
+ ### Q&A 模式
- 开启该模式后,系统将对已上传的文本进行分段。总结内容后为每个分段自动生成 Q\&A 匹配对。与常见的 「Q to P」(用户问题匹配文本段落)策略不同,QA 模式采用 「Q to Q」(问题匹配问题)策略。
+
+ Q&A 模式仅适用于自托管部署。
+
+
+ 开启该模式后,系统将对已上传的文本进行分段。总结内容后为每个分段自动生成 Q&A 匹配对。
- 这是因为 「常见问题」 文档里的文本**通常是具备完整语法结构的自然语言**,Q to Q 模式会令问题和答案的匹配更加清晰,并同时满足一些高频和高相似度问题的提问场景。
+ 与常见的 「Q to P」(用户问题匹配文本段落)策略不同,Q&A 模式采用 「Q to Q」(问题匹配问题)策略。
- > **Q\&A 模式仅支持处理 「中英日」 三语。启用该模式后可能会消耗更多的 LLM Tokens,并且无法使用**[**经济型索引方式**](/zh/use-dify/knowledge/create-knowledge/setting-indexing-methods#经济)**。**
+ 这种方法特别有效,因为常见问题文档中的文本**通常是具备完整语法结构的自然语言**。
- 
+ > **Q to Q** 策略使问题和答案的匹配更加清晰,并能更好地支持高频或高相似度问题的场景。
+
+ 
当用户提问时,系统会找出与之最相似的问题,然后返回对应的分段作为答案。这种方式更加精确,因为它直接针对用户问题进行匹配,可以更准确地帮助用户检索真正需要的信息。

-
+
+
+
- **经济**
- 在经济模式下,每个区块内使用 10 个关键词进行检索,降低了准确度但无需产生费用。对于检索到的区块,仅提供倒排索引方式选择最相关的区块,详细说明请阅读[下文](#指定检索设置)。
+ 在经济模式下,每个区块内使用 10 个关键词进行检索,降低了准确度但无需消耗 Token。对于检索到的区块,仅提供倒排索引方式选择最相关的区块。
- 选择经济型索引方式后,若感觉实际的效果不佳,可以在知识库设置页中升级为 **“高质量”索引方式**。
+如果经济型索引方式的效果不符合预期,可以在知识库设置页中升级为高质量索引方式。
+
+
- 
+
-## 指定检索设置
+## 指定检索设置
-知识库在接收到用户查询问题后,按照预设的检索方式在已有的文档内查找相关内容,提取出高度相关的信息片段供语言模型生成高质量答案。这将决定 LLM 所能获取的背景信息,从而影响生成结果的准确性和可信度。
+知识库在接收到用户查询问题后,按照预设的检索方式在已有的文档内查找相关内容,提取出高度相关的信息片段。这些片段为 LLM 提供必要的上下文,最终影响其回答的准确性和可信度。
-常见的检索方式包括基于向量相似度的语义检索,以及基于关键词的精准匹配:前者将文本内容块和问题查询转化为向量,通过计算向量相似度匹配更深层次的语义关联;后者通过倒排索引,即搜索引擎常用的检索方法,匹配问题与关键内容。
+常见的检索方式包括:
-不同的索引方式对应差异化的检索设置。
+1. 基于向量相似度的语义检索——将文本块和查询转化为向量,通过相似度评分进行匹配。
+2. 使用倒排索引的关键词匹配(一种标准的搜索引擎技术)。
+
+Dify 的知识库支持这两种检索方式。具体可用的检索选项取决于所选的索引方式。
-
- **高质量索引**
+
+ **高质量**
- 在高质量索引方式下,Dify 提供向量检索、全文检索与混合检索设置:
+ 在**高质量**索引方式下,Dify 提供三种检索设置:**向量检索、全文检索和混合检索**。
- 
+
- **向量检索**
+**向量检索**
- **定义:** 向量化用户输入的问题并生成查询文本的数学向量,比较查询向量与知识库内对应的文本向量间的距离,寻找相邻的分段内容。
+**定义:** 向量化用户输入的问题并生成查询向量,然后将其与知识库中对应的文本向量进行比较,找到最相邻的分段。
- 
+
- **向量检索设置:**
+**向量检索设置:**
- **Rerank 模型:** 默认关闭。开启后将使用第三方 Rerank 模型再一次重排序由向量检索召回的内容分段,以优化排序结果。帮助 LLM 获取更加精确的内容,辅助其提升输出的质量。开启该选项前,需前往“设置” → “模型供应商”,提前配置 Rerank 模型的 API 秘钥。
+**Rerank 模型:** 默认关闭。开启后将使用第三方 Rerank 模型对向量检索返回的文本分段进行重新排序,以优化结果。这有助于 LLM 获取更精确的信息并提升输出质量。开启该选项前,需前往**设置** → **模型供应商**,提前配置 Rerank 模型的 API 密钥。
-
- 若选择的嵌入模型支持多模态,需同样选择多模态 Rerank 模型(带有 **Vision** 图标)。否则,检索到的图片将在重排序和检索结果中被排除。
-
+
+ 若选择的嵌入模型为多模态,需同样选择多模态 Rerank 模型(带有 **Vision** 图标)。否则,检索到的图片将在重排序和检索结果中被排除。
+
- > 开启该功能后,将消耗 Rerank 模型的 Tokens,详情请参考对应模型的价格说明。
+> 开启该功能后,将消耗 Rerank 模型的 Token。详情请参考对应模型的价格说明。
- **TopK:** 用于筛选与用户问题相似度最高的文本片段。系统同时会根据选用模型上下文窗口大小动态调整片段数量。默认值为 3,数值越高,预期被召回的文本分段数量越多。
+**TopK:** 用于确定检索与用户问题相似度最高的文本分段数量。系统同时会根据选用模型上下文窗口大小动态调整分段数量。默认值为 **3**,数值越高,预期被召回的文本分段数量越多。
- **Score 阈值:** 用于设置文本片段筛选的相似度阈值,只召回超过设置分数的文本片段,默认值为 0.5。数值越高说明对于文本与问题要求的相似度越高,预期被召回的文本数量也越少。
+**Score 阈值:** 用于设置文本分段被检索所需的最低相似度分数。只有超过该分数的分段才会被检索。默认值为 **0.5**。阈值越高,对相似度要求越高,因此被检索的分段数量越少。
- > TopK 和 Score 设置仅在 Rerank 步骤生效,因此需要添加并开启 Rerank 模型才能应用两者中的设置参数。
+> TopK 和 Score 设置仅在 Rerank 阶段生效。因此,要应用这些设置中的任何一项,需要添加并启用 Rerank 模型。
***
**全文检索**
- **定义:** 关键词检索,即索引文档中的所有词汇。用户输入问题后,通过明文关键词匹配知识库内对应的文本片段,返回符合关键词的文本片段;类似搜索引擎中的明文检索。
+**定义:** 索引文档中的所有词汇,允许用户查询任意词汇并返回包含这些词汇的文本片段。
- 
+
- **Rerank 模型:** 默认关闭。开启后将使用第三方 Rerank 模型再一次重排序由全文检索召回的内容分段,以优化排序结果。向 LLM 发送经过重排序的分段,辅助其提升输出的内容质量。开启该选项前,需前往“设置” → “模型供应商”,提前配置 Rerank 模型的 API 秘钥。
+**Rerank 模型:** 默认关闭。开启后将使用第三方 Rerank 模型对全文检索返回的文本分段进行重新排序,以优化结果。这有助于 LLM 获取更精确的信息并提升输出质量。开启该选项前,需前往**设置** → **模型供应商**,提前配置 Rerank 模型的 API 密钥。
-
- 若选择的嵌入模型支持多模态,需同样选择多模态 Rerank 模型(带有 **Vision** 图标)。否则,检索到的图片将在重排序和检索结果中被排除。
-
+
+ 若选择的嵌入模型为多模态,需同样选择多模态 Rerank 模型(带有 **Vision** 图标)。否则,检索到的图片将在重排序和检索结果中被排除。
+
- > 开启该功能后,将消耗 Rerank 模型的 Tokens,详情请参考对应模型的价格说明。
+> 开启该功能后,将消耗 Rerank 模型的 Token。详情请参考对应模型的价格说明。
- **TopK:** 用于筛选与用户问题相似度最高的文本片段。系统同时会根据选用模型上下文窗口大小动态调整片段数量。系统默认值为 3 。数值越高,预期被召回的文本分段数量越多。
+**TopK:** 用于确定检索与用户问题相似度最高的文本分段数量。系统同时会根据选用模型上下文窗口大小动态调整分段数量。默认值为 **3**,数值越高,预期被召回的文本分段数量越多。
- **Score 阈值:** 用于设置文本片段筛选的相似度阈值,只召回超过设置分数的文本片段,默认值为 0.5。数值越高说明对于文本与问题要求的相似度越高,预期被召回的文本数量也越少。
+**Score 阈值:** 用于设置文本分段被检索所需的最低相似度分数。只有超过该分数的分段才会被检索。默认值为 **0.5**。阈值越高,对相似度要求越高,因此被检索的分段数量越少。
- > TopK 和 Score 设置仅在 Rerank 步骤生效,因此需要添加并开启 Rerank 模型才能应用两者中的设置参数。
+> TopK 和 Score 设置仅在 Rerank 阶段生效。因此,要应用这些设置中的任何一项,需要添加并启用 Rerank 模型。
***
- **混合检索**
+**混合检索**
- **定义:** 同时执行全文检索和向量检索,或 Rerank 模型,从查询结果中选择匹配用户问题的最佳结果。
+**定义:** 同时执行全文检索和向量检索。它包含一个重排序步骤,根据用户的查询从两种搜索结果中选择最佳匹配结果。
- 
+
- 在混合检索设置内可以选择启用 **“权重设置”** 或 **“Rerank 模型”**。
+在此模式下,你可以指定**"权重设置"**而无需配置 Rerank 模型 API,或启用 **Rerank 模型**进行检索。
- * **权重设置**
+* **权重设置**
- 允许用户赋予语义优先和关键词优先自定义的权重。关键词检索指的是在知识库内进行全文检索(Full Text Search),语义检索指的是在知识库内进行向量检索(Vector Search)。
+ 此功能允许用户为语义优先和关键词优先设置自定义权重。关键词检索指的是在知识库内进行全文检索,语义检索指的是在知识库内进行向量检索。
- * **将语义值拉至 1**
+ * **语义值设为 1**
- **仅启用语义检索模式**。借助 Embedding 模型,即便知识库中没有出现查询中的确切词汇,也能通过计算向量距离的方式提高搜索的深度,返回正确内容。此外,当需要处理多语言内容时,语义检索能够捕捉不同语言之间的意义转换,提供更加准确的跨语言搜索结果。
- * **将关键词的值拉至 1**
+ 仅启用语义检索模式。借助嵌入模型,即便知识库中没有出现查询中的确切词汇,也能通过计算向量距离的方式提高搜索的深度,返回相关内容。此外,当需要处理多语言内容时,语义检索能够捕捉不同语言之间的意义转换,提供更加准确的跨语言搜索结果。
+ * **关键词值设为 1**
- **仅启用关键词检索模式**。通过用户输入的信息文本在知识库全文匹配,适用于用户知道确切的信息或术语的场景。该方法所消耗的计算资源较低,适合在大量文档的知识库内快速检索。
- * **自定义关键词和语义权重**
-
- 除了将不同的数值拉至 1,你还可以不断调试二者的权重,找到符合业务场景的最佳权重比例。
-
- > 语义检索指的是比对用户问题与知识库内容中的向量距离。距离越近,匹配的概率越大。参考阅读:[《Dify:Embedding 技术与 Dify 知识库设计/规划》](https://mp.weixin.qq.com/s/vmY_CUmETo2IpEBf1nEGLQ)。
+ 仅启用关键词检索模式。通过用户输入的信息文本在知识库全文匹配,适用于用户知道确切的信息或术语的场景。该方法所消耗的计算资源较低,适合在大量文档的知识库内快速检索。
+ * **自定义关键词和语义权重**
+ 除了仅启用语义检索或关键词检索外,还提供灵活的自定义权重设置。你可以不断调整两种方法的权重,找到符合业务场景的最佳权重比例。
***
- * **Rerank 模型**
+ **Rerank 模型**
- 默认关闭。开启后将使用第三方 Rerank 模型再一次重排序由混合检索召回的内容分段,以优化排序结果。向 LLM 发送经过重排序的分段,辅助其提升输出的内容质量。开启该选项前,需前往“设置” → “模型供应商”,提前配置 Rerank 模型的 API 秘钥。
+ 默认关闭。开启后将使用第三方 Rerank 模型对混合检索返回的文本分段进行重新排序,以优化结果。这有助于 LLM 获取更精确的信息并提升输出质量。开启该选项前,需前往**设置** → **模型供应商**,提前配置 Rerank 模型的 API 密钥。
-
- 若选择的嵌入模型支持多模态,需同样选择多模态 Rerank 模型(带有 **Vision** 图标)。否则,检索到的图片将在重排序和检索结果中被排除。
-
+
+ 若选择的嵌入模型为多模态,需同样选择多模态 Rerank 模型(带有 **Vision** 图标)。否则,检索到的图片将在重排序和检索结果中被排除。
+
- > 开启该功能后,将消耗 Rerank 模型的 Tokens,详情请参考对应模型的价格说明。
+ > 开启该功能后,将消耗 Rerank 模型的 Token。详情请参考对应模型的价格说明。
- **“权重设置”** 和 **“Rerank 模型”** 设置内支持启用以下选项:
+**"权重设置"**和**"Rerank 模型"**设置支持以下选项:
- **TopK:** 用于筛选与用户问题相似度最高的文本片段。系统同时会根据选用模型上下文窗口大小动态调整片段数量。系统默认值为 3 。数值越高,预期被召回的文本分段数量越多。
+**TopK:** 用于确定检索与用户问题相似度最高的文本分段数量。系统同时会根据选用模型上下文窗口大小动态调整分段数量。默认值为 **3**,数值越高,预期被召回的文本分段数量越多。
- **Score 阈值:** 用于设置文本片段筛选的相似度阈值,即:只召回超过设置分数的文本片段。系统默认关闭该设置,即不会对召回的文本片段相似值过滤。打开后默认值为 0.5。数值越高,预期被召回的文本数量越少。
+**Score 阈值:** 用于设置文本分段被检索所需的最低相似度分数。只有超过该分数的分段才会被检索。默认值为 **0.5**。阈值越高,对相似度要求越高,因此被检索的分段数量越少。
-
- **倒排索引**
+
+ **经济**
- 在经济索引方式下,仅提供**倒排索引方式**。这是一种用于快速检索文档中关键词的索引结构,常用于在线搜索引擎。倒排索引仅支持 **TopK** 设置项。
+在**经济索引**模式下,仅提供倒排索引方式。倒排索引是一种用于快速检索文档中关键词的数据结构,常用于在线搜索引擎。倒排索引仅支持 **TopK** 设置。
- **TopK:**
+**TopK:** 用于确定检索与用户问题相似度最高的文本分段数量。系统同时会根据选用模型上下文窗口大小动态调整分段数量。默认值为 **3**,数值越高,预期被召回的文本分段数量越多。
- 用于筛选与用户问题相似度最高的文本片段。系统同时会根据选用模型上下文窗口大小动态调整片段数量。系统默认值为 3 。数值越高,预期被召回的文本分段数量越多。
+
+
+
- 
-## 阅读更多
+### 参考
-指定检索设置后,你可以参考以下文档查看在实际场景下,关键词与内容块的匹配情况。
+指定检索设置后,你可以参考以下文档查看在不同场景下关键词与内容块的匹配情况。
-
- 查看实际场景下的关键词与内容块匹配情况
-
\ No newline at end of file
+
+了解如何测试和引用知识库检索
+
diff --git a/zh/use-dify/knowledge/knowledge-pipeline/knowledge-pipeline-orchestration.mdx b/zh/use-dify/knowledge/knowledge-pipeline/knowledge-pipeline-orchestration.mdx
index 2ffd2342..9952baa8 100644
--- a/zh/use-dify/knowledge/knowledge-pipeline/knowledge-pipeline-orchestration.mdx
+++ b/zh/use-dify/knowledge/knowledge-pipeline/knowledge-pipeline-orchestration.mdx
@@ -41,7 +41,7 @@ title: "步骤二:编排知识流水线"
## 步骤一:数据源配置
-在一个知识库里,你可以选择单一或多个数据源。每个数据源可以被多次选中,并包含不同配置。目前,Dify 支持 4 种数据源:文件上传、在线网盘、在线文档和网页爬虫。
+在一个知识库里,你可以选择单一或多个数据源。目前,Dify 支持 4 种数据源:**文件上传、在线网盘、在线文档和网页爬虫**。
你也可以前往 [Dify Marketplace](https://marketplace.dify.ai),获得更多数据源。
@@ -107,6 +107,8 @@ title: "步骤二:编排知识流水线"
+---
+
### 网页爬虫
将网页内容转化为大型语言模型容易识别的格式,知识库支持 Jina Reader 和 Firecrawl,提供灵活的网页解析能力。
@@ -157,13 +159,15 @@ title: "步骤二:编排知识流水线"
| 最大爬取深度 (Max depth) | 可选 | 控制爬取层级深度 |
| 排除路径 (Exclude paths) | 可选 | 设置不爬取的页面路径 |
| 仅包含路径 (Include only paths) | 可选 | 限制只爬取指定路径 |
-| 启用内容提取器 (Enable Extractor) | 可选 | 选择数据处理方式 |
+| 启用内容提取器 (Extractor) | 可选 | 选择数据处理方式 |
| 只提取主要内容 | 可选 | 过滤页面辅助信息 |