diff --git a/docs.json b/docs.json index aeb0820b..958ec051 100644 --- a/docs.json +++ b/docs.json @@ -931,7 +931,7 @@ { "tab": "术语表", "pages": [ - "zh-hans/termbase/example" + "zh-hans/termbase/termbase" ] } ] @@ -1385,9 +1385,9 @@ ] }, { - "tab": "Termbase", + "tab": "用語ベース", "pages": [ - "ja-jp/termbase/example" + "ja-jp/termbase/termbase" ] } ] diff --git a/en/termbase/example.mdx b/en/termbase/example.mdx deleted file mode 100644 index fd0e2fd9..00000000 --- a/en/termbase/example.mdx +++ /dev/null @@ -1,5 +0,0 @@ ---- -title: Termbase ---- - -Test \ No newline at end of file diff --git a/en/termbase/termbase.mdx b/en/termbase/termbase.mdx new file mode 100644 index 00000000..e848c9a5 --- /dev/null +++ b/en/termbase/termbase.mdx @@ -0,0 +1,190 @@ +--- +title: Termbase +--- + +## A +### Agent +An autonomous AI system capable of making decisions and executing tasks based on environmental information. In the Dify platform, agents combine the comprehension capabilities of large language models with the ability to interact with external tools, automatically completing a series of operations ranging from simple to complex, such as searching for information, calling APIs, or generating content. + +### Agentic Workflow +A task orchestration method that allows AI systems to autonomously solve complex problems through multiple steps. For example, an agentic workflow can first understand a user's question, then query a knowledge base, call computational tools, and finally integrate information to generate a complete answer, all without human intervention. + +### Automatic Speech Recognition (ASR) +Technology that converts human speech into text and serves as the foundation for voice interaction applications. This technology allows users to interact with AI systems by speaking rather than typing, and is widely used in scenarios such as voice assistants, meeting transcription, and accessibility services. + +## B +### Backbone of Thought (BoT) +A structured thinking framework that provides the main structure for reasoning in large language models. It helps models maintain a clear thinking path when processing complex problems, similar to the outline of an academic paper or the skeleton of a decision tree. + +## C +### Chunking +A processing technique that splits long text into smaller content blocks, enabling retrieval systems to find relevant information more precisely. A good chunking strategy considers both the semantic integrity of the content and the context window limitations of language models, thereby improving the quality of retrieval and generation. + +### Citation and Attribution +Features that allow AI systems to clearly indicate the sources of information, increasing the credibility and transparency of responses. When the system generates answers based on knowledge base content, it can automatically annotate the referenced document name, page number, or URL, enabling users to understand the origin of the information. + +### Chain of Thought (CoT) +A prompting technique that guides large language models to display their step-by-step thinking process. For example, when solving a math problem, the model first lists the known conditions, then follows reasoning steps to solve it one by one, and finally reaches a conclusion. The entire process resembles human thinking. + +## D +### Domain-Specific Language (DSL) +A programming language or configuration format designed for a specific application domain. Dify DSL is an application engineering file standard based on YAML format, used to define various configurations of AI applications, including model parameters, prompt design, and workflow orchestration, allowing non-professional developers to build complex AI applications. + +## E +### Extract, Transform, Load (ETL) +A classic data processing workflow: extracting raw data, transforming it into a format suitable for analysis, and then loading it into the target system. In AI document processing, ETL may include extracting text from PDFs, cleaning formats, splitting content, calculating embedding vectors, and finally loading into a vector database, preparing for RAG systems. + +## F +### Frequency Penalty +A text generation control parameter that increases output diversity by reducing the probability of generating frequently occurring vocabulary. The higher the value, the more the model tends to use diverse vocabulary and expressions; at a value of 0, the model will not specifically avoid reusing the same vocabulary. + +### Function Calling +The capability of large language models to recognize when to call specific functions and provide the required parameters. For example, when a user asks about the weather, the model can automatically call a weather API, construct the correct parameter format (city, date), and then generate a response based on the API's returned results. + +## G +### General Chunking Pattern +A simple text splitting strategy that divides documents into mutually independent content blocks. This pattern is suitable for documents with clear structures and relatively independent paragraphs, such as product manuals or encyclopedia entries, where each chunk can be understood independently without heavily relying on context. + +### Graph of Thought (GoT) +A method of representing the thinking process as a network structure, capturing complex relationships between concepts. Unlike the linear Chain of Thought, the Graph of Thought can express branching, cyclical, and multi-path thinking patterns, suitable for dealing with complex problems that have multiple interrelated factors. + +## H +### Hybrid Search +A search method that combines the advantages of keyword matching and semantic search to provide more comprehensive retrieval results. For example, when searching for "apple nutritional components," hybrid search can find both documents containing the keywords "apple" and "nutrition," as well as content discussing related semantic concepts like "fruit health value," selecting the optimal results through weight adjustment or reranking. + +## I +### Inverted Index +A core data structure of search engines that records which documents each word appears in. Unlike traditional indexes that find content from documents, inverted indexes find documents from vocabulary, greatly improving full-text retrieval speed. For example, the index entry for the term "artificial intelligence" would list all document IDs and positions containing this term. + +## K +### Keyword Search +A search method based on exact matching that finds documents containing specific vocabulary. This method is computationally efficient and suitable for scenarios where users clearly know the terms they want to find, such as product models, proper nouns, or specific commands, but may miss content expressed using synonyms or related concepts. + +### Knowledge Base +A database that stores structured information in AI applications, providing a source of professional knowledge for models. In the Dify platform, knowledge bases can contain various documents (PDF, Word, web pages, etc.), which are processed for AI retrieval and used to generate accurate, well-founded answers, particularly suitable for building domain expert applications. + +### Knowledge Retrieval +The process of finding information from a knowledge base that is most relevant to a user's question, and is a key component of RAG systems. Effective knowledge retrieval not only finds relevant content but also controls the amount of information returned, avoiding irrelevant content that could interfere with the model, while providing sufficient background to ensure accurate and complete answers. + +## L +### Large Language Model (LLM) +An AI model trained on massive amounts of text that can understand and generate human language. Modern LLMs (such as the GPT series, Claude, etc.) can write articles, answer questions, write code, and even conduct reasoning. They are the core engines of various AI applications, especially suitable for scenarios requiring language understanding and generation. + +### Local Model Inference +The process of running AI models on a user's own device rather than relying on cloud services. This approach provides better privacy protection (data does not leave the local environment) and lower latency (no network transmission required), making it suitable for processing sensitive data or scenarios requiring offline work, though it is typically limited by the computational capacity of local devices. + +## M +### Model-as-a-Service (MaaS) +A cloud service model where providers offer access to pre-trained models through APIs. Users don't need to worry about training, deploying, or maintaining models; they simply call the API and pay for usage, significantly lowering the development threshold and infrastructure costs of AI applications. It's suitable for quickly validating ideas or building prototypes. + +### Max_tokens +A parameter that controls the maximum number of characters the model generates in a single response. One token is approximately equivalent to 4 characters or 3/4 of an English word. Setting a reasonable maximum token count can control the length of the answer, avoid overly verbose output, and ensure complete expression of necessary information. For example, a brief summary might be set to 200 tokens, while a detailed report might require 2000 tokens. + +### Memory +The ability of AI systems to save and use historical interaction information, keeping multi-turn conversations coherent. Effective memory mechanisms enable AI to understand contextual references, remember user preferences, and track long-term goals, thereby providing personalized and continuous user experiences, avoiding repeatedly asking for information that has already been provided. + +### Metadata Filtering +A technique that utilizes document attribute information (such as title, author, date, classification tags) for content filtering. For example, users can restrict retrieval to technical documents within a specific date range, or only query reports from a specific department, thereby narrowing the scope before retrieval, improving search efficiency and result relevance. + +### Multimodal Model +A model capable of processing multiple types of input data, such as text, images, audio, etc. These models break the single-perception limitations of traditional AI and can understand image content, analyze video scenes, recognize voice emotions, creating possibilities for more comprehensive information understanding, suitable for complex application scenarios requiring cross-media understanding. + +### Multi-tool-call +The ability of a model to call multiple different tools in a single response. For example, when processing a request like "Compare tomorrow's weather in Beijing and Shanghai and recommend suitable clothing," the model can simultaneously call weather APIs for both cities, then provide reasonable suggestions based on the returned results, improving the efficiency of handling complex tasks. + +### Multi-path Retrieval +A strategy for obtaining information in parallel through multiple retrieval methods. For example, the system can simultaneously use keyword search, semantic matching, and knowledge graph queries, then merge and filter the results, improving the coverage and accuracy of information retrieval, particularly suitable for handling complex or ambiguous user queries. + +## P +### Parent-Child Chunking +An advanced text splitting strategy that creates two levels of content blocks: parent blocks retain the complete context, while child blocks provide precise matching points. The system first uses child blocks to determine the location of relevant content, then retrieves the corresponding parent blocks to provide complete background, balancing retrieval precision and context completeness, suitable for processing complex documents such as research papers or technical manuals. + +### Presence Penalty +A parameter setting that prevents language models from repeating content. It encourages models to explore new expressions by reducing the probability of generating vocabulary that has already appeared. The higher the parameter value, the less likely the model is to repeat previously generated content, helping to avoid common circular arguments or repetitive problem statements in AI responses. + +### Predefined Model +A ready-made model trained and provided by AI vendors that users can directly call without training themselves. These closed-source models (such as GPT-4, Claude, etc.) are typically trained and optimized on a large scale, powerful and easy to use, suitable for rapid application development or teams lacking independent training resources. + +### Prompt +Input text that guides AI models to generate specific responses. Well-designed prompts can significantly improve output quality, including elements such as clear instructions, providing examples, setting format requirements, etc. For example, different prompts can guide the same model to generate academic articles, creative stories, or technical analysis, making them one of the most critical factors affecting AI output. + +## Q +### Q&A Mode +A special indexing strategy that automatically generates question-answer pairs for document content, implementing "question-to-question" matching. When a user asks a question, the system looks for semantically similar pre-generated questions and returns the corresponding answers. This mode is particularly suitable for FAQ content or structured knowledge points, providing a more precise question-answering experience. + +## R +### Retrieval-Augmented Generation (RAG) +A technical architecture that combines external knowledge retrieval and language generation. The system first retrieves information from a knowledge base related to the user's question, then provides this information as context to the language model, generating well-founded, accurate answers. RAG overcomes the limited knowledge and hallucination problems of language models, particularly suitable for application scenarios requiring the latest or specialized knowledge. + +### Reasoning and Acting (ReAct) +An AI agent framework that enables models to alternate between thinking and executing operations. In the problem-solving process, the model first analyzes the current state, formulates a plan, then calls appropriate tools (such as search engines, calculators), and thinks about the next step based on the tool's returned results, forming a thinking-action-thinking cycle until the problem is solved. It is suitable for complex tasks requiring multiple steps and external tools. + +### ReRank +A technique for secondary sorting of preliminary retrieval results to improve the relevance of final results. For example, the system might first quickly retrieve a large number of candidate content through efficient algorithms, then use more complex but precise models to reevaluate and sort these results, placing the most relevant content first, balancing retrieval efficiency and result quality. + +### Rerank Model +A model specifically designed to evaluate the relevance of retrieval results to queries and reorder them. Unlike preliminary retrieval, these models typically use more complex algorithms, consider more semantic factors, and can more accurately determine how well content matches user intent. For example, models like Cohere Rerank and BGE Reranker can significantly improve the quality of search and recommendation system results. + +### Response_format +A specification of the structure type for model output, such as plain text, JSON, or HTML. Setting a specific response format can make AI output easier to process by programs or integrate into other systems. For example, requiring the model to answer in JSON format ensures the output has a consistent structure, facilitating direct parsing and display by frontend applications. + +### Reverse Calling +A bidirectional mechanism for plugins to interact with platforms, allowing plugins to actively call platform functionality. In Dify, this means third-party plugins can not only be called by AI but can also use Dify's core features in return, such as triggering workflows or calling other plugins, greatly enhancing the system's extensibility and flexibility. + +### Retrieval Test +A functionality for verifying the effectiveness of knowledge base retrieval, allowing developers to simulate user queries and evaluate system return results. This testing helps developers understand the boundaries of the system's retrieval capabilities, discover and fix potential issues such as missed detection, false detection, or poor relevance, and is an indispensable tool for optimizing RAG systems. + +## S +### Score Threshold +A similarity threshold for filtering retrieval results, where only content with scores exceeding the set value is returned. Setting a reasonable threshold can avoid irrelevant information interfering with model generation, improving the accuracy of answers. For example, if the threshold is set to 0.8 (out of 1.0), only highly relevant content will be adopted, but it may result in incomplete information; lowering the threshold will include more content but may introduce noise. + +### Semantic Search +A retrieval method based on understanding and matching text meaning rather than simple keyword matching. It uses vector embedding technology to convert text into mathematical representations, then calculates the semantic similarity between queries and documents. This method can find content that is expressed differently but has similar meanings, understand synonyms and contextual relationships, and even support cross-language retrieval, particularly suitable for complex or natural language form queries. + +### Session Variables +A mechanism for storing multi-turn dialogue context information, allowing AI to maintain coherent interactions. For example, the system can remember user preferences (such as "concise answers"), identity information, or interaction history status, avoiding repeated inquiries and providing personalized experiences. In Dify, developers can define and manage these variables to build applications that truly remember users. + +### Speech-to-Text (STT) +Technology that converts users' voice input into text data. This technology allows users to interact with AI systems by speaking rather than typing, improving the naturalness and convenience of interaction, particularly suitable for mobile devices, driving scenarios, or accessibility applications, and is the foundation for voice assistants and real-time transcription applications. + +### Stream-tool-call +A real-time processing mode that allows AI systems to call external tools while generating responses, without waiting until the complete answer is generated before processing. This approach greatly improves the response speed for complex tasks, making the user experience more smooth, suitable for interactive scenarios requiring multiple tool calls. + +### Streaming Response +A real-time response mechanism where AI systems return content to users as it is generated, rather than waiting until all content is generated before displaying it at once. This approach significantly improves the user waiting experience, especially for long answers, allowing users to immediately see partial content and begin reading, providing a more natural interaction experience similar to immediate feedback in human conversations. + +## T +### Temperature +A parameter controlling the randomness of language model output, typically between 0-1. Lower temperature (close to 0) makes model output more deterministic and conservative, favoring high-probability vocabulary, suitable for factual answers; higher temperature (close to 1) makes output more diverse and creative, suitable for creative writing. For example, weather forecasts might use a low temperature of 0.1, while story creation might use a high temperature of 0.8. + +### Text Embedding +The process of converting text into numerical vectors, enabling AI systems to understand and process language. These vectors capture the semantic features of vocabulary and sentences, allowing computers to measure similarity between texts, cluster related content, or retrieve matching information. Different embedding models (such as OpenAI's text-embedding-ada-002 or Cohere's embed-multilingual) are optimized for different languages and application scenarios. + +### Tool Calling +The ability of AI systems to identify and use external functionality, greatly expanding the model's capability boundaries. For example, language models themselves cannot access real-time data, but by calling a weather API, they can provide current weather information; by calling database query tools, they can retrieve the latest product inventory; by calling calculators, they can perform complex calculations, enabling AI to solve problems beyond their training data range. + +### TopK +A parameter controlling the number of retrieval results returned, specifying to retain the top K text fragments with the highest similarity. Setting an appropriate TopK value is crucial for RAG system performance: too small a value may lose key information, while too large a value may introduce noise and increase the language model's processing burden. For example, simple questions might only need TopK=3, while complex questions might require TopK=10 to obtain sufficient background. + +### TopP (Nucleus Sampling) +A text generation control method that selects the next word only from the most likely vocabulary with cumulative probability reaching threshold P. Unlike fixed selection of the highest-probability word or completely random selection, TopP balances determinism and creativity. For example, TopP=0.9 means the model only considers vocabulary accounting for 90% of the probability and ignores low-probability options, avoiding both completely predictable output and excessively random content. + +### Tree of Thought (ToT) +A thinking method for exploring multiple reasoning paths, allowing models to analyze problems from different perspectives. Similar to human "if...then..." thinking patterns, Tree of Thought lets models generate multiple possible thinking branches, evaluate the feasibility of each branch, and then select the optimal path to continue, particularly suitable for solving complex problems requiring trial and error or consideration of multiple possibilities. + +### Text-to-Speech (TTS) +Technology that converts written text into natural speech, enabling AI systems to communicate with users through voice. Modern TTS systems can generate natural speech close to human quality, supporting multiple languages, tones, and emotional expressions, widely used in audiobooks, navigation systems, voice assistants, and accessibility services, providing more natural interaction experiences for different scenarios and users. + +## V +### Vector Database +A database system specialized in storing and searching vector embeddings, serving as the infrastructure for efficient semantic retrieval. Unlike traditional databases, vector databases are optimized for high-dimensional vector similarity search, capable of quickly finding semantically similar content from millions of documents. Common vector databases include Pinecone, Milvus, Qdrant, etc., which play key roles in RAG systems, recommendation engines, and content analysis. + +### Vector Retrieval +A search method based on text vector embedding similarity, forming the technical core of semantic search. The system first converts user queries into vectors, then finds the most similar content in pre-calculated document vectors. This method can capture deep semantic relationships, find content expressed differently but with similar meanings, overcoming the limitations of keyword search, particularly suitable for processing natural language queries and conceptual problems. + +### Vision +The functionality of multimodal LLMs to understand and process images, allowing models to analyze user-uploaded pictures and generate responses combining text. For example, users can upload product photos to inquire about usage methods, upload menu photos requesting translation, or upload charts asking for data trend analysis. This capability greatly expands AI application scenarios, making interaction more intuitive and diverse. + +## W +### Workflow +A task orchestration method that breaks down complex AI applications into multiple independent nodes executed in a specific order. In the Dify platform, developers can visually design workflows, combining multiple processing steps (such as user input processing, knowledge retrieval, multi-model collaboration, conditional branching) to build AI applications capable of handling complex business logic, making application development both flexible and intuitive. diff --git a/ja-jp/termbase/example.mdx b/ja-jp/termbase/example.mdx deleted file mode 100644 index fd0e2fd9..00000000 --- a/ja-jp/termbase/example.mdx +++ /dev/null @@ -1,5 +0,0 @@ ---- -title: Termbase ---- - -Test \ No newline at end of file diff --git a/ja-jp/termbase/termbase.mdx b/ja-jp/termbase/termbase.mdx new file mode 100644 index 00000000..f8a5690d --- /dev/null +++ b/ja-jp/termbase/termbase.mdx @@ -0,0 +1,191 @@ +--- +title: 用語集 +--- + +## A +### エージェント (Agent) +環境情報に基づいて意思決定やタスク実行ができる自律型AIシステムです。Difyプラットフォームでは、エージェントは大規模言語モデルの理解能力と外部ツールとの対話能力を組み合わせ、情報検索、API呼び出し、コンテンツ生成など、単純なものから複雑なものまでの一連の操作を自動的に完了します。 + +### エージェンティックワークフロー (Agentic Workflow) +AIシステムが複数のステップを通じて自律的に複雑な問題を解決できるタスク編成方法です。例えば、エージェンティックワークフローは、まずユーザーの質問を理解し、次に知識ベースを照会し、計算ツールを呼び出し、最後に情報を統合して完全な回答を生成します。これらはすべて人間の介入なしに行われます。 + +### 自動音声認識 (ASR, Automatic Speech Recognition) +人間の音声をテキストに変換する技術で、音声対話アプリケーションの基盤となります。この技術により、ユーザーはタイピングではなく話すことでAIシステムと対話でき、音声アシスタント、会議の文字起こし、アクセシビリティサービスなどのシナリオで広く使用されています。 + +## B +### 思考の骨格 (BoT, Backbone of Thought) +大規模言語モデルの推論に主要な構造を提供する構造化された思考フレームワークです。学術論文の概要や決定木の骨格のように、複雑な問題に対処する際にモデルが明確な思考経路を維持するのに役立ちます。 + +## C +### チャンキング (Chunking) +長いテキストを小さなコンテンツブロックに分割する処理技術で、検索システムがより正確に関連情報を見つけることを可能にします。優れたチャンキング戦略は、コンテンツの意味的整合性と言語モデルのコンテキストウィンドウの制限の両方を考慮し、検索と生成の品質を向上させます。 + +### 引用と帰属 (Citation and Attribution) +AIシステムが情報源を明確に示すことができる機能で、レスポンスの信頼性と透明性を高めます。システムが知識ベースのコンテンツに基づいて回答を生成する場合、参照されたドキュメント名、ページ番号、URLを自動的に注釈し、ユーザーが情報の出所を理解できるようにします。 + +### 思考の連鎖 (CoT, Chain of Thought) +大規模言語モデルがステップバイステップの思考プロセスを表示するように導くプロンプト技術です。例えば、数学の問題を解く場合、モデルははじめに既知の条件をリストアップし、次に推論ステップに従って一つずつ解き、最後に結論に到達します。このプロセス全体が人間の思考に似ています。 + +## D +### ドメイン固有言語 (DSL, Domain-Specific Language) +特定のアプリケーションドメイン用に設計されたプログラミング言語または構成形式です。Dify DSLは、YAML形式に基づくアプリケーションエンジニアリングファイル標準で、モデルパラメータ、プロンプト設計、ワークフロー編成など、AIアプリケーションのさまざまな構成を定義するために使用され、非専門的な開発者でも複雑なAIアプリケーションを構築できるようにします。 + +## E +### 抽出・変換・読み込み (ETL, Extract, Transform, Load) +データ処理の古典的なワークフロー:生データを抽出し、分析に適した形式に変換し、ターゲットシステムに読み込みます。AIドキュメント処理では、ETLはPDFからのテキスト抽出、フォーマットのクリーニング、コンテンツの分割、埋め込みベクトルの計算、最終的にベクトルデータベースへの読み込みを含む場合があり、RAGシステムの準備を整えます。 + +## F +### 頻度ペナルティ (Frequency Penalty) +頻繁に出現する語彙の生成確率を下げることで出力の多様性を高めるテキスト生成制御パラメータです。値が高いほど、モデルは多様な語彙と表現を使用する傾向があります。値が0の場合、モデルは同じ語彙を再利用することを特に避けません。 + +### 関数呼び出し (Function Calling) +大規模言語モデルが特定の関数をいつ呼び出す必要があるかを認識し、必要なパラメータを提供する能力です。例えば、ユーザーが天気について尋ねると、モデルは自動的に天気APIを呼び出し、正しいパラメータ形式(都市、日付)を構築し、APIの返す結果に基づいて応答を生成することができます。 + +## G +### 一般的なチャンキングパターン (General Chunking Pattern) +文書を相互に独立したコンテンツブロックに分割するシンプルなテキスト分割戦略です。このパターンは、製品マニュアルや百科事典のエントリなど、構造が明確で段落が比較的独立している文書に適しており、各チャンクはコンテキストに大きく依存することなく独立して理解できます。 + +### 思考のグラフ (GoT, Graph of Thought) +思考プロセスをネットワーク構造として表現し、概念間の複雑な関係を捉える方法です。線形の思考の連鎖とは異なり、思考のグラフは分岐、循環、複数経路の思考パターンを表現でき、複数の相互関連する要因を持つ複雑な問題の処理に適しています。 + +## H +### ハイブリッド検索 (Hybrid Search) +キーワードマッチングと意味検索の利点を組み合わせ、より包括的な検索結果を提供する検索方法です。例えば、「リンゴの栄養成分」を検索する場合、ハイブリッド検索は「リンゴ」と「栄養」のキーワードを含む文書だけでなく、「果物の健康価値」などの関連する意味概念を議論するコンテンツも見つけることができ、重み付け調整または再ランク付けを通じて最適な結果を選択します。 + +## I +### 転置インデックス (Inverted Index) +各単語がどの文書に出現するかを記録する検索エンジンのコアデータ構造です。文書からコンテンツを見つける従来のインデックスとは異なり、転置インデックスは語彙から文書を見つけ、全文検索速度を大幅に向上させます。例えば、「人工知能」という用語のインデックスエントリは、この用語を含むすべての文書IDと位置をリストアップします。 + +## K +### キーワード検索 (Keyword Search) +特定の語彙を含む文書を見つける正確なマッチングに基づく検索方法です。この方法は計算効率が高く、製品モデル、固有名詞、特定のコマンドなど、ユーザーが見つけたい用語を明確に知っているシナリオに適していますが、同義語や関連する概念を使用して表現されたコンテンツを見逃す可能性があります。 + +### 知識ベース (Knowledge Base) +AIアプリケーションで構造化された情報を保存し、モデルに専門知識の源を提供するデータベースです。Difyプラットフォームでは、知識ベースはさまざまな文書(PDF、Word、ウェブページなど)を含むことができ、処理されてAI検索に使用され、正確で根拠のある回答を生成するために使用されます。特にドメインエキスパートアプリケーションの構築に適しています。 + +### 知識検索 (Knowledge Retrieval) +ユーザーの質問に最も関連する情報を知識ベースから見つけるプロセスであり、RAGシステムの重要な構成要素です。効果的な知識検索は、関連するコンテンツを見つけるだけでなく、返される情報量を制御し、モデルを妨げる可能性のある無関係なコンテンツを避けながら、正確で完全な回答を確保するのに十分な背景を提供します。 + +## L +### 大規模言語モデル (LLM, Large Language Model) +大量のテキストで訓練され、人間の言語を理解し生成できるAIモデルです。現代のLLM(GPTシリーズ、Claudeなど)は、記事の作成、質問への回答、コードの作成、さらには推論も行うことができます。これらは様々なAIアプリケーションのコアエンジンであり、特に言語理解と生成を必要とするシナリオに適しています。 + +### ローカルモデル推論 (Local Model Inference) +クラウドサービスに依存せずに、ユーザー自身のデバイス上でAIモデルを実行するプロセスです。このアプローチは、より良いプライバシー保護(データがローカル環境を離れない)と低いレイテンシー(ネットワーク転送不要)を提供し、機密データの処理やオフライン作業を必要とするシナリオに適していますが、通常はローカルデバイスの計算能力によって制限されます。 + +## M +### サービスとしてのモデル (MaaS, Model-as-a-Service) +プロバイダーがAPIを通じて事前トレーニング済みモデルへのアクセスを提供するクラウドサービスモデルです。ユーザーはモデルのトレーニング、デプロイ、または保守について心配する必要はなく、単にAPIを呼び出して使用料を支払うだけで、AIアプリケーションの開発閾値とインフラコストを大幅に下げます。アイデアの迅速な検証やプロトタイプの構築に適しています。 + +### 最大トークン数 (Max_tokens) +モデルが単一の応答で生成する最大文字数を制御するパラメータです。1つのトークンは約4文字または英単語の3/4に相当します。適切な最大トークン数を設定することで、回答の長さを制御し、過度に冗長な出力を避け、必要な情報の完全な表現を確保できます。例えば、簡単な要約は200トークンに設定される場合がありますが、詳細なレポートでは2000トークンが必要になる場合があります。 + +### メモリ (Memory) +AIシステムが過去のインタラクション情報を保存して使用し、複数ターンの会話を一貫して保つ能力です。効果的なメモリメカニズムにより、AIはコンテキスト参照を理解し、ユーザーの好みを記憶し、長期的な目標を追跡できるようになり、これによりパーソナライズされた継続的なユーザーエクスペリエンスを提供し、すでに提供された情報を繰り返し尋ねることを避けます。 + +### メタデータフィルタリング (Metadata Filtering) +ドキュメント属性情報(タイトル、作者、日付、分類タグなど)を利用してコンテンツをフィルタリングする技術です。例えば、ユーザーは特定の日付範囲内の技術文書に検索を制限したり、特定の部署のレポートのみを照会したりして、検索前に範囲を絞り込み、検索効率と結果の関連性を向上させることができます。 + +### マルチモーダルモデル (Multimodal Model) +テキスト、画像、音声などの複数種類の入力データを処理できるモデルです。これらのモデルは従来のAIの単一知覚限界を打破し、画像内容の理解、ビデオシーンの分析、音声感情の認識が可能で、より包括的な情報理解の可能性を創出し、クロスメディア理解を必要とする複雑なアプリケーションシナリオに適しています。 + +### マルチツール呼び出し (Multi-tool-call) +モデルが単一のレスポンスで複数の異なるツールを呼び出す能力です。例えば、「北京と上海の明日の天気を比較し、適切な服装を推奨する」というリクエストを処理する場合、モデルは両都市の天気APIを同時に呼び出し、返された結果に基づいて合理的な提案を提供し、複雑なタスクを処理する効率を向上させます。 + +### マルチパス検索 (Multi-path Retrieval) +複数の検索方法を通じて並行して情報を取得する戦略です。例えば、システムはキーワード検索、セマンティックマッチング、知識グラフクエリを同時に使用し、結果をマージしてフィルタリングすることで、情報検索のカバレッジと精度を向上させ、特に複雑または曖昧なユーザークエリの処理に適しています。 + +## P +### 親子チャンキング (Parent-Child Chunking) +2レベルのコンテンツブロックを作成する高度なテキスト分割戦略:親ブロックは完全なコンテキストを保持し、子ブロックは正確なマッチングポイントを提供します。システムはまず子ブロックを使用して関連コンテンツの位置を特定し、次に対応する親ブロックを取得して完全な背景を提供し、検索精度とコンテキストの完全性のバランスを取り、研究論文や技術マニュアルなどの複雑な文書の処理に適しています。 + +### 存在ペナルティ (Presence Penalty) +言語モデルがコンテンツを繰り返すことを防ぐパラメータ設定です。すでに出現した語彙の生成確率を下げることにより、モデルが新しい表現を探索することを奨励します。パラメータ値が高いほど、モデルが以前に生成したコンテンツを繰り返す可能性が低くなり、AI応答でよく見られる循環的な議論や問題の繰り返し説明を避けるのに役立ちます。 + +### 事前定義モデル (Predefined Model) +AIベンダーによってトレーニングされ提供される既製モデルで、ユーザーは自分でトレーニングすることなく直接呼び出すことができます。これらのクローズドソースモデル(GPT-4、Claudeなど)は通常、大規模にトレーニングおよび最適化され、強力で使いやすく、迅速なアプリケーション開発や独立したトレーニングリソースを欠くチームに適しています。 + +### プロンプト (Prompt) +AIモデルに特定の応答を生成するよう導く入力テキストです。よく設計されたプロンプトは出力品質を大幅に向上させ、明確な指示、例の提供、フォーマット要件の設定などの要素を含みます。例えば、異なるプロンプトは同じモデルに学術記事、創造的なストーリー、または技術分析を生成するよう導くことができ、AI出力に影響を与える最も重要な要因の一つとなっています。 + +## Q +### Q&Aモード (Q&A Mode) +ドキュメントコンテンツに対して質問-回答のペアを自動生成する特殊なインデックス作成戦略で、「質問から質問」へのマッチングを実現します。ユーザーが質問すると、システムは意味的に類似した事前生成された質問を探し、対応する回答を返します。このモードは特にFAQコンテンツや構造化された知識ポイントに適しており、より正確な質問応答体験を提供します。 + +## R +### 検索拡張生成 (RAG, Retrieval-Augmented Generation) +外部知識検索と言語生成を組み合わせた技術アーキテクチャです。システムはまず知識ベースからユーザーの質問に関連する情報を検索し、次にこの情報をコンテキストとして言語モデルに提供し、根拠のある正確な回答を生成します。RAGは言語モデルの限られた知識と幻覚問題を克服し、特に最新または専門的な知識を必要とするアプリケーションシナリオに適しています。 + +### 推論と行動 (ReAct, Reasoning and Acting) +モデルが思考と操作の実行を交互に行うことができるAIエージェントフレームワークです。問題解決のプロセスでは、モデルはまず現在の状態を分析し、計画を立て、次に適切なツール(検索エンジン、計算機など)を呼び出し、ツールの返す結果に基づいて次のステップを考え、問題が解決されるまで思考-行動-思考のサイクルを形成します。これは複数のステップと外部ツールを必要とする複雑なタスクに適しています。 + +### 再ランキング (ReRank) +予備検索結果に対して二次ソートを行い、最終結果の関連性を向上させる技術です。例えば、システムはまず効率的なアルゴリズムを通じて大量の候補コンテンツを迅速に検索し、次により複雑だが精密なモデルを使用してこれらの結果を再評価し並べ替え、最も関連性の高いコンテンツを前に配置することで、検索効率と結果品質のバランスを取ります。 + +### 再ランキングモデル (Rerank Model) +検索結果とクエリの関連性を評価し再順序付けするために特別に設計されたモデルです。予備検索とは異なり、これらのモデルは通常より複雑なアルゴリズムを使用し、より多くの意味要素を考慮し、コンテンツがユーザーの意図にどれだけよく一致するかをより正確に判断できます。例えば、Cohere RerankやBGE Rerankerなどのモデルは検索や推薦システムの結果品質を大幅に向上させることができます。 + +### レスポンス形式 (Response_format) +プレーンテキスト、JSON、HTMLなど、モデル出力の構造タイプの指定です。特定のレスポンス形式を設定することで、AI出力がプログラムで処理しやすくなったり、他のシステムに統合しやすくなったりします。例えば、モデルにJSON形式で回答するよう要求すると、出力が一貫した構造を持つことが保証され、フロントエンドアプリケーションが直接解析して表示しやすくなります。 + +### リバースコーリング (Reverse Calling) +プラグインがプラットフォームと対話するための双方向メカニズムで、プラグインがプラットフォーム機能を積極的に呼び出すことを可能にします。Difyでは、これはサードパーティプラグインがAIから呼び出されるだけでなく、ワークフローのトリガーや他のプラグインの呼び出しなど、Difyのコア機能を返りに使用することもできることを意味し、システムの拡張性と柔軟性を大きく向上させます。 + +### 検索テスト (Retrieval Test) +知識ベースの検索効果を検証する機能で、開発者がユーザークエリをシミュレートしシステムの返す結果を評価することを可能にします。このテストは開発者がシステムの検索能力の境界を理解し、見逃し検出、誤検出、関連性の低さなどの潜在的な問題を発見して修正するのに役立ち、RAGシステムを最適化するために不可欠なツールです。 + +## S +### スコア閾値 (Score Threshold) +検索結果をフィルタリングするための類似度閾値で、設定値を超えるスコアのコンテンツのみが返されます。適切な閾値を設定することで、無関係な情報がモデル生成を妨げることを避け、回答の正確性を向上させることができます。例えば、閾値が0.8(1.0満点中)に設定されている場合、高度に関連性の高いコンテンツのみが採用されますが、情報が不完全になる可能性があります。閾値を下げるとより多くのコンテンツが含まれますがノイズが入る可能性があります。 + +### セマンティック検索 (Semantic Search) +単純なキーワードマッチングではなく、テキストの意味の理解とマッチングに基づく検索方法です。ベクトル埋め込み技術を使用してテキストを数学的表現に変換し、クエリとドキュメント間の意味的類似性を計算します。この方法は、表現方法は異なるが意味が似ているコンテンツを見つけ、同義語やコンテキスト関係を理解し、さらには言語横断検索をサポートし、特に複雑または自然言語形式のクエリに適しています。 + +### セッション変数 (Session Variables) +複数ターンの対話コンテキスト情報を保存するメカニズムで、AIがコヒーレントな対話を維持することを可能にします。例えば、システムはユーザーの好み(「簡潔な回答」など)、アイデンティティ情報、または対話履歴状態を記憶し、繰り返しの問い合わせを避け、パーソナライズされた体験を提供します。Difyでは、開発者はこれらの変数を定義および管理し、ユーザーを本当に記憶するアプリケーションを構築することができます。 + +### 音声からテキスト変換 (STT, Speech-to-Text) +ユーザーの音声入力をテキストデータに変換する技術です。この技術により、ユーザーはタイピングではなく話すことでAIシステムと対話でき、対話の自然さと利便性が向上し、特にモバイルデバイス、運転シナリオ、またはアクセシビリティアプリケーションに適しており、音声アシスタントやリアルタイム文字起こしアプリケーションの基盤となります。 + +### ストリームツール呼び出し (Stream-tool-call) +AIシステムが完全な回答が生成されるのを待たずに、応答を生成しながら外部ツールを呼び出すことができるリアルタイム処理モードです。このアプローチは複雑なタスクの応答速度を大幅に向上させ、ユーザー体験をよりスムーズにし、複数のツール呼び出しを必要とする対話シナリオに適しています。 + +### ストリーミングレスポンス (Streaming Response) +AIシステムがコンテンツをすべて生成し終わるのを待ってから一度に表示するのではなく、生成されたコンテンツをユーザーにリアルタイムで返す応答メカニズムです。このアプローチは特に長い回答に対するユーザーの待機体験を大幅に改善し、ユーザーは部分的なコンテンツをすぐに見て読み始めることができ、人間の会話における即時フィードバックに似たより自然な対話体験を提供します。 + +## T +### 温度 (Temperature) +通常0-1の間で、言語モデル出力のランダム性を制御するパラメータです。温度が低い(0に近い)ほど、モデル出力はより確定的で保守的になり、高確率の語彙を好み、事実に基づく回答に適しています。温度が高い(1に近い)ほど、出力はより多様で創造的になり、創造的な執筆に適しています。例えば、天気予報では0.1の低温度を使用し、物語創作では0.8の高温度を使用する場合があります。 + +### テキスト埋め込み (Text Embedding) +テキストを数値ベクトルに変換するプロセスで、AIシステムが言語を理解し処理することを可能にします。これらのベクトルは語彙と文の意味特徴を捉え、コンピュータがテキスト間の類似性を測定し、関連コンテンツをクラスタリングし、マッチング情報を検索することを可能にします。異なる埋め込みモデル(OpenAIのtext-embedding-ada-002やCohereのembed-multilingualなど)は異なる言語やアプリケーションシナリオ向けに最適化されています。 + +### ツール呼び出し (Tool Calling) +AIシステムが外部機能を識別し使用する能力で、モデルの能力境界を大幅に拡張します。例えば、言語モデル自体はリアルタイムデータにアクセスできませんが、天気APIを呼び出すことで現在の天気情報を提供できます。データベース照会ツールを呼び出すことで最新の製品在庫を取得でき、計算機を呼び出すことで複雑な計算を実行でき、AIがトレーニングデータ範囲を超える問題を解決できるようになります。 + +### TopK +検索で返される結果の数を制御するパラメータで、類似度が最も高い上位K個のテキストフラグメントを保持するよう指定します。適切なTopK値の設定はRAGシステムのパフォーマンスに不可欠です:値が小さすぎると重要な情報を失う可能性があり、値が大きすぎるとノイズを招き言語モデルの処理負担を増やす可能性があります。例えば、簡単な質問ではTopK=3で十分かもしれませんが、複雑な質問では十分な背景を得るためにTopK=10が必要かもしれません。 + +### 核サンプリング (TopP, Nucleus Sampling) +累積確率が閾値Pに達する最も可能性の高い語彙からのみ次の単語を選択するテキスト生成制御方法です。最高確率の単語を固定選択することや完全にランダムな選択とは異なり、TopPは確定性と創造性のバランスを取ります。例えば、TopP=0.9は、モデルが確率の合計が90%を占める語彙のみを考慮し、低確率のオプションを無視することを意味し、完全に予測可能な出力と過度にランダムなコンテンツの両方を避けます。 + +### 思考の木 (ToT, Tree of Thought) +複数の推論経路を探索する思考方法で、モデルが異なる視点から問題を分析することを可能にします。人間の「もし...ならば...」という思考パターンに似ており、思考の木はモデルに複数の可能な思考分岐を生成させ、各分岐の実現可能性を評価し、最適な経路を選択して継続することを可能にします。これは試行錯誤や複数の可能性を考慮する必要がある複雑な問題を解決するのに特に適しています。 + +### テキスト音声変換 (TTS, Text-to-Speech) +書かれたテキストを自然な音声に変換する技術で、AIシステムが音声でユーザーとコミュニケーションすることを可能にします。現代のTTSシステムは人間の品質に近い自然な音声を生成でき、複数の言語、音調、感情表現をサポートし、オーディオブック、ナビゲーションシステム、音声アシスタント、アクセシビリティサービスで広く使用され、異なるシナリオやユーザーにより自然な対話体験を提供します。 + +## V +### ベクトルデータベース (Vector Database) +ベクトル埋め込みの保存と検索に特化したデータベースシステムで、効率的な意味検索のインフラストラクチャとして機能します。従来のデータベースとは異なり、ベクトルデータベースは高次元ベクトル類似度検索に最適化され、数百万のドキュメントから意味的に類似したコンテンツを迅速に見つけることができます。Pinecone、Milvus、Qdrantなどの一般的なベクトルデータベースは、RAGシステム、推薦エンジン、コンテンツ分析で重要な役割を果たしています。 + +### ベクトル検索 (Vector Retrieval) +テキストベクトル埋め込みの類似性に基づく検索方法で、セマンティック検索の技術的中核を形成します。システムはまずユーザークエリをベクトルに変換し、次に事前計算されたドキュメントベクトルで最も類似したコンテンツを見つけます。この方法は深い意味的関係を捉え、表現方法は異なるが意味が似ているコンテンツを見つけ、キーワード検索の限界を克服し、自然言語クエリや概念的な問題の処理に特に適しています。 + +### ビジョン機能 (Vision) +マルチモーダルLLMが画像を理解し処理する機能で、モデルがユーザーがアップロードした画像を分析し、テキストと組み合わせた応答を生成できるようにします。例えば、ユーザーは製品写真をアップロードして使用方法を問い合わせたり、メニュー写真をアップロードして翻訳を要求したり、グラフをアップロードしてデータトレンドの分析を依頼したりできます。この機能はAIアプリケーションシナリオを大幅に拡張し、対話をより直感的で多様化します。 + +## W +### ワークフロー (Workflow) +複雑なAIアプリケーションを複数の独立したノードに分解し、特定の順序で実行するタスク編成方法です。Difyプラットフォームでは、開発者は視覚的にワークフローを設計し、複数の処理ステップ(ユーザー入力処理、知識検索、マルチモデル連携、条件分岐など)を組み合わせて、複雑なビジネスロジックを処理できるAIアプリケーションを構築し、アプリケーション開発を柔軟かつ直感的にします。 + diff --git a/zh-hans/termbase/example.mdx b/zh-hans/termbase/example.mdx deleted file mode 100644 index 1aaab724..00000000 --- a/zh-hans/termbase/example.mdx +++ /dev/null @@ -1,171 +0,0 @@ ---- -title: 术语表 ---- - -### 智能代理(Agent) -智能代理是一种自主 AI 系统,能够根据环境信息做出决策并执行任务。在 Dify 平台中,智能代理结合大语言模型的理解能力与外部工具的交互能力,可以自动完成从简单到复杂的一系列操作,如搜索信息、调用 API 或生成内容。 - -### 智能体工作流(Agentic Workflow) -智能体工作流是一种任务编排方法,允许 AI 系统通过多个步骤自主解决复杂问题。例如,一个智能体工作流可以先理解用户问题,然后查询知识库,接着调用计算工具,最后整合信息生成完整回答,全程无需人工干预。 - -### 自动语音识别(ASR, Automatic Speech Recognition) -自动语音识别技术将人类语音转换为文本,是语音交互应用的基础。这项技术使用户可以通过说话而非打字与 AI 系统交互,广泛应用于语音助手、会议记录和无障碍服务等场景。 - -### 思维骨架(BoT, Backbone of Thought) -思维骨架是一种结构化思考框架,为大语言模型提供推理的主干结构。它帮助模型在处理复杂问题时保持清晰的思考路径,类似于论文的提纲或决策树的骨架。 - -### 分段(Chunking) -分段是将长文本拆分成较小内容块的处理技术,使检索系统能更精准地找到相关信息。合理的分段策略既要考虑内容的语义完整性,也要满足语言模型的上下文窗口限制,从而提高检索和生成质量。 - -### 引用与归属(Citation and Attribution) -引用与归属功能让 AI 系统能够清晰标明信息来源,提高响应的可信度和透明度。当系统基于知识库内容生成回答时,可以自动标注引用的文档名称、页码或 URL,让用户了解信息的出处。 - -### 思维链(CoT, Chain of Thought) -思维链是一种提示技术,引导大语言模型展示其逐步思考过程。例如,解决数学问题时,模型会先列出已知条件,然后按照推理步骤一步步求解,最后得出结论,整个过程类似人类的思考方式。 - -### 领域特定语言(DSL, Domain-Specific Language) -领域特定语言是为特定应用领域设计的编程语言或配置格式。Dify DSL 是一种基于 YAML 格式的应用工程文件标准,用于定义 AI 应用的各项配置,包括模型参数、提示词设计和工作流编排,使非专业开发者也能构建复杂 AI 应用。 - -### 提取、转换、加载(ETL, Extract, Transform, Load) -ETL 是数据处理的经典流程:提取原始数据,转换为适合分析的格式,然后加载到目标系统。在 AI 文档处理中,ETL 可能包括从 PDF 提取文本、清理格式、分割内容、计算嵌入向量,最后加载到向量数据库中,为 RAG 系统做准备。 - -### 频率惩罚(Frequency Penalty) -频率惩罚是一种文本生成控制参数,通过降低频繁出现词汇的生成概率来增加输出的多样性。值越高,模型越倾向于使用多样化的词汇和表达方式;值为 0 时,模型不会特意避免重复使用相同词汇。 - -### 函数调用(Function Calling) -函数调用是大型语言模型的能力,允许模型识别何时需要调用特定函数并提供所需参数。例如,当用户询问天气时,模型可以自动调用天气 API,构造正确的参数格式(城市、日期),然后根据 API 返回结果生成回答。 - -### 通用分段模式(General Chunking Pattern) -通用分段模式是一种简单的文本分割策略,将文档拆分为相互独立的内容块。这种模式适合结构清晰、段落相对独立的文档,如产品说明书或百科条目,每个分段可以独立理解而不严重依赖上下文。 - -### 思维图(GoT, Graph of Thought) -思维图是一种将思考过程表示为网络结构的方法,捕捉概念之间的复杂关系。不同于线性的思维链,思维图可以表达分支、循环和多路径的思考模式,适合处理有多个相互关联因素的复杂问题。 - -### 混合检索(Hybrid Search) -混合检索结合关键词匹配和语义搜索的优势,提供更全面的检索结果。例如,当搜索“苹果营养成分”时,混合检索既能找到包含“苹果“和“营养“关键词的文档,也能找到讨论“水果健康价值“等相关语义的内容,通过权重调整或重排序选出最优结果。 - -### 倒排索引(Inverted Index) -倒排索引是搜索引擎的核心数据结构,它记录每个词出现在哪些文档中。与传统索引从文档找内容不同,倒排索引从词汇出发找文档,大幅提高全文检索速度。例如,“人工智能“一词的索引项会列出所有包含这个词的文档 ID 和位置。 - -### 关键词检索(Keyword Search) -关键词检索是基于精确匹配的搜索方法,查找包含特定词汇的文档。这种方法计算效率高,适合用户明确知道要查找的术语的场景,如产品型号、专有名词或特定命令,但可能会漏掉使用同义词或相关概念表达的内容。 - -### 知识库(Knowledge Base) -知识库是 AI 应用中存储结构化信息的数据库,为模型提供专业知识来源。在 Dify 平台中,知识库可以包含各种文档(PDF、Word、网页等),经过处理后供 AI 检索并用于生成准确、有根据的回答,特别适合构建领域专家型应用。 - -### 知识检索(Knowledge Retrieval) -知识检索是从知识库中找出与用户问题最相关信息的过程,是 RAG 系统的关键环节。有效的知识检索不仅要找到相关内容,还要控制返回的信息量,避免无关内容干扰模型,同时提供足够背景确保回答准确完整。 - -### 大型语言模型(LLM, Large Language Model) -大型语言模型是通过海量文本训练的 AI 模型,能够理解和生成人类语言。现代 LLM(如 GPT 系列、Claude 等)可以撰写文章、回答问题、编写代码,甚至进行推理,它们是各种 AI 应用的核心引擎,尤其适合需要语言理解和生成的场景。 - -### 本地模型推理(Local Model Inference) -本地模型推理是在用户自己的设备上运行 AI 模型的过程,而非依赖云服务。这种方式提供更好的隐私保护(数据不离开本地)和更低的延迟(无需网络传输),适合处理敏感数据或需要离线工作的场景,但通常受限于本地设备的计算能力。 - -### 模型即服务(MaaS, Model-as-a-Service) -模型即服务是一种云服务模式,提供商通过 API 提供预训练模型的访问。用户无需关心模型的训练、部署和维护,只需调用 API 并支付使用费用,大幅降低了 AI 应用的开发门槛和基础设施成本,适合快速验证想法或构建原型。 - -### 最大标记数(Max_tokens) -最大标记数控制模型在单次响应中生成的最大字符量。一个标记大约相当于 4 个字符或 3/4 个英文单词。设置合理的最大标记数可以控制回答的长度,避免过于冗长的输出,同时确保完整表达必要信息。例如,一篇简短摘要可能设为 200 标记,而详细报告可能需要 2000 标记。 - -### 记忆(Memory) -记忆是 AI 系统保存和使用历史交互信息的能力,使多轮对话保持连贯。有效的记忆机制让 AI 能够理解上下文引用、记住用户偏好、追踪长期目标,从而提供个性化且有连续性的用户体验,避免重复询问已提供的信息。 - -### 元数据筛选(Metadata Filtering) -元数据筛选利用文档属性信息(如标题、作者、日期、分类标签)进行内容过滤。例如,用户可以限定只检索特定日期范围内的技术文档,或只查询特定部门的报告,从而在检索前缩小范围,提高查找效率和结果相关性。 - -### 多模态模型(Multimodal Model) -多模态模型能处理多种类型的输入数据,如文本、图像、音频等。这类模型打破了传统 AI 的单一感知限制,可以理解图片内容、分析视频场景、识别声音情绪,为更全面的信息理解创造可能,适用于需要跨媒体理解的复杂应用场景。 - -### 多工具调用(Multi-tool-call) -多工具调用是模型在单次响应中调用多个不同工具的能力。例如,处理“比较北京和上海明天的天气并推荐适合的衣着“这样的请求时,模型可以同时调用两个城市的天气 API,然后基于返回结果给出合理建议,提高处理复杂任务的效率。 - -### 多路召回(Multi-path Retrieval) -多路召回是通过多种检索方法并行获取信息的策略。例如,系统可以同时使用关键词搜索、语义匹配和知识图谱查询,然后合并筛选结果,提高信息获取的覆盖面和准确性,特别适合处理复杂或模糊的用户查询。 - -### 父子分段模式(Parent-Child Chunking) -父子分段模式是一种高级文本分割策略,创建两层级的内容块:父区块保留完整上下文,子区块提供精确匹配点。系统先通过子区块确定相关内容位置,再获取对应父区块以提供完整背景,同时兼顾检索精度和上下文完整性,适合处理复杂文档如研究论文或技术手册。 - -### 存在惩罚(Presence Penalty) -存在惩罚是防止语言模型重复内容的参数设置。它通过降低已出现词汇的生成概率,鼓励模型探索新的表达方式。参数值越高,模型越不倾向于重复之前生成的内容,有助于避免 AI 回答中常见的循环论证或重复叙述问题。 - -### 预定义模型(Predefined Model) -预定义模型是由 AI 厂商训练并提供的现成模型,用户可以直接调用而无需自行训练。这些闭源模型(如 GPT-4、Claude 等)通常经过大规模训练和优化,能力强大且易于使用,适合快速开发应用或缺乏自主训练资源的团队。 - -### 提示词(Prompt) -提示词是引导 AI 模型生成特定响应的输入文本。精心设计的提示词能显著提高输出质量,包括明确指令、提供示例、设定格式要求等元素。例如,不同的提示词可以引导同一模型生成学术文章、创意故事或技术分析,是影响 AI 输出的最关键因素之一。 - -### 问答模式(Q&A Mode) -问答模式是一种特殊索引策略,为文档内容自动生成问答对,实现“问题到问题“的匹配。当用户提问时,系统会寻找语义相似的预生成问题,然后返回对应答案。这种模式特别适合 FAQ 内容或结构化知识点,能提供更精准的问答体验。 - -### 检索增强生成(RAG, Retrieval-Augmented Generation) -检索增强生成是结合外部知识检索和语言生成的技术架构。系统首先从知识库检索与用户问题相关的信息,然后将这些信息作为上下文提供给语言模型,生成有依据、准确的回答。RAG 克服了语言模型知识有限和幻觉问题,特别适合需要最新或专业知识的应用场景。 - -### 推理与行动(ReAct, Reasoning and Acting) -推理与行动是一种 AI 代理框架,使模型能够交替进行思考和执行操作。在解决问题过程中,模型先分析当前状态,制定计划,然后调用合适工具(如搜索引擎、计算器),根据工具返回结果进行下一步思考,形成思考-行动-思考的循环,直到解决问题,适合处理需要多步骤和外部工具的复杂任务。 - -### 重排序(ReRank) -重排序是对初步检索结果进行二次排序的技术,提高最终结果的相关性。例如,系统可能先通过高效算法快速检索出大量候选内容,然后使用更复杂但精准的模型对这些结果重新评分排序,将最相关的内容置前,平衡了检索效率和结果质量。 - -### 重新排序模型(Rerank Model) -重新排序模型专门用于评估检索结果与查询的相关性并重新排序。与初步检索不同,这类模型通常采用更复杂的算法,考虑更多语义因素,能更精确地判断内容与用户意图的匹配度。例如,Cohere Rerank 和 BGE Reranker 等模型可显著提升搜索和推荐系统的结果质量。 - -### 响应格式(Response_format) -响应格式指定模型输出的结构类型,如纯文本、JSON 或 HTML。设置特定的响应格式可以使 AI 输出更容易被程序处理或集成到其他系统。例如,要求模型以 JSON 格式回答可以确保输出具有一致的结构,便于前端应用直接解析和展示。 - -### 反向调用(Reverse Calling) -反向调用是插件与平台交互的双向机制,允许插件主动调用平台功能。在 Dify 中,这意味着第三方插件不仅能被 AI 调用,还能反过来使用 Dify 的核心功能,如触发工作流或调用其他插件,极大增强了系统的扩展性和灵活性。 - -### 召回测试(Retrieval Test) -召回测试是验证知识库检索效果的功能,开发者可以模拟用户查询并评估系统返回结果。这种测试帮助开发者了解系统的检索能力边界,发现并修复潜在问题,如漏检、误检或相关度不佳的情况,是优化 RAG 系统不可或缺的工具。 - -### 分数阈值(Score Threshold) -分数阈值是过滤检索结果的相似度门槛,只有评分超过设定值的内容才会被返回。设置合理的阈值可以避免无关信息干扰模型生成,提高回答的精确性。例如,如果阈值设为 0.8(满分 1.0),则只有高度相关的内容会被采用,但可能导致信息不全;降低阈值则会纳入更多内容但可能引入噪音。 - -### 语义检索(Semantic Search) -语义检索基于理解和匹配文本意义而非简单关键词匹配的检索方法。它利用向量嵌入技术将文本转换为数学表示,然后计算查询与文档的语义相似度。这种方法能够找到表达方式不同但含义相近的内容,理解同义词和上下文关系,甚至支持跨语言检索,特别适合复杂或自然语言形式的查询。 - -### 会话变量(Session Variables) -会话变量是存储多轮对话上下文信息的机制,使 AI 能维持连贯交互。例如,系统可以记住用户的偏好(如“简洁回答“)、身份信息或交互历史状态,避免重复询问,提供个性化体验。在 Dify 中,开发者可以定义和管理这些变量,建立真正记住用户的“有记忆“应用。 - -### 语音转文字(STT, Speech-to-Text) -语音转文字技术将用户的语音输入转换为文本数据。这项技术让用户可以通过说话而非打字与 AI 系统交互,提高了交互的自然性和便捷性,特别适合移动设备、驾驶场景或无障碍应用,是语音助手和实时转录等应用的基础。 - -### 流式工具调用(Stream-tool-call) -流式工具调用是一种实时处理模式,允许 AI 系统在生成响应的同时调用外部工具,而不必等待完整回答生成后再处理。这种方式大大提高了处理复杂任务的响应速度,让用户体验更加流畅,适合需要多次工具调用的交互场景。 - -### 流式结果返回(Streaming Response) -流式结果返回是一种实时响应机制,AI 系统边生成内容边返回给用户,而不是等所有内容生成完毕再一次性展示。这种方式显著改善用户等待体验,特别是对于长回答,用户可以立即看到部分内容并开始阅读,提供更自然的交互感受,类似于人类对话中的即时反馈。 - -### 温度(Temperature) -温度是控制语言模型输出随机性的参数,通常在 0-1 之间。温度越低(接近 0),模型输出越确定和保守,倾向于高概率词汇,适合事实性回答;温度越高(接近 1),输出越多样和创造性,适合创意写作。例如,天气预报可能使用 0.1 的低温度,而故事创作可能使用 0.8 的高温度。 - -### 文本嵌入(Text Embedding) -文本嵌入是将文本转换为数值向量的过程,使 AI 系统能够理解和处理语言。这些向量捕捉了词汇和句子的语义特征,使计算机可以测量文本间的相似度、聚类相关内容或检索匹配信息。不同的嵌入模型(如 OpenAI 的 text-embedding-ada-002 或 Cohere 的 embed-multilingual)针对不同语言和应用场景进行了优化。 - -### 工具调用(Tool Calling) -工具调用是 AI 系统识别并使用外部功能的能力,极大扩展了模型的能力边界。例如,语言模型本身不能访问实时数据,但通过调用天气 API,它可以提供当前天气信息;通过调用数据库查询工具,它可以获取最新产品库存;通过调用计算器,它可以执行复杂计算,这使 AI 能够解决超出其训练数据范围的问题。 - -### TopK -TopK 是控制检索返回结果数量的参数,指定保留相似度最高的前 K 个文本片段。合理设置 TopK 值对 RAG 系统性能至关重要:值太小可能丢失关键信息,值太大则可能引入噪音并增加语言模型处理负担。例如,简单问题可能只需 TopK=3,而复杂问题可能需要 TopK=10 以获取足够背景。 - -### 核采样(TopP, Nucleus Sampling) -核采样是一种文本生成控制方法,只从累积概率达到阈值 P 的最可能词汇中选择下一个词。与固定选择最高概率词或完全随机不同,TopP 在确定性和创造性间取得平衡。例如,TopP=0.9 意味着模型只考虑概率和占 90% 的词汇,忽略低概率选项,既避免了完全可预测的输出,又不会生成过于随机的内容。 - -### 思维树(ToT, Tree of Thought) -思维树是一种探索多个推理路径的思考方法,允许模型从不同角度分析问题。类似于人类的“如果...那么...“思考模式,思维树让模型生成多个可能的思考分支,评估每个分支的可行性,然后选择最优路径继续,特别适合解决需要试错或考虑多种可能性的复杂问题。 - -### 文本转语音(TTS, Text-to-Speech) -文本转语音是将书面文本转换为自然语音的技术,使 AI 系统能以语音方式与用户交流。现代 TTS 系统能生成接近人类的自然语音,支持多种语言、音色和情感表达,广泛应用于有声读物、导航系统、语音助手和无障碍服务,为不同场景和用户提供更自然的交互体验。 - -### 向量数据库(Vector Database) -向量数据库是专门存储和搜索向量嵌入的数据库系统,是高效语义检索的基础设施。与传统数据库不同,向量数据库针对高维向量相似度搜索进行了优化,能快速从数百万文档中找出语义相近的内容。常见的向量数据库包括 Pinecone、Milvus、Qdrant 等,它们在 RAG 系统、推荐引擎和内容分析中发挥关键作用。 - -### 向量检索(Vector Retrieval) -向量检索是基于文本向量嵌入相似度的搜索方法,是语义搜索的技术核心。系统首先将用户查询转换为向量,然后在预先计算的文档向量中查找最相似的内容。这种方法能够捕捉深层语义关系,找到表达不同但意思相近的内容,克服了关键词搜索的局限,特别适合处理自然语言查询和概念性问题。 - -### 视觉能力(Vision) -视觉能力是多模态 LLM 理解和处理图像的功能,允许模型分析用户上传的图片并结合文本生成回答。例如,用户可以上传产品照片询问使用方法,上传菜单照片请求翻译,或上传图表要求分析数据趋势。这种能力大大拓展了 AI 应用场景,使交互更加直观和多样化。 - -### 工作流(Workflow) -工作流是一种任务编排方式,将复杂 AI 应用拆分为多个独立节点并按特定顺序执行。在 Dify 平台中,开发者可以可视化设计工作流,组合多个处理步骤(如用户输入处理、知识检索、多模型协作、条件分支),构建能处理复杂业务逻辑的 AI 应用,使应用开发既灵活又直观 \ No newline at end of file diff --git a/zh-hans/termbase/termbase.mdx b/zh-hans/termbase/termbase.mdx new file mode 100644 index 00000000..47fcca0d --- /dev/null +++ b/zh-hans/termbase/termbase.mdx @@ -0,0 +1,129 @@ +--- +title: 用語集 +--- + +## A +### エージェント (Agent) +環境情報に基づいて意思決定やタスク実行ができる自律型AIシステムです。Difyプラットフォームでは、エージェントは大規模言語モデルの理解能力と外部ツールとの対話能力を組み合わせ、情報検索、API呼び出し、コンテンツ生成など、単純なものから複雑なものまでの一連の操作を自動的に完了します。 + +### エージェンティックワークフロー (Agentic Workflow) +AIシステムが複数のステップを通じて自律的に複雑な問題を解決できるタスク編成方法です。例えば、エージェンティックワークフローは、まずユーザーの質問を理解し、次に知識ベースを照会し、計算ツールを呼び出し、最後に情報を統合して完全な回答を生成します。これらはすべて人間の介入なしに行われます。 + +### 自動音声認識 (ASR, Automatic Speech Recognition) +人間の音声をテキストに変換する技術で、音声対話アプリケーションの基盤となります。この技術により、ユーザーはタイピングではなく話すことでAIシステムと対話でき、音声アシスタント、会議の文字起こし、アクセシビリティサービスなどのシナリオで広く使用されています。 + +## B +### 思考の骨格 (BoT, Backbone of Thought) +大規模言語モデルの推論に主要な構造を提供する構造化された思考フレームワークです。学術論文の概要や決定木の骨格のように、複雑な問題に対処する際にモデルが明確な思考経路を維持するのに役立ちます。 + +## C +### チャンキング (Chunking) +長いテキストを小さなコンテンツブロックに分割する処理技術で、検索システムがより正確に関連情報を見つけることを可能にします。優れたチャンキング戦略は、コンテンツの意味的整合性と言語モデルのコンテキストウィンドウの制限の両方を考慮し、検索と生成の品質を向上させます。 + +### 引用と帰属 (Citation and Attribution) +AIシステムが情報源を明確に示すことができる機能で、レスポンスの信頼性と透明性を高めます。システムが知識ベースのコンテンツに基づいて回答を生成する場合、参照されたドキュメント名、ページ番号、URLを自動的に注釈し、ユーザーが情報の出所を理解できるようにします。 + +### 思考の連鎖 (CoT, Chain of Thought) +大規模言語モデルがステップバイステップの思考プロセスを表示するように導くプロンプト技術です。例えば、数学の問題を解く場合、モデルははじめに既知の条件をリストアップし、次に推論ステップに従って一つずつ解き、最後に結論に到達します。このプロセス全体が人間の思考に似ています。 + +## D +### ドメイン固有言語 (DSL, Domain-Specific Language) +特定のアプリケーションドメイン用に設計されたプログラミング言語または構成形式です。Dify DSLは、YAML形式に基づくアプリケーションエンジニアリングファイル標準で、モデルパラメータ、プロンプト設計、ワークフロー編成など、AIアプリケーションのさまざまな構成を定義するために使用され、非専門的な開発者でも複雑なAIアプリケーションを構築できるようにします。 + +## E +### 抽出・変換・読み込み (ETL, Extract, Transform, Load) +データ処理の古典的なワークフロー:生データを抽出し、分析に適した形式に変換し、ターゲットシステムに読み込みます。AIドキュメント処理では、ETLはPDFからのテキスト抽出、フォーマットのクリーニング、コンテンツの分割、埋め込みベクトルの計算、最終的にベクトルデータベースへの読み込みを含む場合があり、RAGシステムの準備を整えます。 + +## F +### 頻度ペナルティ (Frequency Penalty) +頻繁に出現する語彙の生成確率を下げることで出力の多様性を高めるテキスト生成制御パラメータです。値が高いほど、モデルは多様な語彙と表現を使用する傾向があります。値が0の場合、モデルは同じ語彙を再利用することを特に避けません。 + +### 関数呼び出し (Function Calling) +大規模言語モデルが特定の関数をいつ呼び出す必要があるかを認識し、必要なパラメータを提供する能力です。例えば、ユーザーが天気について尋ねると、モデルは自動的に天気APIを呼び出し、正しいパラメータ形式(都市、日付)を構築し、APIの返す結果に基づいて応答を生成することができます。 + +## G +### 一般的なチャンキングパターン (General Chunking Pattern) +文書を相互に独立したコンテンツブロックに分割するシンプルなテキスト分割戦略です。このパターンは、製品マニュアルや百科事典のエントリなど、構造が明確で段落が比較的独立している文書に適しており、各チャンクはコンテキストに大きく依存することなく独立して理解できます。 + +### 思考のグラフ (GoT, Graph of Thought) +思考プロセスをネットワーク構造として表現し、概念間の複雑な関係を捉える方法です。線形の思考の連鎖とは異なり、思考のグラフは分岐、循環、複数経路の思考パターンを表現でき、複数の相互関連する要因を持つ複雑な問題の処理に適しています。 + +## H +### ハイブリッド検索 (Hybrid Search) +キーワードマッチングと意味検索の利点を組み合わせ、より包括的な検索結果を提供する検索方法です。例えば、「リンゴの栄養成分」を検索する場合、ハイブリッド検索は「リンゴ」と「栄養」のキーワードを含む文書だけでなく、「果物の健康価値」などの関連する意味概念を議論するコンテンツも見つけることができ、重み付け調整または再ランク付けを通じて最適な結果を選択します。 + +## I +### 転置インデックス (Inverted Index) +各単語がどの文書に出現するかを記録する検索エンジンのコアデータ構造です。文書からコンテンツを見つける従来のインデックスとは異なり、転置インデックスは語彙から文書を見つけ、全文検索速度を大幅に向上させます。例えば、「人工知能」という用語のインデックスエントリは、この用語を含むすべての文書IDと位置をリストアップします。 + +## K +### キーワード検索 (Keyword Search) +特定の語彙を含む文書を見つける正確なマッチングに基づく検索方法です。この方法は計算効率が高く、製品モデル、固有名詞、特定のコマンドなど、ユーザーが見つけたい用語を明確に知っているシナリオに適していますが、同義語や関連する概念を使用して表現されたコンテンツを見逃す可能性があります。 + +### 知識ベース (Knowledge Base) +AIアプリケーションで構造化された情報を保存し、モデルに専門知識の源を提供するデータベースです。Difyプラットフォームでは、知識ベースはさまざまな文書(PDF、Word、ウェブページなど)を含むことができ、処理されてAI検索に使用され、正確で根拠のある回答を生成するために使用されます。特にドメインエキスパートアプリケーションの構築に適しています。 + +### 知識検索 (Knowledge Retrieval) +ユーザーの質問に最も関連する情報を知識ベースから見つけるプロセスであり、RAGシステムの重要な構成要素です。効果的な知識検索は、関連するコンテンツを見つけるだけでなく、返される情報量を制御し、モデルを妨げる可能性のある無関係なコンテンツを避けながら、正確で完全な回答を確保するのに十分な背景を提供します。 + +## L +### 大規模言語モデル (LLM, Large Language Model) +大量のテキストで訓練され、人間の言語を理解し生成できるAIモデルです。現代のLLM(GPTシリーズ、Claudeなど)は、記事の作成、質問への回答、コードの作成、さらには推論も行うことができます。これらは様々なAIアプリケーションのコアエンジンであり、特に言語理解と生成を必要とするシナリオに適しています。 + +### ローカルモデル推論 (Local Model Inference) +クラウドサービスに依存せずに、ユーザー自身のデバイス上でAIモデルを実行するプロセスです。このアプローチは、より良いプライバシー保護(データがローカル環境を離れない)と低いレイテンシー(ネットワーク転送不要)を提供し、機密データの処理やオフライン作業を必要とするシナリオに適していますが、通常はローカルデバイスの計算能力によって制限されます。 + +## M +### サービスとしてのモデル (MaaS, Model-as-a-Service) +プロバイダーがAPIを通じて事前トレーニング済みモデルへのアクセスを提供するクラウドサービスモデルです。ユーザーはモデルのトレーニング、デプロイ、または保守について心配する必要はなく、単にAPIを呼び出して使用料を支払うだけで、AIアプリケーションの開発閾値とインフラコストを大幅に下げます。アイデアの迅速な検証やプロトタイプの構築に適しています。 + +### 最大トークン数 (Max_tokens) +モデルが単一の応答で生成する最大文字数を制御するパラメータです。1つのトークンは約4文字または英単語の3/4に相当します。適切な最大トークン数を設定することで、回答の長さを制御し、過度に冗長な出力を避け、必要な情報の完全な表現を確保できます。例えば、簡単な要約は200トークンに設定される場合がありますが、詳細なレポートでは2000トークンが必要になる場合があります。 + +### メモリ (Memory) +AIシステムが過去のインタラクション情報を保存して使用し、複数ターンの会話を一貫して保つ能力です。効果的なメモリメカニズムにより、AIはコンテキスト参照を理解し、ユーザーの好みを記憶し、長期的な目標を追跡できるようになり、これによりパーソナライズされた継続的なユーザーエクスペリエンスを提供し、すでに提供された情報を繰り返し尋ねることを避けます。 + +### メタデータフィルタリング (Metadata Filtering) +ドキュメント属性情報(タイトル、作者、日付、分類タグなど)を利用してコンテンツをフィルタリングする技術です。例えば、ユーザーは特定の日付範囲内の技術文書に検索を制限したり、特定の部署のレポートのみを照会したりして、検索前に範囲を絞り込み、検索効率と結果の関連性を向上させることができます。 + +### マルチモーダルモデル (Multimodal Model) +テキスト、画像、音声などの複数種類の入力データを処理できるモデルです。これらのモデルは従来のAIの単一知覚限界を打破し、画像内容の理解、ビデオシーンの分析、音声感情の認識が可能で、より包括的な情報理解の可能性を創出し、クロスメディア理解を必要とする複雑なアプリケーションシナリオに適しています。 + +### マルチツール呼び出し (Multi-tool-call) +モデルが単一のレスポンスで複数の異なるツールを呼び出す能力です。例えば、「北京と上海の明日の天気を比較し、適切な服装を推奨する」というリクエストを処理する場合、モデルは両都市の天気APIを同時に呼び出し、返された結果に基づいて合理的な提案を提供し、複雑なタスクを処理する効率を向上させます。 + +### マルチパス検索 (Multi-path Retrieval) +複数の検索方法を通じて並行して情報を取得する戦略です。例えば、システムはキーワード検索、セマンティックマッチング、知識グラフクエリを同時に使用し、結果をマージしてフィルタリングすることで、情報検索のカバレッジと精度を向上させ、特に複雑または曖昧なユーザークエリの処理に適しています。 + +## P +### 親子チャンキング (Parent-Child Chunking) +2レベルのコンテンツブロックを作成する高度なテキスト分割戦略:親ブロックは完全なコンテキストを保持し、子ブロックは正確なマッチングポイントを提供します。システムはまず子ブロックを使用して関連コンテンツの位置を特定し、次に対応する親ブロックを取得して完全な背景を提供し、検索精度とコンテキストの完全性のバランスを取り、研究論文や技術マニュアルなどの複雑な文書の処理に適しています。 + +### 存在ペナルティ (Presence Penalty) +言語モデルがコンテンツを繰り返すことを防ぐパラメータ設定です。すでに出現した語彙の生成確率を下げることにより、モデルが新しい表現を探索することを奨励します。パラメータ値が高いほど、モデルが以前に生成したコンテンツを繰り返す可能性が低くなり、AI応答でよく見られる循環的な議論や問題の繰り返し説明を避けるのに役立ちます。 + +### 事前定義モデル (Predefined Model) +AIベンダーによってトレーニングされ提供される既製モデルで、ユーザーは自分でトレーニングすることなく直接呼び出すことができます。これらのクローズドソースモデル(GPT-4、Claudeなど)は通常、大規模にトレーニングおよび最適化され、強力で使いやすく、迅速なアプリケーション開発や独立したトレーニングリソースを欠くチームに適しています。 + +### プロンプト (Prompt) +AIモデルに特定の応答を生成するよう導く入力テキストです。よく設計されたプロンプトは出力品質を大幅に向上させ、明確な指示、例の提供、フォーマット要件の設定などの要素を含みます。例えば、異なるプロンプトは同じモデルに学術記事、創造的なストーリー、または技術分析を生成するよう導くことができ、AI出力に影響を与える最も重要な要因の一つとなっています。 + +## Q +### Q&Aモード (Q&A Mode) +ドキュメントコンテンツに対して質問-回答のペアを自動生成する特殊なインデックス作成戦略で、「質問から質問」へのマッチングを実現します。ユーザーが質問すると、システムは意味的に類似した事前生成された質問を探し、対応する回答を返します。このモードは特にFAQコンテンツや構造化された知識ポイントに適しており、より正確な質問応答体験を提供します。 + +## R +### 検索拡張生成 (RAG, Retrieval-Augmented Generation) +外部知識検索と言語生成を組み合わせた技術アーキテクチャです。システムはまず知識ベースからユーザーの質問に関連する情報を検索し、次にこの情報をコンテキストとして言語モデルに提供し、根拠のある正確な回答を生成します。RAGは言語モデルの限られた知識と幻覚問題を克服し、特に最新または専門的な知識を必要とするアプリケーションシナリオに適しています。 + +### 推論と行動 (ReAct, Reasoning and Acting) +モデルが思考と操作の実行を交互に行うことができるAIエージェントフレームワークです。問題解決のプロセスでは、モデルはまず現在の状態を分析し、計画を立て、次に適切なツール(検索エンジン、計算機など)を呼び出し、ツールの返す結果に基づいて次のステップを考え、問題が解決されるまで思考-行動-思考のサイクルを形成します。これは複数のステップと外部ツールを必要とする複雑なタスクに適しています。 + +### 再ランキング (ReRank) +予備検索結果に対して二次ソートを行い、最終結果の関連性を向上させる技術です。例えば、システムはまず効率的なアルゴリズムを通じて大量の候補コンテンツを迅速に検索し、次により複雑だが精密なモデルを使用してこれらの結果を再評価し並べ替え、最も関連性の高いコンテンツを前に配置することで、検索効率と結果品質のバランスを取ります。 + +### 再ランキングモデル (Rerank Model) +検索結果とクエリの関連性を評価し再順序付けするために特別に設計されたモデルです。予備検索とは異なり、これらのモデルは通常より複雑なアルゴリズムを使用し、より多くの意味要素を考慮し、コンテンツがユーザーの意図にどれだけよく一致するかをより正確に判断できます。例えば、Cohere RerankやBGE Rerankerなどのモデルは検索や推薦システムの結果品質を大幅に向上させることができます。 + +### レスポンス形式 (Response_format) +プレーンテキスト、JSON、HTMLなど、モデル出力の構造タイプの指定です。特定のレスポンス形式を設定することで、AI出力がプログラムで処理しやすく \ No newline at end of file