コンテキストウィンドウ

「コンテキストウィンドウ」とは、言語モデルが新しいテキストを生成する際に参照できるテキストの量を指します。これは言語モデルが訓練された大規模なデータコーパスとは異なり、モデルの「作業記憶」を表します。より大きなコンテキストウィンドウにより、モデルはより複雑で長いプロンプトを理解し応答できるようになりますが、より小さなコンテキストウィンドウでは、モデルの長いプロンプトを処理する能力や、長時間の会話で一貫性を保つ能力が制限される可能性があります。 詳細については、コンテキストウィンドウを理解するためのガイドをご覧ください。

ファインチューニング

ファインチューニングは、事前訓練された言語モデルを追加データを使用してさらに訓練するプロセスです。これにより、モデルはファインチューニングデータセットのパターンや特性を表現し、模倣し始めます。Claudeは単なる言語モデルではありません。すでに有用なアシスタントとなるようにファインチューニングされています。当社のAPIは現在ファインチューニングを提供していませんが、このオプションの検討に興味がある場合は、Anthropicの担当者にお尋ねください。ファインチューニングは、言語モデルを特定のドメイン、タスク、または文体に適応させるのに有用ですが、ファインチューニングデータとモデルの性能やバイアスへの潜在的な影響を慎重に検討する必要があります。

HHH

これら3つのHは、Claudeが社会に有益であることを保証するためのAnthropic社の目標を表しています:
  • 有用なAIは、その能力の範囲内で最善を尽くしてタスクを実行したり質問に答えたりしようと試み、関連性があり有用な情報を提供します。
  • 誠実なAIは正確な情報を提供し、幻覚や作話をしません。適切な場合には、その限界や不確実性を認めます。
  • 無害なAIは攻撃的または差別的ではなく、危険または非倫理的な行為への支援を求められた場合、AIは丁寧に拒否し、なぜ従うことができないかを説明します。

レイテンシ

生成AIと大規模言語モデルの文脈におけるレイテンシとは、モデルが与えられたプロンプトに応答するのにかかる時間を指します。これは、プロンプトを送信してから生成された出力を受信するまでの遅延です。低いレイテンシはより速い応答時間を示し、これはリアルタイムアプリケーション、チャットボット、インタラクティブな体験にとって重要です。レイテンシに影響を与える要因には、モデルサイズ、ハードウェア能力、ネットワーク条件、プロンプトと生成された応答の複雑さが含まれます。

LLM

大規模言語モデル(LLM)は、多くのパラメータを持つAI言語モデルで、驚くほど有用な様々なタスクを実行できます。これらのモデルは膨大な量のテキストデータで訓練され、人間のようなテキストを生成し、質問に答え、情報を要約するなどができます。Claudeは大規模言語モデルに基づく会話型アシスタントで、RLHFを使用してファインチューニングおよび訓練され、より有用で誠実で無害になっています。

MCP(Model Context Protocol)

Model Context Protocol(MCP)は、アプリケーションがLLMにコンテキストを提供する方法を標準化するオープンプロトコルです。AIアプリケーション用のUSB-Cポートのように、MCPはAIモデルを異なるデータソースやツールに接続する統一された方法を提供します。MCPにより、AIシステムは相互作用間で一貫したコンテキストを維持し、標準化された方法で外部リソースにアクセスできます。詳細については、MCPドキュメントをご覧ください。

MCPコネクタ

MCPコネクタは、APIユーザーがMCPクライアントを構築することなく、Messages APIから直接MCPサーバーに接続できる機能です。これにより、Claude APIを通じてMCP対応のツールやサービスとのシームレスな統合が可能になります。MCPコネクタはツール呼び出しなどの機能をサポートし、パブリックベータで利用可能です。詳細については、MCPコネクタドキュメントをご覧ください。

事前訓練

事前訓練は、大規模なラベルなしテキストコーパスで言語モデルを訓練する初期プロセスです。Claudeの場合、自己回帰言語モデル(Claudeの基盤モデルのような)は、文書内のテキストの前のコンテキストが与えられた時に次の単語を予測するように事前訓練されます。これらの事前訓練されたモデルは、本質的に質問に答えたり指示に従ったりするのが得意ではなく、望ましい動作を引き出すためにプロンプトエンジニアリングの深いスキルが必要な場合が多いです。ファインチューニングとRLHFは、これらの事前訓練されたモデルを改良し、幅広いタスクでより有用にするために使用されます。

RAG(検索拡張生成)

検索拡張生成(RAG)は、情報検索と言語モデル生成を組み合わせて、生成されたテキストの精度と関連性を向上させ、モデルの応答をより良く証拠に基づかせる技術です。RAGでは、言語モデルは外部知識ベースまたはコンテキストウィンドウに渡される文書セットで拡張されます。データは、モデルにクエリが送信される実行時に取得されますが、モデル自体が必ずしもデータを取得するわけではありません(ただし、ツール使用と検索機能を使用すれば可能です)。テキストを生成する際、まず入力プロンプトに基づいて知識ベースから関連情報を取得し、その後元のクエリと共にモデルに渡す必要があります。モデルはこの情報を使用して、生成する出力を導きます。これにより、モデルは訓練データを超えた情報にアクセスし活用でき、記憶への依存を減らし、生成されたテキストの事実的精度を向上させます。RAGは、最新の情報、ドメイン固有の知識、または明示的なソースの引用を必要とするタスクに特に有用です。ただし、RAGの効果は、外部知識ベースの品質と関連性、および実行時に取得される知識に依存します。

RLHF

人間のフィードバックからの強化学習(RLHF)は、事前訓練された言語モデルを人間の好みと一致する方法で動作するように訓練する技術です。これには、モデルがより効果的に指示に従ったり、よりチャットボットのように動作したりするのを支援することが含まれます。人間のフィードバックは、2つ以上のサンプルテキストのセットをランク付けすることで構成され、強化学習プロセスは、より高くランク付けされたものに類似した出力をモデルが好むように促します。Claudeは、より有用なアシスタントになるためにRLHFを使用して訓練されています。詳細については、この主題に関するAnthropic社の論文をお読みください。

温度

温度は、テキスト生成中のモデルの予測のランダム性を制御するパラメータです。高い温度は、より創造的で多様な出力をもたらし、表現の複数のバリエーションを可能にし、フィクションの場合は答えのバリエーションも可能にします。低い温度は、最も可能性の高い表現と答えに固執する、より保守的で決定論的な出力をもたらします。温度を調整することで、ユーザーは言語モデルが最も可能性の高い予測のみを選択するのではなく、稀で珍しい、または驚くべき単語の選択と配列を探索することを促すことができます。

TTFT(最初のトークンまでの時間)

最初のトークンまでの時間(TTFT)は、言語モデルがプロンプトを受信してから出力の最初のトークンを生成するまでにかかる時間を測定する性能指標です。これはモデルの応答性の重要な指標であり、ユーザーが迅速な初期フィードバックを期待するインタラクティブアプリケーション、チャットボット、リアルタイムシステムに特に関連します。低いTTFTは、モデルがより速く応答の生成を開始できることを示し、よりシームレスで魅力的なユーザー体験を提供します。TTFTに影響を与える要因には、モデルサイズ、ハードウェア能力、ネットワーク条件、プロンプトの複雑さが含まれます。

トークン

トークンは言語モデルの最小の個別単位であり、単語、部分語、文字、またはバイト(Unicodeの場合)に対応することができます。Claudeの場合、1つのトークンは約3.5文字の英語に相当しますが、正確な数は使用される言語によって異なる場合があります。トークンは通常、「テキスト」レベルで言語モデルと相互作用する際には隠されていますが、言語モデルの正確な入力と出力を調べる際に関連性を持ちます。Claudeにテキストが評価のために提供されると、テキスト(一連の文字で構成される)はモデルが処理するための一連のトークンにエンコードされます。より大きなトークンは推論と事前訓練中のデータ効率を可能にし(可能な場合に利用されます)、より小さなトークンはモデルが珍しい単語や今まで見たことのない単語を処理することを可能にします。トークン化方法の選択は、モデルの性能、語彙サイズ、および語彙外単語を処理する能力に影響を与える可能性があります。