生成AIの用語を体系的に理解したい！全体感・つながりから学ぶ用語解説

Q: RAGとファインチューニングはどう違いますか？

最大の違いはモデルの重みを変えるか否かです。ファインチューニングはモデル全体を再訓練して知識やスタイルを組み込みます。RAGはモデルを変えず、推論のたびに外部文書を検索してコンテキストに差し込みます。最新情報を頻繁に更新したい場合はRAGが向いており、特定の専門性をモデル自体に定着させたい場合はファインチューニングが選択肢になります。

Q: プロンプトエンジニアリングとコンテキストエンジニアリングはどう違いますか？

プロンプトエンジニアリングは1回の指示文を適切に書く技法です。コンテキストエンジニアリングはより広い概念で、LLMのコンテキストウィンドウに何をどう入れるかというシステム全体の情報設計を指します。RAGで文書を渡す・履歴を管理する・ツール結果を組み込む・参考例を配置するといった設計がすべてコンテキストエンジニアリングの範疇です。

Q: 画像生成AIとLLMは全く別の技術ですか？

基本的な仕組みは異なりますが、根底にある発想は共通しています。テキストも画像も小さな単位（トークンとパッチ）に分割して処理し、エンベディングで意味を数値空間に変換します。どちらも深層学習の土台から分岐した系統として、ファウンデーションモデルという共通の傘に収まります。

はじめに ── 用語を「点」から「地図」へ

多数の光る点が線で結ばれ、ネットワーク状につながって一枚の地図のように広がる抽象的なイメージ

「LLM」も「RAG」も「エージェント」も、それぞれの意味は何となく知っている。でも「LLMがあって、そこにRAGが加わって、エージェントが動く」という全体像がまだ見えていない——そういう状態にある人は少なくありません。

この記事では、生成AIにまつわる用語を辞書順に並べるのではなく、互いの関係性を捉えながら流れを把握できるように解説しています。「LLMという土台があり、その弱点（古い知識・ハルシネーション・単体では動けない）を補うためにRAG・ツール・エージェントが生まれ、さらに別系統として画像・音声・動画のAIがある」——この一連の流れに沿って登場する用語を理解し、生成AIに関する知識の全体感を描いていきます。

読み終えたとき、個々の用語が互いにどうつながっているかが見えている状態を目指しています。生成AIの世界を迷わずに進むための導入編の地図として利用してください。

この記事で分かること

機械学習・深層学習・ニューラルネットの入れ子構造と、生成AIがその中のどこに位置するか
LLMの仕組み（Transformer・トークン・コンテキストウィンドウ）と、モデルがどう作られ、どこに限界があるか
LLMの弱点（カットオフ・ハルシネーション）を補うRAG・ツール使用・エージェントの役割とつながり
プロンプトインジェクションなど、AIへの攻撃がなぜ起きるか
画像・音声・動画AIの仕組みと、LLMとの共通点（拡散モデル・エンベディング・パッチ）

第1部土台 ── この地図の座標軸を確認する

生成AIの用語は、いきなり一つずつ覚えようとすると迷子になりがちです。それぞれの用語が「どれくらい大きな概念に含まれるのか」という領域を先に押さえておくと、後から出てくる用語との対応関係が見えてきます。まず、AI・機械学習・深層学習という大きな枠組みから始めて、生成AIやその土台となるモデルが全体のどこに位置するのかを確認します。

AI・機械学習・深層学習・ニューラルネットとは?

AIを最も大きな概念とすると、その中に機械学習があり、機械学習の中に深層学習があります。大まかに、アジアの中の日本における東京といったくらいのイメージで問題ありません。

機械学習と深層学習の分岐点は「特徴の扱い方」にあります。機械学習では、人間がデータの特徴（たとえば「エッジがある」「丸い」）をあらかじめ定義します。深層学習では、エッジ→形→物体という特徴の階層構造をデータからネットワーク自身が自動で学習します。人間が特徴を教える必要がなくなったことで、画像・文章・音声など複雑なデータへの適用が広がりました。

深層学習を構成する仕組みがニューラルネットです。脳の神経細胞（ニューロン）のつながりを模した数理モデルで、多数のニューロンが層状に並んで信号を伝え合います。ニューラルネットのうち、層を深く（一般に4層以上）重ねたものを特に深層学習と呼びます。この層ごとに保持される 重み（パラメータ） の数が、現代の大規模モデルでは数十億から数兆個にもなっているということです。後半で登場する量子化・蒸留・MoEという効率化技術を理解するにはこの関係性をおさえる必要があります。

機械学習の3分類とは? ── 教師あり・教師なし・強化学習

機械学習には大きく3つの学習方式があります。

教師あり学習は、正解ラベルが付いたデータで訓練します。「この画像は猫」「このメールはスパム」のように答えを与えながら学習させる方式で、分類・予測のタスクに使われます。

教師なし学習は、ラベルのないデータからパターンを発見します。データ間の似ている・似ていないを自動で見つけ出すため、顧客のグルーピングや文書の分類など「答えが明確でないが構造を知りたい」場面に向いています。

強化学習は、試行錯誤と報酬フィードバックで学習します。ゲームAIがルールを教えられずにプレイしながら最適な戦略を習得するのが典型例です。「環境の中でエージェントが行動し、報酬を最大化する」というイメージを押さえておくと、第2部で登場するRLHF（人間のフィードバックによる強化学習）との橋が架かります。

ニューラルネットとパラメータとは?

ニューラルネットの構造をもう少し具体的に見ておきます。

層の中のニューロンは、前の層から来た信号それぞれに重み（weight）をかけ、合計して次の層へ送ります。この重みがパラメータです。単純化すると「信号の通りやすさ」を決める数値で、訓練中に誤差が小さくなる方向へ繰り返し微調整されます。

「GPT-3は1750億パラメータ」というとき、これは1750億個の重みが訓練によって最適化されているという意味です。パラメータ数は規模の指標として広く使われますが、大きいほど学習・実行の計算コストも増えます。この問題を解消するために、後半で説明する量子化（精度を下げて小さくする）・蒸留（大きなモデルの知識を小さいモデルへ転写する）・MoE（必要な部分だけを起動する）という効率化技術が生まれました。

生成AIとモダリティとは?

ここまでの「AI → 機械学習 → 深層学習」という階層は「手法（＝どんな技術か）」を軸とした考え方です。一方で、生成AIという言葉は「目的（＝何をするか）」を軸とした分類を指します。

AIは目的の面から大きく「判別」と「生成」に分けられます。判別AIは「この画像は犬か猫か」のように入力を分類します。生成AIは、文章・画像・音声・動画などを新たに作り出します。現代の生成AIはその「生成」の大部分を深層学習という手法で実現している、と整理するとわかりやすいはずです。

モダリティとは、扱うデータの種類を指します。テキスト・画像・音声・動画がそれぞれ1つのモダリティです。現代の生成AIはモダリティをまたいで扱えるものが増えており、「マルチモーダル」と呼ばれます。本記事では主にテキストを扱うLLMを中心に解説し、第5部では画像・音声・動画の他モダリティについても触れます。

ファウンデーションモデルとは? ── LLMを含む上位概念

生成AIの土台となる大規模モデルをファウンデーションモデル（基盤モデル）と呼びます。大量のデータで事前学習され、テキスト生成・画像認識・翻訳など多様なタスクに適応できる汎用性の高いモデルです。

ファウンデーションモデルはLLMより広い概念です。大きく2系統があります。テキストを扱うTransformer系（次の第2部で詳しく見ます）と、画像を扱うDiffusion系（拡散モデル、第5部で説明します）です。LLMはTransformer系ファウンデーションモデルの代表であり、両系統が一つの上位概念に束ねられていることを押さえておくと、後半の「別系統」の位置づけが自然に見えてきます。

生成AIの用語を手法の軸（AI・機械学習・深層学習・ファウンデーションモデル・Transformer系・LLM）と目的の軸（判別AI・生成AI・テキスト生成・画像生成）の2つに整理し、両者の対応を示した概念図 — 図：手法の軸（どんな技術か）と目的の軸（何をするか）。テキスト生成で使う技術がLLM、画像生成で使う技術が拡散モデル（Diffusion系）にあたる。

第2部 LLM ── いまの主役を解剖する

生成AIの主役であるLLM（大規模言語モデル）を、3つの層から掘り下げます。まず仕組み（2-A）、次に作り方と効率化（2-B）、最後に クセと前提の限界（2-C） を見ていきます。クセと前提まで読み終えて初めて、なぜ第3部の拡張技術が必要なのかが見えてきます。

2-A LLMの仕組み

LLMが内部でどう動いているかを見ます。基盤となるアーキテクチャ（Transformer）から始まり、LLMが文章をどう処理し、どう学ぶかを順番に追います。

Transformerとは? ── 現代AIの土台

第1部でファウンデーションモデルの「Transformer系」という言葉が出ました。Transformerはその具体的なアーキテクチャです。

Transformerは2017年にGoogleのVaswaniら8名が発表したニューラルネットのアーキテクチャです（arXiv:1706.03762、NeurIPS 2017）。それ以前の言語処理では、文章を順番に処理する再帰型ネットワーク（RNN）や畳み込みネットワーク（CNN）が主流でした。Transformerは両者を廃止し、アテンション機構（attention mechanism）だけで文章全体を一度に処理する設計にしました。

アテンション機構の核心は「系列内の各トークンが、距離に関係なく他のどのトークンと関連するかに重みを置いて処理する」点です。たとえば「その動物は道を渡らなかった。疲れていたからだ」という文では、「疲れていた」の主語が「動物」だと、離れた両者を結びつけて把握します。こうした代名詞の参照解決や長距離の依存関係を文全体で同時に計算することで、並列処理と長い文章の文脈把握を可能にしました。この設計がGPTやClaudeなど現代の主要なLLMすべての土台になっています。

トークンとは? ── AIが文章を刻む最小単位

LLMは文章をそのまま処理するのではなく、まずトークンという単位に分割します（Anthropic/OpenAI公式）。

トークンは単語と1対1に対応するわけではなく、文字・部分文字列・記号など柔軟に区切られます。英語ではおよそ4文字で1トークンが目安で（OpenAI公式ヘルプ。モデルやトークナイザにより異なる）、日本語では1文字が1〜2トークン程度になることが多く、英語より多くのトークンを消費します。AIサービスの料金は処理したトークン数を基準とすることが多く、コンテキストウィンドウの上限もトークン数で測られます。

「分割して数値列に変換する」というこの発想は、実はLLMに限りません。後半の第5部で動画生成AIを見るとき、同じ発想が画像や動画にも応用されていることが分かります——詳しくは第5部で改めて確認します。

コンテキストウィンドウとは? ── AIの作業記憶

コンテキストウィンドウは、LLMが一度の処理で「見える」情報の総量をトークンで表したものです。

人間が会話をするとき、直前のやり取りは覚えていても数日前の細かい会話は忘れます。LLMも同様に、コンテキストウィンドウの範囲内にある情報だけを「今見えているもの」として処理します。ウィンドウを超えた古い情報は処理できなくなります。

このコンテキストウィンドウをうまく管理し、次の一手に最適な情報だけを詰め込む設計が、第3部で登場する「コンテキストエンジニアリング」です。

プロンプトとシステムプロンプトとは?

LLMに指示を与えるテキストをプロンプトと呼びます。「この文章を日本語に翻訳して」や「以下の文書を要約して」といったユーザーからの入力です。

一方、システムプロンプトはユーザーの入力より前に置かれる上位の指示文で、AIの振る舞いや役割の前提を定めます。「あなたはカスタマーサポートの担当者です。丁寧な言葉で回答してください」のような指示がシステムプロンプトの例です。ユーザーのプロンプトとシステムプロンプトが競合した場合、通常はシステムプロンプトが優先されます。

この「信頼できる指示（システムプロンプト）」と「信頼できない入力（ユーザー入力・外部文書）」の区別は、第4部で見るプロンプトインジェクション攻撃の核心に直結します。

事前学習と推論とは?

LLMの動作は大きく2つのフェーズに分かれます。

事前学習（pre-training）は、大量のテキストデータを使って「次にどの単語が来るか」を予測する訓練です。インターネット上の文章・書籍・コードなど膨大なテキストを処理し、パラメータを繰り返し調整します。この過程でモデルは言語の構造・事実・推論のパターンを幅広く学習します。

推論（inference）は、訓練済みのモデルが入力に対して出力を生成する段階です。新しい質問に答えたり、文章を翻訳したりする運用フェーズです。

機械学習の根本的な目標は汎化です——訓練データに含まれていなかった実世界の入力にも、学んだパターンを正しく適用できるかどうかです。LLMが見たことのない質問に答えられるのは、汎化が機能しているからです。

GPTとは? ── 3つの概念が凝縮した名前

「GPT」という言葉は、ChatGPTの爆発的な普及によって、いまでは一つの製品名やブランド名のように使われています。しかし本来は固有名詞ではなく、ここまでで学んだ3つの概念の頭文字を並べた、技術的な成り立ちを表す名前です。

Generative（生成的）：入力に基づいて新しいテキストを生成する
Pre-trained（事前学習済み）：大量データで事前に訓練されている
Transformer：Transformerアーキテクチャを使っている

GPTはOpenAIが2018年に発表したGPT-1が出発点です。12層のTransformerデコーダを持ち、BookCorpusで事前学習されました。GPT-2（2019年、15億パラメータ）、GPT-3（2020年、1750億パラメータ）と規模が急速に拡大し、現在の大規模言語モデルの原型となりました。

名前を分解するだけで、生成（Generative）・事前学習（Pre-trained）・Transformerという3つのキーコンセプトがすべて凝縮されているのが分かります。このつながりを押さえておくと、後から新しいモデル名や手法名を見たときの読解の足がかりになります。

2-B モデルの作り方と効率化

2-Aで事前学習済みのLLMが「Transformerで文章を処理し、次の語を予測するモデル」であることを見ました。ただし、事前学習しただけのモデルは「次の語予測」に特化しており、人間との対話に役立つ受け答えをするとは限りません。2-Bでは、そのモデルを実用的なアシスタントに仕上げ、さらに小さく・速く動かすための手法を見ていきます。

RLHFとは? ── 素の予測機をアシスタントに仕上げる

事前学習済みのモデルは、大量のテキストから次の語の予測を学んでいます。しかしそのモデルが生成する文章は、必ずしも「有用で安全な受け答え」にはなりません。

RLHF（Reinforcement Learning from Human Feedback＝人間のフィードバックによる強化学習）は、素の予測モデルを対話アシスタントとして整える手法です。人間のアノテーターが複数の候補回答を比較して「どちらが良いか」を評価し、その選好データから報酬モデルを作ります。次に、その報酬モデルが出す点数を最大化するように強化学習でモデルを調整します。これにより、安全性・有用性・誠実さに沿ったアシスタントに整えられます。

ここで言う「強化学習」は、第1部で見た「ゲームAIが試行錯誤で戦略を習得する」ものと同じ枠組みですが、文脈が異なります。第1部の強化学習は「環境の中でエージェントが行動し、環境から報酬を受け取る」設定でした。RLHFでは「環境」の代わりに人間の選好が報酬を生成します——ロボットの試行錯誤ではなく、文章の善し悪しを人間が評価して報酬に変える応用です。

素の予測機が対話アシスタントになるのは、このRLHFという仕上げ工程があるからです。次はそのアシスタントをさらに特定の用途に特化させる手段を見ます。

ファインチューニングとICLの違いは?

汎用のアシスタントを特定分野向けに強化したい場合、大きく2つのアプローチがあります。「学習し直す」か「学習し直さない」かが分岐点です。

ファインチューニングは、特定の用途に合わせた追加データでモデルを再訓練する手法です。モデルの重み（パラメータ）を直接更新するため、特定の回答スタイルや専門知識を深く定着させられます。ただし、訓練データの準備と計算コストが必要です。

一方、インコンテキスト学習（ICL） は、プロンプトの中に例を示すことで、モデルを再訓練せずにその場で推論させる方法です。例を一切見せないのがzero-shot、いくつか見せるのがfew-shotです。モデルの重みは変わらず、コンテキストウィンドウの中に置かれた例だけを手がかりに推論します。

「重みを更新する ⇄ 重みはそのまま、コンテキストで引き出す」という対比は、後半の第3部でも繰り返し顔を出します。また、few-shotで段階的な推論の例を見せることで複雑な問題を解かせる手法が、第3部で登場するChain-of-Thought（CoT）のfew-shot版です。zero-shotのCoT（「順を追って考えよう」と一言添えるだけで推論を引き出す）への橋でもあります。

プロンプトエンジニアリングとは?

プロンプトエンジニアリングは、モデルを再訓練せずに、指示文（プロンプト）の設計によって出力の質を改善する実践です。

指示を明確な言葉で書く、条件や制約を明示する、目的に合った例を添える（few-shot）、段階的に考えさせる（CoT）といった手法が含まれます。上で見た zero-shot・few-shot をはじめとする手法群を束ね、「モデルの能力を引き出す設計全般」を指す実践的な概念です。

ファインチューニングとプロンプトエンジニアリングは対立するものではなく、目的に応じて使い分けます。特定の専門知識を深く定着させたい場合はファインチューニング、コストを抑えつつ出力を調整したい場合はプロンプトエンジニアリングというのが基本的な考え方です。「素のモデルを仕上げる」工程を確認したところで、次は「仕上げたモデルをどう小さく・速く動かすか」という効率化に移ります。

量子化・蒸留・MoE ── 効率化の3本柱

第1部で「パラメータは数十億〜数兆個、大きいほど計算コストが増える」と触れました。この問題に対処する3つのアプローチが、量子化・蒸留・MoEです。それぞれ異なる角度から「大きく作って、効率的に使う」という問題を解いています。

量子化は、パラメータを表す数値の精度を下げることでモデルを軽量化する手法です。通常32ビットの浮動小数点数で保持されているパラメータを8ビットに落とすと、モデルのサイズを最大75%削減できます。わずかな精度低下と引き換えに、必要なメモリと計算量を大幅に圧縮します。これにより、データセンターではなく手元のPCでLLMを動かす「ローカルLLM」が現実的になります——ローカルLLMについては次の2-Cで改めて触れます。

蒸留は、訓練した大きな「教師モデル」の知識を、小さな「生徒モデル」へ転写する圧縮技術です（Geoffrey Hinton, Oriol Vinyals, Jeff Dean「Distilling the Knowledge in a Neural Network」, arXiv:1503.02531, 2015。先行研究: Rich Caruana「Model Compression」, 2006）。「訓練に最適な形と展開に最適な形を分ける」という思想で、大きく育てた教師の知識を、実際に使う場面では小さな生徒が担う設計です。量子化が「精度を落とす」のに対し、蒸留は「小さなモデルに賢さを移す」という方向で圧縮します。

MoE（Mixture of Experts）は、モデルを「専門家（experts）」と呼ばれる複数のサブネットワークに分割し、入力ごとにルーターが必要な専門家だけを選んで起動する設計です（Shazeerら 2017。MoEの起源はJacobsら 1991）。全体のパラメータ数は巨大でも、一度の処理で動く専門家は一部に限られます。第1部で「パラメータ数＝規模」と整理しましたが、MoEは「全部を一度に使うわけではない」という補正を加えます。

量子化（数値の精度を落とす）・蒸留（知識を転写する）・MoE（必要な部分だけを起動する）——3本柱はそれぞれ異なる角度から「規模と効率のトレードオフ」に向き合っています。

2-C LLMのクセと前提を知る

2-Aで仕組みを、2-Bで作り方と効率化を見てきました。ここまでの工程でLLMはかなり実用的な形に整っています。しかし、これほど整えても残る根本的なクセと限界があります。この節で挙げる弱点が、第3部「なぜ拡張が必要か」の直接の答えになります。

ハルシネーションとは? ── なぜLLMは嘘をつくか

ハルシネーションは、LLMがもっともらしいが誤った情報を、自信ありげに生成する現象です。「そんなことは起きていない」「そんな人物は存在しない」という内容を、断定的な口調で出力することがあります。「hallucination（幻覚）」という精神医学の用語を語源として定着しています。

この現象の本質は、LLMの仕組みそのものにあります。LLMは事実を参照・検証しているわけではなく、「次にどの語が来る確率が高いか」を統計的に計算して出力します。知識の空白があるとき、または曖昧な質問に答えようとするとき、「それらしい続き」を生成してしまいます。

このハルシネーション——根拠なく生成する——という性質は、次に見る「カットオフ」とセットで、第3部で登場するRAGの直接の動機になります。

知識のカットオフとは?

LLMの学習データには締め日があります。知識のカットオフとは、その締め日以降に起きた出来事・情報をモデルが（そのままでは）知らないことです。学習はある時点のデータのスナップショットであるため、カットオフ後の最新情報には答えられない、あるいは古い情報で答えてしまいます。カットオフの時期はモデルごとに異なり、随時更新されます。

Anthropicは「訓練データのカットオフ（使ったデータの範囲）」と「信頼できる知識のカットオフ（最も正確に答えられる日付）」を区別しています。学習データに含まれていても直近の情報は精度が落ちることがあるとされ、2つのカットオフは必ずしも一致しません。

カットオフ（古い知識しかない）とハルシネーション（根拠なく生成する）が組み合わさると、「新しいことを聞いても、それっぽい古い情報で答える」という事態が起きえます。この問題への直接の対策が、第3部で見るRAG（外部文書を検索してコンテキストに組み込む手法）です。

バイアスとは?

LLMは学習データに含まれる社会的な偏りをそのまま吸収し、出力に反映してしまうことがあります。このバイアスは、「データが偏れば結果も偏る」という機械学習全般に共通する性質です。

特定の職業・属性に関してステレオタイプ的な表現が多いデータで学習すれば、モデルの出力にもその傾向が現れます。採用スクリーニング・与信判定・警察活動など影響の大きい用途では、歴史的に不利な状況に置かれてきた集団への実害につながりうるため、出力のモニタリングと評価が重要です。

マルチモーダルとは?

マルチモーダルは、複数のモダリティ（第1部で見たテキスト・画像・音声・動画）を統合的に扱える性質を指します。元はテキストだけを扱っていたLLMが、画像を入力として受け取ったり、音声と組み合わせて動作したりできるよう拡張されたものです。

内部では、テキストも画像も音声も「エンベディング」という手法で共通の意味空間に数値ベクトルとして変換することで、異なるモダリティを統一的に扱っています。このエンベディングは第3部で詳しく見ます。

temperatureとは?

temperatureは、LLMが出力を生成するときのランダム性（多様性・創造性）を制御するパラメータです。

値を低くするとより確率の高い語を優先して選ぶため、堅実で再現性の高い出力になります。値を高くすると確率の低い語も選ばれやすくなり、多様で創造的な出力になりますが、一方でつながりにくい表現が増えることもあります。同じプロンプトでも毎回異なる答えが返ってきたり、逆にほぼ同じ答えが返ってくるのは、このtemperatureの設定によります。

オープンウェイト・クローズド・オープンソースの違いは?

LLMはその公開の程度によって3段階に区別されます（各社/一般解説）。

クローズドは、学習済みの重みを公開せず、APIを通じてのみ使える形態です。モデルはサービス提供会社のサーバー上で動き、ユーザーはそこにアクセスして使います。

オープンウェイトは、学習済みの重み（パラメータの数値）を公開している形態です。ダウンロードして自分の環境で動かしたり、ファインチューニングで特定用途に調整したりできます。ただし、訓練に使ったコードや手法まで公開されているとは限りません。

オープンソースは、重みに加えて訓練コードや手法など内部の詳細まで公開している形態です。

どのモデルがどれに当たるかは曖昧で時間とともに変わるので、個別名で覚える必要はありません。重要なのは「重みが公開されているか」で、次のローカルLLMはこの重みの公開（オープンウェイト）があって初めて成立します。

ローカルLLMとは?

ローカルLLMは、クラウドではなく手元のPC・サーバーなど自分の環境でLLMを動かすことです。

この実現には2つの条件が揃う必要があります。第一に、重みが公開されていること（オープンウェイト）——外部サーバーに置かれたモデルを使うのではなく、重みを手元にダウンロードして動かすからです。第二に、その重みが手元のハードウェアで扱えるサイズに収まること——2-Bで見た量子化（精度を下げてサイズを削減する）がここで効いてきます。量子化×オープンウェイトという2つの条件が揃ってはじめて、手元のPCでLLMを動かすことが現実的になります。

ここまでの2-Cで、LLMに固有の根本的な制約が見えてきました。ハルシネーション（根拠なく生成する）、カットオフ（最新情報を知らない）、そして単体では外部に働きかける手段を持たないという限界です。これほど整えられたLLMでも、単独ではできないことがあります。第3部では、これらの弱点を外側の仕組みで補うRAG・ツール・エージェントを見ていきます。

第3部　LLMを拡張する ── 弱点を補う仕組み

第2部の2-Cで、LLMの3つの根本的な制約が明らかになりました。根拠なく生成するハルシネーション、学習締め日以降の情報を持たないカットオフ、そして単体では外部に働きかける手段を持たない能動性の欠如です。第3部では、これら3つの弱点を外側の仕組みで補う5段階の拡張技術を見ていきます——①知識を足す（RAG・エンベディング・ベクトルDB）、②道具を持たせる（ファンクションコーリング・MCP）、③自律的に動かす（エージェント・ワークフロー）、④じっくり考えさせる（CoT・推論モデル）、⑤束ねる（コンテキストエンジニアリング）——の順です。

3-1　なぜ拡張が必要か

単体のLLMは「学習時に見たことしか知らない」という設計上の制約を持ちます。カットオフによって最新情報が欠け、ハルシネーションによって知らないことも生成してしまい、外部システムへの接続手段も持ちません。これらはプロンプトの工夫で緩和できる部分もありますが、根本は「次のトークンを予測する確率モデル」という設計に由来するため、学習だけでは解消できません。そこで登場するのが、LLMを外側から補う拡張の仕組みです。

3-2　知識を足す ── RAG・エンベディング・ベクトルDB

この3語は一体として理解するとよいでしょう。エンベディングが意味を数値化し、ベクトルDBがその数値を格納・検索し、RAGがその検索結果をLLMのコンテキストに渡す——という3段構えです。

エンベディング（Embedding＝埋め込み）は、テキスト・画像・音声などを意味が保たれるように数値ベクトルに変換する技術です。変換されたベクトルは高次元の空間に配置され、意味が近いものほど空間的にも近くなるよう設計されています——「ネコ」と「猫」は近く、「ネコ」と「自動車」は遠い、というように。第2部のマルチモーダルで予告した「異なるモダリティを統一的に扱える共通の意味空間」がこのエンベディングによって実現されています。

ベクトルDB（ベクトルデータベース）は、エンベディングで生成された大量のベクトルを格納し、与えられたベクトルに意味が近いものを高速に返す専用のデータベースです。RAGの「検索」を支えるインフラと言えます。

RAG（Retrieval-Augmented Generation＝検索拡張生成）は、ユーザーの質問に応じて外部の文書を検索し、その内容をコンテキストに組み込んでからLLMに回答させる手法です（Patrick Lewis ら計12名、arXiv:2005.11401、Facebook AI Research〔発表当時の名称〕、NeurIPS 2020）。動作は3ステップです。①ユーザーの質問をエンベディングで数値化し、ベクトルDBから意味的に近い文書を取得する、②取得した文書をLLMのプロンプトに差し込む、③LLMはその文書を参照して回答を生成する——の順です。LLMのパラメータ（重み）は書き換えず、「その場で必要な情報を文脈として渡す」というアプローチです。

まとめると、RAGとは「エンベディングで意味を数値化し、ベクトルDBで意味の近い文書を高速に探し、見つけた文書をコンテキストに足す」という3段構えの知識補完です。カットオフ後の最新情報も文書として渡せば参照でき、参照すべき根拠がある状態ではハルシネーションが起きにくくなる傾向があります（ただし完全には防げません）。

3-3　道具を持たせる ── ファンクションコーリング・MCP

知識を足しただけでは、LLMはまだ「読んで答える」だけです。外の世界に働きかける——ウェブを検索したり、コードを実行したり、APIを叩いたりする——には「道具」が必要です。

ファンクションコーリング（Function Calling＝関数呼び出し）は、LLMが「この質問に答えるにはこの関数を呼ぶべきだ」と判断し、呼び出すべき関数名と引数を構造化した形で出力する機能です。ここで大事なポイントがあります。LLMは実際に関数を実行するのではなく、何を呼ぶべきかを提案するだけです。 実際の実行はアプリケーション（LLMを呼び出している側のコード）が担います。「提案→（アプリが）実行→結果を返却→LLMが回答」という往復構造がツール使用の基本単位です。

MCP（Model Context Protocol）は、LLMが外部ツールやデータソースへ接続するための標準プロトコルです（Anthropic、2024年11月25日発表。作者: David Soria Parra・Justin Spahr-Summers）。2025年12月に、Linux Foundation傘下に新設されたAgentic AI Foundation（AAIF）へ寄贈されました。

ファンクションコーリングが「1つの道具を呼ぶ仕組み」だとすれば、MCPは「多数の道具を共通規格でつなぐ仕組み」です。MCPが登場する前は、LLMをウェブ検索・データベース・社内システムと連携させるたびに、アプリケーションごとに独自の接続実装が必要でした。MCPはそのつなぎ口を標準化します——MCP対応のツール（MCPサーバー）をMCP対応のLLM（MCPクライアント）に接続するだけで、ファンクションコーリングで呼び出せる状態が整います。「異なるデバイスを共通のケーブル規格でつなぐ」というイメージが近いでしょう。

3-4　自律的に動かす ── エージェント・ワークフロー・マルチエージェント

道具が揃ったら、次は「誰が道具を使うか」です。1回の呼び出しで完結しない複雑なタスクには、LLMが自律的に判断して道具を使い続ける仕組みが必要です。

エージェントは、LLMが「何を次にすべきか」を自律的に判断しながらツールを呼び出し、結果を評価し、必要であれば計画を修正しながら繰り返す仕組みです。LLMが脳として機能し、目標の達成まで試行と評価を続けます。

ワークフローは、LLMの呼び出し順序やツールの使用パターンをあらかじめコードで定義しておく仕組みです。LLMは決められた位置で特定のタスク（要約・分類・翻訳など）を担当しますが、「次は何をすべきか」をLLM自身が決めるわけではありません。エージェントとワークフローは対立するものではなく用途で使い分けます——ワークフローは動作が予測しやすく品質を管理しやすい反面、想定外への対応力が限られます。エージェントは柔軟に対応できる反面、計画の逸脱リスクとループ制御が設計上の課題です。複雑なシステムでは両者を組み合わせたハイブリッド構成も取られます。

エージェントが長いタスクを続ける際にはメモリが不可欠です——コンテキストウィンドウの容量制限（第2部）を超えて、過去のやり取りや中間結果を外部に保存・参照する仕組みのことです。複数のLLM呼び出し・ツール・エージェントを組み合わせて全体の流れを制御することをオーケストレーションと呼びます。

複数のLLMが役割を分担して協調するマルチエージェント構成も存在します。計画担当・実行担当・検証担当が別々のモデルとして機能し、単体では扱いにくい複雑なタスクを分解して処理します。

3-5　じっくり考えさせる ── CoT・推論モデル

道具や自律性を与えても、推論の精度そのものが低ければ質の高い結果は得られません。思考の深さを引き出す工夫が、この節の主題です。

CoT（Chain-of-Thought＝思考の連鎖）は、LLMに「考える手順を中間ステップとして書き出してから答える」よう促すプロンプト技法です（Wei ら、2022年）。「この問題を段階的に考えてください」「順を追って考えよう」といった一言を加えるだけでも、算数・論理・コーディングなど複数ステップが必要な問題で精度が上がることが示されています。

推論モデル（Reasoning Model）は、このCoTに相当する「段階的な思考」をモデル自身の中に組み込んだものです（OpenAI o1、プレビュー公開: 2024年9月12日、正式公開: 2024年12月5日）。外からプロンプトで誘導するCoTとは異なり、推論モデルは問題を受け取ると内部で長い思考ステップを経てから回答を返します。ユーザーが画面で目にするのは生の推論過程ではなく、モデルが別途生成した要約です（OpenAI公式の方針として、生の思考連鎖はユーザーに公開されません）。

CoTはプロンプト技法（外からかける工夫）であり、推論モデルはその能力を内包したモデルそのもの（設計の選択）である——この区別が重要です。推論モデルにCoTプロンプトを組み合わせることも可能ですが、推論モデルの「深く考える能力」はプロンプト次第ではなくモデルに備わっています。

3-6　束ねる ── コンテキストエンジニアリング

RAGが文書を取得し、ツールが結果を返し、メモリが履歴を保持する——それらをLLMに渡す「コンテキスト（文脈）」をどう設計するか、という視点がコンテキストエンジニアリングです（2025年にTobi Lütke・Andrej Karpathyが提唱し、Anthropicが定式化）。

第2部でコンテキストウィンドウを「LLMがその時点で参照できる情報の全量」として説明し、コンテキストエンジニアリングへの布石と予告しました。コンテキストエンジニアリングはその回答です——限られたコンテキストウィンドウに、タスクに最適な情報（システム指示・取得文書・ツール結果・会話履歴・参考例）を過不足なく配置し、LLMが最大限の精度を発揮できる状態を整える設計の実践です。

プロンプトエンジニアリング（1回の指示文を適切に書く技法）が「何を言うか」の設計であるのに対し、コンテキストエンジニアリングは「何をコンテキストウィンドウに入れるか」というシステム全体の情報設計です。3-2のRAG（外部文書を取得してコンテキストに入れる）も、3-4のメモリ（履歴をコンテキストに入れる）も、コンテキストエンジニアリングの実践形態と捉えることができます。

ここまでの第3部で、LLMを外側から拡張する5段階が揃いました。①RAG・エンベディング・ベクトルDBで知識を足し、②ファンクションコーリング・MCPで道具を持たせ、③エージェント・ワークフローで自律的に動かし、④CoT・推論モデルで推論を深め、⑤コンテキストエンジニアリングで全体を束ねる——この5段階が組み合わさることで、現代の本番AIシステムが成り立っています。

ただし、これほど強力になった生成AIには、それだけ影響の大きい攻撃手法も存在します。次の第4部では、プロンプトインジェクション・ジェイルブレイク・データポイズニングの構造と対策の考え方を見ていきます——RAGによる外部文書の読み込みやMCPによる外部ツールへの接続が、攻撃の経路にもなりうるという構造的な問題意識を持ちながら読んでください。

第4部　生成AIへの攻撃 ── 外部接続が開く攻撃面

第3部で、LLMはRAGで外部文書を読み込み、MCPで外部ツールに接続し、エージェントとして自律的に行動できるようになりました。この「外部とつながる力」は同時に、攻撃を受ける面（アタックサーフェス）を広げます。

第2部でシステムプロンプトを説明したとき、「開発者が設定する信頼できる上位の指示」と「ユーザーや外部から来る信頼できない入力」の区別を見ました。この境界を突くのが、以降で見る攻撃です。3つの攻撃手法——プロンプトインジェクション・ジェイルブレイク・データポイズニング——を順に見ていきます。

プロンプトインジェクションとは? ── 直接と間接

プロンプトインジェクションは、信頼できない入力に混入させた指示によって、LLMに本来のシステムプロンプトと異なる動作をさせる攻撃です。LLMアプリケーション向けのリスクを整理したOWASP Top 10 for LLM Applicationsにおいて、最も重大なリスクの一つとして挙げられています。第2部で見た「システムプロンプト優先」という前提が、入力側に仕込まれた指示によって覆される構造です。

「プロンプトインジェクション」という語は、Simon Willisonが2022年にSQLインジェクションになぞらえて命名しました。攻撃には2つの形態があります。

直接プロンプトインジェクションは、ユーザー自身がチャット入力欄などに直接、システムプロンプトを上書きまたは変更する指示を打ち込む形です。「前の指示を無視して〜してください」のような文を入力し、設定された制約を覆そうとするのが典型的な構造です。

間接プロンプトインジェクションは、LLMが読み込む外部ソース（Webページ・メール・PDF・データベースなど）の中に指示を埋め込んでおき、LLMがそのコンテンツを処理したときに指示が発動する形です（Kai Greshake ら「Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection」arXiv:2302.12173、2023年）。ここで第3部とのつながりが見えます——RAGで外部文書を取得するプロセス、MCPで外部ツールのデータを受け取るプロセス、エージェントがWebページを読み込むプロセス、これらすべてが間接インジェクションの経路になりえます。「信頼できる指示（システムプロンプト）」と「信頼できないデータ（外部ソース）」の境界が、そのまま攻撃の境界になります。AIブラウザでこの間接プロンプトインジェクションが具体的にどう悪用されるかは、「AIブラウザのセキュリティリスク」で詳しく解説しています。

ジェイルブレイクとは?

ジェイルブレイクは、LLMに組み込まれた安全装置（ガードレール）を回避させ、本来出力しないはずの内容を引き出そうとする手法です。

プロンプトインジェクションとの関係を整理しておきます。「プロンプトインジェクション」がLLMへの指示を不正に上書きする攻撃全般を指すのに対し、「ジェイルブレイク」は特に「安全制約を迂回して制限されたコンテンツを生成させること」に焦点を当てた概念です。境界は厳密に分かれているわけではなく、ジェイルブレイクをプロンプトインジェクションの一形態として位置づけることもあります。

ジェイルブレイクには、フィクション・ロールプレイ・仮定のシナリオなど間接的な文脈を使ってガードレールを迂回しようとするパターンが多く見られます。具体的な手順の解説はここでは行いませんが、ガードレールの強化と新たな迂回手法の発見は現在進行形でいたちごっこが続いているカテゴリです。防御の観点では、ガードレールはシステムプロンプトだけでなく、訓練段階（RLHF）での整合（アライメント）や出力フィルタリングなど複数の層で実装されます。

データポイズニングとは?

データポイズニング（データ毒化）は、LLMの学習データに悪意あるデータを意図的に混入させ、モデルの挙動を訓練段階で歪める攻撃です（OWASP Top 10 for LLM Applications に分類されています）。

ここで重要な時間軸の対比があります。プロンプトインジェクション・ジェイルブレイクは「使うとき（推論時）」を狙う攻撃であるのに対し、データポイズニングは「学ぶとき（訓練時）」を狙う攻撃です。第2部で見た「事前学習でデータを学習する段階」と「学習済みモデルが入力を受け取って出力する推論段階」の区別が、攻撃の時間軸の理解にそのまま対応します。

現代のLLMはWebから大規模に収集したテキストデータで学習します。このスケールの大きさは能力の源泉でもありますが、同時に「収集データの一部を攻撃者がコントロールできる」という構造的なリスクも生みます。汚染されたデータを含む状態で学習したモデルは、特定のトリガーに対して誤った出力を返したり、特定の方向に偏った判断をするよう誘導されることがあります。

第4部で見てきた3つの攻撃を時間軸で整理します。

攻撃	狙う時間軸	主な攻撃の入口
プロンプトインジェクション	推論時	ユーザー入力・外部コンテンツ
ジェイルブレイク	推論時	プロンプト
データポイズニング	訓練時	学習データ

防御の考え方もこれに対応します。推論時の攻撃には、信頼境界の設計（システムプロンプトとユーザー入力・外部データの明示的な分離）、入力の検証、出力のモニタリングが有効です。訓練時の攻撃には、学習データの出所確認・品質管理、学習後の挙動評価が重要になります。攻撃面を完全になくすことはできないという前提のもとで、多層防御として設計する考え方が基本です。

これまでの第1〜4部は、テキストを中心とするLLMの土台・構造・拡張・攻撃を見てきました。第1部で予告したように、生成AIにはLLMとは別系統で発展してきた技術があります——画像を生成する拡散モデル（Diffusion Model）です。第5部では、この別系統がどう動くのか、そしてLLMとどこが共通しているかを見ていきます。

第5部　他モダリティ ── 画像・音声・動画のAI

第1部でファウンデーションモデルを説明したとき、「Transformer系（テキスト中心）とDiffusion系（画像中心）という2つの流れがある」と予告しました。ここまでの第2〜4部はTransformer系を中心に見てきましたが、第5部ではいよいよ別系統のDiffusion系を中心に、画像・音声・動画の生成AIを見ていきます。

別系統と言っても、まったく別の世界ではありません。第2部で見たトークンに対応する「パッチ」、第3部で見たエンベディング（共通の意味空間）、第2部で見たファインチューニングの軽量版「LoRA」——これらの概念が画像・音声・動画でも顔を出します。LLMと地続きの発想が異なるモダリティでどう使われているか、確認しながら読んでください。

5-1　画像 ── 拡散モデルとその制御

現代の画像生成AIの主役が拡散モデル（Diffusion Model）です。まずその原理を見てから、実際に画像生成ツールを使うときに目にする制御用語を整理します。

拡散モデルとは?

拡散モデルの仕組みの核心は「ノイズの付加と除去の学習」にあります（Ho、Jain、Abbeel「Denoising Diffusion Probabilistic Models（DDPM）」、arXiv:2006.11239、2020、UC Berkeley。確率的拡散プロセスを生成モデルに応用する原型的な研究はSohl-Dicksteinら2015に遡ります）。

訓練時には、元の画像に少しずつランダムなノイズを加え続け、ほぼ純粋なノイズになるまでの過程を記録します。モデルはこの逆方向——ノイズを少しずつ取り除いて画像を復元する——を学習します。生成時はランダムノイズから出発し、学習した「ノイズ除去の繰り返し」によって画像を作り出します。「ノイズの中から徐々に像が浮かび上がる」というイメージが近いでしょう。第1部で「ファウンデーションモデルにはDiffusion系がある」と予告したのが、この拡散モデルです。

拡散モデルが主流になる前にも画像生成の手法はありました。GAN（Generative Adversarial Network）は、本物らしい画像を生成しようとする「生成器」と本物か偽物かを見分けようとする「識別器」が互いに競い合いながら学習する仕組みです（Goodfellowら、2014）。VAE（Variational Autoencoder）は、画像をエンコーダで潜在空間に圧縮し、デコーダで復元する流れを学習する手法です（Kingma・Welling）。どちらも「拡散モデル以前の系譜」として、現在も一部の用途で使われています。

画像生成の制御用語

実際の画像生成ツールでは、拡散モデルの動作を調整するパラメータや技術が多数登場します。代表的なものをまとめます。

潜在空間（latent space） は、画像の特徴を圧縮した抽象的な数値空間です。この空間内の位置が、画像の色・形・スタイルなどの内容に対応します。第3部のエンベディング（テキストや画像を意味が保たれるように数値空間に変換する技術）と同じく、「意味・特徴を数値空間で扱う」という発想が根底にあります。

シード（seed） は、画像生成のランダム性の初期値です。同じプロンプト・同じシード・同じ設定であれば同じ画像を再現できます。試行錯誤の中で気に入った画像が出たとき、その条件を記録して再現するための鍵になります。

ステップ数 は、ノイズ除去を何回繰り返すかを指定する値です。ステップ数が多いほど細部が精緻になりやすい傾向がありますが、時間がかかります。

CFG（Classifier-Free Guidance） は、プロンプトへの忠実度を調整する強さ（スケール値）です。値を高くするとプロンプトに忠実な画像になり、低くすると多様性が増す一方でプロンプトから外れやすくなります。

LoRA（Low-Rank Adaptation）は、モデル全体を再訓練せず少数の追加パラメータだけで特定の画風・人物・対象を学ばせる、軽量なファインチューニング手法です。第2部で見たファインチューニング（モデル全体をタスクに合わせて調整する手法）の軽量版として位置づけられます。

ControlNet は、構図・ポーズ・輪郭・奥行きマップなどの条件画像を与えることで生成をより細かく制御する仕組みです。テキストプロンプトだけでは難しい「ポーズの指定」や「レイアウトの維持」を可能にします。

inpainting（インペインティング） は、画像の特定の領域だけをマスクで指定し、そこを描き直す・補完する技術です。画像全体ではなく一部だけを編集するのに使われます。

潜在空間・シード・CFGなどの制御用語はいずれも、「特徴を数値空間で扱い、その空間内での操作として生成を制御する」という発想に基づいています。第3部のエンベディングと根底でつながっています。

5-2　音声 ── TTS・STT・音声クローン

テキストと並ぶ重要なモダリティが音声です。音声AIは「テキスト→音声」と「音声→テキスト」の2方向で整理すると分かりやすいでしょう。

TTS（Text-to-Speech＝音声合成）は、文字から音声を生成する技術です（文字→声）。近年の深層学習ベースのモデルは声の自然さや抑揚が大きく向上し、人間の読み上げと区別がつきにくいレベルに達してきています。

STT（Speech-to-Text）またはASR（Automatic Speech Recognition＝自動音声認識）は、音声を文字に変換する技術です（声→文字）。TTSと逆方向で、会議の文字起こし・音声コマンド認識・字幕生成など幅広い用途に使われています。

音声クローンは、特定の話者の声の特徴を学習し、その声で任意のテキストを読み上げさせる技術です。声の特徴を数値ベクトルとして表現した**話者埋め込み（speaker embedding）**が、このクローンの核となっています。第3部で見たエンベディング（テキスト・画像・音声を意味空間に数値化する技術）の音声版として位置づけることができます。

音声クローンには、同意を得た話者の声でコンテンツを生成するといった正当な用途がある一方、本人の同意なく声を複製するディープフェイク音声や、声を悪用したなりすまし詐欺のリスクも指摘されています。声は個人のアイデンティティに深く結びついており、同意のない声の複製は重大な倫理的・法的問題を引き起こします。

5-3　動画 ── text-to-video・フレーム一貫性・パッチ

画像を時間方向に拡張したのが動画生成です。すべてのモダリティの中で最も計算負荷が高く、技術的な難所も多い領域です。

text-to-video は、テキストプロンプトから動画を生成する技術です。画像生成（拡散モデル）を時間軸方向に拡張したものとして位置づけられ、各フレームの内容を整合性を保ちながら生成する必要があります。

フレーム一貫性（temporal consistency）は、連続するフレーム間で物体・色・動きが破綻しないことを指します。静止画では問題にならない「時間的な整合性」が、動画生成では最大の課題の一つです。人物が途中で別の人物になったり、物体が突然消えたりといった不整合が、フレーム一貫性の欠如として現れます。

動画生成でとりわけ重要な概念がパッチ（patch）です——ここで第2部のトークンとの横串が回収されます。動画・画像を一定の大きさの小領域（パッチ）に分割し、それぞれを独立した単位として処理するという発想は、第2部でLLMがテキストをトークンに分割して処理するのと同じ構造です。OpenAIは動画生成モデルの技術レポート「Video Generation Models as World Simulators」の中で、視覚データをトークンに相当する単位（時空間パッチ）として扱うアプローチを説明しています。トークンと同じ発想が画像・動画にも応用されていることが分かります。2024年にOpenAIが発表した動画生成モデル（Sora）は、このアプローチで大きな注目を集めました。

第5部では、Transformer系（テキスト）とは別系統のDiffusion系を中心に、画像・音声・動画のAIを見てきました。異なるモダリティに見えながらも、共通する発想がいくつも現れました——トークン＝パッチという分割の発想、エンベディング（意味を数値空間で扱う）の発想、LoRAに代表されるファインチューニングの考え方、そしてファウンデーションモデルという共通の基盤。LLMとDiffusion系は「まったく別の技術」ではなく、同じ深層学習の土台から分岐した2つの系統です。

おわりに

本記事では「用語を辞書順に並べるのではなく、流れを理解する」ことを目的に全体感を捉えられるような地図として整理してきました。

最初の土台では、AI⊃機械学習⊃深層学習という階層構造と、その深部に位置するファウンデーションモデル——Transformer系とDiffusion系という2つの分岐——を確認しました。 LLMの章では、Transformerのアテンション機構がなぜ距離を超えた文脈を把握できるのか、トークンとコンテキストウィンドウという処理の単位、事前学習からRLHFを経てモデルがどう仕上がるか、そしてハルシネーション・カットオフというLLM固有の限界を見ました。拡張の章では、その限界を外側から補う5段階——知識を足す（RAG・エンベディング・ベクトルDB）、道具を持たせる（ファンクションコーリング・MCP）、自律的に動かす（エージェント・ワークフロー）、じっくり考えさせる（CoT・推論モデル）、束ねる（コンテキストエンジニアリング）——を見ました。 生成AIへの攻撃の章では、外部とつながる力がそのまま攻撃面になることを確認し、プロンプトインジェクション（推論時）とデータポイズニング（訓練時）という時間軸の対比を整理しました。 モダリティの章では、Diffusion系を中心に画像・音声・動画を見ながら、トークン＝パッチ・エンベディング・ファウンデーションモデルという共通の土台で地続きだと確認しました。

生成AIの世界は今まさに日進月歩の勢いで成長を続けており、新たなトレンドが増え続けています。注目が高まりつつある合成データ（synthetic data）は、実データの不足を補うためにAI自身が生成する学習データを指し、希少なケースの訓練データを確保する手段として活用が進んでいます——ただし、実際の分布と照合しながら使うことが前提です。他にも世界モデル（world model）という、物理世界の次の状態を予測するモデルは、ロボティクス・強化学習・マルチモーダルAIとの接点から2025年末頃に注目が高まっています。LLMを補完するのか、異なる方向に向かうのか——研究者の間でも見解が分かれており、現時点では断定できません。このように今後新たに出てくる概念に対しても、本記事の内容を土台とすれば、以前よりもとっつきやすくなるのではないでしょうか。

記事を通じて伝えたかったのは「用語を個別に覚えること」より「地図の中の位置関係をつかむこと」でした。新しい用語が登場したとき、「これはトークン処理の話か」「LLMの弱点を補う拡張の話か」「学習時の話か推論時の話か」「Transformer系かDiffusion系か」と問い直せる——そういう基盤にしてもらえると嬉しいです。

参照元

確認日: 2026年5月25日

情報源	種別	参照箇所
IBM Think「What is machine learning?」	一次情報（企業解説）	機械学習・深層学習・ニューラルネット・教師あり/なし/強化学習・バイアス・マルチモーダル
Vaswani ら「Attention Is All You Need」arXiv:1706.03762（2017、Google）	一次情報（論文）	Transformer
Bai ら（Anthropic）「Training a Helpful and Harmless Assistant with RLHF」arXiv:2204.05862（2022）	一次情報（論文）	RLHF
Hinton・Vinyals・Dean「Distilling the Knowledge in a Neural Network」arXiv:1503.02531（2015）	一次情報（論文）	蒸留
Patrick Lewis ら（Facebook AI Research）「Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks」arXiv:2005.11401（2020、NeurIPS 2020）	一次情報（論文）	RAG
Wei ら（Google）「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」arXiv:2201.11903（2022、NeurIPS 2022）	一次情報（論文）	CoT
Ho・Jain・Abbeel（UC Berkeley）「Denoising Diffusion Probabilistic Models」arXiv:2006.11239（2020）	一次情報（論文）	拡散モデル（DDPM）
OpenAI 公式ヘルプ「What are tokens and how to count them」	一次情報（企業）	トークン（英語~4文字/トークン目安）
OpenAI「Video Generation Models as World Simulators」（技術レポート）	一次情報（企業）	視覚データの時空間パッチへの分割（動画生成）
Greshake ら「Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection」arXiv:2302.12173（2023）	一次情報（論文）	間接プロンプトインジェクション
OWASP「Top 10 for Large Language Model Applications」	一次情報（標準化団体）	プロンプトインジェクション・ジェイルブレイク・データポイズニング
Anthropic 公式ドキュメント（エージェント・ワークフロー等）	一次情報（企業）	エージェント・ワークフロー・コンテキストエンジニアリング
Model Context Protocol（modelcontextprotocol.io）	一次情報（AAIF）	MCP（Model Context Protocol）

よくある質問

Q: LLMと生成AIは同じものですか？

A: 生成AIの方が広い概念です。生成AIはテキスト・画像・音声・動画などコンテンツを生成するAI全般を指します。LLMはその中でも特にテキストを扱う大規模言語モデルです。GPTやClaudeのような対話AIはLLMですが、第5部で見た拡散モデルによる画像生成AIも生成AIに含まれます。

Q: RAGとファインチューニングはどう違いますか？

A: 最大の違いは「モデルの重みを変えるか否か」です。ファインチューニングはモデル全体を再訓練して知識やスタイルを組み込みます。RAGはモデルを変えず、推論のたびに外部文書を検索してコンテキストに差し込みます。最新情報を頻繁に更新したい場合はRAGが向いており、特定の専門性をモデル自体に定着させたい場合はファインチューニングが選択肢になります。

Q: ハルシネーションは完全になくせますか？

A: 現時点では完全には防げません。LLMは次のトークンを確率的に予測する設計上、根拠なく生成してしまう性質が残ります。RAGで外部文書を渡す、推論モデルで深く考えさせるといった対策でハルシネーションを減らすことはできますが、ゼロにはなりません。重要な情報は一次情報で確認する習慣が有効です。

Q: プロンプトエンジニアリングとコンテキストエンジニアリングはどう違いますか？

A: プロンプトエンジニアリングは「1回の指示文を適切に書く技法」です。コンテキストエンジニアリングはより広い概念で、LLMのコンテキストウィンドウに何をどう入れるかというシステム全体の情報設計を指します。RAGで文書を渡す・履歴を管理する・ツール結果を組み込む・参考例を配置するといった設計がすべてコンテキストエンジニアリングの範疇です。

Q: エージェントとワークフローはどう使い分けますか？

A: 予測可能性と柔軟性のトレードオフで選びます。ワークフローは処理の流れを事前に決めるため動作が安定し品質管理しやすい一方、想定外への対応力が限られます。エージェントはLLMが自律的に判断するため柔軟ですが、計画が逸脱するリスクがあります。シンプルなタスクや信頼性重視の用途はワークフロー、複雑な判断が必要な探索的タスクにはエージェントが向いています。

Q: 画像生成AIとLLMは全く別の技術ですか？

A: 基本的な仕組み（拡散モデル vs Transformer）は異なりますが、根底にある発想は共通しています。テキストも画像も小さな単位（トークンとパッチ）に分割して処理し、エンベディングで意味を数値空間に変換します。どちらも深層学習の土台から分岐した系統として、ファウンデーションモデルという共通の傘に収まります。

生成AIの用語を体系的に理解したい！ 全体感・つながりから学ぶ用語解説

はじめに ── 用語を「点」から「地図」へ

この記事で分かること

第1部 土台 ── この地図の座標軸を確認する

AI・機械学習・深層学習・ニューラルネットとは?

機械学習の3分類とは? ── 教師あり・教師なし・強化学習

ニューラルネットとパラメータとは?

生成AIとモダリティとは?

ファウンデーションモデルとは? ── LLMを含む上位概念

第2部 LLM ── いまの主役を解剖する

2-A LLMの仕組み

Transformerとは? ── 現代AIの土台

トークンとは? ── AIが文章を刻む最小単位

コンテキストウィンドウとは? ── AIの作業記憶

プロンプトとシステムプロンプトとは?

事前学習と推論とは?

GPTとは? ── 3つの概念が凝縮した名前

2-B モデルの作り方と効率化

RLHFとは? ── 素の予測機をアシスタントに仕上げる

ファインチューニングとICLの違いは?

プロンプトエンジニアリングとは?

量子化・蒸留・MoE ── 効率化の3本柱

2-C LLMのクセと前提を知る

ハルシネーションとは? ── なぜLLMは嘘をつくか

知識のカットオフとは?

バイアスとは?

マルチモーダルとは?

temperatureとは?

オープンウェイト・クローズド・オープンソースの違いは?

ローカルLLMとは?

第3部 LLMを拡張する ── 弱点を補う仕組み

3-1 なぜ拡張が必要か

3-2 知識を足す ── RAG・エンベディング・ベクトルDB

3-3 道具を持たせる ── ファンクションコーリング・MCP

3-4 自律的に動かす ── エージェント・ワークフロー・マルチエージェント

3-5 じっくり考えさせる ── CoT・推論モデル

3-6 束ねる ── コンテキストエンジニアリング

第4部 生成AIへの攻撃 ── 外部接続が開く攻撃面

プロンプトインジェクションとは? ── 直接と間接

ジェイルブレイクとは?

データポイズニングとは?

第5部 他モダリティ ── 画像・音声・動画のAI

5-1 画像 ── 拡散モデルとその制御

拡散モデルとは?

画像生成の制御用語

5-2 音声 ── TTS・STT・音声クローン

5-3 動画 ── text-to-video・フレーム一貫性・パッチ

おわりに

参照元

よくある質問

生成AIの用語を体系的に理解したい！全体感・つながりから学ぶ用語解説

第1部土台 ── この地図の座標軸を確認する

第3部　LLMを拡張する ── 弱点を補う仕組み

3-1　なぜ拡張が必要か

3-2　知識を足す ── RAG・エンベディング・ベクトルDB

3-3　道具を持たせる ── ファンクションコーリング・MCP

3-4　自律的に動かす ── エージェント・ワークフロー・マルチエージェント

3-5　じっくり考えさせる ── CoT・推論モデル

3-6　束ねる ── コンテキストエンジニアリング

第4部　生成AIへの攻撃 ── 外部接続が開く攻撃面

第5部　他モダリティ ── 画像・音声・動画のAI

5-1　画像 ── 拡散モデルとその制御

5-2　音声 ── TTS・STT・音声クローン

5-3　動画 ── text-to-video・フレーム一貫性・パッチ