【2026年版】AIエージェントの精度を上げる方法|❌→⭕指示の実例とコピペできるプロンプトのコツ
AIエージェントに業務を任せても精度が出ない——を解決する全タスク横断のコツを、❌悪い指示→⭕良い指示の実例とコピペできるプロンプトテンプレートで解説。コンテキスト先渡し・出力形式固定・段階承認・Few-shot・検証指示・連鎖エラー対策・ハルシネーション対策・精度の測り方まで網羅した実践ガイド。

「AIエージェントに資料作成やリサーチを任せたのに、期待した精度が出ない」「同じツールなのに、人によって成果物の質がまるで違う」——こうした悩みの大半は、AIモデルの性能ではなく指示(プロンプト)の設計に原因があります。同じAIエージェントでも、何を・どう渡すかで出力の精度は大きく変わりやすいからです。
本記事は精神論を一切排し、全タスクに共通して効く9つの横断原則を、すべて「原則 → なぜ効くか → ❌悪い指示の実例 → ⭕良い指示の実例 → 効果の違い」の形で解説します。さらに、AIエージェント特有の「連鎖エラー」対策、ハルシネーション(幻覚)対策、精度の測り方、そしてコピペして使えるプロンプトテンプレート集まで掲載します。
タスクごとの実現方法を先に知りたい方はAIエージェントに業務を任せる実践ガイドを、AIエージェントの定義から押さえたい方はAIエージェントとは何かの基礎解説をあわせてご覧ください。
結論 — 精度は「モデル選び」より「指示の設計」で決まる
AIエージェントの精度とは、与えたタスクに対してどれだけ正確で、目的に合い、そのまま使える成果物を返すかの度合いです。そしてその精度は、最新モデルを選ぶこと以上に、指示の設計に大きく左右されます。以下が本記事の要点です。
- コンテキストを先に渡す:目的・対象読者・前提・制約・トンマナを冒頭で全部渡すと、推測による外れが減りやすい
- 型を縛る:出力フォーマット・テンプレート・出力例を渡すと、後工程の手直しが減りやすい
- 分解して段階承認:一発で全部やらせず「アウトライン→承認→実行」にすると、多段タスクの精度が安定しやすい
- 検証を指示に組み込む:根拠・出典の提示、自己レビュー、自信のない箇所の明示を指示すると、ハルシネーションに気づきやすくなる
- 受入基準を先に決める:「何をもって合格とするか」を先に言語化すると、精度を測れて改善が回りやすい
これらは特定のツールに依存しない、Claude・ChatGPT・Gemini いずれのエージェントでも共通して使える原則です。順に、❌悪い指示と⭕良い指示の実例で見ていきます。
なお、本記事で「精度」と呼ぶものは、単なる事実の正しさだけを指しません。①事実として正確であること(誤った情報・幻覚がない)、②目的に合っていること(求めている方向性とずれていない)、③そのまま使えること(手直しが最小限で済む)——この3つを満たす度合いを「精度」と捉えます。多くの「精度が出ない」という悩みは、実は①の正確性ではなく、②や③のズレであることが少なくありません。だからこそ、モデルを最新にするより、目的・前提・型を正しく伝える「指示の設計」が効くのです。
なぜAIエージェントは精度が出ないのか — 3つの理由
精度が出ない原因を「AIが賢くないから」で片づけると、改善の打ち手を見失います。実際には、次の3つのどれかであることがほとんどです。
理由① 指示が曖昧で、AIが推測で埋めている
生成AIは確率的に「それらしい」言葉を続ける仕組みのため、目的や前提が欠けたプロンプトでは、足りない情報をAI側の推測で補ってしまいます。具体性に欠ける指示ほど、出力が的外れになったり、事実でない内容を自然な文章として出力する(ハルシネーション)リスクが上がりやすくなります。「いい感じにまとめて」が通じないのは、AIにとって"いい感じ"の基準が定義されていないからです。人間なら「この場の空気」や「相手の好み」を察して補完しますが、AIにはその場の文脈が渡されていない限り判断材料がありません。曖昧さは、AIにとって「自由に解釈してよい」というサインになり、結果として狙いから外れた出力を生みます。
理由② 前提知識・データを渡していない
AIエージェントは、社内の業務ルール・過去の経緯・参照すべき一次データを知りません。これらを渡さないまま「うちの製品の紹介文を書いて」と頼めば、一般論や、最悪の場合は存在しない仕様を書いてしまいます。精度は「AIの賢さ × 渡した情報の質」で決まるため、入力が薄ければ出力も薄くなります。新人に初日から「うちの主力商品を説明する資料を作って」と頼んでも、何も知らなければ的確な資料は作れないのと同じです。違いは、新人なら「これ、教えてもらえますか?」と聞き返してくれるのに対し、AIは多くの場合、知らないまま自信ありげに書き上げてしまう点です。だからこそ、必要な前提を能動的に渡すことが、人間相手以上に重要になります。
理由③ 多段タスクの「連鎖エラー」
AIエージェントは「調べる→整理する→書く→チェックする」のように複数ステップを自律的にこなします。ここに固有の罠があります。仮に各ステップの成功率が90%でも、10ステップ連続すれば最終的な成功率は 0.9 の10乗、つまり約35%まで低下する計算になります。1ステップずつは優秀でも、任せる範囲が広いほど途中の小さな誤りが積み上がり、最終成果物がずれていきます。これは単発のチャットには無い、エージェントならではの難しさです。しかも厄介なことに、序盤のわずかな誤解(たとえば調査対象の取り違え)は、後続のステップがその前提の上で"正しく"作業を進めるほど、誤りが見えにくい形で増幅していきます。最後の成果物だけを見ても、どこで道を外れたのか分からない——これが多段タスクの精度を測りにくくしている根本原因です。だからこそ、後述するように「途中で区切って確認する」ことが決定的に効いてきます。
この3つは、いずれも指示の出し方と任せ方で大きく改善できます。逆に言えば、「AIが使えない」と切り捨ててしまう前に、自分の指示がこの3つの落とし穴にはまっていないかを点検する価値があります。人間の部下に仕事を頼む場面を想像してみてください。目的も背景も告げず「いい感じにやっておいて」と丸投げすれば、優秀な人でも的を外します。AIエージェントも同じで、必要な情報を渡し、適切な大きさに区切って任せれば、精度は見違えるほど安定します。次章から、その具体策を9つの原則として展開します。
精度を上げる9つの横断原則(❌→⭕の指示対比つき)
ここからが本記事の核心です。9つの原則を、すべて同じ型(原則 / なぜ効くか / ❌悪い指示 / ⭕良い指示 / 効果の違い)で解説します。どのタスクにも応用できる横断原則なので、自分の業務に置き換えながら読んでください。なお、9つすべてを一度に完璧に使う必要はありません。まずは効果の大きい原則1〜3(コンテキスト先渡し・出力形式固定・段階承認)から試し、慣れてきたら検証指示や差分修正を足していく——という順で取り入れるのが現実的です。一つひとつは難しい技術ではなく、「人にきちんと仕事を頼むときに自然とやっていること」を、AI向けに明示的に行うだけです。
原則1 — コンテキストを先に全部渡す
原則:目的・対象読者・前提・制約・トンマナ(トーン&マナー)を、依頼の冒頭でまとめて渡す。
なぜ効くか:AIは渡されていない情報を推測で埋めます。先に文脈を固定すれば、推測の余地が減り、最初の出力から狙いに近づきやすくなります。後出しで条件を足すより、初手で渡すほうが手戻りが少なくなります。
❌悪い指示:
新サービスの紹介文を書いて。
⭕良い指示:
新サービスの紹介文を書いてください。
【目的】展示会で配るチラシに載せ、来場者に問い合わせしてもらう
【対象読者】製造業の情報システム部門の課長クラス。AIには関心があるが詳しくない
【前提】サービス名は「○○」、主な機能は在庫の需要予測。導入は最短1か月
【制約】専門用語は避ける。300字以内。誇張表現(業界No.1等)は使わない
【トンマナ】堅実で信頼感のある語り口。煽らない
効果の違い:❌は「誰に・何のために・どんな制約で」が無いため、一般的で当たり障りのない文章になり、ほぼ書き直しになります。⭕は最初の出力が実務にそのまま近づき、修正は微調整で済みやすくなります。コンテキスト設計をさらに深く学びたい方はコンテキストエンジニアリングの解説を参照してください。
現場のヒント:渡すべきコンテキストが毎回同じなら、定型の前置きをテキストとして保存しておき、依頼のたびに先頭へ貼り付ける運用にすると、抜け漏れがなくなります。特に「制約」と「トンマナ」は、人間同士なら暗黙に共有している部分なので忘れがちです。「言わなくても分かるだろう」と思った前提こそ、AIには明示的に渡す——これが精度を分ける最初の分岐点になります。なお、コンテキストは多ければよいわけではありません。タスクに無関係な情報を大量に詰め込むと、かえって重要な指示が埋もれます(後述の原則9)。「目的の達成に必要な情報を、過不足なく」が原則です。
原則2 — 出力フォーマットを固定する
原則:出力の「型」をテンプレート・スキーマ・出力例で縛る。
なぜ効くか:AIは与えられた構造を模倣します。型を先に渡せば、毎回そろった形式で返ってくるため、後工程(資料への転記、システム取り込み、比較)が一気に楽になります。
❌悪い指示:
競合5社を調べて教えて。
⭕良い指示:
競合5社を調査し、必ず以下の表形式(Markdown)で出力してください。
列は「企業名|主力製品|想定価格帯|強み(30字以内)|弱み(30字以内)」。
各セルは簡潔に。価格が不明な場合は「公開情報なし」と明記し、推測で
数値を埋めないでください。
効果の違い:❌は段落の説明文で返り、5社を見比べにくく、自分で表に組み直す手間が発生します。⭕は最初から比較可能な表で返り、「不明なら不明と書く」ルールでハルシネーションも抑えやすくなります。
現場のヒント:フォーマット指定は、後工程がシステムであるほど効果が大きくなります。たとえば結果をスプレッドシートに貼るならCSV形式、別のプログラムに渡すならJSON形式を指定すると、コピー&ペーストだけで連携でき、整形の手間が消えます。さらに「文字数の上限」「使ってよい記号」「箇条書きは最大5項目まで」といった細部まで型を縛ると、出力のばらつきが小さくなり、複数回実行しても安定した成果物が得られます。型を一度作れば、それ自体が再利用可能な資産になります。
原則3 — タスクを分解し、段階承認する
原則:大きな依頼を一発で全部やらせず、「①アウトライン→②あなたが承認→③本文」のように段階に分ける。
なぜ効くか:前章の連鎖エラー(0.9の10乗で約35%)を断ち切るのが目的です。途中に人間の承認ポイントを挟めば、初期の方向性のズレを早期に直せて、誤りが下流まで積み上がるのを防げます。
❌悪い指示:
新規事業の事業計画書を一式作って。
⭕良い指示:
新規事業の事業計画書を作成します。一度に全部書かず、次の順で進めてください。
ステップ1:まず章立て(見出しレベル)だけを提案してください。私が確認します。
(私がOKを出してから)
ステップ2:各章の要点を箇条書きで。ここでも私が確認します。
ステップ3:承認した構成に沿って本文を執筆。
各ステップの終わりに「次に進んでよいか」を必ず私に確認してください。
効果の違い:❌は方向性がずれたまま一式が完成し、全部を直すことになります。⭕は最も安い段階(章立て)でズレを正せるため、最終的な手戻り総量が小さくなります。タスクの分解とツールの使い分けはAIエージェント実践ガイドで体系的に解説しています。
現場のヒント:段階承認は「面倒で遅くなる」と感じるかもしれませんが、実際は逆です。全部できあがってからの全面的なやり直しより、早い段階での小さな軌道修正のほうが、トータルの時間は短くなります。承認ポイントを置く目安は「ここで方向が決まる」という分岐点です。資料なら章立て、調査なら調べる対象と観点、データ処理なら抽出条件——後戻りのコストが跳ね上がる手前に、必ず一度人間の目を入れます。慣れてきたら、信頼できる範囲は承認を省いて任せ、リスクの高い工程だけ承認を残す、とメリハリをつけると効率が上がります。
原則4 — Few-shot(良い例・悪い例を見せる)
原則:望む成果物の「良い例」、できれば「悪い例」も1〜2個見せてから本番を依頼する。
なぜ効くか:AIは言葉での説明より、具体例から型を学ぶのが得意です。「丁寧に」と100字で説明するより、丁寧な文章の実例を1つ見せるほうが、狙いが正確に伝わりやすくなります。
❌悪い指示:
問い合わせへの返信を丁寧な感じで書いて。
⭕良い指示:
顧客からの問い合わせに返信します。下の【良い例】のトーンと構成に
そろえて書いてください。
【良い例】
平素より格別のお引き立てを賜り、誠にありがとうございます。
お問い合わせいただいた件につきまして、以下のとおりご案内いたします。
(用件)
ご不明な点がございましたら、お気軽にお申し付けください。
【避けたい例】
お世話になります。その件ですが、たぶん大丈夫だと思います。
【今回の用件】納期を1週間延長したい旨を、お詫びとともに伝える
効果の違い:❌の「丁寧な感じ」は解釈の幅が広く、人によって出力がぶれます。⭕は良い例・悪い例の対比で基準が一意に決まり、トーンが安定します。
現場のヒント:良い例は、過去に自分やチームが実際に作った「これは完璧だった」という成果物を使うのが一番です。理想形が手元にあるなら、それを1〜2点見せるだけで、長い説明文より正確に意図が伝わります。さらに効くのが「悪い例」の併記です。人間は「やってほしいこと」より「やってほしくないこと」を言語化するのが苦手なので、避けたいトーンの実例を1つ添えると、AIが踏んではいけない地雷を明確に避けられます。良い例が3つ以上あると、AIはそこに共通するパターンを抽出してくれるため、より安定した再現が期待できます。
原則5 — 検証を指示に組み込む
原則:「根拠・出典を示す」「自分で見直す」「自信のない箇所を明示する」を指示そのものに書く。
なぜ効くか:AIは黙っていると、誤りも正解と同じ自信で出力します。検証行動を指示に組み込めば、AI自身に怪しい箇所を申告させたり、出力前にセルフチェックさせたりでき、人間のレビュー負荷が下がります。
❌悪い指示:
この市場の規模と成長率を教えて。
⭕良い指示:
この市場の規模と成長率を回答してください。その際、
1. 数値には必ず出典(調査名・発行機関・発行年)を併記してください。
2. 出典を確認できない数値は「確証なし」と明記し、推測で数字を作らないでください。
3. 回答の最後に「自信が低い箇所」を3点まで挙げてください。
効果の違い:❌はもっともらしい数値が出典なしで並び、どれが事実か判別できません。⭕は出典付き・不確実箇所の自己申告付きで返るため、人間が重点的に確認すべき箇所が一目で分かります。なお、2026年5月公開のClaude Opus 4.8では、早期テスターの報告として「裏付けのない主張をしにくくなった」と紹介されていますが、モデル側の改善に任せきりにせず、検証は指示で明示するのが安全です。
現場のヒント:検証指示の中でも特に効果が高いのが「自信が低い箇所を自己申告させる」一手です。AIは通常、正しい部分も怪しい部分も同じ口調で断言してしまうため、どこを疑えばいいか人間には分かりません。「最後に自信のない箇所を3点挙げて」と添えるだけで、AI自身がリスクの高い箇所をマーキングしてくれ、レビューの的が絞れます。さらに「別の専門家になったつもりで、今の回答の弱点を批判して」と二段階で自己批判させると、最初の回答では見落とされた誤りが浮かび上がることがあります。検証を1ステップ追加するコストより、誤った成果物を外に出してしまうコストのほうがはるかに大きい、と考えてください。
原則6 — 正しいデータ・ツールを与える
原則:最新の一次ソース、参照ファイルの添付、計算はコード実行——「AIに思い出させる」のではなく「正しい材料を渡す」。
なぜ効くか:ハルシネーションの多くは、AIが知らないことを記憶から無理に答えようとして起こります。与えた資料だけを根拠に答えさせる(グラウンディング)、計算はコードで実行させる、といった形で外部の正解源につなぐと、幻覚を構造的に減らせます。
❌悪い指示:
うちの先月の売上、前年比何%成長か計算して。
⭕良い指示:
添付のCSV(月次売上)を読み込み、前年同月比の成長率を計算してください。
- 暗算ではなく、必ずコード(表計算)で算出してください。
- 計算に使った数式と、対象にした行を明示してください。
- CSVに無い月は計算対象から外し、欠損として報告してください。
効果の違い:❌は数値を渡していないため、AIが架空の売上を前提に"それっぽい"成長率を出すリスクがあります。⭕は実データを根拠にコードで計算させるため、検算可能で再現性のある数値になります。
現場のヒント:「AIに計算させると間違える」という体感の多くは、暗算(言語モデルとしての推論)で数字を扱わせていることが原因です。四則演算・集計・日付計算のように答えが一意に決まる処理は、AIに"考えさせる"のではなく、コード実行やツールに"やらせる"のが鉄則です。同様に、最新の市況・為替・製品仕様のように刻々と変わる情報は、内部知識から引き出させず、検索ツールやファイル添付で外部から与えます。「AIの記憶を信用する場面」と「外部の正解源につなぐ場面」を切り分けるだけで、ハルシネーションの大きな部分は構造的に消せます。
原則7 — 役割と評価基準を与える
原則:「〜の専門家として」と役割を与え、さらに「〜の観点でレビューして」と評価軸を渡す。
なぜ効くか:役割を与えると、その分野に適した語彙・視点・チェック項目が引き出されやすくなります。評価基準まで渡せば、AIが自分の出力をその物差しで点検するため、抜け漏れが減ります。
❌悪い指示:
この契約書、問題ないか見て。
⭕良い指示:
あなたはIT業務委託契約を多数レビューしてきた企業法務担当です。
発注者側の立場で、以下の契約書を次の4観点からレビューしてください。
観点:①知的財産権の帰属 ②損害賠償の上限 ③再委託の制限 ④解除条件
各観点について「リスクの有無→該当条項→修正提案」の順に。
最後に、優先的に交渉すべき条項を3つ挙げてください。
(契約書本文を貼付)
効果の違い:❌は「特に問題ないと思います」のような浅い回答に流れがちです。⭕は専門家視点と明確な評価軸により、実務に直結する指摘が構造化されて返ります。役割設定を含むプロンプト技法はプロンプトエンジニアリング実践ガイドで詳しく扱っています。
現場のヒント:役割は抽象的なほど効果が薄れます。「マーケター」より「BtoB SaaSのコンテンツマーケティングを5年担当し、年間100本の記事を企画してきた担当者」のように、経験・領域・立場まで具体化すると、回答の解像度が上がります。そして見落とされがちなのが「評価基準」をセットで渡すことです。役割だけでは「どの観点で見るか」がAI任せになりますが、チェックすべき観点を明示すれば、その物差しで網羅的に点検してくれます。レビューを依頼するときは「誰として・何の観点で・どんな出力形式で」の3点をそろえると、毎回安定した指摘が得られます。
原則8 — 反復前提で差分指示する
原則:一発完璧を狙わず、「ここをこう直して」と差分で詰める前提で進める。
なぜ効くか:最初の出力を叩き台と割り切り、具体的な修正指示を重ねるほうが、結果的に速く高品質に到達しやすくなります。曖昧な「もっと良くして」ではなく、変更点を1つずつ明確にするのがコツです。
❌悪い指示(やり直しループ):
(1回目の出力に対して)なんか違う。もっといい感じにして。
⭕良い指示(差分ループ):
今の出力をベースに、次の3点だけ直してください。他は変えないでください。
1. 2段落目が冗長です。3文以内に圧縮してください。
2. 専門用語「スループット」を、注釈なしで分かる平易な表現に置換。
3. 結論を冒頭に移動し、理由は後ろに回してください。
効果の違い:❌は「いい感じ」の基準が無く、毎回ガラッと変わって収束しません。⭕は変更点が限定されるため、良い部分を保ったまま着実に改善でき、少ない往復で仕上がります。
現場のヒント:差分指示のコツは「変えてほしい箇所」と同じくらい「変えないでほしい箇所」を明示することです。「2段落目だけ直して、他はそのまま」と言わないと、AIは気を利かせて全体を書き換え、せっかく良かった部分まで崩してしまうことがあります。また、一度の往復で複数の修正を頼むより、関連する2〜3点に絞るほうが、それぞれの指示が正確に反映されます。最初の出力は60点で構いません。完璧な一発を狙って巨大なプロンプトを練り込むより、そこそこの叩き台を素早く出して差分で磨くほうが、結果的に速く高い完成度に到達します。
原則9 — コンテキストを汚さない(1スレッド1目的)
原則:1つの会話スレッドには1つの目的だけ。長すぎる履歴や無関係な情報を持ち込まない。
なぜ効くか:会話が長くなるほど、本来重要な指示が大量の履歴に埋もれ、AIが何を優先すべきか分かりにくくなります(文脈の希釈・ノイズ支配)。目的の違うタスクを同じスレッドで続けると、前の話に引きずられて精度が落ちやすくなります。
❌悪い使い方:
(求人票を作る会話の途中で)ついでに来期の予算案も考えて。
そういえばさっきの議事録も要約しておいて。あと採用の話に戻るけど…
⭕良い使い方:
(求人票はこのスレッドで完結させ、)
予算案・議事録要約は、それぞれ別の新しいスレッドを立てて依頼する。
長い会話で文脈が散らかってきたら、
「ここまでの確定事項だけを箇条書きで要約して」と要約させ、
その要約を新スレッドに貼って続きを始める。
効果の違い:❌は複数の目的が混ざり、AIがどれに集中すべきか判断できず、すべての精度が下がります。⭕は1スレッド1目的を保ち、必要なら要約で文脈を引き継ぐため、終始シャープな出力を維持しやすくなります。これは「会話が長くなると精度が落ちる」という体感の正体でもあります。
現場のヒント:「もったいないから1つのスレッドで全部やろう」という発想こそが精度を下げます。スレッドを新しく立てるコストはほぼゼロですが、文脈が汚れたスレッドで作業を続けるコストは、見えにくいぶん大きくなります。目安として、話題が変わったら新スレッド、出力の品質が落ちてきたと感じたら一度要約して仕切り直し、と覚えておくとよいでしょう。要約を引き継ぐ際は「確定した結論・決めたルール・残っているToDo」の3点に絞ると、必要な文脈だけをクリーンに持ち越せます。コンテキストの管理手法をさらに深めたい方はコンテキストエンジニアリングの解説が参考になります。
多段タスクの「連鎖エラー」を防ぐ実践手順
原則3でも触れた連鎖エラーは、AIエージェントに広い範囲を任せるほど顕在化します。前述の「90%×10ステップで約35%」が示すのは、「精度はステップ数とともに指数的に落ちうる」という事実です。実務では次の3点をセットで使うと、これを大きく緩和できます。
- 分解する:1回の依頼に詰め込むステップ数を減らす。長い自律実行ほど誤りが積み上がるため、意図的に区切る。
- 段階承認を挟む:方向性が決まる早い段階(章立て・調査方針・データの抽出条件など)で人間が確認する。安いうちにズレを正す。
- 各ステップに検証を埋める:「このステップの出力を、次に進む前に自分でチェックして」と指示し、各工程の品質を担保してから先へ進ませる。
(連鎖エラーを抑える依頼の型)
このタスクは複数ステップに分けて進めてください。
各ステップの終わりに、(a) その出力の要約、(b) 自信が低い点、(c) 次に進んでよいかの確認、
の3点を必ず提示してください。私の承認なしに次のステップへ進まないでください。
もう一つ有効なのが、各ステップの出力を「次のステップの入力」として明示的に受け渡すことです。AIに長い処理を一気に任せると、序盤で得た情報を終盤までに見失うことがあります。「ステップ1で抽出した項目を、ステップ2の冒頭で再掲してから処理を続けて」と指示すると、文脈が薄れずに引き継がれ、後半の精度低下を防げます。
「どこまで任せ、どこで人が確認するか」の線引きが、エージェント活用の精度を左右します。任せる範囲が広いほど効率は上がりますが、その分だけ連鎖エラーのリスクも増える——このトレードオフを意識し、重要度の高い業務ほど承認ポイントを厚く、定型で低リスクな業務は思い切って任せる、とメリハリをつけるのが現実的です。任せ方の全体設計はAIエージェント実践ガイドを参照してください。
ハルシネーションを防ぐ実践3本柱
ハルシネーションとは、AIが事実でない情報を、もっともらしい自然な文章として出力してしまう現象です。完全にゼロにはできませんが、次の3本柱で発生確率と被害を大きく下げられます。
1. グラウンディング(与えた資料だけで答えさせる):AIの記憶に頼らせず、「添付資料に書かれている範囲だけで回答し、資料に無いことは『記載なし』と答えて」と縛る。社内文書やRAG(参照データ連携)と組み合わせると効果が高まります。
以下の資料【添付】のみを根拠に回答してください。
資料に記載のない事項は、推測せず「資料に記載なし」と明記してください。
2. 根拠・出典の明示を要求する:原則5の通り、数値や事実には出典の併記を求め、確認できないものは「確証なし」と申告させる。出典を書けない主張は疑う、という運用に変わります。
3. 計算・検索はツールに任せる:原則6の通り、暗算ではなくコード実行で計算させ、最新情報はWeb検索ツールで取得させる。「思い出す」ではなく「調べる・計算する」に寄せるほど、幻覚は減ります。
なぜハルシネーションが起きるのかを理解しておくと、対策の納得感が増します。生成AIは「次に来る確率が高い言葉」をつないで文章を作る仕組みのため、知らないことを聞かれても「分かりません」とは言わず、それらしい言葉で空欄を埋めてしまいます。つまり幻覚は故障ではなく、仕組み上ある程度避けられない性質です。だからこそ「知らないことを推測で埋めさせない」設計——資料の範囲に縛る、出典を求める、外部ツールで調べさせる——が本質的な対策になります。
加えて、最終的な事実確認は人間が行うダブルチェックが前提です。特に対外的に出す数値・固有名詞・法的な記述は、AIの出力をそのまま信用せず、一次ソースで裏取りしてください。AIを「答えを出す機械」ではなく「下調べと下書きを高速にこなす優秀なアシスタント」と捉え、最終責任は人間が持つ——この役割分担が、精度と安全性を両立させる現実的な落としどころです。
精度を「測る」考え方 — 受入基準とサンプル合否判定
「精度が上がった気がする」では改善は回りません。感覚的な評価は、その日の気分や、たまたま当たった一例に引きずられます。精度を上げるには、まず測れる状態を作ることが先決です。測れないものは改善できない——これは品質管理の鉄則であり、AI活用でも同じです。とりわけAIエージェントを定常業務に組み込むなら、「うまくいっている/いない」を主観で判断するのではなく、合否を記録して数字で追える仕組みが欠かせません。
① 受入基準を先に決める:作業を頼む前に「何をもって合格とするか」を言語化します。たとえば資料作成なら「指定の5項目をすべて含む」「誤字ゼロ」「指定トーンに合致」「出典がすべて付いている」など、後からYES/NOで判定できる形にします。基準が先にあれば、AIにもそれを渡せて、出力が基準に寄ります。
② サンプルで合否判定する:エージェントに繰り返しタスクを任せるなら、毎回全部を人手で精査するのは現実的ではありません。一般的な運用として、週に一度など定期的に出力をいくつかサンプリングし、受入基準に照らして合否を記録します。合格率の推移で、精度が上がっているか下がっているかが見えるようになります。
③ 失敗を指示書に還元する:不合格だったケースは「なぜ失敗したか」を特定し、その対策を指示テンプレートやガイドラインに追記します。失敗→原因特定→指示の改善、というループを回すことで、同じ失敗が再発しにくくなり、精度が積み上がっていきます。
(受入基準を先に渡す型)
この作業の合格条件は次の4点です。出力前に自分でこの4点を満たしているか
チェックし、満たせていない項目があれば、その旨を添えて報告してください。
[ ] 指定の5項目をすべて含む
[ ] 数値にはすべて出典が付いている
[ ] 誇張表現を使っていない
[ ] 300字以内
コピペできるプロンプトテンプレート集
ここまでの原則を、そのまま使えるテンプレートにまとめました。【 】を自分の状況に置き換えて使ってください。
A. コンテキスト先渡しテンプレート(原則1)
以下の条件で【成果物】を作成してください。
【目的】何のために使うか
【対象読者】誰が読むか(職種・知識レベル)
【前提】AIが知らない社内事情・固有情報
【制約】文字数/使ってはいけない表現/守るべきルール
【トンマナ】語り口・雰囲気
【参考】良い例があれば添付
B. 出力フォーマット固定テンプレート(原則2)
出力は必ず次の形式に従ってください。
形式:【表/JSON/箇条書き 等を指定】
項目:【列名や階層を列挙】
不明な値は推測せず「不明」と明記してください。
C. 段階承認テンプレート(原則3)
このタスクは段階的に進めます。
ステップ1:【最初に出してほしいもの(例:構成案)】だけを出し、私の確認を待つ。
ステップ2:承認後に【次の成果物】。
各ステップの最後に「次に進んでよいか」を必ず確認してください。
D. 自己レビュー・検証テンプレート(原則5)
回答の前に、次の観点で自己チェックしてから出力してください。
・事実/数値に出典を付けたか(無いものは「確証なし」と明記)
・指示の制約をすべて満たしているか
出力の最後に「自信が低い箇所」を3点まで挙げてください。
E. 差分修正テンプレート(原則8)
今の出力をベースに、次の点【だけ】を修正してください。他は変更しないこと。
1. 【修正箇所】を【どう直すか】
2. 【修正箇所】を【どう直すか】
これらのテンプレートは、自分の業務に合わせて一度カスタマイズし、よく使うものをメモやドキュメントに保存しておくのがおすすめです。毎回ゼロから指示文を書くより、保存した型を呼び出して【 】を埋めるほうが、速く・安定した精度で成果物が得られます。これらはプロンプトエンジニアリング実践ガイドの部門別テンプレートと組み合わせると、さらに業務にフィットします。
AIエージェントが苦手・任せるべきでないタスク
精度を上げる努力と同じくらい重要なのが、「そもそもAIエージェントに向かないタスクを見極める」ことです。次のような領域は、現状では人間の関与を前提にすべきです。
| 苦手・任せるべきでない領域 | 理由 | 現実的な向き合い方 |
|---|---|---|
| 100%の正確性が必須(会計の確定値・医療診断の最終判断・法的助言の確定) | 確率的に動くため、まれな誤りをゼロにできない | AIは下書き・候補出しに留め、最終判断は人間と専門家が行う |
| 法的・倫理的な最終責任を伴う判断 | 責任の所在をAIに帰属できない | 意思決定の補助に使い、決定と責任は人間が負う |
| 暗黙知・社内の機微な文脈に強く依存する業務 | 言語化されていない前提をAIが知り得ない | 前提を文書化して渡す。渡せないものは任せない |
| 最新の生データにリアルタイム依存する判断 | 学習時点以降の情報を内部知識として持たない | 検索・データ連携で外部から最新情報を与える |
| 機密情報・個人情報の取り扱い | 入力データの管理・コンプライアンス上のリスク | 利用ポリシーを定め、入れてよい情報を線引きする |
ここで重要なのは、「苦手」は「使えない」とイコールではないという点です。たとえば法的な最終判断はAIに任せられませんが、契約書のリスク箇所を洗い出す下調べなら大幅な時短になります。医療診断の確定はできませんが、問診内容の整理や候補の列挙は支援できます。つまり、同じ業務でも「最終判断・確定処理」は人間、「下調べ・候補出し・下書き」はAI、と工程を分解して任せれば、苦手領域でも価値を引き出せます。
「できないこと」を正直に把握し、向くタスクから着実に任せていくのが、結果的に最短で精度の高い活用につながります。背伸びして100%の自動化を狙うより、人間とAIの役割分担を設計するほうが、トータルの成果は大きくなります。苦手領域も含めたタスク別の判断はAIエージェント実践ガイドで詳説しています。
タスク別・9原則の当てはめ方(3つの実例)
9つの原則は、すべてのタスクに同じ重みで効くわけではありません。タスクの性質によって「特に効く原則」が変わります。代表的な3タスクで、どの原則を優先的に使うかを見ていきましょう。
リサーチ・情報収集を任せる場合
リサーチは、ハルシネーションが最も起きやすいタスクです。AIが「それらしい出典」や「存在しない統計」を作ってしまうと、気づかずに意思決定に使ってしまう危険があります。ここで効くのは、**原則5(検証指示)と原則6(正しいデータ・ツール)です。「数値には必ず出典を併記し、確認できないものは確証なしと明記する」「最新情報は検索ツールで取得し、内部知識だけで答えない」を指示に組み込みます。さらに原則2(出力形式固定)**で「主張|根拠|出典URL|信頼度」の表形式に縛ると、後から裏取りすべき箇所が一目で分かります。リサーチの成果物は、そのまま信じるのではなく「人間が検証するための材料」と位置づけるのが安全です。
資料・ドキュメントを作らせる場合
資料作成で精度を分けるのは、**原則1(コンテキスト先渡し)と原則4(Few-shot)**です。「誰に・何のために・どんなトーンで」を渡さなければ、当たり障りのない一般論しか出てきません。過去に評価の高かった資料を1〜2点見せれば、自社の型に沿った下書きが一発で近づきます。そして資料は分量が多くなりがちなので、**原則3(段階承認)**で「まず構成案→承認→各セクション」と分けると、方向性のズレを早期に正せます。完成形をいきなり狙わず、**原則8(差分指示)**で「この章だけ簡潔に」と磨いていくのが結局は速い、というのも資料作成で実感しやすいポイントです。
データ分析・集計を任せる場合
数値を扱うタスクでは、原則6(計算はコード実行に)が決定的です。暗算で集計させると、桁の取り違えや存在しない数値の混入が起こります。「添付データを読み込み、必ずコードで計算し、使った数式と対象行を明示する」と指示すれば、検算可能な結果になります。加えて**原則5(検証指示)**で「データに無い期間は欠損として報告し、推測で埋めない」と縛ると、勝手な補完を防げます。分析結果を経営判断に使うなら、**原則7(評価基準)**で「この分析の前提と限界も併記して」と添えると、数字の独り歩きを避けられます。
このように、タスクの「最も壊れやすいポイント」を見極めて、そこに効く原則を厚く適用するのが実践のコツです。全タスクに共通する任せ方の設計はAIエージェント実践ガイドで体系的に解説しています。
まとめ — 精度は「賢いAI」ではなく「賢い任せ方」で上がる
AIエージェントの精度が出ないとき、原因の多くはモデルではなく指示と任せ方にあります。本記事の9原則——コンテキスト先渡し/出力形式固定/段階承認/Few-shot/検証指示/正しいデータ・ツール/役割と評価基準/差分指示/コンテキストを汚さない——は、どれも特別なツールを必要とせず、今日のプロンプトからすぐ試せます。
そして、❌悪い指示と⭕良い指示の差は、才能ではなく「型を知っているか」の差です。受入基準を先に決め、サンプルで測り、失敗を指示に還元するループを回せば、精度は組織のスキルとして積み上がっていきます。重要なのは、効果の出た指示を「個人のコツ」で終わらせず、テンプレートとして共有し「組織の資産」にすることです。そうすれば、誰が使っても一定以上の精度が出る状態に近づき、AI活用が一部の得意な人だけのものでなくなります。まずは1つのタスクで、本記事のテンプレートを使って❌→⭕の違いを体感し、うまくいった指示を保存していく——この小さな積み重ねが、半年後の活用度を大きく変えます。
koromoは、生成AI・AIエージェントを業務に組み込む生成AI業務効率化支援や、AI活用の戦略設計を担うCAIO代行を提供しています。「どの業務をどう任せ、どんなガードレールで精度を担保するか」でお悩みの方は、お気軽にお問い合わせください。AIエージェントの全体像は実践ガイド、業務効率化の具体事例は生成AI業務効率化事例もあわせてご覧ください。
よくある質問(FAQ)
Q1. AIエージェントの精度が出ない主な原因は何ですか?
A. 多くは「①指示が曖昧でAIが推測で埋めている」「②前提知識・参照データを渡していない」「③多段タスクで誤りが積み上がる連鎖エラー」の3つです。仮に各ステップの成功率が90%でも、10ステップ連続すれば最終成功率は0.9の10乗で約35%まで下がる計算になります。いずれもモデルの賢さではなく、指示の出し方と任せ方の問題で、本記事の9原則で改善できます。
Q2. AI・プロンプトの精度を上げる一番のコツは何ですか?
A. 最も効果が大きいのは「コンテキストを先に全部渡す」ことです。目的・対象読者・前提・制約・トンマナを依頼の冒頭でまとめて渡すと、AIが推測で埋める余地が減り、最初の出力から狙いに近づきやすくなります。次いで「出力フォーマットを固定する」「良い例を見せる(Few-shot)」が即効性の高いコツです。
Q3. AIエージェントのハルシネーション(幻覚)を防ぐにはどうすればいいですか?
A. 実践的には3本柱が有効です。①グラウンディング(与えた資料の範囲だけで答えさせ、無いことは「記載なし」と言わせる)、②根拠・出典の明示を要求し確認できない数値は「確証なし」と申告させる、③計算はコード実行・最新情報は検索ツールに任せる、です。完全にはゼロにできないため、対外的に出す数値や固有名詞は一次ソースで人間がダブルチェックすることが前提です。
Q4. AIエージェントに任せてはいけない・苦手なタスクは何ですか?
A. 100%の正確性が求められる確定処理(会計の確定値・医療診断の最終判断・確定的な法的助言)、法的・倫理的な最終責任を伴う判断、暗黙知に強く依存する業務、最新の生データにリアルタイム依存する判断、機密情報の取り扱いなどです。これらはAIを下書き・候補出しに留め、最終判断と責任は人間が負う使い方が現実的です。
Q5. AIの精度はどうやって測ればいいですか?
A. まず作業を頼む前に「何をもって合格とするか」の受入基準を、後からYES/NOで判定できる形で言語化します(例:指定項目を全て含む/出典が全て付いている/誤字ゼロ)。繰り返しタスクなら、定期的に出力をサンプリングして受入基準で合否を記録し、合格率の推移で精度を把握します。不合格は原因を特定して指示テンプレートに還元すると、再発が減り精度が積み上がります。
Q6. 会話が長くなると精度が落ちるのはなぜですか?対処法は?
A. 会話が長くなるほど、重要な指示が大量の履歴に埋もれ、AIが優先順位を判断しにくくなるためです(文脈の希釈)。対処法は「1スレッド1目的」を徹底すること。目的が変わるなら新しいスレッドを立て、文脈が散らかってきたら「ここまでの確定事項だけ要約して」と要約させ、その要約を新スレッドに引き継いで続けます。
Q7. ChatGPT・Claude・Geminiのどれが精度が高いですか?
A. 2026年6月時点ではいずれも世代を重ねて高性能化しており、タスクによって得意分野が異なるため一概に順位は付けられません。各社とも新しい世代でエージェント的なタスクの性能向上をうたっていますが、実務では「最新世代のモデルを選ぶこと」より「本記事の9原則で指示を設計すること」のほうが、精度への影響が大きいのが実情です。自社タスクで数件試して比較するのが確実です。


