AIエージェント開発の外注ガイド|2026年版パートナー選定7基準・費用相場・SDK/MCP実績比較
AIエージェント開発の外注先選びに必要な情報を、Claude Agent SDK / OpenAI Agents SDK / LangGraph 等のSDK実績マトリクス、エージェント種別×開発期間×費用、選定7基準、セキュリティ評価軸、失敗パターン7類型まで2026年最新の一次ソースで網羅。CTO・AI推進担当・事業責任者向け発注ガイド。

「AIエージェントを自社プロダクトに組み込みたい」「業務をエージェントで自動化したい」── そんな声が経営会議のテーブルに乗る頻度が、2026年に入ってから明らかに増えました。一方で、社内に Claude Agent SDK や OpenAI Agents SDK、LangGraph を本番運用まで持っていける人材を揃えている企業はまだ少数です。結果として、AIエージェント開発を 外部の専門会社に外注する という選択肢が現実解として浮上しています。
ただし、「AI開発できます」と謳う会社は急増したものの、エージェント固有の評価軸 ── SDK 実績、MCP(Model Context Protocol)対応、プロンプトインジェクション耐性、Human-in-the-Loop 設計、観測性 ── を発注側がきちんと問えなければ、Gartner が「2027年末までに少なくとも 40% が中止される」と予測する agentic AI プロジェクトの一つに加わってしまいかねません。
本記事は、AIエージェント開発の外注を検討する CTO・VPoE、AI 推進担当の経営層、プロダクトに AI エージェントを組み込みたい事業責任者に向けて、2026 年時点の一次ソースを元にした 発注ガイド をまとめたものです。SDK 実績マトリクス、エージェント種別 × 開発期間 × 費用、選定 7 基準、セキュリティ評価軸、失敗パターン 7 類型を一気通貫で整理します。
この記事で分かること
- AIエージェントを外注すべき理由と、2026年の市場・失敗データ
- エージェント種別 × 開発期間 × 費用マトリクス(4 段階)
- Claude Agent SDK / OpenAI Agents SDK / LangGraph / CrewAI / AutoGen の SDK 実績マトリクス
- MCP 対応力を発注時に問うための評価チェックリスト
- パートナー選定 7 基準と、契約・進行のチェックリスト
- 失敗パターン 7 類型と、現場で機能する回避策
AIエージェントを外注すべき理由 — 2026年の市場と内製の壁
AIエージェント開発を外部に委ねるかどうかを判断する前に、いま市場で何が起きているかを把握しておく必要があります。一次ソースのデータは、楽観論と慎重論のどちらにも傾きうる景色を描いています。
市場は急拡大、ただし期待値は調整局面
Gartner が 2025 年 8 月に公開した Hype Cycle for Emerging Technologies では、AI エージェントが Peak of Inflated Expectations(過剰期待のピーク)に登場しました。同社は 2025 年 6 月のプレスリリースで「2027 年末までに少なくとも 40% の agentic AI プロジェクトが中止される」と予測しています。理由は明快で、コスト超過、ROI 不明、リスク制御不足の 3 点に集約されます。
一方で同社は、2028 年までに 企業の業務判断の 15% が自律的に agentic AI で実行され、エンタープライズアプリの 33% に agentic AI が搭載される という長期予測も提示しています。短期では期待値の調整、中長期では確実な浸透 ── これが 2026 年の市場の姿です。
MIT Sloan Management Review が公開している agentic AI 関連の研究や、関連業界レポートでも、失敗構造を裏付ける数値が積み重なってきています。企業 AI プロジェクトの約 6 割で、承認時に提示された ROI 見積もりが導入後に十分に計測されていないという報告例があります。また、RAG(Retrieval-Augmented Generation)プロジェクトの本番運用コストが PoC 想定を大幅に上回るケース、PoC 承認から停止までが 1 年強に終わるケースも報告されています。期待過剰がそのまま失敗に直結している構図です。
なぜ内製は壁にぶつかるのか
これらのデータが示すのは、「AIエージェントを動かす」ことと「本番運用に耐えるエージェントを作る」ことの間には、想像以上の距離があるという事実です。社内でプロトタイプは作れても、本番に持っていく段階で多くの企業が次の 3 つの壁にぶつかります。
SDK 経験の壁。Claude Agent SDK、OpenAI Agents SDK、LangGraph、CrewAI、AutoGen ── 2026 年時点で本番運用に値する SDK・フレームワークだけでも 5 種類以上が並走しています。それぞれにエージェントループ、ツール呼び出し、コンテキスト管理、Human-in-the-Loop の設計思想があり、選定を誤ると後工程の負債が雪だるま式に膨らみます。
MCP / Tool Use 実装の壁。エージェントが価値を生むのは、外部システムにアクセスして実世界に作用したときです。MCP は 2024 年 11 月に Anthropic が公開して以降、2025 年 3 月の OpenAI 採用を経て、2026 年時点では数千規模の MCP サーバーが公開され、開発ツール・ビジネス SaaS の両領域で de facto 標準としての地位を固めつつあります。MCP 経由で社内システムを安全に繋ぎ込む設計は、従来の API 連携とは別物のスキルセットを要求します。
観測性・運用の壁。エージェントは確率的に動きます。決定論的なシステムなら成立した「テストが通ったから動く」という前提が成立しません。トレーシング、評価データセット、Human-in-the-Loop の差し戻しフロー、モデルバージョンアップへの追随 ── LLMOps と呼ばれる運用基盤を整えないまま本番投入すると、リリース直後にハルシネーションとレイテンシで動かなくなります。詳しくは LLMOps 実践ガイドで扱っています。
「内製 × 外注ハイブリッド」が主流に
これらの壁を一社で乗り越えるのは現実的ではないため、2026 年現在の標準解は 「内製 × 外注のハイブリッド」 です。ドメイン知識・データ・最終意思決定は社内、SDK 選定・MCP 実装・観測性基盤・初期の本番化は外注パートナー ── という分担で、外注を「丸投げ」ではなく「並走」として使う企業が増えています。
メンバーズや MiDATA など、国内のメディアが繰り返し警鐘を鳴らしている「丸投げの罠」を避けつつ、Claude Agent SDK のような最新フレームワークを使いこなすには、この役割分担が事実上の必須要件になりつつあります。Anthropic が 2026 年に公開した Claude Managed Agents(マネージドエージェント)も、内製の力を持つテック企業が「実行基盤をベンダーに委ね、エージェント設計に集中する」流れを後押ししています。初期導入企業にはエンタープライズ SaaS の主要プレイヤーが名を連ねていると公表されており、「自前で全部やる必要はない」という割り切りが標準解になりつつあることを示しています。
外注で得られる 4 つの加速
ハイブリッド戦略をとった場合、外注パートナーが具体的に何を加速させるかを整理しておきます。コスト試算の妥当性を社内で説明するときに使えます。
加速 1: SDK 選定の試行錯誤を省略。Claude / OpenAI / LangGraph / CrewAI / AutoGen を全て検証するには、社内で 1〜2 名のエンジニアを最低 3 ヶ月拘束する必要があります。経験のあるパートナーに評価マトリクスを共有してもらえれば、要件確定までを数週間で詰められます。
加速 2: ベストプラクティスの先取り。Anthropic「Building Effective Agents」「Effective Harnesses for Long-running Agents」、OpenAI「Agents SDK Cookbook」、LangChain の「LangGraph Production Guide」── 一次ソースは膨大で、しかも数ヶ月で更新されます。これを自社で追い続けるコストを、運用パートナーの月額に振り替えるのが合理的です。
加速 3: 失敗事例の共有。本記事で扱う失敗パターン 7 類型は、koromo を含む実装パートナーが現場で踏んできた地雷の地図です。後発の組織がこの地図を共有できれば、PoC から本番化までの時間が半分以下になる事例も珍しくありません。
加速 4: モデル更新への追随。Claude / GPT / Gemini は年に複数回モデル更新があり、その都度プロンプト・評価データセット・harness の調整が発生します。専任のチームが追随し続ける構造を、自社単独で持つコストは想定以上に重く、外注の月額固定費に組み込んだほうが TCO は安く済むケースが多数です。
外注前に整理すべき4つの問い
外注の合理性が確認できたら、次は RFP(提案依頼書)に落とし込む前に社内で答えを出しておくべき 4 つの問いに向き合います。これらが曖昧なまま RFP を送ると、提案各社の見積もり前提がバラバラになり、比較ができません。
問い 1: どのエージェント種別が必要か。 単一タスクを置換するのか、複数ツールを横断するのか、複数エージェントを協調させるのか、完全自律で運用するのか。後述するマトリクスで自社のユースケースを位置付けます。
問い 2: どこまで自律化するか(Human-in-the-Loop の境界)。 「全自動が美しい」という思い込みは失敗を招きます。顧客対応・法務判断・金額確定・外部公開コンテンツなど、間違いの代償が大きい領域には必ず人間の承認フローを差し込みます。境界の合意は、外注見積もりの工数に直結します。
問い 3: 既存システム/データの接続方式。 MCP で繋ぐのか、独自 API ラッパーを書くのか、ETL 経由でデータを別途寄せるのか。社内に存在するデータの「どこまで」をエージェントに見せるかの線引きは、セキュリティ要件と直結します。
問い 4: 監査・コンプライアンスの要件。 EU AI Act、改正個人情報保護法、業界規制(金融、医療、公共)が要求する監査要件を発注前に整理します。EU・英国・米国の一部州では、自動化された判断に対する説明責任や監査ログの保管を求める規制整備が進んでおり、エージェントのアクションを 個別単位で追跡できる監査ログ を後付けで対応するとコストが跳ね上がります。条文の解釈は各国・各州で異なるため、法務と早期に擦り合わせるのが安全です。
この 4 問の回答を 2〜3 ページにまとめたものが、最初に提示できる最良の RFP になります。完璧な回答である必要はありません。「現時点ではここまでしか整理できていない」を含めて開示するほうが、提案各社の解像度が揃いやすくなります。
逆に、これらが整理されないまま「とりあえず AI エージェントを作りたい」とだけ伝えて見積もりを依頼すると、各社が独自の前提で見積もりを作るため、金額の比較が無意味になります。提案フェーズで時間が無駄になるだけでなく、契約後にスコープ齟齬で揉める原因にもなります。
エージェント種別 × 開発期間 × 費用マトリクス
ここから本記事の独自要素に入ります。AIエージェントを「単一タスク」「マルチツール」「マルチエージェント」「自律」の 4 段階に分解し、それぞれの開発期間・費用感を整理します。国内 AI 受託開発の費用相場、ニューラルオプト・renue 等の公表データ、Anthropic / OpenAI の SDK 実装パターン、koromo の実装経験を突き合わせた目安です。
Single-task agent(単一タスク自動化)
請求書 PDF を読み取って会計ソフトに入力する、英文メールを翻訳して返信文案を作る、議事録を要約して関係者にメールするなど、定義の明確な単一タスクを置換するエージェントです。
開発期間は 4 週間前後、費用は 200〜500 万円 が目安。Claude Agent SDK や OpenAI Agents SDK のチュートリアルレベルから派生させやすく、PoC で効果検証してから本番に乗せる流れが取りやすい領域です。ROI の見え方が明快で、最初の成功体験を社内に作るには最適な入口になります。
Multi-tool agent(複数ツール横断)
CRM・MA・コミュニケーションツール・社内 DB といった複数の外部システムを横断しながら、定型ワークフローを完遂するエージェントです。MCP サーバーを 3〜10 種類束ねる、もしくは Tool Use を細かく分解して実装するイメージです。
開発期間は 8〜12 週間、費用は 500〜1,500 万円。ここから先は権限設計、Audit Log、レート制御、失敗時の再実行戦略といった「運用が前提のエンジニアリング」が要求されるため、SDK 経験のあるパートナーの価値が大きく出ます。
Multi-agent system(マルチエージェント協調)
役割の異なる複数のエージェントが協調して一つの目標を達成するアーキテクチャです。Anthropic が「Building Effective Agents」で推奨している Planner / Generator / Evaluator の 3 エージェント構成や、CrewAI のロールベース・クルー、AutoGen の GroupChat が典型例です。
開発期間は 12〜24 週間、費用は 1,500〜5,000 万円。エージェント間の責務分割、引き継ぎ(handoff)の構造化、各エージェントの評価データセット整備、トレーシング基盤の構築が必要で、難易度は一段跳ね上がります。
Autonomous agent(自律エージェント)
長時間動作する自律エージェント、もしくは事業判断の中核に組み込まれるエージェントです。Anthropic が「Effective Harnesses for Long-running Agents」で論じているように、ループガード、繰り返し検知、チェックポイントなどの harness(実行基盤) を自前で設計する世界です。
開発期間は 6 ヶ月以上、費用は 5,000 万円超 から、要件によっては億円規模に達することもあります。Claude Managed Agents や OpenAI Agents SDK の sandbox execution など、ハイパースケーラーが提供する実行基盤を活用しつつ、自社固有のガードレールを組み込みます。事業インパクトが根幹に直結する一方、ガバナンス設計を誤ると停止コストも莫大になります。
このマトリクスを RFP の冒頭に貼り付け、「自社は Multi-tool agent を 1 段階だけ」と明示するだけで、提案各社の見積もりブレが劇的に小さくなります。
4 段階のスコープ移行戦略
「いきなりマルチエージェント」を狙うプロジェクトの大半は途中で破綻します。Single-task → Multi-tool → Multi-agent → Autonomous の順に段階的にスコープを拡げる戦略のほうが、累積投資と累積成果のバランスが安定します。
最初の 4 ヶ月で Single-task を 1〜2 本リリースし、社内に「エージェントが本当に業務を変える」感覚を作ります。次の 6 ヶ月で Multi-tool に拡張し、複数システムを横断する効果を体感させます。1 年目の後半でようやく Multi-agent の検討に入り、自律エージェントは 2 年目以降の課題として位置付けます。この順番を守るかどうかで、社内の AI リテラシーの伸びと予算継続のしやすさが大きく変わります。
また、PoC では Single-task で動かしておきながら、本番化フェーズで急に Multi-agent に切り替える提案は要注意です。SDK の選定、評価データセット、Audit Log 設計、Human-in-the-Loop のすべてを作り直す可能性があり、見積もりが甘いサインです。
SDK・フレームワーク 実績マトリクス(独自要素)
エージェント開発の成否の半分は、最初の SDK 選定で決まります。発注先候補が「どの SDK で実装した、本番運用中のエージェントを何件保有しているか」を必ず確認してください。代表的な 6 つを 2026 年時点で整理します。
Claude Agent SDK(Anthropic)
Claude Code と同じエージェントループ、ツール呼び出し、コンテキスト管理を Python / TypeScript パッケージとして提供する SDK です。MCP との統合が公式に組み込まれており、@anthropic-ai/claude-agent-sdk(TS)と claude_agent_sdk(Py)の双方が安定運用フェーズに入っています。
強み: MCP との親和性、Claude Code 由来の堅牢なループ設計、Sub-agents、Permission Mode による安全制御。 留意点: モデル依存が Anthropic に寄る。一部用途で OpenAI モデルとの併用設計が必要。 詳しくは Claude Agent SDK 実装ガイドで扱っています。
OpenAI Agents SDK
2026 年に入ってからのメジャー更新で、model-native harness、sandbox execution、code-mode、sub-agents が拡充されたと公式ブログでアナウンスされています。Agents、Sandbox Agents、Handoffs、Guardrails、Sessions、Tracing が標準機能として揃い、エンタープライズ要件にも応えやすい構成です。
強み: 標準機能の網羅性、Tracing が初期から組み込み、Sandbox 実行で長時間タスクに強い。 留意点: 新機能群は当面 Python が先行し、TypeScript は段階的にキャッチアップする方針が示されています。OpenAI モデル依存である点もあわせて考慮が必要です。
LangGraph / LangChain
graph-based architecture、checkpointing、LangSmith による observability で、エンタープライズ採用の本命と評価されているフレームワークです。2026 年に入ってからは複数の比較メディアで「production readiness が最も高いオープンソースエージェントフレームワーク」と紹介されることが増え、エンタープライズ採用が先行しています。
強み: 明示的な状態管理と制御フロー、Audit Trail との親和性、モデル非依存。 留意点: graph mental model の学習コストが高く、立ち上げに 10〜14 エンジニア日。
LlamaIndex Workflow
データ・ナレッジアクセスに強い LlamaIndex 由来の Workflow 機能。RAG や知識検索を中核に据えるエージェントで威力を発揮します。
強み: ベクトルストア・ナレッジグラフとの統合、RAG パターンの抽象化。 留意点: 一般的なツールユースを中心に据える設計には冗長になり得る。
CrewAI
ロールベースのクルー(チーム)を組み立てるアプローチで、デモ立ち上げの速さで知られるフレームワークです。複数の比較記事で「数エンジニア日で動くデモが作れる」と紹介されており、PoC や社内デモとの相性が良いとされます。
強み: 立ち上げ速度、ロール分担の直感的な設計、PoC との相性。 留意点: checkpointing や中央集権的なオブザーバビリティが弱く、本番運用は補助設計が必要。
AutoGen / AG2
会話型エージェントの GroupChat に強み。Microsoft Research 起源で AG2 リライトが進行中。
強み: 対話的なエージェント連携、ディスカッション型タスクとの相性。 留意点: AG2 リライト過渡期で API 安定性に注意。
国内系(PKSHA / ABEJA / モルフォ / リコー / アーガイル等)
国内 SI / AI ベンダーの一部は、自社の SDK / フレームワーク(PKSHA Agent ほか)を持ちつつ、上記オープンソースとの組み合わせで提供しています。強みは業界ドメイン知識と日本語要件への深い理解、留意点は最新 SDK のリリーススピードに対する追随コストです。
提案フェーズでは「上記 6 系統のうち、本番運用実績のある SDK を 2 種類以上」を満たすパートナーを最低ラインに設定すると、後工程の地雷を踏みにくくなります。
SDK 横断の早見表
要点を比較表でまとめておきます。提案の一次フィルタとして利用してください。
| SDK / フレームワーク | エージェントループ | MCP 対応 | Tracing | Sandbox | 立ち上げ速度 | 本番運用適性 | 主な強み |
|---|---|---|---|---|---|---|---|
| Claude Agent SDK | ◎(Claude Code 由来) | ◎(公式統合) | ○ | △(別途設計) | 中 | ○ | MCP・Permission Mode・Sub-agents |
| OpenAI Agents SDK | ◎(model-native harness) | ○ | ◎(標準機能) | ◎(Sandbox Agents) | 中 | ◎ | Tracing と Sandbox の網羅性 |
| LangGraph / LangChain | ◎(graph-based) | ○ | ◎(LangSmith) | △(別途設計) | 低(学習コスト高) | ◎ | 状態管理と Audit Trail 親和性 |
| LlamaIndex Workflow | ○ | ○ | ○ | △ | 中 | ○ | RAG / 知識検索 |
| CrewAI | ○(ロールベース) | △ | △ | △ | ◎(最速) | △ | PoC / デモ立ち上げ |
| AutoGen / AG2 | ○(GroupChat) | △ | △ | △ | 中 | △ | 対話型・ディスカッション |
凡例: ◎ = 標準機能として網羅、○ = 対応可能だが追加実装あり、△ = 限定的・別途設計が必要。各 SDK は短いサイクルで更新されるため、提案フェーズで最新の対応状況を必ず確認してください。
「立ち上げ速度」だけで CrewAI を選び、半年後に LangGraph に書き直すコストを払う ── という事例が国内外で報告されています。同一ユースケースの内部では PoC と本番運用の SDK を 揃える ことを原則とし、複数ユースケースを扱う際にだけ意図的に使い分けるのが安全です。
MCP(Model Context Protocol)対応力の評価軸
2026 年の AI エージェント開発で、MCP 対応力は 発注時の必須確認項目 に格上げされました。理由は明快で、MCP に対応しているかどうかで、社内システム連携の総コストが一桁変わるからです。MCP 詳細は MCP サーバービジネスガイドで別途扱っています。
なぜ MCP 対応を発注時に問うべきか
2024 年以前のエージェント実装では、データソースとツールごとに個別コネクタを書いていました。auth、エラーハンドリング、observability をすべて個別実装する必要があり、これが本番運用コストの大半を占めていました。
MCP は「ツール・データソース・他の AI ツールへの接続」を 一つの標準プロトコル に集約する開発です。MCP 準拠の社内システムが揃えば、初期統合コストと継続保守コストの双方が大幅に縮小します。2026 年時点のエコシステムは数千規模の MCP サーバーに広がっており、GitHub・GitLab・Jira・Docker・Kubernetes・PostgreSQL・Salesforce・HubSpot・Notion・Confluence・Slack といった主要 SaaS / 開発ツールはコミュニティもしくはベンダー公式の MCP サーバー経由で接続可能とされています。最新の対応状況は公式レジストリと各ベンダーのドキュメントで確認してください。
MCP 対応評価チェックリスト
外注先候補に対しては、次の 5 項目を必ず確認してください。
| # | 評価項目 | 確認内容 |
|---|---|---|
| 1 | MCP サーバー実装経験 | 自社内製の MCP サーバー、もしくは独自 MCP サーバーを納品した実績件数 |
| 2 | OAuth スコープ管理 | scope を最小権限に絞り、四半期レビューで未使用 scope を剥がす運用フローの有無 |
| 3 | DLP / VNet 連携 | 企業の Data Loss Prevention、Virtual Network 設計に MCP を組み込んだ実績 |
| 4 | Audit Log 設計 | エージェントが MCP 経由で行ったすべてのアクションを immutable に記録する基盤 |
| 5 | サードパーティ MCP のガバナンス | 外部 MCP サーバーを取り込む際のセキュリティレビュー手順 |
5 項目のうち 3 つ以上に「具体的な事例ベースで答えられる」パートナーが理想です。回答が抽象的、もしくは「これから取り組みます」が並ぶ場合は、自社で MCP 連携部分を内製する覚悟を併せ持つか、別パートナーを当たるべきです。
パートナー選定 7基準(独自フレームワーク)
ここまでの整理を統合して、AIエージェント開発の外注先を選ぶ 7 基準にまとめます。提案各社を点数化する際の共通スコアシートとして使ってください。
基準 1: SDK 実績。Claude Agent SDK / OpenAI Agents SDK / LangGraph などの主要 SDK で、本番運用に到達した案件数を確認します。複数 SDK での実装経験があるパートナーは、要件に応じた選択ができます。
基準 2: MCP 対応。前章の MCP チェックリスト 5 項目のうち 3 つ以上に具体的に答えられること。
基準 3: セキュリティ実装力。プロンプトインジェクション対策、RBAC、OAuth scope、Audit log、Sandbox の実装経験。詳細は AI プロンプトインジェクション対策で別途扱います。
基準 4: 観測性 / LLMOps。LangSmith、OpenAI Tracing、Anthropic の Observability、もしくは同等の社内基盤で、本番エージェントを継続観測した経験。評価データセット整備、レイテンシ監視、コスト監視まで含めて聞きます。
基準 5: Human-in-the-Loop 設計。「何を人間に確認させ、何をエージェントに任せるか」の境界線を、ユースケースごとに設計した経験。MIT Sloan が指摘するように「人間の同僚として管理する」発想ができるかが鍵です。
基準 6: 業界知見。自社の業界(金融・医療・製造・小売・サービス)における規制・データ特性を理解しているか。汎用 SI 系か、ドメイン特化型かで強みが分かれます。
基準 7: 運用継続性。SDK・モデルのバージョンアップが頻繁に起きる前提で、追随する運用体制を持っているか。年 1 回のメンテナンスでは追いつかない領域です。
7 基準を 5 段階で採点し、合計 35 点中 25 点以上のパートナーを候補に絞ります。スコアが拮抗した場合は、最も重要視する基準を 2 つ選び、その項目の点数で順位付けします。AI 開発会社全般の比較観点は AI 開発会社比較 2026に整理しています。
スコアシートのテンプレート
7 基準を実務で運用するためのスコアシートのイメージを示します。提案各社に共通様式で記入してもらうと、比較精度が大きく上がります。
| 基準 | 配点 | 評価ポイント | 確認方法 |
|---|---|---|---|
| SDK 実績 | 5 | 主要 SDK 2 種以上で本番運用案件 | 案件リストと役割の提示 |
| MCP 対応 | 5 | MCP 評価チェックリスト 5 項目中 3 つ以上 | 具体事例ベースの回答 |
| セキュリティ | 5 | プロンプトインジェクション対策 6 軸の網羅 | 設計書サンプルの開示 |
| 観測性 / LLMOps | 5 | Tracing・評価データセット・コスト監視の継続経験 | 運用レポートのサンプル |
| HITL 設計 | 5 | ユースケース別の HITL 境界設計 | 過去案件での適用例 |
| 業界知見 | 5 | 自社業界での実装経験と規制対応 | 業界別の納品事例 |
| 運用継続性 | 5 | モデル・SDK 追随の継続体制 | 年間更新計画と Runbook |
合計 35 点満点で、25 点以上を「合格ライン」、30 点以上を「優先候補」として扱うのが目安です。複数社が 25 点を超えた場合、最終判断は「自社のキーパーソンと相性が合うか」「価格より TCO の見え方が透明か」で決めるのが現実的です。
セキュリティ評価軸 — プロンプトインジェクション時代の発注要件
2026 年に入って、AI エージェントへのプロンプトインジェクション攻撃は 理論的リスクから現実の脅威 に変わりました。GitHub Copilot に絡む Pull Request 説明文経由の hidden prompt injection、Microsoft 365 Copilot の zero-click 系プロンプトインジェクションなど、深刻度の高い脆弱性事例がセキュリティメディアで報告されています。AI エージェントを運用する組織の大半が「過去 1 年で関連インシデントを確認または疑った」と回答する業界調査も複数公表されており、企業の AI セキュリティ投資の中心が「モデル外の保護」から「エージェントランタイム自体の保護」へとシフトし始めています。
発注時には、次の 6 軸でパートナーのセキュリティ実装力を確認してください。
軸 1: 入力検証。ユーザー入力、外部 MCP サーバーからの応答、Web スクレイピング結果など、エージェントに渡る前のデータをサニタイズする実装。
軸 2: 出力フィルタ。エージェントの出力に PII、機密データ、過剰な権限要求が含まれていないかを検査するレイヤー。
軸 3: RBAC / PBAC。Role-Based Access Control もしくは Policy-Based Access Control で、エージェントが取れるアクションを役割に応じて制限する設計。
軸 4: OAuth Scope 最小化。MCP サーバーや外部 API への接続で、必要最小限の scope だけを許可する設計。四半期レビューで未使用 scope を剥がす運用フローが必須。
軸 5: Immutable Audit Log。エージェントの全アクションを改ざん不能なログに残し、各国・各業界が求めるアクション単位の監査追跡に応えられる基盤。
軸 6: Sandbox 実行。コード実行・ファイル操作・外部コマンドを sandbox 内に閉じ込め、想定外のアクションが本番環境を破壊しない設計。OpenAI Agents SDK の Sandbox Agents、Claude Managed Agents が代表例です。
この 6 軸は、エンタープライズ向け AI エージェントの 2026 年の最低ライン です。1 つでも欠ける提案は、本番化フェーズで必ず詰まります。
Indirect Prompt Injection への備え
2026 年に注目度が増しているのが Indirect Prompt Injection(間接的プロンプトインジェクション)です。エージェントが読み込む Web ページ、PDF、メール、社内文書、MCP サーバーからの応答 ── これらの中に攻撃者が仕込んだ指示が含まれていた場合、エージェントが「ユーザーの指示」と区別できずに従ってしまうリスクです。
GitHub Copilot や Microsoft 365 Copilot で報告されたインシデントは、いずれも Indirect Prompt Injection の典型例でした。攻撃者は直接 LLM にメッセージを送る必要すらなく、エージェントが将来参照する文書に細工をしておくだけで成立します。
対策の基本は「外部由来コンテンツを system ロールに混ぜない」「ツール出力は信頼境界を明示してプロンプトに渡す」「重要操作の前に人間の最終確認を挟む」の 3 点です。発注先候補に対しては、「外部 MCP サーバーや Web スクレイピング結果を、どのように信頼境界として扱っているか」を具体的に確認してください。
失敗パターン 7類型(独自要素)
最後に、外注プロジェクトで実際に発生している失敗パターンを 7 類型に整理します。MIT Sloan / Gartner のレポート、業界事例、koromo の現場経験を統合した類型化です。発注前のチェックリストとして使ってください。
類型 1: 過剰自律設計。「全自動」を理想化し、Human-in-the-Loop を最初から省く設計。代償が大きい意思決定(金額確定・顧客向け公開・法務判断)で必ず事故ります。回避策: HITL の境界を設計フェーズで明示。
類型 2: Tool 未テスト。エージェントが呼び出す Tool(API、MCP サーバー、関数)の単体テストと境界テストが不十分なまま結合。エージェントは Tool が壊れていることを「うまく取り繕って」しまうため、表面化が遅れます。回避策: Tool 単体での評価データセットを Phase 0 から整備。
類型 3: Context 窓溢れ。長時間タスクで context window を使い切り、エージェントが直前の指示を忘れる。Anthropic の「Effective Harnesses」が推奨する通り、init.sh と progress file による段階的進捗管理が必要。回避策: context 管理戦略を提案フェーズで確認。
類型 4: ハルシネーション無対策。LLM の確率的出力をそのまま信用し、検証レイヤーを置かない設計。顧客対応で発生すると一発で炎上します。回避策: 出力検証ステップ(ルールベース / 別エージェント評価 / 人間レビュー)を必ず差し込む。
類型 5: 監査不可。Audit Log を後付けにし、規制対応で詰まる。EU・英国・米国一部州の規制では、エージェントのアクション単位の監査追跡を要求する動きが進んでいます。回避策: Audit Log を Phase 1 から組み込み、保管期間と検索性を要件化。
類型 6: レイテンシ過大。マルチエージェント・マルチツールで連鎖呼び出しが深くなり、応答が数十秒以上かかる。UX が崩壊し、利用率が伸びません。回避策: 設計フェーズでレイテンシ SLO を定義、並列化と早期 short-circuit を組み込む。
類型 7: API 依存度過大。特定モデル・特定ベンダー API への依存度が高く、価格改定や仕様変更で詰む。回避策: モデル抽象化レイヤーを設け、複数モデルでの A/B 評価を運用に組み込む。
この 7 類型のうち、自社の業務特性で最も致命的になる 2〜3 個を選び、提案各社に対策案を求めるのが効果的です。
失敗を「学習」に変えるエージェント運用の文化
7 類型に並べてみると、いずれも「事前に避けられた失敗」であることがわかります。問題は失敗そのものではなく、失敗が組織に共有されず同じ過ちが繰り返される構造です。MIT Sloan の研究や関連業界レポートでも、失敗の主因は技術そのものより、期待値調整や運用文化の欠如にあると指摘されています。
外注パートナーを選ぶ際は、「過去のプロジェクトで踏んだ失敗をどう次に活かしているか」を必ず聞いてください。Postmortem の運用、失敗事例の社内共有、評価データセットへの反映プロセス ── これらに具体的に答えられるパートナーは、現場で学習し続けている組織であり、失敗の確率を構造的に下げてくれます。逆に「うちは失敗していません」と回答するパートナーは、規模が小さいか、失敗を直視できない文化を抱えているかのいずれかです。
開発プロセスの全体像 — PoCから運用まで
外注プロジェクトの典型的なフェーズ分割は次の 5 段階です。各フェーズの成果物・期間・予算を整理しておきます。
Discovery(2〜4 週・100〜300 万円)。要件整理、エージェント種別の決定、SDK 候補の選定、データ・システム調査、リスク洗い出し。成果物は要件定義書、技術アーキテクチャ案、リスクレジスタ。
PoC(4〜8 週・200〜800 万円)。最小機能でエージェントを動かし、評価データセットで効果を計測。成果物は動作するエージェント、評価レポート、本番化判断のための ROI 試算。
MVP(8〜16 週・500〜2,000 万円)。本番想定のスコープに拡張、セキュリティ・観測性・運用基盤を組み込む。成果物は MVP エージェント、Audit Log 基盤、初期の運用 Runbook。
本番化(4〜12 週・300〜1,500 万円)。負荷試験、セキュリティ監査、ステージング・本番展開、運用引き継ぎ。成果物は本番稼働するエージェント、SLO、運用マニュアル。
運用(月額 50〜300 万円)。モデル・SDK のバージョン追随、評価データセットの更新、観測指標のチューニング、新ユースケースの段階展開。
PoC で止まる典型パターンを避けるには、Discovery の段階で「本番化判断の合格条件」を数値で合意することが鍵です。詳しくは AI PoC から本番化へのガイドで扱っています。
契約・進行のチェックリスト
契約フェーズで確認すべき項目を整理します。AI エージェント開発に特有の論点が多いため、汎用の SI 契約テンプレートのままだと事故が起きやすい領域です。
契約形態。要件が明確で成果物が定義できる Discovery / PoC は請負、不確実性が大きい MVP / 本番化 / 運用は準委任が一般的。AI エージェントは仕様変更が頻発するため、準委任の比重を高めに設計します。
IP・モデルの帰属。プロンプト、評価データセット、fine-tuning 派生物、MCP サーバー実装の IP 帰属を明示。学習データの取り扱いはトラブルになりがちな論点です。
モデルバージョン更新。GPT・Claude・Gemini のモデル更新サイクルへの追随を契約に含めるか。年に複数回モデルが更新される前提で、追随コストの分担を決めます。
SLA / SLO。エージェントのレスポンス時間、可用性、正答率(評価データセット上の合格率)を SLA / SLO として定義。決定論的 SLA との違いに留意します。
データ取り扱い。データの保管場所(リージョン)、保管期間、削除手続き、再学習への利用可否。EU AI Act、改正個人情報保護法、業界規制への適合確認。
機密保持と監査権。発注側がエージェントの監査ログを参照できる権利、第三者監査を実施できる権利を明示。
保守・運用引き継ぎ。社内に運用知見を残すための共同運用期間、Runbook と評価データセットの帰属、メンバー引き継ぎの手順。
このチェックリストを契約交渉の早い段階で出すと、後工程のトラブルを大幅に減らせます。
段階的契約のすすめ
エージェント開発のような不確実性が高いプロジェクトでは、最初から本番化までを一括契約するのは双方にとってリスクです。フェーズごとに小さく契約し、出口条件を満たしたら次フェーズへ進む 段階的契約のほうが、発注側・受注側ともに健全な関係を維持できます。
具体的には、Discovery(請負)→ PoC(請負 + 出口条件)→ MVP(準委任)→ 本番化(準委任 + SLA 契約)→ 運用(月額固定)という 5 段階で別々に契約する方式がおすすめです。各フェーズの終わりに合格条件を見直し、必要なら受注先を変更する余地も残しておきます。
このスタイルは、Gartner が警告する「ROI 不明のまま 14 ヶ月で停止」のリスクを構造的に減らせます。フェーズが進むごとに学習結果が反映され、初期契約の不確実性を引きずらないからです。
オープンソース vs プロプライエタリの選択軸
SDK・フレームワーク・モデルの選択は、コード可視性・カスタマイズ性・コスト・運用負荷の 4 軸で評価できます。
| 選択肢 | コード可視性 | カスタマイズ性 | コスト | 運用負荷 |
|---|---|---|---|---|
| OSS フレームワーク(LangGraph / CrewAI / AutoGen) | 高 | 高 | モデル従量課金のみ | 自社負担、もしくはパートナー継続 |
| ベンダー SDK(Claude / OpenAI Agents SDK) | 中(SDK は OSS、モデルはクローズド) | 中 | API 課金 + 機能拡張は SDK 範囲内 | SDK と モデルの追随が必要 |
| マネージドエージェント(Claude Managed Agents 等) | 低 | 中 | モデル課金 + 実行時間課金 | ベンダー側に大部分が移譲 |
| オンプレ LLM + OSS フレームワーク | 高 | 高 | GPU / 運用コストが大 | 全方位で自社負担 |
意思決定の基本は「機密データの所在」と「SDK スピードへの追随」の 2 軸です。機密データを社外に出せない金融・医療・公共領域はオンプレ + OSS、SDK スピードを最大限活用したい SaaS・スタートアップはベンダー SDK + マネージドエージェント、両方の中間に位置する一般エンタープライズは OSS フレームワーク + ベンダー API のハイブリッドが現実解になります。
マルチモーダル AI ビジネスガイドでも触れているように、モダリティが増えるほど OSS だけで全てを賄うのは現実的でなくなり、マネージドサービスとの併用設計が標準になります。
koromo のアプローチ — Claude Agent SDK 実装パートナーとして
koromo は Claude Code 関連の技術記事を継続的に公開しており、Claude Agent SDK・MCP・OpenAI Agents SDK・LangGraph の本番運用知見を組織的に蓄積しています。「Anthropic 公式の SDK ベストプラクティスを現場の業務要件に翻訳して落とし込む」立ち位置で、エージェント開発を上流から運用まで一気通貫で支援する実装パートナーです。
得意領域は次の 3 つです。
1. Claude Agent SDK / MCP の本番実装。Claude Code を業務に使い倒している組織として、SDK の落とし穴と回避策を「自分たちの手の中」で把握しています。MCP サーバーの実装、Audit Log 基盤、Permission Mode を活用したガバナンス設計が標準対応です。
2. PoC から本番化までの並走。Discovery → PoC → MVP → 本番化 → 運用を、6 ヶ月で 1〜2 段階ずつ並走するスタイル。プロダクト開発の高速化(6 ヶ月 → 1 ヶ月)で蓄積した「短いサイクルで動かして学ぶ」流儀を、エージェント開発にもそのまま持ち込みます。
3. AI 戦略・CAIO 代行との統合。技術実装だけでなく、社内でのエージェント活用方針、ガバナンス整備、人材育成までを CAIO 代行サービスとして併走できます。AI 戦略の上流から本番運用まで、一本のラインで支援できる点が他社との差別化要素です。
「自社のどの業務に AI エージェントを適用すべきか」という上流の問いから、Claude Agent SDK や MCP の選定、本番化の並走まで、フェーズに応じた支援が可能です。まずは現状把握からの無料相談でも構いません。
よくいただく質問パターン
無料相談でいただく質問の典型例を、対話のサンプルとして並べておきます。
「PoC で止めるか、本番化に進むか迷っています」。多くの場合、Discovery フェーズで合格条件が数値化されていないことが原因です。koromo では Discovery の段階で、業務時間削減、エラー率低下、CSAT 向上などの数値目標を発注側と合意し、PoC の出口で合否を機械的に判定できる状態にします。
「Claude と OpenAI のどちらを軸にすべきか決められません」。原則として両方を並走させ、ユースケースごとに使い分けるのが現実解です。MCP 統合と Permission Mode を重視する社内業務は Claude、Tracing と Sandbox の網羅性を重視する顧客向け業務は OpenAI、という分け方が出発点になります。
「内製エンジニアが少ないのですが、運用は引き取れますか」。共同運用期間を 6〜12 ヶ月とり、その間に運用手順書、評価データセット、観測ダッシュボードを共同で作り上げます。期間終了時に「内製で引き取る」か「月額固定で運用継続を委ねる」かを、データを見て判断していただけます。
よくある質問
まとめ
AI エージェント開発の外注は、2026 年において「丸投げ」から「並走」へとモデルが変わりました。Claude Agent SDK / OpenAI Agents SDK / LangGraph などの SDK が並走し、MCP が de facto 標準となり、プロンプトインジェクションが現実の脅威となった環境では、発注側にも一定の評価軸が求められます。
本記事で整理した エージェント種別 × 開発期間 × 費用マトリクス、SDK 実績マトリクス、MCP 評価チェックリスト、選定 7 基準、セキュリティ 6 軸、失敗 7 類型 を RFP と契約交渉の基礎資料として使ってください。冒頭で触れた中止リスクの側に回らないために、発注前の準備が最大のリスクヘッジになります。
koromo は Claude Agent SDK・MCP・OpenAI Agents SDK 等の本番運用知見を蓄積し、AI 戦略・CAIO 代行から実装・運用までを並走できる体制を整えています。「自社のどの業務に AI エージェントを適用すべきか」という上流の問いから、お気軽にご相談ください。
koromo からの提案
AIツールの導入判断は、突き詰めると「投資対効果が合うか」「リスクを管理できるか」「事業にどう効くか」の3点に帰着します。koromo では、この判断に必要な材料を整理するところからご支援しています。
以下のような状況にある方は、まず現状の整理だけでも前に進むきっかけになります。
- AIで開発や業務を効率化したいが、自社に合う方法がわからない
- 社内にエンジニアがいない / 少人数で、AI導入の進め方に見当がつかない
- 外注先の開発会社にAI活用を提案したいが、何を求めればいいか整理できていない
- 「AIを使えばコスト削減できるはず」と感じているが、具体的な試算ができていない
ツールを使った上で相談したい方はお問い合わせフォームから「AI活用の相談」とご記載ください。初回の壁打ち(30分)は無料で対応しています。


