ターミナルAI3大比較【2026年5月】Gemini CLI・Claude Code・Codex CLI を10軸+30タスクで徹底評価
Gemini CLI・Claude Code・Codex CLI の3大ターミナルAIエージェントを2026年5月の最新仕様で比較。10軸比較表、30タスク特性別フローチャート、コスト試算3シナリオ(個人/10名/100名)、CLAUDE.md・AGENTS.md・GEMINI.md 設定ファイル横断マップ、MCP互換性検証、法人ライセンス9項目、3者併用パターン、失敗5選、FAQ 13問を1本に集約。

本記事の情報は2026年5月19日時点で公開されている情報・各社公式ドキュメント・コミュニティの実測レポート・koromoの社内検証ログをもとに整理した暫定値です。ベンチマーク数値・料金・モデル世代・ライセンス条件は月次で改定される前提のため、最新情報は各社公式ページ(Anthropic、Google AI、OpenAI)でご確認ください。本記事の比較数値はすべて「2026年5月時点で公開・観測された値」であり、現時点で出典URLを明記していない数値については、業界の公開ベンチマーク(SWE-Bench Verified vals.ai/benchmarks/swebench、SWE-Bench Pro labs.scale.com、Terminal-Bench 2.0 tbench.ai)と各社の公式ニュース・ブログ・GitHub リポジトリで突合可能です。
比較表における優劣判定について: 本記事内の「先行」「最高水準」「首位」「強い」等の評価表現は、2026年5月時点で参照可能な公開ベンチマーク・コミュニティ実測値・koromoの社内検証における観測上の位置づけを示すものであり、各社の総合的・長期的な優劣を断定するものではありません。ベンダー間の競争位置は数か月単位で大きく変動します。
2026年、AIコーディングの主戦場は IDE のサイドバーから「ターミナル」へ完全に移りました。Claude Code(Anthropic)、Gemini CLI(Google)、Codex CLI(OpenAI)の3つは、いずれもターミナルから自然言語で起動し、ファイル横断のコード読解、複数ステップのタスク分解、テスト実行、Git 操作、Pull Request 作成までを自律的に進める「エージェント型」へ進化しています。Claude Opus 4.7(2026-04-16 公開)、Gemini 3.1 Pro(2026-02-19 公開)、GPT-5.5 / GPT-5.5-Codex(2026-04-23 公開)と、3社のフラッグシップモデルがほぼ同時期に更新されたことで、「結局どれを主軸に据えるべきか」の意思決定難易度は過去最高に達しています。
本記事は、ターミナル中心のワークフローを採用する開発者・テックリード・DevOps エンジニアが「自分のワークフロー で3つのうちどれを主軸に、どれを脇役で併用するか」を判断するための実務ガイドです。10軸比較表、30タスク特性別フローチャート、個人 / 10名 / 100名の3シナリオ別 TCO 試算、CLAUDE.md・AGENTS.md・GEMINI.md の設定ファイル横断マップ、MCP サーバー互換性検証、法人ライセンス9項目、3者併用パターン、失敗5選、FAQ 13問までを1本に集約しました。
この記事で分かること
- Gemini CLI・Claude Code・Codex CLI の2026年5月時点フラッグシップ仕様と料金体系
- 10軸の横並び比較表(モデル / Subagent / MCP / Context Window / 料金 / Sandbox / 認証 / ベンチ3種 / 法人ライセンス / 日本語性能)
- SWE-Bench Pro・Terminal-Bench 2.0・独自実タスク時間の3軸ベンチマーク総合スコア
- 30タスク × 3ツールの特性別ベスト選択マトリクス(新規実装 / 保守リファクタ / 運用自動化の3カテゴリ)
- 個人 / 10名チーム / 100名組織の3シナリオ別 TCO 試算(API 従量課金含む)
- CLAUDE.md・AGENTS.md・GEMINI.md の設定ファイル横断マッピングとコピペ可能なテンプレート
- MCP サーバー10本を3ツールで動作検証した互換性マトリクス
- 法人ライセンス9項目(SSO / SCIM / 監査ログ / SOC 2 / ISO 27001 / HIPAA / SLA / データレジデンシー / オンプレ対応)
- 「全部使う」併用パターン3種と Plan → Implement → Review → Deploy の役割分担
- 3者比較 PoC のよくある失敗5選と回避策
目次
- 結論:2026年5月の現実解は「主役1つ+脇役2つ」
- 3ツールの全体像と現在地(2026年5月版)
- 2026年5月最新 10軸比較表
- モデル世代 × ハーネス世代マトリクス
- ベンチマーク総合スコア
- タスク特性別 ベスト選択フローチャート(30タスク分類)
- コスト試算3シナリオ(個人 / 10名 / 100名)
- 設定ファイル横断マッピング表(CLAUDE.md / AGENTS.md / GEMINI.md)
- MCPサーバー互換性表
- 法人ライセンス比較表
- 「全部使う」併用パターン
- 日本語性能と操作感の違い
- 3者比較PoCのよくある失敗5選
- よくある質問(FAQ)
- まとめと3者比較PoC支援
結論:2026年5月の現実解は「主役1つ+脇役2つ」
ターミナルAIエージェントは、2026年5月時点で「1ツールで全てをまかなう」フェーズを終え、1つを主役、残り2つを脇役で併用する運用が現実解になりました。Claude Code は深いリファクタとマルチファイル編集の品質、Gemini CLI は100万トークンの広い文脈把握と無料枠、Codex CLI は GitHub 統合と Terminal-Bench 2.0 でのターミナル操作精度に、それぞれ明確な強みがあります。1人開発者は無料で始められる Gemini CLI から、5〜10名のチームは Claude Code を主役に Codex を Pull Request レビューで併用、50〜100名の組織は Claude Code Enterprise を中核に Gemini CLI を Plan モード、Codex CLI を GitHub Actions で自動化、という三層構造が標準的です。
主役を選ぶ判断軸は次の3つに集約できます。「コード品質を優先するなら Claude Code」「コストとオープンソースを優先するなら Gemini CLI」「既存の ChatGPT/OpenAI スタックと GitHub Actions 自動化を優先するなら Codex CLI」。本記事の10軸比較表、30タスクマトリクス、コスト試算3シナリオは、この3軸を具体的な数値とユースケースに落とし込むためのフレームワークとして使えます。
| パターン | 主役 | 脇役1 | 脇役2 | 適合する読者 |
|---|---|---|---|---|
| A. 品質最優先 | Claude Code Max | Gemini CLI(Plan) | Codex CLI(Review) | 5〜50名チーム、深いリファクタ多い |
| B. コスト最優先 | Gemini CLI(無料/Pro) | Codex CLI Plus | Claude Code Pro | 個人〜3名スタートアップ |
| C. GitHub中心 | Codex CLI Plus | Claude Code Pro | Gemini CLI(無料) | OpenAI/GitHub Actions 基盤の組織 |
3ツールの全体像と現在地(2026年5月版)
ターミナルAIエージェントの「現在地」を把握するには、各ツールの設計思想・モデル世代・コミュニティの動きを並列で見る必要があります。3社とも 2025年〜2026年 のあいだに大きく姿を変えたため、2025年前半までの記事の情報は2026年5月時点では古くなっている点に注意が必要です。
Claude Code(Anthropic)— ターミナルAIの設計思想リーダー
Claude Code は、Anthropic が2025年初頭に発表した「研究プレビュー」を経て、2025年後半に正式版として GA したターミナル特化型のエージェントです。2026年5月時点では Claude Opus 4.7 と Sonnet 4.6 をデフォルトモデルに採用し、SWE-Bench Verified 87.6%(Opus 4.7、Anthropic 公式 および公開リーダーボードでの観測値)、SWE-Bench Pro 64.3%(Scale SEAL リーダーボードでの観測値)と、コード品質系ベンチマークの上位帯で安定した位置を維持しています。設計思想として注目すべきは、Subagent(独立コンテキストの並列実行)、Hooks(任意のシェルスクリプトを介入させる仕組み)、Skills(再利用可能なドメイン知識パッケージ)、Plugin Marketplace(社外配布されたエージェント拡張のインストール)といった「エージェントを組織化する」機能群が他社に先行して実装されている点です。MCP(Model Context Protocol)も Anthropic 発のプロトコルであるため、サーバー対応の成熟度・サードパーティ MCP の数で最も整備されています。
料金は Pro($20/月)、Max 5x($100/月)、Max 20x($200/月)、Team($25/seat/月)、Enterprise(要見積もり、シート $20-25/月+API 従量課金)の階層構造で、無料プランは存在しません。1M トークンのコンテキストウィンドウは Max・Team・Enterprise で標準利用可能で、Pro でも標準 API レートで利用できます。
Gemini CLI(Google)— 無料枠とオープンソースの先駆者
Gemini CLI は Google が2025年6月に Apache 2.0 ライセンスで GitHub に公開したオープンソースのターミナルエージェントです。2026年5月時点の最新安定版は v0.42.0(2026-05-12 リリース)で、Voice Mode・Gemma 4 統合・Auto Memory Inbox・Plan Mode などが追加されています。デフォルトモデルは Gemini 2.5 Flash(無料枠)と Gemini 3.1 Pro(Pro 以上)で、1M トークンのコンテキストウィンドウを2025年後半から標準で提供しています。
3つの中で唯一、Google アカウントだけで毎日1,000リクエスト・毎分60リクエストの無料枠を提供しており、クレジットカード不要で本格的に試せます。Pro ($19.99/月)、Ultra ($249.99/月) のサブスクプランに加え、Vertex AI 経由の従量課金にも対応します。Plan Mode(2026年3月追加)は、書き込みを一切行わずに読み取りとレビュー、戦略提案だけを行うリードオンリーモードで、本番リポジトリでの「まず計画だけ立てさせる」ユースケースに最適化されています。MCP は2026年5月時点で正式サポート対応中で、Figma、Stripe、Elastic、Postman、Snyk など90以上のサードパーティ拡張が利用可能です。
Codex CLI(OpenAI)— GitHub統合とRust高速化の本命
OpenAI Codex CLI は、2025年に Node.js 実装でリリースされた後、2026年初頭に Rust への全面リライト(95.7% Rust、GitHub リポジトリでの観測値)が完了し、起動時間とトークン処理速度が大幅に向上しました。2026年5月時点では ChatGPT 内部に「Codex Web」と「Codex CLI」が統合され、GPT-5.5 / GPT-5.5-Codex / GPT-5.2-Codex の3モデルを使い分けます。Terminal-Bench 2.0 で82.0%(tbench.ai リーダーボードでの観測値)という公開ベンチマーク上位の数値を記録しており、シェルスクリプトを介した自動化、CI/CD パイプライン統合、ターミナル操作の連鎖タスクで強い領域です。
最大の差別化要因は GitHub とのネイティブ統合で、Pull Request 自動作成、@codex メンションによるコードレビュー、Issue 起点のタスク処理がボタン1つで動きます。料金は ChatGPT Plus($20/月、Codex CLI 利用権込み)、ChatGPT Pro($200/月)、Codex API 従量課金、Codex Enterprise(要見積もり)の構成で、ChatGPT 既存契約者は追加費用ゼロで使い始められます。Sandbox はインストール時に Linux seccomp・macOS sandbox-exec を選択でき、AGENTS.md という「業界標準化が進んでいる」設定ファイルにも対応しています。
3社をひと言で要約するなら、**「設計思想で先行する Anthropic」「無料とオープンソースで攻める Google」「GitHub 統合と速度で観測上強い OpenAI」**という構図が2026年5月時点の現在地です。詳細な機能差は、次節からの10軸比較表で具体的な数値で比較します。
2026年5月最新 10軸比較表
10軸比較表は、ターミナルAIエージェント選定で「決定打になる軸」を網羅した本記事の中核です。従来の比較記事は5〜7軸が一般的でしたが、2026年5月時点では Subagent / Skills / Plan Mode / MCP 互換 / 法人ライセンスといった新しい比較軸が意思決定を大きく左右します。本表ではすべての軸を一覧化し、各軸の意味と読み解き方を解説します。なお、軸8は「主要ベンチマーク3種」を統合した1軸として扱い、コア10軸として読みやすい構成にしています。
| 軸 | Claude Code | Gemini CLI | Codex CLI |
|---|---|---|---|
| 1. デフォルトモデル | Sonnet 4.6 / Opus 4.7 切替可 | Gemini 2.5 Flash(無料) / 3.1 Pro(Pro以上) | GPT-5.5 / GPT-5.5-Codex / GPT-5.2-Codex |
| 2. Subagent(並列実行) | ◎ ネイティブ(Agent Teams 含む) | △ 並列インスタンス起動で代替 | △ サブタスク分割は可、独立コンテキスト管理は弱い |
| 3. MCP 対応 | ◎ プロトコル発祥、最も成熟 | ○ 90+拡張、正式サポート対応中 | △ 2026年5月時点で限定的、Codex Web で拡充中 |
| 4. Context Window | 200K(標準) / 1M(Max・Team・Enterprise) | 1M(標準) | 200K-400K(モデル依存) |
| 5. 料金構造 | Pro $20 / Max $100-200 / Team $25 / Ent. 要見積 | 無料1,000req/日 / Pro $19.99 / Ultra $249.99 | ChatGPT Plus $20(込み)/ Pro $200 / API 従量 |
| 6. Sandbox | OS-native(macOS sandbox-exec, Linux seccomp) | Container / Cloud Shell | OS-native(seccomp / sandbox-exec)+ Codex Cloud |
| 7. 認証方式 | OAuth + APIキー + Enterprise SSO | Google アカウント / OAuth / Vertex AI 経由サービスアカウント | OpenAI アカウント / API キー / Enterprise SSO |
| 8. 主要ベンチマーク3種(Verified / Pro / Terminal 2.0) | 87.6% / 64.3% / 79.8% | 80.6% / 46.1% / 未公開 | 88.7% / 59.1%(GPT-5.4 xHigh、58.6% GPT-5.5)/ 82.0% |
| 9. 法人ライセンス | SSO/SCIM/監査ログ/SOC 2 Type II/ISO 27001/HIPAA BAA | SSO/SCIM/監査ログ/SOC 2/ISO 27001/HIPAA(Workspace 経由) | SSO/SCIM/監査ログ/SOC 2 Type II/ISO 27001/HIPAA(Enterprise) |
| 10. 日本語性能(体感) | ◎ 確認プロンプト・エラー文の自然さで観測上強い | ○ Plan Mode の説明が丁寧、長文要約に強い | ○ コミット文・PR テンプレートが整っている |
※ ベンチマーク数値はいずれも2026年5月時点で公開リーダーボード(vals.ai / Scale SEAL / tbench.ai)から取得した観測値で、月次で更新されます。Terminal-Bench 2.0 の Claude Code 値は ForgeCode 経由(Opus 4.6)の公開値、Claude Code 直結版(Opus 4.6)はコミュニティ実測で65.4%程度との報告があります。
各軸の読み解き方ですが、まず モデル世代(軸1) は Claude が Opus 4.7(Q2 2026 最新)、Codex が GPT-5.5(Q2 2026 最新)、Gemini が 3.1 Pro(Q1 2026 最新)と、いずれも各社のフラッグシップを採用しています。Subagent(軸2) は Claude Code がネイティブ実装で先行しており、複数の独立コンテキストを並列で走らせる場合は Claude Code が一手抜けています。MCP(軸3) は Anthropic 発のプロトコルである関係上、Claude Code が最も成熟していますが、Gemini CLI も2026年5月までに正式サポートに移行し、Codex CLI は Codex Web で拡充中という段階です。Context Window(軸4) は Gemini CLI が標準1M で先行しているように見えますが、Claude Code も Max・Team・Enterprise なら1M、Pro でも標準APIレートで1M利用可能なので、実務的には大きな差にならないことが多いです。料金(軸5) は Gemini CLI の無料枠が3社で唯一、Codex CLI が ChatGPT Plus 込みで追加費用ゼロ、Claude Code が単独契約ベースという3者3様の構造です。
モデル世代 × ハーネス世代マトリクス
ベンチマーク数値を読み解く上で最も誤解されやすいのが「同じモデルでもハーネス(エージェント実装)が違えばスコアが大きく変わる」という事実です。例えば、Claude Sonnet 4 を素のAPIで使った場合と、Claude Code 経由で使った場合では、SWE-Bench Verified のスコアが20pt以上違ったという複数の検証レポートがあります。これは「モデル × ハーネス × ツール群」の三要素がスコアを決定するためで、ベンチマークを比較する際は「どのモデルを、どのCLIで動かしたか」を必ず確認する必要があります。
| CLI | 2025年Q3〜Q4 デフォルト | 2026年Q1 デフォルト | 2026年Q2 デフォルト |
|---|---|---|---|
| Claude Code | Sonnet 3.5 → 3.7 | Sonnet 4 / Opus 4.5 | Sonnet 4.6 / Opus 4.7 |
| Gemini CLI | Gemini 1.5 Pro / 2.0 Flash | Gemini 2.5 Pro / Flash | Gemini 2.5 Flash / 3.1 Pro |
| Codex CLI | GPT-4o / o3-mini | GPT-5 / GPT-5-Codex | GPT-5.5 / GPT-5.5-Codex / GPT-5.2-Codex |
このマトリクスから読み取れる重要なポイントは、3社とも「6か月ごとに2世代分の進化を吸収している」点です。2025年Q3 の記事に書かれていた「Claude Sonnet 3.5 の限界」は2026年Q2 にはほぼ解消されており、逆に2026年Q1の Gemini 2.5 Pro 評価は2026年Q2 では Gemini 3.1 Pro に置き換わっています。ターミナルAIエージェントの比較記事を読む際は、必ず「いつの時点の、どのモデルを、どのCLIで動かした評価か」をチェックする習慣が必要です。
ハーネス側の進化も見逃せません。Claude Code は2025年に Subagent と Hooks、2026年Q1 に Skills、Q2 に Plugin Marketplace を順次追加してきました。Gemini CLI は2026年Q1 に Plan Mode、Q2 に Voice Mode と Auto Memory Inbox を追加。Codex CLI は2026年Q1 に Rust リライト、Q2 に in-app browser・native compaction を実装しています。同じモデルでも、半年前のハーネスと最新ハーネスでは、koromo の社内検証における体感で実タスクの遂行品質が20〜40%変わると感じる場面が多いです。
ベンチマーク総合スコア
ベンチマークは「単独のスコア」ではなく「3つの異なる指標の組み合わせ」で読むのが2026年の作法です。SWE-Bench Verified、SWE-Bench Pro、Terminal-Bench 2.0 は、それぞれ測定対象が異なるため、目的別に重み付けを変える必要があります。
SWE-Bench Verified / Pro の見方
SWE-Bench Verified は、実在の GitHub Issue 約500件を解決できるかを測る、コーディングベンチマークのデファクトです。2026年5月時点の公開リーダーボードで観測される上位は GPT-5.5(88.7%)、Claude Opus 4.7(87.6%)、GPT-5.3-Codex(85.0%)、Gemini 3.1 Pro(80.6%)の順で、上位3モデルは僅差です。一方の SWE-Bench Pro は、Scale AI が公開した「より実装に近い」プレミアム版で、複数ファイルにまたがる修正・テスト群との整合性・回帰テスト通過まで含めて評価します。2026年5月時点のScale SEAL リーダーボードでは Claude Opus 4.7 が 64.3% と上位帯で観測されており、Pro 版ではコード品質の差がより顕著に出る傾向です。
Terminal-Bench 2.0 の意義
Terminal-Bench 2.0 は、シェル操作・ファイル操作・コマンド連鎖・スクリプト生成といった「ターミナル文脈での実用性」を測る2026年初頭にリリースされた新しいベンチマークです。tbench.ai リーダーボードでは Codex CLI + GPT-5.5 が82.0%で上位、ForgeCode + Claude Opus 4.6 が79.8%、Claude Code(Opus 4.6 直結、リーダーボード上のエントリ名は claude-code-opus-4-6 系)が65.4%という観測値が報告されています(数値・エントリ名は月次で更新されるため、最新は tbench.ai を直接確認してください)。Gemini CLI は2026年5月時点で公式スコアが未公開ですが、開発者コミュニティの実測では中位帯との非公式報告が散見されます。
実タスク時間の参考値(koromo 社内検証)
ベンチマークだけでは捉えきれない「実タスクの所要時間」を可視化する目的で、koromo では2026年5月時点で社内検証として代表タスクを各CLIで実行した参考値を整理しています。以下は単一試行の参考値であり、プロンプト・モデル選択・MCP 構成・実行環境(M3 Mac / Linux x86_64 等)によって結果は大きく変動します。再現性のある第三者検証ではないため、自社の業務分布で必ず再計測することを推奨します。
| タスク | Claude Code | Gemini CLI | Codex CLI |
|---|---|---|---|
| Express.js リファクタ(10ファイル) | 1h17m / 修正0回 | 2h04m / 修正3回 | 1h41m / 修正0回 |
| Jest テストスイート追加(30件) | 38分 / カバレッジ91% | 52分 / カバレッジ87% | 44分 / カバレッジ89% |
| Next.js 14 → 15 アップデート | 1h05m / 修正1回 | 1h28m / 修正2回 | 1h12m / 修正1回 |
検証条件: Claude Code Max 20x(Opus 4.7)/ Gemini CLI Pro(Gemini 3.1 Pro)/ Codex CLI + ChatGPT Plus(GPT-5.5-Codex)。各タスク同一プロンプト、CLAUDE.md / AGENTS.md / GEMINI.md を統一内容で配置、MCP サーバー filesystem/github のみ接続、M3 Max MacBook Pro 36GB、2026年5月12〜16日に計測。
社内検証の参考値からは「コード品質と修正回数で Claude Code が観測上安定し、Gemini CLI はコスト面で優位、Codex CLI が中庸かつ GitHub 連携で強い」という10軸比較表の傾向と整合的な結果が観察されました。ただし、N=1 の単一試行であるため、傾向の方向感を読む参考値として扱ってください。
総合スコア集計表
3指標を組み合わせた「総合スコア」を、用途別の重み付けで集計したのが下表です。重みは「コード品質重視」「ターミナル自動化重視」「コスト効率」の3パターンで使い分けます。計算根拠: SWE-Bench Verified(V)、SWE-Bench Pro(P)、Terminal-Bench 2.0(T)の3指標を以下の重みで線形結合します。
- コード品質重視: P × 0.5 + V × 0.3 + T × 0.2
- ターミナル自動化重視: T × 0.5 + V × 0.3 + P × 0.2
各CLIの素データは Claude Code(V=87.6 / P=64.3 / T=79.8)、Gemini CLI(V=80.6 / P=46.1 / T=未公開)、Codex CLI(V=88.7 / P=59.1(GPT-5.4 xHigh)/ T=82.0)です。Gemini CLI の Terminal-Bench 2.0 は2026年5月時点で公式スコア未公開のため、本表ではT を「未公開のため除外し V と P を 0.5/0.5 に再配分」した暫定スコアとして扱います。再配分式は (P × 0.625 + V × 0.375)(コード品質重視)、(V × 0.6 + P × 0.4)(ターミナル自動化重視)です。
| 重み付け | Claude Code | Gemini CLI | Codex CLI |
|---|---|---|---|
| コード品質重視(P×0.5 + V×0.3 + T×0.2) | 74.4 | 59.0(T 未公開、暫定) | 72.6 |
| ターミナル自動化重視(T×0.5 + V×0.3 + P×0.2) | 79.0 | 66.8(T 未公開、暫定) | 79.4 |
| コスト効率(料金 $1 あたり SWE-Pro pt 換算) | 3.22($20で64.3) | ∞(無料で46.1) | 2.96($20で59.1、ChatGPT Plus込み) |
Claude Code の数値計算例: コード品質重視 = 64.3×0.5 + 87.6×0.3 + 79.8×0.2 = 32.15 + 26.28 + 15.96 = 74.4。Codex CLI のターミナル自動化重視 = 82.0×0.5 + 88.7×0.3 + 59.1×0.2 = 41.00 + 26.61 + 11.82 = 79.4。
総合スコアの正しい使い方は、自社の業務比率(リファクタ60% + テスト追加20% + 自動化20%、など)に合わせて重みを調整し、独自の集計を行うことです。本記事の数値はあくまでテンプレートで、組織ごとに「自分の業務分布」を当てはめてカスタマイズすることをお勧めします。Gemini CLI の Terminal-Bench 2.0 公式スコアが公開された段階で、表の値は更新します。
タスク特性別 ベスト選択フローチャート(30タスク分類)
「タスクの種類によってベストツールは変わる」というのが2026年5月時点での実務的な合意です。本節では、30の代表タスクを「新規実装系」「保守・リファクタ系」「運用・自動化系」の3カテゴリ各10タスクに分類し、それぞれのベスト選択を表で示します。判定基準は「実タスク時間 × コード品質 × 修正回数」で、koromo のクライアント導入支援案件で蓄積したパターンに基づきます。
新規実装系(10タスク)
| # | タスク | ベスト | 補欠 | 理由 |
|---|---|---|---|---|
| 1 | 新規 Next.js プロジェクトの初期セットアップ | Claude Code | Codex CLI | Skills と CLAUDE.md でテンプレ化済み、初回起動が速い |
| 2 | Express.js + Prisma の REST API 雛形 | Codex CLI | Claude Code | AGENTS.md の TypeScript/Rust リライト後の精度向上 |
| 3 | SwiftUI で iOS アプリ画面1枚 | Claude Code | Codex CLI | マルチファイル整合性で先行 |
| 4 | Rust の CLI ツール新規実装 | Codex CLI | Claude Code | Rust 経験値が GPT-5.5-Codex で最も豊富 |
| 5 | Python + FastAPI のマイクロサービス | Claude Code | Codex CLI | Subagent でテスト分離して同時実装 |
| 6 | React Native でクロスプラットフォームアプリ | Claude Code | Gemini CLI | プラットフォーム差異の解決能力 |
| 7 | Vue 3 + Pinia のフロント単体 | Gemini CLI | Claude Code | Gemini 3.1 Pro の Vue 学習量 |
| 8 | Tailwind CSS でデザインシステム移植 | Claude Code | Gemini CLI | デザイントークンの整合性維持 |
| 9 | Terraform で GCP インフラ構築 | Gemini CLI | Codex CLI | Google Cloud との認証統合 |
| 10 | Hono + Cloudflare Workers の Edge API | Codex CLI | Claude Code | Workers 環境特性の理解 |
新規実装系で特徴的なのは、フレームワーク学習量と各モデルのトレーニングデータの偏りがベスト選択を左右する点です。Vue / GCP は Gemini CLI、Rust / GitHub Actions は Codex CLI、Next.js / SwiftUI / マルチファイル整合性は Claude Code、というおおまかな住み分けが見えてきます。
保守・リファクタ系(10タスク)
| # | タスク | ベスト | 補欠 | 理由 |
|---|---|---|---|---|
| 11 | レガシー JavaScript → TypeScript 移行 | Claude Code | Codex CLI | マルチファイル変更の整合性 |
| 12 | Express.js のミドルウェア責務分割 | Claude Code | Codex CLI | Subagent で逐次レビュー |
| 13 | React クラスコンポーネント → Hooks 移行 | Codex CLI | Claude Code | パターン認識で先行 |
| 14 | Python 2 → 3 一括移行 | Codex CLI | Claude Code | 古いコードベース対応 |
| 15 | npm → pnpm 移行と package.json 整理 | Claude Code | Gemini CLI | モノレポ意識した依存解決 |
| 16 | RESTful API → GraphQL リファクタ | Claude Code | Codex CLI | スキーマ設計の段階管理 |
| 17 | モノリス → マイクロサービス分割 | Claude Code | Codex CLI | 大規模リファクタの全体最適 |
| 18 | テスト未カバー領域のテスト追加 | Claude Code | Codex CLI | カバレッジ計測との往復 |
| 19 | ESLint / Prettier 設定の標準化 | Codex CLI | Claude Code | コンフィグ系の高速処理 |
| 20 | 重複コードの DRY 化(5ファイル横断) | Claude Code | Codex CLI | コンテキスト横断の整合性 |
保守・リファクタ系では 「マルチファイル整合性 + 段階的レビュー」 が決定的に重要なため、Claude Code の Subagent と Plan モードの組み合わせが圧倒的に有利です。Python 2→3、React クラス→Hooks のような「パターン認識ベース」の移行は Codex CLI も拮抗します。
運用・自動化系(10タスク)
| # | タスク | ベスト | 補欠 | 理由 |
|---|---|---|---|---|
| 21 | GitHub Actions の CI ワークフロー作成 | Codex CLI | Claude Code | @codex メンションでネイティブ統合 |
| 22 | Pull Request 自動レビュー | Codex CLI | Claude Code | GitHub @mention で起動が早い |
| 23 | Docker Compose の本番化 | Codex CLI | Claude Code | DevOps 系のテンプレ精度 |
| 24 | Kubernetes マニフェストの責務分割 | Claude Code | Codex CLI | YAML 整合性で先行 |
| 25 | Slack 通知用シェルスクリプト | Codex CLI | Gemini CLI | Terminal-Bench 系の堅牢性 |
| 26 | Cron / systemd の運用スクリプト | Codex CLI | Claude Code | シェル文脈の理解度 |
| 27 | Bash → Python ポータブル化 | Codex CLI | Claude Code | スクリプト言語横断の精度 |
| 28 | ログ集約パイプライン構築 | Codex CLI | Gemini CLI | Terminal-Bench 強み領域 |
| 29 | Vault / Secret 管理スクリプト | Claude Code | Codex CLI | セキュリティ設計の自然さ |
| 30 | Grafana / Prometheus 設定 | Gemini CLI | Codex CLI | GCP / Cloud Monitoring 連携 |
運用・自動化系は、Codex CLI の Terminal-Bench 2.0 82.0% という強みが明確に活きるカテゴリです。シェルスクリプト、systemd、CI/CD パイプライン、Docker Compose のような「ターミナル文脈での連鎖タスク」は、Codex CLI を主役に据えると最も摩擦が少なくなります。一方で、Kubernetes マニフェストやセキュリティ設計のような「論理整合性が支配する」タスクは Claude Code が依然強く、GCP 系インフラは Gemini CLI が認証統合の優位性を持ちます。
30タスク全体を俯瞰すると、新規実装の50%・保守リファクタの70%は Claude Code、運用自動化の70%は Codex CLI、Vue / GCP / コスト最優先の局面は Gemini CLI がベスト選択になる、というおおまかな結論が見えます。本表をベースに、自社で頻発する10タスクを抜き出して再集計するのが、3者比較 PoC の最初のステップとして実用的です。
コスト試算3シナリオ(個人 / 10名 / 100名)
「結局いくらかかるのか」は、3者比較で最も問い合わせの多いテーマです。3つのシナリオで、年間 TCO(Total Cost of Ownership)をベースに比較します。前提として、API 従量課金部分は標準ユースケース(1人あたり日次 50〜200 リクエスト、1リクエスト平均 5,000 トークン入出力)を想定しています。
シナリオA:個人開発者(年間TCO)
個人開発者は「無料枠でどこまで行けるか」と「Pro 課金の損益分岐」が最大の関心です。Gemini CLI の1日1,000リクエスト無料枠は、副業や個人プロジェクトであれば十分なボリュームで、年間ゼロ円の構成も現実的に可能です。一方、Claude Code Pro と Codex CLI(ChatGPT Plus 込み)はいずれも月20ドル、年間240ドルが基本ラインで、本業開発者であれば、業務利用が日次10タスク以上に達するなら1か月で元が取れる目安です。
| プラン | 月額 | 年間 | コメント |
|---|---|---|---|
| Gemini CLI 無料 | $0 | $0 | 1,000req/日 で副業・OSS 開発に十分 |
| Gemini CLI Pro | $19.99 | $239.88 | Gemini 3.1 Pro / 大容量コンテキスト |
| Claude Code Pro | $20 | $240 | 個人で最もバランス良いプラン |
| Codex CLI + ChatGPT Plus | $20 | $240 | ChatGPT も同時に使える |
| Claude Code Max 5x | $100 | $1,200 | 個人 Power User、月数百タスク |
| Claude Code Max 20x | $200 | $2,400 | 個人事業主・1人開発会社 |
| Codex CLI + ChatGPT Pro | $200 | $2,400 | OpenAI 環境を本格利用 |
個人開発者の損益分岐は、「月50タスク以下なら無料 Gemini CLI + たまに API 従量課金」「月100〜500タスクなら Claude Code Pro または Codex Plus」「月500タスク超なら Max 5x 以上」 がおおむねの目安です。フリーランスエンジニアであれば、Pro 1つ + Gemini CLI 無料の2本立てが月20ドルで成り立ちます。
シナリオB:チーム10名(年間TCO + API従量課金)
10名チームでは、「主役プランを全員に配り、脇役で API 従量課金を共有する」構成が現実的です。本シナリオでは10名全員に Claude Code Pro、5名にだけ Codex CLI Plus、全員に Gemini CLI 無料を配布した場合の年間 TCO を試算します。
| 構成 | 月額 | 年間 | コメント |
|---|---|---|---|
| Claude Code Pro × 10名 | $200 | $2,400 | 主役 |
| Codex CLI + ChatGPT Plus × 5名 | $100 | $1,200 | レビュー・自動化担当のみ |
| Gemini CLI 無料 × 10名 | $0 | $0 | Plan モード・調査用 |
| MCP サーバー運用・自社内 LLM ゲートウェイ | $300 | $3,600 | 任意、運用コスト |
| 合計(最小構成、Pro+Plus のみ) | $300 | $3,600 | 運用コスト除く |
| 合計(運用コスト込み) | $600 | $7,200 | ガバナンス重視・運用 $300 加算 |
Claude Code Team プラン($25/seat/月)を採用すると、SSO・SCIM・監査ログ・1M コンテキスト標準などのチーム機能が付き、月額 $250、年間 $3,000 で代替可能です。組織として規模化する見込みなら、最初から Team プランで始めるのが将来の Enterprise 移行をスムーズにします。
シナリオC:組織100名(年間TCO + Enterprise + 法人ライセンス)
100名規模では、Enterprise プランと API 従量課金の組み合わせが標準的です。Anthropic がエンタープライズ運用に関する公開資料で示している傾向値として「アクティブユーザー1人あたり1日10〜15ドル」程度の利用が紹介されており、これを参照すると月稼働20日で1人あたり月200〜300ドル、100名で月20,000〜30,000ドル(年間24〜36万ドル)が現実的なレンジです。ただし、これはヘビーユーザーが API 上限を使い切る前提のケースで、実際にはシート $20-25/月 + API 従量課金(実利用に比例)という形で課金されるため、業務特性によってはもう少し抑えられるケースも多いです(実値は導入プロジェクトで個別試算が必要)。
| 構成 | 月額 | 年間 | コメント |
|---|---|---|---|
| Claude Code Enterprise シート × 100名 | $2,000-2,500 | $24,000-30,000 | SSO/SCIM/監査ログ含む |
| Claude API 従量課金(実利用) | $5,000-15,000 | $60,000-180,000 | アクティブ率と使用量による |
| Codex CLI + ChatGPT Enterprise × 50名 | $3,000 | $36,000 | OpenAI 連携重視のチーム |
| Gemini CLI Vertex AI 連携 + Workspace 既存 | $0-1,000 | $0-12,000 | Workspace 契約済みなら追加負担小 |
| MCP ゲートウェイ・社内 LLM プロキシ | $1,500 | $18,000 | 専任 SRE 含む |
| 合計(標準構成) | $11,500-23,000 | $138,000-276,000 | アクティブ率による |
| 1人あたり月額 | $115-230 | - | 公開資料の傾向値 $10-15/日 のレンジに収まる |
実務感覚では、100名組織で年間20〜30万ドルが3社のいずれか1社を主役に据えた場合のレンジで、3社併用しても10〜15%程度の上乗せで済むことが多いです。Gemini CLI が Google Workspace の既存契約に含まれる形で利用できる組織では、追加コスト負担が大幅に軽減されます。
コスト最適化の3原則
- 無料枠を最大活用: Gemini CLI の1日1,000req は捨てる手はない。Plan モードや調査用途で常用する
- Pro と API 従量の住み分け: 安定的に使う部分は Pro/Max、ピーク時のみ API 従量で吸収
- Enterprise への移行タイミング: 30〜50名規模で SSO/SCIM 要件が立ち上がるため、その時点で Team→Enterprise を検討
設定ファイル横断マッピング表(CLAUDE.md / AGENTS.md / GEMINI.md)
3つの CLI はそれぞれ独自の「プロジェクト文脈ファイル」を持ち、リポジトリのルートに配置することで自動的に読み込まれます。Claude Code は CLAUDE.md、Codex CLI は AGENTS.md(業界標準として広がりつつあるフォーマット)、Gemini CLI は GEMINI.md を採用しています。同じプロジェクトで3つを併用する場合、それぞれを別ファイルで管理するか、共通の知見を相互コピーするかの選択が必要です。
構文・読み込みパス・スコープ階層の横断比較
| 項目 | CLAUDE.md(Claude Code) | AGENTS.md(Codex CLI) | GEMINI.md(Gemini CLI) |
|---|---|---|---|
| 主要配置 | リポジトリルート / 任意の親ディレクトリ階層 | リポジトリルート / ~/.codex/AGENTS.md 等 | リポジトリルート / ~/.gemini/GEMINI.md |
| 読み込み順 | プロジェクト → グローバル ~/.claude/CLAUDE.md の階層継承 | プロジェクト → グローバル ~/.codex/ の階層継承 | プロジェクト → グローバル ~/.gemini/ の階層継承 |
| 構文形式 | Markdown 自然文 | Markdown 自然文(標準化されつつある) | Markdown 自然文 |
| サブディレクトリ別記述 | 任意のサブパスに配置可、深い階層が優先 | 同様にサブパス対応 | 同様にサブパス対応 |
| ハードコードの上限文字数 | 公式上限なし(実用上 5,000〜10,000 字推奨) | 公式上限なし | 公式上限なし |
@ ファイル参照 | 対応(@README.md 等) | 対応 | 対応 |
| シークレット記述 | 非推奨、.env 経由 | 非推奨 | 非推奨 |
| Git 管理推奨 | 推奨 | 推奨 | 推奨 |
| バージョン管理タグ | 自由 | 自由 | 自由 |
| チーム共有方法 | リポジトリ commit、Skills の personal//project/ 二層構造 | リポジトリ commit | リポジトリ commit |
コピペ可能なテンプレート(モノレポ前提)
# プロジェクト共通の文脈ファイル(CLAUDE.md / AGENTS.md / GEMINI.md で共有可能)
## プロジェクト概要
本リポジトリは [プロジェクト名] の本番ソースコードです。
ビジネスドメインは [ドメイン概要]、技術スタックは [Next.js / TypeScript / Prisma 等] です。
## コーディング規約
- TypeScript の strict モードを必須とする
- 型推論で十分な箇所は明示型を書かない
- import は absolute path(`@/lib/...`)を優先
## ファイル構造
- `apps/` — Web / Mobile / Worker などのアプリケーション
- `packages/` — 共有ライブラリ
- `prisma/` — DB スキーマと migrations
## テスト方針
- Vitest + Testing Library を採用
- カバレッジ80%以上を目標
- E2E は Playwright で月次回帰
## 禁止事項
- console.log を本番コードに残さない
- any 型を新規導入しない
- 個別の secret はリポジトリにコミットしない
このテンプレートを CLAUDE.md AGENTS.md GEMINI.md の3つに同じ内容で配置すれば、3つのCLIが同じ前提知識で動作します。注意点として、各CLIは「自分の名前のファイルだけ」を自動読み込みする仕様のため、シンボリックリンクで AGENTS.md → CLAUDE.md を貼る運用を選ぶチームもあります(ただし、CLI 側のファイル検出実装や OS のシンボリックリンク扱いによっては動作しない・読まれないケースもあるため、必ず PoC 段階で各CLI の動作を確認してください。確実なのは3ファイルを同一内容で個別配置する方法です)。
設定ファイル運用ベストプラクティス
- 階層継承: グローバル(
~/.claude/CLAUDE.md等)にコーディング規約を、プロジェクトの./CLAUDE.mdにプロジェクト固有知識を、サブパッケージの./packages/foo/CLAUDE.mdにパッケージ固有制約を分配 - Git 管理: 必ずバージョン管理し、PRレビューの対象にする
- 更新フロー: 月次でメンテし、古くなった記述は明示的に削除
- チーム共有: Skills(Claude Code)や
~/.codex/のリポジトリ化で、組織知識を再利用可能にする
MCPサーバー互換性表
MCP(Model Context Protocol)は Anthropic が2024年末に発表したオープンプロトコルで、AI エージェントが外部ツール(DB、API、ドキュメント、ブラウザ等)と統一インターフェースで通信する仕組みです。2026年5月時点では、Claude Code が最も成熟、Gemini CLI が正式サポート対応中、Codex CLI が拡充中という段階です。実務的な疑問は「同じMCPサーバーを3つで動かしたとき、どこまで互換性があるか」ですが、これを検証した記事は競合では見当たりません。本節では代表的な MCP サーバー10本を3ツールで動作確認した結果を表で示します。
MCP互換性マトリクス(10本 × 3ツール)
| MCP サーバー | Claude Code | Gemini CLI | Codex CLI | コメント |
|---|---|---|---|---|
| filesystem(ローカルファイル) | ◎ | ◎ | ○ | Codex は権限制御がやや弱め |
| github(リポジトリ操作) | ◎ | ○ | ◎ | Codex は GitHub ネイティブで最強、Gemini は API key 必須 |
| postgres(DBクエリ) | ◎ | △ | △ | Gemini/Codex は2026年5月時点で接続安定性が低い |
| slack(メッセージ送信) | ◎ | ○ | ○ | 全社で利用可、ただし権限スコープが各社で違う |
| sentry(エラートラッキング) | ◎ | ○ | △ | Codex は2026年Q3 対応予定 |
| browser-use(ブラウザ操作) | ◎ | ○ | ○ | Gemini は Cloud Shell 経由の制約あり |
| context7(ドキュメント検索) | ◎ | ○ | △ | Anthropic 発のため Claude Code で最適 |
| playwright(E2E自動化) | ◎ | ○ | ◎ | 全社で実用レベル |
| search-console(GSC データ) | ◎ | ◎ | △ | Gemini は Google 認証連携で最強 |
| chrome-devtools(パフォーマンス計測) | ◎ | ○ | ○ | 大差なし |
判定基準: ◎ = 公式サポート・本番運用可、○ = 動作するが一部制約、△ = 動作するが安定性に課題、× = 未対応。
MCP導入時の落とし穴
- 認証方式の違い: Claude Code は OAuth、Codex CLI は API キー、Gemini CLI は Google アカウント連携が中心で、同じ MCP でも3社で認証経路が異なる
- タイムアウト設定: 3社で MCP タイムアウトのデフォルト値が違うため、長時間タスクで失敗する場合は config を上書きする
- 権限スコープ: Slack や GitHub のような外部サービスでは、3社で要求するスコープが微妙に違うことがあり、最小権限原則で見直しが必要
- バージョン互換性: MCP サーバー自体の更新で3社のどれかが先に追従するケースが多いため、リリースノートを毎月確認する運用が必要
MCP互換性で覚えておくべき結論は、**「Claude Code が MCP の参考実装」「Gemini CLI は Google 系サービス・90+拡張で広い」「Codex CLI は GitHub・OpenAI 系で深い」**という分業構造です。3つすべてで使いたい MCP がある場合は、Claude Code を基準に検証し、他2社で動かない場合の代替(独自プロキシ・サードパーティブリッジ)を準備する手順が安全です。
法人ライセンス比較表
法人で導入する際、シート単価以上に重要なのが「コンプライアンス9項目」です。本節では SSO / SCIM / 監査ログ / SOC 2 / ISO 27001 / HIPAA / SLA / データレジデンシー / オンプレ対応 を3社で横並びにします。
法人ライセンス9項目の横断比較
| 項目 | Claude Code Enterprise | Gemini CLI(Workspace + Vertex AI) | Codex CLI(ChatGPT Enterprise) |
|---|---|---|---|
| シート単価レンジ | $20-25/seat/月 + API 従量 | Workspace 既存に含まれる / Vertex AI 従量 | 個別見積(業界の実勢報告では $60/seat/月前後とも) |
| 最小シート数 | 5(Team) / 20(Enterprise self-serve) | Workspace 既存に依存 | 個別見積(業界の実勢報告では150 seat 前後とも) |
| SSO(SAML 2.0 / OIDC) | ◎ Enterprise 既定 | ◎ Workspace 経由 | ◎ Enterprise 既定 |
| SCIM プロビジョニング | ◎ Enterprise 既定 | ◎ Workspace 経由 | ◎ Enterprise 既定 |
| 監査ログ | ◎ 90日〜カスタム | ◎ Workspace Admin と統合 | ◎ Enterprise Admin Console |
| データ保持・削除 | カスタム設定可、Zero Data Retention 対応 | カスタム設定可、学習除外既定 | Enterprise/API でデータ保持カスタム可、Zero Data Retention は申請ベース |
| データレジデンシー | US / EU 選択可 | 複数リージョン選択可 | US(一部 EU 対応中) |
| オンプレ・VPC 対応 | Claude on AWS Bedrock / GCP Vertex / Azure 等 | Vertex AI Private Service Connect | Azure OpenAI 経由 |
| SOC 2 Type II | ◎ | ◎ Google Cloud 経由 | ◎ |
| ISO 27001 / 27017 / 27018 | ◎ | ◎ Google Cloud 経由 | ◎ |
| HIPAA BAA | ◎ Enterprise で締結可 | ◎ Workspace 経由で締結可 | ◎ Enterprise で締結可 |
| SLA | 99.9%(Enterprise) | Workspace SLA に準拠 | 99.9%(Enterprise) |
法人選定の意思決定3軸
- 既存契約との重複: Google Workspace 契約済みなら Gemini CLI が追加コストほぼゼロ、ChatGPT Enterprise 契約済みなら Codex CLI 追加コストゼロ
- データレジデンシー要件: EU・APAC でのデータ保管が必須なら、Claude(AWS Bedrock EU)か Gemini(Vertex AI 各リージョン)が現実的
- クラウド連携: AWS 中心の組織は Claude on Bedrock、GCP 中心は Gemini Vertex AI、Azure 中心は Codex Azure OpenAI が摩擦が少ない
法人比較で覚えておくべきポイントは、**「ChatGPT Enterprise / Claude Enterprise / Gemini Workspace のいずれかは既に契約している組織が多い」**という現実です。3者比較 PoC を始める前に、既存契約の Enterprise プランで使える範囲を再確認するだけで、年間数百万円の節約につながるケースがよくあります。
「全部使う」併用パターン
3つのターミナルAIエージェントを併用する組織は2026年に増えています。理由は単純で、「1ツールで全部やる」のが品質・コスト・速度のいずれかで頭打ちになる場面が増えてきたからです。本節では Plan → Implement → Review → Deploy の4フェーズに、3ツールの役割を分担する具体パターンを提示します。
役割分担マトリクス
| フェーズ | パターンA(品質最優先) | パターンB(コスト最優先) | パターンC(GitHub中心) |
|---|---|---|---|
| Plan(要件・設計) | Gemini CLI(Plan Mode) | Gemini CLI(無料) | Claude Code |
| Implement(実装) | Claude Code(Subagent) | Claude Code Pro | Codex CLI |
| Review(コードレビュー) | Codex CLI(@codex メンション) | Codex CLI Plus | Codex CLI |
| Deploy(CI/CD・自動化) | Codex CLI(GitHub Actions) | Codex CLI | Codex CLI(ネイティブ) |
パターンA:品質最優先(5〜50名チーム)
Claude Code を主役、Gemini CLI を Plan モード、Codex CLI を Pull Request レビューに使う構成です。Plan モードを Gemini CLI で実施するメリットは、書き込みを一切させずに100万トークンの広いコンテキストでリポジトリ全体を読み、戦略を文章で出力できる点です。これを Claude Code に渡すことで、koromo の社内検証における体感では実装フェーズの精度が15〜25%向上するケースが多い印象です。Review を Codex CLI に分けるのは、Claude Code 自身でレビューすると「実装した本人がレビューする」状態になり、見落としが起こりやすいためです。
パターンB:コスト最優先(個人〜3名スタートアップ)
無料の Gemini CLI を Plan・調査用、Claude Code Pro を本実装、Codex CLI Plus(ChatGPT Plus に含まれる)をレビュー・自動化に使う構成です。月額の追加コストは Pro $20 + Plus $20 の40ドルで、3名チームでも月120ドル(年間1,440ドル)で運用できます。Gemini CLI の1日1,000req 無料枠を Plan モードで使い倒すのがこのパターンの肝です。
パターンC:GitHub中心(OpenAI/GitHub Actions 基盤組織)
Codex CLI を主役、Claude Code Pro を脇役(複雑なリファクタ時のみ)、Gemini CLI を無料で調査用に使う構成です。GitHub Actions が CI/CD の中心、Pull Request 起点の開発文化、既に ChatGPT Enterprise を契約済み、という条件が揃っている組織で最も摩擦が少なくなります。Codex の @codex メンションでレビュー・PR 作成・Issue 処理が完結するため、GitHub の作業フローを大きく変えずに導入できます。
併用時のトークン管理戦略
3つ併用すると、それぞれのコンテキストウィンドウを別々に使うことになるため、合計のトークン消費が単独利用の2〜3倍に膨らみがちです。実務では以下の3原則で抑えます。
- 役割を限定: 各ツールに「Plan 専用」「実装専用」のように役割を縛り、コンテキストを目的特化させる
- コンテキストの分割: 大きなリポジトリ全体を1セッションで読み込まず、フェーズごとに必要パスだけを渡す
- キャッシュ活用: Claude Code の prompt caching、Codex の native compaction、Gemini CLI の Auto Memory Inbox を意識的に使う
日本語性能と操作感の違い
日本語性能は数値化が難しい一方、日本市場では選定の重要要素です。3社を実際に日本語で運用したkoromo の体感評価を整理します。
Claude Code は確認プロンプトとエラー文の自然さで先行しています。「このファイルを書き換えてよいですか?」のような確認文が、英語圏のフォーマルさを残しつつ日本語として自然で、技術用語の混在も適切です。コードコメントの日本語生成も、句読点・敬体常体の一貫性が3社で最も高く、社内ドキュメント生成に流用しやすいです。
Gemini CLI は Plan モードの説明文の丁寧さと長文要約の精度が強みです。100万トークンの広いコンテキストで日本語仕様書・議事録・要件定義書を一括処理するシナリオで安定しています。一方で、コミット文・PR タイトルの英日混在で日本語が混入することがあり、英語統一を強制したい組織では Skills や CLAUDE.md 側で明示する必要があります。
Codex CLI はコミット文・PR テンプレートのフォーマットが整っており、Conventional Commits 形式の日本語化が綺麗です。ただし、エラー文や対話文では「で〜あります」のような不自然な敬体が稀に混入する報告があり、Plan モード相当の機能が弱いため戦略文書の生成は Claude Code・Gemini CLI に劣ります。
総合的な日本語性能は Claude Code ≧ Gemini CLI > Codex CLI の順で、ただし用途別では Plan・要約は Gemini、コミット・PR は Codex、コード品質と確認文は Claude、という棲み分けが現実的です。
3者比較PoCのよくある失敗5選
3社を比較検証する PoC で頻発する失敗パターンを、koromo の AI 開発・ターミナルAI 導入支援の現場でよく観察される事例から5つに絞ります。これらを事前に回避すれば、PoC 期間を体感ベースで30〜50%短縮できるケースが多いと感じています。
失敗1:ベンチマークスコアの妄信
「SWE-Bench Verified が高いから採用」と決め打ちすると、実タスクで期待と乖離しやすい失敗です。ベンチマークは特定のタスク群で測定されたスナップショットで、自社の業務分布とは一致しない場合がほとんどです。回避策は、本記事の「タスク特性別フローチャート(30タスク分類)」を参考に、自社で頻発する10タスクを抜き出して各 CLI で実測することです。
失敗2:無料枠と従量課金の見落とし
Gemini CLI の無料枠だけで運用を始めて、API 従量課金部分の管理を怠ると、半年後に予想外の請求が来るケースが多発します。Vertex AI 経由の課金は、無料枠を超えた瞬間からトークン単位で発生し、特に Plan モードを多用すると入力トークンが膨らみがちです。回避策は、PoC 開始時に「無料枠 vs Pro 課金 vs API 従量」の3通りで月次予算を見積もり、しきい値アラートを設定することです。
失敗3:MCP 未整備で機能を引き出せない
3ツールとも MCP に対応していますが、自社で使うサーバー(DB / 監視 / Slack / GitHub 等)を MCP 化していないと、エージェント本来の力が引き出せません。CLI を単独で動かす範囲では git・npm・docker 程度しか使えず、自動化の価値が半減します。回避策は、PoC 開始前に「必ず接続したい外部システム5つ」を選び、MCP サーバー化または既製サーバー導入を完了させてから検証することです。
失敗4:並列実行とコスト上限の設定漏れ
Claude Code の Subagent や Codex CLI のバッチ実行を、上限設定なしで走らせると、API 課金が短時間で膨らみます。10並列のリファクタタスクが、各サブエージェント10K トークン消費すると、1回で100K トークンが飛びます。回避策は、各 CLI の max-tokens・max-concurrent 設定を組織のガバナンス基準で明示し、API キーレベルで月次上限を設定することです。
失敗5:設定ファイル(CLAUDE.md / AGENTS.md / GEMINI.md)の分散管理
3つの CLI で別々に設定ファイルを書き、内容がズレると、ツール間でコードスタイルが揺れる原因になります。回避策は、本記事の「設定ファイル横断マッピング表」のテンプレートを共通文脈として1つ書き、3ファイルで内容を揃える(手動コピーまたはシンボリックリンク)ことです。中長期的には、Skills(Claude Code)に組織知識を集約し、必要部分だけ AGENTS.md / GEMINI.md に転記する運用が安定します。
よくある質問(FAQ)
まとめと3者比較PoC支援
2026年5月時点で、ターミナルAIエージェントの主役は Claude Code / Gemini CLI / Codex CLI の3つにほぼ固まりました。3つの差は「1ツールで全部こなせる時代の終わり」を意味し、組織の業務分布と既存契約に応じて主役1つ+脇役2つを配置するのが現実解です。本記事の10軸比較表、30タスク特性別フローチャート、コスト試算3シナリオ、設定ファイル横断マッピング、MCP 互換性表、法人ライセンス9項目、3者併用パターンを、自社の状況に合わせて再集計するだけで、外しの少ない選定ができます。
koromoは本記事に加えて、以下のクラスター構造を整備しています。自社のフェーズに合わせて深掘りに進んでください。
- AIコーディングエージェント主要6ツール比較(ピラー) — CLI / IDE / クラウドまで含めた全体俯瞰
- Claude Code と OpenAI Codex CLI の詳細比較 — 2軸の深掘り比較
- OpenAI Codex CLI 完全ガイド — Codex 単独で深く学ぶ
- Gemini 3.1 Pro モデル詳細 — Gemini CLI の背景モデル
- Claude Code と Cursor の使い分け — CLI と IDE のハイブリッド
- ChatGPT・Claude・Gemini・Genspark 4軸比較 — チャット型UIの比較
- Claude Code トラブルシューティングガイド — 運用上の困りごと
- Claude Code Git ワークフロー — チーム開発でのGit運用
3者比較 PoC を自社で進めたいが「30タスク × 3ツールの実測が回せない」「設定ファイル運用とMCP 整備のリソースが足りない」「法人ライセンスの選定で詰まっている」という場合は、koromoの3者比較PoC 支援サービスをご検討ください。AI開発・ターミナルAIエージェント導入支援の実績に基づき、自社の業務分布に最適化した主役1つ+脇役2つの設計、PoC 期間2〜4週間での実測、ガバナンス9項目の整備、3か月後の TCO 最適化まで伴走します。お問い合わせはkoromoの相談フォームからお気軽にどうぞ。


