development·

Claude Code × Codex 併用ワークフロー完全ガイド 2026|20タスク振り分け・AGENTS.md/CLAUDE.md 同時運用・CI YAML・コスト試算で組織導入する

Claude Code(Opus 4.7 / SWE-bench Pro 64.3%)と OpenAI Codex(GPT-5.5 / Terminal-Bench 2.0 82.0%)を併用するための完全ガイド。20タスク振り分けマトリクス、AGENTS.md ↔ CLAUDE.md 同時運用テンプレ、CI/CD GitHub Actions 完全YAML、コスト試算3シナリオ、PoC→組織展開ロードマップ、失敗パターン5選を 2026 年 5 月の一次ソース裏取りで体系化。両モデルの強みを取り合わずに組み合わせる、レビュー駆動チーム運用の決定版。

Claude Code × Codex 併用ワークフロー完全ガイド 2026|20タスク振り分け・AGENTS.md/CLAUDE.md 同時運用・CI YAML・コスト試算で組織導入する

Claude Code と OpenAI Codex は、しばしば「どちらか一方を選ぶ」対立軸で語られてきました。しかし 2026 年 5 月時点で両者のベンチマーク結果を一次ソースで確認すると、Claude Opus 4.7 は SWE-bench Pro で 64.3 % の首位Codex CLI + GPT-5.5 は Terminal-Bench 2.0 で 82.0 % の首位と、得意領域が綺麗に分かれています。つまり「どちらが優れているか」ではなく、「どう組ませると最も効くか」が現実的な問いになりました。

本記事は、両エージェントを 同じリポジトリ・同じチームで併用する ための実務ガイドです。タスクをどちらに振るかの 20 件マトリクス、AGENTS.md と CLAUDE.md を二重管理にしない雛形、GitHub Actions で呼び分けるフル YAML、単独利用と併用とエンタープライズの 3 シナリオ月額試算、PoC から組織展開までのロードマップ、そして実運用で頻発する失敗 5 パターンとその対策まで、合計で約 20,000 字の純テキストで踏み込みます。「Claude Code か Codex か」で立ち止まっている読者には、両取りで動かす設計図として活用いただけるはずです。

免責事項: 本記事のモデル名・ベンチマークスコア・料金は 2026 年 5 月 20 日時点の各社公式ドキュメントおよびリーダーボードに基づきます。料金とスコアは継続的に変動するため、本番判断の際は Anthropic 公式の Claude Pricing ページOpenAI 公式の Codex Pricing ページ、および Terminal-Bench 2.0 リーダーボード で最新値を確認してください。

TL;DR — 5 行で読む Claude Code × Codex 併用設計

  • 得意領域が綺麗に分かれるため、併用は「両刀」ではなく「分業」と捉えるのが正しい。設計と複雑なリファクタは Claude Code(Opus 4.7、SWE-bench Pro 64.3 %)、量産・実行委譲・CI バッチは Codex(GPT-5.5、Terminal-Bench 2.0 82.0 %)。
  • 規約は AGENTS.md を主、CLAUDE.md を従にして二重管理を避ける。@AGENTS.md をルートに置き、CLAUDE.md は Claude Code 固有の Skills / Subagents / Slash Commands 索引に絞り込む。
  • タスク振り分けは 20 件マトリクスを「決定木」として共有する。設計議論・ドメイン理解・大規模リファクタは Claude、独立タスクの量産・CLI 中心の操作・PR 自動レビューは Codex。判断に迷ったら順方向(Claude → Codex)ワークフローで両方を流す。
  • **コスト感は単独 20 ドル/月、併用 120 ドル/月、エンタープライズ 400 ドル/月+**が目安。エンジニア 1 人当たり月 2〜3 時間の節約で、併用プランは損益分岐に届く。
  • 失敗の 8 割は drift・命名衝突・メモリ不一致・IP 判断・コンテキスト共有遅延の 5 パターンに集約される。pre-commit hook と命名規約で先回りすれば、運用負荷は最小化できる。

目次

  1. 結論:併用すべきか、どちらか 1 つで十分か
  2. Claude Code と Codex の基本特性(2026 年 5 月版)
  3. なぜ「vs」ではなく「×」なのか — 併用が成立する 3 つの理由
  4. タスク振り分けマトリクス:20 タスクの決定木
  5. AGENTS.md ↔ CLAUDE.md 同時運用テンプレ
  6. 分業ワークフロー① 順方向:Claude で設計 → Codex で実装
  7. 分業ワークフロー② 逆方向:Codex でラフ → Claude でリファクタ
  8. CI/CD で両者を呼び分ける GitHub Actions 完全実装
  9. コスト試算:3 シナリオで見る損益分岐点
  10. チーム導入ロードマップ:PoC → 標準化 → 組織展開
  11. 失敗パターン 5 選と対策
  12. ベンチマーク解釈:Terminal-Bench と SWE-bench の業務翻訳
  13. まとめ:併用の判断フレーム
  14. よくある質問(FAQ)

結論:併用すべきか、どちらか 1 つで十分か

結論から先に置きます。2026 年 5 月時点で、継続的にプロダクション開発に AI エージェントを組み込んでいるチームには、Claude Code と Codex の併用を推奨します。理由はシンプルで、両者のベンチマーク上位タスクが重ならないからです。SWE-bench Pro(実 OSS の修正課題、複数言語横断)では Claude Opus 4.7(Adaptive)が 64.3 % で首位、Terminal-Bench 2.0(CLI 操作・環境構築・長期タスク)では Codex CLI + GPT-5.5 が 82.0 % で首位というのが、最新のリーダーボード状況です。同じ仕事を両方に投げると、得意な側が早く確実に片付け、苦手な側は遠回りするか間違えます。

ただし、すべてのチームに併用が最適というわけではありません。次の 3 条件のいずれかに当てはまる場合は、まず単独利用から始めて、必要に応じて拡張するほうが合理的です。第一に、エンジニアが 1 人で開発しているスタートアップで月のコーディング時間が 100 時間以下のケース。第二に、扱うリポジトリが小規模かつ単一言語で、CLI 操作よりエディタ内補完が主体のケース。第三に、社内の情報セキュリティ規程でクラウド送信が一切禁止されており、ローカル LLM 中心の運用しか取れないケース。これらに該当する場合は、Claude Code(または Codex のどちらか)に絞り、慣れてから併用判断をして十分です。

一方で、次のシグナルが 1 つでも揃ったらすぐに併用を検討してください。週次の PR 数が 10 本を超え、設計品質と実装速度の両方を求められる、あるいはチーム規模が 4 人以上でレビュー負荷が顕在化している、あるいは CI で AI レビューを自動化したいといったケースです。これらは、片方のエージェントだけで賄うとどこかが詰まる典型的なボトルネック構造で、併用にすると「強い側に強い仕事を割り当てる」だけで全体スループットが上がります。

Claude Code と Codex の基本特性(2026 年 5 月版)

併用を設計するためには、まず両者の素性を 2026 年 5 月時点の最新仕様で揃えておく必要があります。半年前の比較記事は、Claude 側が Opus 4.7 へ更新され、OpenAI 側が GPT-5.5-codex を含む新ラインナップに置き換わったことで、前提条件から陳腐化しています。ここでは、両者の現在地を簡潔に整理します。なお単独比較の網羅版は Claude Code と Codex CLI の単独比較記事でも扱っているため、深掘り情報はそちらも参照してください。

Claude Code(Opus 4.7)の特性

Claude Code は Anthropic が提供するターミナル型コーディングエージェントで、2026 年 4 月リリースの Claude Opus 4.7 を主力モデルとしています。Opus 4.7 は SWE-bench Pro(複数言語横断・実 OSS 修正タスク)で 64.3 % を記録し、非プレビューモデルでは現時点の首位です。Claude Code は Skills、Subagents、Plan Mode、Slash Commands、MCP(Model Context Protocol)といった拡張機構を備え、設計議論や仕様策定など「文脈を読み込んで提案する」タスクで強みを発揮します。設定ファイルは伝統的に CLAUDE.md を使い、リポジトリ直下に置くことで実装規約・ドメイン用語・テスト方針を読み込ませる運用が主流です。Skills の詳細は Claude Code の Subagents 完全ガイドCLAUDE.md の書き方ガイド で詳述しています。

特徴的なのは、「議論しながら一緒に進める」対話モデルである点です。Plan Mode で計画を提示してユーザーの承認を待ち、Subagent で長文タスクを切り出し、Skills で再利用可能な手順を呼び出す、という流れが組み込みで用意されています。SWE-bench Pro が示すように、実 OSS の複雑な修正タスクを高精度で完遂する力が強く、設計の一貫性を保ったまま広範囲を変更する作業には現時点で最適です。一方で、Terminal-Bench 2.0 のような CLI 中心・環境操作中心の長期タスクでは、トークン消費が大きくなる傾向があります。

Codex CLI / Codex Cloud(GPT-5.5-codex)の特性

OpenAI Codex は、2026 年時点でローカル実行の Codex CLI、クラウドサンドボックス実行の Codex Cloud、そして GitHub Actions 用の codex-action の 3 形態が揃っています。主力モデルは GPT-5.5(および GPT-5.2-Codex、GPT-5.1-Codex-Max)で、Terminal-Bench 2.0 リーダーボードでは Codex CLI + GPT-5.5 が 82.0 %(2026-04-23 集計)で首位を維持しています。実装は Rust ベースで起動が高速、isolated sandbox を最大 8 並列まで回せる点が大きな強みです。詳細は OpenAI Codex CLI 完全ガイド を参照してください。

Codex のもう 1 つの特徴は、「タスクを渡して結果を受け取る」委譲モデルです。Codex Cloud にタスクを投げると、隔離環境にリポジトリをチェックアウトし、独立して作業し、最後に Pull Request を作成します。ChatGPT Pro $100 プランが 2026 年 4 月 9 日にリリースされ、Codex 利用枠が Plus の 5 倍へ拡張されました(※ローンチ記念として 2026 年 5 月 31 日までは 2 倍プロモが適用され、実質 10 倍。期間終了後は 5 倍が恒常仕様)。この拡張により、長時間タスクの委譲が現実的になりました。設定ファイルは AGENTS.md を採用し、Claude Code に依存しない汎用フォーマットとして「複数 AI ツールが参照する正典」の位置づけを取っています。

ベンチマーク数値の意味:SWE-bench Pro 1 位 vs Terminal-Bench 2.0 1 位

ベンチマークの数値は、業務適用のヒントとして読み解く必要があります。SWE-bench Pro は、複数言語にまたがる実 OSS(オープンソース)リポジトリの修正タスクで、人間が書いたバグ票と PR の対応関係を再現させる課題です。Claude Opus 4.7(Adaptive)が 64.3 % で非プレビュー首位、GPT-5.5 が 58.6 % と続きます(Vellum 解説 集計)。つまり「既存コードベースを読み込んで広範囲の修正を加える」タスクでは Claude Code に分があります。一方の Terminal-Bench 2.0 は、CLI で環境を構築し、長期的なコマンド操作を行う 89 タスクで構成されています。Codex CLI + GPT-5.5 が 82.0 % で首位、Forge Code + GPT-5.4 が 81.8 % と続きます(tbench.ai 公式リーダーボード の 2026-04-23 集計)。「コマンドラインで完結する独立タスクを大量に処理する」運用では Codex に分があります

比較軸Claude Code(Opus 4.7)Codex(GPT-5.5)
主力モデルClaude Opus 4.7(Adaptive)GPT-5.5 / GPT-5.2-Codex / GPT-5.1-Codex-Max
SWE-bench Pro64.3 %(非プレビュー首位)58.6 %(GPT-5.5)
Terminal-Bench 2.0リーダーボード上位非掲載(参考: Claude Code 系スキャフォールドは Codex CLI を下回る)82.0 %(Codex CLI + GPT-5.5、首位)
実行モデル対話的・ローカル中心委譲的・Cloud sandbox + Local CLI
規約ファイルCLAUDE.mdAGENTS.md
並列実行Agent Teams(共有タスクリスト)manager-worker 最大 8 並列
サブスクリプションPro $20 / Max 5x $100 / Max 20x $200Plus $20 / Pro $100 / Pro $200
強い領域設計議論・大規模リファクタ・MCP 統合CLI 操作・量産タスク・CI バッチ

この表を 1 枚絵としてチームに共有しておくと、「このタスクはどっちに振る?」という会話が生まれやすくなります。ベンチマーク数値はあくまで参考ですが、自分たちの仕事のうち SWE-bench Pro 的なタスクが多いか、Terminal-Bench 2.0 的なタスクが多いかを棚卸ししておくだけで、振り分け判断は驚くほどスムーズになります。

なぜ「vs」ではなく「×」なのか — 併用が成立する 3 つの理由

「両方契約するのは贅沢ではないか」という疑問は当然出ます。にもかかわらず併用が合理的な理由は、表面的な機能比較を超えた 3 つの構造的メリット にあります。

理由①:得意領域が重ならない

最大の理由は、すでに見た通り、ベンチマーク首位タスクが綺麗に分かれていることです。SWE-bench Pro と Terminal-Bench 2.0 で首位が逆転しているという事実は、両者のモデル特性・スキャフォールド設計・コンテキスト戦略が根本的に異なっていることを示しています。実務で見ても、「ドメインロジックの議論を Claude にさせると行間を読んで提案してくる」「環境構築や CLI バッチを Codex に委譲すると黙々と片付ける」という対照は明確です。得意な領域が重ならないツールを組み合わせるのは、専門の異なる 2 人を雇うのと同じ発想で、コストの問題はあっても代替性の問題は生じません。

理由②:レビュー駆動でセカンドオピニオンが回る

併用の隠れた効果として大きいのが、お互いをレビュアーに使えることです。Claude Code が書いたコードを Codex でレビューさせ、Codex が書いたコードを Claude Code でレビューさせる構造を作ると、異なるモデルからのセカンドオピニオンが自動的に得られます。同じモデルの自己レビューは見落としが残りやすいのに対し、別のモデルが入ると「気付きの粒度」が変わります。実際、設計段階で気付かなかったエッジケースを Codex のレビューで指摘されたり、Codex が組んだ実装の保守性を Claude Code がリファクタ提案として返したり、というやり取りが日常化します。これは単独利用では再現が難しい併用ならではの効能です。

理由③:コンテキストの省エネ効果

3 番目の理由は、コンテキストの消費を分散できることです。Claude Code を 1 つの長セッションで使い続けると、コンテキストが圧迫されて応答が遅くなったり、過去の文脈が抜け落ちる現象が起きます。これに対して Codex CLI / Codex Cloud は isolated sandbox を独立に立ち上げる仕組みのため、「独立タスクは Codex に逃がす」だけで Claude Code 側のコンテキストを長く保てます。設計議論を Claude Code に集中させ、実装の量産・テスト実行・依存更新を Codex に切り出すと、両者ともに「自分が得意なタスクだけを処理する」状態になり、結果として総合的なコンテキスト効率が大きく改善します。

タスク振り分けマトリクス:20 タスクの決定木

ここからが本記事の実務的な核です。日々発生するタスクをどちらに振るか、20 件の典型例で整理しました。「コンテキスト依存度」「変更の並列度」「対話の必要性」「環境操作の比重」の 4 軸から判定しています。導入チームではこの表をそのままチーム Wiki に貼り、振り分けの共通言語にしてください。

マトリクスの読み方と 4 つの判断軸

判断軸は次の 4 つです。コンテキスト依存度は、リポジトリ固有の規約・ドメイン用語・過去経緯を読み込む必要がどれほど高いかです。高いほど Claude Code が有利になります。変更の並列度は、同時に独立して進められるサブタスクが何本あるかです。高いほど Codex の並列実行が活きます。対話の必要性は、進めながら方針を相談する余地がどれほど大きいかです。高いほど Claude Code の Plan Mode が活きます。環境操作の比重は、ファイル編集よりシェル操作・依存管理・CI 設定が中心になる比率です。高いほど Codex CLI が活きます。

20 タスク × 推奨ツール(一覧表)

#タスクコンテキスト依存度並列度対話性環境操作推奨
1新機能の仕様策定とアーキ提案Claude Code
2既存大規模モジュールのリファクタ計画Claude Code
3ドメイン用語の整理と語彙ファイル化Claude Code
4仕様書からの API スケルトン生成Claude Code(設計)→ Codex(量産)
5OSS への重めの PR(クロス言語修正)Claude Code(SWE-bench Pro 1位)
6npm 依存の一斉更新と動作確認Codex Cloud
7Dockerfile・docker-compose の改修Codex CLI
8テスト網羅率の向上(並列 PR)Codex Cloud
9リファクタの自動レビュー(PR コメント)Codex(PR レビュー)
10バグ票からの再現スクリプト作成Codex CLI
11フロントエンドのアクセシビリティ改修Claude Code
12DB マイグレーションの設計Claude Code(設計)→ Codex(実行)
13エラーログから根本原因の調査Claude Code
14CI 失敗の修復(軽微なフラッキー)Codex Cloud
15ライセンス監査と SBOM 出力Codex CLI
16API ドキュメントの再生成Codex CLI
17設計レビューのセカンドオピニオン両方(Claude → Codex で交差レビュー)
18監視ダッシュボードの設定(Terraform)Codex CLI
19重要ドメインのバグ修正(顧客報告)Claude Code
20古いリポの規約遵守を一括整備Codex Cloud

この表は「迷ったらどう振るか」の決定リファレンスです。判断に迷う行(4、12、17 など)は順方向ワークフロー(後述)を使い、両方を流すのが最も後悔が少ない選択です。

判断に迷うタスクへのフローチャート

それでも迷うときは、次の 4 ステップで判断してください。第一に「このタスクは仕様や設計を議論する必要があるか」と問います。Yes なら Claude Code。第二に「同時に独立して動かせるサブタスクが 3 本以上あるか」と問います。Yes なら Codex。第三に「環境構築・CI 設定・依存更新など CLI 操作が主か」と問います。Yes なら Codex。第四に「自分一人で 30 分以上手が止まるか」と問います。Yes なら Claude Code(Plan Mode で要件を整理させる)。この順番で判定すると、判断のブレが大きく減ります。

AGENTS.md ↔ CLAUDE.md 同時運用テンプレ

両エージェントを併用するうえで最大の落とし穴が、規約ファイルの二重管理です。Claude Code は CLAUDE.md を、Codex は AGENTS.md を読みます。両方を別々に書き続けるとあっという間に drift(同期ズレ)が発生し、片方には書いてあるルールがもう片方には抜けているという混乱が日常化します。ここでは drift を防ぐ実用的な 2 層モデルを示します。

2 層規約モデルの設計思想

設計思想はシンプルです。**AGENTS.md を「共通の正」、CLAUDE.md を「Claude Code 固有の索引」**として役割を分けます。プロジェクトの開発規約・ドメイン用語・テスト方針・コミット規約のような「どの AI が読んでも同じ意味を持つルール」は、すべて AGENTS.md に書きます。一方、Skills の場所、Subagent の役割、Slash Commands の一覧、Plan Mode の発動条件など、Claude Code 固有の拡張機構に関する情報だけを CLAUDE.md に書き、冒頭で @AGENTS.md を import します。こうすることで、共通ルールは一箇所に集約され、二重管理が消えます。

AGENTS.md 雛形(コピペ可)

次の雛形は、Claude Code と Codex の両方が読むことを前提に設計した実用版です。プロジェクトに応じてセクションを増減してください。

# AGENTS.md

このリポジトリは Claude Code と OpenAI Codex の両方を利用しています。
両エージェントが共通で守るべき規約は本ファイルに記載します。

## 1. プロジェクト概要
- プロダクト:[サービス名]
- 主要言語:TypeScript(Next.js 16)/ Python 3.12
- データストア:PostgreSQL 17, Redis 7

## 2. コーディング規約
- フォーマッタ:Prettier 4 / Black 25
- リンタ:ESLint 10 / Ruff
- 関数 1 つの行数:50 行以内
- ファイル 1 つの行数:400 行推奨 / 800 行最大

## 3. テスト方針
- 単体テスト:Vitest / pytest(カバレッジ 80% 以上)
- E2E:Playwright(主要動線のみ)
- TDD:Red → Green → Refactor を厳守

## 4. コミット・PR 規約
- コミットメッセージ:Conventional Commits(feat / fix / chore / docs / refactor)
- PR タイトル:70 文字以内
- 直接 main へ push 禁止。必ずブランチから PR を切る

## 5. ドメイン用語集
- 顧客(Customer):プロダクトを契約している法人
- 利用者(User):顧客企業に所属する個別ユーザー
- セッション(Session):1 回の通話単位(最大 60 分)

## 6. 機密情報の取り扱い
- API キー・トークンはコードに書かない(環境変数のみ)
- 顧客データ(PII)のサンプリングは禁止
- データベース dump の取得はステージング環境のみ

## 7. 学習・引き継ぎ
- 過去の判断・失敗事例は AGENT_LEARNINGS.md に追記
- 新規ルールを追加したら最終更新日を本ファイル末尾に追記

最終更新:2026-05-20

CLAUDE.md 雛形(@import + 拡張)

CLAUDE.md は AGENTS.md を import し、Claude Code 固有の情報だけを書きます。これにより共通規約の二重管理が完全に消えます。

# CLAUDE.md

@AGENTS.md

## Claude Code 固有設定

### Skills の場所
- 全プロジェクト共通:`~/.agents/skills/`
- プロジェクト固有:`.claude/skills/`

### Subagents
- artisan:設計美学レビュー(命名・構造・DRY)
- guardian:堅牢性レビュー(セキュリティ・エッジケース)
- spec-check:仕様書と実装の整合性確認

### Slash Commands
- `/add-feature`:機能追加の仕様駆動 + TDD ワークフロー
- `/fix-bug`:バグ修正の RED → GREEN 確認付き
- `/review`:マルチエージェント並列レビュー(合計 4.2/5 以上)

### Plan Mode 発動条件
- 50 行以上の新規ファイル作成
- 既存ファイル 3 つ以上を同時編集
- DB マイグレーションを伴う変更

### MCP サーバ
- search-console-mcp:Google Search Console データ取得
- filesystem:ファイル操作の MCP プロビジョン
- chrome-devtools:UI 動作検証

drift(同期ズレ)を防ぐ pre-commit hook

それでも複数人で運用していると、共通規約のはずなのに CLAUDE.md 側に直接書いてしまうケースが必ず発生します。これを防ぐために、pre-commit hook で AGENTS.md と CLAUDE.md の整合性を機械的に確認します。次のスクリプトは、CLAUDE.md の本文が AGENTS.md と矛盾するルールを定義していないかを検出します。実装の中核は「CLAUDE.md には @AGENTS.md が冒頭に必須」「CLAUDE.md には Claude Code 固有セクション以外を書かない」というポリシーの機械チェックです。

#!/usr/bin/env bash
# .husky/pre-commit
set -euo pipefail
export LC_ALL=C.UTF-8

if [ -f CLAUDE.md ]; then
  # CLAUDE.md の冒頭に @AGENTS.md が含まれているか
  if ! grep -qE '^@AGENTS\.md' CLAUDE.md; then
    echo "[ERROR] CLAUDE.md の冒頭に @AGENTS.md がありません。共通規約を import してください。" >&2
    exit 1
  fi
  # CLAUDE.md に Claude Code 固有以外の見出しが含まれていないか
  if grep -qE '^## (コーディング規約|テスト方針|コミット規約|ドメイン用語)' CLAUDE.md; then
    echo "[ERROR] 共通規約は AGENTS.md に書いてください。CLAUDE.md は Claude Code 固有のみに限定します。" >&2
    exit 1
  fi
fi

echo "[OK] AGENTS.md / CLAUDE.md の整合性チェックを通過しました。"

このスクリプトはマルチバイト見出しを扱うため LC_ALL=C.UTF-8 を明示し、grep -qE で標準出力を抑制しています。CI で動かす場合はロケールが揃っていることを locale -a で事前確認してください。

このフックを .husky/pre-commit に置いておくと、共通規約を CLAUDE.md に書いてしまうコミットが手元で弾かれます。チームが大きくなるほど効果が出る投資です。さらに学びの蓄積を共有したい場合は、AGENT_LEARNINGS.md を別途運用し、過去の失敗事例や設計判断の理由を記録するとよいでしょう。Claude Code と Codex の両方が読みやすいフラットな Markdown 形式で十分です。

分業ワークフロー① 順方向:Claude で設計 → Codex で実装

ここからは「実際にタスクを 2 つのエージェントの間でどう流すか」を、2 つのワークフローで示します。1 つ目は最もよく使う順方向、つまり Claude Code で設計と計画を作り、Codex で実装と量産を回す パターンです。

4 ステップ実例(設計 → 承認 → 実装 → 検証)

具体的な流れは次の 4 ステップです。

  • ステップ 1:Claude Code で仕様駆動の Plan Mode に入る/add-feature のような Skill を呼び出し、要件のヒアリング、影響範囲の調査、データモデル変更案、API シグネチャ案、テストケース骨子までを 1 つの計画ドキュメントにまとめさせます。Opus 4.7 の SWE-bench Pro 上位スコアは、まさにこのフェーズで真価を発揮します。
  • ステップ 2:人間が計画を承認する。Claude Code が出した計画を読み、ドメイン的に違和感がないか、テストケースが妥当かを確認し、承認します。承認の儀式があるだけで、後の手戻りが激減します。
  • ステップ 3:計画を Codex Cloud に渡して実装させる。承認済みの計画書(spec.md と tasks.md を想定)を Codex Cloud の入力に貼り、PR ベースで実装を依頼します。Codex は計画通りに動くタスクをサンドボックスで黙々と片付け、最終的に PR を立てます。
  • ステップ 4:Claude Code で受け入れレビュー。Codex が立てた PR を Claude Code に渡し、計画との差分・抜け漏れ・ドメイン的妥当性を再検査します。問題がなければマージし、計画書も更新します。

適しているタスク・適していないタスク

このワークフローが活きるのは、設計フェーズに 30 分以上かけるべき複雑なタスクです。新機能追加、データモデル変更、API 設計、ドメイン横断のリファクタなどが典型です。逆に、5 行レベルの修正、依存更新、テスト追加のような「設計を議論する余地が小さい」タスクに使うとオーバーキルになります。後者は Codex 単独で完結させたほうが速く安いです。

ワークフローを成立させる秘訣は、「承認の儀式」をスキップしないことです。Claude Code が出した計画をそのまま Codex に流すと、ドメイン的に間違った前提のまま実装が進むリスクがあります。承認は人間がやる仕事として残し、Codex の実装速度を信用して任せる、というメリハリが大切です。

分業ワークフロー② 逆方向:Codex でラフ → Claude でリファクタ

2 つ目は逆方向、つまり Codex でとりあえず動くものを作り、Claude Code で設計品質を整える パターンです。プロトタイピング、ハッカソン、検証用の PoC など、まず動くものが欲しいときに最も効きます。

4 ステップ実例(ラフ実装 → 動作確認 → リファクタ依頼 → 検証)

逆方向ワークフローの 4 ステップは次の通りです。

  • ステップ 1:Codex CLI または Codex Cloud に直接実装を依頼する。要件を短い文章で渡し、サンドボックスでラフに作らせます。Terminal-Bench 2.0 の上位スコアが示すように、Codex は環境構築から動かすところまでを素早く片付けます。
  • ステップ 2:動作確認とアウトプット評価。プロトタイプを実行し、要件を満たしているかをユーザーが確認します。ここまでは Codex 単独で完結します。
  • ステップ 3:Claude Code に「設計品質の引き上げ」を依頼する。動作するコードを Claude Code に渡し、関心の分離、命名規約、テストの追加、ドキュメンテーションを依頼します。Plan Mode を使うと、リファクタの範囲を事前に説明してくれるため、変更の見通しが立ちやすくなります。
  • ステップ 4:Claude Code でリファクタ後の受け入れ確認。Claude Code がリファクタした結果を再度実行し、機能が壊れていないかを確認します。テストが揃っていれば、テストパスの確認だけで完了します。

適しているタスク・適していないタスク

このワークフローが活きるのは、「動くこと」が先に必要なケースです。新しい API の試し書き、UI のプロトタイプ、データ処理スクリプトの試作、技術検証などが典型です。逆に、最初から本番投入する想定の機能や、データモデル変更を伴う重い変更には不向きです。理由はシンプルで、設計品質の手戻りコストが大きすぎるためです。本番想定の重い変更は、最初から順方向ワークフロー(Claude 設計 → Codex 実装)に従うほうが、トータルの工数が小さくなります。

逆方向ワークフローを使うときに大切なのは、**「Codex のラフ実装を本番にそのまま持ち込まないこと」**です。あくまで動作する叩き台として扱い、Claude Code でのリファクタを必ず通します。「動くからいいや」と Codex のアウトプットをそのまま本番化すると、後工程で「なぜここはこう書いてあるのか」を誰も答えられない状態に陥ります。これは併用運用で最もよくある失敗の 1 つで、後述の失敗パターン 5 選にも登場します。

CI/CD で両者を呼び分ける GitHub Actions 完全実装

併用を組織として運用するなら、CI/CD 自動化が事実上の必須要件になります。手動のレビュー依頼に頼ると、エンジニアの稼働を取り合うようになり、結局どちらかの利用が形骸化します。GitHub Actions で両者を呼び分け、PR フェーズは Claude、デプロイ前フェーズは Codex のように役割を固定すると、レビューの偏りや見落としが減ります。GitHub Actions と AI ツールの連携全般は Claude Code の GitHub Actions ガイドCodex CLI × GitHub Actions の自動化ガイド でも扱っているため、より深い実装パターンはそちらも参照してください。

想定構成:PR 時に Claude、デプロイ前に Codex

想定する役割分担は次の通りです。PR 作成時には Claude Code Action がドメイン的な観点で広範なレビューを実施し、設計妥当性・命名・テスト網羅性をコメントします。main マージ後のデプロイ前には Codex Action が回帰テストの追加、依存更新、ライセンス監査、SBOM 出力などの「環境系・量産系」のタスクを自動実行します。これにより、設計品質と運用品質の両方が CI に組み込まれます。

.github/workflows/ai-review.yml 完全 YAML

次の YAML は、実際に動作するベースラインです。Claude Code の公式 Action(PR トリガー)と OpenAI Codex の公式 Action(main マージトリガー)を 1 ファイルで束ねた構成にしました。シークレットは ANTHROPIC_API_KEYOPENAI_API_KEY の 2 つを GitHub Secrets に登録してください。

重要: 各 Action の入力パラメータ名・バージョン(@v1 など)は頻繁に更新されます。本サンプルは構成パターンを示すための雛形であり、本番運用前に必ず anthropics/claude-code-actionopenai/codex-action の公式 README で最新の with: パラメータ仕様を確認してください。仕様変更があった場合は、本記事のキー名を読み替えてください。

name: AI Hybrid Review

on:
  pull_request:
    types: [opened, synchronize, reopened]
  push:
    branches: [main]

permissions:
  contents: read
  pull-requests: write
  issues: write

jobs:
  claude-pr-review:
    if: github.event_name == 'pull_request'
    name: Claude Code でドメイン観点レビュー
    runs-on: ubuntu-latest
    timeout-minutes: 15
    steps:
      - name: Checkout
        uses: actions/checkout@v4
        with:
          fetch-depth: 0

      - name: Claude Code レビュー実行
        uses: anthropics/claude-code-action@v1
        with:
          anthropic_api_key: ${{ secrets.ANTHROPIC_API_KEY }}
          mode: review
          claude_model: claude-opus-4-7
          # AGENTS.md と CLAUDE.md を両方読み込ませて文脈を共有
          context_files: |
            AGENTS.md
            CLAUDE.md
          review_focus: |
            - 設計の整合性とアーキテクチャ妥当性
            - 命名・関心の分離・DRY
            - テスト網羅性と境界値カバレッジ
            - ドメイン用語の使い分け(AGENTS.md 5節を参照)

  codex-post-merge:
    if: github.event_name == 'push' && github.ref == 'refs/heads/main'
    name: Codex でデプロイ前の量産タスク
    runs-on: ubuntu-latest
    timeout-minutes: 30
    steps:
      - name: Checkout
        uses: actions/checkout@v4

      - name: Codex 環境セットアップ
        uses: openai/codex-action@v1
        with:
          openai_api_key: ${{ secrets.OPENAI_API_KEY }}
          codex_model: gpt-5.5-codex
          sandbox: isolated
          safety_strategy: review-required
          task_file: .github/codex-tasks/post-merge.yml
          # post-merge.yml に書く想定のタスク:
          # 1. 依存更新の確認と PR 起票
          # 2. ライセンス監査と SBOM 生成
          # 3. 回帰テスト失敗の修復試行
          # 4. Terraform plan の差分レポート

運用時の注意点(コスト・タイムアウト・並列実行)

CI で両者を回す際の運用上の留意点を 3 つ挙げます。第一にコストです。PR が立つたびに Claude Code Action が走るため、リポジトリ規模が大きいとトークン消費が膨らみます。paths フィルタや paths-ignore で対象ファイルを絞り、if: github.event.pull_request.draft == false でドラフト PR を除外する、といった節約策を入れておくと月額が安定します。第二にタイムアウトです。Claude Code の timeout-minutes は 15 分、Codex の timeout-minutes は 30 分を初期設定としていますが、長時間ジョブを回すと CI の他のジョブを詰まらせます。Codex Cloud に委譲できる重いタスクは、CI ではなく Codex Cloud 側で非同期に処理する設計も検討してください。第三に並列実行です。同じリポジトリで Claude と Codex を同時に動かすと、リソース競合(特に node_modules や Python 仮想環境)が発生する場合があります。concurrency キーで同一ブランチの重複実行を抑止しておくと安全です。

コスト試算:3 シナリオで見る損益分岐点

「併用は良さそうだけど予算が」という議論には、定量データで答えるのが一番です。単独 / 併用 / エンタープライズの 3 シナリオで月額・年額・損益分岐の見え方を整理します。料金は 2026 年 5 月 20 日時点の各社公式ページに基づきます。

シナリオ A:単独利用(Claude Pro or ChatGPT Plus 単独 $20/月)

最小構成は、Claude Pro か ChatGPT Plus のどちらかを月額 $20 で契約する形です。年額に換算すると約 $240、為替を 1 ドル 150 円で見ると年間 36,000 円です。エンジニア 1 人が「設計か実装か」をどちらかに寄せて使う前提なら、これだけでも体感の生産性は大きく上がります。一方で、SWE-bench Pro 系のタスクと Terminal-Bench 2.0 系のタスクが同じ週に混在するチームでは、どちらに振っても「もう片方のほうが速かった」というシーンが必ず出ます。最小構成は「使い始めて慣れる」フェーズに最適ですが、慣れたあとは併用への移行を検討するのが自然な流れです。

シナリオ B:併用基本セット(Claude Pro $20 + ChatGPT Pro $100 = $120/月)

併用の基本セットは、Claude Pro $20 と ChatGPT Pro $100 を組み合わせて月額 $120、年額で $1,440(約 21.6 万円)です。ChatGPT Pro $100 プランは 2026 年 4 月 9 日に発表され、Codex 利用枠が Plus の 5 倍(5 月 31 日までの期間限定で 10 倍)に拡張されています。順方向ワークフロー(Claude で設計 → Codex で実装)と逆方向ワークフロー(Codex でラフ → Claude でリファクタ)の両方を回す前提なら、このセットがコスパ最良のラインです。エンジニアが月 2〜3 時間の節約(時給 5,000 円換算で 10,000〜15,000 円)に届けば、$100 の追加投資は損益分岐に乗ります。実務感覚としては、週次の PR が 5 本以上あるチームなら 1 ヶ月で投資回収できます。

シナリオ C:エンタープライズ(Max 20x + Pro $200 + API = 約 $400+/月)

エンタープライズで重い使い方をするケースでは、Claude Max 20x $200 と ChatGPT Pro $200 を両方契約し、加えて API 利用を $50〜100 上乗せするパターンが現実的です。月額 $450〜$500、年額で $5,400〜$6,000(約 81〜90 万円)に達します。これに加えて GitHub Actions の AI レビュー Action のトークン消費が乗ります。投資額は決して小さくありませんが、エンジニア 4〜10 人規模のチームで全員が併用を回すなら、1 人あたり月 $50 前後の負担です。Anthropic と OpenAI のエンタープライズ契約に進めば、SSO・データ保持ポリシー・監査ログが利用可能になるため、上場企業や規制業界の本格導入はこちらが基本になります。

月額固定 vs 従量課金(API)の損益分岐点

「サブスクと API のどちらが安いか」は実利用量に依存します。目安として、エンジニア 1 人あたり 1 日 1 時間以上のエージェント実行が常態化していれば、サブスク(月額固定)がほぼ確実に安いです。API 従量課金は試験運用・PoC 期や、ごく軽い使い方のチームに向きますが、Claude Opus 4.7 や GPT-5.5 のトークン単価は決して安くないため、本格運用ではサブスクのほうが予測可能性が高くなります。年度予算を確定したい組織には、月額固定の Max / Pro プランが圧倒的に管理しやすいでしょう。

シナリオ月額(USD)年額(USD)想定チーム規模主な用途
A:単独$20$240個人〜2 人試験運用・小規模スタートアップ
B:併用基本$120$1,4402〜5 人レビュー駆動・併用ワークフロー本格運用
C:エンタープライズ$400+$5,400+4〜20 人SSO・監査ログ・規制業界・大規模並列実行

チーム導入ロードマップ:PoC → 標準化 → 組織展開

ツールを揃えても、組織として使いこなせなければ宝の持ち腐れです。3 フェーズで段階的に拡張するロードマップを示します。各フェーズの KPI と所要期間も併記しました。

Phase 1:PoC(1 人 / 2 週間)

最初は 1 人のエンジニアが両方を使ってみる PoC フェーズです。**期間は 2 週間、定量 KPI は「20 件の実タスクを振り分け、合計 8 時間以上の作業時間短縮を計測する」「PR レビューのリードタイム中央値を 30 % 短縮する」「失敗事例を 3 件以上記録する」**の 3 つです。具体的な動きとしては、初日に AGENTS.md と CLAUDE.md の雛形をコミットし、2 日目に 4 件のタスクを順方向ワークフローで回し、3〜5 日目に 4 件のタスクを逆方向ワークフローで回し、残りの期間で日常タスクを 20 件マトリクスに従って捌きます。終わったら振り返り、「どのタスクで何分節約できたか」「どんな失敗があったか」を振り返りシートに残します。この段階で得られる知見が、Phase 2 のチーム展開を後押しします。

Phase 2:チーム標準化(4〜6 人 / 1 ヶ月)

PoC が成功したら、4〜6 人のチームに拡張します。期間は 1 ヶ月、KPI は「全員が同じ AGENTS.md を読み、同じワークフローを回せる状態」を作ることです。具体的には、PoC で確立した AGENTS.md / CLAUDE.md をチーム共通のテンプレートに昇格させ、Skills と Slash Commands の命名規約を統一し、pre-commit hook で drift 防止を機械化します。CI に Claude Code Action を導入し、PR レビューの自動化を開始します。月末に振り返りミーティングを開き、レビュー指摘の質、PR 完了までのリードタイム、メンバーごとの体感工数を確認します。レビュー駆動の効果は通常この段階で顕在化します。

Phase 3:組織展開(全社 / 3 ヶ月)

チーム標準化が完成したら、組織横断に拡張します。期間は 3 ヶ月、KPI は「複数チームが同じ規約・同じ Skills カタログを共有し、CAIO や情シスがガバナンスを統制できる」状態です。具体的には、AGENTS.md のテンプレートを社内 GitHub Templates に登録し、Skills を社内マーケットプレイスに公開し、月額契約を組織アカウントへ移管します。ChatGPT Enterprise や Claude for Enterprise に切り替えると、SSO 連携、監査ログ、データ保持ポリシーの統制が可能になります。同時に、CI の AI レビュー Action を全リポジトリに展開し、社内のセキュリティ規程に沿った safety-strategysandbox 設定を標準テンプレに固定します。CAIO 代行や AI 推進室の役割は、このフェーズで明確になります。

フェーズ期間規模主な定量 KPI
Phase 1:PoC2 週間1 人20 件タスク振り分け、合計 8 時間短縮、PR リードタイム -30 %
Phase 2:標準化1 ヶ月4〜6 人AGENTS.md 統一、pre-commit 機械化、CI 導入、PR レビュー指摘数 +20 %
Phase 3:組織展開3 ヶ月全社Skills カタログ公開(10 件以上)、Enterprise 契約移管、監査ログ 100 % 取得

組織展開フェーズの設計は、AI ガバナンスや CAIO の役割設計と直結します。社内に CAIO がいない場合は、外部の CAIO 代行に短期で入ってもらい、Phase 2 から Phase 3 への橋渡しを依頼するのが現実解です。

失敗パターン 5 選と対策

併用を始めた直後にほぼ全チームが踏み抜く落とし穴を、頻度順に 5 つ挙げます。先回りで対策しておけば、失敗ではなく学びの量にとどめられます。なお番外編として「Codex Cloud のクレジット消費暴走」「ハルシネーション実装の本番投入」も次節末に補足します。

① AGENTS.md と CLAUDE.md の drift(同期ズレ)

症状:「Claude に依頼すると規約 A を守るのに、Codex に依頼すると守らない」のような不整合が現れます。原因は、共通規約の更新が片方のファイルにだけ反映されることです。対策:本記事で示した 2 層モデルに従い、共通規約は AGENTS.md にのみ書き、CLAUDE.md は @AGENTS.md を import するだけにします。pre-commit hook で機械的に検証し、人手の見落としに頼らない仕組みを作ります。チームの規約議論はすべて AGENTS.md の Pull Request 上で行うようにし、議事録的に残しておくと知識が継承されます。

② Slash Command / Skill 名前衝突

症状:Claude Code の Skill 名と Codex の Slash Command 名が衝突し、「どちらの動作を期待していたのか」が分からなくなります。対策:命名規約をチームで統一します。たとえば「Claude Code の Skill は cc-* プレフィックス、Codex の Slash Command は cx-* プレフィックス」のように接頭辞を分けると、衝突は構造的に発生しなくなります。さらに、AGENT_LEARNINGS.md に Skill / Slash Command のカタログを記録しておくと、新規メンバーのオンボーディングが速くなります。Skills の詳細管理は Claude Code Skills ガイド を参照してください。

③ メモリ(記憶)の不一致

症状:Claude Code の Subagent が記憶している過去経緯と、Codex Cloud が記憶している過去経緯が食い違い、同じ案件について異なる前提で動きます。対策:プロジェクト固有の長期記憶は AGENTS.md と AGENT_LEARNINGS.md に明示し、両エージェントが同じソースを参照するようにします。Claude Code の Memory 機構は便利ですが、内容を共有資産にしたい場合は AGENTS.md に転記する習慣をつけてください。これにより「片方しか知らない情報」が発生しなくなります。

④ 知的財産(IP)・データ持ち出し判断のずれ

症状:「このコードを Codex Cloud に投げてよいか」「顧客データを Claude Code のプロンプトに貼ってよいか」の判断が、エンジニア個人の感覚に委ねられ、ばらつきが出ます。対策:AGENTS.md の「機密情報の取り扱い」セクションに、明示的なルールを書きます。具体的には「顧客データの PII は本番 DB から直接コピーしない」「機密度の高いコードはローカル Claude Code のみで扱い、Codex Cloud には投げない」など、エージェントごとに送信可否を明文化します。Enterprise 契約に切り替え、データ保持ポリシーを契約上で固定する段階に進む組織もここで判断が必要になります。

⑤ コンテキスト共有の遅延でレビュー粒度がブレる

症状:Claude Code がレビューした内容が Codex に伝わらず、Codex が同じ問題を再指摘したり、逆に Codex がすでに指摘した問題を Claude Code が見落とす、というレビュー二重化が発生します。対策:両者のレビュー結果を PR コメントの形に統一し、共通の場所(PR 本体)に書き残します。AI レビュー Action のテンプレに「過去のレビューコメントを必ず読み込んで重複しない」と明示し、context_files に GitHub の PR コメント抽出ツールを含めると、再指摘がほぼ消えます。チームでレビュー指摘のサマリを月次で振り返ると、レビュー粒度のチューニングも進みます。

番外編:Codex Cloud のクレジット消費暴走とハルシネーション実装

5 大パターンほど頻度は高くないものの、金額面と品質面でインパクトが大きい 2 つの追加リスクにも触れておきます。1 つは Codex Cloud に重いタスクを投げ続けてクレジットが暴走するケースです。タスクのスコープを明確に絞り、safety-strategy で承認必須にし、月次のクレジット消費を Slack に通知する仕組みを入れておくと、見えない出費を抑えられます。もう 1 つは AI が生成した実装をそのまま本番投入し、ハルシネーション由来のバグを後追いで踏むケースです。Claude Code と Codex のどちらが生成したコードでも、テストが通ったからといってレビューを省略しないこと、特に本番のお金や顧客データに触れる箇所は人間のレビューを必ず通すことを徹底してください。Subagent によるセカンドオピニオン体制は Claude Code Subagents ガイド を参照してください。

#失敗パターン主な対策
1AGENTS.md / CLAUDE.md の drift2 層モデル + pre-commit hook
2Slash Command / Skill 衝突接頭辞ルール(cc-* / cx-*)
3メモリ不一致AGENT_LEARNINGS.md への転記習慣化
4IP・データ持ち出し判断のずれAGENTS.md に明示 + Enterprise 契約
5レビュー粒度の二重化PR コメントに統一 + context_files に過去レビュー
番外 1Codex Cloud のクレジット消費暴走safety-strategy 承認必須 + 月次クレジット通知
番外 2ハルシネーション実装の本番投入人間レビュー必須 + Subagent でセカンドオピニオン

ベンチマーク解釈:Terminal-Bench と SWE-bench の業務翻訳

最後に、ベンチマーク数値を「自分たちの業務にどう翻訳するか」を整理します。スコアそのものを覚えるよりも、どんな仕事がどちらのベンチに似ているかを理解するほうが実務的です。

Terminal-Bench 2.0(CLI 実行・環境操作)

Terminal-Bench 2.0 は、CLI で 89 タスクを処理する評価で、環境構築・依存管理・コマンド連鎖の正確さが問われます。Codex CLI + GPT-5.5 が 82.0 % で首位を走る(2026-04-23 集計)ことの業務的意味は、「環境を整え、CLI で長期タスクを回し続ける」仕事が Codex の独壇場である、ということです。具体的には、依存更新、Dockerfile 改修、Terraform plan、CI 復旧、SBOM 出力、ライセンス監査、E2E テストの並列実行といったタスクが該当します。これらが日常的に多いチームでは、Codex への振り分けを増やすほどスループットが上がります。Terminal-Bench 2.0 の集計は tbench.ai の公式リーダーボード で随時更新されています。

SWE-bench Pro(実 OSS の修正タスク)

SWE-bench Pro は、実 OSS のリポジトリで人間が書いた PR と等価の修正を再現する評価で、複数言語横断・大規模ファイル変更・テストパスまでの一貫性が問われます。Claude Opus 4.7(Adaptive)が 64.3 % で非プレビュー首位、GPT-5.5 が 58.6 % で続きます(2026-05-19 時点)。「読み込んで、理解し、複数ファイルにまたがる正確な変更を入れる」仕事が Claude Code の独壇場であることを示しています。具体的には、大規模リファクタ、ドメイン横断のバグ修正、API 設計変更、データモデル変更、テスト網羅の引き上げといったタスクが該当します。これらが日常的に多いチームでは、Claude Code への振り分けを増やすほど品質が上がります。詳細データは Anthropic 公式の Claude Opus 4.7 アナウンスVellum のベンチマーク解説 を併読すると理解が早まります。

業務でのざっくりした見極めは、次の 1 行に集約できます。**「シェルで完結する仕事が多ければ Codex 寄りに、ファイルを横断して書き換える仕事が多ければ Claude Code 寄りに」**振り分ければ、ベンチマーク上の優位を素直に取り込めます。なお、ベンチマークはあくまでスナップショットなので、四半期ごとに最新値を確認し、振り分け方針を更新する習慣をつけておくと、モデル世代の入れ替わりに乗り遅れません。

まとめ:併用の判断フレーム

本記事の議論を 1 枚の判断フレームに圧縮すると、次のチェックリストになります。実務でこれを抜けばすぐに振り分けが決まります。第一に「設計や仕様の議論を伴うか」と問います。Yes なら Claude Code。第二に「独立タスクを並列で量産したいか」と問います。Yes なら Codex。第三に「CI / CD で自動化したい工程はあるか」と問います。Yes なら CI に両者を組み込み、PR フェーズで Claude、デプロイ前で Codex の構成にします。第四に「組織として展開するか」と問います。Yes なら AGENTS.md を中心とする 2 層規約、Skills カタログ、Enterprise 契約への移行を計画します。

「Claude Code か Codex か」という問いは、2026 年 5 月時点ではすでに過去のものです。両方を活かす設計図を持っているかどうかが、AI 時代の開発組織の差を作ります。横断比較が必要な場合は AI コーディングエージェント比較 2026 も参考にしてください。

koromo では、Claude Code と Codex を併用するためのガバナンス設計、AGENTS.md / CLAUDE.md の整備、Skills カタログの社内展開、Enterprise 契約への移行支援を CAIO 代行サービスとして提供しています。組織導入のロードマップで詰まりがちな Phase 2 → Phase 3 の橋渡しや、規制業界向けの監査統制までを伴走で支援します。導入相談はお問い合わせフォームからどうぞ。

よくある質問(FAQ)

関連記事