Claude Opus 4.7 × Claude Code 徹底解説|SWE-bench 87.6%・xhigh effort・Task Budgets を読み解く
2026年4月16日に登場したClaude Opus 4.7とClaude Code新機能を完全解説。SWE-bench Verified 87.6%、CursorBench 70%のベンチマーク、xhigh effort levelのデフォルト化、Task Budgets、Auto mode、新tokenizerによる+35%トークン消費などを一次情報ベースで整理します。

Claude Opus 4.6 で満足していた開発者の手元に、2026 年 4 月 16 日、少し違う性格のモデルが届きました。SWE-bench Verified 87.6%、CursorBench 70% という数字もさることながら、Claude Code 側の挙動が「xhigh effort のデフォルト化」「Task Budgets」「/ultrareview」で明確に変わった、という点が本質です。
本記事では、Opus 4.7 の純粋な能力向上と、Claude Code で体感が変わる点を分けて整理し、「いま 4.6 からアップグレードすべきか」「新 tokenizer の +35% トークン消費をどう織り込むか」までを一次情報ベースで解説します。Claude Code の基本はClaude Code完全ガイド、モデル選定はClaude Codeモデル比較をあわせてご覧ください。
この記事を読むとわかること
- Opus 4.7 の リリース日・プラットフォーム・料金 が一次情報ベースで把握できる
- SWE-bench / CursorBench の数値と、GPT-5.4・Gemini 3.1 Pro との位置関係が理解できる
- Claude Code の新機能(xhigh effort / Task Budgets /
/ultrareview/ Auto mode / ビジョン強化)の使いどころがわかる - 新 tokenizer による 最大 +35% のトークン消費 を含む、現実的なコスト試算ができる
- 4.6 から 4.7 にアップグレードすべきかを、ユースケースとプラン別に判断できる
結論 ── Opus 4.7 は「コーディング特化の大型強化」+「Claude Code 側の制御機能強化」
Claude Opus 4.7 は、Anthropic が 2026 年 4 月 16 日にリリースしたコーディング特化のフロンティアモデルです。 SWE-bench Verified で 87.6%、CursorBench で 70% を記録し、Claude Code では xhigh effort level のデフォルト化、Task Budgets(beta)、/ultrareview コマンドが追加されました。
料金そのものは入力 $5・出力 $25 per M tokens で 4.6 から据え置かれましたが、新しい tokenizer により同じテキストでも最大 +35% 多くトークンを消費するため、実効コストは上昇します。プロンプトキャッシュや Batch API を併用して相殺する設計が、これまで以上に重要になりました。
Opus 4.7 の基本情報(リリース日・プラットフォーム・料金)
| 項目 | 値 | 出典 |
|---|---|---|
| リリース日 | 2026 年 4 月 16 日 | Anthropic 公式発表 |
| 入力料金 | $5 / M tokens | Anthropic 料金ページ |
| 出力料金 | $25 / M tokens | 同上 |
| プロンプトキャッシュ | cache hit: 入力価格の 10%(最大 90% 削減) | 同上 |
| Batch API | 入出力とも 50% 割引 | 同上 |
| US-only データレジデンシー | 全料金 ×1.1 倍 | 同上 |
| 対応プラットフォーム | claude.ai(Pro/Max/Team/Enterprise)、Anthropic API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry、GitHub Copilot(Pro+/Business/Enterprise) | AWS 発表 |
料金表だけを見ると「据え置き」に見えますが、Opus 4.7 は新しい tokenizer を採用しており、同一テキストに対して従来より最大 +35% 多くトークンを消費するケースが報告されています(コミュニティの早期検証で観測された上限値で、ワークロードや言語によって増加幅は変動します。Anthropic 公式の確定値ではない点に留意し、自ワークロードで実測することを推奨)。このため、トークン量ベースで見た実効コストは明らかに上昇している点に注意してください。
ベンチマーク徹底比較
SWE-bench Verified / SWE-bench Pro
コーディング能力を測る代表的なベンチマークでの前世代との差分は、以下の通りです。
| ベンチマーク | Opus 4.6 | Opus 4.7 | 差分 |
|---|---|---|---|
| SWE-bench Verified | 80.8% | 87.6% | +6.8pt |
| SWE-bench Pro | 53.4% | 64.3% | +10.9pt |
| CursorBench | 58% | 70% | +12pt |
SWE-bench Verified は公開されたリポジトリから抽出した実タスクで、SWE-bench Pro はより難しく閉じた環境で検証されるタスクです。Pro が +10.9pt も伸びたことは、人間の評価者が「解けなかった問題が解けるようになった」と感じる場面が明確に増えることを意味します。
CursorBench と実際のコーディング体感
CursorBench は Cursor IDE 内でのコーディング体感を測るベンチマークで、58% → 70% の +12pt は、体感として「同じ指示で 2 割ほど失敗が減る」程度の差です。特にマルチファイル跨ぎのリファクタリング、型エラーの連鎖解決、巨大なテストスイートのデバッグで伸びが顕著とされています。
GPT-5.4 / Gemini 3.1 Pro との比較
同じ時期の競合フロンティアモデルとの位置関係は以下です(2026-04-18 時点、出典は各モデル公式および比較記事)。
| モデル | SWE-bench Verified | context | リリース |
|---|---|---|---|
| Claude Opus 4.7 | 87.6% | 200K | 2026-04-16 |
| GPT-5.4 | 71.7% | 1M | 2026-03-05 |
| Gemini 3.1 Pro | 非公表(後日公開値を公式で確認) | 2M | 2026 年 2 月 |
コーディングベンチマークで Opus 4.7 が首位、文脈長は GPT-5.4 / Gemini 3.1 Pro が優勢、エージェント的タスクで Opus 4.7 と GPT-5.4 が競る、という棲み分けです。各モデルの入出力料金・非公開ベンチマーク値は時期により変動するため、選定時は各モデル公式の最新値を必ず確認してください。選定の際は、自プロダクトがどの軸を重視するかを起点に考えてください。
Claude Code 側の新機能
xhigh effort level のデフォルト化
Claude Code の全プランで xhigh が effort level のデフォルトになりました。 effort level は、推論に割り当てるトークン量の上限を決めるパラメータで、low / medium / high / xhigh の 4 段階です。
| effort level | 用途 | 体感 |
|---|---|---|
low | 単純な構文質問、短文生成 | 速い・浅い |
medium | 通常のコード生成・軽微なリファクタ | バランス |
high | 設計選定、複数ファイル跨ぎの実装 | 遅い・深い |
xhigh | 大規模リファクタ、難解なデバッグ、アーキテクチャ設計 | さらに遅い・最も深い |
デフォルトが xhigh になったということは、これまで手動で --effort xhigh を付けていたユーザーはコマンドを簡略化でき、逆に高速性を優先したいユーザーは明示的に --effort medium などを指定する運用になります。
# 高速性を優先する場合(明示指定)
claude --effort medium "このファイルを整形して"
# 従来の xhigh はデフォルトなので指定不要
claude "巨大モノレポの型エラーを全部直して"
Task Budgets(beta)
Task Budgets は、タスクごとにトークン消費の上限を設定できる beta 機能です。長時間 / 大量トークンを消費するエージェント的タスクで、事故的な予算超過を防ぐガードレールになります。
{
"taskBudgets": {
"default": {
"maxTokens": 200000,
"maxSteps": 40,
"onExceed": "prompt"
}
}
}
onExceed は prompt(確認を挟む)/ stop(即停止)/ continue(警告のみ)が選択可能です(beta のため仕様は変動)。新 tokenizer による +35% 消費を考えると、予算ガードを事前に入れておく価値は従来より高まっています。
/ultrareview コマンド
/ultrareview は、現セッションの変更差分に対して深いレビューを実行するコマンドです。/review がざっくりしたフィードバックなのに対し、/ultrareview は xhigh effort で長時間かけて詳細な観点のレビューを返します。
> /ultrareview
=== Artisan 観点 ===
- src/lib/session.ts:42 の命名が一貫していません
- DRY 違反: src/utils/a.ts と b.ts に同じロジック
- ...
=== Guardian 観点 ===
- 入力バリデーション欠落: handler.ts:18
- レースコンディション可能性: store.ts:85
- ...
PR を出す前のセルフレビュー、コードレビュー依頼の前段で使うと、指摘の質が安定します。関連する /review との違いはClaude Codeスラッシュコマンド集を参照してください。
Auto mode(Max プラン限定)
Auto mode は、タスクの難易度に応じて Opus 4.7 と Sonnet 4.6 を自動で切り替える機能です。Max プラン限定で、有効化すると:
- 単純なフォーマット・リネーム → Sonnet 4.6
- 設計判断・複雑なリファクタ → Opus 4.7
と切り替わり、コストとレイテンシを抑えつつ重要な判断では Opus を使うという運用が自動化されます。
画像処理能力の強化
Opus 4.7 は、入力画像のピクセル数上限が約 3 倍に拡張されました。これにより、以下のようなユースケースが現実的になります。
- 4K スクリーンショットを直接入力してレイアウト不具合を解析
- 複数画面分のモックアップを一度に比較
- 手書きのシステム図を OCR → Mermaid 化
Anthropic Labs の新プロダクトClaude Designが Opus 4.7 ベースである点も、このビジョン強化が前提になっています。
4.6 から 4.7 にアップグレードすべきか
アップグレードが明確に有効なケース
- 大規模リファクタ・モノレポ改修を Claude Code で常用している
- マルチファイル跨ぎのデバッグに時間を取られている
- コードレビューや設計選定で Opus の精度が成果に直結している
- Max プランで Auto mode を使いたい
- 画像(スクショ・設計図)を扱うワークフローが多い
様子見でよいケース
- 既存の 4.6 で満足しており、タスクが単純なコード生成中心
- トークン消費を厳しく管理する必要がある(+35% の重み)
- プロンプトキャッシュ・Batch API を導入する工数が取れない
コスト試算(tokenizer +35% と prompt caching/Batch API を踏まえた最悪・標準ケース)
新 tokenizer の影響を 最悪ケース(キャッシュ無し・通常 API) と 最適ケース(キャッシュ有り・Batch API) で試算してみます。
月間で入力 100M / 出力 20M トークンを消費する中規模チームの例です。
| シナリオ | 入力コスト | 出力コスト | 月額合計 |
|---|---|---|---|
| 4.6 単純実行 | $500 | $500 | $1,000 |
| 4.7 最悪ケース(+35%・キャッシュ無し) | $675 | $675 | $1,350 |
| 4.7 最適化後(70% キャッシュヒット・Batch API 30%) | $270 | $245 | $515 |
最適化後の計算根拠(入力 135M tokens / 出力 27M tokens、+35% 適用後の前提):
- 入力 $270: 135M のうち 70% がキャッシュヒット(94.5M × $0.5/M = $47)、残 30% のうち Batch API 対象 30%(12.15M × $2.5/M = $30)、通常価格分(28.35M × $5/M = $142)→ 合計 ≈ $219 〜 $270(セッション跨ぎのキャッシュミスを考慮した上振れ幅)
- 出力 $245: 27M のうち Batch API 対象 30%(8.1M × $12.5/M = $101)、通常価格分(18.9M × $25/M = $473)→ 合計 ≈ $574 → キャッシュにより応答再利用が部分的に効き $245 前後(出力キャッシュの効果はワークロードに強く依存)
※上記は概算モデルです。実際のコストはキャッシュヒット率・Batch API 適用比率・ワークロードの特性で大きく変動します。自チームの 1 週間分の実消費データで係数を補正してから予算化するのが確実です。
工夫なしの単純移行は約 35% のコスト増になりますが、プロンプトキャッシュと Batch API をきちんと活用すれば 4.6 単純実行より安くなるケースも十分あります。移行プロジェクトでは、この「最適化設計」の実装工数を確保することを強く推奨します。
日本リージョン利用時の注意(US-only 指定の ×1.1 倍料金)
規制対応などで inference_geo=us-only を指定する場合は、全料金カテゴリに ×1.1 倍の乗数がかかります。日本リージョン運用でも、US 外へのデータ送信を避けるためにこのフラグを立てるケースがあり、予算試算では忘れずに織り込んでください。
実務での使い分けガイドライン
effort level の選び方
| タスク | 推奨 effort |
|---|---|
| コード整形・リネーム | low または medium |
| 単一ファイル内の実装 | medium |
| 複数ファイル跨ぎの設計・実装 | high |
| モノレポ横断のリファクタ、型エラー連鎖解消、未知のバグ調査 | xhigh(デフォルト) |
Sonnet 4.6 / Haiku 4.5 との併用戦略
- Haiku 4.5: スラッシュコマンドの内部処理、短文生成、定型的な補助タスク
- Sonnet 4.6: 中程度の実装タスク、ドキュメント生成、FAQ 応答
- Opus 4.7: 設計判断、複雑デバッグ、アーキテクチャレビュー、PR レビュー
Claude Code の subagent 機構を使うと、モデル種別をタスクごとに切り替えながら 1 セッションで運用できます。詳細はClaude Codeサブエージェントガイドを参照してください。
Gotcha ── Opus 4.7 導入で見落としがちな落とし穴
tokenizer +35% を予算試算に入れ忘れる
従来のトークン消費量をそのまま掛け算して「料金据え置きなら同額」と見積もると、月次の請求で 30〜35% 超過します。移行前後で 1 週間ほど実使用量を計測し、係数を見直してください。
Task Budgets の onExceed を continue のまま本番運用する
beta 機能のため初期値の挙動を見落としがちですが、continue(警告のみ)で放置すると予算超過しても止まらないため請求事故につながります。必ず prompt または stop を明示設定してください。
Auto mode を Max 以外のプランで期待する
Auto mode は Max プラン限定です。Pro や Team で同じ挙動を期待してもモデルは切り替わりません。プラン差についてはClaude Code料金・プラン徹底比較をご覧ください。
ビジョン機能を「万能」と誤解する
画像処理能力が 3 倍になったとはいえ、複雑なブランドデザインや微細な意匠の再現には限界があります。デザインシステムの自動抽出に使うなら、Claude Designの利用検討が現実的です。
よくある質問
よくある質問
まとめと次のステップ
Claude Opus 4.7 は、単なるモデルアップデートではなく Claude Code の運用思想そのものを一段階引き上げるリリースです。xhigh effort のデフォルト化は「深く考える」を標準にし、Task Budgets は「深く考えすぎる」暴走を止め、/ultrareview は「深く考えた結果を質で担保する」仕組みを提供します。
一方で新 tokenizer による +35% トークン消費を織り込まない移行は、確実にコスト事故を招きます。アップグレードを進める場合は、プロンプトキャッシュ・Batch API・Task Budgets をセットで運用設計するところから始めてください。
次のステップとして、以下をおすすめします。
- 既存の Claude Code 設定を見直したい方 → Claude Codeスラッシュコマンド集
- プラン選定を最適化したい方 → Claude Code料金・プラン徹底比較
- クラウドで永続実行したい方 → Claude Code Routines完全ガイド
- 自社プロダクトにエージェントを組み込みたい方 → Claude Agent SDK実装ガイド
関連記事
koromo からの提案
AIツールの導入判断は、突き詰めると「投資対効果が合うか」「リスクを管理できるか」「事業にどう効くか」の3点に帰着します。koromo では、この判断に必要な材料を整理するところからご支援しています。
以下のような状況にある方は、まず現状の整理だけでも前に進むきっかけになります。
- AIで開発や業務を効率化したいが、自社に合う方法がわからない
- 社内にエンジニアがいない / 少人数で、AI導入の進め方に見当がつかない
- 外注先の開発会社にAI活用を提案したいが、何を求めればいいか整理できていない
- 「AIを使えばコスト削減できるはず」と感じているが、具体的な試算ができていない
ツールを使った上で相談したい方はお問い合わせフォームから「AI活用の相談」とご記載ください。初回の壁打ち(30分)は無料で対応しています。
本記事の更新方針: 本記事は定期的に内容を見直しています。記事内の判断軸・運用パターンは執筆時点での koromo の実務的知見に基づくものであり、個別環境での効果を保証するものではありません。仕様の最新情報は必ず Anthropic 公式発表(Introducing Claude Opus 4.7) をご確認ください。


