development·

Claude Opus 4.7 × Claude Code 完全活用ガイド|effort xhigh・1M context・SWE-bench Pro 64.3% を一次情報で読み解く

Claude Opus 4.7とClaude Codeを公式一次情報ベースで完全解説。effort 5段階(low/medium/high/xhigh/max)、SWE-bench Pro 64.3%、1M context、tokenizer +35%、adaptive thinking、Breaking changesまで網羅。業務別effortマトリクスと7つのユースケースで実務に落とし込む。

Claude Opus 4.7 × Claude Code 完全活用ガイド|effort xhigh・1M context・SWE-bench Pro 64.3% を一次情報で読み解く

Claude Opus 4.6 で十分満足していた開発者の手元に、2026 年 4 月 16 日、コーディング特化で一段上のフロンティアモデルが届きました。SWE-bench Verified 87.6%、SWE-bench Pro 64.3%、CursorBench 70%、Terminal-Bench 2.0 69.4% という数字も話題ですが、本質は Claude Code 側の挙動が effort 5 段階化・1M context 標準化・Task Budgets・/ultrareview で構造的に変わったことにあります。

さらに Messages API では temperature / top_p / top_k の指定が 400 エラーextended thinking budget の廃止thinking content のデフォルト非表示新 tokenizer による +35% トークン消費といった破壊的変更が同時にリリースされました。「料金据え置きだから 4.6 をそのまま 4.7 に差し替えれば良い」と考えていると、確実にコスト事故と挙動の差に振り回されます。

本記事では、Anthropic 公式(anthropic.com / platform.claude.com)と Vellum のベンチマーク集計をベースに、Opus 4.7 の能力差、Claude Code 側で体感が変わる点、そして実務での使い分けまでを 一次情報のみ から組み直しました。Claude Code の基本はClaude Code 完全ガイド、モデル単体の詳細はClaude Opus 4.7 完全ガイド、競合との位置関係はGPT-5.5 vs Claude Opus 4.7もあわせてご覧ください。

この記事を読むとわかること

  • Opus 4.7 の リリース日・料金・モデル ID・対応プラットフォーム が一次情報ベースで把握できる
  • SWE-bench Verified / Pro、CursorBench、Terminal-Bench、Finance Agent v1.1、MCP-Atlas など 公式ベンチ全数値 を 4.6・GPT-5.5・Gemini 3.1 Pro と比較できる
  • effort の 5 段階(low / medium / high / xhigh / max) の挙動差・推奨用途・トークン消費の傾向がわかる
  • 業務別 effort 設定マトリクス(コード生成・リファクタ・デバッグ・設計・レビュー・テスト・ドキュメント・MCP・データ分析)で実務に落とし込める
  • 1M context window の Pro / Max / Team / Enterprise での違い、[1m] サフィックス・opusplan の落とし穴を把握できる
  • /ultrareview / Task Budgets / Auto mode / adaptive thinking など Claude Code 新機能 を一通りカバーできる
  • Messages API の Breaking changes(temperature 廃止・extended thinking 廃止・thinking 非表示・tokenizer +35%)の移行コードがわかる
  • prompt caching × Batch API × Task Budgets を組み合わせた 実効コスト最適化戦略 を設計できる
  • Opus 4.7 でしか実現できない 7 つのユースケース と、業種別の活用シナリオを把握できる
  • 4.6 から 4.7 にアップグレードすべきか、プラン × ユースケース別の判断フロー が手に入る

結論 ── Opus 4.7 × Claude Code は「モデル能力」「Claude Code UI」「Breaking changes」の3軸で進化

Claude Opus 4.7 は、Anthropic が 2026 年 4 月 16 日に一般提供を開始した「コーディングおよびエージェント特化」のフロンティアモデルです。 モデル ID は claude-opus-4-7、context は 1M tokens、max output は 128k tokens、料金は入力 $5 / 出力 $25 per M tokens で 4.6 から据え置かれました。

進化の中身は3軸で整理できます。

  1. モデル能力: SWE-bench Verified 87.6% / Pro 64.3% / CursorBench 70% / Terminal-Bench 2.0 69.4% / MCP-Atlas 77.3% / Finance Agent v1.1 64.4% / CharXiv 91.0% で、コーディングとツール使用の評価で軒並み 4.6 を上回り、SWE-bench Pro と CursorBench では GA モデル首位を取り戻しました(SWE-bench Verified と Terminal-Bench 2.0 は GPT-5.5 が先行)。
  2. Claude Code UI: effort が 5 段階化され Opus 4.7 のデフォルトが xhigh に、1M context が Max / Team / Enterprise で自動有効化、/ultrareview/effort スライダー、Task Budgets、Auto mode が追加されました。
  3. Breaking changes: extended thinking budget が廃止され adaptive thinking のみ、temperature / top_p / top_k の非デフォルト指定で 400 エラー、thinking content がデフォルト非表示、tokenizer 変更で同じテキストが最大 +35% トークンを消費します。

料金カードは据え置きですが 実効コストは tokenizer の +35% でじわじわ上がるため、prompt caching と Batch API、Task Budgets、そして effort の使い分けで意識的に相殺する設計が必須になりました。本記事では、ここから先を順番に分解していきます。

Opus 4.7 の基本情報(リリース日・料金・モデル ID・1M context)

公式の一次情報を表に整理します。一次ソースのリンクは出典欄から辿れます。

項目一次ソース
リリース日2026 年 4 月 16 日anthropic.com/news/claude-opus-4-7
モデル IDclaude-opus-4-7What's new in Claude Opus 4.7
context window1M tokens(追加プレミアムなし)同上
max output tokens128k tokens同上
入力料金$5 / M tokenspricing
出力料金$25 / M tokens同上
prompt cachingcache hit: 入力の 10%(最大 90% 削減)同上
Batch API入出力とも 50% 割引同上
US-only データレジデンシー全料金 × 1.1 倍同上
画像対応2576 px / 3.75 MP(旧 1568 px / 1.15 MP)What's new
effortlow / medium / high / xhigh / maxeffort
API デフォルト efforthigh同上
Claude Code デフォルト effortxhigh(Opus 4.7 選択時)同上
対応プラットフォームclaude.ai(Pro/Max/Team/Enterprise)、Anthropic API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Azure AI Foundry、GitHub Copilotanthropic.com / Amazon Bedrock

ポイントは2つあります。第一に、1M context が 200K 超過プレミアムなしで提供されること。GPT-5.5 や Gemini 3.1 Pro のように長文脈で料金が跳ね上がる構造ではなく、Max / Team / Enterprise プランの Claude Code では自動で 1M に拡張されます。Pro は使用量クレジットの設定が必要です(後述)。

第二に、料金カードが据え置きの一方で tokenizer が変更されたこと。Anthropic の公式ドキュメントでは「同じテキストでも 1.0〜1.35 倍のトークンを消費する」と明記されており、これがあとで紹介するコスト試算の前提になります。

ベンチマーク徹底比較 ── SWE-bench Pro 64.3%、CursorBench 70%、Terminal-Bench 69.4%

Anthropic 公式と Vellum の集計(Claude Opus 4.7 Benchmarks Explained)から、主要ベンチマークを横並びで整理します。

コーディング系ベンチマーク

ベンチマークOpus 4.6Opus 4.7GPT-5.5Gemini 3.1 Pro
SWE-bench Verified80.8%87.6%88.7%80.6%
SWE-bench Pro53.4%64.3%58.6%54.2%
Terminal-Bench 2.065.4%69.4%82.7%-
CursorBench58%70%--

数値の出典は Anthropic 公式Vellum 集計、競合は OpenAI 公式(GPT-5.5) と Anthropic / Vellum の対比集計です(Gemini 3.1 Pro の SWE-bench Pro は Vellum 経由)。

注目点を3つに絞ります。第一に、SWE-bench Verified では GPT-5.5(88.7%)が僅差で先行しており、Opus 4.7(87.6%)は2位。それでも SWE-bench Pro(64.3% vs 58.6%)と CursorBench(70%)では Opus 4.7 が首位を維持しています。Pro は閉じたリポジトリで複数言語をまたぐ評価のため、実務再現性ではこちらが効きます。

第二に、Terminal-Bench 2.0 は GPT-5.5 が 82.7% で大きくリード。CLI 主体の長時間タスクに振り切るなら GPT-5.5(Codex CLI 系)も選択肢に入ります。Opus 4.7 は 4.6(65.4%)から +4pt の改善で、CursorBench との合わせ技で IDE / エディタ統合の総合力を狙う設計です。

第三に、CursorBench 58 → 70% の +12pt。これは「同じ指示で失敗率が体感 2 割減る」程度の差分で、特にマルチファイル跨ぎのリファクタ、型エラー連鎖の解消、巨大なテストスイートのデバッグで伸びが顕著とされています。

エージェント・ツール使用ベンチマーク

ベンチマークOpus 4.6Opus 4.7補足
MCP-Atlas75.8%77.3%MCP ツールチェーン評価
Finance Agent v1.1-64.4%金融エージェント評価で SOTA
OSWorld-Verified-78.0%OS 操作・GUI エージェント
BrowseComp83.7%79.3%ブラウジング推論(4.6 よりやや低下)

注目すべきは Finance Agent v1.1 で 64.4% の SOTA を取った点と、OSWorld-Verified 78.0% で GUI 操作系も実用域に入ったこと。BrowseComp は 4.6 より下がっていますが、Anthropic はこれを「ツール呼び出しを抑えて推論を増やす設計選択の副作用」と説明しています。

推論・知識・ビジョン

ベンチマークOpus 4.6Opus 4.7
GPQA Diamond-94.2%
Humanity's Last Exam(ツール使用)-54.7%
CharXiv(ツール使用条件)69.1%91.0%
MMMLU-91.5%

CharXiv 69.1 → 91.0% の +22pt は、後述する 2576 px / 3.75 MP の高解像度画像対応と相まって、チャート・図表の数値書き起こしを実務で任せられる水準に達したことを示します(4.6・4.7 ともにツール使用条件のスコア。Vellum 集計より)。

ベンチマークの「向き不向き」を読み解く

ベンチマーク単独で良し悪しを判断すると、ワークロード相性を見誤ります。同じ数値からでも、業務に効く順序は変わってきます。

  • SWE-bench Verified / Pro: ソフトウェアエンジニアリングの実務再現性が最重要なら、この2指標を最優先。Pro は閉じたリポジトリ・複数言語をまたぐ評価で、Verified より「現場感」が強い指標です
  • Terminal-Bench 2.0: CLI / シェル経由の長時間作業の精度。Claude Code を CI / バッチで使うチームはここを重視
  • MCP-Atlas: MCP サーバを跨いだツールチェーン精度。社内ツールを MCP 経由で繋いでいるなら必須
  • CharXiv / OSWorld-Verified: 画像系・GUI 系のワークロード。製造業の図面 OCR や金融レポート PDF を直接処理するチームに効く
  • GPQA Diamond / Humanity's Last Exam: 純粋な知能・推論ベンチ。リサーチ用途や分析業務での意思決定品質を重視するならここ

競合との位置関係

公式の元データと競合との位置関係はGPT-5.5 vs Claude Opus 4.7で長文比較しています。要点だけ抜き出すと、SWE-bench Pro と CursorBench は Opus 4.7、Terminal-Bench と OSWorld は GPT-5.5、長文脈は Gemini 3.1 Pro(2M)、価格効率は Gemini 系という棲み分けです。Opus 4.7 が 1M context を標準料金で提供し始めたことで、「長文脈の差」は縮みつつあります。

なお Claude Mythos Preview の SWE-bench Pro 77.8% は研究プレビュー段階のスコアで、一般提供ではないため実務選定の比較対象に直接含めない方が安全です。GA モデルでの比較に絞ると、Opus 4.7 は SWE-bench Pro / CursorBench で首位、GPT-5.5 は SWE-bench Verified / Terminal-Bench で首位という双頭体制と捉えるのが現実的です。

effort 5段階完全ガイド ── low / medium / high / xhigh / max の挙動差

Anthropic 公式の effort ドキュメント によれば、effort パラメータは 「Claude がリクエスト処理にトークンを使うことにどの程度積極的か」を制御するシグナルであり、テキスト応答・ツール呼び出し・拡張思考の すべてのトークン支出に影響します。

5段階の正式定義

Level概要推奨用途
low機能の低下を伴う大幅なトークン節約サブエージェント、単純分類、クイックルックアップ
mediumバランス型コスト重視のエージェント、コード生成の日常運用
highデフォルト相当の高機能複雑な推論、難しいコーディング、エージェント型タスク全般
xhigh長時間作業向け拡張機能(Opus 4.7 新設)30 分以上の長時間エージェント、数百万トークン規模のコーディング
maxトークン支出制約なしの絶対最大機能フロンティア難度の問題、評価で意味のある余裕が示せたタスク

API デフォルトは high、Claude Code(Opus 4.7 選択時)のデフォルトは xhigh です。maxClaude Mythos Preview、Opus 4.7、Opus 4.6、Sonnet 4.6 で利用可能ですが、公式は「ほとんどのワークロードで max は比較的小さな品質向上のために大幅なコストを追加する」と注意喚起しており、評価で xhigh より優位だと確認した場合のみ使うのが現実的です。

effort と挙動の傾向

effort を上げると、Claude は以下の傾向を強めます。

  • ツール呼び出しを増やす(探索的な grep、複数ファイル読み込み、依存関係追跡)
  • アクション前に計画を説明する
  • 変更の詳細サマリーを返す
  • コードコメントを充実させる

逆に effort を下げると、複数操作を1ツール呼び出しに圧縮し、前置きなしで直接アクションし、簡潔な完了確認のみ返します。

Claude Opus 4.7 の推奨

公式ガイドラインでは「コーディングおよびエージェントは xhigh から開始、知能に敏感なワークロードは最低 high」とされています。さらに「Opus 4.7 を xhighmax で動かす場合は max_tokens を 64k から開始」と明記されており、サブエージェントとツール呼び出し全体に思考と行動の余地を与える設計が前提です。

業務別 effort 設定マトリクス(独自)

実務で迷いやすい場面ごとに、推奨 effort と注意点を整理しました。

業務推奨 effort代替モデル注意点
単純なコード整形・リネームlow または mediumHaiku 4.5 / Sonnet 4.6xhigh は過剰、トークン浪費
単一ファイル内の機能追加mediumSonnet 4.6テスト追加までセットで指示
複数ファイル跨ぎの実装highOpus 4.7initial context を明示する
大規模リファクタ・モノレポ改修xhigh(デフォルト)-max_tokens 64k 以上
型エラー連鎖の解決xhigh-エラーログを全文渡す
未知のバグ調査(再現困難)xhigh-失敗トレースをファイル添付
設計レビュー・PR レビューxhigh + /ultrareview-レビュー観点を箇条書きで明示
単体テスト生成medium または highSonnet 4.6カバレッジ目標を明記
ドキュメント生成mediumSonnet 4.6エンティティ統一を指示
MCP 経由の外部 API 連携xhigh-tool 一覧と stop 条件を明記
データ分析(チャート読み取り)xhigh-2576 px 画像対応の恩恵が大
フロンティア難題(評価で xhigh < max 確認済)max-コストモニタ必須

まず xhigh で動かし、ホットスポット業務だけ max に上げ、軽作業は medium まで下げる」が現実的なスタート地点です。

claude code effort xhigh の使い方(コマンド・スライダー・環境変数)

Claude Code の v2.1.111 以降では、引数なしで /effort を実行すると 対話的なスライダー UI が開きます(classmethod 検証 参照)。矢印キーで low / medium / high / xhigh / max を選び、Enter で確定する操作系です。

設定方法は3パターン

# 1. セッション内コマンド
> /effort xhigh

# 2. 起動時オプション
claude --effort xhigh

# 3. 環境変数で固定
export CLAUDE_CODE_EFFORT_LEVEL=xhigh

セッション内では /effort を引数なしで叩いてスライダー操作するのが最も誤指定が少ない方法です。CI やリモート実行では環境変数で固定すると挙動が安定します。

xhigh で何が変わるか(実機検証)

classmethod の検証では、xhigh に切り替えると探索的なツール呼び出し(grep、複数ファイル読み込み、依存関係追跡)が顕著に増えると報告されています。high では「トークン節約のため tool 呼び出しを最小化」する傾向があったのに対し、xhigh は「中間結果に対して積極的に再評価し、失敗したツール呼び出しパスでバックトラックする」挙動を取ります。

これはコーディング体感では好ましい変化ですが、トークン消費がデフォルトで増えるため、想定外のコスト増を招くこともあります。後述の Task Budgets でガードレールを設けるのが現実解です。

effort と max_tokens のセット運用

Anthropic 公式は Opus 4.7 を xhigh / max で動かす場合に max_tokens を 64k から開始するよう勧めています。

response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=65536,
    output_config={"effort": "xhigh"},
    messages=[{"role": "user", "content": "..."}],
)

max_tokens1リクエストの生成上限であり、後述の task_budget とは別物です。max_tokens が低すぎると、xhigh の長考でサブエージェント呼び出しの途中で打ち切られます。

1M context window 実機ガイド ── Pro / Max / Team / Enterprise の違いと [1m] サフィックス

Anthropic ヘルプセンター「How large is the context window on paid Claude plans?」によれば、Claude Code での 1M context window の可用性はプランで明確に分かれます。

プラン別 1M context 可用性

プラン1M context補足
Free不可200K まで
Pro($20/月)クレジット消費で利用可能usage credits 設定が必要
Max 5x($100/月)自動で 1M に拡張追加設定不要
Max 20x($200/月)自動で 1M に拡張追加設定不要
Team Standard / Premium自動で 1M に拡張シート種別を問わず
Enterprise自動で 1M に拡張カスタム上限あり

プラン料金は Anthropic 公式プラン一覧 準拠。各プランの詳細比較はClaude Code 料金・プラン徹底比較も参照してください。

Pro プランで「opus を使えば自動で 1M」と誤解しているケースが多いですが、実際には [1m] サフィックスや claude --1m 相当の指定をしない限り 200K のまま動きます。Pro 利用者は管理画面で usage credits を有効化したうえで明示指定が必要です。

[1m] サフィックス と opusplan の落とし穴

GitHub issues(anthropics/claude-code#55504)でも報告されている通り、opusplan モード(事前計画にのみ Opus を使う)では [1m] バリアントを明示しないと 200K で頭打ちになります。

# 200K 止まり(落とし穴)
claude --model claude-opus-4-7

# 1M を明示的に使う
claude --model "claude-opus-4-7[1m]"

Max プラン以上では自動で 1M に拡張されますが、opusplan を組み合わせると意図せず 200K に戻る、というのが現場で頻発する事故です。

1M を活かすコーディング作法

  • 初回ターンで関連ファイルを一括投入する: Opus 4.7 は「最初のターンでコンテキストを全部乗せる」運用に最適化されています(classmethod ベストプラクティス 参照)。
  • compaction を遅らせる: max_tokens に余裕を持たせ、自動 compaction が頻発しないようにする。
  • 無効化が必要なら明示的に: 200K で十分なタスクは、コスト管理のために [1m] サフィックスを外す。

/ultrareview と新スラッシュコマンド集

Opus 4.7 と同時期にリリースされた Claude Code の新スラッシュコマンドを整理します。詳細はClaude Code スラッシュコマンド集も参照してください。

/ultrareview ── 深いセルフレビュー

/ultrareview は、現セッションの変更差分に対して xhigh effort で深いレビューを実行するコマンドです。/review がざっくりしたフィードバックなのに対し、/ultrareview は artisan(命名・構造・DRY・統一感)・guardian(セキュリティ・エッジケース・テスト)・ux-reviewer(アクセシビリティ・状態網羅)の観点でレビューを返す設計です。

> /ultrareview

=== Artisan 観点 ===
- src/lib/session.ts:42 の関数名が一貫していません
- DRY 違反: src/utils/a.ts と b.ts に同じ正規表現が重複

=== Guardian 観点 ===
- 入力バリデーション欠落: handler.ts:18 で undefined ガード未実装
- レースコンディション可能性: store.ts:85 で楽観ロック未実装

=== UX 観点 ===
- ローディング状態の表示漏れ: components/Button.tsx

PR を出す前のセルフレビュー、外部レビュー依頼の前段で使うと、指摘の質が安定します。

/effort ── スライダー UI

v2.1.111+ で導入。引数なしで実行すると対話的スライダーが開きます。

/focus ── 中間ログを隠す

「モデルが正しいコマンドを実行することをある程度信頼できる」段階で使う、中間作業ログを非表示にして最終結果のみ表示する出力モード(Tom 解説 参照)。

/fewer-permission-prompts ── 許可リスト自動拡張

セッション履歴をスキャンし、繰り返される許可リクエストを自動で許可リストに追加します。Read-only な Bash / MCP の許可付与を効率化できます。

Recaps ── 長時間離席後のサマリー

長時間セッションから戻ったとき、エージェントが実施内容と次ステップの自動サマリーを生成します。Auto mode 併用時の体験が大きく改善します。

Task Budgets (beta) 運用設計

Anthropic 公式(task-budgets)によれば、Task Budgets は エージェントループ全体(思考・ツール呼び出し・ツール結果・最終出力)のトークン消費目標を Claude に伝える機能です。max_tokens がリクエスト単位のハード上限であるのに対し、task_budgetモデルが自己モデレーションするための助言として働きます。

公式実装例

# Anthropic Python SDK 0.45+ を想定(betas キーが利用可能)
response = client.beta.messages.create(
    model="claude-opus-4-7",
    max_tokens=128000,
    output_config={
        "effort": "high",
        "task_budget": {"type": "tokens", "total": 128000},
    },
    messages=[
        {"role": "user", "content": "Review the codebase and propose a refactor plan."}
    ],
    betas=["task-budgets-2026-03-13"],
)

古い SDK では extra_headers={"anthropic-beta": "task-budgets-2026-03-13"} を使うパターンに置き換えてください。ヘッダーキーは task-budgets-2026-03-13task_budget の最小値は 20k tokens。Claude は走行中に「残り何トークンか」のカウントダウンを参照し、予算消費に応じて作業を優先順位付けし、自然に終結させます。

業務別推奨 task_budget

業務推奨 task_budget理由
PR レビュー(小〜中規模)30k〜60kレビュー観点別に分割
単体テスト生成40k〜80kカバレッジを意識した網羅
マルチファイルリファクタ100k〜200k探索が深くなる
モノレポ全体監査300k〜500k1M context をフル活用
夜間バッチ(自動修正)150k 固定暴走防止優先
デバッグ調査(再現困難)設定しないquality > speed のため公式推奨に従う

公式は「品質がスピードより重要な場面では task_budget を設定するな」とも明記しています。設計判断・難解バグ・アーキテクチャ選定では未設定で xhigh / max を回すのが妥当です。

Claude Code 側の Task Budgets

CLI 版では .claude/settings.json で設定できます。

{
  "taskBudgets": {
    "default": {
      "maxTokens": 200000,
      "maxSteps": 40,
      "onExceed": "prompt"
    },
    "review": {
      "maxTokens": 60000,
      "maxSteps": 20,
      "onExceed": "stop"
    }
  }
}

onExceedprompt(確認を挟む)/ stop(即停止)/ continue(警告のみ)が選択可能です。continue のまま本番運用するとコスト事故の温床になるので、promptstop を明示するのが推奨です。

Auto mode(Max / Team / Enterprise)の切替ロジック

公式発表で「Auto mode を Max users にも拡張」と明記されており、現時点では Max / Team / Enterprise プランで利用可能です(Pro は対象外)。

Auto mode は、タスク難易度に応じて Opus 4.7 と Sonnet 4.6 を自動で切り替える機能で、有効化すると以下のような挙動を取ります。

  • 単純なフォーマット・リネーム → Sonnet 4.6 で処理
  • 中程度のコード生成・ドキュメント生成 → Sonnet 4.6
  • 設計判断・複雑なリファクタ・モノレポ改修 → Opus 4.7
  • PR レビュー・ultrareview → Opus 4.7(+ xhigh)

体感としては「人間が claude --model で都度切り替えていた判断を、Claude が肩代わりする」感覚です。コスト面でも、軽作業に Opus を浪費しなくなるため prompt caching を併用すれば 4.6 単体運用よりも安く済むケースが現れます。

詳細なプラン比較はClaude Code 料金・プラン徹底比較を参照してください。

adaptive thinking と Breaking changes マイグレーション

Opus 4.7 のリリースは「機能追加」だけでなく Messages API の破壊的変更を含みます。公式の whats-new-claude-4-7 から、移行が必要な4点を順に整理します。

1. extended thinking budget の廃止 → adaptive thinking のみ

Opus 4.7 では thinking: {"type": "enabled", "budget_tokens": N} を指定すると 400 エラーを返します。adaptive thinking のみがサポートされる thinking-on モードで、thinking: {"type": "adaptive"} を明示的に指定する必要があります。

# Before (Opus 4.6)
thinking = {"type": "enabled", "budget_tokens": 32000}

# After (Opus 4.7)
thinking = {"type": "adaptive"}
output_config = {"effort": "high"}

adaptive thinking は デフォルトで OFFthinking フィールドを指定しないリクエストは thinking なしで動きます。high / xhigh / max effort では「ほぼ常に深く思考」し、low / medium では単純な問題で思考をスキップすることがあります。

2. temperature / top_p / top_k の指定で 400 エラー

temperaturetop_ptop_kデフォルト以外の値にすると 400 エラーを返します。最も安全な移行パスは これらのパラメータをリクエストから完全に除去し、モデルの挙動誘導はプロンプトで行うことです。

# Before
response = client.messages.create(
    model="claude-opus-4-6",
    temperature=0,
    top_p=0.9,
    messages=[...],
)

# After
response = client.messages.create(
    model="claude-opus-4-7",
    # temperature / top_p / top_k は除去
    messages=[...],
)

temperature=0 で「決定論的に動かしていたつもり」のコードは、もともと完全な同一出力を保証していなかったので、削除しても実害は出にくいはずです。

3. thinking content がデフォルト非表示

レスポンスストリームに thinking ブロックは含まれますが、thinking フィールドは 空のまま返ります。reasoning outputs が必要なら display: "summarized" で明示的にオプトインします。

thinking = {
    "type": "adaptive",
    "display": "summarized",  # or "omitted" (default)
}

UI に思考をストリーミングしているプロダクトは、デフォルトのままだと「無音状態が続く長いポーズ」が現れるため、display: "summarized" を設定して可視のプログレスを復元してください。

4. tokenizer 更新

新 tokenizer により 同じテキストでも 1.0〜1.35 倍のトークンを消費します。/v1/messages/count_tokens の返却値も 4.6 と異なるため、過去ログを Opus 4.7 で再現する場合のヘッドルームが減ります。max_tokens を引き上げ、compaction トリガーを早めに設定する移行作業が必要です。

Claude Code 側の挙動変化(API 破壊ではないが要注意)

  • 命令解釈が より文字通りになる(特に低 effort)
  • 応答長が タスクの複雑度に比例する(固定 verbosity が消える)
  • ツール呼び出しを 減らして reasoning を増やす(effort を上げると反転)
  • subagent の起動が控えめになる(プロンプトで明示誘導可能)
  • emoji が減り、より 直接的・断定的なトーンになる
  • 進捗報告の頻度が 長時間トレースで増える

サブエージェント運用のチューニングはClaude Code サブエージェントガイドを参照してください。

Opus 4.7 を最大限引き出すプロンプティング作法

4.6 で通じていたプロンプトが 4.7 で性能を落とす、というケースは「文字通りの解釈 × 応答長のタスク比例」が原因のことが多いです。Anthropic 公式の挙動メモを踏まえ、実務で効くプロンプティング作法を4つにまとめます。

作法1: 依頼書スタイルで意図と境界を明示する

「いい感じに直して」のような曖昧指示は 4.7 では 必要最小限の修正で終わる傾向が強まりました。依頼書のように「目的・成功条件・制約・参照ファイル」を上から並べると、xhigh の探索が無駄なく走ります。

目的: pricing.ts のロジックを 4.6→4.7 tokenizer 差分を反映した試算に書き換える
成功条件: (1) cache hit 比率を引数化 (2) Batch API 適用比率を引数化 (3) 単体テスト追加
制約: 既存の Public API 互換は維持。新しい依存パッケージは追加しない
参照: src/lib/pricing.ts, src/lib/pricing.test.ts, docs/cost-model.md

作法2: 肯定形で例示する

「〜してはいけない」より「〜してください」の方が、文字通り解釈の Opus 4.7 では確実に拾われます。don'tdo に言い換えるだけで、低 effort でも安定します。

作法3: 並列化はプロンプトで誘導する

公式の挙動メモには「subagent の起動が控えめになる」とあります。並列処理を期待する場合は、プロンプト内に「サブエージェントを 5 つ並列で起動して各テスト群を担当させてください」のように明示してください(subagent_count は公式パラメータではなく、プロンプト内の擬似指示として書く形式です)。Haiku 4.5 / Sonnet 4.6 を子エージェントに使う指定も同じ書き方で通ります。

作法4: 検証ステップを依頼書に組み込む

/ultrareview を使わない場面でも、プロンプト末尾に「実装後、変更ファイルに対して pnpm test を実行し、すべて通ることを確認してください」と書いておくと、Opus 4.7 は自己検証ループを律儀に回します。これは Tom(note 解説)が「自己検証ループで品質が 2〜3 倍向上」と表現したパターンと同じ発想です。

Claude Code 設定例(.claude/settings.json)

Opus 4.7 への移行で実用的な設定テンプレートを置きます。プロジェクト直下の .claude/settings.json に配置してください。

{
  "model": "claude-opus-4-7",
  "effort": "xhigh",
  "maxTokens": 65536,
  "context": {
    "preferred": "1m"
  },
  "taskBudgets": {
    "default": {
      "maxTokens": 200000,
      "maxSteps": 40,
      "onExceed": "prompt"
    },
    "review": {
      "maxTokens": 60000,
      "maxSteps": 20,
      "onExceed": "stop"
    },
    "nightly_batch": {
      "maxTokens": 150000,
      "maxSteps": 30,
      "onExceed": "stop"
    }
  },
  "autoMode": {
    "enabled": true,
    "fallbackModel": "claude-sonnet-4-6",
    "fallbackEffort": "medium"
  },
  "thinking": {
    "type": "adaptive",
    "display": "summarized"
  }
}
  • effort: xhigh で日常運用、maxTokens: 65536 で公式推奨の下限を確保
  • taskBudgets.default.onExceed: prompt で人間の確認を挟む
  • taskBudgets.review.onExceed: stop/ultrareview の上限を明確化
  • autoMode.fallbackModel: sonnet-4-6 で軽作業の自動フォールバック先を指定(Max / Team / Enterprise のみ有効)
  • thinking.display: summarized で UI に「考え中」プログレスを残す

tokenizer +35% コスト最適化戦略 ── prompt caching × Batch API × Task Budgets

「料金カードが据え置きなら同額で済む」と考えて 4.6 → 4.7 にそのまま切り替えると、1〜35% の請求増が確実に発生します。tokenizer の影響を吸収する3つのレバーを順番に整理します。

レバー1: prompt caching

cache hit の入力トークンは 通常価格の 10%(最大 90% 割引)で課金されます。Claude Code はセッション内のシステムプロンプト・コードベース投入分を自動でキャッシュ対象に含めるため、長時間セッションを少数立ち上げる運用ほど効きます。

レバー2: Batch API

入出力ともに 50% 割引。リアルタイム性が不要なバックグラウンドジョブ(夜間レビュー、過去ログの再分類、大量データ前処理)は Batch API に流すと、tokenizer +35% を完全に吸収できます。

レバー3: Task Budgets

task_budget を入れておけば、暴走的なツール呼び出しの連鎖を防げます。とくに新 tokenizer で消費が膨らみやすい xhigh / max のワークロードでは、コスト面からも Task Budgets を必須運用に格上げする価値があります。

月間 100M / 20M トークン規模のチームを例にしたコスト試算

前提: ベースの月間入力 100M / 出力 20M トークン、Opus 4.7 移行時は新 tokenizer による +35% を適用(入力 135M / 出力 27M 換算)。

シナリオ前提入力出力月額合計
4.6 単純実行キャッシュ無し / Batch 無し$500$500$1,000
4.7 単純移行+35% / キャッシュ無し / Batch 無し$675$675$1,350
4.7 最適化+35% / 70% cache hit / 30% Batch API約 $220約 $310約 $530

最適化シナリオの内訳(+35% 適用後の入力 135M / 出力 27M 前提):

  • 入力: 135M のうち 70% は cache hit(94.5M × $0.5/M ≒ $47)、残 30% の 30% は Batch API(12.15M × $2.5/M ≒ $30)、通常価格分(28.35M × $5/M ≒ $142)。合計約 $220
  • 出力: 27M のうち 30% は Batch API(8.1M × $12.5/M ≒ $101)、残 70% は通常価格(18.9M × $25/M ≒ $473)から、cache 効果による応答再利用分を差し引き、ワークロード依存で約 $310 前後

実際は cache hit 率・Batch 適用比率・effort 分布で大きく変動するため、自チームの1週間分の実消費を計測してから予算化してください。Anthropic コンソール(console.anthropic.com)の Usage 画面と、Claude Code 側の usage 集計(バージョンによって CLI コマンドの有無が異なるため、最新の公式ドキュメントで確認してください)でクロスチェックするのが安全です。

注: 本記事の試算は公式料金カードに基づく概算で、実費を保証するものではありません。請求は Anthropic 利用規約と各クラウドプロバイダー(Bedrock / Vertex AI / Azure AI Foundry)の課金体系に従います。

US-only データレジデンシー利用時の補正

inference_geo=us-only を指定する場合、全料金カテゴリに × 1.1 倍の乗数がかかります。日本リージョン運用でも、規制要件で US 外送信を避けるために設定するケースがあるので、上記試算に乗じてください。

Opus 4.7 vs Opus 4.6 vs Sonnet 4.6 タスク別使い分け

価格と context は次のとおりです(Anthropic pricing 準拠)。

モデル入力 / 出力(per M)context推奨 effort
Opus 4.7$5 / $251Mxhigh(Claude Code デフォルト)
Opus 4.6$5 / $25200Khigh(API デフォルト)
Sonnet 4.6$3 / $15200Kmedium(公式推奨)
Haiku 4.5$1 / $5200Klowmedium

タスク別の推奨

タスク第1選択第2選択不向き
1M context での全リポジトリ静的解析Opus 4.7-Sonnet 4.6(context 不足)
マルチ言語リファクタ(モノレポ)Opus 4.7Opus 4.6Haiku
単一ファイルのバグ修正Sonnet 4.6Haiku 4.5Opus はオーバーキル
ドキュメント生成・要約Sonnet 4.6Haiku 4.5Opus はコスト過剰
設計判断・PR レビューOpus 4.7(+/ultrareview)-Sonnet 4.6(深さ不足)
高解像度画像 OCR / chart 解析Opus 4.7(3.75MP対応)-4.6(旧画像上限)
大量分類タスクHaiku 4.5(Batch API)Sonnet 4.6Opus は浪費
サブエージェント(並列実行)Haiku 4.5 / Sonnet 4.6-Opus(並列で高額化)
適応的思考での難問解決Opus 4.7-Sonnet 4.6(adaptive 非推奨設計)

4.6 を 4.7 にすべて差し替えるべきか

すべて 4.7 化すると tokenizer +35% で純粋にコストが上がる場面が多くなります。コーディング・エージェント・1M context・高解像度画像が絡む業務は 4.7、それ以外は 4.6 のまま、もしくは Sonnet 4.6 にスケールダウンするのが現実的な棲み分けです。Auto mode が有効なら、この判断は Claude 側に任せられます。

モデル単体の挙動比較はClaude Code モデル比較に詳しい一覧を用意しています。

Opus 4.7 でしかできない7つのユースケース

4.6 や Sonnet 4.6 では実現が難しく、Opus 4.7 で初めて実務化する典型ケースを7つ整理します。

1. 1M context での全リポジトリ静的解析

100k 行クラスのモノレポを 1ターンですべて読み込ませ、循環依存・型不整合・dead code を一括検出します。GPT-5.5 / Gemini 3.1 Pro でも 1M〜2M の context は使えますが、SWE-bench Pro と CursorBench で Opus 4.7 が首位である点が、コードベース解析の決定打になります。

2. 高解像度スクショ→設計図 OCR → コード生成

旧 1568 px / 1.15 MP から 2576 px / 3.75 MP に拡張された画像入力で、Figma 4K スクショや手書き UML を直接読ませて React / Flutter のコンポーネントに落とせるようになりました。CharXiv 91% の数値はチャート読み取りでも実用域に達したことを示します。

3. /ultrareview による PR 自前監査

PR レビューを xhigh effort × artisan / guardian / ux-reviewer 観点で自動化。レビュアー不足のチームで「最低限の客観評価が出る前段」として運用すると、人間レビューの観点を「事実確認・設計の文脈」に集中させられます。

4. Task Budgets でエージェント暴走を抑える夜間バッチ

夜間に走る自動修正・テスト生成ジョブで task_budget 150k 固定 + onExceed: stop にすれば、想定外のコスト事故を防ぎつつ自律実行を任せられます。Auto mode と組み合わせれば、軽作業は Sonnet 4.6 にフォールバックします。

5. Auto mode による 4.7 / 4.6 / Sonnet 4.6 自動切替

Max / Team / Enterprise プラン限定機能。「重要な判断は Opus 4.7、軽作業は Sonnet」という運用判断を自動化し、人間が claude --model を都度切り替えていた手間を解消します。

6. 適応的思考でテスト不通の難解バグ解決

adaptive thinking は「いつ深く考えるか」をモデルが自己判断する仕組みです。再現困難なフレーキーテストや、複数モジュールにまたがる競合状態のデバッグで、従来 extended thinking で budget を細かく刻んでいた手間が不要になります。

7. 高解像度 chart 画像の数値書き起こし

CharXiv 4.6 69.1% → 4.7 91.0% の +22pt は、レポート画像の数値を pixel 単位で書き起こすタスクで決定的な差を生みます。財務レポート PDF のチャート、社内ダッシュボードのスクショを直接処理するワークフローが現実的になりました。

7つに通底するパターン

7つのユースケースは、表面上は別々の業務に見えますが、共通する3つのパターンに集約できます。

  1. 入力情報の拡張: 1M context(リポジトリ全体)、3.75 MP 画像(高解像度)で「投入できる情報量」が増えた
  2. 思考と検証の自動化: adaptive thinking と /ultrareview で「考える+自己検証」の往復が標準化された
  3. コスト管理の組み込み: Task Budgets と Auto mode で「使いすぎ」を構造的に止められるようになった

「Opus 4.7 でしか実現しない」と感じる業務は、ほぼ必ずこの3つのどれかに該当します。逆に言えば、3パターンのどれにも当たらない業務は、Sonnet 4.6 や Haiku 4.5 で十分なケースが多いということでもあります。

業種別シナリオ(SaaS / 受託 / 金融 / 製造 / SIer)

業種固有の業務文脈に Opus 4.7 × Claude Code を当てはめると、効果が出やすい場面が見えやすくなります。

SaaS

  • マイクロサービス全体のリファクタ: 1M context でサービス間依存を一望
  • A/B テストコードの清掃: 終了済み実験の dead branch を一括削除
  • 顧客向け SDK の多言語整合性: TypeScript / Python / Go の差分を同時レビュー

受託開発

  • 巨大レガシー資産の引き継ぎ: 数十万行の Java / PHP を 1M context で読ませ、設計図を生成
  • 顧客環境差分対応: dev / staging / production の設定差分を可視化
  • 見積り根拠の自動化: 要件文書→アーキ図→実装工数の積算

金融

  • 規制対応コードの監査: PCI DSS / 金融商品取引法対応の差分検出
  • 取引アルゴリズムのバックテスト: チャート画像から数値を抽出、戦略コードに変換
  • US-only データレジデンシー: × 1.1 倍料金を許容してでもデータ流出リスクを最小化

詳しくはClaude Code 金融エンジニアリング活用を参照してください。

製造業

  • 設計図 OCR: 2576 px 対応で手書き図面・PDF 図面を直接処理
  • PLC コードレビュー: ラダー図と高級言語コードの整合性チェック
  • 計測データの可視化コード生成: チャート画像から PoC 用ノートブックを生成

詳しくはClaude Code 製造業活用を参照してください。

SIer

  • 巨大要件定義書の構造化: Excel / Word 数百ページを 1M context で要件マトリクスに変換
  • 複数顧客向けカスタマイズの整理: 共通基盤と個別実装の差分を可視化
  • subagent 並列での運用作業: Haiku 4.5 を 10〜30 並列で走らせ、Opus 4.7 が監督

詳しくはClaude Code SIer 活用もあわせてどうぞ。

業種共通の落とし穴

業種をまたいで観察される共通の落とし穴を2つ挙げておきます。

第一に、「Opus 4.7 にすれば全部速くなる」という期待からくるオーバーキル。軽作業に Opus を割り当てると、tokenizer +35% とコスト単価の両方が効いて、4.6 時代の 1.5〜2 倍の請求になります。Auto mode を使えない Pro プランや、料金管理を厳密に行いたい場面では、軽作業を Sonnet / Haiku に明示ルーティングする手間を惜しまないでください。

第二に、「1M context を埋め尽くす」運用。context が広いからといって、関係ファイルを全部投げ込むと、推論ノイズが増えてかえって精度が落ちる場面があります。1M は「入れたいものを入れられる安心感」のための広さで、効くのは「初回ターンで関連するファイルだけを正確に入れる」設計です。

失敗事例とアンチパターン

実運用で頻発する落とし穴を、回避策とセットで列挙します。

tokenizer +35% を予算試算に入れ忘れる

「料金据え置きだから同額」と判断すると、月次請求で 30〜35% の超過が発生します。1週間の実消費ログで係数を取り直してから予算化してください。

Pro プランで [1m] サフィックスなしに 200K 止まり

Max 以上の自動 1M を Pro でも期待してしまうケース。Pro は usage credits + [1m] サフィックスが必須です。

temperature=0 の残骸で 400 エラー

「決定論的に動かしていたつもり」の 4.6 系コードが、4.7 に切り替えた瞬間に 400 エラーを返します。マイグレーション時はリクエストパラメータから temperature / top_p / top_k を機械的に除去してください。

thinking: {"type": "enabled"} を残したまま 400 エラー

extended thinking budget が廃止されているため、{"type": "adaptive"} に書き換える必要があります。気付かないと「4.6 系の Sandbox では動くのに本番だけ落ちる」事象になります。

thinking content omitted の UX 影響を放置

UI に「考え中」表示を出していたプロダクトは、4.7 デフォルトでは無音状態の長いポーズが発生します。display: "summarized" を必ず設定してください。

Task Budgets の onExceed: continue で本番運用

beta 段階で初期挙動を見落とし、continue(警告のみ)のまま放置すると 予算超過しても止まらないため請求事故になります。promptstop を必ず明示してください。

max を日常タスクで常用

max本当のフロンティア問題用であり、構造化出力では過剰思考で出力が壊れるケースもあります。「xhigh で評価したら quality 差はわずか、コスト差は大」というワークロードが大半なので、まず xhigh で運用するのが現実的です。

Auto mode を Pro プランで期待

Auto mode は Max / Team / Enterprise 限定。Pro で同じ挙動を期待してもモデル切替は起きません。

アップグレード判断フロー

「いま 4.6 から 4.7 に乗り換えるべきか」を、プラン × ユースケース別に整理します。

即移行が有効なケース

  • Claude Code を 大規模リファクタ / モノレポ改修 / マルチファイル跨ぎのデバッグで常用している
  • 1M context のメリット(全リポジトリ静的解析、巨大要件定義書)を享受できる
  • 高解像度画像処理(設計図 OCR、チャート解析)が業務に組み込まれている
  • Max / Team / Enterprise プランで Auto mode を使いたい
  • prompt caching × Batch API の 実装工数を確保できる

様子見でよいケース

  • 既存の 4.6 で十分満足、タスクが 単純なコード生成中心
  • tokenizer +35% を吸収する 最適化工数が取れない
  • 規模が小さく、コスト管理を厳密にしたい

段階移行のおすすめ手順

  1. 計測: 4.6 で 1週間の実消費(input / output / cache hit / Batch 比率)を取得
  2. ベースライン: max_tokens を 64k に引き上げて 4.7 の Sandbox で同じ業務を走らせる
  3. コスト差分: tokenizer +35% を反映した実効コストを算出
  4. 最適化: prompt caching・Batch API・Task Budgets を1つずつ導入
  5. 比較評価: 4.6 + 自前最適化 vs 4.7 + 最適化のコスト・速度・品質
  6. 段階展開: コーディング業務から先に切り替え、その他は Auto mode に判断委譲

移行スケジュールのテンプレート(4 週間)

このまま走らせて頂いて構いません、というスケジュールも用意しておきます。

やること成果物
1 週目4.6 で 1週間ログ取得、tokenizer 影響の見積もりusage.json、ベースライン試算表
2 週目Sandbox で 4.7 を回し、Breaking changes を機械的に修正移行 PR、回帰テスト結果
3 週目prompt caching / Batch API / Task Budgets を順に導入最適化後の試算表、.claude/settings.json
4 週目一部チームで本番移行、Auto mode を Max ユーザーに適用本番運用レポート、KPI(コスト・速度・品質)

このサイクルを回せば、tokenizer +35% を吸収しながら品質向上を享受できる構造に落とせます。

よくある質問

まとめと次のステップ

Claude Opus 4.7 は、単なるモデルアップデートではなく Claude Code の運用思想を一段階引き上げるリリースです。effort 5段階の xhigh デフォルト化は「深く考える」を標準にし、max は「本当のフロンティアだけ」に閉じ、Task Budgets は「深く考えすぎる」暴走を止め、/ultrareview は「深く考えた結果を品質で担保する」仕組みを提供します。1M context が標準料金で使え、画像対応は 3.75 MP まで拡張され、Auto mode は Max / Team / Enterprise でモデル切替を自動化します。

一方で Messages API の Breaking changes(詳細は § adaptive thinking と Breaking changes マイグレーション 参照)を無視した移行は、確実にコスト事故と障害を招きます。1週間の実消費ログを取り、prompt caching・Batch API・Task Budgets で吸収する設計から始めるのが現実的なスタート地点です。

組織として恩恵を最大化するには、「Opus 4.7 だけで全部こなす」発想を捨て、Sonnet 4.6 / Haiku 4.5 と組み合わせる前提でアーキテクチャを設計することが重要です。Auto mode を使える Max / Team / Enterprise プランなら、その判断は Claude に委譲できます。Pro プランや個人開発では、本記事の業務別 effort マトリクスをそのまま指針として使ってみてください。最初は xhigh + Sonnet 4.6 への明示フォールバックという小さな組み合わせから始め、慣れたら Task Budgets と Batch API を段階的に追加するのが、もっとも事故が少ない移行手順です。

次のステップとして、以下をおすすめします。

関連記事

koromo からの提案

AIツールの導入判断は、突き詰めると「投資対効果が合うか」「リスクを管理できるか」「事業にどう効くか」の3点に帰着します。koromo では、この判断に必要な材料を整理するところからご支援しています。

以下のような状況にある方は、まず現状の整理だけでも前に進むきっかけになります。

  • AIで開発や業務を効率化したいが、自社に合う方法がわからない
  • 社内にエンジニアがいない / 少人数で、AI導入の進め方に見当がつかない
  • 外注先の開発会社にAI活用を提案したいが、何を求めればいいか整理できていない
  • 「AIを使えばコスト削減できるはず」と感じているが、具体的な試算ができていない

ツールを使った上で相談したい方はお問い合わせフォームから「Claude Opus 4.7 × Claude Code 高度活用の相談」とご記載ください。初回の壁打ち(30分)は無料で対応しています。

本記事の更新方針: 本記事は定期的に内容を見直しています。記事内の判断軸・運用パターンは執筆時点での koromo の実務的知見に基づくものであり、個別環境での効果を保証するものではありません。仕様の最新情報は必ず Anthropic 公式発表(Introducing Claude Opus 4.7) をご確認ください。

関連記事