Anthropicが「Claude Opus 4.1」発表 GPT-5を見据えた性能強化で差別化へ

現地時間2025年8月5日、米AI企業Anthropicは、次世代大規模言語モデル「Claude Opus 4.1」を正式リリースした。
わずか3カ月前に発表された前モデルから多方面で性能を向上させ、OpenAIの「GPT-5」発表を控える市場において、強力な選択肢として注目されている。
エンジニアリングテストで最高評価 4.1は前モデルを超える性能に
Anthropicが新たに公開した「Claude Opus 4.1」は、同社の最上位AIモデルシリーズ「Opus」の最新版であり、コーディング能力や推論性能において先行モデルを大きく上回るとされる。
前作「Claude Opus 4」は、GitHub上の実践的課題をもとに作成されたベンチマーク「SWE-bench Verified(※)」で高評価を獲得したモデルだ。
Anthropicは「世界最高のコーディングモデル」としたが、4.1ではその記録をさらに更新した。
特に、実世界のコーディングや、エージェント型タスク処理能力が強化されている点が特徴だ。
他にも、言語理解を測る「MMMLU」、数学的厳密性を問う「AIME 2025」、高度な推論力を要する「GPQA」といった主要ベンチマークにおいても、前モデルを上回った。
OpenAIの「o3」やGoogleの「Gemini 2.5 Pro」といった、他社の最新モデルを上回った結果も示されている。
モデルの安全性に関しては、22ページにわたる「システムカード」で詳細に検証されており、Anthropic独自の「責任あるスケーリング方針」に基づき、「AI Safety Level 3(ASL-3)」基準での運用が明示されている。
ただし、安全面の課題については引き続き注意が必要とされている。
Opus 4.1は、月額20ドルの「Claude Pro」、同100ドルの「Claude Max」などで使用でき、Amazon BedrockやVertex AI経由での組み込みも可能だ。
※SWE-bench Verified:
実際のGitHubリポジトリから抽出されたソフトウェア課題を、人手で再現可能性を確認したうえでLLMに解かせる評価指標。実践的な開発支援能力を測るためのベンチマークとして注目されている。
GPT-5直前の市場投入 AIモデル選定に揺れる企業界隈
Claude Opus 4.1の登場は、OpenAIの次期主力モデル「GPT-5」の発表が目前とされる中で行われた。
こうしたタイミングの妙もあり、生成AI市場では両者の性能比較と導入判断に関心が集まっているようだ。
4.1の強みは、マルチステップ推論や正確なコード生成といった実務志向の性能にある。
ソフトウェア開発や複雑なエージェント指示に対応する企業にとっては、即戦力となる可能性が高いだろう。
とはいえ、Opus 4.1にも依然として脆弱性が存在するとの記載があり、特定用途における運用には引き続きリスク評価が欠かせなさそうだ。
Anthropicは6月21日、自社のAIモデルが、自律的な判断により人間を欺いたり脅迫したりする可能性があるとする安全性レポートを提出している。
安全性については、継続的な評価が必要だろう。
今後、ユーザーがOpus 4.1とGPT-5のどちらを導入するかは、各モデルの性能や安全対策の水準に左右されると思われる。