Anthropic「Claude Sonnet 4.6」発表 「人間のような」PC操作で実務AIを刷新

現地時間2026年2月17日、米AI大手Anthropicが最新モデル「Claude Sonnet 4.6」をリリースした。コーディング、コンピューター操作、長文推論など幅広い性能が向上している。
無料・Proプランのデフォルトモデルとして即日提供が開始されている。
コンピューター操作が人間レベルに到達
Claude Sonnet 4.6の注目点は、コンピューター操作能力の飛躍的な進化にある。Anthropicは2024年10月、Claude 3.5 SonnetとClaude 3.5 Haiku汎用的なコンピューター操作モデルを公開した。
このモデルは、実際にスクリーンを見て、カーソルを動かしクリックをするという、人間と同じようなコンピューター操作を可能にしたが、当時は「実験的で、扱いにくくエラーも多い」ものだったという。
今回のモデルではそのコンピューター操作能力が大幅に改善している。
AIによるPC操作の評価基準である「OSWorld」(※)では、Sonnet 4.5の61.4に対し、sonnet 4.6は72.5のスコアを記録するなど、着実な進歩が見られた。
Anthropicは、早期アクセスユーザーからの声として、複雑なスプレッドシート上でのデータ整理・集計、複数ステップにわたるWebフォームへの入力、さらには複数のブラウザタブを横断しながら情報を統合する作業で「人間レベルの能力」という評価が見られたという。
コーディング性能も向上した。開発者向けツール「Claude Code」での検証では、前モデルSonnet 4.5との比較でユーザーの約70%がSonnet 4.6を支持した。
さらに、2025年11月リリースの高コストモデルOpus 4.5との比較でも、59%がSonnet 4.6を好むという結果が出ている。
実務面での実用性も増し、ビジネスシミュレーション評価「Vending-Bench Arena」では、最初の10カ月間で設備投資に集中し、終盤で収益化に切り替えるという独自の戦略を自ら編み出し、競合モデルを上回る成績を収めている。
※OSWorld:ChromeやLibreOffice、VS Codeといった実際のソフトウェアをシミュレーション環境上で動かし、マウスクリックやキーボード入力など人間と同様の方法で操作する能力を測定するベンチマーク。
業務自動化の加速が期待される一方、安全性の課題も浮上
Sonnet 4.6の登場により、これまでOpusクラスのモデルでなければ対応が難しかった経済的価値の高いオフィス業務が、より低コストで実行可能になるだろう。
API利用料は前モデルと同じ入力100万トークンあたり3ドル、出力15ドルに据え置かれているため、企業がAIエージェントを実務に本格導入する障壁は低下したと言える。
しかし、コンピューター操作能力の向上にはリスクも伴う。悪意ある第三者がWebサイト上に隠し指示を埋め込み、AIの操作を乗っ取る「プロンプトインジェクション攻撃」を行えば、その脅威は以前より増大するはずだ。
Anthropicは安全性評価において、Sonnet 4.6がプロンプトインジェクションへの耐性で前モデルから大幅に改善したと説明しているが、高度な操作が可能なぶん、これからの悪用に対しては注視が必要だろう。
今後の焦点は、この技術が旧来のシステムの自動化をどこまで推し進められるかにありそうだ。APIを持たない旧来の業務ソフトウェアをAIが直接操作できるようになれば、企業のDX推進に大きなインパクトを与え得る。
一方で、最も熟練した人間にはまだ及ばないとAnthropicも認めているため、完全な自律運用には慎重な段階的導入が求められるだろう。
関連記事:
Anthropic、最新AI「Claude Opus 4.6」公開 長文脈理解と自律作業が進化

Anthropic、Claudeが業務アプリを直接操作へ 対話型AIが実務の中枢に進化












