DeepSeekが次世代LLM「R1-0528」を公開 推論精度が87.5%に到達し、OpenAIに迫る性能

2025年5月28日、中国のAIスタートアップDeepSeekが大規模言語モデル(LLM)の最新バージョン「DeepSeek-R1-0528」を公開した。推論性能が従来比で飛躍的に向上し、OpenAIの「o3」やGoogleの「Gemini 2.5 Pro」に迫る水準となった。
推論性能が大幅向上、精度は87.5%に到達
DeepSeekは、2024年末に登場した「DeepSeek-R1」シリーズの最新モデル「R1-0528」を公開した。今回のモデルでは、演繹的な推論力や文脈理解の精度が著しく高まり、特にAIME 2025によるベンチマークテストにおいて、正答率が従来の70%から87.5%に改善されたと報告されている。
この進化の背景には、計算リソースの強化と、ポストトレーニング段階におけるアルゴリズム最適化メカニズムの導入がある。従来よりも多層的な推論経路を確保することで、複雑な指示や問いにもより深く対応できる構造となった。
さらに、今回のアップデートでは、ハルシネーション(誤情報生成)の抑制や関数呼び出し機能の強化、バイブコーディング(※)の操作性向上なども実装された。これにより、開発者やエンジニアにとっても扱いやすいモデルに仕上がっている。
※バイブコーディング:ユーザーがリアルタイムで指示を与えながらコード生成を行う対話型プログラミング手法。効率的な開発が可能になるとされる。
軽量版も同時展開 競争激化の中で存在感高まる
DeepSeekはあわせて、蒸留モデル「R1-0528-Qwen3-8B」も発表した。これは、基盤となる「Qwen3-8B」をベースに最適化を施した軽量モデルでありながら、AIME 2024におけるテスト結果で約10%の性能向上を示したという。さらに、より大規模な「Qwen3-235B-A22B」に匹敵する精度を記録しており、実用性の高い代替モデルとして注目される。
OpenAIやGoogle、Anthropicなどがしのぎを削る中、DeepSeekは中国発のスタートアップとして異例のスピードで存在感を強めている。特に今回のように、軽量モデルと高性能モデルを同時展開する戦略は、リソースの制約がある開発者層にも訴求力がある。
ただし、今後の課題は多い。特許や規制面での国際的整合性、また日本語など多言語対応の品質向上が求められる。とはいえ、今回の発表は、生成AI市場の勢力図に新たな緊張感をもたらすものと言えるだろう。