マスク氏率いるxAI社の「Grok 3」が公表　ベンチマークテストなどから、その性能が明らかに

2025-02-19

PlusWeb3編集部

Web3/AI領域に特化した転職エージェント「Plus Web3 Agent」

最先端のテクノロジー領域で働きたい人材と優良企業のマッチングを支援しています。
少しでも興味のある方は、お気軽に「無料キャリア相談」をご利用ください！

キャリア相談する

キーワードで記事・企業を探す

イーロン・マスク氏が率いるxAI社は2025年2月18日、最新の大規模言語モデル「Grok 3」を公開した。もともと、マスク氏はGrok 3について、「世界で最も賢いAI」と表現するなど、その性能の高さを語っていた。

参考 : 2月18日、午後1時にリリースされる新AI「Grok 3」の実力とは　マスク氏の発言から探る

今回の発表ではベンチマークテストの結果など客観的なデータも示された。
本記事では、明らかになったGrok 3の実態を探る。

さまざまなモデルを用意

Grok 3は単一のモデルではなく、用途に応じて最適化された複数のバリエーションを提供している。標準的なGrok 3に加え、より高速な応答を実現する軽量版「Grok 3 mini」、そして高度な推論能力を備えた「Grok 3 Reasoning」が用意されている。

これらのモデルは、SNSプラットフォームXのPremium+サブスクリプション（月額50ドル）を通じて利用可能となる。さらに、より高度な機能を利用できる「SuperGrok」プランも提供される予定だ。
注目すべき機能として、インターネットとX上の情報を分析して要約を提供する「DeepSearch」が実装されており、OpenAIのDeep Researchに対抗する機能として期待されている。

数理関係で高いベンチマークスコアを記録

各モデルの中でも特に注目を集めているのが、数理系のベンチマークテストで卓越した性能を示したGrok 3 Reasoningモデルである。数学オリンピックの問題から抽出されたAIMEテストや、博士課程レベルの物理学、生物学、化学の問題で構成されるGPQAテストにおいて、GPT-4を上回ったとのことだ。
Grok3 Reasoningは、AIMEテストでは93点(o1は83点)、GPQAテストでは85点(o1は80点)を記録したという。

Grok 3 Reasoningは、複雑な数学的問題や科学的課題に対して、段階的な思考プロセスを示しながら解答を導き出す能力を持つ。元OpenAI創設メンバーのAndrej Karpathy氏がX上でポストした初期評価によると、数理的思考を要する課題において、OpenAIの最上位モデルと同等程度の性能を示したことが報告されている。

一方で、Karpathy氏は、いくつかの課題も指摘している。
特にユーモアの生成能力や倫理的に複雑な問題への対応においては改善の余地があるという。たとえば、ジョークの生成では創造性に乏しく、既存のパターンの繰り返しに留まる傾向が見られる。また、倫理的なジレンマを含む質問に対しては過度に慎重な応答を示すなど、バランスの取れた判断にまだ課題が残されているとのことだ。

ベンチマークテストの結果が示すように、Grok 3はOpenAIのGPT-4と互角以上の性能を持つモデルとして評価できる。特に数理系の課題において高い性能を誇り、実務利用においても大きな価値を持つ可能性がある。
xAI社は前世代モデルのGrok 2をオープンソース化する計画を発表しており、AI開発の民主化にも貢献する姿勢を示している。
Grok 3の音声機能の実装や企業向けAPIの提供も予定されているため、AI市場における競争は今後も激しくなっていくだろう。