マスク氏率いるxAI社の「Grok 3」が公表　ベンチマークテストなどから、その性能が明らかに

2025-02-19

イーロン・マスク氏が率いるxAI社は2025年2月18日、最新の大規模言語モデル「Grok 3」を公開した。もともと、マスク氏はGrok 3について、「世界で最も賢いAI」と表現するなど、その性能の高さを語っていた。

参考 : 2月18日、午後1時にリリースされる新AI「Grok 3」の実力とは　マスク氏の発言から探る

今回の発表ではベンチマークテストの結果など客観的なデータも示された。
本記事では、明らかになったGrok 3の実態を探る。

さまざまなモデルを用意

Grok 3は単一のモデルではなく、用途に応じて最適化された複数のバリエーションを提供している。標準的なGrok 3に加え、より高速な応答を実現する軽量版「Grok 3 mini」、そして高度な推論能力を備えた「Grok 3 Reasoning」が用意されている。

これらのモデルは、SNSプラットフォームXのPremium+サブスクリプション（月額50ドル）を通じて利用可能となる。さらに、より高度な機能を利用できる「SuperGrok」プランも提供される予定だ。
注目すべき機能として、インターネットとX上の情報を分析して要約を提供する「DeepSearch」が実装されており、OpenAIのDeep Researchに対抗する機能として期待されている。

数理関係で高いベンチマークスコアを記録

各モデルの中でも特に注目を集めているのが、数理系のベンチマークテストで卓越した性能を示したGrok 3 Reasoningモデルである。数学オリンピックの問題から抽出されたAIMEテストや、博士課程レベルの物理学、生物学、化学の問題で構成されるGPQAテストにおいて、GPT-4を上回ったとのことだ。
Grok3 Reasoningは、AIMEテストでは93点(o1は83点)、GPQAテストでは85点(o1は80点)を記録したという。

Grok 3 Reasoningは、複雑な数学的問題や科学的課題に対して、段階的な思考プロセスを示しながら解答を導き出す能力を持つ。元OpenAI創設メンバーのAndrej Karpathy氏がX上でポストした初期評価によると、数理的思考を要する課題において、OpenAIの最上位モデルと同等程度の性能を示したことが報告されている。

一方で、Karpathy氏は、いくつかの課題も指摘している。
特にユーモアの生成能力や倫理的に複雑な問題への対応においては改善の余地があるという。たとえば、ジョークの生成では創造性に乏しく、既存のパターンの繰り返しに留まる傾向が見られる。また、倫理的なジレンマを含む質問に対しては過度に慎重な応答を示すなど、バランスの取れた判断にまだ課題が残されているとのことだ。

ベンチマークテストの結果が示すように、Grok 3はOpenAIのGPT-4と互角以上の性能を持つモデルとして評価できる。特に数理系の課題において高い性能を誇り、実務利用においても大きな価値を持つ可能性がある。
xAI社は前世代モデルのGrok 2をオープンソース化する計画を発表しており、AI開発の民主化にも貢献する姿勢を示している。
Grok 3の音声機能の実装や企業向けAPIの提供も予定されているため、AI市場における競争は今後も激しくなっていくだろう。

🚀 AI・Web3業界への転職を考えているあなたへ

「最先端技術に関わる仕事がしたい」「成長市場でキャリアを築きたい」そんな想いを抱いていませんか？

Plus Web3は、AI・Web3領域などテクノロジーに投資する企業の採用に特化したキャリア支援サービスです。

運営する株式会社プロタゴニストは、上場企業グループの安定した経営基盤のもと
10年以上のコンサルタント歴を持つ転職エージェントが
急成長する先端技術分野への転職を専門的にサポートしています。

こんな方におすすめです

▼成長産業であるAI・Web3業界で新しいキャリアを始めたい
▼「未経験だけど挑戦してみたい」という熱意がある
▼今のスキルを最先端技術分野でどう活かせるか相談したい
▼表に出ない優良企業の情報を知りたい

業界に精通したキャリアアドバイザーが、
あなたの経験・スキル・志向性を丁寧にヒアリングし、
最適な企業とポジションをマッチングします。

キャリア相談する