xAIがGrok4.1を正式公開 創造性・共感性・推論性能が大幅向上

2025年11月17日、米xAIは次世代大規模言語モデル「Grok4.1」を正式に公開した。
創造性や共感的対話に強みを持つほか、複数の評価指標で上位を獲得しており、AIアシスタントの実用性を高める発表となった。
Grok4.1、創造性と感情理解で新基準を示す
xAIはGrok4.1をgrok.comやXアプリなどで提供開始し、直ちにAutoモードへ反映した。Grok4.1は創造性、情緒的応答、共同作業の自然さといった「人との対話品質」を軸に再設計されている。
同社はGrok4で構築した強化学習基盤を継続的に活用し、今回は推論特化モデルを報酬モデルとして組み込み、回答品質を多角的に自己評価できる仕組みを導入した。
これにより、創造性や文体整合性のような従来定量化が難しかった領域でも、一貫した改善が可能になったとしている。
11月1〜14日に実施されたサイレントロールアウトでは、Grok4とのブラインド比較を継続的に行い、Grok4.1は64.78%の勝率を記録した。
評価条件を固定した上で安定的に優位を示した点は、強化学習設計の有効性を裏付けるデータと言える。
さらに、LMArenaのテキスト推論領域では、推論モード「Grok4.1 Thinking」がElo1483で全体1位を獲得し、通常モードも1465で2位につけた。
先行モデルのGrok4が33位だったことを踏まえると、短期間での大幅な推論性能の向上が明確だ。
加えて、感情理解能力を測定するEQ-Benchでは、ThinkingモードがElo1586を記録し、既存上位モデルを上回った。45のロールプレイシナリオで共感的応答の自然さを評価する指標であり、Grok4.1の情緒応答の改善を定量的に示す。
創作分野でも「Creative Writing v3」で上位に入り、物語生成や文体制御の精度向上が確認された。
Grok4.1の優位と課題
Grok4.1は、創造性・感情理解・推論といった複数領域を同時に底上げしており、AIアシスタントの用途拡張を後押しすると見られる。
ビジネス文書作成や創作支援に加え、ロールプレイ、意思決定支援など幅広い領域での浸透が期待される。
特に、通常モードでも他社推論モードに匹敵する指標を示した点は、日常利用における応答速度と品質の両立を示唆している。
一方で、今回の評価はモデル間比較に基づくものが多く、実運用下での長期的信頼性には検証の余地が残る。
感情応答の自然さや創造性は指標上で優位を示したが、誤情報リスクを完全に排除することは難しく、モデルカードでも継続的なモニタリングが前提とされている。
とはいえ、創造性・感情理解・推論の三領域で同時に改善を示した点は業界的に大きな前進である。
Grok4.1は対話AIの総合品質を高めるモデルとして注目され、生成AI競争をさらに加速させる要因になると見込まれる。
関連記事:
xAI、低コスト高速モデル「Grok 4 Fast」公開 推論対応と長文処理を強化












