東京科学大などのチーム、GPT-4oに迫る日本語特化AI「Llama 3.3 Swallow」を公開

2025年3月10日、東京科学大学情報理工学院の研究チームが、日本語処理に特化した大規模言語モデル「Llama 3.3 Swallow」を発表した。米Meta社の「Llama 3.3」をベースに日本語能力を強化したモデルであり、日本語理解・生成性能においてGPT-4oに迫る評価を得ている。商用利用も可能で、企業にとって新たな選択肢となる見込みだ。
日本語処理で世界トップレベルの性能を実証
東京科学大学情報理工学院の岡崎研究室と横田研究室、産業技術総合研究所が共同開発したLlama 3.3 Swallowは、ベースモデルと指示学習済みモデルの2種類が公開された。
このモデルの特長は、日本語理解・生成性能テストで平均スコア0.629を記録し、GPT-4o(0.646)に次ぐ高い性能を示したことにある。中国のQwen2.5-72B(0.623)を上回っており、日本語処理において世界トップクラスの性能を持つことを証明している。
また、Metaが公開したLlama 3.3のライセンスを継承している点も注目に値する。このライセンスは、非独占かつロイヤリティフリーで利用、複製、配布、改変が可能で、かつ商用利用と研究利用の両方が許可されているのが特長だ。多くの企業にとって、独自の日本語AIサービス開発への道が開かれたと言えるだろう。
強みと課題が明らかになった実用評価
指示学習済みモデル「Llama 3.3 Swallow 70B Instruct v0.4」の対話性能評価では、平均スコア0.772を記録した。これはGPT-4o(0.848)やQwen2.5-72B-Instruct(0.835)には及ばない数字で、得意分野と不得意分野があることが影響している。
このモデルは人文科学やライティング分野など、知識や日本語に関するタスクにおいて強みを発揮する一方で、コーディングや数学、論理的推論においては改善の余地があるという。
近年、日本語に特化したAIモデルの開発は、実用化のフェーズに入っている。近頃では、2月12日に楽天が日本語に特化した大規模・小規模言語モデルを公開したことが話題を集めた。
現状、大規模言語モデルによるAI開発は、データの多さから英語が主導権を握っているが、英語以外の言語に対応したローカルなLLMの開発もまた進んでいる。日本でも、日本語能力に優れたAIの開発は急がれており、今回の発表もその流れを汲んだものと評価できるだろう。
今回のモデル公開は、日本のAI研究の存在感を高めるだけでなく、国内企業のAI活用における選択肢を広げる契機となるだろう。研究チームは今後、さらなる性能向上と応用分野の拡大を目指して開発を継続する予定であると発表している。
参考 :