「富岳」の力を借りて:日本AI研究の新たなる飛躍へ

Web3領域に特化した無料キャリア相談

Web3で働きたい人材と優良企業をマッチングする求人サービスを行っています!
お気軽に「無料キャリア相談」をご利用ください!

日本が世界に誇るスーパーコンピュータ「富岳」。その途方もない世界トップの計算能力が、AI研究の最前線にて大規模言語モデルの分散並列学習手法の開発に向けて、全力を挙げて働きます。日本語や日本の知識を重視した特定の大規模公開モデルの形成、そのモデルを作るための高度な学習技術の獲得、そしてそれらを活用した各種の研究開発や個別データに特化したモデルの構築。このプロジェクトが目指すのは、それら全てです。その壮大な挑戦と、それが日本のAI研究にどのような影響を与えるのかみていきましょう。

東京工業大学、東北大学、富士通、理化学研究所が共同でスーパーコンピュータ「富岳」を活用した大規模言語モデルの分散並列学習手法の研究開発を開始しました。本プロジェクトの目指すところと、それがAIの未来にどのような影響を及ぼすかについて解説します。

目次

背景と目的

近年、ChatGPTをはじめとする大規模深層学習モデルは、AIの発展と共に重要な位置を占めるようになりました。これらのモデルは、社会全体のあり方を変える革新的な技術であり、Society5.0における研究開発、経済社会、安全保障などのあらゆる側面から基盤技術として期待されています。しかし、それらの性能を向上させるためには、大量のデータを効率的に処理できる高性能計算資源が必要となります。スーパーコンピュータ「富岳」は、その超大規模な並列計算環境が、この問題の解決に寄与すると期待されています。

プロジェクトの詳細

このプロジェクトでは、4つの機関が協力して「富岳」を活用した大規模言語モデルの分散並列学習手法の開発に取り組んでいます。東京工業大学は全体総括を担当し、大規模言語モデルの並列化および高速化を推進します。東北大学は学習用データの収集とモデルの選択を、富士通と理化学研究所は大規模言語モデルの高速化と分散並列化・通信高速化をそれぞれ担当します。実施期間は2023年5月24日から2024年3月31日までと定められています。。

「富岳」が日本のAI研究を牽引、1700憶パラメータの大規模言語モデルを目指す

理化学研究所計算科学研究センター長によれば、今回のスーパーコンピュータ「富岳」を活用した大規模言語モデルの分散並列学習手法の開発は、日本のAI研究に多大な影響を及ぼすと期待されています。具体的には、以下の3つの重要な点が挙げられます。

  1. 日本語や日本の知識を重視した特定の大規模公開モデルが作成されること。
  2. 高度な学習の研究や技術を日本が獲得し、大規模言語モデルの形成に活かすこと。
  3. これらを用いて、各種の研究開発や民間の個別データに特化したモデルの構築の礎を築くこと。

さらに、彼らの目標は、GPT3.0やGPT3.5並みの1700憶パラメータのモデルを、富岳の1/5程度のリソースを使って、一月程度で事前学習モデルを形成することです。そして、そのために富岳ではすでに多くの高速化技術が開発中であり、これらの技術は今後の各機関の学習専用スーパーコンピュータや「FugakuNEXT」などに活用されることが期待されています。

研究成果の公開と利用

開発される大規模言語モデルの学習手法は公開され、日本国内外の研究者やエンジニアが自由に利用できる予定です。これは、GitHubやHugging Faceを通じて2024年度に公開される計画です。この開放的な取り組みにより、多くの研究者や技術者が基盤モデルの改善や新たな応用研究に参画し、効率的な方法が創出されることが期待されています。

まとめ

日本が誇るスーパーコンピュータ「富岳」が新たな一歩を踏み出します。東京工業大学、東北大学、富士通株式会社、理化学研究所の四者は、「富岳」を活用した大規模言語モデルの分散並列学習手法の研究開発を行うことを発表しました。このプロジェクトは、日本語や日本の知識に特化した大規模公開モデルの構築、高度な学習技術の獲得、それらを活用した研究開発や個別データに特化したモデルの構築を目指します。

GPT3.x並みの1700憶パラメータのモデルの事前学習モデルの形成を目標に、富岳は1/5程度のリソースを使って一月程度でその目標に向かいます。また、多くの高速化技術が開発中であり、これらの技術は今後の学習専用スーパーコンピュータや「FugakuNEXT」などに活用されることが期待されています。

このプロジェクトの結果は、2024年度にGitHubやHugging Faceを通じて公開され、日本の研究者やエンジニアが大規模言語モデルの開発に活用できるようになります。さらに、産業分野への応用を視野に入れたマルチモーダル化のためのデータ生成手法や学習手法の開発、そして大規模言語モデル構築のためのデータおよび技術提供を行う企業との連携も検討されています。

これは日本のAI研究にとって大きな一歩となるでしょう。

ニュースで学ぶAI知識のコーナー

今回のキーワード:大規模言語モデル(Large Language Model, LLM)

大規模言語モデル(Large Language Model、LLM)とは、人間の言語を理解し、生成する能力を持つ人工知能(AI)の一種です。その「大規模」な部分は、訓練に使うデータの規模とモデル自体の複雑さ、つまりパラメータの数を指します。

LLMは数千万、あるいは数十億のパラメータを持つ深層学習ネットワークとして設計されています。これらのネットワークは、ウェブページ、書籍、記事などの大量のテキストデータから学習し、自然言語を理解し生成する能力を身につけます。この学習プロセスは、ネットワークがテキストのパターンを見つけ、それらを予測する能力を向上させることを目指しています。

LLMの一例として、この記事でも触れられているChatGPTがあります。ChatGPTは、対話型のAIとして開発され、人間と自然に会話する能力を持つことで知られています。その背後には大量のテキストデータから学習した大規模言語モデルがあります。

しかしながら、LLMの効果的な訓練と活用は、大量の計算資源と専門的な知識を必要とします。それが、今回のニュースで取り上げられている「富岳」を用いた大規模言語モデルの分散並列学習手法の開発が重要な意味を持つ理由です。この研究開発により、高性能な計算資源を最大限に活用して、大規模言語モデルの学習を効率的に行う手法が確立されることで、より強力で賢いAIの創出が期待されます。

Plus Web3は「Web3領域に特化したキャリア支援サービス」

あわせて読みたい
【Web3転職相談可能!】Web3業界で働くには?必要な手順と大切なことを解説 近年名前を聞くことが多くなったWeb3。 多くのスタートアップが競合を強めたり、大手企業がWeb3業界に参入したりなど、ますます注目を高めています。 しかし具体的にWeb...

Plus Web3では、Web3で働きたい人材と、個人に合わせた優良企業をマッチングする求人サービスを行っています。

  • Web3で働くことも考えている…
  • Web3のインターン先はどこがいいか分からない…
  • どんな知識やスキルがあれば良いのか分からない…

このような悩みを抱える人は、一度「無料キャリア相談」にお越しください。あなたにマッチした優良企業をご紹介いたします。

参考文献

Please Share
  • URLをコピーしました!
  • URLをコピーしました!
目次