東京工業大学、東北大学、富士通株式会社、理化学研究所は、「富岳」政策対応枠において、スーパーコンピュータ「富岳」(以下、「富岳」という)を活用した大規模言語モデル(Large Language Model, LLM)[用語1]の分散並列学習手法の研究開発を2023年5月から実施します。
大規模言語モデルは、ChatGPT[用語2]をはじめとする生成AIの中核として使用されている深層学習のAIモデルであり、4者は今後、今回の研究開発の成果物を公開することで、アカデミアや企業が幅広く使える大規模言語モデルの構築環境を整え、国内におけるAIの研究力向上に貢献し、学術および産業の両面で「富岳」の活用価値を高めることを目指します。
背景
ChatGPTに代表される大規模深層学習モデル(基盤モデル)は、インターネットやスマートフォンのように社会全体のあり方を変える革新的な技術であり、Society5.0における研究開発、経済社会、安全保障などのあらゆる側面から基盤技術として期待される一方で、基盤モデルの性能を高めるためには大量データを効率的に処理する高性能計算資源が不可欠です。
そこで、4者は、基盤モデルの研究開発における計算環境を整備するため、「富岳」政策対応枠において、「富岳」を活用した大規模言語モデル分散並列学習手法の開発に向けた研究開発を行います。
実施期間
2023年5月24日から2024年3月31日まで (「富岳」政策対応枠の利用期間)
役割
今回開発する大規模言語モデル分散並列学習手法は、「富岳」の超大規模な並列計算環境において大規模言語モデル学習を効率良く実行する技術となります。4者の役割は以下のとおりです。
- 東京工業大学:全体総括、大規模言語モデルの並列化および高速化
- 東北大学:学習用データの収集、モデルの選択
- 富士通:大規模言語モデルの高速化
- 理化学研究所:大規模言語モデルの分散並列化・通信高速化、大規模言語モデルの高速化
今後について
4者は、日本の研究者やエンジニアが大規模言語モデルの開発に活用できるように、今回の「富岳」政策対応枠で得られた研究成果をGitHub[用語3]やHugging Face[用語4]を通じて、2024年度に公開する予定です。多くの研究者や技術者が基盤モデルの改善や新たな応用研究に参画することで、効率的な方法が創出され、次世代の革新的な研究やビジネスの成果に繋がることが期待されます。
さらに、ものづくりをはじめとする産業分野などへの応用を想定したマルチモーダル化のためのデータ生成手法および学習手法の開発を行う名古屋大学や、大規模言語モデル構築のためのデータおよび技術提供を行う株式会社サイバーエージェントとの連携も今後検討していきます。
エンドースメント
東京工業大学 学術国際情報センター 教授 遠藤敏夫
本学と理研による「富岳」を活用した大規模言語モデルの並列化・高速化、富士通の「富岳」向け高性能計算基盤ソフトウェアの開発とAIモデルの性能チューニング、東北大学の自然言語処理の技術を融合させていきます。富士通との連携においては、スモールリサーチラボ「富士通次世代コンピューティング基盤協働研究拠点」も活用してまいります。今回の取り組みにより、「富岳」上で大規模分散深層学習を実施するための環境が整備されることで、我が国のAIの研究力向上への貢献が期待されます。
東北大学 大学院情報科学研究科 システム情報科学専攻 教授 乾健太郎
学習データの情報に透明性があり、日本語データを中心にした、商用利用も可能なオープンソースの大規模言語モデルを構築します。学習データのトレースを可能にすることによって、ブラックボックス問題、バイアス、誤情報・ハルシネーション等に関する科学的検証に耐える研究が可能になると期待されます。東北大で培った言語処理モデルの深層学習や日本語処理を考慮した言語モデル構築の知見も活かしながら大規模モデル構築の試行錯誤を重ね、得られた知見を広く共有することによって、我が国のAI研究力向上へ貢献してまいります。
富士通株式会社 執行役員EVP 富士通研究所長 岡本青史
当社が有する大規模並列コンピューティングとAIの融合技術を活用することで、「富岳」を用いた大規模言語モデルの研究開発に貢献するとともに、そこで得られる先進的AI技術や知見を当社のAIプラットフォーム「Fujitsu Kozuchi (code name) - Fujitsu AI Platform」を介して提供することで、画期的なアプリケーションの開拓を促進し、持続可能な社会の実現に貢献してまいります。
理化学研究所 計算科学研究センター長 松岡聡
「富岳」で開発された「A64FX[用語5]」は、SVEと呼ばれるAIの加速機能を備えていますが、その能力を最高に発揮し、かつ一般的なAIアプリで活用するには、ソフトウェアの開発と最適化が不可欠です。今回の共同研究を通じて、本計算科学研究センターの研究者を含む、我が国の言語モデルや計算機科学の研究者が結集して、「富岳」上で大規模言語モデル構築基盤の高度化に取り組むことが重要です。これにより、本センターとしてSociety 5.0の実現に貢献していく所存です。
課題名
「富岳」を活用した大規模言語モデル分散並列学習手法の開発(課題番号:hp230254)
商標について
記載されている製品名などの固有名詞は、各社の商標または登録商標です。
用語説明
[用語1] 大規模言語モデル : 数億~数十億のパラメータを持ち、大量のデータを用いて事前学習されたニューラルネットワークのことを指す。最近では言語処理におけるGPTや画像処理におけるViTなどが代表的な大規模学習モデルとして知られている。
[用語2] ChatGPT : OpenAIが開発した自然言語処理のための大規模言語モデルで、対話システムや自動文章生成などのタスクに高い精度で対応。
[用語3] GitHub : 世界中でオープンソースソフトウェアの公開につかわれているプラットフォーム。GitHub
[用語4] Hugging Face : 世界中でAIのデータセットを公開するのに使われているプラットフォーム。Hugging Face
[用語5] A64FX : 富士通が開発したARMベースのCPUでスーパーコンピュータ「富岳」に搭載。
- プレスリリース スーパーコンピュータ「富岳」政策対応枠における大規模言語モデル分散並列学習手法の開発について
- 東京工業大学 学術国際情報センター
- 東北大学 大学院情報科学研究科
- 富士通株式会社
- 理化学研究所 計算科学研究センター
- 富士通と「富士通次世代コンピューティング基盤協働研究拠点」を設置|東工大ニュース
- 高校生・高専生「富岳」チャレンジを開催|東工大ニュース
お問い合わせ先
東京工業大学 学術国際情報センター
教授 横田理央
Email rioyokota@gsic.titech.ac.jp
Tel 03-5734-2121
東北大学 大学院情報科学研究科
准教授 坂口慶祐
Email keisuke.sakaguchi@tohoku.ac.jp
Tel 022-795-7091
富士通株式会社
富士通コンタクトライン(総合窓口)
Tel 0120-933-200
プレスリリースに関するお問い合わせフォーム
取材申し込み先
東京工業大学 総務部 広報課
Email media@jim.titech.ac.jp
Tel 03-5734-2975 / Fax 03-5734-3661
東北大学 大学院情報科学研究科 広報室
Email koho@is.tohoku.ac.jp
富士通株式会社
広報IR室
Tel 03-6252-2174(直通)
理化学研究所神戸事業所計算科学研究推進室
理化学研究所広報室報道担当
Email ex-press@ ml.riken.jp
Tel 050-3495-0247