GPT-4を使った化学研究の課題と展望に関する研究化学研究におけるAIの活用範囲を検討

要点

OpenAIの大規模言語モデルGPT-4の化学研究への適用可能性について検証
種々のベンチマークタスクに対する応答や課題を評価
AIを活用した新しい化学研究方法やプロセスの創出に向けた展望を提示

概要

東京工業大学物質理工学院材料系の畠山歓助教と早川晃鏡教授らの研究チームは、Open AIが開発した大規模言語モデルであるGPT-4を化学研究のモデルタスクに適用し、その潜在能力や課題を検証した。

化学事象の認識・分析・予測・計画の4領域でのベンチマークタスクでの検証の結果､GPT-4は化学研究における種々の作業に対して、有用な知識や洞察を効果的に提供しうることが示された。さらに、その能力が実験操作を行うロボットアームの制御などの研究にも応用可能であることが確認された。しかしながら、先端知識の不足や情報の認識エラーなどの問題も確認され、これらの克服が今後の研究課題として明らかになった。

今後、AIと化学研究の連携がさらに進めば、新しい手法やプロセスの開発が促され、化学・材料研究の加速が期待される。

本研究成果は、東京工業大学物質理工学院材料系の畠山歓助教、難波江裕太准教授、早川晃鏡教授、筑波大学の五十嵐康彦准教授らによって行われ、10月9日付の「Science and Technology of Advanced Materials」にオンライン掲載された。

背景

2023年の3月にOpenAIが開発した大規模言語モデルGenerative Pre-trained Transformer 4（GPT-4）が一般公開され、人工知能（AI）への注目が急激に高まっている。このモデルは多岐にわたる知識を持つだけでなく、多彩なタスクの実行能力も示しており、人間と同等以上の知識や認識力を持つことが確認されている。また、スケーリング則^[用語1]やムーアの法則^[用語2]のもと、大規模言語モデルはさらなる性能向上を果たすことが期待され、諸分野での応用が見込まれている。

こうした背景を受け、大規模言語モデルが諸領域で、今後どのような影響を与えうるのか、そして解決すべきタスクが何であるかについて、俯瞰的な視点から検証する作業が喫緊の課題となっている。化学・材料分野も例外ではなく、従来から研究されてきたデータ科学手法（ケモインフォマティクス､マテリアルズ・インフォマティクス^[用語3]）との連携法や解くべきタスクを、先端の研究知見も踏まえつつ整理する必要があった。

研究成果

著者らは最近の研究において、GPT-4が有する化学知識を活用することで、従来法よりも高性能な物性予測の機械学習モデルを構築可能な事例を報告した（Digital Discovery, 2023）。本研究では化学研究、特に有機材料分野に焦点を当てながら、より広い視点からGPT-4の能力を検証した。化学事象の認識・分析・予測・計画の4領域でベンチマークタスクを推進した結果、GPT-4は、原理的には化学分野における種々のタスクをサポート可能であり、言語モデルに特有の解釈性や汎用性が大きな強みになることが分かった（図1）。

図1. GPT-4が化学研究で果たせる役割の例とベンチマーク結果。最右列がベンチマーク。色付きで表記されるタスクは回答に一部成功したもの、灰色のタスクは回答が困難であったものを表す。

図1.: GPT-4が化学研究で果たせる役割の例とベンチマーク結果。
最右列がベンチマーク。色付きで表記されるタスクは回答に一部成功したもの、灰色のタスクは回答が困難であったものを表す。

化学事象の認識

GPT-4は種々の化合物の物性データや特徴に関する知識データを有しており、大学院レベルの問題にも回答可能であった。物質の分子構造もIUPAC命名法やSMILES記法^[用語4]などを通して一部認識できた。典型的な化学反応の種類やメカニズムを認識したり、反応条件や生成物に関する質問にも迅速に対応したりすることができた。一方で複雑な分子構造の認識や、先端レベルの化学反応においては誤答が目立った。

分析や予測

例えば特定の分子が対照物よりも高い物性値（例：酸化還元電位）を持つ理由を、官能基の有無と関連付けて説明できた。さらに未知の化合物の物性を、GPT-4が持つ化学知識に基づいて理由付きで予測できた（図2）。また、数件程度の小さなデータベースからでも構造―物性相関の予測モデルを構築できる事例があることが分かった。これは、言語モデルが化学的な背景知識に基づいて推論を行えるためである。

図2. 上: 化合物の酸化還元電位の違いの理由を尋ねるプロンプト※と回答の抜粋。下: 分子構造と酸化還元電位の序列。（※GPT-4にはテキストデータのみを与えた）

図2.: 上: 化合物の酸化還元電位の違いの理由を尋ねるプロンプト※と回答の抜粋。
下: 分子構造と酸化還元電位の序列。
（※GPT-4にはテキストデータのみを与えた）

計画

モデル反応系において、所望の収率を得るために必要な化合物の仕込み量や反応時間などを提案できた。例えばGPT-4は与えられた化学反応に基づいて､「反応時間が長すぎると望ましくない副反応が進行するので、少し早めに反応を終了する」という判断を下すことができた。一方、従来の化学知識を持たない非言語型のモデルにはその能力がないため、探索の初期段階では完全にランダムな提案しかできなかった。

また、GPT-4は自然言語での指示をもとに、実験操作を行うロボットアームの制御プログラムを出力できた（図3）。具体的な実験手順や反応条件の最適化に関する提案も可能で、実験の効率化や成功確率の向上に貢献する可能性が示された。

図3. 自然言語による実験指示をGPT-4が解釈し､プログラムコードを出力する例。

図3.: 自然言語による実験指示をGPT-4が解釈し､プログラムコードを出力する例。

実践的な運用に向けた課題も明らかになりつつある。GPT-4は学術論文レベルの先端知識をほとんど持ち合わせていなかったことに加え、一部のタスクでは物性の予測誤差の問題などが顕在化している。解決策として、今後は専門知識に特化した言語モデルの構築や既存のインフォマティクス手法との融合が必要である。

社会的インパクト

GPT-4のような高性能な大規模言語モデルを化学分野へ応用することで、研究開発の業務を効率化できる可能性がある。また、AIが持つ膨大な知識と推論能力を活用すれば、未解明の問題や現象に対して新しい示唆を得られることが期待される。

今後の展開

本研究の成果を受け、最先端の化学研究や科学知識にも適合したモデルの開発に取り組み始めている。さらに、自動実験のためのロボットアームの制御など、化学研究を幅広くサポートするための大規模言語モデルシステムの構築も検討中である。

付記

本研究は、日本学術振興会科学研究費助成事業基盤研究（B）「教師無し深層学習による革新有機材料の自動探索」代表：畠山歓（21H02017）、同新学術領域研究（研究領域提案型）「特異的作用場としての芳香族高分子による塩の非晶・超イオン伝導化」代表：畠山歓（22H04623）、科学技術振興機構（JST）創発的研究支援事業「プロセスに強いMIの創出と複合機能材料での実践」代表：畠山歓（JPMJFR213V）、同戦略的創造研究推進事業（CREST）「科学者の能力を拡張する階層的自律探索手法による新材料の創製」五十嵐康彦（JPMJCR21O1）の支援を受けて行われた。

用語説明

[用語1] スケーリング則 : 大規模言語モデルの性能がモデルのサイズや訓練データ、計算資源が増加するにつれて一貫して向上する傾向を示す経験則を指す。モデルが大きくなればなるほど、より多くのタスクで高い性能を達成する可能性が高まる。

[用語2] ムーアの法則 : 集積回路のトランジスタ数が約2年ごとに倍増するという経験則を指す。これにより、コンピュータの処理能力も約2年ごとに倍増するとされる。スケーリング則とムーアの法則を鑑みると、今後も継続的に大規模言語モデルが性能向上することが見込まれる。

[用語3] ケモインフォマティクス､マテリアルズ・インフォマティクス : 化学や材料科学をデータ科学の視点から解析する学問領域。

[用語4] IUPAC命名法やSMILES記法 : 前者は国際純正応用化学連合（IUPAC）が定めた化合物の命名法を指す。後者はsimplified molecular input line entry system（SMILES）の略で、分子構造をASCII符号の英数字で文字列化したデータ科学向けの表記。

論文情報

掲載誌 :	Science and Technology of Advanced Materials: Methods
論文タイトル :	Prompt engineering of GPT-4 for chemical research: what can/cannot be done?
著者 :	Kan Hatakeyama-Sato, Naoki Yamane, Yasuhiko Igarashi, Yuta Nabae, and Teruaki Hayakawa
DOI :	10.1080/27660400.2023.2260300

物質理工学院 ―理学系と工学系、2つの分野を包括―
2016年4月に発足した物質理工学院について紹介します。

物質理工学院

学院・系及びリベラルアーツ研究教育院 outer

お問い合わせ先

東京工業大学物質理工学院材料系

助教畠山歓

Email hatakeyama.k.ac@m.titech.ac.jp
Tel 03-5734-3507

東京工業大学物質理工学院材料系

教授早川晃鏡

Email hayakawa.t.ac@m.titech.ac.jp
Tel 03-5734-2421

取材申し込み先

東京工業大学総務部広報課

Email media@jim.titech.ac.jp
Tel 03-5734-2975 / Fax 03-5734-3661

取材申し込み

GPT-4を使った化学研究の課題と展望に関する研究化学研究におけるAIの活用範囲を検討

要点

概要

背景

研究成果

化学事象の認識

分析や予測

計画

社会的インパクト

今後の展開

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？