医療現場での生成AI活用事例リサーチ(2023年12月時点)
最近バズワード化している「生成AI」。
生成AIはジェネレーティブAIとも呼ばれ、機械学習の一分野で、与えられたデータやパターンから新たなデータを生成する能力を持つ技術のことを指す。テキスト、画像、音声など、多様な形式のデータをもとに、新たなコンテンツを作り出す。
PR TIMESで、発表された2023年の企業トレンド調査では、プレスリリースで「生成AI」が「ChatGPT」を上回って登録されたとのこと。ChatGPTは生成AIに内包されると思うのだが、一旦それは置いといて。
というわけで(何の脈略もないが)、医療分野における生成AIの活用事例を簡易リサーチしたので、一部列挙する。
Atropos Health(米):医療研究のリサーチ業務の短縮化
https://www.atroposhealth.com/
2023年10月5日に、ChatRWDというChatbotアプリケーションをリリース。
ChatRWDに質問を投げかけると、Atropos Health社が有する1億6000万に上る匿名化された患者記録から適切なデータを抽出し、結果を研究レポートの形式(PICO)としてアウトプットする。通常2-6カ月かかるといわれる研究レポートの作成を数分に短縮することに成功。
使われている技術:RAG・HyDE
おそらく、RAGの中でもHyDE(Hypothetical Document Embeddings:仮の文書の埋め込み)が使われてそう。
そもそも検索対象の文献数が膨大なので、文書を前もってベクトル化して検索対象にしておく必要があり、RAG(Retrieval-Augmented Generation)が使われていると推定。
また、ユーザーがチャットで質問した際に、一旦、AIがユーザーの検索クエリをPICOに合わせて改善する方法を提案していることから、LLMに仮説的な回答を作らせて(HyDE)、その回答をベクトル化して検索に使っているはず。
ユーザーの検索ワードが、ユーザーがほしい回答結果の文書と必ずしも類似しているとは限らないので、そのままRAGを使用したとしても精度が高くならないことがある。そのため、生成モデルを使ってユーザーの検索ワード自体も文書検索に合うようにチューニングしてしまおうという感じ。
医者信息科技(中):ヘルスケアAI問診
独自のLLMを開発し、糖尿病、高血圧、高血脂、高血糖、肺結節などを管理する10以上のエキスパートモデルをそろえ、病気によって異なるそれぞれの状況に対応した、ヘルスケアAI問診を提供。
健康診断と家庭向け医療で活用されている。
健康診断においては、民間健康診断機関と提携し事前スクリーニング問診として利用されている。
家庭向け医療では、保険会社と提携。保険会社のサポートプランの1つとして提供したり、回答に基づいた保険プランの提示などに活用されているのかな?
使われている技術:Function calling
ユーザーの質問やニーズに応じて、適切なAIエージェント(専門医AI、栄養士AIなど)を動的に割り当てる機能を持つ部分は、「function calling」の概念に似ている。
記事にも書いてあるように、ヘルスケア分野と一括りにすると対象範囲が膨大すぎて、従来のLLMのみでは、回答精度も高くならない。なので、分野特化型(栄養士AI・スポーツトレーナーAIなど)で学習させて、かつ、どの専門AIに振り分けるかというゲートキーパーを最初に置くことで、回答精度の問題を解決しようとしている。イギリスのGP制度に似ている。
元のサービスが、ヘルスケアサポートAIという、かなり概念が広いtoC向けサービスなので、このような、組み合わせモデルをする必要があったのだろう。
Knowtex(米):診療録作成業務の簡略化
診察中の会話から、医療情報を特定し、医療現場で標準的なSOAP形式の要約を作成し、傷病コード(ICD-10)や保険会社に提出する医療手続きのコード(CPT / E&M)を示し、かつ、保険償還申請のための医療レターを自動生成する。
使われている技術:音声認識(Whisper)
音声認識技術であるWhisperは、患者と医師の会話をリアルタイムでテキストに変換するのに使用される。Whisperである必要はないが、あくまで一例として。
Insilico medicine(米):特定の機能の新規化合物を生成
特発性肺線維症 (IPF)に対する低分子阻害剤INS018_055を、生成AIを活用して開発。プロジェクト開始から臨床試験フェーズ1完了までに要した期間が30カ月未満と、従来の開発期間を大きく短縮し、2023年には臨床試験フェーズ2を開始した。
https://insilico.com/blog/first_phase2
使われている技術:PandaOmics+Chemistry42
PandaOmics(ターゲット発見)、Chemistry42(新規低分子設計)・InClinico(臨床試験結果予測)と、医薬品開発における各プロセスでAI技術を用いている。
ここでは、低分子生成に関わるChemistry42について見てみる。
Chemistry42:低分子化合物生成エンジン
Chemistry42 エンジンは、 PandaOmics を使用して特定されたタンパク質を標的とする、新たな潜在的な薬剤化合物を数日以内に設計できるツール。APIも提供している。
https://insilico.com/chemistry42
具体的には下記4つの機能を組み合わせている
- トランスフォーマーベースのモデル: 大量のデータから複雑なパターンを学習し、新しい化合物の構造を生成するのに使用。
- 生成的敵対ネットワーク(GAN): 一方のネットワークが新しい分子を生成し、もう一方がそのリアリズムを評価することで、より現実的な分子構造を生成。
- 遺伝的アルゴリズム: 進化的アプローチを用いて、最適な分子構造を探索。
- 自己組織化マップ(SOM)による評価: 生成された分子の新規性や特定の標的に対する効果、合成可能性などを評価し、最適な候補を選定。GENTRALモルについては、こちら
LLMを用いて化学実験を自動化
カーネギーメロン大学が科学研究と実験を自律的に展開する、GPT-4を基盤とする人工知能システム「Coscientist」を開発。大規模言語モデルを活用して複雑な実験を自動設計、計画、実行する能力を示している。
https://www.nature.com/articles/s41586-023-06792-0
「1本おきに好きな色を塗ってください」といった自然言語による簡単な指示を与えると、Coscientistは、希望する指示に非常によく似た正確なプロトコルを生成し、定義した行動空間をもとに、プレートに色を塗っている。
ちなみにコードプロジェクトはGithubで公開されている。
https://github.com/gomesgroup/coscientist
NVIDIA NIM:創薬、医用画像処理、ゲノム解析などのヘルスケア ワークフローを高速化
NVIDIAは、2024年3月18日に、画像処理、医療技術、創薬、デジタル ヘルスにわたり、モデルの増大するコレクションに対して最適化された推論を提供するマイクロサービス「NVIDIA NIM」を発表。
このマイクロサービスには、生成化学のための MolMIM、タンパク質構造予測のための ESMFold、研究者が薬物分子と標的との相互作用を理解するのに役立つ DiffDock など、創薬のためのモデルのコレクションも含まれている。
https://www.nvidia.com/en-us/use-cases/generative-ai-for-virtual-screening/
雑感:創薬と臨床業務の効率化の2つがメインか?
興味のままに幾つかのサービスを調べてみた。雑感としては
- LLMの活用先としては、創薬と臨床業務の効率化の2つが主にありそう
- 臨床業務の効率化に関しては、医療情報が専門性が高いために、汎用的なLLMのみでは今のところは精度が低いので、前段階に対応するエージェントを振り分けるゲートキーパーを設けたり、大量の医療情報の文献をベクトル化して読み込ませるなどして、用途特化型でチューニングする必要がありそう
- 創薬に関しては、分子のSMILES表記(化学構造を1行の文字列で表記する方法。高校化学で習った、二酸化炭素:O=C=Oのやつ)がLLMと相性が良い。LLMは、SMILES表記を使用して新しい化合物の構造を生成することができ、創薬プロセスにおける候補分子の探索を効率化してくれるので、創薬分野の生成AI活用は今後どんどん進みそう。
他にも使い所ありそうだが、パッとの個人的な印象はこの2つ。また定期的にリサーチしてみよう。
コメント