文教速報デジタル版

BUNKYO DIGITAL

文教速報デジタル版

BUNKYO DIGITAL
生成AIは専門医の診断を超えるのか? TXPMedibalが「大規模言語モデルを用いた診断」論文発表

医療データプラットフォーム事業を手掛ける「TXPMedical㈱」の後藤匡啓らの研究チームは、米オープンAIが開発した「GPT-4」の臨床現場での活用可能性の調査のため既存の臨床事例を用いて臨床診断とトリアージの精度について定量化した。

会話型AIは人種および民族的な偏見によってゆがめられた可能性のあるインターネット情報から学習を行っていることから、大規模言語モデル(LLM)が人種などの偏見を再現しているのではないかという懸念も提起されている。そのため、診断やトリアージの正確性、提案に偏見が含まれているかどうかについての調査を行う必要があった。

TXP社は、既存のLLMの中でも特に巨大モデルであるGPT-4と専門医3人との間で、45の臨床事例を使用して診断およびトリアージの正確性を比較した。さらに、患者の人種情報を臨床事例に追加し、GPT-4の診断およびトリアージの正確性が人種間で異なるか調査した。

その結果、GPT-4は診断性能において97.8%の割合で正確な回答を出力。また、トリアージの正確性においても66.7%の割合(30/45)で正しかった。これは医師の判断の正しさと同じ割合である。

また、GPT-4に入力する典型的な臨床事例について、患者の人種情報を追加したうえで更なる解析を行った。調査した範囲では、GPT-4が人種によって受ける診断とトリアージの精度への影響は検出されなかった。

TXP社は「これからも最新のテクノロジーが医療現場にもたらしうる変化の可能性を探り続け、より多くの命を確実に救うことのできる医療システムの開発に邁進していく」とコメントしている。