東北大学の曾昱雯(ソウ・イブン)助教らの研究グループは、深層学習が医用画像中のどこに注目して診断したのかを可視化する技術を用いて、その医学的な妥当性を解析した。AIと医学的初見の大きな齟齬(そご)が発見され、安全性の高い応用の必要性が指摘されている。
人工知能による診断が実際の臨床現場で高性能を発揮できるのか―。医療用AI信頼性について懸念が高まっている。深層学習モデルが注目した医用画像の特徴が医学的所見とどの程度一致しているかなどの妥当性の検証は不十分であり、医師の診断結果との乖離を引き起こす可能性が危惧されている。
グループは死後画像を用いた溺水診断を例に上げ、先行研究で高性能を達成した深層学習モデルの医学的妥当性を検証した。
深層学習モデルが注目した画像特徴を可視化技術で特定し、それを「注目領域」と定義。また、放射線診断医の所見に基づいて注釈した画像領域を医学的な「重要領域」とし、それぞれ比較した。
その結果、注目領域は少ない場合では、30%しか医学的な重要領域と一致しなかった。また、8割一致した場合でも、重要視する位置が異なったこともあった。検証した深層学習モデルは先行研究で9割超の正答率で溺死を分類可能であったと報告されたが、深層学習モデルと医学的所見に大きな食い違いがあったといえる。
曾助教らは「今回明らかになった齟齬は、これまでとは異なる検証方法の重要性を示すとともに、人工知能の性能評価の難しさの一端を実証した」とし「深層学習モデルの内部数理を人間の専門知識に基づく複雑な意思決定過程に近づける必要性を意味する」とコメントしている。