慶應義塾大学の堀里子教授らの研究グループは12日、患者がインターネット上のブログに投稿したテキストから、深層学習を用いて生活に支障を及ぼす重症度の高い事象に焦点を当てたシグナルの抽出手法を開発したと発表した。この方法はがん患者の副作用モニタリングの向上に貢献することが期待されている。
研究ではウェブ患者コミュニティー「ライフパレット」に投稿されたブログのうち、乳がん患者が投稿した2272記事を研究に利用。あらかじめ妥当性・再現性を担保したガイドラインに則り、ブログ記事を構成する各文を「有害事象が発現かつ生活への支障が明確に読み取れる文(AE-L)」、「有害事象が発現しているものの生活への支障はない又は読み取れない文(AE-nL)」、「有害事象に関係しない文」の 3 つに研究者が分類し、機械学習に使う訓練用のデータとした。
研究に使った機械学習モデルは、深層学習手法に分類され関連領域で高い性能が報告されている「BERT」、「ELECTRA」、「T5」を選択。また、効率よくAE-Lを抽出するため複数のアプローチも検討した。
実験の結果、より長い文章を処理できるT5が最もよい抽出性能を示した。そのF1ス
コア(二値分類タスクの評価指標)は、AE-L抽出タスクで0.557、AE-LとAE‐nLの両方(つまり全ての有害事象シグナル)を抽出するタスクで0.811だった。
ブログに高頻度で訴えのある有害事象は「痛み・痺れ」、「倦怠感」、「発熱」、「吐き気」であり、医療者報告で過小評価が報告されている事象と類似傾向を確認できた。
研究グループは「開発した有害事象シグナル抽出手法の実装を目指して、訓練データの質と量の改善を通じて機械学習モデルの性能向上を図るとともに、患者と医療者双方の意見を取り入れ、現在進行形の抗がん剤の副作用マネジメントに利活用するための仕組みの評価を進めていく」とコメントしている。