?レセプト情報は、通常の機械学習用データと多くの点で異なっており、扱いが難しい。
□予測に使えるレセプトの枚数が人によって異なる(可変長データ)
□摘要項目(診療行為や医薬品名)を表の項目としたとき、表の大半は空白
□摘要項目は文字列なので、何らかの方法で数値に置き換えなければならない
□正例(重症化した人)数が負例数に比べて極端に少ない(unbalancedデータ)
本学の足球比分直播,雷速体育を毎月1つずつ紹介します。
※最新の足球比分直播,雷速体育や他のバックナンバーはこちら
?日本システム技術株式会社およびSGホールディングスグループ健康保険組合との共同研究として、健康保険組合員の健康診断結果および医療機関を受診した際に発行されるレセプト情報を基にして、将来の生活習慣病の発症予測を行う手法の開発に取り組んだ。
?2018年度は、レセプトの情報から発症予測を行うモデルの開発、および、健診結果から発症予測を行うモデルの開発を行った。
?レセプト情報は、通常の機械学習用データと多くの点で異なっており、扱いが難しい。
□予測に使えるレセプトの枚数が人によって異なる(可変長データ)
□摘要項目(診療行為や医薬品名)を表の項目としたとき、表の大半は空白
□摘要項目は文字列なので、何らかの方法で数値に置き換えなければならない
□正例(重症化した人)数が負例数に比べて極端に少ない(unbalancedデータ)
?特定の組合員に対して履歴が残るすべてのレセプトを結合して文書とみなし(図1)、発症予測問題を文書分類とみなしてニューラルネットワークとアンサンブル学習によって分類を行う手法(図2)を開発した。
?健診結果からの発症予測についてアンサンブル学習を適用し、ベースライン手法として現在広く行われている各健診項目に閾値を設定し論理和をとる方法と比較した(図3)。
?適切な機械学習技術を導入することにより、ベースライン手法と同程度のrecallを保ったまま、precisionを向上できることが分かった。
※最新の足球比分直播,雷速体育や他のバックナンバーはこちら