医学AI論文

【医学論文】皮膚科疾患診断のAIと人間の精度比較

みなさんこんにちは!日々機械学習を学ぶ外科医のさとうです。

今回はLancet Oncologyに2019年に掲載された皮膚科疾患の診断予測に関する機械学習アルゴリズム構築に関する論文を一緒に勉強していきましょう。

今回紹介する論文はこちらです。

Pubmedから検索。

Google scholarから検索。

今回の論文

論文:Validation of a Machine Learning Model That Outperforms Clinical Risk Scoring Systems for Upper Gastrointestinal Bleeding

著者:Philipp Tschandl et al.

雑誌:Lancet Oncol 2019; 20: 938–47

皮膚科疾患診断のAIと人間の精度比較

<背景>

機械学習アルゴリズムが、すべての色素性皮膚病変を人間の専門家と同じように正確に診断できるかどうかは不明である。この研究の目的は、臨床的に関連のあるすべてのタイプの良性および悪性の色素性皮膚病変について、最新の機械学習アルゴリズムと人間の読影者の診断精度を比較することである。

 

<方法>

このオープンでウェブベースの国際的な診断研究では、1511枚のテストセットから30枚ずつランダムに選ばれた皮膚鏡画像を、人間の読影者に診断してもらいました。人間の読影者による診断は、International Skin Imaging Collaboration 2018のチャレンジに参加し、事前に10015枚の画像のトレーニングセットを受け取った77の機械学習ラボが作成した139のアルゴリズムの診断と比較されました。 各病変のグランドトゥルースは、光線性角化症やボーエン病などの上皮内がん、基底細胞がん、日光黒子や脂漏性角化症、扁平苔癬様角化症などの良性角化性病変、皮膚線維腫、メラノーマ、メラノサイト性母斑、血管病変の7つの定義された病変カテゴリーのいずれかに分類された。主な結果は、人間の読者と上位3つのアルゴリズムとの間、および人間の専門家と上位3つのアルゴリズムとの間の、バッチごとの正しい特定診断の数の差であった。

 

<結果>

2018年8月4日から2018年9月30日の間に、63カ国の511人の人間の読影者が、読影を少なくとも1回試みた。511人の人間の読み手のうち283人(55.4%)は認定皮膚科医、118人(23.1%)は皮膚科医、83人(16.2%)は一般開業医だった。すべての人間の読者とすべての機械学習アルゴリズムを比較したところ、アルゴリズムは平均で2.01(95%CI 1.97~2.04、p<0.0001)多くの正しい診断を達成した(17.91[SD 3.42]対19.92[4.27])。10年以上の経験を持つ27人の人間の専門家は,平均18.78(SD 3.15)の正解を得たのに対し,上位3つの機械アルゴリズムの正解 25.43(1.95)であった(平均差6.65,95%CI 6.06-7.25,p<0.0001)。また、テストセットに含まれる画像のうち、トレーニングセットに含まれない情報源から収集された画像については、人間と上位3社のアルゴリズムとの差が有意に小さかった(人間の劣勢は11.4%, 95% CI 9.9-12.9 vs 3.6%, 0.8-6.3; p<0-0001)。

 

<結論>

最新の機械学習による分類法は、色素性皮膚病変の診断において人間の専門家よりも優れており、臨床現場でより重要な役割を果たすべきである。しかし、これらのアルゴリズムの限界として考えられるのは、分布外の画像に対する性能の低下であり、今後の研究で取り組むべき課題である。

 

<Background>

Whether machine-learning algorithms can diagnose all pigmented skin lesions as accurately as humanexperts is unclear. The aim of this study was to compare the diagnostic accuracy of state-of-the-art machine-learningalgorithms with human readers for all clinically relevant types of benign and malignant pigmented skin lesions.

 

<Methods>

For this open, web-based, international, diagnostic study, human readers were asked to diagnosedermatoscopic images selected randomly in 30 image batches from a test set of 1511 images. The diagnoses fromhuman readers were compared with those of 139 algorithms created by 77 machine-learning labs, who participated inthe International Skin Imaging Collaboration 2018 challenge and received a training set of 10 015 images in advance.The ground truth of each lesion fell into one of seven predefined disease categories: intraepithelial carcinomaincluding actinic keratoses and Bowen’s disease; basal cell carcinoma; benign keratinocytic lesions including solarlentigo, seborrheic keratosis and lichen planus-like keratosis; dermatofibroma; melanoma; melanocytic nevus; andvascular lesions. The two main outcomes were the differences in the number of correct specific diagnoses per batchbetween all human readers and the top three algorithms, and between human experts and the top three algorithms.

 

<Findings>

Between Aug 4, 2018, and Sept 30, 2018, 511 human readers from 63 countries had at least one attempt in thereader study. 283 (55·4%) of 511 human readers were board-certified dermatologists, 118 (23·1%) were dermatologyresidents, and 83 (16·2%) were general practitioners. When comparing all human readers with all machine-learningalgorithms, the algorithms achieved a mean of 2·01 (95% CI 1·97 to 2·04; p<0·0001) more correct diagnoses(17·91 [SD 3·42] vs 19·92 [4·27]). 27 human experts with more than 10 years of experience achieved a mean of18·78 (SD 3·15) correct answers, compared with 25·43 (1·95) correct answers for the top three machine algorithms(mean difference 6·65, 95% CI 6·06–7·25; p<0·0001). The difference between human experts and the topthree algorithms was significantly lower for images in the test set that were collected from sources not included in thetraining set (human underperformance of 11·4%, 95% CI 9·9–12·9 vs 3·6%, 0·8–6·3; p<0·0001).

 

<Interpretation>

State-of-the-art machine-learning classifiers outperformed human experts in the diagnosis of pigmentedskin lesions and should have a more important role in clinical practice. However, a possible limitation of thesealgorithms is their decreased performance for out-of-distribution images, which should be addressed in future research.

さいごに

いかがでしたでしょうか。今回はAIを用いた皮膚科領域の研究について一緒に勉強しました。

完全未経験から独学でプログラミング、Pythonを学んだ私の経験をこちらに紹介しています。

Twitterでも役立つ情報を配信していますのでよかったらフォローしてみてください。

では、また!

-医学AI論文

© 2024 医者がプログラミングで世界を変える Powered by AFFINGER5