1 LIETUVOS SVEIKATOS MOKSLŲ UNIVERSITETAS
MEDICINOS FAKULTETAS MEDICINOS AKADEMIJA ODOS IR VENERINIŲ LIGŲ KLINIKA
Jokūbas Liutkus 6 kursas, 1 grupė
KONVOLIUCINIAI NEURONINIAI TINKLAI ODOS VĖŽIO
KLASIFIKAVIME
Medicinos vientisųjų studijų programos baigiamasis magistro darbas
Darbo vadovė Prof. Dr. Skaidra Valiukevičienė
Kaunas 2020
2
TURINYS
1. SANTRAUKA ... 3 2. SUMMARY ... 4 3. PADĖKA... 5 4. INTERESŲ KONFLIKTAS ... 55. ETIKOS KOMITETO LEIDIMAS... 5
6. SANTRUMPOS ... 6
7. SĄVOKOS ... 7
8. ĮVADAS ... 8
9. DARBO TIKSLAS IR UŽDAVINIAI... 9
9.1 Darbo tikslas ... 9
9.2 Darbo uždaviniai ... 9
10. LITERATŪROS APŽVALGA ... 10
10.1 Konvoliuciniai neuroniniai tinklai ... 10
10.2 Odos vėžio diagnostika... 12
11. TYRIMO METODIKA ... 13
11.1 Tyrimo tipas... 13
11.2 Įtraukimo ir atmetimo kriterijai ... 13
11.3 Paieškos šaltiniai ir metodai ... 14
11.4 Tyrimų atranka ... 15
11.5 Duomenų surinkimo procesas ... 15
11.5 Tyrimų metodologinės kokybės vertinimas ... 15
12. REZULTATAI IR JŲ APTARIMAS ... 17
12.1 Tyrimų metodologinė kokybė ... 18
12.2 Tyrimai, vertinantys melanomos klasifikacijos tikslumą ... 20
12.3 Tyrimai, vertinantys plokščialąstelinės karcinomos klasifikacijos tikslumą ... 24
12.4 Tyrimai, vertinantys bazalinės karcinomos klasifikacijos tikslumą ... 25
12.5 Konvoliucinių neuroninių tinklų taikymas klinikinėje praktikoje ... 26
13. IŠVADOS ... 28
14. LITERATŪROS SĄRAŠAS ... 29
3
1. SANTRAUKA
Autorius. Jokūbas Liutkus
Pavadinimas. Konvoliuciniai neuroniniai tinklai odos vėžio klasifikavime
Tyrimo tikslas. Atrinkti ir išanalizuoti tyrimus, tiesiogiai lyginančius konvoliucinių neuroninių tinklų (KNT) ir gydytojų odos vėžio klasifikacijos tikslumą.
Uždaviniai. 1. Įvertinti tyrimų metodologinę kokybę pagal QUADAS-2 skalę. 2. Palyginti KNT ir gydytojų odos melanomos klasifikacijos tikslumą. 3. Palyginti KNT ir gydytojų plokščialąstelinės karcinomos klasifikacijos tikslumą. 4. Palyginti KNT ir gydytojų bazalinių ląstelių karcinomos klasifikacijos tikslumą.
Metodai. Atlikta sisteminė literatūros apžvalga vykdant straipsnių iki 2019.12.31 paiešką MEDLINE ir PMC duomenų bazėse. Metodologijos vertinimui naudota QUADAS-2 skalė.
Tyrimo dalyviai. Po atrankos į apžvalgą įtraukta 13 tyrimų, iš viso analizavusių 6995 tiriamuosius vaizdus. Vaizdų klasifikacija vykdyta 1174 gydytojų ir 197 KNT algoritmų. 13 tyrimų vertino melanomos, 5 tyrimai plokščialąstelinės karcinomos (SCC) ir 6 bazalinių ląstelių karcinomos (BCC) klasifikaciijos tikslumus.
Rezultatai. Melanomos klasifikavimo tikslumas pagal KNT ROC kreivės apriboto ploto integralą (AUC) svyravo tarp 0,79 ir 0,94. Visuose tyrimuose KNT algoritmai buvo tikslesni arba tokio pačio tikslumo kaip gydytojai, išskyrus viename tyrime vertintą amelanotinės melanomos klasifikaciją (jautrumas 0,52 versus 0,69). Tyrimai pasižymėjo heterogeniškumu tarp mokymo duomenų (362 – 127463), testavimo duomenų (100 – 2072) bei tyrime dalyvavusių gydytojų (4 – 511) skaičiaus. Iš 5 tyrimų, vertinusių SCC klasifikavimo tikslumą, tik 1 tyrimas pateikė pakankamai duomenų KNT ir gydytojų tikslumo lyginimui. Iš 6 tyrimų, vertinusių BCC klasifikavimo tikslumą, tik 3 tyrimai pateikė pakankamai duomenų 2x2 kontingencijos lentelių sudarymui.
Išvados. 1. Visų tyrimų metodologinė kokybė, vertinant pagal QUADAS-2, pasižymi tendencingumo ir pritaikomumo didelės rizikos veiksniais, galinčiais daryti įtaką rezultatams. 2. KNT odos melanomą klasifikuoja tiksliau nei gydytojai, tačiau pagrindimui reikalingi tolimesni prospektyvūs ir geresnės metodologinės kokybės tyrimai. 3. Nėra pakankamai tyrimų plokščialąstelinės karcinomos klasifikacijos tikslumo vertinimui. 4. Nėra pakankamai tyrimų bazalinių ląstelių karcinomos klasifikacijos tikslumo vertinimui.
4
2. SUMMARY
Author. Jokūbas Liutkus
Title. Convolutional Neural Networks for Classification of Skin Cancer
Research aim. Select and analyze studies, directly comparing skin cancer classification accuracy of convolutional neural networks (CNNs) and physicians.
Objectives. 1. Assess the methodological quality of studies using the QUADAS-2 checklist. 2. Compare the accuracy of CNNs and physicians for classifying cutaneous melanoma. 3. Compare the accuracy of CNNs and physicians for classifying cutaneous squamous cell carcinoma. 4. Compare the accuracy of CNNs and physicians for classifying basal cell carcinoma.
Methods. A systematic review of studies, identified using MEDLINE and PMC database search to 31 December 2019. The QUADAS-2 checklist was used to assess methodological quality.
Study population. The review identified 13 studies, which reported on 6995 lesions. Image classification was performed by 1174 clinicians and 197 CNN algorithms. 13 studies assessed melanoma, 5 cutaneous squamous cell carcinoma (SCC), 6 basal cell carcinoma (BCC) classification accuracy.
Results. The reported CNN melanoma classification accuracy presented as ROC area under the curve (AUC) was between 0.79 and 0.94. CNN algorithms were as or more accurate than physicians in all studies, except for one investigation of amelanotic melanoma (CNN sensitivity 0.52 versus 0.69). There was heterogeneity of training data (362 – 127463 images), testing data (100 – 2072 images) and clinician recruitment (4 – 511). Of the 5 studies reporting on SCC classification, only 1 provided enough data for the comparison of CNN and physician accuracy. Similarly, only 3 out of 6 studies of BCC classification presented data for 2x2 contingency tables.
Conclusions. 1. QUADAS-2 methodological assessment identified all studies as being at high risk of bias and having concerns regarding applicability, which could interfere with the results. 2. CNNs are more accurate than physicians for classifying cutaneous melanoma, however further prospective studies of better methodological quality are needed to confirm the findings. 3. There is an insufficient number of studies for the assessment of SCC classification accuracy. 4. There is an insufficient number of studies for the assessment of BCC classification accuracy.
5
3. PADĖKA
Norėčiau labai padėkoti baigiamojo magistro darbo vadovei prof. dr. Skaidrai Valiukevičienei už suteiktą galimybę, palaikymą bei pagalbą.
4. INTERESŲ KONFLIKTAS
Autoriui interesų konflikto nebuvo.
5. ETIKOS KOMITETO LEIDIMAS
6
6. SANTRUMPOS
AUC – plotas po kreive (iš anglų k. Area Under the Curve) BCC – bazalinių ląstelių karcinoma
DI – dirbtinis intelektas
ISIC – iš anglų k. International Skin Imaging Collaboration KNT – konvoliucinis neuroninis tinklas
QUADAS-2 – iš anglų k. Quality Assessment of Diagnostic Accuracy Studies – 2 ROC – iš anglų k. Receiver Operating Characteristic
SCC – plokščialąstelinė karcinoma vs – versus
7
7. SĄVOKOS
Architektūra – neuroninio tinklo modelio schema, pagal kurią išdėstomi ir siejami neuroninio tinklo sluoksniai.
Binarinė klasifikacija – duomenų klasifikacija į dvi grupes.
Daugiaklasinė klasifikacija – duomenų klasifikacija į kelias (daugiau nei dvi) grupes.
Gilusis mokymas – kompiuterių mokymo algoritmai, naudojantys kelis sluoksnius, kuriais slenkant tolyn atpažįstami vis didesnio lygio požymiai. Konvoliucinis neuroninis tinklas yra giliojo mokymo algoritmo pavyzdys.
Indeksinis testas – diagnostinis testas ar procedūra, kuri vertinama tyrimo metu.
Konvoliucinis neuroninis tinklas (KNT) – daugiasluoksnis neuroninis tinklas, naudojantis konvoliucinius sluoksnius.
Konvoliucinis sluoksnis – dirbtinių neuronų sluoksnis, kuriame atliekamos kryžminės koreliacijos matematiniai skaičiavimai.
Mokymo vaizdai / mokymo duomenys – vaizdai ar duomenys, naudojami mokymo proceso metu keisti KNT parametrus ir neuroninių jungčių svorius, siekiant išmokyti tinklą atpažinti individualius požymius ar objektus.
Požymio žemėlapis – duomenys, gauti konvoliucinio sluoksnio matematinio skaičiavimo metu, reprezentuojantys atskirus požymius vaizde.
Referentinis tyrimas – „auksinis standartas“, patvirtinantis diagnozę.
ROC kreivė – kreivė, apibūdinanti klasifikatoriaus jautrumo ir specifiškumo santykį. Atsitiktinio spėjimo (tikimybė atspėti 0,5) ROC kreivė grafiką kerta įstrižai. Kuo aukščiau šios menamos atsitiktinio spėjimo kreivės yra gautoji klasifikatoriaus ROC kreivė, tuo tiksliau yra klasifikuojama. ROC kreivės AUC – ROC kreivės apribotas plotas; integralas, kurio vertė 0, kai nė vienas objektas nėra teisingai klasifikuotas, jei vertė lygu 1 – visi objektai teisingai klasifikuoti.
Testavimo vaizdai / duomenys – vaizdai ar duomenys, naudojami vertinti KNT ar gydytojų tikslumą eksperimentiniu būdu.
Tikslumas – nors tyrimo tikslumas gali būti apibrėžiamas ir yra bandomas standartizuoti įvairiomis formulėmis, šioje apžvalgoje tikslumas apibrėžiamas kaip tyrimo jautrumo, specifiškumo, ROC kreivės AUC vertinimo visuma.
8
8. ĮVADAS
Dirbtinis intelektas (DI) yra viena iš sparčiausiai tobulėjančių technologijų sričių, neaplenkianti ir medicinos. DI algoritmai, pranokstantys gydytojų gebėjimus, jau patvirtinti diagnostiniams tikslams oftalmologijoje [1] ir radiologijoje [2], todėl tikėtina, kad panašūs produktai bus greitai prieinami ir dermatologijos srityje. Šiuo metu, vaizdų analizė DI pagalba remiasi giliuoju mokymu. Tai kompiuterių mokymo algoritmai, kuomet daug sluoksnių turintys dirbtiniai neuroniniai tinklai, pavadinimą gavę dėl savo struktūros panašumo į smegenų neuronų tinklą, yra mokomi analizuoti vaizdus panaudojant įvairius matematinius modelius. Esant pakankamam duomenų kiekiui, šie tinklai gali pasiekti ir pranokti žmonių gebėjimus spręsti tam tikras užduotis [3]. Neuroninis tinklas, galintis klasifikuoti odos darinius taip pat ar geriau nei gydytojas dermatologas, galėtų didinti prieinamumą prie dermatologinės diagnostikos, padėti bendrosios praktikos gydytojams, mažinti perteklinių biopsijų skaičių, gerinti mažą odos vėžio ankstyvos diagnostikos programų efektyvumą [4]. Nors diagnostikos kompiuterio pagalba (angl. computer-aided diagnostics) prietaisai ir algoritmai, grįsti senesniais kompiuterio mokymo metodais, yra prieinami jau daug metų, jų tikslumas nėra pakankamas. Didžiausios meta-analizės duomenimis [5], paskelbti 24 tyrimai apie dermatoskopijos (optinio 10-20 x didinamojo šviesinio prietaiso) su kompiuterio pagalba diagnostiką. Išvadose teigiama, kad nepaisant patenkinamų tam tikrų sistemų jautrumų specifinėse populiacijose, nėra pakankamai duomenų, kad šios sistemos yra naudingos ir gali būti naudojamos klinikinėje praktikoje. Meta-analizėje nebuvo nė vieno modernaus DI algoritmo dėl palyginus senos (iki 2016 m. rupjūčio mėn.) analizės datos, todėl svarbu išaiškinti šių naujų giliojo mokymo algoritmų naudą odos vėžio diagnostikai. Nors giliojo mokymo naudojimas populiarėja, nėra daug tyrimų vertinančių DI diagnostinį tikslumą dermatologijoje, nėra žinoma šių tyrimų kokybė, todėl svarbu atlikti sisteminę apžvalgą moderniausių DI vaizdų analizės algoritmų – konvoliucininių neuroninių tinklų (KNT) – tikslumo vertinimui. Nepaisant KNT algoritmų publikacijų gausos, tik nedidelė jų dalis yra vertinama klinikinio diagnostinio tyrimo kontekste. Svarbu tiesiogiai lyginti šių algoritmų tikslumą su gydytojais, kadangi KNT kūrimo specifika leidžia pasiekti klaidingai gerus rezultatus permokant algoritmą tam tikriems duomenims [6]. Todėl, šio darbo tikslas – atrinkti ir išanalizuoti tyrimus, tiesiogiai lyginančius konvoliucinių neuroninių tinklų ir gydytojų odos vėžio klasifikavimo tikslumą, dažniausiai pasitaikančioms odos vėžio formoms.
9
9. DARBO TIKSLAS IR UŽDAVINIAI
9.1 Darbo tikslasAtrinkti ir išanalizuoti tyrimus, tiesiogiai lyginančius konvoliucinių neuroninių tinklų ir gydytojų odos vėžio klasifikacijos tikslumą.
9.2 Darbo uždaviniai
1. Įvertinti tyrimų metodologinę kokybę pagal QUADAS-2 skalę. 2. Palyginti KNT ir gydytojų odos melanomos klasifikacijos tikslumą.
3. Palyginti KNT ir gydytojų plokščialąstelinės karcinomos klasifikacijos tikslumą. 4. Palyginti KNT ir gydytojų bazalinių ląstelių karcinomos klasifikacijos tikslumą.
10
10. LITERATŪROS APŽVALGA
10.1 Konvoliuciniai neuroniniai tinklaiPagrindinė šiuo metu vystoma kompiuterinė technologija medicininio vaizdinimo srityje yra konvoliuciniai neuroniniai tinklai (KNT), sudaryti iš sujungtų dirbtinių neuronų (toliau – neuronų) sluoksnių, kurie apdoroja įvesties duomenis tam tikromis matematinėmis funkcijomis ir gautą rezultatą perduoda kitam neuronų sluoksniui (1 pav.), taip atlikdami vaizdų klasifikavimo kompiuterio mokymą [7]. Neuroninio tinklo mokymo metu keičiasi atskirų neuronų jungčių svoriai, tinklo parametrai koreguojasi, modeliui ieškant geriausių matematinių skaičiavimų reikšmių, reikalingų paversti gautą įvesties informaciją (vaizdų klasifikacijos atveju – tam tikrą vaizdo pikselių žemėlapį) į norimą išvestį – objekto priklausomybę tam tikrai klasei (diagnozę) [8].
1 pav. Vieno sluoksnio neuroninio tinklo pavyzdys. X0, X1, ... Xn – įvesties duomenys; Y1, Y2, … Yd – išvesties duomenys (adaptuota iš Stabingienė, 2015) [9]
KNT konvoliucinio sluoksnio neuronai atlieka matematines kryžminės koreliacijos (angl. cross-correlation) funkcijas, kurios sukuria požymio žemėlapius (angl. feature map), išdėstytus trimatėje erdvėje [10] (2 pav.). KNT parinkti odos navikų požymiai gilesniuose KNT sluoksniuose yra vis sudėtingesni ir galiausiai yra atpažįstami kaip specifiniai objektai. KNT veiklai taip pat svarbūs informacijos sujungimo (angl. pooling) sluoksniai, kurie mažina duomenų apimtį, analizuodami ir atrinkdami tik vidutines ar didžiausias tam tikro duomenų segmento skaitines reikšmes. Tokiu būdu sumažėja duomenų kiekis, taupomi skaičiavimo resursai. Pilnai sujungti (angl. fully-connected) KNT sluoksniai yra naudojami galutinei analizuojamo požymio klasifikacijai [11]. Paskutinėje stadijoje algoritmas pagal apskaičiuotą tikimybių rinkinį pateikia išvadą, jog pavaizduotas objektas priklauso tam tikrai kategorijai, tikimybei viršijus pasirinktą klasifikacijos slenkstį [12].
Kadangi modelio tikslumas koreliuoja su naudotų sluoksnių kiekiu [13], atitinkamai reikalaujančiu didelio duomenų kiekio, šiuo metu vykdomi KNT dermatologijoje tyrimai dažniausiai naudoja iš anksto apmokytus modelius (angl. transfer learning), kuomet KNT su išmokytais parametrais yra koreguojamas norimai paskirčiai pasitelkiant naujus mokymo vaizdus [14]. Iš anksto apmokyti modeliai vystomi su didelėmis vaizdų duomenų bazėmis. Dažniausiai pasitelkiama atviros
11 prieigos ImageNet duomenų bazė, turinti daugiau kaip 1,2 mln. vaizdų [15]. Naudojant iš anksto apmokytus modelius, tolimesniam KNT pritaikymui norimai užduočiai (pvz. odos darinių klasifikacijai) yra reikalingi mažesni mokymui skirtų vaizdų kiekiai [16]. Nepaisant didėjančio prieinamų medicininių vaizdų skaičiaus, didžiausioje atviros prieigos dermatologinių vaizdų bazėje „ISIC archive“ sukaupti 23906 vaizdai [17], kurių kiekis nebūtų pakankamas kitokio tipo KNT algoritmų kūrimui. KNT gali inkorporuoti tiek klinikinius fotografinius, tiek dermatoskopinius ar kitus vaizdus – nėra duomenų, kuris algoritmo mokymo metodas yra tikslesnis, o skirtingi vaizdų tipai kuriant KNT gali būti kombinuojami [18].
2 pav. Daugiasluoksnio konvoliucinio neuroninio tinklo pavyzdys (adaptuota iš Esteva ir kiti [7])
Dermatologinių vaizdų tyrimuose dažniausiai naudojami iš anksto apmokyti KNT modeliai paremti Microsoft® ResNet arba Google® GoogLeNet architektūrų variacijomis bei ImageNet duomenų bazės vaizdais. Skirtingos KNT architektūros remiasi įvairiomis sluoksnių išdėstymo sekomis. Inovacijos architekūriniuose modeliuose gali didinti skaičiavimo galimybes ar greitį, mažinti resursų naudojimą. Pavyzdžiui, ResNet KNT modelis pasitelkia papildomus matematinių funkcijų šaukinius (angl. shortcuts) tarp neuronų sluoksnių, leisdamas dar labiau gilinti neuroninį tinklą, gerinti klasifikacijos tikslumą be didelių skaičiavimo resursų kaštų (3 pav.) [16]. Google® laboratorijų publikuotuose KNT architektūros modeliuose – GoogLeNet, Inception, Xception – naudojami pridėti įskiepiai (angl. inceptions), praplečiantys KNT ne tik į gylį, bet ir į plotį [19]. Taip pat taikomi kombinuoti (anl. ensemble) ResNet-Inception, kitų skirtingų architektūrų KNT [20]. Apibendrinant, dermatologijoje odos navikų automatiniam klasifikavimui naudojami įvairios architektūros gilieji KNT, iš anksto parengti panaudojant didelės apimties ne dermatologinių vaizdų duomenų bazes. Aktualus techninis neapibrėžtumas iki šiol yra paieška optimaliausios KNT architektūros, leidžiančios pritaikyti iš anksto apmokytus KNT modelius odos darinių klasifikacijai, turint ribotą kiekį dermatologinių vaizdų.
Įvesties vaizdas Konvoliucinis sluoksnis
Sujungimo sluoksnis Pilnai sujungti sluoksniai Klasifikacijos tikimybių rinkinys
12
Konvoliucinis sluoksnis Šaukinys (“shortcut”)
Sujungimo sluoksnis
Konvoliuciniai sluoksniai Sujungimo sluoksnis
3 pav. ResNet giliojo konvoliucinio neuroninio tinklo schema (adaptuota iš He ir kiti [16])
10.2 Odos vėžio diagnostika
Onkologijoje vėžio diagnozė yra patvirtinama atlikus histopatologinį ištyrimą. Vis dėlto, dermatologijoje darinių analizė akimis ar prietaisų pagalba išlieka svarbia diagnostikos dalimi, pagal kurią nustatomos biopsijos ar ekscizijos indikacijos. Sisteminės apžvalgos vertinimui pasirinkti trys dažniausi [21] odos navikai: bazalinių ląstelių karcinoma, plokščialąstelinė karcinoma ir melanoma, kurių diagnostika prasideda dermatologiniu darinio vertinimu.
Gydytojų melanomos diagnostikos tikslumas vizualiniu būdu buvo vertintas 49 tyrimų sisteminėje apžvalgoje ir meta-analizėje [22]. Jautrumas buvo lygus 0,92 (95% 0,26 – 0,99), specifiškumas 0,79 (95% 0,74 – 0,85). Vizualinį vertinimą galima standartizuoti tam tikrais algoritmais (pvz ABCDE), tačiau meta-analizėje algoritmų naudojimas nedidino diagnostinio tikslumo. Melanomos diagnostikoje gali padėti ir pagalbiniai vaizdinimo prietaisai, iš kurių populiariausias – dermatoskopas. Dermatoskopija leidžia vizualizuoti papildomas pigmentines ir kraujagyslines struktūras, atpažįstant tam tikrus požymius, didinančius piktybinės darinio kilmės tikimybę [23]. 26 tyrimų meta-analizės duomenimis [24], esant pastoviam (0,80) jautrumui, dermatoskopija su vizualine analize yra specifiškesnė (0,92), nei vizualinė analizė be pagalbinio vaizdinimo (specifiškumas 0,76). Vis dėlto, ne mažiau svarbus yra ir lyginamasis paciento darinių vertinimas, vadinamas „bjauraus ančiuko“ požymiu [25], bei dinaminiai darinių pokyčiai (dydžio, spalvos, formos), kurie gali būti stebimi pačio paciento ar dokumentuotu serijinių vaizdų vertinimu. Šių kriterijų įtraukimas į automatinius KNT algoritmus yra sudėtingas ir retai taikomas, tačiau prospektyvinė serijinių darinių vaizdų analizė galėtų būti labai naudinga naujos kartos KNT algoritmų mokymui [26]. Šie algoritmai galėtų padėti klicinistams vertinti odos navikus, apibendrinti darinių vaizdus, lokalizacijos erdvėje ir laike parametrus.
Bazalinių ląstelių karcinoma (BCC) ir plokščialąstelinė karcinoma (SCC) taip pat diagnozuojamos vizualinio vertinimo ir dermatoskopijos pagalba. 17 tyrimų meta-analizėje [27] identifikuotas dermatoskopinio tyrimo pranašumas BCC nustatymui: palyginus su vizualiniu ištyrimu
13 be dermatoskopijos, jautrumas buvo (0,85 vs 0,67, p = 0,0001), specifiškumas (0,97 vs 0,98, p = 0,006). Nors BCC turi itin mažą metastazavimo potencialą, ankstyva diagnostika ir gydymas padeda išvengti vietinės invazijos į aplinkinius audinius, aplinkinės odos ir struktūrų destrukcijos [28]. Nors nėra svarių įrodymų apie dermatoskopijos naudą diagnozuojant SCC, šis metodas yra plačiai paplitęs ir taikomas klinikinėje praktikoje [29].
Konvoliuciniai neuroniniai tinklai galėtų padėti pirminės sveikatos priežiūros grandies darbuotojams ar patiems pacientams, kai KNT algoritmas yra integruotas į mobilųjį įrenginį, identifikuoti ir diferencijuoti odos vėžį, pacientus su įtartinais dariniais nukreipti specialistams. Šiam darbui, KNT algoritmų jautrumas turėtų būti panašus į dermatovenerologų, o žemas specifiškumas, didelis klaidingai teigiamų darinių skaičius, galėtų būti kontroliuojamas jau specializuotoje dermatologinėje praktikoje. Priešingai, KNT kaip papildomos diagnostikos priemonės gydytojams dermatovenerologams naudojimas antriniame ar tretiniame lygyje, reikalautų ne tik didelio sistemos jautrumo, bet ir specifiškumo, norint išvengti perteklinių biopsijų ir ekscizijų.
Išliekanti odos vėžio vizualinės analizės svarba leidžia panaudoti KNT gebėjimą mokytis iš vaizdų atpažinti požymius ir objektus medicininių diagnostinių algoritmų kūrimui. Šių algoritmų tikslumas ir kokybė turi būti vertinami klinikiniais tyrimais, siekiant lyginti KNT jautrumą ir specifiškumą su gydytojais dermatovenerologais, identifikuoti ir taisyti galimas problemas, plėsti šių technologijų taikymą odos vėžio bei kitų odos darinių diagnostikai.
11. TYRIMO METODIKA
11.1 Tyrimo tipasSisteminė literatūros apžvalga
11.2 Įtraukimo ir atmetimo kriterijai Įtraukimo kriterijai:
1. Odos darinių klasifikacijos ir vaizdinių diagnostinių testų tikslumo tyrimai.
2. Pasirinktiems testavimo duomenims atliekami du indeksiniai klasifikacijos testai – vienas panaudojant KNT, kitas vykdomas gydytojų.
3. Naudojami fotografiniai ir/ar dermatoskopiniai vaizdai.
4. Tiriami dariniai turi turėti bent vieną odos vėžio ir bent vieną nepiktybinių odos darinių grupę. Odos vėžys – bet kokio klinikinio ar histologinio potipio odos melanoma, BCC ar odos SCC.
14 5. Darinių diagnozės patvirtintos referentiniu histopatologiniu tyrimu. Vėžio diagnozei patvirtinti referentinis tyrimas privalomas. Gerybinių darinių grupėje, histopatologinis referentinis tvirtinimas turi būti atliktas bent 50% darinių, likusias diagnozes verifikuojant tyrime aprašytais specifiniais kriterijais. Gydytojai, atsakingi už histopatologinę ar kitokios formos verifikaciją, negali būti įtraukti kaip tiriamieji. 6. Tyrimo metu vertintas klasifikacijos tikslumas apibrėžiamas kaip jautrumas,
specifiškumas ar ploto po ROC kreive (AUC) skaitinė vertė. Tyrimo metu turi būti vykdomas tiesioginis KNT ir gydytojų klasifikacijos tikslumo lyginimas, panaudojant tuos pačius testavimo duomenis.
7. Tarp tyrimo dalyvių yra bent vienas dermatovenerologas. Leidžiamas įvarių specialistų vertinimas, jei jie specializuojasi ar mokosi odos darinių diagnostikos. 8. Prospektyvūs ir retrospektūvus tyrimai.
9. Tyrimai, atliekami pirminio, antrinio ar tretinio lygio įstaigose, taip pat neklinikinėje aplinkoje.
10. Straipsniai anglų, lietuvių, prancūzų kalbomis
Atmetimo kriterijai:
1. Ne fotografiniai ar ne dermatoskopiniai vaizdinimo būdai. 2. Tyrimo tikslas – histopatologinių vaizdų klasifikacija.
3. KNT algoritmo mokymo ir testavimo duomenys persidengia; nėra nepriklausomos testavimo duomenų grupės. Jei visi duomenys imami iš tos pačios duomenų bazės, privalomas protokolas, apibūdinantis kaip yra išvengiama kryžminio persidengimo tarp duomenų grupių.
4. Tyrimo tikslas – darinių segmentacija, atskirų darinio požymių atskyrimas, darinių lokalizacija, jei kartu nevykdoma darinių klasifikacija.
5. Literatūros apžvalgos, sisteminės apžvalgos ir meta-analizės, laiškai redaktoriui.
11.3 Paieškos šaltiniai ir metodai
Elektroninė MEDLINE ir PMC duomenų bazių paieška buvo vykdyta naudojant PubMed paieškos sistemą. Paskutinė paieška atlikta 2020.01.03. Nors apžvalginiai straipsniai nebuvo įtraukiami į sisteminę apžvalgą, jų literatūros sąrašai buvo peržiūrimi, siekiant rasti galimai neidentifikuotus tyrimus.
Naudotas filtras tyrimų publikacijos datai – iki 2019.12.31. PubMed paieškoje melanomos, plokščialąstelinės karcinomos, bazalinių ląstelių karcinomos raktiniai žodžiai adaptuoti iš Ferrante di
15 Ruffano ir kiti [30]. Paieška pildyta raktiniais žodžiais dirbtinio intelekto, giliojo mokymo bei KNT tematikomis, gydytojų dalyvavimo tyrime kriterijumi. Pilna duomenų bazių užklausa pateikta 1 priede.
11.4 Tyrimų atranka
Paieškos metu identifikuoti 223 bibliografiniai įrašai, peržiūrėti siekiant aptikti dublikatus. Vykdyta straipsnių atranka pagal pavadinimą ir santrauką. Tyrimai buvo atmetami nesant prieigos prie santraukos, esant netinkamai publikacijos tematikai, publikacijoms ne anglų, lietuvių ar prancūzų kalbomis. Apžvalgų pašalinimas paliktas kitam etapui, nes apžvalgų literatūros sąrašai atidėti pilno teksto peržiūrai.
Likusiųjų 91 tyrimo tinkamumo analizė vykdyta taikant pilno teksto straipsnių analizę, panaudojant įtraukimo ir atmetimo kriterijus. 2 tyrimai atmesti negavus prieigos prie straipsnio. Vienintelis identifikuotas prospektyvinis tyrimas [31] buvo eliminuotas, nes gydytojų ir KNT klasifikacija skyrėsi duomenų kiekiu, nebuvo užtikrintas gydytojų, verifikuojančių darinių diagnozes ir dalyvaujančių tyrime, nepriklausomumas. KNT buvo pertreniruojami antrame tyrimo etape vaizdais, kurie buvo panaudoti tolesniame testavime – nėra nurodyta, kurios testavimo datos rezultatai pateikiami straipsnyje, kaip buvo išsaugotas mokymo ir testavimo duomenų nepriklausomumas.
Tyrimų atrankos procesas apibendrintas taikant PRISMA [32] atrankos schemą (4 pav.).
11.5 Duomenų surinkimo procesas
Į sisteminę apžvalgą įtrauktų 13 tyrimų duomenų surinkimas vykdytas darbo autoriaus, rankine paieška kaupiant duomenis „Microsoft Excel“ skaičiuoklėje. Tarp vertintų duomenų pateko: tyrimo tipas, vaizdinimo būdas, KNT algoritmo architektūra, KNT slenkstinės vertės, mokymo ir testavimo vaizdų kiekis bei šaltinis, duomenų šaltinis, tirtų odos darinių tipai, dalyvavusių gydytojų kiekis, patirtis ir specializacija, referentinį tyrimą atlikusių gydytojų patirtis ir specializacija. Tikslumo vertinimui pasitelkti jautrumas ir specifiškumas, ROC kreivės AUC skaitinės vertės. Kiekvieno tyrimo duomenis buvo stengiamasi grupuoti formuojant keturlaukes (2x2) kontingencijos lenteles, informaciją įrašant „Review Manager 5.3“ kompiuterinėje programoje.
11.5 Tyrimų metodologinės kokybės vertinimas
Tyrimų metodologija vertinta QUADAS-2 (angl. Quality Assessment of Diagnostic Accuracy Studies – 2) skale [33], rekomenduojama diagnostinio tikslumo tyrimų sisteminėms analizėms [34]. QUADAS-2 analizuojamos tendencingumo (šališkumo) ir rezultatų pritaikomumo sisteminės
16 apžvalgos tikslams ir uždaviniams rizikos. Pagal skalės reikalavimus, kiekvienas indeksinis testas turi būti vertinamas atskirai, todėl KNT algoritmų ir gydytojų klasifikacija išskirstyta skirtinguose stulpeliuose.
4 pav. Tyrimų atrankos procesas taikant PRISMA atrankos schemą Įrašai identifikuoti duomenų
bazių paieškos metu (n = 223) At ran k a Įtr au k imas T in k am u m as Id en tif ik ac ija
Įrašai pašalinus dublikatus (n = 222) Atranka pagal pavadinimą ir santrauką (n = 222) Atmesti įrašai (n = 131) Straipsnių tinkamumo pilno teksto analizė
(n = 91) Atmesti straipsniai (n = 78): Tyrime nedalyvavo gydytojai (n = 18); Nenaudotas KNT (n = 15); Individualių parametrų analizė (n = 14); Literatūros apžvalgos (n = 11); Nėra histologinio verifikavimo (n = 11); Histologinių vaizdų analizė (n = 4); Negalima prieiga (n = 2) Netinkama kalba (n = 2) Nėra nepriklausomų testavimo duomenų (n = 1) Tyrimai įtraukti į sisteminę apžvalgą (n = 13)
17
12. REZULTATAI IR JŲ APTARIMAS
Identifikuota 13 tyrimų iš viso analizavusių 6995 tiriamuosius vaizdus, lyginusių 197 algoritmus ir 1174 gydytojus. Visi tyrimai buvo retrospektyvūs atvejo-kontrolės. KNT suminis visų odos darinių klasifikacijos tikslumas pagal AUC svyravo 0,742 – 0,940. Paieškoje identifikuotų tyrimų duomenys pateikti 1 lentelėje.
Lentelės legenda:
Vaizd. būdas – vaizdinimo būdas; Foto. – fotografija; Derm. – dermatoskopija;
KNT mokymo duomenų atvira prieiga – ar KNT mokymo duomenys (vaizdai) imti iš atviros prieigos duomenų bazių (ISIC archive ir kt.);
1 – Melanoma; 2 – Pigmentinis apgamas; 3 – Seborėjinė keratozė; 4 – Bazalinių ląstelių karcinoma; 5 – Plokščialąstelinė karcinoma; 6 – Aktininė keratozė ir Bowen liga; 7 – Dermatofibroma; 8 – Lentigo; 9 – Vaskuliniai dariniai; 10 – paprastoji karpa; 11 – kiti dariniai
D – Dermatologai; DR – Dermatologijos rezidentai; BPG – Bendrosios praktikos gydytojai Kiti – Kiti gydytojai (kiti specialistai, kitų specialybių rezidentai, išplėstinės praktikos slaugytojos)
* Tyrimo metu vertinta daug skirtingų KNT algoritmų, besiskiriančiu architektūra, klasifikavimo tikslumu. Pasirinkti geriausiųjų algoritmų rezultatai.
1 lentelė Identifikuoti tyrimai apie KNT ir gydytojų odos vėžio klasifikacijos tikslumą Tyrimas Vaizd. būdas KNT architektūros
tipas
KNT mokymo duomenys Testavimo duomenys Vaizdų
kiekis Atvira prieiga
Vaizdų kiekis Vertinti odos dariniai Dalyvavusių gydytojų kiekis Esteva 2017 [35] Foto.
Derm. Google Inception-v3 127463 Ne 130 1; 2
22 (25 D) Tschandl 2019a [36] Foto. Derm. Google Inception-v3 Microsoft ResNet-50 13724 Ne 2072 1; 2; 3; 4; 5; 6; 7; 8; 9; 11 95 (95 D) Han 2018
[37] Foto. Microsoft ResNet-152 19398 Taip 480 1 – 11 (visi)
16
(16 D) Brinker
2019a [38] Foto. Microsoft ResNet-50 12378 Taip 100 1; 2
145
(57 D; 88 DR) Haenssle
2018 [39] Derm. Google Inception-v4 – Ne 100 1; 2
58
(58 D) Zhao 2019
[40] Derm. Google Xception 3375 Ne 60
1; 2; 3; 4; 5; 6; 7; 11
20
(20 D) Fujisawa
2019 [41] Foto. Google GoogLeNet 4867 Ne 1142
1; 2; 3; 4; 5; 6; 8; 11
22
(13 D; 9 DR) Brinker
2019b [42] Derm. Microsoft ResNet-50 4204 Taip 804 1; 2
144
(52 D; 92 DR) Maron
2019 [43] Derm. Microsoft ResNet-50 12336 Taip 300
1; 2; 3; 4; 5; 6; 8; 11 112 (45 D; 67 DR) Yu 2018 [44] Derm. VGG-16 362 Taip 362 1; 2 4 (2 D; 2 BPG) Marchetti
2019 [45] Derm. Vertinti 23 KNT* 2000 Taip 150 1; 2; 3
17
(8 D; 9 DR) Marchetti
2018 [46] Derm. Vertinti 25 KNT* 900 Taip 100 1; 2; 8
8 (8 D) Tschandl 2019b [47] Foto. Derm. Vertinti 139 KNT* 10015 Ne 1195 1; 2; 3; 4; 6; 7; 9 511 (283 D; 118 DR; 83 BPG; 27 Kiti)
18 Mokymo vaizdai buvo kaupiami iš atviros prieigos (7 tyrimai – 51578 vaizdai; 24%) arba privačių (5 tyrimai – 159444 vaizdai; 76%) duomenų bazių. Haenssle ir kiti [39] nenurodė algoritmo mokyme taikyto duomenų kiekio. Esteva ir kiti [35] surinko didžiausią (127463) mokymo vaizdų kiekį, kombinuojant universitetinių ligoninių ir atviros prieigos vaizdus. 4 (33%) tyrimai naudojo GoogLeNet architektūrą ar naujesnes šios architekūros versijas, 3 (33%) pasitelkti ResNet-50, 1 (8%) ResNet-152 pagrindo KNT. Iš 9 tyrimų, vertinusių tik po vieną algoritmą, Tschandl ir kiti [36] vieninteliai taikė kombinuotą Inception-ResNet neuroninį tinklą. 3 tyrimuose buvo analizuojama daug skirtingų KNT algoritmų, užėmusių aukščiausias vietas atviruose informacinių technologijų testavimo turnyruose „International Skin Imaging Collaboration“ (ISIC) – rezultatai rėmėsi geriausiai pasirodžiusio algoritmo duomenimis.
Vertinti pigmentiniai (7; 54%), nepigmentiniai (1; 8%) ar abiejų kategorijų (5; 38%) dariniai. Han ir kiti [37] KNT klasifikavo didžiausią kiekį skirtingų odos darinių. Visuose tyrimuose dalyvavo dermatovenerologai (682), 6 tyrimuose dermatovenerologijos rezidentai (383), 2 bendrosios praktikos gydytojai (85). Tschandl ir kiti [47] įtraukė ir 25 kitų sričių specialistus, 2 išplėstinės praktikos slaugytojas.
12.1 Tyrimų metodologinė kokybė
Visi tyrimai turi didelės tendencingumo ar pritaikomumo rizikos veiksnių, stebėtas metodologinis heterogeniškumas. QUADAS-2 vertinimo rezultatai pateikiami 5 ir 6 pav. Didžiausia šališkumo rizika atsispindėjo vaizdų atrankoje (visi tyrimai vertinti kaip didelės rizikos).
5 pav. Tyrimų tendencingumo ir duomenų pritaikymo rizikų vertinimo grafikas. KNT – konvoliucinis neuroninis tinklas. Didelė – didelė rizika; nežinoma – nežinoma rizika; maža – maža rizika. Pateikiama procentinė dalis nuo visų įtrauktų tyrimų.
Tik vienas tyrimas (Tschandl ir kiti [36]) priskirtas mažai rizikai pagal atrinktų vaizdų pritaikomumą, nes testuota pakankama įvairovė odos darinių, sutinkamų klinikinėje praktikoje, buvo vengiama naudoti pacientų su daugybiniais dariniais vaizdus. 2 tyrimai (15%) vertinti kaip nežinomos
Tendencingumas Duomenų pritaikomumas
Vaizdų atranka Indeksinis testas: KNT Indeksinis testas: gydytojai Referentinis metodas Srautas ir laikas
19 rizikos, nes nebuvo pakankamai informacijos spręsti apie daugybinių darinių naudojimą, nepaisant reprezentatyvių pacientų populiacijai testavimo duomenų.
6 pav. Tyrimų tendencingumo ir duomenų pritaikymo rizikų vertinimo rezultatai. KNT – konvoliucinis neuroninis tinklas. Didelė – didelė rizika; nežinoma – nežinoma rizika; maža – maža rizika.
KNT klasifikacija buvo atliekama be informacijos apie referentinio testo rezultatus, vykdyta nepriklausomojoje testavimo vaizdų grupėje (šis kriterijus buvo būtinas įtraukimui į sisteminę apžvalgą), todėl 6 tyrimų (46%) didelė indeksinio testo rezultatų tendencingumo rizika buvo sąlygota nepateiktų algoritme naudotų slenkstinių reikšmių (viršijus slenkstinę tikimybę, darinys yra priskiriamas tam tikrai klasei, todėl šie slenksčiai gali lemti klasifikacijos tikslumo pokyčius, yra būtini norint atkartoti rezultatus nepriklausomame tyrime). KNT klasifikacijos pritaikomumas vertintas kaip
Didelė Nežinoma s Maža V ai zd ų at ra n k a In d ek si n is t es ta s: K N T In d ek si n is t es ta s: g y d y to ja i R ef er en ti n is m et o d as S ra u ta s ir l ai k as V ai zd ų at ra n k a In d ek si n is t es ta s: K N T In d ek si n is t es ta s: g y d y to ja i R ef er en ti n is m et o d as Tendencingumas Pritaikomumas
20 didelės rizikos 10 (77%) tyrimų, nes slenkstinės vertės nebuvo pateiktos arba buvo pasirenkamos pagal gydytojų rezultatus, o ne iš publikacijų. 3 tyrimuose (23%) verčių šaltiniai buvo minimi be prieinamų nuorodų, todėl rizika vertina kaip nežinoma.
Gydytojų klasifikacijos tendencingumo rizika vertinta prasčiau nei KNT. Didelę riziką lėmė neidentifikuoti (9 tyrimai; 69%) naudoti diagnostikos metodai (ar remtasi tik vizualine analize, ar naudoti verifikuoti vizualiniai algoritmai, diagnostikos laikas ir seka). Viename tyrime (Brinker ir kiti [42]) gydytojai buvo informuojami apie testavimo duomenų santykio pasiskirstymą pagal diagnozę (1:1). Duomenų pritaikomumo rizika buvo didelė 12 (92%) tyrimų, dėl nenurodytų ar literatūroje neverifikuotų diagnostikos metodų, nepakankamos informacijos tyrimo replikacijai.
Referentinio metodo šališkumo rizika buvo maža 8 tyrimuose (62%), kuriuose histopatologinis vertinimas taikytas ir gerybiniams odos dariniams. 2 (Fujisawa ir kiti [41]; Marchetti ir kiti [45]) tyrimuose nebuvo pateikta pakankama informacija apie gerybinių darinių diagnozės nustatymą. Didelę riziką (3; 23%) sąlygojo nepakankamas gerybinių darinių klinikinis sekimas (< 3 mėnesiai) ar biopsijų dažnis (< 70%). Nė vienas tyrimas nenurodė patologų patirties ar kvalifikacijų, todėl pritaikomumas vertintas kaip nežinomos rizikos (10; 77%) arba didelės (3; 23%), jei gerybinių darinių diagnozės buvo patvirtintos ne vien histologija.
Vaizdų fiksavimo srauto ir laiko tendencingumo rizika tyrimuose buvo didelė dėl daugiau nei vieno referentinio metodo naudojimo gerybiniams dariniams (4; 33%), tiriamųjų vaizdų pašalinimo dėl prastos raiškos (2; 15%). Tyrimai nenurodė laikotarpio tarp atlikto darinio vaizdinimo ir histopatologinio vertinimo trukmės, todėl likę tyrimai (7; 58%) vertinti kaip nežinomos rizikos.
12.2 Tyrimai, vertinantys melanomos klasifikacijos tikslumą
13 retrospektyvių tyrimų lygino KNT ir gydytojų melanomos klasifikacijos tikslumą. KNT AUC reikšmė svyravo tarp 0,79 ir 0,94. Trijuose tyrimuose [38,41,42] ROC kreivės buvo pateiktos be skaitinės AUC išraiškos. 7 pav. Foresto diagramose pavaizduotos keturlaukių (2x2) kontingencijos lentelių skaitinės vertės ir tikslumo rezultatai: 8 tyrimuose vertinti 3058 vaizdai, dalyvavo 510 gydytojų. Likusiųjų tyrimų rezultatai pateikti 2 lentelėje.
Esteva ir kiti [35] – pirmasis informacinių technologijų tyrimas, tiesiogiai lyginęs KNT ir gydytojų odos darinių klasifikavimo tikslumą. Tyrėjai panaudojo 129450 dermatoskopinių ir fotografuotų vaizdų, sukauptų iš atviros prieigos „ISIC Dermoscopic Archive“ ir „Edinburgh Dermofit Library“ duomenų bazių bei Stanfordo Ligoninės archyvo. KNT architektūra rėmėsi Inception v3 modeliu. Odos dariniai klasifikuoti į melanomą ir pigmentinius apgamus. Nustatytas KNT tikslumas atskirti odos melanomą pagal AUC, 0,94 (pagal skaitmenį vaizdą – fotonuotrauką). Šiame tyrime
21 specialistų dermatologų išvada buvo mažiau tiksli nei KNT, jų vertinimo atskaitos taškai buvo po algoritmo ROC kreive – specialistų tikslumo skaitinės reikšmės nebuvo pasiekiamos.
Haenssle ir kiti [39] straipsnyje tyrimas vykdytas dviem etapais, „Class-I“ ir „Class-II“, iš kurių antrasis be dermatoskopinių vaizdų įtraukė ir klinikinius paciento duomenis (amžių, lytį, darinio lokalizaciją). Klinikiai duomenys yra svarbūs gydytojų diagnostikos procesui, todėl tikslumas vertintas pagal Class-II rezultatus. Tyrimas parodė, jog klinikiniai paciento duomenys padidina dermatologų jautrumą (+0.05) ir specifiškumą (+0.05), tačiau ne KNT diagnostikos tikslumą – algoritmo klasifikacijos specifiškumas ir AUC tarp etapų nesikeitė (klinikinių duomenų nebuvo KNT mokymo procese, todėl veikiausiai modelis nesugebėjo interpretuoti papildomos informacijos). Vis dėlto, šiame tyrime KNT algoritmas odos melanomą diagnozavo tiksliau (AUC = 0,86) nei 58 tyrime dalyvavusių dermatologų (AUC = 0,82, p < 0,01). Yu ir kiti [44] tyrimas vienintelis vertino akralinės melanomos klasifikacijos tikslumą. Nepaisant senesnio VGG-16 architektūros tipo [48] ir mažiausio kiekio naudotų mokymo duomenų (362), siekė aukščiausią KNT klasifikavimo jautrumą (0,93 [95% 0,88 – 0,96]) tarp identifikuotų tyrimų, kuriuo pranoko dalyvavusius gydytojus.
7 pav. Melanomos klasifikacijos tikslumo rezultatų Foresto diagrama. TP – teisingai teigiamas, FP – klaidingai teigiamas, FN – klaidingai neigiamas, TN – tesingai neigiamas. Jautr. – jautrumas. Spec. – specifiškumas.
Marchetti ir kiti [46] bei Marchetti ir kiti [45] straipsniai išsiskyrė tuo, kad tyrimuose pasirinkti dešimtys KNT algoritmų, užėmusių aukščiausias vietas vykdant atvirus informacinių technologijų testavimo ISIC turnyrus – rezultatai rėmėsi geriausiai pasirodžiusio algoritmo duomenimis. Abiejuose tyrimuose slenkstinė KNT vertė pasirinkta naudojant gydytojų jautrumą; atitinkami KNT specifiškumai (0,62; 0,85) buvo didesni nei gydytojų (0,59; 0,73). Marchetti ir kiti
Tyrimas
Tyrimas
Jautr. (95% PI) Spec. (95% PI)
22 [45] algoritmo ROC klasifikacijos kreivės AUC buvo didesnė nei teorinė gydytojų (0,87 vs 0,74, p < 0,001). Marchetti ir kiti [46] KNT AUC (0,79) buvo mažiausia iš identifikuotų tyrimų – naudoti algoritmai buvo kurti 2016 m. turnyrui, todėl pasižymėjo senesnėmis arcitektūromis. Panašu, kad modernūs KNT pasižymi geresne klasifikavimo geba.
2 lentelė KNT ir gydytojų melanomos klasifikacijos tikslumas
Tyrimas KNT Gydytojai
AUC Jautrumas Specifiškumas Jautrumas Specifiškumas
Esteva 2017 0,94 - - - -
Tschandl 2019a - 0,52 - 0,69 -
Tschandl 2019b - 0,94 0,96 0,76 0,78
Han 2018 0,88 0,86 0,81 - -
Zhao 2019 0,95 0,86 0,91 - -
Google GoogLeNet architektūra ar jos variacijos (Inception, Xception) naudotos dažniausiai (vienos ar kombinuotos 8 tyrimuose, 62%). Tschandl ir kiti [36] tyrimas buvo vienintelis naudojęs kombinuotų konvuliucinių tinklų (Google Inception-v3 ir Microsoft ResNet-50) architektūrą [20], išskyrus KNT algoritmus iš ISIC turnyrų. Minėtasis tyrimas vertino retos ir sunkiai atpažįstamos amelanotinės melanomos klasifikacijos tikslumą. Nors jautrumo vertinimo duomenimis algoritmas (0,52) nusleido gydytojų jautrumui (0,69), tai galėjo būti sąlygota nedidelio amelanotinių melanomų kiekio mokymo vaizduose – KNT tikslumas didėtų padidinus šių darinių reprezentaciją mokymo duomenyse.
Tschandl ir kiti [47] tyrimas, panašiai kaip Marchetti ir kiti [45], buvo grįstas 2018 metų ISIC turnyro dalyvių KNT algoritmais. Tyrime dalyvavo 511 gydytojų ir 77 KNT kuriančių komandų, pateikusių 139 unikalius KNT algoritmus. Rezultatų vertinimui naudotas geriausiųjų trijų algoritmų tikslumo vidurkis. Tyrėjai naudojo 11210 dermatoskopinių bei skaitmeninių vaizdų bazę, parengtą Vienos universiteto bei Australijos Cliff Rosendahl pirminio lygio sveikatos priežiūros centro specialistų. Gydytojai pakviesti dalyvauti tyrime per atvirą savanorių registraciją. Iš 511 gydytojų dalyvavusių tyrime, 283 (55,4%) buvo dermatologai, 118 (23,1%) dermatologijos rezidentai, 83 (16,2%) bendrosios praktikos gydytojai. Vaizdai klasifikuoti į 7 kategorijas (aktininė keratozė; BCC; dermatofibroma; melanoma; melanocitiniai apgamai; kraujagysliniai dariniai; kiti gerybiniai dariniai (seborėjinė keratozė, lichen planus tipo keratozė, soliarinis šlakas). Klasifikuojant pigmentinius odos darinius, vidutinis gydytojų jautrumas 0,76 ir specifiškumas 0,78 buvo žemesnis nei trijų geriausiųjų KNT algoritmų (pastarųjų ROC AUC vertė svyravo nuo 0,958 iki 0,971, vidutinis gydytojų jautrumas ir specifiškumas buvo po ROC kreive). Pateikiami ir rezultatai su išorine validacija: tikslumas vertintas testavimo vaizdais iš skirtingų duomenų bazių nei mokymo duomenys. Nors gydytojų jautrumas ir specifiškumas išaugo iki 0,78 ir 0,93, vertės išliko žemesnės nei KNT algoritmo (0,94 ir 0,96).
23 Efektyviausi algoritmai buvo grįsti kombinuotais (angl. ensemble) KNT naudojant ResNet-152 ir SENet [49] architektūras. Nustatyta, jog kombinuoti KNT pagerina vaizdų klasifikatoriaus tikslumą, lyginant su vienos architektūros KNT modeliais [50]. Dar nepublikuoto 2019 m. ISIC turnyro preliminariais duomenimis, geriausi vaizdų klasifikavimo rezultatai pasiekti naudojant naują GoogleEfficientNet KNT architektūrą [51], todėl kombinuoti KNT veikiausiai bus naudojami ir ateityje.
Tyrimai buvo heterogeniški mokymo duomenų (362 – 127463), testavimo duomenų (100 – 2072) bei dalyvavusių gydytojų (4 – 511) kiekiais. Tyrimų vertinimuose be gydytojų dermatologų pasitelkti ir dermatologijos rezidentai, kurie sudarė 33% visų dalyvavusių klinicistų. Gydytojų dalyvavimas multicentrinėse studijose buvo užtikrinamas pasitelkiant elektronines vaizdų vertinimo formas. Tik Yu ir kiti [44] bei Tschandl ir kiti [47] tyrimai tarp vertintų gydytojų įtraukė ir bendrosios praktikos specialistus.
Foresto diagramoje matomas netolygus rezultatų pasiskirstymas: KNT jautrumai svyruoja nuo 0,63 iki 0,93, specifiškumai 0,62 iki 0,98, tačiau grupėse tarp KNT ir gydytojų matoma panašumų. Fujisawa ir kiti [41] sugebėjo išlaikyti gerą jautrumą ir specifiškumą (0,73 ir 0,98) turėdami mažiausią melanomos dažnį tiriamųjų grupėje (8,32%), palyginus su kitų tyrimų melanomos paplitimo dažniu testavimo duomenyse (20-50%). Sergamumas melanoma Šiaurės Europos šalyse svyruoja 12-35 / 100000 gyv. [52], todėl norint KNT modelius taikyti klinikinėje praktikoje, ypatingai pirmojoje grandyje, reikalingas reprezentatyvus populiacijai mokymo ir testavimo duomenų pasirinkimas pagal paplitimo dažnį (tarp baltaodžių, viso gyvenimo akumuliacinė rizika sirgti melanoma yra apie 2.5%) [53].
Tyrimai turėjo kitų trūkūmų: rėmėsi atvejo-kontrolės retrospektyviomis struktūromis, tik du tyrimai naudojo išorinę rezultatų validaciją – nors autoriai užtikrino mokymo ir testavimo duomenų nepriklausomumą, testavimo vaizdai buvo atrenkami iš tų pačių duomenų bazių. Tyrimuose su išorine rezultatų validacija, duomenys taikyti tik antrinėms analizėms, duomenys buvo pasiekiami tik prieduose. Identifikuotų tyrimų KNT klasifikacijos algoritmai galimai yra permokyti (angl. overfitted) ir demonstruotų prastesnius rezultatus juos taikant klinikinėje praktikoje [54]. Svarbus ir heterogeniškas rezultatų reprezentavimas; 5 iš 13 tyrimų nebuvo galima sudaryti 2x2 rezultatų kontigencijos lentelių. Han ir kiti [37], Zhao ir kiti [40], nepateikė ekvivalenčių gydytojų tikslumo rodiklių, naudotų KNT vertinime.
Nors iš turimų duomenų panašu, kad KNT algoritmai melanomą klasifikuoja geresniu tikslumu nei gydytojai, detalesnis rezultatų lyginimas siekiant apibendrinančių išvadų, galimas tik meta-analizės tyrimo ribose, pasitelkiant papildomus matematinius modelius. Vis dėlto, nedidelė identifikuotų tyrimų gausa, didelis heterogeniškumas ir didelės tendencingumo ir pritaikomumo rizikos
24 požymiai gali sąlygoti klaidingas interpretacijas [55], todėl meta-analizės turėtų būti vykdomos tik atsiradus naujiems, geriausia diagnostiniams atsitiktinių imčių tyrimams.
12.3 Tyrimai, vertinantys plokščialąstelinės karcinomos klasifikacijos tikslumą
Identifikuoti 5 retrospektyviniai tyrimai, lyginantys KNT ir gydytojų SCC klasifikacijos tikslumą. Maron ir kiti [43] tyrime SCC grupuota kartu su aktininės keratozės ir Bowen ligos vaizdais, todėl nebuvo galima identifikuoti dariniui specifinių tikslumo verčių. Aktininė keratozė yra viena pagrindinių diferencinių diagnozių įtariant SCC, todėl toks grupavimas algoritmo mokymo ar testavimo metu yra žalingas. Tschandl ir kiti [36] tyrimo rezultatai pateikti daugiaklasinės analizės apibendrintomis reikšmėmis, todėl taip pat nebuvo galima identifikuoti SCC klasifikacijos jautrumo ir specifiškumo. 8 pav. Foresto diagramose pavaizduotos duomenų surinkimo etape gautos keturlaukių (2x2) kontingencijos lentelių skaitinės vertės, apskaičiuoti tikslumo rodikliai. 2 tyrimai pateikė tik KNT jautrumo, specifiškumo ir AUC reikšmes, šie duomenys pateikti 3 lentelėje.
8 pav. Plokščialąstelinės karcinomos klasifikacijos tikslumo Foresto diagrama. TP – teisingai teigiamas, FP – klaidingai teigiamas, FN – klaidingai neigiamas, TN – tesingai neigiamas. Jautr. – jautrumas. Spec. – specifiškumas.
3 lentelė KNT ir gydytojų plokščialąstelinės karcinomos klasifikacijos tikslumas
Tyrimas KNT Gydytojai
AUC Jautrumas Specifiškumas Jautrumas Specifiškumas
Han 2018 0,91 0,90 0,80 - -
Zhao 2019 0,95 0,86 0,91 - -
Vienintelis Fujisawa ir kiti [41] tyrimas pateikė pakankamai duomenų klinicistų ir KNT klasifikacijos tikslumo lyginimui. Vykdyta klasifikacija į 8 darinių grupes, vertinti 1142 vaizdai, iš jų 189 SCC. Visi mokymo ir testavimo duomenys buvo surinkti iš Tsukuba universiteto ligoninės. Sulyginus KNT specifškumą su gydytojais (0,95), gautas reikšmingai didesnis KNT jautrumas (0,83 vs 0,59). SCC paplitimo dažnis testavimo duomenyse buvo lygus 16,5%.
Tyrimas
Tyrimas Jautr. (95% PI) Jautr. (95% PI)
Jautr. (95% PI) Jautr. (95% PI) Spec. (95% PI)
Spec. (95% PI) Spec. (95% PI)
25 Zhao ir kiti [40] rėmėsi skirtinga metodika ir grupavo SCC kartu su melanomos vaizdais į didelės piktybiškumo rizikos grupę. Tyrimo KNT AUC reikšmė buvo lygi 0,947, gydytojų klasifikacijos suminiai taškai buvo po ROC kreive (skaitinių gydytojų tikslumo reikšmių neidentifikuota) – KNT vaizdus klasifikavo geriau nei dermatologai, didesniu jautrumu ir specifiškumu. Autorių teigimu, odos darinių grupavimas vykdytas siekiant kurti atrankinį odos vėžio algoritmą, todėl nebuvo dedamos pastangos individualių darinių klasifikacijai užtikrinti – panašus skirstymas galėtų būti naudojamas pirminės sveikatos priežiūros grandyje.
Han ir kiti [37] pasiekė patenkinamą tikslumą naudodami išorinę validaciją: testavimo duomenys pasitelkti iš algoritmo mokymo procese nesutiktos Edinburgh odos darinių duomenų bazės. Nors validacija leido įvertinti KNT pritaikomumą, nebuvo sudaryta prieiga prie skaitinių vertintų gydytojų rezultatų reikšmių. Gydytojų jautrumą ir specifiškumą reprezentuojantys taškai atidėti KNT ROC kreivėje – dėl grupių persidengimo, negalima teigti, kad algoritmas SCC klasifikuoja geriau nei gydytojai.
Apibendrinimai apie KNT ir gydytojų SCC klasifikacijos tikslumą yra negalimi: iš identifikuotų 5 tyrimų tik 3 vertino SCC kaip atskirą kategoriją, ir tik viename tyrime pateikta pakankamai rezultatų kontingencijos lentelės sudarymui. Senstant populiacijai, stebimas didesnis sergamumas SCC [56], todėl kuriant KNT svarbu nepamiršti ir SCC diagnostikos.
12.4 Tyrimai, vertinantys bazalinės karcinomos klasifikacijos tikslumą
Identifikuoti 5 tyrimai, lyginę KNT ir gydytojų SCC klasifikacijos tikslumą. Tschandl ir kiti [24] tyrimo rezultatai pateikti tik daugiaklasei analizei, todėl buvo nevertinami. 9 pav. Foresto diagramose pavaizduotos kontingencijos lentelių skaitinės vertės ir tikslumo rezultatai: 2 tyrimuose vertinti 1442 vaizdai, dalyvavo 134 gydytojai, BCC paplitimo dažnis testavimo duomenyse buvo panašus (21% vs 20%). 2 likusiųjų tyrimų rezultatai pateikti 4 lentelėje.
Fujisawa ir kiti [41] 8 darinių grupių klasifikacijoje vertinti 1142 klinikiniai fotografiniai vaizdai, iš jų 249 BCC. Sulyginus KNT specifškumą su gydytojais (0,94), gautas reikšmingai didesnis KNT jautrumas (0,80 vs 0,65). Pasiektas gydytojų jautrumas ir specifiškumas buvo panašūs į identifikuojamus literatūroje (0,67 ir 0,98 vizualinės analizės be dermatoskopo) [27].
Maron ir kiti [43] 5 darinių grupių klasifikacijoje vertinta 300 dermatoskopinių vaizdų, iš jų 60 BCC. KNT jautrumas buvo prilygintas gydytojų (0,73), gydytojų ir KNT specifiškumas statistiškai nesiskyrė (1,00 (95% PI 0,98 – 1,00) vs 0,98 (95% PI 0,95 – 0,99)) Tyrimuose išorinė validacija nevykdyta.
Tschandl ir kiti [47] dermatoskopinio vertinimo KNT ir gydytojų jautrumas ir specifiškumas statistiškai nesiskyrė (0,80 vs 0,79 ir 0,99 ir 1,00 p > 0,05), rezultatai gauti vykdant išorinę validaciją.
26 Tyrimas nepateikė pakankamai duomenų kontingencijos lentelės sudarymui. Han ir kiti [37], skaitinės gydytojų klasifikacijos reikšmės nepasiekiamos, tačiau vertinant pagal ROC kreivę, identifikuotas didesnis KNT algoritmo tikslumas klinikinių fotografijų vertinime. Šiais preliminariais duomenimis, KNT algoritmai BCC klasifikuotų geriau nei gydytojai, naudojant fotografinius vaizdus, ir tokiu pačiu tikslumu dermatoskopiniuose vaizduose. Vis dėlto, rezultatai pasiekiami tik 4 tyrimuose, iš jų 2 nepateikiama pakankamai rezultatų kontingencijos lentelių sudarymui, tyrimai yra metodologiškai heterogeniški. Sisteminės apžvalgos apibendrinimai apie KNT ir gydytojų BCC klasifikacijos tikslumą yra negalimi dėl nepakankamo duomenų kiekio.
9 pav. Bazalinių ląstelių karcinomos klasifikacijos tikslumo Foresto diagrama. TP – teisingai teigiamas, FP – klaidingai teigiamas, FN – klaidingai neigiamas, TN – tesingai neigiamas. Jautr. – jautrumas. Spec. – specifiškumas.
4 lentelė KNT ir gydytojų bazalinių ląstelių karcinomos klasifikacijos tikslumas
Tyrimas KNT Gydytojai
AUC Jautrumas Specifiškumas Jautrumas Specifiškumas
Tschandl 2019b 0,80 0,90 0,79 1
Han 2018 0,90 0,80 0,83 - -
12.5 Konvoliucinių neuroninių tinklų taikymas klinikinėje praktikoje
Turimi rezultatai neleidžia teigti, kad KNT tikslumas yra pakankamas šių algoritmų integravimui į klinikinę praktika. 13 tyrimų vertintas KNT melanomos klasifikacijos tikslumas buvo didesnis nei dalyvavusių gydytojų, tačiau stebėtas metodologinis heterogeniškumas, nereprezentatyvi ligos paplitimui populiacijoje imtis, 5 (38%) tyrimuose vykdytas tik binarinis klasifikavimas į melanomą ir pigmentinius apgamus, atvejo-kontrolės tipo tyrimų pobūdis, tendencingumo ir pritaikomumo rizikos. Rezultatams priskirtinas „Grading of Recommendations Assessment, Development, and Evaluation“ (GRADE) sistemos [57] vertinimimas – labai mažas įrodymų lygmuo. Jei esamas KNT jautrumas ir specifiškumas būtų patvirtintas geresnės kokybės tyrimais, KNT algoritmai galėtų būti naudojami tiek pirminėje, tiek specialistų sveikatos priežiūros grandyse. SCC ir
Jautr. (95% PI)
Jautr. (95% PI) Spec. (95% PI)
Spec. (95% PI) Spec. (95% PI)
Spec. (95% PI) Jautr. (95% PI)
Jautr. (95% PI) Tyrimas
27 BCC atvejais, išvados apie klasifikacijos tikslumą negalimos, kadangi nėra pakankama tyrimų imtis detalios analizės atlikimui [58].
Remiantis „National Institute for Health and Care Excellence“ (NICE) instituto įrodymo standartų sistemos rekomendacijomis [59], dirbtinio intelekto technologijų tyrimai priskirtinti 3B kategorijai, kurios minimalūs kriterijai technologijų taikymui praktikoje rekalauja intervencinių prospektyvinių tyrimų. Šioje rekomendacijoje pabrėžiama, jog esant galimų rimtų padarinių žmogaus sveikatai, naudojant dirbtiniu intelektu pagrįstą diagnostinę sistemą, KNT validacija turėtų būti grindžiama „geriausios praktikos“ įrodymais: prospektyviais kohortiniais bei randomizuotais kontroliniais klinikiniais tyrimais, patvirtinančiais neginčijamą diagnostinių technologijų naudą, o esant pakankamai tyrimų – jų meta-analizėmis. Vykdytos sisteminės apžvalgos duomenimis, egzistuoja tik vienas prospektyvinis kohortinis KNT odos vėžio diagnostikos tyrimas, kuris dėl taikytos metodologijos yra netinkamas sisteminei apžvalgai ar meta-analizei. Nors identifikuotų retrospektyvių tyrimų duomenys leidžia teigti, kad KNT galimai turi pranašumą diagnozuojant melanomą, ši išvada grindžiama labai mažo lygmens įrodymais. Reikalingi tolesni klinikiniai tyrimai, kurie patvirtintų KNT diagnostinio pranašumo rezultatus piktybinių bei gerybinių odos navikų diagnostikai, siekiant patvirtinamųjų meta-analizių technologijų pagrįstumui įrodyti.
28
13. IŠVADOS
1. Visų tyrimų metodologinė kokybė, vertinant pagal QUADAS-2, pasižymi tendencingumo ir pritaikomumo didelės rizikos veiksniais, galinčiais daryti įtaką rezultatams.
2. Konvoliuciniai neuroniniai tinklai odos melanomą klasifikuoja tiksliau nei gydytojai, tačiau pagrindimui reikalingi tolimesni prospektyvūs ir geresnės metodologinės kokybės tyrimai. 3. Nėra pakankamai tyrimų plokščialąstelinės karcinomos klasifikacijos tikslumo vertinimui. 4. Nėra pakankamai tyrimų bazalinių ląstelių karcinomos klasifikacijos tikslumo vertinimui.
29
14. LITERATŪROS SĄRAŠAS
1. Arcadu F, Benmansour F, Maunz A, Willis J, Haskova Z, Prunotto M. Deep learning algorithm predicts diabetic retinopathy progression in individual patients. npj Digit Med. 2019;2(1):92. 2. McKinney SM, Sieniek M, Godbole V, Godwin J, Antropova N, Ashrafian H, Back T, Chesus
M, Corrado GC, Darzi A, et al. International evaluation of an AI system for breast cancer screening. Nature. 2020;577(7788):89–94.
3. Hekler A, Utikal JS, Enk AH, Solass W, Schmitt M, Klode J, Schadendorf D, Sondermann W, Franklin C, Bestvater F, et al. Deep learning outperformed 11 pathologists in the classification of histopathological melanoma images. Eur J Cancer. 2019;118:91–6.
4. Wernli KJ, Henrikson NB, Morrison CC, Nguyen M, Pocobelli G, Blasi PR. Screening for Skin Cancer in Adults: Updated Evidence Report and Systematic Review for the US Preventive Services Task Force. JAMA. 2016;316(4):436–47.
5. Ferrante di Ruffano L, Takwoingi Y, Dinnes J, Chuchu N, Bayliss SE, Davenport C, Matin RN, Godfrey K, O’Sullivan C, Gulati A, et al. Computer-assisted diagnosis techniques (dermoscopy and spectroscopy-based) for diagnosing skin cancer in adults. Cochrane Database Syst Rev. 2018;(12).
6. Yamashita R, Nishio M, Do RKG, Togashi K. Convolutional neural networks: an overview and application in radiology. Insights Imaging. 2018;9(4):611–29.
7. Esteva A, Robicquet A, Ramsundar B, Kuleshov V, DePristo M, Chou K, Cui C, Corrado G, Thrun S, Dean J. A guide to deep learning in healthcare. Nat Med. 2019;25(1):24–9.
8. Goodfellow IJ, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A, Bengio Y. Generative Adversarial Nets. In: Proceedings of the 27th International Conference on Neural Information Processing Systems - Volume 2. Cambridge, MA, USA: MIT Press; 2014. p. 2672–2680.
9. Stabingienė L. Ekonometrika. 1st ed. Klaipėda: Klaipėdos universiteto leidykla; 2015. 23 p. 10. Goodfellow I, Bengio Y, Courville A. Deep Learning. Cambridge, MA: The MIT Press; 2016.
58–60 p.
11. Hosny A, Parmar C, Quackenbush J, Schwartz LH, Aerts HJWL. Artificial intelligence in radiology. Nat Rev Cancer. 2018;18(8):500–10.
12. Tschandl P, Argenziano G, Razmara M, Yap J. Diagnostic accuracy of content-based dermatoscopic image retrieval with deep classification features. Br J Dermatol. 2019;181(1):155–65.
13. D’souza RN, Huang P-Y, Yeh F-C. Structural Analysis and Optimization of Convolutional Neural Networks with a Small Sample Size. Sci Rep. 2020;10(1):834.
30 Vision: A Brief Review. Comput Intell Neurosci. 2018;2018:7068349.
15. Krizhevsky A, Sutskever I, Hinton GE. ImageNet Classification with Deep Convolutional Neural Networks. In: Pereira F, Burges CJC, Bottou L, Weinberger KQ, editors. Advances in Neural Information Processing Systems 25. Curran Associates, Inc.; 2012. p. 1097–105.
16. He K, Zhang X, Ren S, Sun J. Deep Residual Learning for Image Recognition. In: 2016 {IEEE} Conference on Computer Vision and Pattern Recognition, {CVPR} 2016, Las Vegas, NV, USA, June 27-30, 2016. {IEEE} Computer Society; 2016. p. 770–8.
17. Nasiri S, Helsper J, Jung M, Fathi M. DePicT Melanoma Deep-CLASS: a deep convolutional neural networks approach to classify skin lesion images. BMC Bioinformatics. 2020;21(Suppl 2):84.
18. An G, Omodaka K, Hashimoto K, Tsuda S, Shiga Y, Takada N, Kikawa T, Yokota H, Akiba M, Nakazawa T. Glaucoma Diagnosis with Machine Learning Based on Optical Coherence Tomography and Color Fundus Images. J Healthc Eng. 2019;2019:4061313.
19. Szegedy C, Liu W, Jia Y, Sermanet P, Reed SE, Anguelov D, Erhan D, Vanhoucke V, Rabinovich A. Going deeper with convolutions. In: {IEEE} Conference on Computer Vision and Pattern Recognition, {CVPR} 2015, Boston, MA, USA, June 7-12, 2015. {IEEE} Computer Society; 2015. p. 1–9.
20. Szegedy C, Ioffe S, Vanhoucke V, Alemi AA. Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning. AAAI Conf Artif Intell Thirty-First AAAI Conf Artif Intell. 2017;
21. Siegel RL, Miller KD, Jemal A. Cancer statistics, 2020. CA Cancer J Clin. 2020;70(1):7–30. 22. Dinnes J, Deeks JJ, Grainge MJ, Chuchu N, Ferrante di Ruffano L, Matin RN, Thomson DR,
Wong KY, Aldridge RB, Abbott R, et al. Visual inspection for diagnosing cutaneous melanoma in adults. Cochrane database Syst Rev. 2018;12:CD013194.
23. Ramji R, Valdes-Gonzalez G, Oakley A, Rademaker M. Dermoscopic “Chaos and Clues” in the diagnosis of melanoma in situ. Australas J Dermatol. 2018;59(3):201–5.
24. Dinnes J, Deeks JJ, Chuchu N, Ferrante di Ruffano L, Matin RN, Thomson DR, Wong KY, Aldridge RB, Abbott R, Fawzy M, et al. Dermoscopy, with and without visual inspection, for diagnosing melanoma in adults. Cochrane database Syst Rev. 2018;12:CD011902.
25. Gaudy-Marqueste C, Wazaefi Y, Bruneu Y, Triller R, Thomas L, Pellacani G, Malvehy J, Avril M-F, Monestier S, Richard M-A, et al. Ugly Duckling Sign as a Major Factor of Efficiency in Melanoma Detection. JAMA dermatology. 2017;153(4):279–84.
26. Sondermann W, Utikal JS, Enk AH, Schadendorf D, Klode J, Hauschild A, Weichenthal M, French LE, Berking C, Schilling B, et al. Prediction of melanoma evolution in melanocytic nevi via artificial intelligence: A call for prospective data. Eur J Cancer. 2019;119:30–4.
31 27. Reiter O, Mimouni I, Gdalevich M, Marghoob AA, Levi A, Hodak E, Leshem YA. The diagnostic accuracy of dermoscopy for basal cell carcinoma: A systematic review and meta-analysis. J Am Acad Dermatol. 2019;80(5):1380–8.
28. Nehal KS, Bichakjian CK. Update on Keratinocyte Carcinomas. N Engl J Med. 2018;379(4):363–74.
29. Dinnes J, Deeks JJ, Chuchu N, Matin RN, Wong KY, Aldridge RB, Durack A, Gulati A, Chan SA, Johnston L, et al. Visual inspection and dermoscopy, alone or in combination, for diagnosing keratinocyte skin cancers in adults. Cochrane database Syst Rev. 2018;12:CD011901.
30. Ferrante di Ruffano L, Takwoingi Y, Dinnes J, Chuchu N, Bayliss SE, Davenport C, Matin RN, Godfrey K, O’Sullivan C, Gulati A, et al. Computer-assisted diagnosis techniques (dermoscopy and spectroscopy-based) for diagnosing skin cancer in adults. Cochrane database Syst Rev. 2018;12:CD013186.
31. Phillips M, Marsden H, Jaffe W, Matin RN, Wali GN, Greenhalgh J, McGrath E, James R, Ladoyanni E, Bewley A, et al. Assessment of Accuracy of an Artificial Intelligence Algorithm to Detect Melanoma in Images of Skin Lesions. JAMA Netw Open. 2019;2(10):e1913436– e1913436.
32. Moher D, Liberati A, Tetzlaff J, Altman DG, Group TP. Preferred Reporting Items for Systematic Reviews and Meta-Analyses: The PRISMA Statement. PLOS Med. 2009;6(7):e1000097.
33. Whiting PF, Rutjes AWS, Westwood ME, Mallett S, Deeks JJ, Reitsma JB, Leeflang MMG, Sterne JAC, Bossuyt PMM. QUADAS-2: a revised tool for the quality assessment of diagnostic accuracy studies. Ann Intern Med. 2011;155(8):529–36.
34. Zeng X, Zhang Y, Kwong JSW, Zhang C, Li S, Sun F, Niu Y, Du L. The methodological quality assessment tools for preclinical and clinical studies, systematic review and meta-analysis, and clinical practice guideline: a systematic review. J Evid Based Med. 2015;8(1):2– 10.
35. Esteva A, Kuprel B, Novoa RA, Ko J, Swetter SM, Blau HM, Thrun S. Dermatologist-level classification of skin cancer with deep neural networks. Nature. 2017;542(7639):115–8.
36. Tschandl P, Rosendahl C, Akay BN, Argenziano G, Blum A, Braun RP, Cabo H, Gourhant JY, Kreusch J, Lallas A, et al. Expert-Level Diagnosis of Nonpigmented Skin Cancer by Combined Convolutional Neural Networks. JAMA Dermatology. 2019;155(1):58–65.
37. Han SS, Kim MS, Lim W, Park GH, Park I, Chang SE. Classification of the Clinical Images for Benign and Malignant Cutaneous Tumors Using a Deep Learning Algorithm. J Invest Dermatol. 2018;138(7):1529–38.
32 38. Brinker TJ, Hekler A, Enk AH, Klode J, Hauschild A, Berking C, Schilling B, Haferkamp S, Schadendorf D, Fröhling S, et al. A convolutional neural network trained with dermoscopic images performed on par with 145 dermatologists in a clinical melanoma image classification task. Eur J Cancer. 2019;111:148–54.
39. Haenssle HA, Fink C, Schneiderbauer R, Toberer F, Buhl T, Blum A, Kalloo A, Ben Hadj Hassen A, Thomas L, Enk A, et al. Man against Machine: Diagnostic performance of a deep learning convolutional neural network for dermoscopic melanoma recognition in comparison to 58 dermatologists. Ann Oncol. 2018;29(8):1836–42.
40. Zhao X, Wu X, Li F, Li Y, Huang W, Huang K, He X, Fan W, Wu Z, Chen M, et al. The Application of Deep Learning in the Risk Grading of Skin Tumors for Patients Using Clinical Images. J Med Syst. 2019;43(8):283.
41. Fujisawa Y, Otomo Y, Ogata Y, Nakamura Y, Fujita R, Ishitsuka Y, Watanabe R, Okiyama N, Ohara K, Fujimoto M. Deep-learning-based, computer-aided classifier developed with a small dataset of clinical images surpasses board-certified dermatologists in skin tumour diagnosis. Br J Dermatol. 2019;180(2):373–81.
42. Brinker TJ, Hekler A, Enk AH, Berking C, Haferkamp S, Hauschild A, Weichenthal M, Klode J, Schadendorf D, Holland-Letz T, et al. Deep neural networks are superior to dermatologists in melanoma image classification. Eur J Cancer. 2019;119:11–7.
43. Maron RC, Weichenthal M, Utikal JS, Hekler A, Berking C, Hauschild A, Enk AH, Haferkamp S, Klode J, Schadendorf D, et al. Systematic outperformance of 112 dermatologists in multiclass skin cancer image classification by convolutional neural networks. Eur J Cancer. 2019;119:57– 65.
44. Yu C, Yang S, Kim W, Jung J, Chung KY, Lee SW, Oh B. Acral melanoma detection using a convolutional neural network for dermoscopy images. Haass NK, editor. PLoS One. 2018;13(3):e0193321.
45. Marchetti MA, Liopyris K, Dusza SW, Codella NCF, Gutman DA, Helba B, Kalloo A, Halpern AC. Computer Algorithms Show Potential for Improving Dermatologists’ Accuracy to Diagnose Cutaneous Melanoma; Results of ISIC 2017. J Am Acad Dermatol. 2019;
46. Marchetti MA, Codella NCF, Dusza SW, Gutman DA, Helba B, Kalloo A, Mishra N, Carrera C, Celebi ME, DeFazio JL, et al. Results of the 2016 International Skin Imaging Collaboration International Symposium on Biomedical Imaging challenge: Comparison of the accuracy of computer algorithms to dermatologists for the diagnosis of melanoma from dermoscopic images. J Am Acad Dermatol. 2018;78(2):270-277.e1.
47. Tschandl P, Codella N, Akay BN, Argenziano G, Braun RP, Cabo H, Gutman D, Halpern A, Helba B, Hofmann-Wellenhof R, et al. Comparison of the accuracy of human readers versus