Ydeevne af maskinlæringsalgoritmer til at forudsige progression til demens hos hukommelsesklinikpatienter

Mar 20, 2022


Kontakt: Audrey Hu Whatsapp/hp: 0086 13880143964 E-mail:audrey.hu@wecistanche.com


Charlotte James, Ph.D.; Janice M. Ranson, Ph.D.; Richard Everson, Ph.D.; David J. Llewellyn, PhD

Abstrakt

VIGTIGT: Maskinlæringsalgoritmer kunne bruges som grundlag for kliniske beslutningstagningshjælpemidler for at forbedre klinisk praksis. MÅL At vurdere maskinlæringsalgoritmers evne til at forudsige demensforekomst inden for 2 år sammenlignet med eksisterende modeller og bestemme den optimale analytiske tilgang og antallet af nødvendige variabler. DESIGN, INDSTILLING OG DELTAGERE: Denne prognostiske undersøgelse brugte data fra en prospektiv kohorte af 15 307 deltagere uden demens ved baseline til at udføre en sekundær analyse af faktorer, der kunne bruges til at forudsige forekomsten af ​​demens. Deltagerne deltog i National Alzheimer Coordinating Centerhukommelseklinikker i hele USA mellem 2005 og 2015. Analyser blev udført fra marts til 2. maj021. EKSPONERINGER: 258 variabler, der spænder over domæner af demensrelaterede kliniske mål og risikofaktorer. VIGTIGSTE RESULTATER OG FORANSTALTNINGER: Hovedresultatet var hændelse af alle årsager demens diagnosticeret inden for 2 år efter baseline vurdering. RESULTATER: I en stikprøve på 15 307 deltagere (gennemsnitlig [SD]-alder, 72,3 [9,8] år; 9129 [60 procent ] kvinder og 6178 [40 procent] mænd) uden demens ved baseline modtog 1568 (10 procent) en diagnose på demens inden for 2 år efter deres første vurdering. Sammenlignet med 2 eksisterende modeller for forudsigelse af demensrisiko (dvs. kardiovaskulære risikofaktorer, aldring og forekomst af demensrisikoscore og Brief Dementia Screening Indicator) var maskinlæringsalgoritmer overlegne til at forudsige hændelser af alle årsager demens inden for 2 år. Den gradient-boostede træalgoritme havde en gennemsnitlig (SD) samlet nøjagtighed på 92 procent (1 procent), følsomheden på 0,45 (0,05), specificitet på 0,97 (0,01) og arealet under kurven på 0,92 (0,01) ved brug af alle 258 variabler. Analyse af variabel betydning viste, at kun 6 variable var nødvendige for at maskinlæringsalgoritmer kunne opnå en nøjagtighed på 91 procent og areal under kurven på mindst 0,89. Maskinlæringsalgoritmer identificerede også op til 84 procent af deltagerne, der modtog en indledende demensdiagnose, der efterfølgende blev vendt til mild kognitiv svækkelse eller kognitivt uhæmmet, hvilket tyder på mulig fejldiagnose. KONKLUSIONER OG RELEVANS: Disse resultater tyder på, at maskinlæringsalgoritmer nøjagtigt kunne forudsige hændelse af demens inden for 2 år hos patienter, der modtager behandling kl.hukommelseklinikker, der kun bruger 6 variabler. Disse resultater kunne bruges til at informere udviklingen og valideringen af ​​beslutningstagningshjælpemidler ihukommelseklinikker.

benefit of cistanche: improve memory ability

Introduktion

Mange patienter vurderet i specialistmiljøer, som f.ekshukommelseklinikker, ikke har demens, når de først kommer.1 Det er vigtigt at skelne mellem patienter, der udvikler demens inden for en klinisk relevant tidsramme, og dem, der forbliver demensfri, da den indsigt kan bruges til at prioritere patienter til opfølgende undersøgelser og indgreb. At identificere patienter med høj risiko for at udvikle demens er en udfordring for klinikere. En tilgang er at fokusere på dem, der har mild kognitiv svækkelse (MCI), når de først vurderes og invitere disse patienter til opfølgning. Dette kan dog resultere i en betydelig fejlklassificering for patienter, som ikke er målrettet til opfølgning, men som udvikler demens, og patienter, der er målrettet til yderligere undersøgelser, men ikke udvikler demens.

Mesthukommelseklinikpatienter med MCI udvikler sig ikke til demens selv efter 10 år, med en årlig konverteringsrate på 9,6 procent ,2 Kliniske beslutningstagningshjælpemidler kan forbedre klinikernes evne til at estimere demensindtræden. Eksisterende kliniske beslutningstagningshjælpemidler er tilgængelige til at estimere forekomsten af ​​demens på mellemlang og lang sigt i forskellige populationer. For eksempel blev kardiovaskulære risikofaktorer, aldring og forekomst af demens (CAIDE) Risk Score3 designet til at forudsige risikoen for at udvikle demens om 20 år for midaldrende mennesker, og Brief Dementia Screening Indicator (BDSI)4 har til formål at identificere ældre patienter at målrette til kognitiv screening ved at bestemme deres risiko for at udvikle demens om 6 år. Men så vidt vi ved, er der ikke udviklet nogen klinisk beslutningstagningshjælp til at forudsige forekomsten af ​​demens ihukommelseklinikker over en kortere klinisk relevant periode. Maskinlæring (ML) giver mulighed for at udnytte information fra store og komplekse datasæt. For nylig er det blevet anvendt til diagnosticering af demens og risikoforudsigelse.5-9

Imidlertid inkorporerer disse modeller ofte information, der ikke typisk er tilgængelig i rutinemæssig klinisk praksis, såsom avanceret neuroimaging, genetisk testning og cerebrospinalvæske biomarkører, hvilket begrænser klinisk anvendelse til specialist- eller forskningsmiljøer. Vi undersøgte, om ML-teknikker kan bruges til at forudsige forekomsten af ​​demens over en 2-årsperiode ved hjælp afhukommelseklinikdata fra US National Alzheimer Coordinating Center (NACC). Vi undersøgte også det minimumssæt af variabler, der kræves for ML-modeller for at opnå fuld diagnostisk ydeevne.

benefit of cistanche: improve memory ability

Metoder

NACC-undersøgelsen modtog etisk godkendelse fra hvert websteds institutionelle revisionsudvalg, før det kunne bidrage med data, og alle deltagere havde givet informeret skriftligt samtykke. Denne prognostiske undersøgelse blev anset for fritaget for institutionel etisk godkendelse, fordi vi brugte tidligere indsamlede afidentificerede data. Dataene anvendt i denne undersøgelse er tilgængelige ved dataanmodning til NACC. Denne undersøgelse er rapporteret i overensstemmelse med den gennemsigtige rapportering af en multivariabel forudsigelsesmodel for individuel prognose eller diagnose (TRIPOD) rapporteringsretningslinjer. Data blev analyseret fra marts til maj 2021.

Undersøgelsesprøve

Vi brugte tidligere indsamlede data fra NACC Uniform Data Set (UDS).10 UDS'en indeholder prospektive kohortedata fra US National Institute on Aging Alzheimer Disease Center-program for multicenter kollaborativ forskning om Alzheimers sygdom og andre neurodegenerative lidelser.11 Vores datasæt består af af hukommelsesklinikdata indsamlet mellem september 2005 og februar 2015 fra 30 Alzheimers sygdomscentre i USA. Datasættet inkluderer deltager og meddeltagers sociodemografiske karakteristika, familiehistorie, funktionel status, 12 adfærdssymptomer (vurderet med neuropsykiatriske spørgeskemaresultater13), neuropsykologisk testbatteri14 og NACC klinisk demensdiagnose, tildelt af hvert Alzheimers sygdomscenter ved hjælp af offentliggjorte kliniske diagnostiske kriterier baseret på den standardiserede UDS kliniske evaluering. Detaljer om de diagnostiske kriterier, der er vedtaget af UDS-protokollen og den tilhørende vejledning er blevet offentliggjort tidligere.15

Vi brugte UDS version 1 og 2, som inkluderer 32 573 deltagere i hukommelsesklinikken med en baseline-vurdering. Selvom vores modeller er designet til at forudsige demensforekomst inden for 2 år, for at tage højde for variation i tiden mellem opfølgningsaftaler, inkluderede vi opfølgning, der fandt sted inden for 29 måneder efter det første besøg for at sikre, at besøget enten var det første eller anden opfølgningssamtale.

Resultatvariabel

Udfaldsvariablen var hændelig demensdiagnose af alle årsager inden for 29 måneder (ca. 2 år) efter baselinevurdering. Dette omfatter demensundertyper, såsom Alzheimers demens, demens med Lewy-legemer, vaskulær demens og andre sjældnere undertyper. Alzheimers demens blev diagnosticeret i henhold til NINCSD-ADRDA kriterier, 16 vaskulær demens blev diagnosticeret i henhold til NINDS-AIREN kriterier, 17 Lewy body demens (LBD) blev diagnosticeret i henhold til den tredje rapport fra Dementia with Lewy Bodies Consortium kriterierne,18 og frontotemporal demens blev diagnosticeret efter Neary og kollegers kriterier fra 1998.19

Kandidat forudsigere

Vi inkluderede alle klinisk relevante variabler indsamlet under det indledende besøg i version 1 og 2 af UDS (eTabel 1 i tillægget). Vi ekskluderede variabler med fritekstværdier, såsom navne på medicin, og variabler, der var konstante på tværs af alle deltagere, såsom besøgsnummer. Fire syntetiske variable blev genereret for at hjælpe med evalueringen af ​​variabel vigtighed (disse variabler bør rangeres lavt); 3 af disse variable var permutationer af eksisterende variable (1 binær, 1 kategorisk og 1 numerisk variabel), og 1 variabel blev tilfældigt genereret ud fra en normalfordeling. Dette resulterede i i alt 258 variabler.

Variablerne fra UDS inkorporeret i vores modeller inkluderer deltagerdemografiske karakteristika (15 variabler), co-deltagers demografiske karakteristika (7 variabler), familiehistorie (3 variabler), sygehistorie (47 variabler), medicin (21 variabler), fysiske (12 variabler). ) og neurologiske (4 variabler) undersøgelsesresultater, Unified Parkinson Disease Rating Scale20 (UDPRS) (28 variabler), Clinical Dementia Rating (CDR) skala21 (8 variabler), funktionel status (10 variabler), neuropsykologisk testbatteri (50 variable) , Geriatric Depression Scale (17 variable) og en klinisk vurdering af symptomer (32 variable). Af disse variable manglede 239 (93 procent) for mindst 1 deltager, og alle deltagere manglede mindst 1 variabel.

Modeludvikling

Vi implementerede 4 ML-algoritmer22: logistisk regression (LR),23 støttevektormaskine (SVM),24 tilfældig skov (RF),25,26 og gradient-boostede træer (XGB)27 (eMethods i tillægget). Disse algoritmer udfører en klassifikationsopgave: De bestemmer, om en deltager falder i klasse 0 (spået at forblive demensfri 29 måneder fra baseline) eller klasse 1 (forudsagt at opleve hændelse af demens inden for 29 måneder efter baseline). Klassifikationen er baseret på variabler registreret ved deres første (baseline) hukommelsesklinikbesøg. For at implementere ML-algoritmerne brugte vi Python sci-kit-learn-biblioteket (Python Software Foundation),28 med 5-fold krydsvalidering (eMethods i tillægget). Manglende værdier blev imputeret ved stikprøvetagning med erstatning fra ikke-manglende værdier. Al databehandling og -analyse blev implementeret i Python version 3.9, NumPy version 1.19.4 og sci-kit-learn version 0.24.0.

Statistisk analyse

Modelvurdering

Vi evaluerede alle modellers ydeevne ved at sammenligne deres overordnede nøjagtighed, følsomhed og specificitet for beslutningstærskler, der er forudspecificeret i litteraturen (eksisterende modeller) eller en tærskel på 0.5 (ML-modeller), som ligeligt vægter falsk-positive og falsk-negative fejl. Arealet under modtagerens driftskarakteristikkurve (AUC)29 blev brugt til at opsummere modelydelsen over alle mulige tærskler og dermed fejlklassificeringsfejlvægtninger.30 Gennemsnitlige ydeevnemål og SD'er blev opnået gennem bootstrapping (eMethods i Supplementet).

Sammenligning med eksisterende modeller

BDSI og CAIDE er eksisterende demensrisikoforudsigelsesmodeller, der tildeler patienter en score, der repræsenterer deres risiko for at udvikle demens over længere tidsskalaer. For at udlede BDSI- og CAIDE-risikoscorerne valgte vi variabler fra UDS, der svarer tættest til variabler brugt tidligere (eTabel 2 i tillægget). Ydeevnen af ​​vores ML-modeller blev sammenlignet med BDSI og CAIDE for at forudsige 2-års demensincidens.


Modelpræstation på tværs af demensundertyper

Demens kan have en række forskellige årsager, svarende til forskellige undertyper af demens. For at vurdere ML-modellernes evne til at identificere forskellige demens-subtyper, opdelte vi hændelsen af ​​demenstilfælde i Alzheimer-demens, LBD, vaskulær demens og andre demens-subtyper. Ved hjælp af disse 4 stratifikationer beregnede vi procentdelen af ​​deltagere korrekt klassificeret (sand-positive rate) og sammenlignede ROC-kurverne for hver ML-model.


Undersøgelse af diagnostisk stabilitet

Den kliniske diagnose af demens er kendt for at inkorporere patienter, der oprindeligt er fejldiagnosticeret (effektivt både falsk-positive og falsk-negative fejl).31 Vi definerer reversion som, når en deltager, der blev diagnosticeret med demens op til 2 år efter deres første hukommelsesklinik besøg og efterfølgende får diagnosen ingen demens (enten MCI eller uhæmmet kognition) inden for 2 år efter deres demensdiagnose. Som begrundelse for, at disse reversioner er ustabile diagnoser og sandsynligvis har været resultatet af demens fejldiagnosticering, undersøgte vi klassificeringsnøjagtigheden af ​​ML-modeller i en prøve af deltagere med reversion (e-metoder i tillægget). Vi brugte den kumulative distributionsfunktion (CDF) af klassifikationsscorer, som er output fra hver ML-model til at sammenligne deltagere med tilbagevenden med patienter, der udviklede demens og patienter, der forblev demensfri.

benefit of cistanche: improve memory ability

Resultater

Efter at have ekskluderet {{0}} deltagere med en diagnose af demens ved baseline, 4557 deltagere, der ikke havde nogen opfølgningsdata, og 573 deltagere, der havde deres første opfølgning mere end 29 måneder efter deres første besøg , indeholdt den endelige analytiske prøve 15 307 deltagere (gennemsnitlig [SD]-alder, 72,3 [9,8] år; 9129 [60 procent ] kvinder og 6178 [40 procent] mænd). Prøvekarakteristika er vist i tabel 1. Inden for 2 år efter baseline fik 1568 deltagere (10 procent) diagnosen demens. Ud af 1568 deltagere, som fik en diagnose af demens, blev 273 (17 procent) diagnosticeret af en enkelt kliniker, og 1216 (78 procent) blev diagnosticeret af et konsensuspanel; for 79 deltagere (5 procent) var kilden til diagnosen ikke specificeret. Nøglepræstationsmål, der vurderer hver models forudsigelsesevne, er angivet i tabel 2. Sammenlignet med eksisterende modeller var ML-modeller overlegne i deres evne til at forudsige, om et individ ville udvikle demens inden for 2 år, og de klarede sig bedre end eksisterende modeller på alle mål. Alle ML-modeller klarede sig tilsvarende godt, hvor XGB havde den største kraft, når den blev målt ved samlet nøjagtighed (92 procent) og AUC (gennemsnitlig [SD], 0,92 [0,01]). Modtagerens funktionskarakteristikkurve for hver model demonstrerer ligheden mellem ML-modellerne og deres overlegenhed sammenlignet med de 2 eksisterende risikomodeller (figur 1).

Sample Characteristics

Modelpræstation på tværs af demensundertyper

For at vurdere ML-modellens ydeevne i forskellige demensundertyper opdelte vi befolkningen i 4 demensundertyper: Alzheimers demens (1285 deltagere), LBD (82 deltagere), vaskulær demens (21 deltagere) og andre demensundertyper (180 deltagere). LR-modellen var bedst til at identificere Alzheimers demens og andre undertyper, idet den korrekt klassificerede 589 deltagere (46 procent) med Alzheimers demens og 99 deltagere (55 procent) med andre undertyper. SVM-modellen klarede sig bedst på deltagere med LBD, idet den korrekt klassificerede 40 deltagere (49 procent). Alle modeller klassificerede korrekt 7 deltagere (33 procent) med vaskulær demens. Modtagerens funktionskarakteristiske kurver viser, at alle modeller klarede sig omtrent lige godt på hver undertype (eFigur 1 i tillægget).

Performance Measures.

Undersøgelse af minimum antal variabler

En potentiel ulempe ved at bruge en ML-tilgang er det store antal involverede variable. Efterhånden som antallet af variabler, der kræves af en model, stiger, bliver implementeringen i en klinisk sammenhæng mindre praktisk, og fortolkningen af ​​modellen forringes. For at vurdere, hvor mange variabler hver ML-model krævede for at opnå den ækvivalente forudsigelsesevne til det, vi fandt ved hjælp af alle 258 variabler (tabel 2), evaluerede vi, hvordan AUC varierede med antallet af variabler inkluderet i modellerne. Specifikt rangerede vi variablerne for hver model ved at sortere dem i faldende rækkefølge efter vigtighed (dvs. den diskriminerende kraft af hver variabel i henhold til algoritmen; eMethods i supplementet). Vi omskolede efterfølgende hver model med et stigende antal variabler, begyndende med de vigtigste. Vi fandt ud af, at alle modeller kun krævede 22 variabler for at opnå diagnostisk ydeevne, der statistisk ikke kan skelnes fra deres optimale gennemsnitlige ydeevne (Figur 2; eFigur 2 i tillægget). De syntetiske variabler, der blev tilføjet for at sikre validiteten af ​​vurdering af variabel vigtighed, var ikke blandt de 22 bedste variabler for nogen model, hvilket afspejler det faktum, at efter at den fulde diagnostiske ydeevne var nået, var der kun lidt information til stærkt at bestemme variabelrangeringen.

Identifikation af nøglerisikofaktorer

Ud af de 22 vigtigste variabler for hver model var kun 5 fælles for alle modeller (dvs. klinisk bedømmelse af fald i hukommelse, kognitive evner, adfærd, evne til at styre affærer eller motoriske og bevægelsesændringer; tid til at gennemføre Trail Making Test Del B; CDR: orienteringssvækkelse; CDR: handicap i hjemmet og hobbyer; og niveau af uafhængighed). Af de resterende variable var der 10 par, der havde en korrelation større end 0.7, hvilket indikerer, at de var lignende variabler (eTabel 3 i tillægget). Regnskab for denne korrelation ved at udveksle variabler, der var stærkt korrelerede, fandt vi, at der var 6 meget prædiktive variabler (klinisk vurdering af tilbagegang, tid til at gennemføre Trail Making Test Part B, 3 komponenter af CDR [orientering, hukommelse og hjem og hobbyer) funktionsnedsættelse] og niveau af uafhængighed), som var fælles for alle ML-modeller (eTabel 4 i tillægget). Træning af hver model ved kun at bruge disse variabler fandt vi ud af, at for LR og XGB var der ingen signifikant reduktion i diagnostisk ydeevne: Ved at bruge dette kernesæt på 6 variabler havde disse modeller en gennemsnitlig (SD) nøjagtighed på 91 procent (0 procent ) for LR og 91 procent (1 procent ) for XGB og gennemsnitlig (SD) AUC på 0,89 (0.01) for LR og 0,89 (0,02) for XGB (eTabel 5 i tillægget).

Diagnostisk stabilitet Af 1568 deltagere, som fik en diagnose på demens inden for 2 år, identificerede vi 130 (8 procent) som oplevede tilbagevenden, som sandsynligvis oprindeligt var fejldiagnosticeret og derfor forkert mærket til ML-formål. Vi fandt ud af, at mens tilbagevendinger kun blev rapporteret hos 0,8 procent af deltagerne, tegnede de sig for 92 til 109 deltagere (7 procent -8 procent) af fejlklassificerede deltagere, med en lille variation mellem modellerne (tabel 3). RF-modellen havde den højeste diagnostiske stabilitet og identificerede korrekt 109 ud af 130 deltagere med reversion (84 procent) ved at klassificere dem som forudsagt at være demensfrie efter 2 år. For at undersøge den diagnostiske stabilitet af ML-modeller fjernede vi deltagerne med reversion under træning (e-metoder i tillægget). Efter genoptræning af modellerne uden reversioner fandt vi, at RF identificerede 106 deltagere, der oplevede reversioner (median [IQR], 82 procent [78 procent -82 procent ]), SVM identificerede 93 deltagere, der oplevede reversioner (median [IQR], 72 procent [69 procent -74 procent ]), og LR og XGB identificerede begge 92 deltagere, der oplevede tilbagevendinger (median [IQR], 71 procent [68 procent -75 procent]). IQR'er blev opnået ved at bootstrapping deltagere, der oplevede tilbagevenden.

Area Under the Curve

For at forstå forskellen mellem fejlklassificerede deltagere, deltagere med tilbagevenden og deltagere, der udviklede demens uden tilbagevenden, analyserede vi CDF'erne for klassifikationsscore opnået fra hver ML-model. Vi fandt ud af, at antallet af fejlklassificerede deltagere og specifikke deltagere med tilbagevenden var forskellige fra deltagere, der udviklede demens, og dem, der ikke gjorde det (eFigur 3 i tillægget). CDF'erne for klassifikationsscore for deltagere, der ikke udviklede demens, faldt yderst til venstre for hvert plot, hvilket indikerer, at ML-modellerne tildelte disse deltagere en lav sandsynlighed for at udvikle demens. Omvendt, for deltagere, der udviklede demens, faldt CDF'erne til højre for plottene: de blev tildelt en høj sandsynlighed for at udvikle demens. For alle modeller faldt fordelingen af ​​score for deltagere med reversion til venstre for fordelingen for deltagere, der udviklede demens, hvilket betyder, at deltagere med reversion blev vurderet til at have en lavere sandsynlighed for at udvikle demens ifølge disse modeller.

Prevent Alzheimer's disease

Diskussion

I denne prognostiske undersøgelse havde ML-algoritmer overlegen prognostisk nøjagtighed sammenlignet med BDSI og CAIDE til at forudsige demensincidens inden for 2 år efter en patients første hukommelsesklinikvurdering. To af ML-algoritmerne blev vurderet til at opnå en nøjagtighed på 91 procent og AUC på 0.89 med kun 6 nøglevariabler. Sensitivitetsanalyser tyder på, at ML-modeller korrekt kunne klassificere en høj andel af deltagere, der oplevede tilbagevenden, som potentielt blev fejldiagnosticeret inden for 2 år efter deres første besøg. Denne undersøgelse har flere styrker, herunder det store udvalg af patienter, der stammer fra flere hukommelsesklinikker over hele USA, den brede vifte af anvendte ML-teknikker, benchmarking mod eksisterende risikomodeller og udforskning af diagnostisk stabilitet og sandsynlig fejldiagnose.

Diagnostic Stability

Tidligere undersøgelser af brugen af ​​ML til at forudsige demensrisiko har fokuseret på omdannelsen fra uhæmmet kognition til Alzheimers demens eller MCI,6,8 eller konvertering fra MCI til Alzheimers demens.5 Disse tilgange er mindre nyttige i kliniske omgivelser, da de udelukker andre typer demens5,6,8 eller patienter, som i starten er kognitivt uhæmmede.5 Data, der blev brugt i disse undersøgelser, omfattede positronemissionstomografiscanninger,5,8 og cerebrospinalvæskebiomarkører,8 af hvilke ikke er almindeligt tilgængelige i en hukommelsesklinik. En undersøgelse af Lin et al6 overvandt dette ved at bruge NACC-data til at finde et sæt af 15 ikke-invasive kliniske variabler til at vurdere risikoen for konvertering fra uhæmmet kognition til MCI i en 4-års periode. Konstruktionen af ​​MCI er dog fortsat noget kontroversiel32, og konverteringsraterne mellem MCI og demens er ofte lave.32,33 Vores ML-modeller supplerer disse analyser og har den fordel, at de kun inkorporerer 6 nøglevariabler over en klinisk relevant tidsskala og forudsiger udfald af demens af alle årsager.


Af de eksisterende modeller, der blev undersøgt i vores undersøgelse, var CAIDE-modellen den mindst nøjagtige til at forudsige demensrisiko over 2 år, hvilket ikke er overraskende, da den blev udviklet til at forudsige langsigtet demensrisiko hos midaldrende voksne over en meget længere periode. opfølgningsperiode på 20 år. BDSI klarede sig bedre end CAIDE, hvilket sandsynligvis afspejler, at det var designet til brug hos ældre voksne over en mere moderat opfølgningsperiode på 6 år. Alle ML-modeller klarede sig dog bedre end disse eksisterende modeller. Ved at bruge alle variabler var XGB den mest kraftfulde ML-tilgang til at forudsige patienter, der sandsynligvis ville blive diagnosticeret med demens inden for 2 år, hvilket tyder på, at den måde, hvorpå nye beslutningstræer trænes til at rette fejlene i de sidste tre, resulterer i en marginal præstation. gevinst. XGB syntes dog også at være den tilgang, der mindst var i stand til at identificere deltagere, der oplevede tilbagevenden, dvs. dem, der oprindeligt blev diagnosticeret med demens inden for 2 år og fik vendt denne diagnose inden for 2 år efter den første diagnose.


Ydeevnen af ​​ML-modeller kan reduceres betydeligt af forkert mærkede træningsdata.34 Modintuitivt forbedrer det ikke altid præstationen at ekskludere forkert mærkede træningsdata.35 Efterhånden som støjniveauet i træningsdataene stiger, falder værdien af ​​at ekskludere eller reducere denne støj, hvis den samme støj er til stede i valideringsdataene.36 Således kan filtrering af træningsdata endda reducere præstationsinvalideringsdata, som fundet i denne undersøgelse. Men når niveauet af fejlmærkning er mindre end ca. 20 procent til 40 procent, kan fjernelse af forkert mærkede data forbedre valideringsdatanøjagtigheden, selv hvis det inkorporerer forkert mærkede data.35,37,38 Dette illustrerer vigtigheden af ​​at undersøge diagnostisk stabilitet i træningen og valideringsdata: Selv kriteriestandarddata indeholder fejl.


Den observerede reversionsrate (8 procent) svarede til den, der blev fundet i en undersøgelse fra 2019 baseret på en anden amerikansk befolkning.31 I vores undersøgelse viste det sig, at procentdelen af ​​falske positiver varierede fra 7 procent til 19 procent afhængigt af den kognitive vurdering anvendt. Så vidt vi ved, er dette den første analyse af potentiel fejldiagnose i NACC UDS og antyder, at brug af ML som en klinisk beslutningstagningshjælp har potentialet til at reducere fejldiagnosticeringen af ​​falske positiver med op til 84 procent. I betragtning af at patienter, der oplever tilbagevenden, er grænseoverskridende i diagnostisk forstand, set fra et klinisk perspektiv, kan det være fornuftigt, at de følges alligevel, givet at der har været grund til klinisk bekymring. XGB kan således være den bedste model for en klinisk beslutningstagningshjælp. Alternativt kan en ensembletilgang, der giver sekundære forudsigelser om sandsynlig diagnostisk stabilitet og potentialet for fejlklassificering, vise sig endnu mere nyttig.

benefit of cistanche: improve memory ability

Begrænsninger

Denne undersøgelse har flere begrænsninger. For det første blev både CAIDE og BDSI udviklet ved hjælp af forskellige populationer end den, der blev brugt i denne undersøgelse. Ikke alle variabler, der blev brugt til udviklingen af ​​disse modeller, havde en nøjagtig ækvivalent i UDS, hvilket kan have påvirket deres ydeevne i dette datasæt. For det andet kan den metode, der anvendes til at imputere dataene, resultere i imputationsfejl. Specifikt erstatter imputationen alle manglende værdier med en numerisk værdi, men nogle værdier mangler på grund af deres forhold til en anden værdi; derfor er det oplysende, at der mangler en værdi. Men mens deltagerne havde et gennemsnit på 14 procent manglende data, manglede de 6 identificerede nøglevariabler for et gennemsnit på 1 procent af deltagerne. For det tredje, selvom vores undersøgelse brugte et stort udvalg af deltagere i hukommelsesklinikker i USA, hvilket gør vores resultater meget anvendelige til denne indstilling, er det ukendt, i hvilket omfang disse resultater vil generalisere til andre populationer.

Konklusioner

Denne prognostiske undersøgelse fandt, at ML-modeller udkonkurrerede eksisterende demensrisikoforudsigelsesmodeller og kan have potentialet til at forbedre forudsigelsen af ​​hændelsesdemens over 2 år i hukommelsesklinikker. Seks nøglefaktorer for demensrisiko identificeret i denne undersøgelse kan have potentiale til at forbedre klinisk praksis i hukommelsesklinikker, hvis de inkorporeres i fremtidige kliniske beslutningstagningshjælpemidler.



Du kan også lide