Vokal-talegenkendelse fra rotte-elektroencefalografi ved brug af langtidshukommelsen, neuralt netværk, del 1

Dec 27, 2023

Abstrakt

Gennem årene er der blevet udført betydelig forskning for at undersøge mekanismerne for taleopfattelse og -genkendelse.

Der er et uadskilleligt forhold mellem taleopfattelse og hukommelse. Taleopfattelse er en vigtig evne for os til at være opmærksomme på lydsignaler, og hukommelse er en vigtig måde, vi bruger til at gemme og hente information. Når vi er bedre i stand til at opfatte tale, er vi også bedre i stand til at huske den information, vi hører.

Forskning viser, at forholdet mellem taleopfattelse og hukommelse er tovejs. På den ene side kan dårlig taleopfattelse føre til hukommelsessvækkelse. Dette skyldes, at når vi ikke kan høre tale tydeligt, kan vi ikke præcist huske den information, vi hørte. På den anden side kan stærk taleopfattelse forbedre vores hukommelse. Når vi kan opfatte og forstå tale korrekt, kan vi også lettere huske det, vi hører.

Derfor bør vi fokusere på at dyrke vores taleopfattelsesevner for at forbedre vores hukommelse. Dette kan opnås ved at træne vores lytte- og taleforståelsesevner. Vi kan forbedre vores taleopfattelse og hukommelse med aktiviteter som at lytte til optagelser, se film og deltage i sprogundervisning.

Kort sagt er der en tæt sammenhæng mellem taleopfattelse og hukommelse, og vi bør fokusere på at dyrke vores taleopfattelsesevner for at forbedre vores hukommelse. Gennem aktiv træning og øvelse kan vi løbende forbedre vores taleopfattelsesniveau og bedre forstå og huske, hvad vi hører. Det kan ses, at vi skal forbedre hukommelsen, og Cistanche deserticola kan forbedre hukommelsen markant, fordi Cistanche deserticola også kan regulere balancen af ​​neurotransmittere, såsom at øge niveauet af acetylcholin og vækstfaktorer. Disse stoffer er meget vigtige for hukommelse og indlæring. Derudover kan Kød også forbedre blodgennemstrømningen og fremme ilttilførsel, hvilket kan sikre, at hjernen får tilstrækkelige næringsstoffer og energi, og derved forbedre hjernens vitalitet og udholdenhed.

increase brain power

Klik på Kend for at forbedre korttidshukommelsen

Elektroencefalografi (EEG) er et kraftfuldt værktøj til at identificere hjerneaktivitet; derfor har det været meget brugt til at bestemme det neurale grundlag for talegenkendelse.

Især for klassificeringen af ​​talegenkendelse er dyb læringsbaserede tilgange i søgelyset, fordi de automatisk kan lære og udtrække repræsentative træk gennem end-to-end læring.

Denne undersøgelse havde til formål at identificere særlige komponenter, der potentielt er relateret til fonemrepræsentation i rottehjernen og at skelne hjerneaktivitet for hver vokalstimulus på en enkelt-forsøgsbasis ved hjælp af et tovejslang korttidshukommelse (BiLSTM) netværk og klassiske maskinlæringsmetoder.

Nitten Sprague-Dawley hanrotter, der blev udsat for mikroelektrodeimplantationskirurgi for at optage EEG-signaler fra de bilaterale forreste auditive felter, blev brugt. Fem forskellige vokaltalestimuli blev valgt, /a/, /e/, /i/, /o/ og /u/, som har meget forskellige formantfrekvenser. EEG registreret under tilfældigt givne vokalstimuli blev minimalt forbehandlet og normaliseret af en z-score-transformation til brug som input til klassificeringen af ​​talegenkendelse.

BiLSTM-netværket viste den bedste ydeevne blandt klassifikatorerne ved at opnå en samlet nøjagtighed, f{{0}}score og Cohens κ-værdier på henholdsvis 75,18 %, 0,75 og 0,68, ved at bruge en 10-fold krydsvalideringstilgang.

Disse resultater indikerer, at LSTM-lag effektivt kan modellere sekventielle data, såsom EEG; derfor kan informative funktioner udledes gennem BiLSTM trænet med ende-til-ende læring uden yderligere håndlavede funktionsekstraktionsmetoder.

Introduktion

Tale fører enorme mængder information til hjernen, og det er et af hjernens typiske træk at genkende og kategorisere lyde fra dyr, der opfører sig.

På grund af dens betydning har forsøg på at undersøge mekanismerne for talelydgenkendelse blevet udført i over 100 år. En af de første neurolingvistiske undersøgelser af talegenkendelse blev udført gennem en observationsundersøgelse i 1870'erne af en tysk neuropsykiater, der fandt den afgørende rolle, som den overordnede temporale gyrus spiller i taleopfattelse, og udleder, at mangler i talegenkendelse var forbundet med beskadigelse af den venstre øvre temporale gyrus. 1].

Det er nu kendt, at talegenkendelse overvejende er afhængig af de dorsolaterale tindingelapper, inklusive den overordnede tindingegyrus, som indeholder den primære auditive cortex (A1) og det anteriore auditive felt (AAF) [2].

increase memory

Selvom måden, hvorpå fonemer kodes og fortolkes i hjernen, forbliver kontroversiel, er det blevet almindeligt accepteret, at genkendelsen af ​​lyd er kategorisk. Det vil sige, at diskrimination er bedre for stimuli, der tilhører forskellige fonetiske kategorier, end for stimuli, der tilhører samme kategori, selvom de akustiske forskelle er ækvivalente [3, 4].

Ikke kun mennesker, men også dyrs perceptuelle systemer sorterer kontinuerligt varierende lydstimuli i et sæt af diskrete kategorier [5].

Med fremskridt inden for neurofysiologiske undersøgelser er elektroencefalografi (EEG) blevet brugt i vid udstrækning i forskning, der involverer neurovidenskab og neuralteknik [6].

Den høje tidsmæssige opløsning og følsomhed over for forskellige funktionelle hjernetilstande gør EEG til et stærkt værktøj til at undersøge hjerneaktivitet i realtid, og der har været stigende interesse for at belyse det neurale grundlag for kategorisk perception. Traditionelt optages EEG-signaler ikke-invasivt fra hovedbunden i menneskelige undersøgelser. På niveauet af lyd- eller taleopfattelse bruges mismatch negativity (MMN), en komponent af auditory evoked potential (AEP), som fremkaldes af ulige lyde, i vid udstrækning til at studere neurale korrelater af kategorisk perception [7, 8]. Naatanen et al. grundlag for sprogafhængige vokalrepræsentationer i den menneskelige hjerne [9].

En anden undersøgelse undersøgte den kategoriske opfattelse af leksikalske toner og fandt ud af, at kontrast på tværs af kategorier fremkaldte en større MMN end inden for kategori [10]. I dyreforsøg blev mere nøjagtige EEG-signaler opnået gennem invasive procedurer.

For eksempel er neurale korrelater af kategorisk perception og neurale repræsentationer af forskellige lyde blevet undersøgt ved hjælp af ekstracellulær registrering af aktionspotentiale.

Striatum-projicerende neuroner fra sangfugle viser kategoriske auditive reaktioner og er meget følsomme over for ændringer i nodevarighed [11]. Derudover har Kilgard et al.undersøgte distinkte neurale repræsentationer af konsonant- og vokallyde ved hjælp af intraparenkymal optagelse i rottehjernen. Ved at optage multi- og enkelt-enhedssvarene fra den inferior colliculus og A1, foreslog de, at spidsen tæller vokallyde, mens spidstimingen koder for konsonantlyde [12, 13].

Effekterne af lyddiskriminationstræning i en rottemodel for autisme blev også undersøgt baseret på tidligere fund, der korrelerede neurale reaktioner på lydstimuli med lydopfattelsesevne [14].

Desuden viste en nylig undersøgelse, at elektrokortikografi optaget med et multi-kanalarray korrelerer med passiv eksponering for en specifik lyd selv i den auditive cortex hos bedøvede rotter [15].

Maskinlæringsmetoder er blevet brugt til at gøre praktisk brug af EEG i en lang række undersøgelser. Brug af maskinlæringsmetoder muliggør undersøgelse af rig information, der er iboende og svær at afdække fra EEG-signaler [6].

Derfor kan EEG-baseret klassificering udføres på følgende områder gennem konventionelle maskinlæringsalgoritmer (f.eks. support vektormaskine (SVM), k-nearest neighbors (KNN) og naive Bayes(NB)): motorisk billedsprog, følelsesgenkendelse, påvisning af psykisk sygdom, hændelsesrelateret potentiale (ERP) påvisning og så videre [16, 17].

improve your memory

Desuden er det i de senere år, på grund af de stigende fremskridt inden for grafiske behandlingsenheder og tilgængeligheden af ​​store datasæt, blevet muligt at udføre EEG-baseret klassifikation ved hjælp af forskellige deep learning netværk [6, 18, 19]. Sammenlignet med konventionelle maskinlæringsmetoder , deep learning-netværk kan automatisk opdage og udtrække passende repræsentationer fra inputdata [20, 21].

Derfor, selv med utilstrækkelig forudgående ekspertviden, kan lovende resultater opnås gennem uddybende algoritmer, der ikke kræver en ekstra håndlavet funktionsekstraktionsproces [22, 23].

For eksempel inden for tale, billeder og video blev resultaterne væsentligt forbedret ved at anvende deep learning algoritmer [24-26]. Det er imidlertid ikke klart, om sådanne udkonkurrerende resultater altid ledsager det EEG-baserede klassifikationsdomæne, når der anvendes dybe læringstilgange i stedet for traditionelle maskinlæringsmetoder [27].

Roy et al. viste, at i de fleste af undersøgelserne (eksklusive fire ud af 102 undersøgelser) førte den dybe læringstilgang til højere ydeevne end den traditionelle maskinlæringstilgang, og den højeste forbedring i nøjagtighed var 35,3 % [18, 28].

Blandt de forskellige områder af EEG-baserede klassifikationsstudier udføres ERP-klassifikationsundersøgelser aktivt ved at anvende både konventionelle maskinlærings- og dybdelæringsmetoder.

I en tidlig undersøgelse blev den traditionelle metode til stor gennemsnitsberegning brugt til at forbedre det lave signal-til-støj-forhold (SNR), en af ​​begrænsningerne ved EEG-signaler, og for at opnå ERP-signaler.

I disse undersøgelser blev flere ERP-komponenter behandlet som funktionssæt til klassificering [29, 30]. I dyreforsøg bruges ERP-funktioner såsom peak amplitude og latency også til at skelne ERP-signaler [31, 32].

Enkeltforsøgs EEG-baseret klassificering har dog også fået stor opmærksomhed, da det er kendt, at EEG-data på enkeltforsøgsniveau besidder mere funktionel og rig information end ERP-signalerne opnået gennem den traditionelle store gennemsnitsmetode [33, 34].

Derfor, i efterfølgende undersøgelser, funktioner ekstraheret af forskellige algoritmer såsom wavelet-baserede algoritmer [35], Gaussiske blandingsmodeller [36] og rumlig filtrering [37] til klassificering ved hjælp af konventionelle maskinlæringsmetoder [38, 39]. Dog udtrække den optimale håndlavede funktioner fra enkelt-forsøgs EEG er tidskrævende og arbejdskrævende, fordi yderligere behandlingstrin skal udføres. I denne sammenhæng kan deep learning-metoder afhjælpe dette problem ved at tillade end-to-end læring.

Den mest udbredte deep learning-arkitektur er et convolutional neural network (CNN), efterfulgt af et recurrent neural network (RNN). CNN er en speciel type deep learning-arkitektur, der i vid udstrækning anvendes til EEG-baseret klassificering i enkeltforsøg [6]. CNN-inputtene er afledt af rå eller forbehandlede EEG-data, primært i følgende form: antal kanaler × antal tidspunkter i et enkelt forsøg.

Desuden er betydelige klassificeringsresultater blevet demonstreret, og det har været kendt for at fungere bedst, når man bruger spektrogrambilleder som input [40-44]. I modsætning til CNN er RNN en meget foretrukken arkitektur, især ved håndtering af sekventielle data (som i naturlige sprogbehandlingsapplikationer), fordi den tilbagevendende forbindelse af RNN-læringsarkitektur gør det muligt at bruge den tidligere information fra netværket rekursivt som de aktuelle inputdata [45 ].

Langtidshukommelse (LSTM) er en slags RNN-arkitektur foreslået af Hochreiter og Schmidhuber for at overvinde de eksploderende og forsvindende gradientproblemer ved RNN [46]. Tovejs LSTM (BiLSTM) er en videreudvikling af LSTM, der kombinerer de fremadrettede og bagudgående skjulte lag for at få adgang til både den foregående og efterfølgende information.

Selvom BiLSTM-modellen er meget mere kompleks og muligvis har brug for yderligere beregningskraft, forventes den at løse den sekventielle modellerings- og klassifikationsopgave bedre end LSTM [47].

Tidligere forsøgte vi at klassificere EEG-signaler på en enkelt-forsøgsbasis for tre vokallyde, /a/,/o/ og /u/, ved hjælp af maskinlæringsteknikker til den menneskelige hjerne.

Efter anvendelse af passende signalbehandlingsalgoritmer, inklusive multivariat empirisk modusdekomponering (MEMD), blev EEG-responserne effektivt klassificeret i henhold til hver vokallyd ved hjælp af en lineær diskriminantanalyse (LDA) klassifikator. Ud fra tidsfrekvensrepræsentationen (TFR) af EEG-signalerne blev det også bestemt, at alfabåndkomponenterne var de mest relaterede neurale reaktioner af vokallydopfattelse [48].
Men på grund af den lave SNR af humane EEG-signaler, skal fonemrepræsentation i hjernen vurderes yderligere med en mere invasiv optagelsesteknik, hvilket muliggør erhvervelse af mere pålidelige EEG-signaler.

Derudover er det nødvendigt at udføre yderligere undersøgelser af klassificeringsydelsen af ​​hver maskinlæringsalgoritme ved klassificering af EEG-responser på forskellige fonemer.

Det primære formål med denne undersøgelse var at bestemme specifikke EEG-komponenter, der kunne være relateret til talerepræsentation i rottehjernen for yderligere at belyse hjernens reaktioner på talelydgenkendelse.

For at opnå mere nøjagtige EEG-signaler blev epidurale EEG-signaler som reaktion på auditive stimuli registreret i AAF, som har været kendt for at spille en væsentlig rolle i auditiv perception og kategorisering [2]. Derudover forsøgte denne undersøgelse at skelne forskellige hjernereaktioner for hver talelyd på en enkelt prøvebasis ved hjælp af LSTM-netværk og andre konventionelle maskinlæringsteknikker.

Det blev antaget, at BiLSTM-netværket ville være passende til at klassificere EEG-responser på vokalstimuli og ville overgå andre klassiske klassifikatorer, fordi netværket kan udføre robust modellering af langsigtede afhængigheder af sekventielle data såsom EEG. Så vidt forfatteren ved, er LSTM-netværk ikke blevet anvendt til klassificering af EEG-responser på auditive stimuli, og dette er den første undersøgelse, der bruger en dyb læringsalgoritme til at analysere epidurale EEG-signaler fra AAF.

improving brain function

Desuden blev EEG-responser ved hjælp af den dybe læringsalgoritme klassificeret som auditive stimuli ved hjælp af end-to-end-læring med minimalt forbehandlede EEG-signaler uden yderligere funktionsekstraktionsmetoder.


For more information:1950477648nn@gmail.com


Du kan også lide