Ny rumlig-temporal kontinuerlig tegnsprogsgenkendelse ved hjælp af et opmærksomt netværk med flere funktioner(1)

Abstrakt: Givet videostreams tilstræber vi korrekt at detektere usegmenterede tegn relateret til kontinuerlig tegnsprogsgenkendelse (CSLR). På trods af stigningen i foreslåede deep learning-metoder på dette område, fokuserer de fleste af dem hovedsageligt på kun at bruge en RGB-funktion, enten fuld-frame-billedet eller detaljer i hænder og ansigt. Manglen på information til CSLR-træningsprocessen begrænser i høj grad evnen til at lære flere funktioner ved hjælp af videoinputrammer. Desuden kan udnyttelse af alle frames i en video til CSLR-opgaven føre til suboptimal ydeevne, da hver frame indeholder et forskelligt informationsniveau, inklusive hovedfunktionerne i inferencing af støj. Derfor foreslår vi en ny rumlig og tidsmæssig kontinuerlig tegnsprogsgenkendelse ved hjælp af det opmærksomme netværk med flere funktioner til at forbedre CSLR ved at give ekstra nøglepunktsfunktioner. Derudover udnytter vi opmærksomhedslaget i de rumlige og tidsmæssige moduler til samtidig at understrege flere vigtige funktioner. Eksperimentelle resultater fra begge CSLR-datasæt viser, at den foreslåede metode opnår overlegen ydeevne sammenlignet med nuværende avancerede metoder med 0.76 og 20.56 for WER-score på henholdsvis CSL- og PHOENIX-datasæt.

Superman urter cistanche

Nøgleord: kontinuerligt tegnsprog; rumlig; tidsmæssig; multi-funktion; centrale punkter; selvopmærksomhed

1. Introduktion

Tegnsprog prioriterer manuel kommunikation ved hjælp af håndbevægelser, kropssprog og læbebevægelser i stedet for lyd til at kommunikere [1,2]. Normalt bruges tegnsprog af mennesker, der er døve eller hørehæmmede, men det kan også bruges i situationer, hvor det er umuligt eller svært at høre lyde. Derfor er der behov for et tegnsprogsgenkendelsessystem (SLR), da det hjælper med at forbinde mennesker, der er hørehæmmede, og dem, der ikke er.

I de seneste år har forskere fokuseret meget på SLR på grund af den rige visuelle information, det giver. Nyere SLR-undersøgelser er normalt grupperet i isoleret tegnsprogsgenkendelse (ISLR) eller kontinuerlig tegnsprogsgenkendelse (CSLR). Flere værker adresserer kun ISLR [3,4], mens andre kun analyserer lettere opgaver, såsom statiske bevægelser til alfabetgenkendelse [5]. I mellemtiden er de nyeste metoder normalt mere komplicerede, da de løser CSLR-opgaver [6-8]. Sammenlignet med ISLR er CSLR et mere udfordrende problem, da det involverer rekonstruktion af sætninger.

Cistanche te

Klik her for at se Cistanche deserticola teprodukter

【Spørg om mere】 E-mail:cindy.xue@wecistanche.com / Whats App: 0086 18599088692 / Wechat: 18599088692

CSLR-forskning er stadig i stor efterspørgsel, fordi dens implementering er tæt forbundet med hverdagens forhold i den virkelige verden. Denne tilgang har til formål at genkende rækken af gloser, der forekommer i en videoserie uden tydelig segmentering eller slet ingen. Ydermere inkorporerer det en hel del maskinlæringsforskning og en grundig forståelse af menneskelig adfærd. For eksempel involverer det menneskelig bevægelsessporing [9], gestusgenkendelse [10] og ansigtsgenkendelse [11]. Ikke desto mindre er der flere udfordringer ved at udføre CSLR-opgaver.

For det første er dataindsamling og annotering dyre for CSLR [12]. Dette er måske en af udfordringerne i udviklingen, da CSLR er involveret i et stort netværk, og mængden af data påvirker ydeevnen kraftigt [13]. Desuden er flere tilgængelige datasæt til tegnsprog svagt kommenterede [12,14,15]. For at løse dette problem har adskillige undersøgelser brugt en svagt overvåget tilgang sammen med anvendelsen af en justering og et funktionsudtræksmodul til netværksarkitekturen [12].

For det andet, sammenlignet med ISLR, er CSLR mere kompliceret. Tilstrækkelig information opnås ved at bruge flere funktioner; dette har vist sig at give bedre ydeevne end at bruge en enkelt funktion som rapporteret i tidligere værker [16-18]. Disse mange funktioner består af hovedfunktionen, som er et kropsbillede, der opnår den højeste nøjagtighed og yderligere funktioner, såsom positur, hoved, venstre hånd og højre hånd, som har lavere nøjagtighed for individuel præstation [17,18]. Træning af et stort netværk med en stor mængde data er tidskrævende [13]. Tilføjelse af inputstrømmen øger også træningstiden, mens brug af yderligere billedbaserede funktioner øger omkostningerne [19]. Derfor skal vi vælge vigtige funktioner, så vi kan træne effektivt.

Kinesisk urtecistanche

For det tredje har videoinput et stort antal billeder i sekvensen. Nogle billeder har en uklar håndform på grund af den hurtige bevægelse, hvilket muligvis fører til forkerte oplysninger. Derfor bruger vores foreslåede model selvopmærksomhed baseret på [20] til at hjælpe med at vælge vigtig information. Desuden har selvopmærksomhed bevist af [21,22] en indvirkning på at forbedre ydeevnen.

Derfor foreslår vi en ny model kaldet den nye spatiotemporal attentive multi-feature (STAMF) til at håndtere alle problemer. Vi fulgte tidligere værker [17,23], som har vist sig at fungere for CSLR med svage annoteringsproblemer. De konstruerer modellen ved hjælp af tre hovedkomponenter: den første er det rumlige modul, den anden er det tidsmæssige modul, og den tredje er sekvensindlæringsmodulet. Vi foreslår effektiv og effektiv input med flere funktioner ved hjælp af fuld-frame-funktionen sammen med keypoint-funktioner til at udføre CSLR-opgaver. Full-frame-funktionen repræsenterer kropsbilledet som hovedfunktionen, og keypoint-funktionerne som den ekstra funktion. Nøglepunktet er kropsstillingen, inklusive detaljerne i håndstillingen. Denne kropsstilling er den mest effektive ekstra funktion, da den i nogle værker har vist sig at opnå den højeste nøjagtighed efter fuld-frame-funktionen [17,18]. Vi bruger også et opmærksomhedsmodul, der bruger selvopmærksomhed baseret på [20] til at fange den vigtige funktion og hjælpe sekvensindlæringen med at forbedre ydeevnen.

Bidraget fra dette manuskript er opsummeret som følger: • Vi introducerer ny tidsmæssig opmærksomhed i sekvensmodulet for at fange de vigtige tidspunkter, der bidrager til det endelige output; • Vi introducerer multi-funktionen, der består af fuld-frame-funktionen fra rammens RGB-værdi som hovedegenskaben og keypoint-funktioner, der inkluderer kropsposituren med håndformsdetaljen som en ekstra funktion for at forbedre modelgenkendelsens ydeevne; • Vi bruger WER-metrikken til at vise, at vores foreslåede STAMF-model overgår de nyeste modeller på begge CSLR-benchmark-datasæt gennem eksperimenterne.

Cistanche supplement i nærheden af mig - Forbedre hukommelsen

2. Beslægtede værker

Der har været adskillige fremskridt inden for teknologi, og der er blevet forsket meget i SLR. Tidligere undersøgelser [24-27] undersøgte muligheden for at bruge ISLR, som har en segmentering for hvert ord. I de senere år er deep learning-baserede metoder blevet brugt til at udtrække funktioner ved hjælp af konvolutionelle netværk, enten 2D [28,29] eller 3D [30,31], for deres stærke visuelle repræsentation. Størstedelen af tidlig forskning om tegnsprogsgenkendelse centrerede sig om ISLR med multimodale karakteristika [30-32], såsom RGB, dybdekort og skeletter, som giver en bedre ydeevne.

I dag er CSLR blevet mere populært, selvom det ikke er blevet segmenteret klart mellem hvert ord. Tidlige værker bruger en CNN feature extractor [6,33] og HMM [34] til at bygge sekvensmålet. Nogle nyere forskning for CSLR-systemer [17,23] har inkluderet tre hovedtrin i udførelsen af opgaven med problemgenkendelse. Først udførte de den rumlige egenskabsekstraktion, derefter temporal segmentering og til sidst sætningssyntese med en sprogmodel [35], eller de brugte sekvensindlæring [17,23]. Denne sekvensindlæring brugte Bi-LSTM og CTC til at udvinde forholdet mellem tegnglans i videosekvenserne. Selvom den bruger en svag annotering, der har usegmenterede videosekvenser til at definere tegnglanserne, har disse tilgange vist lovende resultater.

Den seneste relaterede CLSR-undersøgelse, der implementerede en multifunktionstilgang [17], brugte dog fem funktioner samtidigt. Multifunktionstilgangen er tungere sammenlignet med at bruge færre funktioner [19]. Denne tilgang kan heller ikke håndtere de støjende frames fra videosekvensen, der har uklar information, såsom en sløret håndform på grund af hurtig bevægelse. Desuden kan det at stole på RNN-baseret sekvenslæring støde på problemer med lange sekvenser og kan miste den globale kontekst [20].

Cistanche supplement i nærheden af mig - Forbedre hukommelsen

Den nuværende forskning sigter mod at forbedre ydeevnen ved at tilføje en selvopmærksomhedsmekanisme [21,22], der kan håndtere længere sekvenser for at lære den globale kontekst. Selvopmærksomhed er baseret på tidlig forskning [20], der viste, at selvopmærksomhed har den fordel at kunne håndtere lange afhængigheder. Denne selvopmærksomhed er dog lettere at lære en kortere vej sammenlignet med en længere vej med lange afhængigheder. I de tidligere CLSR-værker [21,22] kunne selvopmærksomhed hjælpe netværket til at lære funktionen mere effektivt.

Derfor introducerer vi i dette papir en ny spatiotemporal opmærksom multifunktionsmodel. Denne foreslåede model udtrækker effektivt de vigtige funktioner og lærer sekvensen bedre ved at give vigtig information ved hjælp af en selvopmærksomhedsmekanisme fra multifunktion. Alle processer udføres i en end-to-end tilgang.

3. Foreslået metode

Dette afsnit beskriver kerneteknikkerne i vores foreslåede model for CSLR. Derfor begynder vi dette afsnit med at forklare vores foreslåede models oversigt. Derudover giver vi flere detaljer om hver nøglekomponent, herunder det rumlige modul, det tidsmæssige modul og sekvensindlæringsmodulet. Derudover forklarer vi også vores foreslåede opmærksomhedsmodul for at hjælpe modellen med at lære bedre. Endelig kan vi integrere rammerne for træning og konklusioner i vores foreslåede model.

3.1. Rammeoversigt

Givet et videoinput, sigter vores foreslåede model mod at forudsige det tilsvarende tegn til en korrekt glanssætning. Det første modul genererer flere rumlige funktioner, såsom fuld-frame og keypoint-funktioner for hver T-frame i videoen. Derefter giver det tidsmæssige modul os mulighed for at udtrække tidsmæssige korrelationer af de rumlige træk mellem frames for begge strømme. Som et sidste trin er de rumlige og tidsmæssige netværk blevet knyttet til tovejs langtidshukommelse (Bi-LSTM) og CTC til sekvensindlæring og inferencing. Dernæst forklarer vi vores hovedkomponenter mere detaljeret og fortløbende. Oversigten over vores foreslåede arkitektur er vist i figur 1.

Figur 1. Den overordnede arkitektur af den foreslåede metode består af tre komponenter: et rumligt modul, et tidsmodul og et sekvensindlæringsmodul. Det rumlige modul tager først billedsekvensen for at udtrække rammemæssige træk og anvender derefter det tidsmæssige modul til at udtrække de tidsmæssige træk. Derefter sendes de tidsmæssige funktioner til sekvensindlæringsmodulet for at udføre ordforudsigelse og konstruere det til en sætning

3.2. Rumligt modul

Det rumlige modul udnytter en fuld-frame-funktion og keypoint-funktioner, som vist i figur 2. Dette modul bruger 2D-CNN netværksarkitektur som rygraden, og ResNet50 er valgt til at fange multi-funktionerne. ResNet50 er mere effektiv at blive brugt sammenlignet med nyere ResNet-arkitektur med hensyn til tid, mens den har et sammenligneligt resultat [36,37]. RGB'en bruger ResNet50 direkte, mens nøglepunktet opnås af HRNet [38] fra videorammen og udtrækkes ved hjælp af ResNet50 for at få nøglepunktsfunktionerne.

Figur 2. Den rumlige modularkitektur bruger multi-stream input. RGB-stream som en fuld-frame-funktion og keypoints-stream som en keypoint-funktion.

3.2.1. Fuld-frame funktion

Vi anvendte vores forbehandlingstrin på RGB-dataene og indførte derefter vores data i modellen. Vi sætter dem derefter som et fuld-frame input i vores arkitektur. Figur 3 viser illustrationen af det originale RGB-billede på venstre side og det beskårne billede på højre side. Det beskårne billede bruges som input af modellen. Dette illustrerer forbehandlingstrinnet, der reducerer de mindre vigtige dele af billedet og sætter mere fokus på underskriveren. Denne beskæring bruger en tilfældig beskæringsmetode fra [12] til at udvide datasættet. Fullframe-funktionen udtrækkes fra det beskårede billede for hver frame i sekvensen ved hjælp af ResNet50.

Figur 3. Fuld-frame-funktion ved hjælp af RGB-billede, (venstre billede) er det originale billede, og (højre billede) er det beskårne billede, der skal justeres med den foreslåede model

3.2.2. Keypoint funktioner

Vi udtog nøglepunktsfunktionerne i det rumlige modul fra data RGB for hver frame i videoinputtet. Kvaliteten af nøglepunktsfunktioner har en vigtig rolle i vores foreslåede model, så vi er nødt til at bruge en robust tilgang, såsom HRNet [38]. Vi brugte fortrænet HRNet [38] til at estimere alle de 133 kropsnøglepunkter, og vi brugte 27 ud af de 133 nøglepunkter fra resultatet. Som vist i figur 4 er venstre side det originale nøglepunkt for overkroppen, og højre side er de valgte 27 nøglepunkter for overkroppen. Disse 27 nøglepunkter omfatter håndled, albuer, skuldre, nakke, hænder og fingre.

Figur 4. Nøglepunktfunktioner i PHOENIX-RWTH-datasættet [33,39], (venstre billede) udtræk fra RGB-billede, og (højre billede) er det valgte nøglepunkt, der bruges af den foreslåede model.

3.3. Temporalt modul

Det tidsmæssige modul har til formål at lære spatiotemporal information fra det rumlige modul. Temporale moduler er konstrueret af stablet Temporal Pooling for hver strøm. Som vist i figur 5 består Temporal pooling-modulet af et temporalt foldningslag og et poolinglag for at udtrække funktioner fra sekventielle input.

Figure 5.

Figur 5. Temporal modularkitektur består af et stablet 1D-CNN og et poolinglag indlejret med et opmærksomhedsmodul. Arbejd parallelt for begge funktionsstrømme sammenkædet i slutningen af de stablede lag, og frembring et enkelt tidsmæssigt træk med en sekvenslængde fire gange mindre.

Indgangen er en liste over rumlige multifunktioner fra det foregående trin. Den tidsmæssige funktion opnås ved at bruge det tidsmæssige foldningslag, som er et enkelt 1D foldningslag med samme input- og outputlængder, efterfulgt af et enkelt poolinglag, der reducerer størrelsen til det halve. Brug af disse to stablede temporale poolinglag er den bedste konfiguration ifølge de tidligere værker [12]. Efter hver tidsmæssig pooling indlejrer vi et opmærksomhedsmodul, der vil blive forklaret detaljeret i afsnit 3.4. I sidste ende sammenkæder vi outputtet af tidsmæssig pooling fra begge strømme.

3.4. Opmærksomhedsmodul

Videoen har flere frames, hvor nogle dele af billedet nogle gange er sløret. RTWH-PHOENIX-datasættet [33,39] har flere defekte rammer end CSL-datasættet [8,40,41]. Dette sker, når bevægelsen er for hurtig, hvilket skaber et sløret billede og resulterer i den forkerte nøglepunktsplacering. Denne ramme anses for defekt og fører potentielt til fejlfortolkning af både RGB- og keypoint-funktionerne. Figur 6 viser en illustration af defekte rammer i RTWH-PHOENIX-datasættet [33]. For at håndtere dette problem tilføjede vi et opmærksomhedslag.

Figur 6. Illustration af defekte rammer på RWTH-PHOENIX-datasæt [33,39]. Nogle af nøglepunkterne i håndområdet er i den forkerte position på grund af slørede billeder.

Ved hjælp af CTC-algoritmen udføres justering af stien sammen med dens mærkning ved at bruge en tom etiket og fjerne gentagelsesetiketterne. CTC foretrækker at forudsige blanke etiketter frem for glansgrænser, når den ikke kan skelne glansgrænsen, men ingen af resultaterne er overbevisende. Dette får netværket til at bruge CTC til at producere stigninger i resultater, når de analyserer, lærer og forudsiger [42,43]. Generelt søger CTC-tabet keyframes, og det sidste resultat er forudsigelsen af en bestemt keyframe, der har en høj sandsynlighed for at være en tom etiket eller en ikke-tom etiket. Hvis glansen forudsiger den samme etiket eller tom etiket fortløbende, resulterer det i det samme output. Men hvis der er en indsættelsesmærkat mellem den samme etiket, selvom der kun er én fejl, resulterer det i et meget større tab. Her hjælper tilføjelsen af et opmærksomhedslag til at vælge den vigtige tidsmæssige sekvens, før den bruges til sekventiel læring.

Opmærksomhedsmodulet bruger en selvopmærksomhedsmekanisme med flere hoveder [20]. Multi-head modulet bruges til at køre flere parallelle opmærksomhedsmekanismer på samme tid. Multi-head opmærksomhed kører uafhængigt for at fokusere på de kortsigtede afhængigheder eller de langsigtede afhængigheder i et separat hoved. Hvert output sammenkædes derefter lineært og transformeres til den ønskede form.

Samtidig tager multi-head selvopmærksomhedsmekanismen sig af information fra flere repræsentationsunderrum, afhængigt af observationshistorien. For nemheds skyld betegner vi inputsekvenserne som X. Matematisk, for single-head opmærksomhedsmodellen, givet input X t − T plus 1:t=[X t − T plus 1, · · ·, X t ] ∈ RT × N × P, tre underrum opnås, nemlig forespørgselsunderrummet Q ∈ RN × dq, nøgleunderrummet K ∈ RN × dk og værdien underrummet V ∈ RN × dv. Den latente underrumslæringsproces kan formuleres som [20]:

Q=XWQ, K=XWK , V=XWV ,

Derefter bruges den skalerede prikproduktopmærksomhed til at beregne opmærksomhedsoutputtet som [20]:

Opmærksomhed(Q, K, V)=så f tmaxQKT/ p dkV,

Desuden, hvis vi har flere hoveder, der samtidig følger de multiple repræsentationer af inputtet, kan vi opnå mere relevante resultater på samme tid. Det sidste trin er at sammenkæde alle hovederne og projicere dem igen for at beregne den endelige score [20]:

MultiHead(Q,K,V)=Concat(head1,... , hoveder )WO,

hoved=Opmærksomhed(Qi,Ki,Vi),

hvor Qi=XWQ i, Ki=XWVi og WO ∈ R hd × dmodel. Endelig kan den vælge den vigtige del fra rækkefølgen af funktioner, fordi ikke al information i rækkefølgen er vigtig.

Som vist i figur 7 bruger vi opmærksomhedsmodulet i flere konfigurationer. Det første opmærksomhedsmodul er placeret for enden af det rumlige modul, mens det andet og tredje opmærksomhedsmodul er placeret i det tidsmæssige modul. Det andet opmærksomhedsmodul kaldet det tidlige tidsmæssige modul placeres efter den første blok af tidsmæssig pooling som input, hvorimod det tredje tidsmæssige opmærksomhedsmodul, kaldet det sene tidsmæssige opmærksomhedsmodul, er placeret efter den anden blok af tidsmæssig pooling.