Dual Memory LSTM med Dual Attention Neural Network til Spatiotemporal Prediction
Mar 21, 2022
Kontakt:joanna.jia@wecistanche.com/ WhatsApp: 008618081934791
Abstrakt
Spatiotemporal forudsigelse er udfordrende på grund af at udvinding af repræsentationer er ineffektive og manglen på rige kontekstuelle afhængigheder. En ny tilgang er foreslået til spatiotemporal forudsigelse ved hjælp af en dualhukommelseLSTM med dobbelt opmærksomhed neuralt netværk (DMANet). En ny dual memory LSTM (DMLSTM) enhed foreslås til at udtrække repræsentationerne ved at udnytte differentieringsoperationer mellem de på hinanden følgende billeder og vedtage en dobbelthukommelseovergangsmekanisme. For at gøre fuld brug af historiske repræsentationer er en dobbelt opmærksomhedsmekanisme designet til at fange langsigtede spatiotemporale afhængigheder ved at beregne korrelationerne mellem de aktuelt skjulte repræsentationer og de historiske skjulte repræsentationer fra henholdsvis tidsmæssige og rumlige dimensioner. Derefter er den dobbelte opmærksomhed indlejret i DMLSTM-enheden for at konstruere et DMANet, som muliggør modellen med større modelleringskraft til kortsigtet dynamik og langsigtede kontekstuelle repræsentationer. Et tilsyneladende resistivitetskort (AR Map) datasæt er foreslået i dette papir. B-spline-interpolationsmetoden bruges til at forbedre AR Map-datasættet og gør den tilsyneladende resistivitetstrendkurve kontinuerlig afledet i tidsdimensionen. De eksperimentelle resultater viser, at den udviklede metode har fremragende forudsigelsesydelse ved sammenligninger med nogle avancerede metoder.
Nøgleord: spatiotemporal forudsigelse; dobbelthukommelseLSTM; dobbelt opmærksomhed; historiske fremstillinger
1. Introduktion
Spatiotemporal forudsigelse er at lære repræsentationer på en uovervåget måde fra umærkede videodata og bruge dem til at udføre en forudsigelsesopgave, som er en typisk computervisionsopgave. I øjeblikket er spatiotemporal forudsigelse blevet anvendt til nogle opgaver med succes, såsom fremtidig forudsigelse af objektplaceringer [1,2], anomalidetektion [3] og autonom kørsel [4]. Deep learning-baserede modeller tager et spring over de traditionelle tilgange, fordi de har lært passende repræsentationer fra højdimensionelle data. Dybe læringsmetoder passer perfekt ind i spatiotemporal forudsigelsesopgave, som kunne udtrække spatiotemporale korrelationer fra videodata på en selvovervåget måde. Spatiotemporal forudsigelse er dog stadig en udfordrende opgave på grund af problemet med at udtrække repræsentationer ineffektivt og manglen på langsigtede afhængigheder. For eksempel er Convolutional LSTM (ConvLSTM) [5] udviklet til yderligere at udtrække tidsmæssige repræsentationer, men den ignorerer rumlige repræsentationer. Nogle metoder [6,7] har opnået nøjagtige forudsigelsesresultater, men de forårsager repræsentationstab. Modstandsmetoden er blevet anvendt i forudsigelsesopgaver [8,9]. De [8,9] er dog væsentligt afhængige af den ustabile træningsproces.
1 School of Communication and Information Engineering, Shanghai University, Shanghai 200444, Kina
2 Key Laboratory of Advanced Display and System Application, Ministry of Education, Shanghai 200072, Kina
En roman dualhukommelseLSTM med dobbelt opmærksomhed neuralt netværk (DMANet) er blevet foreslået til spatiotemporal forudsigelse i dette papir for at løse de nævnte problemer. En dual memory LSTM (DMLSTM) enhed baseret på ConvLSTM [5] er blevet udviklet til DMANet til at udføre spatiotemporal forudsigelse. Det kan anvendes til at få repræsentationer af bevægelse ved at adskille tilstødende skjulte tilstande eller råbilleder på passende vis. Desuden har den dobbelte hukommelsesstrukturer til at gemme rumlig information og tidsmæssig information. En dobbelt opmærksomhedsmekanisme er foreslået og indlejret i DMLSTM-enheden for at udtrække langsigtede funktionsafhængigheder fra henholdsvis tidsmæssige og rumlige dimensioner, hvilket gør det muligt for den udviklede model at fange længere kompleks videodynamik. Sammenlignet med ovennævnte spatiotemporale forudsigelsesmetoder er hovedbidragene fra dette papir som følger. For det første er en ny DMLSTM-enhed blevet foreslået til at udføre ekstraktrepræsentationer, som kan anvendes til spatiotemporal forudsigelse ved at udnytte differentieringsoperationer mellem de på hinanden følgende billeder og vedtage en dobbelthukommelseovergangsmekanisme. For det andet udvikles en dobbelt opmærksomhedsmekanisme for at få de langsigtede rammeinteraktioner. De langsigtede rammeinteraktioner fanges ved at beregne korrelationen mellem de aktuelt skjulte repræsentationer og de historiske skjulte repræsentationer fra henholdsvis de tidsmæssige og rumlige dimensioner. Endelig er et vigtigt bidrag, at DMANet kombinerer begge fordele. Et sådant arkitektonisk design muliggør modellen med større modelleringskraft til kortsigtet dynamik og langsigtede kontekstuelle repræsentationer. Den foreslåede metode er evalueret på nogle udfordrende datasæt med forskellige metoder. Det opnår fremragende ydeevne sammenlignet med nogle avancerede metoder. De eksperimentelle resultater viser, at den foreslåede metode har fremragende spatiotemporal forudsigelse.

Resten af denne artikel er organiseret som følger. Relateret arbejde er omtalt i afsnit 2. Den dobbeltehukommelseLSTM med dobbelt opmærksomhedsmekanisme er beskrevet i afsnit 3. Eksperimentelle resultater og analyser er diskuteret i afsnit 4 og efterfulgt af konklusioner i afsnit 5.
2. Litteraturgennemgang
I løbet af det sidste årti er mange metoder blevet foreslået til spatiotemporal forudsigelse. Tilbagevendende neuralt netværk (RNN) [10] med den lange kortsigtedehukommelse(LSTM) [11] er i stigende grad blevet anvendt til forudsigelsesopgaver på grund af dets evner til at lære repræsentationer af en videosekvens. I de senere år er LSTM-rammen baseret på en sekvens-til-sekvens-model [12] blevet tilpasset til videoforudsigelse. Alligevel er nøjagtigheden af forudsigelse begrænset på grund af det faktum, at disse rammemetoder [12] kun fanger tidsmæssige variationer. For yderligere at udtrække videorepræsentationer erstatter ConvLSTM [5] fuldt forbundne operationer med foldningsoperationer i tilbagevendende tilstandsovergange. En deep-learning-baseret ramme [13] foreslås for at rekonstruere de manglende data for at lette analyse med spatiotemporale serier. Det vil dog øge de ekstra beregningsomkostninger og sænke forudsigelseseffektiviteten. Den bijektive gatede tilbagevendende enhed introduceres i [14], som udnytter tilbagevendende auto-indkodere til at forudsige den næste frame i nogle tilfælde. En multi-output og multi-indeks for superviseret læring [15] metode med LSTM [11] foreslås til spatiotemporal forudsigelse, som kan modellere den langsigtede dynamik. I jagten på at lindre gradientforsvinden introducerer foldnings-LSTM udvidet med [6,7] en zigzag-hukommelsesflow og gradient-motorvejsenhed (GHU). En opdateret deep learning-baseret metode er blevet brugt til at forbedre forudsigelsesevnen. En version af ASAP kaldet "ASAP deep system", er foreslået i [16]. Optisk flow warping og RGB-pixelsyntetiseringsalgoritmer [17] er blevet udnyttet til at udføre spatiotemporal forudsigelse. Et memory-in-memory netværk (MIM) foreslås til forudsigelsesopgaverne i [18]. Dens forskel fra de ovennævnte tilbagevendende modeller er, at MIM [18] gælder for forskel i hukommelsesovergange for at transformere det tidsvarierende polynomium til en konstant, hvilket gør den deterministiske komponent forudsigelig. Imidlertid er disse metoder [14-18] stadig udfordrende at udføre langsigtede forudsigelser, da overdrevne gateovergange ville forårsage tab af repræsentationer.

cistanche deserticola fordeleihukommelse
Ud over de tilbagevendende modeller anvendes andre modeller også til spatiotemporal forudsigelse. Et retrospektionsnetværk er foreslået i [19], som introducerer retrospektionstab for at skubbe retrospektionsrammerne til at være i overensstemmelse med de observerede rammer. For at håndtere ubalancen i dataene udvikles der i [20] en naborengøringsalgoritme. En tilfældig skovalgoritme udtrækker de optimale funktioner til at udføre forudsigelsesopgaven. En variationel autoencoder anvendes til at udtrække ikke-lineære dynamiske funktioner i [21]. Denne model analyserer korrelationerne mellem variabler og forholdet mellem historiske prøver og nuværende prøver. Et modul med bred opmærksomhed og det dybe sammensatte modul bruges i [22] til at udtrække globale nøglefunktioner og lokale nøglefunktioner. Disse metoder [19-22] afhænger dog til en vis grad af lokale repræsentationer, som ikke kan opnå fremragende præstationer på forudsigelsesopgaver. Et kunstigt neuralt netværk [23] er blevet foreslået til at modellere de unikke egenskaber af spatiotemporale data og udleder en mere kraftfuld modelleringsevne til spatiotemporale data. Et spatiotemporalt forudsigelsessystem [24] er blevet udviklet til at fokusere på rumlig modellering og rekonstruering af det komplette Spatio-temporale signal. Denne metode viser effektiviteten af at modellere sammenhængende rumlige-temporale felter. Det blandede neurale netværk er blevet foreslået til at modellere det dynamiske mønster og lære udseenderepræsentationer baseret på givne videorammer i [25]. En 3D CNN bruges i RNN i [26], som udvider repræsentationer i tidsmæssig dimension og gørhukommelseenhed store bedre langsigtede repræsentationer. Konvolutionelle operationer [24-26] tegner sig dog for kortrækkende intraframe-afhængigheder på grund af deres begrænsede modtagelige felter og manglen på eksplicitte inter-frame-modelleringsmuligheder. De generative adversarielle netværk [8] er en anden tilgang til spatiotemporal forudsigelse. En betinget variationel autoencoder-metode er blevet foreslået i [9] ved at producere fremtidige menneskelige baner betinget af tidligere observationer og fremtidige robothandlinger. Forudsigelsesmetoderne [8,9] sigter mod at generere mindre slørede rammer, men deres præstation afhænger i væsentlig grad af den ustabile træningsproces.
En selvopmærksomhedsmekanisme er foreslået i [27], som kan anvendes til at fange lang rækkevidde afhængigheder og har vist sig at være effektiv til at aggregere fremtrædende træk blandt alle rumlige positioner i computervisionsopgaver [28-30]. En dobbelt opmærksomhedsblok er foreslået i [28], som kombinerer funktionerne i hele rummet til et kompakt sæt, og derefter adaptivt vælger og allokerer funktioner til hver lokation. For at udnytte den kontekstuelle information mere effektivt, introducerede et netværk på kryds og tværs [29] et opmærksomhedsmodul på kryds og tværs for at få den kontekstuelle information om alle pixels, hvilket er nyttigt til problemer med visuel forståelse. Derudover foreslås et dobbelt opmærksomhedsnetværk [30] i modsætning til flerskalafunktionsfusionsmetoder for at kombinere lokale funktioner med globale afhængigheder adaptivt. De kan dog ikke bruges til at håndtere forudsigelsesopgaver på grund af manglen på spatiotemporale afhængigheder.
Sammenfattende giver tidligere forudsigelsesmodeller forskellige ulemper. Forskelligt fra tidligere arbejde designer vi en ny variant af ConvLSTM [5] til at lagre tilstandsrepræsentationer og udvide opmærksomhedsmekanismen i opgaven med spatiotemporal forudsigelse. Denne arkitektur fanger rige kontekstuelle relationer for bedre funktionsrepræsentationer med kompakthed inden for klassen.
Tabel 1 viser de anvendte akronymer i papiret med en definition af begrebet.

3. DMA neuralt netværk
Et flowdiagram af DMANet er vist i figur 1. Repræsentationerne er udtrukket fra DMANet givet inputframes. Repræsentationerne angiver forudsigelsesresultater og kan bruges til at forudsige de næste repræsentationer.

I dette afsnit vil detaljerne om DMANet blive givet. For det første introduceres en ny DMLSTM-enhed i afsnit 3.1. Derefter foreslås en dobbelt opmærksomhedsmekanisme i afsnit 3.2, som gør det muligt for modellen at drage fordel af de tidligere relevante repræsentationer. Til sidst aggregeres de sammen for at bygge DMANet til spatiotemporal forudsigelse, som er detaljeret beskrevet i afsnit 3.3.
3.1.Dobbelt hukommelse LSTM
Det er oplyst af PredRNN plus plus [7], som tilføjer flere ikke-lineære lag for at øge netværksdybden og styrke modelleringsevnen for rumlige korrelationer og tidsmæssig dynamik. Problemet med gradientudbredelse bliver dog mere og mere vanskeligt med stigningen i netværksdybden, selvom GHU [7] afhjælper det i begrænset omfang. Noget arbejde[6,7,14] klarer sig ikke godt med at udtrække repræsentationerne af rumlige sekvenser på tværs af overdrevne gateovergange, da det uundgåeligt kan forårsage tab af repræsentationer. Derfor kan langtrækkende rumlige afhængigheder fanges af stablede foldningslag. Effektiviteten af modelleringsevnen for spatiotemporal dynamik er imidlertid begrænset på grund af den komplekse lav-til-lag-overgang.
En ny tilbagevendende enhed ved navn DMLSTM er udviklet til at udføre spatiotemporal forudsigelse for at overvinde begrænsningerne nævnt ovenfor, som vist i figur 2. For det første tilføjes en ekstra hukommelsesenhed baseret på ConvLSTM[5]; denne enhed bruges til at gemme rumlige tilstande, hvilket gør det muligt for enheden at lære flere rumlige repræsentationer. Den nye overgangsmekanisme er designet ved at kassere redundante portstrukturer, såsom input-gates. De forskellige ikke-lineære strukturer ville miste de kraftfulde interne repræsentationer i pixel-niveau forudsigelse. På den anden side er repræsentationernes differentieringsoperationer blevet effektivt anvendt til at fange repræsentationerne af bevægelige objekter. Derfor kan differentiering bruges til forudsigelsesopgaver for at supplere bevægelige objekters repræsentationsdetaljer. I DMLSTM-enheden er differentieringsoperationen udviklet til at få repræsentationer af bevægelse ved at adskille tilstødende skjulte tilstande eller råbilleder, hvilket gør, at enheden har en mere kraftfuld modelleringsevne for spatiotemporal dynamik.

3.2. Dobbelt opmærksomhedsmekanisme
Spatiotemporal forudsigelse kan forudsige fremtidige frames ved at observere tidligere repræsentationer. Forudsigelsesmodellen bør dog fokusere mere på historiske repræsentationer, der er relateret til det forudsagte indhold. Opmærksomhedsmekanisme [27] kan fange langtrækkende afhængigheder mellem lokale og globale repræsentationer i nogle praktiske opgaver [32,33]. Desuden er spatiotemporal forudsigelse udfordrende på grund af den komplekse dynamik og udseendeændringer, som kræver afhængighed af både tidsmæssige og rumlige domæner. En ny variant af opmærksomhedsmekanismen kaldet den dobbelte opmærksomhedsmekanisme foreslås. Denne arkitektur fanger langsigtet rumlig interaktion fra henholdsvis tidsmæssige og rumlige dimensioner, og derefter aggregeres de opnåede repræsentationer til fremtidig forudsigelse.

cistanche til salgi hukommelsen
Det dobbelte opmærksomhedsmodul er vist i figur 3 inklusive de aktuelle tidsstemplers skjulte tilstande Ht ∈ RH × W × C og historiske {H1 . . . Ht−1} ∈ Rn × H × W × C, hvor H og W er rumlige størrelser, C er antallet af kanaler, og n angiver antallet af skjulte repræsentationer, der er sammenkædet langs den tidsmæssige dimension, hhv.

4 konklusioner
Et DMANet er blevet foreslået til spatiotemporal forudsigelse i dette papir. En DML-STM-enhed bruges til effektivt at udtrække repræsentationerne ved at udnytte differentieringsoperationer mellem de på hinanden følgende billeder og vedtage en dobbelt hukommelsesovergangsmekanisme. En dobbelt opmærksomhedsmekanisme er designet til at fange langsigtede spatiotemporale afhængigheder ved at beregne korrelationerne mellem de aktuelt skjulte repræsentationer og de historiske skjulte repræsentationer fra henholdsvis tidsmæssige og rumlige dimensioner. DMANet kombinerer både fordelene og et sådant arkitektonisk design muliggør modellen med større modelleringskraft til kortsigtet dynamik og langsigtede kontekstuelle repræsentationer. De eksperimentelle resultater viser, at vores metode har en fremragende præstation i spatiotemporal forudsigelse.

hvor man kan købe cistanche i hukommelsen
Spatiotemporal forudsigelse er en lovende vej til selvovervåget læring af rige spatiotemporale korrelationer. Til fremtidigt arbejde vil vi undersøge, hvordan man adskiller de bevægelige genstande fra baggrunden og lægger mere opmærksomhed på objekter i bevægelse., Vi vil også forsøge at bygge et tilsyneladende resistivitets-nowcasting-system for at beskytte kinesiske grotter mod vand.
Referencer
1. Yao, Y.; Atkins, E.; Johnson-Roberson, M.; Vasudevan, R.; Du, X. Bitrap: Bi-direktional fodgængerbane forudsigelse med multi-modal mål estimering. IEEE robot. Autom. Lett. 2021, 2, 1463-1470. [CrossRef]
2. Sang, Z.; Sui, H.; Li, H. En hierarkisk objektdetektionsmetode i storskala optisk fjernmåling af satellitbilleder ved hjælp af saliency-detektion og CNN. Int. J. Remote Sens. 2021, 42, 2827-2847. [CrossRef]
3. Li, Y.; Cai, Y.; Li, J.; Lang, S.; Zhang, X. Spatio-temporal enhedsnetværk til videoanomalidetektion. IEEE Access 2019, 1, 172425–172432. [CrossRef]
4. Yurtsever, E.; Lambert, J.; Carballo, A.; Takeda, K. En undersøgelse af autonom kørsel: almindelig praksis og nye teknologier. IEEE Access 2020, 8, 58443–58469. [CrossRef]
5. Shi, X.; Chen, Z.; Wang, H.; Yeung, DY Convolutional LSTM-netværk: En maskinlæringstilgang til nucasting af nedbør. I Proceedings of the 29th Conference on Neurale Information Processing Systems, Montreal, QC, Canada, 7.-12. juni 2015; s. 802-810.
6. Wang, Y.; Li, M.; Wang, J.; Gao, Z.; Yu, P. PredRNN: Tilbagevendende neurale netværk til forudsigelig læring ved hjælp af spatiotemporale LSTM'er. I Proceedings of the 31st Conference on Neurale Information Processing Systems, Long Beach, BC, Canada, 4.-9. december 2017; s. 879-888.
7. Wang, Y.; Gao, Z.; Long, M.; Wang, J.; Yu, P. PredRNN plus plus: Mod en løsning af dyb-i-tid dilemmaet i spatiotemporal prædiktiv læring. I Proceedings of the 35th International Conference on Machine Learning, Stockholm, Sverige, 10.-15. april 2019; s. 5123-5132.
8. Goodfellow, IJ; Pouget-Abadie, J.; Mirza, M.; Xu, B.; Warde-Farley, D. Generative modstridende netværk. I Proceedings of the 28th Conference on Neurale Information Processing Systems, Montreal, QC, Canada, 8.-13. december 2014; s. 2672-2680.
9. Ivanovic, B.; Karen, L.; Edward, S.; Pavone, M. Multimodale dybe generative modeller for baneforudsigelse: En betinget variationel autoencoder-tilgang. IEEE robot. Autom. Lett. 2021, 2, 295-302. [CrossRef]
10. Rumelhart, D.; Hinton, G.; Williams, R. At lære repræsentationer ved at udbrede fejl. Nature 1986, 1, 533-536. [CrossRef]
11. Hochreiter, S.; Schmidhuber, J. Lang korttidshukommelse. Neural Comput. 1997, 8, 1735-1780. [CrossRef]
12. Sutskever, I.; Vinyals, O.; Le, Q. Sekvens til sekvensindlæring med neurale netværk. I Proceedings of the Advances in Neural Information Processing Systems, Montreal, QC, Canada, 8.-13. december 2014; s. 3104-3112.
13. Das, M.; Ghosh, S. Et dybt læringsbaseret prognoseensemble til at forudsige manglende data til fjernmålingsanalyse. IEEE J. Sel. Top. Appl. Jordobservation. Fjernsensorer 2017, 12, 5228–5236. [CrossRef]
14. Oliu, M.; Selva, J.; Escalera, S. Foldede tilbagevendende neurale netværk til fremtidig videoforudsigelse. I Proceedings of the 15th European Conference on Computer Vision, München, Tyskland, 8.-14. december 2018; s. 716–731.
15. Seng, D.; Zhang, Q.; Zhang, X.; Chen, G.; Chen, X. Spatiotemporal forudsigelse af luftkvalitet baseret på LSTM neurale netværk. Alex. Eng. J. 2021, 60, 2021-2032. [CrossRef]
16. Abed, A.; Ramin, Q.; Abed, A. Den automatiserede forudsigelse af soludbrud fra SDO-billeder ved hjælp af dyb læring. Adv. Space Res. 2021, 67, 2544-2557. [CrossRef]
17. Li, S.; Fang, J.; Xu, H.; Xue, J. Videoframe-forudsigelse af dybt multi-branch mask netværk. IEEE Trans. Kredsløb Syst. Video Teknol. 2020, 4, 1-12. [CrossRef]
18. Wang, Y.; Zhang, J.; Zhu, H.; Long, M.; Wang, J.; Yu, P. Hukommelse i hukommelsen: Et forudsigende neuralt netværk til at lære højere ordens non-stationaritet fra spatiotemporal dynamik. I Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Long Beach, BC, Canada, 16.-20. juni 2020; s. 9146-9154.
19. Chen, X.; Xu, C.; Yang, X.; Yang, X.; Tao, D. Langsigtet videoforudsigelse via kritik og tilbageblik. IEEE Trans. Billedproces. 2020, 29, 7090-7103. [CrossRef]
20. Neda, E.; Reza, F. AptaNet som en dyb læringstilgang til forudsigelse af aptamer-protein interaktion. Sci. Vedr. 2021, 11, 6074-6093.
21. Shen, B.; Ge, Z. Vægtet ikke-lineært dynamisk system til dyb ekstraktion af ikke-lineære dynamiske latente variable og industriel anvendelse. IEEE Trans. Ind. Informer. 2021, 5, 3090-3098. [CrossRef]
22. Zhou, J.; Dai, H.; Wang, H.; Wang, T. Bred opmærksomhed og dyb-sammensat model til trafikflow forudsigelse i transport cyber-fysiske systemer. IEEE Trans. Ind. Informer. 2021, 17, 3431-3440. [CrossRef]
23. Patil, K.; Deo, M. Basin-skala forudsigelse af havoverfladetemperatur med kunstige neurale netværk. J. Atmos. Ocean. Teknol. 2018, 7, 1441-1455. [CrossRef]
24. Amato, F.; Guinard, F.; Robert, S.; Kanevski, M. En ny ramme for spatio-temporal forudsigelse af miljødata ved hjælp af dyb læring. Sci. Rep. 2020, 10, 22243-22254. [CrossRef]
25. Yan, J.; Qin, G.; Zhao, R.; Liang, Y.; Xu, Q. Mixpred: Video forudsigelse ud over optisk flow. IEEE Access 2019, 1, 185654–185665. [CrossRef]
26. Wang, Y.; Jiang, L.; Yang, M.; Li, L.; Long, M.; Li, F. Eidetic 3D LSTM: En model til videoforudsigelse og videre. I Proceedings of the International Conference on Learning Representations, New Orleans, LA, USA, 6.-9. maj 2019; s. 1-14.
27. Vaswani, A.; Shazier, N.; Parmar, N.; Uszkoreit, J.; Jones, L. Opmærksomhed er alt, hvad du behøver. I Proceedings of the 31st Conference on Neurale Information Processing Systems, Long Beach, BC, Canada, 4.-9. december 2017; s. 5998-6008.
28. Chen, Y.; Kalantidis, Y.; Li, J.; Feng, J. A2-net: Dobbelt opmærksomhedsnetværk. I Proceedings of the 32nd Conference on Neurale Information Processing Systems, Montreal, QC, Canada, 2.-8. december 2018; s. 352-361.
29. Huang, Z.; Wang, X.; Wei, Y.; Huang, L.; Shi, H. Ccnet: Opmærksomhed på kryds og tværs for semantisk segmentering. IEEE Trans. Mønster Anal. Mach. Intell. 2020, 1, 1-11. [CrossRef]
30. Fu, J.; Liu, J.; Tian, H.; Li, Y. Dobbelt opmærksomhedsnetværk til scenesegmentering. I Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Long Beach, BC, Canada, 16.-20. juni 2019; s. 3146-3154.
31. Wang, Z.; Bovik, A.; Sheikh, H. Billedkvalitetsvurdering: Fra fejlsynlighed til strukturel lighed. IEEE Trans. Billedproces. 2004, 4, 600-612. [CrossRef]
32. Liu, Q.; Lu, S.; Lan, L. Yolov3 opmærksomhed ansigtsdetektor med høj nøjagtighed og effektivitet. Comp. Syst. Sci. Eng. 2021, 37, 283-295.
33. Li, X.; Xu, F.; Xin, L. Dobbelt opmærksomhed dyb fusion semantisk segmenteringsnetværk af storskala satellit-fjernmålingsbilleder. Int. J. Remote Sens. 2021, 42, 3583–3610. [CrossRef]
34. Srivastava, N.; Mansimov, E.; Salakhutdinov, R. Uovervåget indlæring af videorepræsentationer ved hjælp af LSTM'er. I Proceedings of the 32nd International Conference on Machine Learning, Lille, Frankrig, 6.-11. juni 2015; s. 843–852.
35. Geiger, A.; Lenz, P.; Stiller, C.; Urtasun, R. Vision møder robotik: KITTI-datasættet. Int. J. Robot. Res. 2013, 32, 1231-1237. [CrossRef]
36. Dollar, P.; Wojek, C.; Schiele, B.; Perona, P. Fodgængerdetektion: Et benchmark. I Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Miami, FL, USA, 20.-25. juni 2009; s. 304–311.
37. Liu, J.; Jin, B.; Yang, J.; Xu, L. Forudsigelse af havoverfladetemperatur ved hjælp af kubisk B-spline interpolation og spatiotemporal opmærksomhedsmekanisme. Fjernsensorer Lett. 2021, 12, 12478-12487. [CrossRef]
