Effektiv langtidshukommelsesbaseret sentimentanalyse af e-handelsanmeldelser, del 2

Jan 18, 2024

Muhammad et al. [20] præsenterede en model for sentimentanalyse ved at bruge word2vec og LSTM til hotelanmeldelser.

Muhammed er profeten og grundlæggeren af ​​islam. Han er kendt som en klog, klog og klog mand. Hans hukommelse er meget kraftfuld, hvilket gør ham meget effektiv til at behandle information og udtrykke sine tanker.

Muhammeds hukommelse har meget at gøre med hans uddannelse og erfaring. Ifølge optegnelser var han ofte fordybet i tænkning og refleksion i sin ungdom. Denne nysgerrighed og tørst efter viden hjalp ham med at opbygge en stærk vidensbase og hukommelsesevne.

Derudover spillede Muhammeds intelligens også en stor rolle for hans hukommelsesevner. Han er klog, vittig, indsigtsfuld og har logisk tænkeevne, hvilket er meget fordelagtigt, når han beskæftiger sig med kompleks information. Denne fordel hjalp ham med bedre at styre og kontrollere hukommelsesprocessen og derved forbedre hans hukommelse.

Muhammeds hukommelse var dog ikke medfødt, men forbedret gennem hårdt arbejde og øvelse. Han udfører ofte hukommelsestræning, såsom gentagen læsning, diktering og tale, for at hjælpe ham med at forstå og mestre viden dybere.

Muhammeds hukommelse var ikke bare et naturtalent, det blev forbedret gennem hårdt arbejde og øvelse. Dette viser, at hver af os kan forbedre vores hukommelse og forbedre vores lærings- og arbejdseffektivitet gennem læring og praksis. Lad os, ligesom Muhammed, aktivt arbejde hårdt for løbende at forbedre vores hukommelsesevner, for at opnå større succes i liv og arbejde! Det kan ses, at vi skal forbedre hukommelsen, og Cistanche deserticola kan forbedre hukommelsen markant, fordi Cistanche deserticola også kan regulere balancen af ​​neurotransmittere, såsom at øge niveauet af acetylcholin og vækstfaktorer. Disse stoffer er meget vigtige for hukommelse og indlæring. Derudover kan Kød også forbedre blodgennemstrømningen og fremme ilttilførsel, hvilket kan sikre, at hjernen får tilstrækkelige næringsstoffer og energi, og derved forbedre hjernens vitalitet og udholdenhed.

increase brain power

Klik på Kend for at forbedre korttidshukommelsen

For denne undersøgelse blev dataene indsamlet ved at crawle rejsewebstedet ved hjælp af selen og skrot. +e Det vigtigste formål med dette eksperiment var at analysere nøjagtigheden ved at ændre parametrene for word2vec og LSTM. +e resultater viste, at den gennemsnitlige nøjagtighed på 85,96 kunne opnås ved hjælp af parametrene, som viste lovende resultater.

Zhao et al. [21] introducerede en ny teknik til at analysere kundernes følelser fra anmeldelser på e-handelswebsteder. +e foreslået optimeret teknik "den LocalSearch Improvised Bat Algorithm based Elman NeuralNetwork (LSIBA-ENN)" involverer fire trin og registrerer polariteten og klassificerer anmeldelsernes følelser. +e-data til denne forskning blev indsamlet ved at bruge web-scrapping-værktøjet på e-handelswebsteder til at udtrække kundeanmeldelser.

Ud over forbehandling af dataene bruger denne undersøgelse "LogTerm Frequency-based Modified Inverse Class Frequency (LTF-MICF) og Hybrid Mutation based Earth Warm Algorithm (HMEWA)" til termvægtning og funktionsvalg. +e foreslåede metodologi overlistede andre baseline-teknikker med hensyn til forudsigelsesnøjagtighed.

Jiang [22] foreslog en model til at klassificere følelser af anmeldelser opnået fra e-handelsplatformen Taobao.+e-undersøgelsen bruger maskinlæringsalgoritmen samt understøtter vektormaskine til klassificering og forbedret partikelsværmoptimering (IPSO) for at optimere parametrene. +e data for undersøgelsen blev indsamlet ved at crawle kommentarerne fra hjemmesiden. +e eksperimentelle resultater demonstrerede, at den kombinerede tilgang af SVM og IPSO havde højere nøjagtighed. Imidlertid lider størstedelen af ​​de eksisterende modeller af overfitting [23-25], dårlig konvergenshastighed [26-28] og forsvindende gradientproblemer[29-31].

3. Eksperimentel undersøgelse

+is sektionen giver et klart overblik over den metode, der er brugt i projektet til klassificering af sentiment. +e teknik, der er blevet brugt, er et Long Short-Term Memory netværk, som bruges til at klassificere et stort antal Amazondatabase anmeldelser. +e indlejring brugt er word2vec, som er blevet specialtrænet i henhold til databasen.

Justering af word2vec i henhold til datasættet forbedrer modellens overordnede ydeevne. +en fordel ved at bruge LSTM er, at det giver bedre resultater selv for de ustrukturerede gennemgangsdata. Det er i stand til at opnå nyttig funktionalitet for ressourcer, der indeholder langsigtede afhængigheder.

+e-data indsamles fra Amazon-gennemgangsdatasættet, som derefter forbehandles. Word2vec-indlejringer udgør et vigtigt trin i forbehandlingen af ​​dataene. Tog- og testdata blev oprettet. +e træningsdata er opdelt i tog- og valideringsdatasæt. +en brugerdefineret word2vec-model er trænet i en database. +e funktionsvektor opnås, som derefter bruges som indlejringslag for LSTM-modellen.

Keras bruges til at bygge den LSTM sekventielle model med maxfeatures lig med 50,000 og indlejringsstørrelse lig med 16. +emodel trænes derefter i 10 epoker. +e-modellen er testet baseret på sklearn-præstationsmålinger. +e processen med at opnå funktioner er afbildet i figur 2.

3.1. Datasæt. For at generere nøjagtige resultater skal det anvendte datasæt være stort og beriget. +e-datasættet er blevet indsamlet fra mobiltelefon- og tilbehørssektionen online i Amazon Reviews-datasættet (2018). +e-datasættet består af i alt 938.261 anmeldelser, hvoraf 47901 er unikke produkter og 153124 er unikke brugeranmeldelser. +e-datasættet består oprindeligt af 7 kolonner, nemlig en vurdering, der varierer fra 1 til 5, anmeldelsestid, anmelder-id, produkt-id og anmeldelsestekstresumé.

Efter at have slettet dubletterne, består datasættet af 938254 poster, og tabel 2 viser et uddrag af de originale datasætposter.

3.2. Metode. Vi har skræddersyet vores word2vecmodel til at blive brugt sammen med LSTM-modellen til klassificering.Word2vec er en ordindlejring, der bruges til at repræsentere aword ved en samling af flere termer i en vektor. Det er væk fra at kortlægge et ord ind i et vektorrum. +e datasæt indlæses i en pandas dataramme. For at udvikle en customword2vec-model er det første trin forbehandlingen af ​​data.

Vi ser kun på vurderingen og anmelder teksten og dropper alt andet. +e tekst renses ved at fjerne tegnsætningen. Et undereksempel af teksten oprettes fra tæt på 200,000 anmeldelser, og ren tekstmetoden anvendes til at konvertere hver anmeldelse til en liste med ord. +er liste over ord fungerer nu som input til genisme word2vec modellen.

Vi har bygget en skræddersyet skip-gram word2vecmodel og instansieret modellen med dimensioner: størrelsen af ​​ordvektorer som 100, vinduesstørrelse lig med 15, min_tæller 2 for ord, der forekommer mindre end 2 gange i vores korpus, negativ lig med 5, og samplingshastighed lig med 1e−5. Vi har brugt alle disse dimensioner til at opbygge et ordforråd ud fra vores gennemgangssætninger.

increase memory

Vi træner vores word2vec-model til 1000 epoker. +da vi beregner tabet ved hver epoke. +e tab er højt i begyndelsen, og det falder hen imod den sidste epoke. +e tab ved epoke 0 er 2239394.0 og tabet ved epoke 1000 er 11504.0.+e gemte model genindlæses derefter, og operationer udføres på den.

For eksempel, hvis vi ønsker at finde ord, der ligner støj i vores datasæt, får vi annullering og hovedtelefoner.

På samme måde kan vi også finde ligheden mellem visse ord, såsom øretelefoner og hovedtelefoner, som er {{0}}.48756, og ligheden mellem ordladning og oplader er 0,89264.

For at reducere dimensionerne af vores data har vi brugt TSNE-visualisering til at plotte dataene i to dimensioner. Nu kan disse ordvektorer bruges til yderligere klassificering. + Disse indlejringer bruges derefter som funktioner til yderligere streaming.

3.2.1. Dataforberedelse til LSTM. Vores datasæt består af 938254 poster, hvor de fleste anmeldelser har en scorefordeling på mere end 3. Vi har først beregnet antallet af ord for hver anmeldelse. +e gennemsnittet bruges som statistik til at finde den gennemsnitlige længde af anmeldelser. +e gennemsnitslængden af ​​anmeldelsen er 44,59 og den maksimale længde er 4303.

Vi har lavet et datasæt bestående af anmeldelser med 100 ord eller mindre. Anmeldelser, hvis længde er mere end 20, men mindre end 100, er kategoriseret under korte anmeldelser, og gendannelsen kategoriseret under lange anmeldelser. +e antal shortreviews er 411313 og lange anmeldelser er 100239. Hyperparametre brugt i modellen er beskrevet i tabel 3.

Dernæst har vi defineret sentimentvurderingen som positiv, hvis vurderingen er større end eller lig med 3; ellers er vurderingen negativ. Vi har overvejet anmeldelsesteksten og stemningen for at oprette togdatasættet. +e testdata består af produkter med mindst mere end 10 anmeldelser.

Efter distribution bestod træningsdatasættet af i alt 203891 poster, hvoraf 175910 tilhørte den positive klasse og 27981 til den negative klasse. +e testdatasæt bestod af i alt 686345 poster, blandt hvilke 592118 tilhørte den positive og 94227 til den negative klasse.

I denne undersøgelse har vi brugt Keras til at bygge vores LSTM-model, som tager maksimalt 50,000 funktioner som input til indlejringslaget. Langtidshukommelse (LSTM) er en type tilbagevendende neuralt netværk, der bruger en intern mekanisme, der regulerer strømmen af ​​information.+en intern mekanisme består af porte, der skal trænes, således at de nøjagtigt kan filtrere irrelevant information fra og bevare nyttig information.

ways to improve brain function

Figur 3 viser den grundlæggende arkitektur af LSTM-modellen i vores foreslåede metode.

Ht−1 og Xt er input til LSTM-enheden; Ht−1, almindeligvis omtalt som korttidshukommelse, tager outputtet fra de tidligere tilstande som input. +e hukommelsescelle eller langtidshukommelsen, Ct −1, hjælper med at transportere relevant information gennem hele processen i en sekvens. +eLSTM-arkitektur kombinerer tre porte: glem gate, inputgate og output gate. I LSTM-enheden bruges tanh- og sigmoidfunktioner til at opnå disse porte.

+e togdata blev derefter opdelt i tog- og valideringsdata af samme længde. +e længden af ​​dataene blev beregnet til at være 101945 og klassefordelingen var {1: 87955, 0:13990}. For at oprette TensorFlow-togtest- og valideringsdatasættene skal vi konvertere vores togdata til sekvenser. Vi har polstret dem til en maksimal længde på 100, så alle sekvenser er af samme længde. +e tog- og testetiketter

improve your memory


For more information:1950477648nn@gmail.com



Du kan også lide