Eka ndhawu ya namuntlha leyi fambiwaka hi AI, ku dyondza hi muchini, AI ni ti- chatbot swi hundzula tiindasitiri hi rivilo leri nga si tshamaka ri va kona.
Mabindzu yo tala ya langutele ku hlanganisa AI eka matirhelo ya wona, kambe ndlela leyi tisisiteme leti ti akiwaka ha yona hakanyingi ya honisiwa. Xana i xiaki lexikulu? Datara. Modele wa ku dyondza hi muchini wu kahle ntsena ku fana na data leyi wu leteriweke eka yona. Kambe xana data leyi hinkwayo yi huma kwihi?
Xiphemu xa nkoka xa datha leyi hi titshegeke ha yona xi kumeka erivaleni, hakanyingi xi kumeka eka swiviko swa swihangalasamahungu swa le ka social media, tinhlamuselo ta vatirhisi, na swin’wana leswi nga eka inthanete. For sentiment analysis , xin’wana xa swihlovo leswi fuweke swinene swa data i Twitter , leyi yaka emahlweni yi khulukisa swilo swa nkarhi wa xiviri leswi endliweke hi vatirhisi. Hambiswiritano, ntlhontlho wu le ka ndlela yo hlengeleta rungula leri hi ndlela leyinene ni leyi tengeke.
Loko ndzi sungula ku tirha eka phurojeke ya nxopaxopo wa matitwelo hi ku tirhisa datha ya Twitter, eku sunguleni ndzi ehlekete ku tirhisa API ya Twitter. Hambiswiritano, ndzi hatle ndzi hlangana na xipimelo lexikulu: API ya xiyimo xa mahala yi nyika ntsena mfikelelo eka ti-tweet ku suka eka masiku ya nkombo lama hundzeke. Eka nxopaxopo wa matitwelo lowu heleleke, ngopfungopfu eka tinhlokomhaka leti nga na trending kumbe swiendlakalo swa tipolitiki leswi hlanganisaka mavhiki kumbe tinhweti, xipimelo lexi xi ringanyeta swinene vukulu na khwalithi ya datha leyi nga kona.
Loko ku ndlandlamuxa eka xiyimo xa le henhla xa API a ku ri xihlawuhlawu, ntsengo a wu yirisa eka phurojeke leyitsongo yo fana na ya mina. Leswi swi ndzi siye na tindlela timbirhi: ku ringeta ku hlengeleta datha hi voko hi ku tirhisa ku khwaxa ka ndhavuko (leswi nga ta na sete ya swona ya mintlhontlho yo fana na CAPTCHA, ku hungutiwa ka vatirhi, na tirhekhodo leti nga helelangiki) kumbe ku kuma ntlhantlho wun’wana.
Hi kona laha Bright Data yi nghenaka kona, yi tlhantlha timhaka leti hi ndlela yo pfumala swiphiqo hi ku nyika tidathaseti ta Twitter leti tengeke, leti nga ringanisiwaka, na ta matimu. Ematshan’wini yo pfaleriwa hi swipimelo swa API, a ndzi kota ku fikelela datha yo hambana, ya xiyimo xa le henhla ya phurojeke ya mina handle ka swiphiqo leswi tolovelekeke.
Eka xitsalwana lexi, ndzi ta ku fambisa hi ndlela leyi u nga tirhisaka Bright Data’s Marketplace ku kuma data ya xiyimo xa le henhla ya Twitter eka nxopaxopo wa matitwelo na ku avelana ntokoto wa mina.
Khoma ndlela eka webusayiti ya Bright Data kutani u endla akhawunti ya mahala ku sungula. Loko se u nghene, u ta kongomisiwa eka Data Marketplace, laha ti dataset to hambana leti akiweke ka ha ri emahlweni ti nga ngheniwaka, ku katsa na leti fambelanaka na Twitter.
Loko se u hlawurile dataset ya wena, u nga yi dawuniloda hi ku kongoma eka muchini wa wena wa laha kaya kutani u yi fikelela hi ku tirhisa API. Endlelo ro hatlisa ri ku pfumelela ku sungula ku tirha hi datha ya xiyimo xa le henhla kwalomu ka hi ku hatlisa. Ndzi tirhise sete ya data ya Twitter-posts
Data ya Twitter yo ka yi nga swekiwanga hi ntolovelo yi na metadata yo tala leyi nga ha vaka yi nga ri ya nkoka eka nxopaxopo wa matitwelo, ku fana na vuxokoxoko bya mutirhisi, ti-URL ta swifaniso, na datha yin’wana leyi nga riki ya matsalwa. Hi ta kongomisa eka tsalwa ra ti tweet, tanihileswi hi kona laha nxopaxopo wa matitwelo wu nga ta tirhisiwa kona, kun’we na timetriki ta ku nghenelela leti faneleke ku fana na ku rhumela nakambe na ku tsakela.
import pandas as pd df = pd.read_csv("path_to_your_dataset.csv") df.head()
Goza leri landzelaka i ku basisa datha hi ku khoma mimpimo leyi kayivelaka na ku susa tikholomu leti nga riki ta nkoka.
df_clean = df[['user_posted', 'description', 'date_posted', 'reposts', 'likes']] df_clean = df_clean.dropna(subset=['description']) df_clean = df_clean.drop_duplicates(subset=['description']) df_clean.head()
Sweswi hi basisile data naswona hi nga na tsalwa leri faneleke, i nkarhi wo nghena eka nxopaxopo wa matitwelo . Nxopaxopo wa mintlhaveko wu vula ku kumisisa thoni ya mintlhaveko endzhaku ka marito—loko tweet yi ri leyinene, yo biha kumbe yo ka yi nga ri na xihlawuhlawu.
Ndzi tirhise layiburari leyi dumeke leyi vuriwaka VADER (Valence Aware Dictionary and Sentiment Reasoner), leyi endleriweke ngopfu-ngopfu matsalwa ya swihaxa-mahungu swa le ka social media. Swi kahle swinene eka ku khoma ririmi leri nga riki ra xivumbeko ku fana na slang na emojis.
Xiphemu xa khodi lexi nga laha hansi xi endla nxopaxopo wa matitwelo hi ku tirhisa VADER
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer analyzer = SentimentIntensityAnalyzer() def get_sentiment(text): sentiment = analyzer.polarity_scores(text) return sentiment['compound'] df_clean['sentiment'] = df_clean['description'].apply(get_sentiment) df_clean.head()
Loko swikoweto swa matitwelo swi hlayiwile, hi nga xopaxopa ku hangalasiwa ku vona leswaku ti tweet ti kahle kumbe ti bihile ku fikela kwihi hi xiringaniso. Leswi swi nga nyika vutivi eka miehleketo hinkwayo ya vaaki mayelana na nhlokomhaka yo karhi kumbe xiendlakalo xo karhi. Hi nga tlhela hi vona hi mahlo ya mianakanyo ku hangalasiwa ka mintlhaveko hi ku tirhisa histogram kumbe wordcloud ku vona mintlhaveko ya nkoka.
Xihundla lexi xi ta ku nyika ku twisisa lokunene ka ku hangalaka ka mintlhaveko, hambi ku ri ku tshemba eka leswinene, swo biha, kumbe ku nga hlanganyeli. Eka mhaka leyi, Kuna nhlayo ya le henhla ya ti tweets leti nga riki na xihlawuhlawu.
Sweswi hi nga na swikoweto swa matitwelo eka tweet yin’wana na yin’wana, goza leri landzelaka i ku lavisisa loko ku ri na ku yelana exikarhi ka matitwelo na timetriki ta ku nghenela ku fana na ku tsakela na ku rhumela nakambe. Eka vuxopaxopi bya swihangalasamahungu swa le ka social media, munhu a nga langutela leswaku ku va na mavonelo lamanene swi nga endla leswaku ku va na ku nghenelela lokukulu (ku tsakela ko tala, ku tlhela ku tsariwa nakambe). Hambiswiritano, xana sweswo swi tano hakunene?
Ku kuma, hi nga hlayela ku yelana exikarhi ka swikoweto swa matitwelo na timetriki ta ku nghenelela, mimbuyelo hi leyi:
Correlation between sentiment and likes: 0.022806738610786123
Correlation between sentiment and reposts: 0.008885789875330416
Hi ku nyikiwa mimpimo ya ku yelana leyi tsaneke ku suka eka nxopaxopo wa mina wa datha, hi vona leswaku a ku na vuxaka byo tiya exikarhi ka matitwelo na ku nghenelela. Ku yelana exikarhi ka sentiment na likes a ku ri 0.02, naswona eka sentiment na reposts, a ku ri 0.008 ntsena. Mimpimanyeto leyi yi ringanyeta leswaku timetriki ta ku nghenelela to fana na ti likes na reposts a ti kuceteriwi ngopfu hi matitwelo ya ti tweets .
Ku yelana loku tsaneke exikarhi ka matitwelo na ku nghenelela swi kombisa leswaku ku na swin’wana leswi tlangaka. Hambileswi nxopaxopo wa mintlhaveko wu hi pfunaka ku twisisa mavonelo ya vaaki, ku nghenelela swi nga ha endleka ku hlohloteriwa hi swilo leswi engetelekeke, swo tanihi:
Loko nxopaxopo wa matitwelo wu ri xitirhisiwa xa nkoka xo twisisa ndlela leyi vanhu va titwaka ha yona hi nhlokomhaka, a hi minkarhi hinkwayo ku nga xikombiso lexi tshembekaka xa ku nghenelela. Ku kuma vutivi lebyi dzikeke eka mahanyelo ya mutirhisi, i swa nkoka ku languta swilo swin’wana swo fana na nkarhi wa leswi nga endzeni, ku yelana, na nkucetelo wa mutirhisi.