Nan peyizaj AI-kondwi jodi a, aprantisaj machin, AI, ak chatbots ap transfòme endistri yo nan yon vitès san parèy.
Plis biznis ap chèche entegre AI nan operasyon yo, men fason sistèm sa yo bati souvan vin neglije. Engredyan prensipal la? Done. Yon modèl aprantisaj machin se sèlman kòm bon jan done yo ki resevwa fòmasyon sou yo. Men, ki kote tout done sa yo soti?
Yon pati enpòtan nan done nou konte sou yo disponib piblikman, souvan yo jwenn nan pòs medya sosyal, revizyon itilizatè yo, ak lòt kontni sou entènèt. Pou analiz santiman , youn nan sous done ki pi rich yo se Twitter , ki kontinyèlman difize kontni itilizatè a an tan reyèl. Defi a, sepandan, manti nan fason yo kolekte done sa yo efektivman ak pwòp.
Lè mwen te kòmanse travay sou yon pwojè analiz santiman lè l sèvi avèk done Twitter, okòmansman mwen te konsidere itilize Twitter API. Sepandan, byen vit mwen te rankontre yon limit enpòtan: API gratis-niveau sèlman bay aksè a tweets nan sèt jou anvan yo. Pou analiz konplè santiman, espesyalman pou sijè tandans oswa evènman politik ki dire semèn oswa mwa, restriksyon sa a limite anpil dimansyon ak kalite done ki disponib yo.
Pandan ke amelyore nan yon nivo API ki pi wo se te yon opsyon, pri a te entèdi pou yon pwojè ti-echèl tankou pa m '. Sa a kite m 'ak de chemen: eseye kolekte done yo manyèlman atravè grate tradisyonèl (ki te vini ak pwòp seri defi li yo tankou CAPTCHAs, redondans, ak dosye enkonplè) oswa jwenn yon solisyon altènatif.
Se la Bright Data antre nan jwèt, rezoud pwoblèm sa yo san pwoblèm lè yo ofri pwòp, évolutive, ak istorik ansèyman Twitter. Olye pou yo limite pa limit API, mwen te kapab jwenn aksè nan divès kalite done pou pwojè mwen an san pwoblèm nòmal yo.
Nan atik sa a, mwen pral fè w konnen ki jan ou ka itilize Marketplace Bright Data a pou jwenn bon jan kalite done Twitter pou analiz santiman epi pataje eksperyans mwen.
Ale nan sit entènèt Bright Data epi kreye yon kont gratis pou kòmanse. Yon fwa w konekte, w ap dirije w nan Marketplace Done a, kote yo ka jwenn aksè nan divès seri done prekonstwi, tankou sa ki gen rapò ak Twitter.
Yon fwa ou chwazi seri done ou a, ou ka telechaje li dirèkteman nan machin lokal ou a oswa jwenn aksè nan li atravè API. Pwosesis rapid la pèmèt ou kòmanse travay ak bon jan kalite done prèske imedyatman. Mwen itilize seri done Twitter-posts la
Done Twitter anvan tout koreksyon yo anjeneral gen anpil metadata ki ka pa enpòtan pou analiz santiman, tankou enfòmasyon itilizatè, URL imaj, ak lòt done ki pa tèks. Nou pral konsantre sou tèks tweets yo, paske se kote yo pral aplike analiz santiman an, ansanm ak mezi angajman enpòtan tankou repost ak renmen.
import pandas as pd df = pd.read_csv("path_to_your_dataset.csv") df.head()
Pwochen etap la se netwaye done yo lè w jere valè ki manke yo epi retire kolòn ki pa enpòtan yo.
df_clean = df[['user_posted', 'description', 'date_posted', 'reposts', 'likes']] df_clean = df_clean.dropna(subset=['description']) df_clean = df_clean.drop_duplicates(subset=['description']) df_clean.head()
Kounye a ke nou netwaye done yo epi nou gen tèks ki enpòtan an, li lè pou nou plonje nan analiz santiman an. Analiz santiman vle di detèmine ton emosyonèl dèyè mo yo—si tweet la pozitif, negatif, oswa net.
Mwen te itilize yon bibliyotèk popilè ki rele VADER (Valence Aware Dictionary and Sentiment Reasoner), ki fèt espesyalman pou tèks medya sosyal. Li se gwo nan manyen lang enfòmèl tankou jagon ak emojis.
Frag kòd ki anba a fè analiz santiman ak VADER
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer analyzer = SentimentIntensityAnalyzer() def get_sentiment(text): sentiment = analyzer.polarity_scores(text) return sentiment['compound'] df_clean['sentiment'] = df_clean['description'].apply(get_sentiment) df_clean.head()
Yon fwa ke nòt santiman yo kalkile, nou ka analize distribisyon an pou wè ki jan pozitif oswa negatif tweet yo an mwayèn. Sa a ka bay apèsi sou atitid jeneral piblik la sou yon sijè oswa evènman an patikilye. Nou kapab tou vizyalize distribisyon santiman an lè l sèvi avèk yon istogram oswa wordcloud pou idantifye emosyon kle yo.
Konplo sa a pral ba ou yon bon sans de gaye santiman an, kit li apiye nan pozitif, negatif, oswa net. Nan ka sa a, gen yon frekans segondè nan tweet net.
Kounye a ke nou gen nòt santiman pou chak tweet, pwochen etap la se eksplore si gen nenpòt korelasyon ant santiman ak mezi angajman tankou renmen ak repost. Nan analiz medya sosyal, yon moun ta ka espere ke santiman plis pozitif ta ka mennen nan pi wo angajman (plis renmen, plis repost). Sepandan, èske sa vrèman ka a?
Pou chèche konnen, nou ka kalkile korelasyon ki genyen ant nòt santiman yo ak mezi angajman, rezilta yo se:
Correlation between sentiment and likes: 0.022806738610786123
Correlation between sentiment and reposts: 0.008885789875330416
Bay valè korelasyon fèb nan analiz done mwen an, nou wè ke pa gen yon koneksyon solid ant santiman ak angajman. Korelasyon ki genyen ant santiman ak renmen se te 0.02, epi pou santiman ak repo, li te sèlman 0.008. Valè sa yo sijere ke mezi angajman tankou renmen ak repost pa siyifikativman enfliyanse pa santiman tweets yo .
Korelasyon ki fèb ant santiman ak angajman montre ke gen lòt faktè nan jwe. Pandan ke analiz santiman ede nou konprann opinyon piblik la, angajman gen anpil chans pouse pa lòt faktè, tankou:
Pandan ke analiz santiman se yon zouti ki gen anpil valè pou konprann ki jan moun santi yo sou yon sijè, li pa toujou yon prediktè serye nan angajman. Pou jwenn plis konesans sou konpòtman itilizatè a, li esansyèl pou konsidere lòt faktè tankou distribisyon kontni an, enpòtans, ak enfliyans itilizatè a.