د نن ورځې د AI لخوا پرمخ وړل شوي منظره کې ، د ماشین زده کړه ، AI ، او چیټ بوټونه صنعتونه په بې ساري سرعت بدلوي.
ډیری سوداګرۍ په خپلو عملیاتو کې د AI مدغم کولو په لټه کې دي ، مګر دا چې دا سیسټمونه څنګه رامینځته کیږي ډیری وختونه له پامه غورځول کیږي. اصلي اجزا؟ ډاټا. د ماشین زده کړې ماډل یوازې د ډیټا په څیر ښه دی چې روزل شوي. مګر دا ټول معلومات له کوم ځای څخه راځي؟
د معلوماتو یوه مهمه برخه چې موږ پرې تکیه کوو په عامه توګه شتون لري، ډیری وختونه د ټولنیزو رسنیو پوسټونو، د کاروونکو بیاکتنې، او نورو آنلاین منځپانګو کې موندل کیږي. د احساساتو تحلیل لپاره ، د معلوماتو ترټولو بډایه سرچینې ټویټر دی ، کوم چې په دوامداره توګه د ریښتیني وخت کارونکي تولید شوي مینځپانګې خپروي. په هرصورت، ننګونه پدې کې ده چې څنګه دا معلومات په اغیزمنه او پاکه توګه راټول کړي.
کله چې ما د ټویټر ډیټا په کارولو سره د احساساتو تحلیل پروژې کار پیل کړ، ما په پیل کې د ټویټر API کارولو په اړه فکر وکړ. په هرصورت، زه په چټکۍ سره د پام وړ محدودیت سره مخ شوم: د وړیا ټایر API یوازې د تیرو اوو ورځو څخه ټویټونو ته لاسرسی چمتو کوي. د هراړخیز احساساتي تحلیل لپاره ، په ځانګړي توګه د رجحاني موضوعاتو یا سیاسي پیښو لپاره چې په اونیو یا میاشتو کې دوام لري ، دا محدودیت په جدي ډول د موجود معلوماتو ساحه او کیفیت محدودوي.
پداسې حال کې چې د لوړ API درجې ته وده ورکول یو اختیار و، لګښت د کوچني کچې پروژې لکه زما لپاره منع و. دې ما ته دوه لارې پریښودې: د دودیز سکریپینګ له لارې په لاسي ډول د معلوماتو راټولولو هڅه وکړئ (کوم چې د خپلو ننګونو لکه CAPTCHAs ، بې ځایه کیدو ، او نامکمل ریکارډونو سره راغلی) یا یو بدیل حل ومومئ.
دا هغه ځای دی چې روښانه ډیټا په لوبې کې راځي، د پاک، پیمانه وړ، او تاریخي ټویټر ډیټاسیټونو وړاندیز کولو سره دا مسلې په بې ساري ډول حل کوي. د دې پرځای چې د API محدودیتونو لخوا محدود شي، زه کولی شم پرته له معمول ستونزو پرته زما د پروژې لپاره متنوع، لوړ کیفیت ډاټا ته لاسرسی وموم.
پدې مقاله کې ، زه به تاسو ته لارښوونه وکړم چې څنګه تاسو کولی شئ د روښانه ډیټا بازار ځای څخه ګټه واخلئ ترڅو د احساساتو تحلیل لپاره د لوړ کیفیت ټویټر ډیټا ترلاسه کړئ او زما تجربه شریک کړئ.
د روښانه ډیټا ویب پا toې ته لاړشئ او د پیل کولو لپاره وړیا حساب جوړ کړئ. یوځل چې ننوتل ، تاسو به د ډیټا بازار ځای ته واستول شئ ، چیرې چې مختلف دمخه جوړ شوي ډیټاسیټونو ته لاسرسی کیدی شي ، پشمول د ټویټر پورې اړوند.
یوځل چې تاسو خپل ډیټاسیټ غوره کړئ ، تاسو کولی شئ دا مستقیم خپل محلي ماشین ته ډاونلوډ کړئ یا د API له لارې لاسرسی ومومئ. ګړندی پروسه تاسو ته اجازه درکوي چې نږدې سمدلاسه د لوړ کیفیت ډیټا سره کار پیل کړئ. ما د ټویټر پوسټونو ډاټا سیټ کارولی
د ټویټر خام ډیټا په عموم ډول ډیری میټاډاټا لري چې ممکن د احساساتو تحلیل لپاره اړونده نه وي ، لکه د کارونکي معلومات ، د عکس URLs ، او نور غیر متني ډاټا. موږ به د ټویټونو متن باندې تمرکز وکړو، ځکه چې دا هغه ځای دی چې د احساساتو تحلیل به پلي شي، د اړونده ښکیلتیا میټریکونو سره لکه بیا پوسټونه او خوښونه.
import pandas as pd df = pd.read_csv("path_to_your_dataset.csv") df.head()
بل ګام د ورک شوي ارزښتونو په اداره کولو او غیر اړونده کالمونو لرې کولو سره د معلوماتو پاکول دي.
df_clean = df[['user_posted', 'description', 'date_posted', 'reposts', 'likes']] df_clean = df_clean.dropna(subset=['description']) df_clean = df_clean.drop_duplicates(subset=['description']) df_clean.head()
اوس چې موږ ډاټا پاکه کړې او اړوند متن لرو، دا وخت دی چې د احساساتو تحلیل ته لاړ شو. د احساساتو تحلیل پدې معنی دی چې د کلمو شاته احساساتي ټون ټاکي - ایا ټویټ مثبت دی، منفي یا غیر جانبدار.
ما د VADER په نوم یو مشهور کتابتون کارولی دی (د ویلینس خبری قاموس او احساس استدلال) ، په ځانګړي توګه د ټولنیزو رسنیو متن لپاره ډیزاین شوی. دا د غیر رسمي ژبې لکه سلینګ او ایموجیز په اداره کولو کې عالي دی.
لاندې د کوډ ټوټه د VADER په کارولو سره د احساساتو تحلیل ترسره کوي
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer analyzer = SentimentIntensityAnalyzer() def get_sentiment(text): sentiment = analyzer.polarity_scores(text) return sentiment['compound'] df_clean['sentiment'] = df_clean['description'].apply(get_sentiment) df_clean.head()
یوځل چې د احساساتو نمرې محاسبه شي ، موږ کولی شو ویش تحلیل کړو ترڅو وګورو چې ټویټونه په اوسط ډول څومره مثبت یا منفي دي. دا کولی شي د یوې ځانګړې موضوع یا پیښې په اړه عمومي عامه مزاج ته بصیرت چمتو کړي. موږ کولی شو د کلیدي احساساتو پیژندلو لپاره د هسټوګرام یا ورډ کلاډ په کارولو سره د احساساتو ویش هم وګورو.
دا پلاټ به تاسو ته د احساساتو د خپریدو ښه احساس درکړي، ایا دا د مثبت، منفي، یا غیر جانبدار لوري ته ځي. په دې حالت کې، د بې طرفه ټویټونو لوړه فریکونسۍ شتون لري.
اوس چې موږ د هر ټویټ لپاره د احساساتو نمرې لرو، بل ګام دا دی چې وپلټئ چې ایا د احساساتو او ښکیلتیا میټریکونو لکه د خوښیو او بیا پوسټونو ترمنځ کوم تړاو شتون لري. د ټولنیزو رسنیو په تحلیلونو کې، یو څوک تمه لري چې ډیر مثبت احساسات کولی شي د لوړې ښکیلتیا لامل شي (ډیر خوښونه، ډیر پوسټونه). په هرصورت، ایا دا واقعیا قضیه ده؟
د موندلو لپاره، موږ کولی شو د احساساتو نمرو او د ښکیلتیا میټریکونو ترمنځ اړیکه محاسبه کړو، پایلې یې دا دي:
Correlation between sentiment and likes: 0.022806738610786123
Correlation between sentiment and reposts: 0.008885789875330416
زما د معلوماتو تحلیل څخه د ضعیف اړیکو ارزښتونو ته په پام سره، موږ ګورو چې د احساساتو او ښکیلتیا ترمنځ قوي اړیکه شتون نلري. د احساساتو او خوښیو ترمنځ اړیکه 0.02 وه، او د احساساتو او بیا پوسټونو لپاره، دا یوازې 0.008 وه. دا ارزښتونه وړاندیز کوي چې د ښکیلتیا میټریکونه لکه خوښونه او بیا پوسټونه د ټویټونو احساساتو لخوا د پام وړ اغیزه نلري .
د احساساتو او ښکیلتیا ترمنځ ضعیف اړیکه ښیي چې په لوبې کې نور عوامل شتون لري. پداسې حال کې چې د احساساتو تحلیل موږ سره د عامه نظر په پوهیدو کې مرسته کوي، ښکیلتیا احتمال د اضافي فکتورونو لخوا پرمخ وړل کیږي، لکه:
پداسې حال کې چې د احساساتو تحلیل د دې پوهیدو لپاره ارزښتناکه وسیله ده چې خلک د یوې موضوع په اړه څه احساس کوي، دا تل د ښکیلتیا یو باوري وړاندوینه نه ده. د دې لپاره چې د کاروونکي چلند ته ژور بصیرت ترلاسه کړئ، دا اړینه ده چې نور فکتورونه لکه د منځپانګې وخت، مطابقت، او د کاروونکي نفوذ په پام کې ونیسئ.