paint-brush
د احساس تحلیل لپاره روښانه ډیټا څنګه وکاروئ لخوا@adnanaleeza
نوی تاریخ

د احساس تحلیل لپاره روښانه ډیټا څنګه وکاروئ

لخوا Aleeza Adnan5m2024/11/26
Read on Terminal Reader

ډېر اوږد؛ لوستل

روښانه ډیټا یو پلیټ فارم دی چې تاسو ته اجازه درکوي د احساساتو تحلیل لپاره د ټویټر لوړ کیفیت ډیټا ته لاسرسی ومومئ. پدې مقاله کې ، موږ ګورو چې څنګه د روښانه ډیټا دمخه جوړ شوي ټویټر ډیټا سیټ وکاروو. موږ به د ټویټونو متن باندې تمرکز وکړو، ځکه چې دا هغه ځای دی چې د احساساتو تحلیل به پلي شي.
featured image - د احساس تحلیل لپاره روښانه ډیټا څنګه وکاروئ
Aleeza Adnan HackerNoon profile picture
0-item

په ماشین زده کړه کې د معلوماتو رول

د نن ورځې د AI لخوا پرمخ وړل شوي منظره کې ، د ماشین زده کړه ، AI ، او چیټ بوټونه صنعتونه په بې ساري سرعت بدلوي.


ډیری سوداګرۍ په خپلو عملیاتو کې د AI مدغم کولو په لټه کې دي ، مګر دا چې دا سیسټمونه څنګه رامینځته کیږي ډیری وختونه له پامه غورځول کیږي. اصلي اجزا؟ ډاټا. د ماشین زده کړې ماډل یوازې د ډیټا په څیر ښه دی چې روزل شوي. مګر دا ټول معلومات له کوم ځای څخه راځي؟


د معلوماتو یوه مهمه برخه چې موږ پرې تکیه کوو په عامه توګه شتون لري، ډیری وختونه د ټولنیزو رسنیو پوسټونو، د کاروونکو بیاکتنې، او نورو آنلاین منځپانګو کې موندل کیږي. د احساساتو تحلیل لپاره ، د معلوماتو ترټولو بډایه سرچینې ټویټر دی ، کوم چې په دوامداره توګه د ریښتیني وخت کارونکي تولید شوي مینځپانګې خپروي. په هرصورت، ننګونه پدې کې ده چې څنګه دا معلومات په اغیزمنه او پاکه توګه راټول کړي.

د دودیز ټویټر ډیټا راټولولو سره ستونزه

کله چې ما د ټویټر ډیټا په کارولو سره د احساساتو تحلیل پروژې کار پیل کړ، ما په پیل کې د ټویټر API کارولو په اړه فکر وکړ. په هرصورت، زه په چټکۍ سره د پام وړ محدودیت سره مخ شوم: د وړیا ټایر API یوازې د تیرو اوو ورځو څخه ټویټونو ته لاسرسی چمتو کوي. د هراړخیز احساساتي تحلیل لپاره ، په ځانګړي توګه د رجحاني موضوعاتو یا سیاسي پیښو لپاره چې په اونیو یا میاشتو کې دوام لري ، دا محدودیت په جدي ډول د موجود معلوماتو ساحه او کیفیت محدودوي.


پداسې حال کې چې د لوړ API درجې ته وده ورکول یو اختیار و، لګښت د کوچني کچې پروژې لکه زما لپاره منع و. دې ما ته دوه لارې پریښودې: د دودیز سکریپینګ له لارې په لاسي ډول د معلوماتو راټولولو هڅه وکړئ (کوم چې د خپلو ننګونو لکه CAPTCHAs ، بې ځایه کیدو ، او نامکمل ریکارډونو سره راغلی) یا یو بدیل حل ومومئ.


دا هغه ځای دی چې روښانه ډیټا په لوبې کې راځي، د پاک، پیمانه وړ، او تاریخي ټویټر ډیټاسیټونو وړاندیز کولو سره دا مسلې په بې ساري ډول حل کوي. د دې پرځای چې د API محدودیتونو لخوا محدود شي، زه کولی شم پرته له معمول ستونزو پرته زما د پروژې لپاره متنوع، لوړ کیفیت ډاټا ته لاسرسی وموم.

د روښانه ډیټا دمخه جوړ شوي ټویټر ډیټا سیټ کارولو لپاره ګام په ګام لارښود

پدې مقاله کې ، زه به تاسو ته لارښوونه وکړم چې څنګه تاسو کولی شئ د روښانه ډیټا بازار ځای څخه ګټه واخلئ ترڅو د احساساتو تحلیل لپاره د لوړ کیفیت ټویټر ډیټا ترلاسه کړئ او زما تجربه شریک کړئ.

1 ګام: لاسلیک کړئ او د روښانه ډیټا پلیټ فارم ته لاسرسی ومومئ

د روښانه ډیټا ویب پا toې ته لاړشئ او د پیل کولو لپاره وړیا حساب جوړ کړئ. یوځل چې ننوتل ، تاسو به د ډیټا بازار ځای ته واستول شئ ، چیرې چې مختلف دمخه جوړ شوي ډیټاسیټونو ته لاسرسی کیدی شي ، پشمول د ټویټر پورې اړوند.

2 ګام: د اړونده ډیټا سیټ لټون وکړئ

یوځل چې تاسو خپل ډیټاسیټ غوره کړئ ، تاسو کولی شئ دا مستقیم خپل محلي ماشین ته ډاونلوډ کړئ یا د API له لارې لاسرسی ومومئ. ګړندی پروسه تاسو ته اجازه درکوي چې نږدې سمدلاسه د لوړ کیفیت ډیټا سره کار پیل کړئ. ما د ټویټر پوسټونو ډاټا سیټ کارولی

3 ګام: ډاټا بار او پاک کړئ

د ټویټر خام ډیټا په عموم ډول ډیری میټاډاټا لري چې ممکن د احساساتو تحلیل لپاره اړونده نه وي ، لکه د کارونکي معلومات ، د عکس URLs ، او نور غیر متني ډاټا. موږ به د ټویټونو متن باندې تمرکز وکړو، ځکه چې دا هغه ځای دی چې د احساساتو تحلیل به پلي شي، د اړونده ښکیلتیا میټریکونو سره لکه بیا پوسټونه او خوښونه.

 import pandas as pd df = pd.read_csv("path_to_your_dataset.csv") df.head()


بل ګام د ورک شوي ارزښتونو په اداره کولو او غیر اړونده کالمونو لرې کولو سره د معلوماتو پاکول دي.

 df_clean = df[['user_posted', 'description', 'date_posted', 'reposts', 'likes']] df_clean = df_clean.dropna(subset=['description']) df_clean = df_clean.drop_duplicates(subset=['description']) df_clean.head()


څلورم ګام: د احساساتو تحلیل - له ټویټونو څخه معنی استخراج

اوس چې موږ ډاټا پاکه کړې او اړوند متن لرو، دا وخت دی چې د احساساتو تحلیل ته لاړ شو. د احساساتو تحلیل پدې معنی دی چې د کلمو شاته احساساتي ټون ټاکي - ایا ټویټ مثبت دی، منفي یا غیر جانبدار.


ما د VADER په نوم یو مشهور کتابتون کارولی دی (د ویلینس خبری قاموس او احساس استدلال) ، په ځانګړي توګه د ټولنیزو رسنیو متن لپاره ډیزاین شوی. دا د غیر رسمي ژبې لکه سلینګ او ایموجیز په اداره کولو کې عالي دی.


لاندې د کوډ ټوټه د VADER په کارولو سره د احساساتو تحلیل ترسره کوي

 from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer analyzer = SentimentIntensityAnalyzer() def get_sentiment(text): sentiment = analyzer.polarity_scores(text) return sentiment['compound'] df_clean['sentiment'] = df_clean['description'].apply(get_sentiment) df_clean.head()

پنځم ګام: د احساساتو ویش تحلیل

یوځل چې د احساساتو نمرې محاسبه شي ، موږ کولی شو ویش تحلیل کړو ترڅو وګورو چې ټویټونه په اوسط ډول څومره مثبت یا منفي دي. دا کولی شي د یوې ځانګړې موضوع یا پیښې په اړه عمومي عامه مزاج ته بصیرت چمتو کړي. موږ کولی شو د کلیدي احساساتو پیژندلو لپاره د هسټوګرام یا ورډ کلاډ په کارولو سره د احساساتو ویش هم وګورو.


دا پلاټ به تاسو ته د احساساتو د خپریدو ښه احساس درکړي، ایا دا د مثبت، منفي، یا غیر جانبدار لوري ته ځي. په دې حالت کې، د بې طرفه ټویټونو لوړه فریکونسۍ شتون لري.


شپږم ګام: د ښکیلتیا سره د احساساتو اړیکه

اوس چې موږ د هر ټویټ لپاره د احساساتو نمرې لرو، بل ګام دا دی چې وپلټئ چې ایا د احساساتو او ښکیلتیا میټریکونو لکه د خوښیو او بیا پوسټونو ترمنځ کوم تړاو شتون لري. د ټولنیزو رسنیو په تحلیلونو کې، یو څوک تمه لري چې ډیر مثبت احساسات کولی شي د لوړې ښکیلتیا لامل شي (ډیر خوښونه، ډیر پوسټونه). په هرصورت، ایا دا واقعیا قضیه ده؟


د موندلو لپاره، موږ کولی شو د احساساتو نمرو او د ښکیلتیا میټریکونو ترمنځ اړیکه محاسبه کړو، پایلې یې دا دي:

Correlation between sentiment and likes: 0.022806738610786123

Correlation between sentiment and reposts: 0.008885789875330416


زما د معلوماتو تحلیل څخه د ضعیف اړیکو ارزښتونو ته په پام سره، موږ ګورو چې د احساساتو او ښکیلتیا ترمنځ قوي اړیکه شتون نلري. د احساساتو او خوښیو ترمنځ اړیکه 0.02 وه، او د احساساتو او بیا پوسټونو لپاره، دا یوازې 0.008 وه. دا ارزښتونه وړاندیز کوي چې د ښکیلتیا میټریکونه لکه خوښونه او بیا پوسټونه د ټویټونو احساساتو لخوا د پام وړ اغیزه نلري .

په ښکیلتیا کې د احساس رول باندې بیا غور کول

د احساساتو او ښکیلتیا ترمنځ ضعیف اړیکه ښیي چې په لوبې کې نور عوامل شتون لري. پداسې حال کې چې د احساساتو تحلیل موږ سره د عامه نظر په پوهیدو کې مرسته کوي، ښکیلتیا احتمال د اضافي فکتورونو لخوا پرمخ وړل کیږي، لکه:


  • د منځپانګې تړاو : د رجحان موضوعګانې د احساساتو په پام کې نیولو پرته ډیر ښکیلتیا رامنځته کوي.
  • د کارونکي نفوذ : مشهور حسابونه ډیری وختونه د دوی د ټویټ احساساتو ته په پام سره، لوړ ښکیلتیا ترلاسه کوي.
  • وخت : د ژوندیو پیښو یا د لوړ وخت په جریان کې پوسټ شوي ټویټونه ډیر احتمال لري چې پاملرنه راجلب کړي.


پداسې حال کې چې د احساساتو تحلیل د دې پوهیدو لپاره ارزښتناکه وسیله ده چې خلک د یوې موضوع په اړه څه احساس کوي، دا تل د ښکیلتیا یو باوري وړاندوینه نه ده. د دې لپاره چې د کاروونکي چلند ته ژور بصیرت ترلاسه کړئ، دا اړینه ده چې نور فکتورونه لکه د منځپانګې وخت، مطابقت، او د کاروونکي نفوذ په پام کې ونیسئ.