paint-brush
كيفية الاستفادة من البيانات الذكية لتحليل المشاعربواسطة@adnanaleeza
تاريخ جديد

كيفية الاستفادة من البيانات الذكية لتحليل المشاعر

بواسطة Aleeza Adnan5m2024/11/26
Read on Terminal Reader

طويل جدا؛ ليقرأ

Bright Data عبارة عن منصة تتيح لك الوصول إلى بيانات Twitter عالية الجودة لتحليل المشاعر. في هذه المقالة، سنلقي نظرة على كيفية استخدام مجموعة بيانات Twitter المعدة مسبقًا من Bright Data. سنركز على نص التغريدات، حيث سيتم تطبيق تحليل المشاعر هناك.
featured image - كيفية الاستفادة من البيانات الذكية لتحليل المشاعر
Aleeza Adnan HackerNoon profile picture
0-item

دور البيانات في التعلم الآلي

في عالم اليوم الذي يعتمد على الذكاء الاصطناعي، تعمل تقنيات التعلم الآلي والذكاء الاصطناعي والروبوتات الدردشة على تحويل الصناعات بوتيرة غير مسبوقة.


تتطلع المزيد من الشركات إلى دمج الذكاء الاصطناعي في عملياتها، ولكن غالبًا ما يتم تجاهل كيفية بناء هذه الأنظمة. المكون الرئيسي؟ البيانات. لا يكون نموذج التعلم الآلي جيدًا إلا بقدر جودة البيانات التي تم تدريبه عليها. ولكن من أين تأتي كل هذه البيانات؟


إن جزءًا كبيرًا من البيانات التي نعتمد عليها متاح للعامة، وغالبًا ما نجده في منشورات وسائل التواصل الاجتماعي، ومراجعات المستخدمين، وغير ذلك من المحتوى عبر الإنترنت. بالنسبة لتحليل المشاعر ، يعد موقع تويتر أحد أغنى مصادر البيانات، حيث يبث باستمرار محتوى من إنشاء المستخدمين في الوقت الفعلي. ومع ذلك، يكمن التحدي في كيفية جمع هذه البيانات بشكل فعال ونظيف.

مشكلة جمع البيانات عبر تويتر بالطريقة التقليدية

عندما بدأت العمل على مشروع تحليل المشاعر باستخدام بيانات تويتر، فكرت في البداية في استخدام واجهة برمجة تطبيقات تويتر. ولكن سرعان ما واجهت قيدًا كبيرًا: حيث توفر واجهة برمجة التطبيقات المجانية الوصول إلى التغريدات من الأيام السبعة السابقة فقط. بالنسبة لتحليل المشاعر الشامل، وخاصة للموضوعات الرائجة أو الأحداث السياسية التي تمتد لأسابيع أو أشهر، فإن هذا القيد يحد بشدة من نطاق وجودة البيانات المتاحة.


على الرغم من أن الترقية إلى مستوى أعلى من واجهة برمجة التطبيقات كانت خيارًا، إلا أن التكلفة كانت باهظة بالنسبة لمشروع صغير الحجم مثل مشروعي. وهذا ترك لي طريقين: محاولة جمع البيانات يدويًا من خلال الكشط التقليدي (الذي جاء بمجموعة من التحديات الخاصة به مثل CAPTCHAs والتكرارات والسجلات غير المكتملة) أو إيجاد حل بديل.


وهنا يأتي دور Bright Data، التي تعمل على حل هذه المشكلات بسلاسة من خلال تقديم مجموعات بيانات Twitter نظيفة وقابلة للتطوير وتاريخية. وبدلاً من التقيد بقيود واجهة برمجة التطبيقات، تمكنت من الوصول إلى بيانات متنوعة وعالية الجودة لمشروعي دون المتاعب المعتادة.

دليل خطوة بخطوة لاستخدام مجموعة بيانات Twitter المعدة مسبقًا من Bright Data

في هذه المقالة، سأشرح لك كيفية الاستفادة من Marketplace الخاص بـ Bright Data للحصول على بيانات Twitter عالية الجودة لتحليل المشاعر ومشاركة تجربتي.

الخطوة 1: قم بالتسجيل والوصول إلى منصة Bright Data

انتقل إلى موقع Bright Data الإلكتروني وقم بإنشاء حساب مجاني للبدء. بمجرد تسجيل الدخول، سيتم توجيهك إلى سوق البيانات، حيث يمكنك الوصول إلى مجموعات بيانات مختلفة تم إنشاؤها مسبقًا، بما في ذلك تلك المتعلقة بتويتر.

الخطوة 2: البحث عن مجموعة البيانات ذات الصلة

بمجرد تحديد مجموعة البيانات الخاصة بك، يمكنك تنزيلها مباشرة على جهازك المحلي أو الوصول إليها عبر واجهة برمجة التطبيقات. تتيح لك العملية السريعة البدء في العمل ببيانات عالية الجودة على الفور تقريبًا. لقد استخدمت مجموعة بيانات Twitter-posts

الخطوة 3: تحميل البيانات وتنظيفها

تحتوي بيانات Twitter الخام عادةً على الكثير من البيانات الوصفية التي قد لا تكون ذات صلة بتحليل المشاعر، مثل معلومات المستخدم وعناوين URL للصور وغيرها من البيانات غير النصية. سنركز على نص التغريدات، حيث سيتم تطبيق تحليل المشاعر هناك، إلى جانب مقاييس المشاركة ذات الصلة مثل إعادة النشر والإعجابات.

 import pandas as pd df = pd.read_csv("path_to_your_dataset.csv") df.head()


الخطوة التالية هي تنظيف البيانات عن طريق التعامل مع القيم المفقودة وإزالة الأعمدة غير ذات الصلة.

 df_clean = df[['user_posted', 'description', 'date_posted', 'reposts', 'likes']] df_clean = df_clean.dropna(subset=['description']) df_clean = df_clean.drop_duplicates(subset=['description']) df_clean.head()


الخطوة 4: تحليل المشاعر - استخراج المعنى من التغريدات

الآن بعد أن قمنا بتنظيف البيانات ولدينا النص المناسب، حان الوقت للتعمق في تحليل المشاعر . تحليل المشاعر يعني تحديد النبرة العاطفية وراء الكلمات - سواء كانت التغريدة إيجابية أو سلبية أو محايدة.


لقد استخدمت مكتبة شهيرة تسمى VADER (قاموس مدرك للقيم والمشاعر)، وهي مصممة خصيصًا لنصوص الوسائط الاجتماعية. وهي رائعة في التعامل مع اللغة غير الرسمية مثل اللغة العامية والرموز التعبيرية.


يقوم مقطع التعليمات البرمجية أدناه بإجراء تحليل المشاعر باستخدام VADER

 from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer analyzer = SentimentIntensityAnalyzer() def get_sentiment(text): sentiment = analyzer.polarity_scores(text) return sentiment['compound'] df_clean['sentiment'] = df_clean['description'].apply(get_sentiment) df_clean.head()

الخطوة 5: تحليل توزيع المشاعر

بمجرد حساب درجات المشاعر، يمكننا تحليل التوزيع لمعرفة مدى إيجابية أو سلبية التغريدات في المتوسط. يمكن أن يوفر هذا رؤى حول المزاج العام العام حول موضوع أو حدث معين. يمكننا أيضًا تصور توزيع المشاعر باستخدام رسم بياني أو سحابة كلمات لتحديد المشاعر الرئيسية.


ستمنحك هذه المؤامرة فكرة جيدة عن انتشار المشاعر، سواء كانت تميل إلى الإيجابية أو السلبية أو الحيادية. في هذه الحالة، هناك تواتر مرتفع للتغريدات المحايدة.


الخطوة 6: ربط المشاعر بالمشاركة

الآن بعد أن حصلنا على درجات المشاعر لكل تغريدة، فإن الخطوة التالية هي استكشاف ما إذا كان هناك أي ارتباط بين المشاعر ومقاييس المشاركة مثل الإعجابات وإعادة النشر. في تحليلات وسائل التواصل الاجتماعي، قد يتوقع المرء أن المشاعر الأكثر إيجابية قد تؤدي إلى مشاركة أعلى (مزيد من الإعجابات، ومزيد من إعادة النشر). ولكن هل هذه هي الحال حقًا؟


ولمعرفة ذلك، يمكننا حساب الارتباط بين درجات المشاعر ومقاييس المشاركة، وكانت النتائج:

Correlation between sentiment and likes: 0.022806738610786123

Correlation between sentiment and reposts: 0.008885789875330416


نظرًا لقيم الارتباط الضعيفة من تحليل البيانات الخاص بي، نرى أنه لا يوجد ارتباط قوي بين المشاعر والمشاركة. كان الارتباط بين المشاعر والإعجابات 0.02، وبالنسبة للمشاعر وإعادة النشر، كان 0.008 فقط. تشير هذه القيم إلى أن مقاييس المشاركة مثل الإعجابات وإعادة النشر لا تتأثر بشكل كبير بمشاعر التغريدات .

إعادة النظر في دور المشاعر في المشاركة

إن الارتباط الضعيف بين المشاعر والمشاركة يشير إلى وجود عوامل أخرى تلعب دورًا. ففي حين يساعدنا تحليل المشاعر على فهم الرأي العام، فإن المشاركة من المرجح أن تكون مدفوعة بعوامل إضافية، مثل:


  • أهمية المحتوى : تميل الموضوعات الشائعة إلى توليد المزيد من التفاعل بغض النظر عن المشاعر.
  • تأثير المستخدم : غالبًا ما تحظى الحسابات الشعبية بتفاعل أكبر، بغض النظر عن مشاعر التغريدة التي تنشرها.
  • التوقيت : من المرجح أن تحظى التغريدات المنشورة أثناء الأحداث المباشرة أو أوقات الذروة بالاهتمام.


على الرغم من أن تحليل المشاعر يعد أداة قيمة لفهم مشاعر الأشخاص تجاه موضوع ما، إلا أنه ليس دائمًا مؤشرًا موثوقًا به للتفاعل. للحصول على رؤى أعمق حول سلوك المستخدم، من الضروري مراعاة عوامل أخرى مثل توقيت المحتوى وأهميته وتأثير المستخدم.