في عالم اليوم الذي يعتمد على الذكاء الاصطناعي، تعمل تقنيات التعلم الآلي والذكاء الاصطناعي والروبوتات الدردشة على تحويل الصناعات بوتيرة غير مسبوقة.
تتطلع المزيد من الشركات إلى دمج الذكاء الاصطناعي في عملياتها، ولكن غالبًا ما يتم تجاهل كيفية بناء هذه الأنظمة. المكون الرئيسي؟ البيانات. لا يكون نموذج التعلم الآلي جيدًا إلا بقدر جودة البيانات التي تم تدريبه عليها. ولكن من أين تأتي كل هذه البيانات؟
إن جزءًا كبيرًا من البيانات التي نعتمد عليها متاح للعامة، وغالبًا ما نجده في منشورات وسائل التواصل الاجتماعي، ومراجعات المستخدمين، وغير ذلك من المحتوى عبر الإنترنت. بالنسبة لتحليل المشاعر ، يعد موقع تويتر أحد أغنى مصادر البيانات، حيث يبث باستمرار محتوى من إنشاء المستخدمين في الوقت الفعلي. ومع ذلك، يكمن التحدي في كيفية جمع هذه البيانات بشكل فعال ونظيف.
عندما بدأت العمل على مشروع تحليل المشاعر باستخدام بيانات تويتر، فكرت في البداية في استخدام واجهة برمجة تطبيقات تويتر. ولكن سرعان ما واجهت قيدًا كبيرًا: حيث توفر واجهة برمجة التطبيقات المجانية الوصول إلى التغريدات من الأيام السبعة السابقة فقط. بالنسبة لتحليل المشاعر الشامل، وخاصة للموضوعات الرائجة أو الأحداث السياسية التي تمتد لأسابيع أو أشهر، فإن هذا القيد يحد بشدة من نطاق وجودة البيانات المتاحة.
على الرغم من أن الترقية إلى مستوى أعلى من واجهة برمجة التطبيقات كانت خيارًا، إلا أن التكلفة كانت باهظة بالنسبة لمشروع صغير الحجم مثل مشروعي. وهذا ترك لي طريقين: محاولة جمع البيانات يدويًا من خلال الكشط التقليدي (الذي جاء بمجموعة من التحديات الخاصة به مثل CAPTCHAs والتكرارات والسجلات غير المكتملة) أو إيجاد حل بديل.
وهنا يأتي دور Bright Data، التي تعمل على حل هذه المشكلات بسلاسة من خلال تقديم مجموعات بيانات Twitter نظيفة وقابلة للتطوير وتاريخية. وبدلاً من التقيد بقيود واجهة برمجة التطبيقات، تمكنت من الوصول إلى بيانات متنوعة وعالية الجودة لمشروعي دون المتاعب المعتادة.
في هذه المقالة، سأشرح لك كيفية الاستفادة من Marketplace الخاص بـ Bright Data للحصول على بيانات Twitter عالية الجودة لتحليل المشاعر ومشاركة تجربتي.
انتقل إلى موقع Bright Data الإلكتروني وقم بإنشاء حساب مجاني للبدء. بمجرد تسجيل الدخول، سيتم توجيهك إلى سوق البيانات، حيث يمكنك الوصول إلى مجموعات بيانات مختلفة تم إنشاؤها مسبقًا، بما في ذلك تلك المتعلقة بتويتر.
بمجرد تحديد مجموعة البيانات الخاصة بك، يمكنك تنزيلها مباشرة على جهازك المحلي أو الوصول إليها عبر واجهة برمجة التطبيقات. تتيح لك العملية السريعة البدء في العمل ببيانات عالية الجودة على الفور تقريبًا. لقد استخدمت مجموعة بيانات Twitter-posts
تحتوي بيانات Twitter الخام عادةً على الكثير من البيانات الوصفية التي قد لا تكون ذات صلة بتحليل المشاعر، مثل معلومات المستخدم وعناوين URL للصور وغيرها من البيانات غير النصية. سنركز على نص التغريدات، حيث سيتم تطبيق تحليل المشاعر هناك، إلى جانب مقاييس المشاركة ذات الصلة مثل إعادة النشر والإعجابات.
import pandas as pd df = pd.read_csv("path_to_your_dataset.csv") df.head()
الخطوة التالية هي تنظيف البيانات عن طريق التعامل مع القيم المفقودة وإزالة الأعمدة غير ذات الصلة.
df_clean = df[['user_posted', 'description', 'date_posted', 'reposts', 'likes']] df_clean = df_clean.dropna(subset=['description']) df_clean = df_clean.drop_duplicates(subset=['description']) df_clean.head()
الآن بعد أن قمنا بتنظيف البيانات ولدينا النص المناسب، حان الوقت للتعمق في تحليل المشاعر . تحليل المشاعر يعني تحديد النبرة العاطفية وراء الكلمات - سواء كانت التغريدة إيجابية أو سلبية أو محايدة.
لقد استخدمت مكتبة شهيرة تسمى VADER (قاموس مدرك للقيم والمشاعر)، وهي مصممة خصيصًا لنصوص الوسائط الاجتماعية. وهي رائعة في التعامل مع اللغة غير الرسمية مثل اللغة العامية والرموز التعبيرية.
يقوم مقطع التعليمات البرمجية أدناه بإجراء تحليل المشاعر باستخدام VADER
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer analyzer = SentimentIntensityAnalyzer() def get_sentiment(text): sentiment = analyzer.polarity_scores(text) return sentiment['compound'] df_clean['sentiment'] = df_clean['description'].apply(get_sentiment) df_clean.head()
بمجرد حساب درجات المشاعر، يمكننا تحليل التوزيع لمعرفة مدى إيجابية أو سلبية التغريدات في المتوسط. يمكن أن يوفر هذا رؤى حول المزاج العام العام حول موضوع أو حدث معين. يمكننا أيضًا تصور توزيع المشاعر باستخدام رسم بياني أو سحابة كلمات لتحديد المشاعر الرئيسية.
ستمنحك هذه المؤامرة فكرة جيدة عن انتشار المشاعر، سواء كانت تميل إلى الإيجابية أو السلبية أو الحيادية. في هذه الحالة، هناك تواتر مرتفع للتغريدات المحايدة.
الآن بعد أن حصلنا على درجات المشاعر لكل تغريدة، فإن الخطوة التالية هي استكشاف ما إذا كان هناك أي ارتباط بين المشاعر ومقاييس المشاركة مثل الإعجابات وإعادة النشر. في تحليلات وسائل التواصل الاجتماعي، قد يتوقع المرء أن المشاعر الأكثر إيجابية قد تؤدي إلى مشاركة أعلى (مزيد من الإعجابات، ومزيد من إعادة النشر). ولكن هل هذه هي الحال حقًا؟
ولمعرفة ذلك، يمكننا حساب الارتباط بين درجات المشاعر ومقاييس المشاركة، وكانت النتائج:
Correlation between sentiment and likes: 0.022806738610786123
Correlation between sentiment and reposts: 0.008885789875330416
نظرًا لقيم الارتباط الضعيفة من تحليل البيانات الخاص بي، نرى أنه لا يوجد ارتباط قوي بين المشاعر والمشاركة. كان الارتباط بين المشاعر والإعجابات 0.02، وبالنسبة للمشاعر وإعادة النشر، كان 0.008 فقط. تشير هذه القيم إلى أن مقاييس المشاركة مثل الإعجابات وإعادة النشر لا تتأثر بشكل كبير بمشاعر التغريدات .
إن الارتباط الضعيف بين المشاعر والمشاركة يشير إلى وجود عوامل أخرى تلعب دورًا. ففي حين يساعدنا تحليل المشاعر على فهم الرأي العام، فإن المشاركة من المرجح أن تكون مدفوعة بعوامل إضافية، مثل:
على الرغم من أن تحليل المشاعر يعد أداة قيمة لفهم مشاعر الأشخاص تجاه موضوع ما، إلا أنه ليس دائمًا مؤشرًا موثوقًا به للتفاعل. للحصول على رؤى أعمق حول سلوك المستخدم، من الضروري مراعاة عوامل أخرى مثل توقيت المحتوى وأهميته وتأثير المستخدم.