লেখক:
(1) আনিস বাকির, Ca' Foscari University of Venice, Italy;
(2) আলেসান্দ্রো গ্যালেজি, Ca' Foscari University of Venice, Italy;
(3) ফ্যাবিয়ানা জোলো, Ca' Foscari University of Venice, Italy এবং The New Institute Center for Environmental Humanities, Italy।
তথ্যটি একাডেমিক গবেষণার জন্য অফিসিয়াল টুইটার API ব্যবহার করে সংগ্রহ করা হয়েছিল [1], সংগ্রহের সময় শিক্ষাবিদদের জন্য বিনামূল্যে উপলব্ধ। নিউজগার্ড ডেটাসেট থেকে পুনরুদ্ধার করা অ্যাকাউন্টগুলির তালিকার উপর ভিত্তি করে (সারণী 1 দেখুন), আমরা 2019 থেকে 2021 সাল পর্যন্ত তিন বছরের মধ্যে ইতালি, জার্মানি, ফ্রান্স এবং ইউকে ভিত্তিক মিডিয়া উত্সগুলির টুইটার টাইমলাইন ডাউনলোড করেছি। নিউজগার্ড হল একটি টুল যা মূল্যায়ন করে নয়টি সাংবাদিকতার মানদণ্ডের উপর ভিত্তি করে সংবাদ আউটলেটের নির্ভরযোগ্যতা। এই ধরনের মানদণ্ড অনুসরণ করে, পেশাদার এবং স্বাধীন সাংবাদিকদের একটি দল প্রতিটি সংবাদ আউটলেটকে 0 থেকে 100 এর মধ্যে একটি "ট্রাস্ট স্কোর" নির্ধারণ করে। ব্যক্তি, ব্যাঙ্গাত্মক বিষয়বস্তু বা টুইটার, Facebook এবং YouTube এর মতো সামাজিক মিডিয়া প্ল্যাটফর্মের জন্য রেটিং দেওয়া হয় না। সংবাদ উত্সগুলি তাদের স্কোরের উপর ভিত্তি করে দুটি গ্রুপে শ্রেণীবদ্ধ করা হয়েছে: নির্ভরযোগ্য (ট্রাস্ট স্কোর 60 এর বেশি বা সমান) এবং প্রশ্নবিদ্ধ (60-এর কম স্কোর)। নিউজগার্ড মূল্যায়নের মানদণ্ডের উপর ভিত্তি করে থ্রেশহোল্ড সেট করে।
আমরা পাবলিক টুইটার অ্যাকাউন্ট থেকে শুধুমাত্র সর্বজনীনভাবে উপলব্ধ সামগ্রী সংগ্রহ করেছি। ডেটাসেটে 01 জানুয়ারী 2019 থেকে 11 নভেম্বর 2021 সময়ের মধ্যে নির্বাচিত অ্যাকাউন্টগুলির দ্বারা প্রকাশিত সমস্ত টুইটগুলি অন্তর্ভুক্ত ছিল, যার ফলে 25+ মিলিয়ন টুইট হয়েছে। সারণি 2 তথ্য ভাঙ্গন রিপোর্ট. মোট পরিমাণে অবদান প্রতিটি দেশের পোস্টের শতাংশ বন্ধনীতে দেখানো হয়েছে।
ক্রস-কান্ট্রি তুলনার জন্য আমাদের বিশ্লেষণ ইউরোপীয় স্তরে বিতর্কিত বিষয়গুলিতে কেন্দ্রীভূত হয়েছে তা নিশ্চিত করতে, আমরা আমাদের মূল ডেটাসেটে কীওয়ার্ড ফিল্টার প্রয়োগ করেছি। আমরা আমাদের ডেটাসেটকে তিনটি এক বছরের সেগমেন্টে বিভক্ত করেছি এবং সেই বছরের জন্য ইউরোপীয় স্তরে সর্বাধিক আলোচিত বিষয়ের সাথে সম্পর্কিত কীওয়ার্ডগুলির একটি তালিকা অনুসারে প্রতিটি সেগমেন্ট ফিল্টার করেছি৷ ফিল্টার করা ডেটার পরিসংখ্যান সারণি 3 এ পাওয়া যাবে।
ফিল্টার করা ডেটাসেটে থাকা টুইটগুলির জন্য, আমরা সমস্ত রিটুইট সংগ্রহ করেছি। প্রতিটি বিষয়ের জন্য মূল টুইট এবং রিটুইটের সংখ্যা সম্পর্কে বিশদ বিবরণ সারণি 3 এ পাওয়া যাবে।
অবশেষে, আমরা সমস্ত 0-ডিগ্রী নোডগুলি বাদ দিয়েছি এবং সমস্ত প্রান্তের ওজনের মধ্যকের নীচে একটি ওজন সহ সমস্ত প্রান্ত মুছে ফেলেছি। এই পদ্ধতিটি ইউরোপীয় প্রেক্ষাপটের মধ্যে নির্বাচিত বিষয়গুলির সাথে সম্পর্কিত নিউজ আউটলেটের দর্শকদের মধ্যে সবচেয়ে শক্তিশালী মিলগুলি ক্যাপচার করতে আমাদের সক্ষম করেছে৷
আমরা BERTopic ব্যবহার করেছি, একটি টপিক মডেলিং টুল যা নথির সংগ্রহ থেকে সুপ্ত বিষয়গুলি বের করে, পরীক্ষার অধীনে থাকা সমস্ত দেশে প্রচলিত উত্তপ্ত বিষয়গুলি সনাক্ত করতে। BERTopic হল একটি top2vec মডেল যা পূর্বপ্রশিক্ষিত বাক্য ট্রান্সফরমার (Grootendorst, 2022) এর জন্য সাধারণ করা হয়েছে যা সম্প্রতি বিভিন্ন কাজে আশাব্যঞ্জক ফলাফল প্রদর্শন করেছে। BERTopic তিনটি ধাপের মাধ্যমে নথির সুসংগত ক্লাস্টার তৈরি করে: 1) নথি এমবেডিং বের করা; 2) ক্লাস্টারিং এমবেডিং; 3) ক্লাস-ভিত্তিক TF-IDF (Sammut and Webb, 2011) (c-TF-IDF) ব্যবহার করে বিষয় উপস্থাপনা তৈরি করা। প্রথম ধাপে, যেকোনো প্রাক-প্রশিক্ষিত ট্রান্সফরমার-ভিত্তিক ভাষা মডেল ব্যবহার করা যেতে পারে, যা অত্যাধুনিক এম্বেডিং কৌশল ব্যবহারের অনুমতি দেয়। দ্বিতীয় ধাপে এমবেডিংয়ের মাত্রা কমাতে ইউনিফর্ম ম্যানিফোল্ড অ্যাপ্রোক্সিমেশন এবং প্রজেকশন (UMAP) ব্যবহার করা হয়েছে (McInnes et al., 2018), এবং শব্দের (HDBSCAN) সাথে অ্যাপ্লিকেশানের হায়ারার্কিকাল ডেনসিটি-ভিত্তিক স্থানিক ক্লাস্টারিং (HDBSCAN) শব্দার্থগতভাবে অনুরূপ ডকুমেন্টস ক্লাস্টার্স তৈরি করতে। এট আল।, 2017)। একটি বিষয় 'অন্যান্য' হিসাবে সেট করা হয়েছে, এবং বিভিন্ন বিষয়ের অন্তর্ভুক্ত নয় এমন নথি অন্তর্ভুক্ত করে৷
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।
[1] https://developer.twitter.com/en/docs/twitter-api