paint-brush
ইউরোপে সংবাদ এবং ভুল তথ্যের ব্যবহার: উপকরণ এবং পদ্ধতিদ্বারা@newsbyte
106 পড়া

ইউরোপে সংবাদ এবং ভুল তথ্যের ব্যবহার: উপকরণ এবং পদ্ধতি

দ্বারা NewsByte.Tech3m2024/06/07
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

এই কাগজে, গবেষকরা ইউরোপীয় সংবাদ খরচের ধরণ, ভুল তথ্যের উত্স এবং টুইটারে দর্শকদের আচরণ বিশ্লেষণ করেছেন।
featured image - ইউরোপে সংবাদ এবং ভুল তথ্যের ব্যবহার: উপকরণ এবং পদ্ধতি
NewsByte.Tech HackerNoon profile picture
0-item

লেখক:

(1) আনিস বাকির, Ca' Foscari University of Venice, Italy;

(2) আলেসান্দ্রো গ্যালেজি, Ca' Foscari University of Venice, Italy;

(3) ফ্যাবিয়ানা জোলো, Ca' Foscari University of Venice, Italy এবং The New Institute Center for Environmental Humanities, Italy।

লিঙ্কের টেবিল

2। সামগ্রী ও পদ্ধতি

তথ্য সংগ্রহ এবং প্রক্রিয়াকরণ

তথ্যটি একাডেমিক গবেষণার জন্য অফিসিয়াল টুইটার API ব্যবহার করে সংগ্রহ করা হয়েছিল [1], সংগ্রহের সময় শিক্ষাবিদদের জন্য বিনামূল্যে উপলব্ধ। নিউজগার্ড ডেটাসেট থেকে পুনরুদ্ধার করা অ্যাকাউন্টগুলির তালিকার উপর ভিত্তি করে (সারণী 1 দেখুন), আমরা 2019 থেকে 2021 সাল পর্যন্ত তিন বছরের মধ্যে ইতালি, জার্মানি, ফ্রান্স এবং ইউকে ভিত্তিক মিডিয়া উত্সগুলির টুইটার টাইমলাইন ডাউনলোড করেছি। নিউজগার্ড হল একটি টুল যা মূল্যায়ন করে নয়টি সাংবাদিকতার মানদণ্ডের উপর ভিত্তি করে সংবাদ আউটলেটের নির্ভরযোগ্যতা। এই ধরনের মানদণ্ড অনুসরণ করে, পেশাদার এবং স্বাধীন সাংবাদিকদের একটি দল প্রতিটি সংবাদ আউটলেটকে 0 থেকে 100 এর মধ্যে একটি "ট্রাস্ট স্কোর" নির্ধারণ করে। ব্যক্তি, ব্যাঙ্গাত্মক বিষয়বস্তু বা টুইটার, Facebook এবং YouTube এর মতো সামাজিক মিডিয়া প্ল্যাটফর্মের জন্য রেটিং দেওয়া হয় না। সংবাদ উত্সগুলি তাদের স্কোরের উপর ভিত্তি করে দুটি গ্রুপে শ্রেণীবদ্ধ করা হয়েছে: নির্ভরযোগ্য (ট্রাস্ট স্কোর 60 এর বেশি বা সমান) এবং প্রশ্নবিদ্ধ (60-এর কম স্কোর)। নিউজগার্ড মূল্যায়নের মানদণ্ডের উপর ভিত্তি করে থ্রেশহোল্ড সেট করে।


আমরা পাবলিক টুইটার অ্যাকাউন্ট থেকে শুধুমাত্র সর্বজনীনভাবে উপলব্ধ সামগ্রী সংগ্রহ করেছি। ডেটাসেটে 01 জানুয়ারী 2019 থেকে 11 নভেম্বর 2021 সময়ের মধ্যে নির্বাচিত অ্যাকাউন্টগুলির দ্বারা প্রকাশিত সমস্ত টুইটগুলি অন্তর্ভুক্ত ছিল, যার ফলে 25+ মিলিয়ন টুইট হয়েছে। সারণি 2 তথ্য ভাঙ্গন রিপোর্ট. মোট পরিমাণে অবদান প্রতিটি দেশের পোস্টের শতাংশ বন্ধনীতে দেখানো হয়েছে।


ক্রস-কান্ট্রি তুলনার জন্য আমাদের বিশ্লেষণ ইউরোপীয় স্তরে বিতর্কিত বিষয়গুলিতে কেন্দ্রীভূত হয়েছে তা নিশ্চিত করতে, আমরা আমাদের মূল ডেটাসেটে কীওয়ার্ড ফিল্টার প্রয়োগ করেছি। আমরা আমাদের ডেটাসেটকে তিনটি এক বছরের সেগমেন্টে বিভক্ত করেছি এবং সেই বছরের জন্য ইউরোপীয় স্তরে সর্বাধিক আলোচিত বিষয়ের সাথে সম্পর্কিত কীওয়ার্ডগুলির একটি তালিকা অনুসারে প্রতিটি সেগমেন্ট ফিল্টার করেছি৷ ফিল্টার করা ডেটার পরিসংখ্যান সারণি 3 এ পাওয়া যাবে।


সারণী 1: দেশ এবং নির্ভরযোগ্যতা অনুসারে নিউজগার্ড সংবাদ উত্সের ডেটাসেটের ভাঙ্গন


সারণি 2: দেশ এবং নির্ভরযোগ্যতা অনুসারে টুইটের পরিমাণ


ফিল্টার করা ডেটাসেটে থাকা টুইটগুলির জন্য, আমরা সমস্ত রিটুইট সংগ্রহ করেছি। প্রতিটি বিষয়ের জন্য মূল টুইট এবং রিটুইটের সংখ্যা সম্পর্কে বিশদ বিবরণ সারণি 3 এ পাওয়া যাবে।


সারণি 3: দেশ এবং বিষয় অনুসারে ফিল্টার করা ডেটাসেটের ভাঙ্গন।

সাদৃশ্য নেটওয়ার্ক


অবশেষে, আমরা সমস্ত 0-ডিগ্রী নোডগুলি বাদ দিয়েছি এবং সমস্ত প্রান্তের ওজনের মধ্যকের নীচে একটি ওজন সহ সমস্ত প্রান্ত মুছে ফেলেছি। এই পদ্ধতিটি ইউরোপীয় প্রেক্ষাপটের মধ্যে নির্বাচিত বিষয়গুলির সাথে সম্পর্কিত নিউজ আউটলেটের দর্শকদের মধ্যে সবচেয়ে শক্তিশালী মিলগুলি ক্যাপচার করতে আমাদের সক্ষম করেছে৷

টপিক মডেলিং

আমরা BERTopic ব্যবহার করেছি, একটি টপিক মডেলিং টুল যা নথির সংগ্রহ থেকে সুপ্ত বিষয়গুলি বের করে, পরীক্ষার অধীনে থাকা সমস্ত দেশে প্রচলিত উত্তপ্ত বিষয়গুলি সনাক্ত করতে। BERTopic হল একটি top2vec মডেল যা পূর্বপ্রশিক্ষিত বাক্য ট্রান্সফরমার (Grootendorst, 2022) এর জন্য সাধারণ করা হয়েছে যা সম্প্রতি বিভিন্ন কাজে আশাব্যঞ্জক ফলাফল প্রদর্শন করেছে। BERTopic তিনটি ধাপের মাধ্যমে নথির সুসংগত ক্লাস্টার তৈরি করে: 1) নথি এমবেডিং বের করা; 2) ক্লাস্টারিং এমবেডিং; 3) ক্লাস-ভিত্তিক TF-IDF (Sammut and Webb, 2011) (c-TF-IDF) ব্যবহার করে বিষয় উপস্থাপনা তৈরি করা। প্রথম ধাপে, যেকোনো প্রাক-প্রশিক্ষিত ট্রান্সফরমার-ভিত্তিক ভাষা মডেল ব্যবহার করা যেতে পারে, যা অত্যাধুনিক এম্বেডিং কৌশল ব্যবহারের অনুমতি দেয়। দ্বিতীয় ধাপে এমবেডিংয়ের মাত্রা কমাতে ইউনিফর্ম ম্যানিফোল্ড অ্যাপ্রোক্সিমেশন এবং প্রজেকশন (UMAP) ব্যবহার করা হয়েছে (McInnes et al., 2018), এবং শব্দের (HDBSCAN) সাথে অ্যাপ্লিকেশানের হায়ারার্কিকাল ডেনসিটি-ভিত্তিক স্থানিক ক্লাস্টারিং (HDBSCAN) শব্দার্থগতভাবে অনুরূপ ডকুমেন্টস ক্লাস্টার্স তৈরি করতে। এট আল।, 2017)। একটি বিষয় 'অন্যান্য' হিসাবে সেট করা হয়েছে, এবং বিভিন্ন বিষয়ের অন্তর্ভুক্ত নয় এমন নথি অন্তর্ভুক্ত করে৷


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


[1] https://developer.twitter.com/en/docs/twitter-api