লেখক:  (1) আনিস বাকির, Ca' Foscari University of Venice, Italy;  (2) আলেসান্দ্রো গ্যালেজি, Ca' Foscari University of Venice, Italy;  (3) ফ্যাবিয়ানা জোলো, Ca' Foscari University of Venice, Italy এবং The New Institute Center for Environmental Humanities, Italy।  লিঙ্কের টেবিল   বিমূর্ত এবং ভূমিকা   উপকরণ এবং পদ্ধতিসমূহ   ফলাফল এবং আলোচনা   উপসংহার এবং রেফারেন্স   সম্পূরক তথ্য  2। সামগ্রী ও পদ্ধতি  তথ্য সংগ্রহ এবং প্রক্রিয়াকরণ  তথ্যটি একাডেমিক গবেষণার জন্য অফিসিয়াল টুইটার API ব্যবহার করে সংগ্রহ করা হয়েছিল [1], সংগ্রহের সময় শিক্ষাবিদদের জন্য বিনামূল্যে উপলব্ধ। নিউজগার্ড ডেটাসেট থেকে পুনরুদ্ধার করা অ্যাকাউন্টগুলির তালিকার উপর ভিত্তি করে (সারণী 1 দেখুন), আমরা 2019 থেকে 2021 সাল পর্যন্ত তিন বছরের মধ্যে ইতালি, জার্মানি, ফ্রান্স এবং ইউকে ভিত্তিক মিডিয়া উত্সগুলির টুইটার টাইমলাইন ডাউনলোড করেছি। নিউজগার্ড হল একটি টুল যা মূল্যায়ন করে নয়টি সাংবাদিকতার মানদণ্ডের উপর ভিত্তি করে সংবাদ আউটলেটের নির্ভরযোগ্যতা। এই ধরনের মানদণ্ড অনুসরণ করে, পেশাদার এবং স্বাধীন সাংবাদিকদের একটি দল প্রতিটি সংবাদ আউটলেটকে 0 থেকে 100 এর মধ্যে একটি "ট্রাস্ট স্কোর" নির্ধারণ করে। ব্যক্তি, ব্যাঙ্গাত্মক বিষয়বস্তু বা টুইটার, Facebook এবং YouTube এর মতো সামাজিক মিডিয়া প্ল্যাটফর্মের জন্য রেটিং দেওয়া হয় না। সংবাদ উত্সগুলি তাদের স্কোরের উপর ভিত্তি করে দুটি গ্রুপে শ্রেণীবদ্ধ করা হয়েছে: নির্ভরযোগ্য (ট্রাস্ট স্কোর 60 এর বেশি বা সমান) এবং প্রশ্নবিদ্ধ (60-এর কম স্কোর)। নিউজগার্ড মূল্যায়নের মানদণ্ডের উপর ভিত্তি করে থ্রেশহোল্ড সেট করে।  আমরা পাবলিক টুইটার অ্যাকাউন্ট থেকে শুধুমাত্র সর্বজনীনভাবে উপলব্ধ সামগ্রী সংগ্রহ করেছি। ডেটাসেটে 01 জানুয়ারী 2019 থেকে 11 নভেম্বর 2021 সময়ের মধ্যে নির্বাচিত অ্যাকাউন্টগুলির দ্বারা প্রকাশিত সমস্ত টুইটগুলি অন্তর্ভুক্ত ছিল, যার ফলে 25+ মিলিয়ন টুইট হয়েছে। সারণি 2 তথ্য ভাঙ্গন রিপোর্ট. মোট পরিমাণে অবদান প্রতিটি দেশের পোস্টের শতাংশ বন্ধনীতে দেখানো হয়েছে।  ক্রস-কান্ট্রি তুলনার জন্য আমাদের বিশ্লেষণ ইউরোপীয় স্তরে বিতর্কিত বিষয়গুলিতে কেন্দ্রীভূত হয়েছে তা নিশ্চিত করতে, আমরা আমাদের মূল ডেটাসেটে কীওয়ার্ড ফিল্টার প্রয়োগ করেছি। আমরা আমাদের ডেটাসেটকে তিনটি এক বছরের সেগমেন্টে বিভক্ত করেছি এবং সেই বছরের জন্য ইউরোপীয় স্তরে সর্বাধিক আলোচিত বিষয়ের সাথে সম্পর্কিত কীওয়ার্ডগুলির একটি তালিকা অনুসারে প্রতিটি সেগমেন্ট ফিল্টার করেছি৷ ফিল্টার করা ডেটার পরিসংখ্যান সারণি 3 এ পাওয়া যাবে।   ফিল্টার করা ডেটাসেটে থাকা টুইটগুলির জন্য, আমরা সমস্ত রিটুইট সংগ্রহ করেছি। প্রতিটি বিষয়ের জন্য মূল টুইট এবং রিটুইটের সংখ্যা সম্পর্কে বিশদ বিবরণ সারণি 3 এ পাওয়া যাবে।   সাদৃশ্য নেটওয়ার্ক   অবশেষে, আমরা সমস্ত 0-ডিগ্রী নোডগুলি বাদ দিয়েছি এবং সমস্ত প্রান্তের ওজনের মধ্যকের নীচে একটি ওজন সহ সমস্ত প্রান্ত মুছে ফেলেছি। এই পদ্ধতিটি ইউরোপীয় প্রেক্ষাপটের মধ্যে নির্বাচিত বিষয়গুলির সাথে সম্পর্কিত নিউজ আউটলেটের দর্শকদের মধ্যে সবচেয়ে শক্তিশালী মিলগুলি ক্যাপচার করতে আমাদের সক্ষম করেছে৷  টপিক মডেলিং  আমরা BERTopic ব্যবহার করেছি, একটি টপিক মডেলিং টুল যা নথির সংগ্রহ থেকে সুপ্ত বিষয়গুলি বের করে, পরীক্ষার অধীনে থাকা সমস্ত দেশে প্রচলিত উত্তপ্ত বিষয়গুলি সনাক্ত করতে। BERTopic হল একটি top2vec মডেল যা পূর্বপ্রশিক্ষিত বাক্য ট্রান্সফরমার (Grootendorst, 2022) এর জন্য সাধারণ করা হয়েছে যা সম্প্রতি বিভিন্ন কাজে আশাব্যঞ্জক ফলাফল প্রদর্শন করেছে। BERTopic তিনটি ধাপের মাধ্যমে নথির সুসংগত ক্লাস্টার তৈরি করে: 1) নথি এমবেডিং বের করা; 2) ক্লাস্টারিং এমবেডিং; 3) ক্লাস-ভিত্তিক TF-IDF (Sammut and Webb, 2011) (c-TF-IDF) ব্যবহার করে বিষয় উপস্থাপনা তৈরি করা। প্রথম ধাপে, যেকোনো প্রাক-প্রশিক্ষিত ট্রান্সফরমার-ভিত্তিক ভাষা মডেল ব্যবহার করা যেতে পারে, যা অত্যাধুনিক এম্বেডিং কৌশল ব্যবহারের অনুমতি দেয়। দ্বিতীয় ধাপে এমবেডিংয়ের মাত্রা কমাতে ইউনিফর্ম ম্যানিফোল্ড অ্যাপ্রোক্সিমেশন এবং প্রজেকশন (UMAP) ব্যবহার করা হয়েছে (McInnes et al., 2018), এবং শব্দের (HDBSCAN) সাথে অ্যাপ্লিকেশানের হায়ারার্কিকাল ডেনসিটি-ভিত্তিক স্থানিক ক্লাস্টারিং (HDBSCAN) শব্দার্থগতভাবে অনুরূপ ডকুমেন্টস ক্লাস্টার্স তৈরি করতে। এট আল।, 2017)। একটি বিষয় 'অন্যান্য' হিসাবে সেট করা হয়েছে, এবং বিভিন্ন বিষয়ের অন্তর্ভুক্ত নয় এমন নথি অন্তর্ভুক্ত করে৷  এই কাগজটি CC 4.0 লাইসেন্সের অধীনে   । arxiv-এ উপলব্ধ  [1] https://developer.twitter.com/en/docs/twitter-api

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Tech NewsByte

NewsByte

গল্পের মূল ভাষায় এই অডিও তৈরি!

ইউরোপে সংবাদ এবং ভুল তথ্যের ব্যবহার: উপকরণ এবং পদ্ধতি

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

কিভাবে 10X দ্বারা আপনার কর্মপ্রবাহ উন্নত করবেন: 17টি প্রয়োজনীয় অ্যাপ

সফল ক্লাউড মাইগ্রেশনের সম্পূর্ণ নির্দেশিকা: কৌশল এবং সর্বোত্তম অনুশীলন

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

এআই/এমএল ডাটালেকের জন্য রেফারেন্স আর্কিটেকচার তৈরির জন্য একজন স্থপতির গাইড

কিভাবে 10X দ্বারা আপনার কর্মপ্রবাহ উন্নত করবেন: 17টি প্রয়োজনীয় অ্যাপ

সফল ক্লাউড মাইগ্রেশনের সম্পূর্ণ নির্দেশিকা: কৌশল এবং সর্বোত্তম অনুশীলন

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

এআই/এমএল ডাটালেকের জন্য রেফারেন্স আর্কিটেকচার তৈরির জন্য একজন স্থপতির গাইড

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps