আমরা বৃহৎ ভাষার মডেলের (LLMs) অসাধারণ ক্ষমতার সাক্ষী হয়েছি, কিন্তু আমাদের চারপাশের বিশ্ব সম্পর্কে তাদের বোঝার ক্ষেত্রে একটি ফাঁক রয়েছে—একটি অনুপস্থিত অংশ। তারা টেক্সট, কোড এবং ইমেজ দিয়ে পারদর্শী হয়েছে, তবুও তারা সত্যিই আমাদের বাস্তবতার সাথে জড়িত থাকার জন্য সংগ্রাম করেছে। অর্থাৎ এখন পর্যন্ত। AI ল্যান্ডস্কেপে এখানে একটি যুগান্তকারী লাফ রয়েছে: 3D-LLM।
3D-LLM হল একটি অভিনব মডেল যা ভাষা এবং আমরা যে 3D রাজ্যে বাস করি তার মধ্যে ব্যবধান দূর করে৷ যদিও এটি আমাদের সমগ্র বিশ্বকে কভার করে না, এটি আমাদের জীবনকে গঠন করে এমন গুরুত্বপূর্ণ মাত্রা এবং পাঠ্য বোঝার ক্ষেত্রে একটি বিশাল অগ্রগতি। যেমন আপনি ভিডিওতে আবিষ্কার করবেন, 3D-LLM শুধুমাত্র বিশ্বকে উপলব্ধি করে না বরং এর সাথে ইন্টারঅ্যাক্টও করে। আপনি পরিবেশ সম্পর্কে প্রশ্ন করতে পারেন, বস্তুর সন্ধান করতে পারেন বা স্পেসগুলির মাধ্যমে নেভিগেট করতে পারেন এবং এর কমনসেন্স যুক্তির সাক্ষ্য দিতে পারেন- যা আমরা ChatGPT-এর সাথে অভিজ্ঞতার আশ্চর্যজনক কৃতিত্বের কথা স্মরণ করিয়ে দিয়েছি।
কৌতূহলজনকভাবে, এটি যে পৃথিবীটি দেখে তা প্রচলিতভাবে সুন্দর নাও হতে পারে, তবে এর বোঝাপড়া বিন্দু মেঘ এবং ভাষার গভীরে নিহিত। পয়েন্ট ক্লাউডস, 3D ডেটা উপস্থাপনার ভিত্তি, বস্তু এবং পরিবেশের স্থানিক স্থানাঙ্ক এনকোড করে, যা এআইকে বাস্তব জগতের সাথে বাস্তব বিশ্বের সাথে যোগাযোগ করতে সক্ষম করে। স্বায়ত্তশাসিত ড্রাইভিং, রোবোটিক্স এবং অগমেন্টেড রিয়েলিটিতে তাদের ভূমিকার কথা চিন্তা করুন—3D-LLM এই রাজ্যে ট্যাপ করে।
কৌতূহলবশত, আপনি ভাবতে পারেন যে কীভাবে এই ধরনের মডেলকে 3-মাত্রিক ডেটা এবং ভাষা বোঝার জন্য প্রশিক্ষণ দেওয়া হয়েছিল। প্রক্রিয়াটি উদ্ভাবনী এবং জটিল ছিল, লেখকরা একটি অনন্য 3D-টেক্সট ডেটাসেট তৈরি করেছিলেন। তারা ChatGPT-এর দক্ষতাকে কাজে লাগিয়ে তিনটি স্বতন্ত্র পদ্ধতির মাধ্যমে এই তথ্য সংগ্রহ করেছে যা আপনি শিখবেন, প্রতিটি দৃশ্যের জন্য কার্য এবং উদাহরণগুলির একটি বিস্তৃত ভান্ডার তৈরি করে।
এই সমৃদ্ধ ডেটাসেট থেকে, লেখকরা একটি AI মডেল তৈরি করেছেন যা পাঠ্য এবং 3D পয়েন্ট ক্লাউড উভয় প্রক্রিয়া করতে সক্ষম। মডেলটি দৃশ্যটি গ্রহণ করে, বিভিন্ন দৃষ্টিভঙ্গির মাধ্যমে গুরুত্বপূর্ণ বৈশিষ্ট্যগুলি বের করে এবং এটিকে এমন একটি আকারে পুনর্গঠন করে যা মডেলের বোঝার সাথে অনুরণিত হয়।
ফলাফল? প্রথম 3D-LLM-এর জন্ম, একটি মডেল যা সত্যিকার অর্থে আমাদের বিশ্বকে দেখে এবং উপলব্ধি করে—এআই-এর বিবর্তনে একটি আকর্ষণীয় আভাস দেয়। ভিডিওটি যাত্রার একটি স্ন্যাপশট অফার করে, তবে আমি আপনাকে এই উদ্ভাবনের পিছনে চিত্তাকর্ষক ইঞ্জিনিয়ারিং কৃতিত্বের গভীরে ডুব দেওয়ার জন্য কাগজটি অন্বেষণ করতে উত্সাহিত করছি৷ লিঙ্ক নীচের রেফারেন্স প্রদান করা হয়.
আপনি উত্তর দিবেন না!
তথ্যসূত্র:
► সম্পূর্ণ নিবন্ধটি পড়ুন: https://www.louisbouchard.ai/3d-llm/
ভিডিও ডেমো সহ প্রকল্প পৃষ্ঠা: https://vis-www.cs.umass.edu/3dllm/ ► কোড: https://github.com/UMass-Foundation-Model/3D-LLM
►পেপার: হং এট আল।, 2023: 3D-LLM, https://arxiv.org/pdf/2307.12981.pdf
►টুইটার: https://twitter.com/Whats_AI
►আমার নিউজলেটার (একটি নতুন এআই অ্যাপ্লিকেশন আপনার ইমেলগুলিতে সাপ্তাহিক ব্যাখ্যা করা হয়!): https://www.louisbouchard.ai/newsletter/
► Patreon-এ আমাকে সমর্থন করুন: https://www.patreon.com/whatsai
►আমাদের এআই ডিসকর্ডে যোগ দিন: https://discord.gg/learnaitogether