paint-brush
AI এর জন্য একটি বড় পদক্ষেপ: 3D-LLM 3D বিশ্বে ভাষার মডেলগুলি প্রকাশ করেদ্বারা@whatsai
3,147 পড়া
3,147 পড়া

AI এর জন্য একটি বড় পদক্ষেপ: 3D-LLM 3D বিশ্বে ভাষার মডেলগুলি প্রকাশ করে

দ্বারা Louis Bouchard2m2023/08/11
Read on Terminal Reader
Read this story w/o Javascript

অতিদীর্ঘ; পড়তে

3D-LLM হল একটি অভিনব মডেল যা ভাষা এবং আমরা যে 3D রাজ্যে বাস করি তার মধ্যে ব্যবধান দূর করে৷ এটি কেবল বিশ্বকে উপলব্ধি করে না বরং এর সাথে যোগাযোগও করে। এটি যে পৃথিবীটি দেখে তা প্রচলিতভাবে সুন্দর নাও হতে পারে, তবে এর বোঝাপড়া বিন্দু মেঘ এবং ভাষার গভীরে নিহিত।
featured image - AI এর জন্য একটি বড় পদক্ষেপ: 3D-LLM 3D বিশ্বে ভাষার মডেলগুলি প্রকাশ করে
Louis Bouchard HackerNoon profile picture
0-item

আমরা বৃহৎ ভাষার মডেলের (LLMs) অসাধারণ ক্ষমতার সাক্ষী হয়েছি, কিন্তু আমাদের চারপাশের বিশ্ব সম্পর্কে তাদের বোঝার ক্ষেত্রে একটি ফাঁক রয়েছে—একটি অনুপস্থিত অংশ। তারা টেক্সট, কোড এবং ইমেজ দিয়ে পারদর্শী হয়েছে, তবুও তারা সত্যিই আমাদের বাস্তবতার সাথে জড়িত থাকার জন্য সংগ্রাম করেছে। অর্থাৎ এখন পর্যন্ত। AI ল্যান্ডস্কেপে এখানে একটি যুগান্তকারী লাফ রয়েছে: 3D-LLM।


3D-LLM হল একটি অভিনব মডেল যা ভাষা এবং আমরা যে 3D রাজ্যে বাস করি তার মধ্যে ব্যবধান দূর করে৷ যদিও এটি আমাদের সমগ্র বিশ্বকে কভার করে না, এটি আমাদের জীবনকে গঠন করে এমন গুরুত্বপূর্ণ মাত্রা এবং পাঠ্য বোঝার ক্ষেত্রে একটি বিশাল অগ্রগতি। যেমন আপনি ভিডিওতে আবিষ্কার করবেন, 3D-LLM শুধুমাত্র বিশ্বকে উপলব্ধি করে না বরং এর সাথে ইন্টারঅ্যাক্টও করে। আপনি পরিবেশ সম্পর্কে প্রশ্ন করতে পারেন, বস্তুর সন্ধান করতে পারেন বা স্পেসগুলির মাধ্যমে নেভিগেট করতে পারেন এবং এর কমনসেন্স যুক্তির সাক্ষ্য দিতে পারেন- যা আমরা ChatGPT-এর সাথে অভিজ্ঞতার আশ্চর্যজনক কৃতিত্বের কথা স্মরণ করিয়ে দিয়েছি।


কৌতূহলজনকভাবে, এটি যে পৃথিবীটি দেখে তা প্রচলিতভাবে সুন্দর নাও হতে পারে, তবে এর বোঝাপড়া বিন্দু মেঘ এবং ভাষার গভীরে নিহিত। পয়েন্ট ক্লাউডস, 3D ডেটা উপস্থাপনার ভিত্তি, বস্তু এবং পরিবেশের স্থানিক স্থানাঙ্ক এনকোড করে, যা এআইকে বাস্তব জগতের সাথে বাস্তব বিশ্বের সাথে যোগাযোগ করতে সক্ষম করে। স্বায়ত্তশাসিত ড্রাইভিং, রোবোটিক্স এবং অগমেন্টেড রিয়েলিটিতে তাদের ভূমিকার কথা চিন্তা করুন—3D-LLM এই রাজ্যে ট্যাপ করে।


কৌতূহলবশত, আপনি ভাবতে পারেন যে কীভাবে এই ধরনের মডেলকে 3-মাত্রিক ডেটা এবং ভাষা বোঝার জন্য প্রশিক্ষণ দেওয়া হয়েছিল। প্রক্রিয়াটি উদ্ভাবনী এবং জটিল ছিল, লেখকরা একটি অনন্য 3D-টেক্সট ডেটাসেট তৈরি করেছিলেন। তারা ChatGPT-এর দক্ষতাকে কাজে লাগিয়ে তিনটি স্বতন্ত্র পদ্ধতির মাধ্যমে এই তথ্য সংগ্রহ করেছে যা আপনি শিখবেন, প্রতিটি দৃশ্যের জন্য কার্য এবং উদাহরণগুলির একটি বিস্তৃত ভান্ডার তৈরি করে।


এই সমৃদ্ধ ডেটাসেট থেকে, লেখকরা একটি AI মডেল তৈরি করেছেন যা পাঠ্য এবং 3D পয়েন্ট ক্লাউড উভয় প্রক্রিয়া করতে সক্ষম। মডেলটি দৃশ্যটি গ্রহণ করে, বিভিন্ন দৃষ্টিভঙ্গির মাধ্যমে গুরুত্বপূর্ণ বৈশিষ্ট্যগুলি বের করে এবং এটিকে এমন একটি আকারে পুনর্গঠন করে যা মডেলের বোঝার সাথে অনুরণিত হয়।


ফলাফল? প্রথম 3D-LLM-এর জন্ম, একটি মডেল যা সত্যিকার অর্থে আমাদের বিশ্বকে দেখে এবং উপলব্ধি করে—এআই-এর বিবর্তনে একটি আকর্ষণীয় আভাস দেয়। ভিডিওটি যাত্রার একটি স্ন্যাপশট অফার করে, তবে আমি আপনাকে এই উদ্ভাবনের পিছনে চিত্তাকর্ষক ইঞ্জিনিয়ারিং কৃতিত্বের গভীরে ডুব দেওয়ার জন্য কাগজটি অন্বেষণ করতে উত্সাহিত করছি৷ লিঙ্ক নীচের রেফারেন্স প্রদান করা হয়.

আপনি উত্তর দিবেন না!

আরও জানার জন্য ভিডিও দেখুন:

তথ্যসূত্র:

► সম্পূর্ণ নিবন্ধটি পড়ুন: https://www.louisbouchard.ai/3d-llm/

ভিডিও ডেমো সহ প্রকল্প পৃষ্ঠা: https://vis-www.cs.umass.edu/3dllm/ ► কোড: https://github.com/UMass-Foundation-Model/3D-LLM

►পেপার: হং এট আল।, 2023: 3D-LLM, https://arxiv.org/pdf/2307.12981.pdf

►টুইটার: https://twitter.com/Whats_AI

►আমার নিউজলেটার (একটি নতুন এআই অ্যাপ্লিকেশন আপনার ইমেলগুলিতে সাপ্তাহিক ব্যাখ্যা করা হয়!): https://www.louisbouchard.ai/newsletter/

► Patreon-এ আমাকে সমর্থন করুন: https://www.patreon.com/whatsai

►আমাদের এআই ডিসকর্ডে যোগ দিন: https://discord.gg/learnaitogether