paint-brush
ওপেনএআই-এর সহ-প্রতিষ্ঠাতা ইলিয়া সুটস্কেভারের সাথে একটি সাক্ষাৎকারদ্বারা@Eye on AI
16,283 পড়া
16,283 পড়া

ওপেনএআই-এর সহ-প্রতিষ্ঠাতা ইলিয়া সুটস্কেভারের সাথে একটি সাক্ষাৎকার

দ্বারা [email protected]15m2023/03/20
Read on Terminal Reader
Read this story w/o Javascript

অতিদীর্ঘ; পড়তে

AI ইতিমধ্যেই আমাদের জীবনের অনেক দিক দখল করে নিয়েছে। কিন্তু যা আসছে তা অনেক বেশি উন্নত, অনেক বেশি শক্তিশালী। আমরা অজানা অঞ্চলে চলে যাচ্ছি। তবে অতিরিক্ত প্রতিক্রিয়া না করা, উজ্জ্বল সূর্য থেকে কচ্ছপের মতো সরে না যাওয়াও গুরুত্বপূর্ণ।
featured image - ওপেনএআই-এর সহ-প্রতিষ্ঠাতা ইলিয়া সুটস্কেভারের সাথে একটি সাক্ষাৎকার
craig@eye-on.ai HackerNoon profile picture

আমরা যখন কৃত্রিম বুদ্ধিমত্তায় ভরা ভবিষ্যতের দিকে ধাবিত হচ্ছি, অনেক ভাষ্যকার উচ্চস্বরে ভাবছেন যে আমরা খুব দ্রুত এগোচ্ছি কিনা। টেক জায়ান্ট, গবেষক এবং বিনিয়োগকারীরা সবাই সবচেয়ে উন্নত AI ডেভেলপ করার জন্য পাগলামি করছে বলে মনে হচ্ছে।


কিন্তু তারা কি ঝুঁকি বিবেচনা করছেন, উদ্বিগ্নদের প্রশ্ন ?


প্রশ্নটি সম্পূর্ণরূপে বিকৃত নয়, এবং নিশ্চিত থাকুন যে ডাইস্টোপিয়ান সম্ভাবনাগুলি বিবেচনা করে শত শত উদ্দীপ্ত মন রয়েছে - এবং সেগুলি এড়ানোর উপায়গুলি।


কিন্তু সত্য যে ভবিষ্যত অজানা, এই শক্তিশালী নতুন প্রযুক্তির প্রভাব ইন্টারনেটের আবির্ভাবের সময় সোশ্যাল মিডিয়ার মতোই অকল্পনীয়।


ভাল থাকবে এবং খারাপও থাকবে, তবে আমাদের ভবিষ্যতে শক্তিশালী কৃত্রিম বুদ্ধিমত্তা সিস্টেম এবং আমাদের নাতি-নাতনিদের ভবিষ্যতে আরও শক্তিশালী AI থাকবে। এটা বন্ধ করা যাবে না, কিন্তু এটা বোঝা যায়.


আমি এই নতুন প্রযুক্তি সম্পর্কে কথা বলেছি, OpenAI- এর সহ-প্রতিষ্ঠাতা, অলাভজনক AI গবেষণা প্রতিষ্ঠান যার স্পিনঅফগুলি সম্ভবত পৃথিবীর সবচেয়ে লাভজনক সংস্থাগুলির মধ্যে হতে পারে৷


ইলিয়ার সাথে আমার কথোপকথন GPT-4 প্রকাশের কিছুক্ষণ আগে ছিল, OpenAI-এর দৈত্য এআই সিস্টেমের সর্বশেষ পুনরাবৃত্তি, যা কোটি কোটি শব্দের পাঠ্য গ্রাস করেছে - যে কোনো একজন মানুষ সম্ভবত সারাজীবনে পড়তে পারে তার চেয়ে বেশি।


জিপিটি মানে জেনারেটিভ প্রি-ট্রেইনড ট্রান্সফরমার, এই হোমরিক পলিফেমাস বোঝার জন্য তিনটি গুরুত্বপূর্ণ শব্দ। ট্রান্সফরমার হল দৈত্যের হৃদয়ে অ্যালগরিদমের নাম।


প্রাক-প্রশিক্ষিত বলতে বোঝায় বেহেমথের শিক্ষাকে বোঝায় একটি বিশাল টেক্সট সহ, এটিকে ভাষার অন্তর্নিহিত নিদর্শন এবং সম্পর্কগুলি শেখায় - সংক্ষেপে, বিশ্বকে বুঝতে শেখানো।


জেনারেটিভ মানে AI এই জ্ঞানের ভিত্তি থেকে নতুন চিন্তা তৈরি করতে পারে।


AI ইতিমধ্যেই আমাদের জীবনের অনেক দিক দখল করে নিয়েছে। কিন্তু যা আসছে তা অনেক বেশি উন্নত, অনেক বেশি শক্তিশালী। আমরা অজানা অঞ্চলে চলে যাচ্ছি। এবং এর অর্থ কী তা বিবেচনা করার জন্য একটি মুহূর্ত নেওয়া মূল্যবান।


তবে এটাও গুরুত্বপূর্ণ যে অতিরিক্ত প্রতিক্রিয়া না করা, উজ্জ্বল সূর্য থেকে কচ্ছপের মতো সরে না যাওয়া এখন আমাদের উপরে জ্বলছে। হোমারের মহাকাব্য "দ্য ওডিসি"-এ সাইক্লোপস পলিফেমাস ওডিসিউস এবং তার দলকে তার গুহায় আটকে রাখে, তাদের খেতে চায়।


কিন্তু ওডিসিয়াস দৈত্যকে অন্ধ করে পালাতে সক্ষম হয়। এআই আমাদের খাবে না।


Ilya Sutskever হলেন OpenAI-এর একজন সহ-প্রতিষ্ঠাতা এবং প্রধান বিজ্ঞানী এবং বৃহৎ ভাষা মডেল GPT-4 এবং এর সর্বজনীন বংশধর, ChatGPT-এর পিছনে প্রাথমিক মনদের মধ্যে একজন, যা আমি মনে করি না যে পৃথিবীকে পরিবর্তন করছে বলাটা অত্যুক্তি হবে।


এটিই প্রথম নয় যে ইলিয়া বিশ্বকে পরিবর্তন করেছে। তিনি ছিলেন অ্যালেক্সনেটের প্রধান অনুপ্রেরণা, একটি কনভোল্যুশনাল নিউরাল নেটওয়ার্ক যার নাটকীয় কর্মক্ষমতা 2012 সালে বৈজ্ঞানিক সম্প্রদায়কে হতবাক করেছিল এবং গভীর শিক্ষার বিপ্লব শুরু করেছিল।


নিম্নলিখিত আমাদের কথোপকথনের একটি সম্পাদিত প্রতিলিপি.


ক্রেগ: ইলিয়া, আমি জানি তোমার জন্ম রাশিয়ায়। কম্পিউটার বিজ্ঞানের প্রতি আপনার আগ্রহ কী, যদি সেটাই প্রাথমিক আবেগ, বা নিউরোসায়েন্স বা যাই হোক না কেন।


ইলিয়া: সত্যিই, আমি রাশিয়ায় জন্মগ্রহণ করেছি। আমি ইস্রায়েলে বড় হয়েছি, এবং তারপরে কিশোর বয়সে, আমার পরিবার কানাডায় চলে আসে। আমার বাবা-মা বলেন, আমি ছোটবেলা থেকেই AI এর প্রতি আগ্রহী ছিলাম। আমি চেতনা দ্বারা খুব অনুপ্রাণিত ছিল. আমি এটি দ্বারা খুব বিরক্ত ছিলাম, এবং আমি এমন জিনিসগুলি সম্পর্কে কৌতূহলী ছিলাম যা আমাকে এটি আরও ভালভাবে বুঝতে সাহায্য করতে পারে।


আমি জিওফ হিন্টনের সাথে কাজ শুরু করেছিলাম [গভীর শিক্ষার অন্যতম প্রতিষ্ঠাতা, জিপিটি-4 এর পিছনে AI ধরণের এবং সেই সময়ে টরন্টো বিশ্ববিদ্যালয়ের একজন অধ্যাপক] খুব তাড়াতাড়ি যখন আমার বয়স ছিল 17। কারণ আমরা কানাডায় চলে যাই এবং আমি সঙ্গে সঙ্গে টরন্টো বিশ্ববিদ্যালয়ে যোগদান করতে সক্ষম হন। আমি সত্যিই মেশিন লার্নিং করতে চেয়েছিলাম, কারণ এটিকে কৃত্রিম বুদ্ধিমত্তার সবচেয়ে গুরুত্বপূর্ণ দিক বলে মনে হয়েছিল যেটি তখন সম্পূর্ণরূপে অ্যাক্সেসযোগ্য ছিল না।


সেটা ছিল 2003। কম্পিউটার শিখতে পারে বলে আমরা ধরে নিলাম, কিন্তু 2003 সালে আমরা এটাকে মঞ্জুর করে নিলাম যে কম্পিউটার শিখতে পারে না । তখনকার সময়ে AI এর সবচেয়ে বড় অর্জন ছিল ডিপ ব্লু, [IBM] দাবা খেলার ইঞ্জিন [যা 1997 সালে বিশ্ব চ্যাম্পিয়ন গ্যারি কাসপারভকে পরাজিত করেছিল]।


কিন্তু সেখানে, আপনার কাছে এই গেমটি রয়েছে এবং আপনার কাছে এই গবেষণা রয়েছে এবং একটি অবস্থান অন্যটির চেয়ে ভাল কিনা তা নির্ধারণ করার এই সহজ উপায় আপনার কাছে রয়েছে। এবং এটি সত্যিই মনে হয়নি যে এটি বাস্তব জগতে প্রযোজ্য হতে পারে কারণ সেখানে কোন শিক্ষা ছিল না। শেখার এই বড় রহস্য ছিল. এবং আমি সত্যিই, সত্যিই শেখার আগ্রহী ছিল. আমার সৌভাগ্যের জন্য, জিওফ হিন্টন বিশ্ববিদ্যালয়ের একজন অধ্যাপক ছিলেন, এবং আমরা প্রায় সঙ্গে সঙ্গে একসঙ্গে কাজ শুরু করেছিলাম।


তাহলে কীভাবে বুদ্ধিমত্তা কাজ করে? কিভাবে আমরা কম্পিউটারকে সামান্য বুদ্ধিমান করতে পারি? AI-তে খুব ছোট, কিন্তু সত্যিকারের অবদান রাখার জন্য আমার খুব স্পষ্ট উদ্দেশ্য ছিল। সুতরাং, অনুপ্রেরণা ছিল, আমি বুঝতে পারি কিভাবে বুদ্ধি কাজ করে? এবং এর প্রতি কোন অবদান রাখতে হবে? তাই এটাই ছিল আমার প্রাথমিক প্রেরণা। এটি প্রায় 20 বছর আগে ছিল।


সংক্ষেপে, আমি উপলব্ধি করেছি যে আপনি যদি প্রশিক্ষণ দেন, একটি বৃহৎ নিউরাল নেটওয়ার্ক এবং একটি বৃহৎ যথেষ্ট ডেটাসেটে একটি গভীর নিউরাল নেটওয়ার্ক যা কিছু জটিল কাজকে নির্দিষ্ট করে যা মানুষ করে, যেমন দৃষ্টি, তাহলে আপনি অবশ্যই সফল হবেন। এবং এর যুক্তি ছিল অপরিবর্তনীয়; আমরা জানি যে মানুষের মস্তিষ্ক এই কাজগুলি সমাধান করতে পারে এবং দ্রুত সমাধান করতে পারে। এবং মানুষের মস্তিষ্ক স্লো নিউরন সহ একটি নিউরাল নেটওয়ার্ক মাত্র।


সুতরাং, তারপরে আমাদের কেবল একটি ছোট কিন্তু সম্পর্কিত নিউরাল নেটওয়ার্ক নিতে হবে এবং ডেটাতে প্রশিক্ষণ দিতে হবে। এবং কম্পিউটারের ভিতরের সেরা নিউরাল নেটওয়ার্কটি আমাদের মস্তিষ্কে থাকা নিউরাল নেটওয়ার্কের সাথে সম্পর্কিত হবে যা এই কাজটি করে।


CRAIG: 2017 সালে, "অ্যাটেনশন ইজ অল ইউ নিড" পেপারটি আত্ম-মনোযোগ এবং ট্রান্সফরমারের সাথে পরিচয় করিয়ে দেয়। জিপিটি প্রকল্প কোন সময়ে শুরু হয়? ট্রান্সফরমার সম্পর্কে কিছু অন্তর্দৃষ্টি ছিল?


ইলিয়া: তাই, প্রেক্ষাপটের জন্য, ওপেনএআই-তে প্রথম দিন থেকে, আমরা এই ধারণাটি অন্বেষণ করছিলাম যে পরবর্তী জিনিসটির ভবিষ্যদ্বাণী করাই আপনার প্রয়োজন। আমরা সেই সময়ের আরও অনেক সীমিত নিউরাল নেটওয়ার্কের সাথে এটি অন্বেষণ করছিলাম, কিন্তু আশা ছিল যে আপনার যদি একটি নিউরাল নেটওয়ার্ক থাকে যা পরবর্তী শব্দটি ভবিষ্যদ্বাণী করতে পারে, তাহলে এটি তত্ত্বাবধানহীন শিক্ষার সমাধান করবে। তাই GPT-এর আগে, তত্ত্বাবধানহীন শিক্ষাকে মেশিন লার্নিং-এর হলি গ্রেইল বলে মনে করা হত।


এখন এটি সম্পূর্ণরূপে সমাধান করা হয়েছে, এবং কেউ এটি সম্পর্কে কথাও বলে না, তবে এটি একটি পবিত্র গ্রিল ছিল। এটা খুবই রহস্যময় ছিল, এবং তাই আমরা ধারণাটি অন্বেষণ করছিলাম। আমি এটি সম্পর্কে সত্যিই উত্তেজিত ছিলাম, যে পরবর্তী শব্দটি যথেষ্ট ভালভাবে ভবিষ্যদ্বাণী করা আপনাকে তত্ত্বাবধানহীন শিক্ষা দিতে চলেছে।


কিন্তু আমাদের নিউরাল নেটওয়ার্ক টাস্কের জন্য প্রস্তুত ছিল না। আমরা পুনরাবৃত্ত নিউরাল নেটওয়ার্ক ব্যবহার করছিলাম। যখন ট্রান্সফরমারটি বেরিয়ে আসে, আক্ষরিক অর্থে কাগজটি বের হওয়ার সাথে সাথেই, আক্ষরিকভাবে পরের দিন, এটি আমার কাছে, আমাদের কাছে স্পষ্ট ছিল যে ট্রান্সফরমারগুলি পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলির সীমাবদ্ধতাগুলিকে সম্বোধন করে, দীর্ঘমেয়াদী নির্ভরতা শেখার জন্য।


এটা একটা টেকনিক্যাল ব্যাপার। কিন্তু আমরা তখনই ট্রান্সফরমারে চলে যাই। এবং তাই, ট্রান্সফরমারের সাথে খুব নতুন GPT প্রচেষ্টা অব্যাহত ছিল। এটি আরও ভাল কাজ করতে শুরু করেছে, এবং আপনি এটিকে আরও বড় করবেন এবং তারপরে আপনি এটিকে আরও বড় করতে থাকবেন।


এবং এটিই শেষ পর্যন্ত জিপিটি -3 এবং মূলত আমরা যেখানে আজকে নেতৃত্ব দিয়েছিল।


CRAIG: বৃহৎ ভাষার মডেলের সীমাবদ্ধতা যেহেতু তারা বিদ্যমান তা হল যে তাদের জ্ঞান সেই ভাষাতে রয়েছে যা তারা প্রশিক্ষিত। এবং অধিকাংশ মানুষের জ্ঞান, আমি মনে করি সবাই একমত, অ-ভাষাগত।


তাদের উদ্দেশ্য হল প্রম্পটের পরিসংখ্যানগত সামঞ্জস্যকে সন্তুষ্ট করা। ভাষার সাথে সম্পর্কযুক্ত বাস্তবতা সম্পর্কে তাদের অন্তর্নিহিত উপলব্ধি নেই। আমি ChatGPT কে নিজের সম্পর্কে জিজ্ঞাসা করেছি। এটি স্বীকার করেছে যে আমি একজন সাংবাদিক, আমি এই বিভিন্ন সংবাদপত্রে কাজ করেছি, কিন্তু এটি এমন পুরষ্কারগুলি নিয়ে চলতে থাকে যা আমি কখনও জিতেনি। এবং এটি সব সুন্দরভাবে পড়া, কিন্তু এর সামান্যই অন্তর্নিহিত বাস্তবতার সাথে সংযুক্ত। আপনার গবেষণা এগিয়ে যাচ্ছে যে মোকাবেলা করার জন্য কিছু করা হচ্ছে?


ইলিয়া: আমরা কতটা আত্মবিশ্বাসী যে আমরা আজকে যে সীমাবদ্ধতাগুলি দেখতে পাচ্ছি এখন থেকে দুই বছর পরেও আমাদের সাথে থাকবে? আমি ততটা আত্মবিশ্বাসী নই। প্রশ্নটির একটি অংশ সম্পর্কে আমি আরেকটি মন্তব্য করতে চাই, যা হল এই মডেলগুলি কেবল পরিসংখ্যানগত নিয়মিততা শিখে এবং তাই তারা সত্যিই জানে না যে বিশ্বের প্রকৃতি কী।


আমার একটি দৃষ্টিভঙ্গি আছে যা এই থেকে ভিন্ন। অন্য কথায়, আমি মনে করি যে পরিসংখ্যানগত নিয়মিততা শেখা চোখের পূরণের চেয়ে অনেক বড় ব্যাপার।


ভবিষ্যদ্বাণীও একটি পরিসংখ্যানগত ঘটনা। তবুও ভবিষ্যদ্বাণী করার জন্য আপনাকে অন্তর্নিহিত প্রক্রিয়াটি বুঝতে হবে যা ডেটা তৈরি করেছে। ডেটা উৎপন্নকারী বিশ্ব সম্পর্কে আপনাকে আরও বেশি করে বুঝতে হবে।


আমাদের জেনারেটিভ মডেলগুলি অসাধারণভাবে ভাল হয়ে উঠলে, আমি দাবি করি, তাদের কাছে বিশ্ব এবং এর অনেক সূক্ষ্মতা বোঝার একটি চমকপ্রদ ডিগ্রি থাকবে। এটা টেক্সট লেন্স মাধ্যমে দেখা হিসাবে পৃথিবী. এটি ইন্টারনেটে মানুষের দ্বারা প্রকাশ করা পাঠ্যের স্থানের উপর বিশ্বের একটি অভিক্ষেপের মাধ্যমে বিশ্ব সম্পর্কে আরও বেশি করে জানার চেষ্টা করে।


কিন্তু এখনও, এই টেক্সট ইতিমধ্যে বিশ্বের প্রকাশ. এবং আমি আপনাকে একটি উদাহরণ দেব, একটি সাম্প্রতিক উদাহরণ, যা আমি মনে করি সত্যিই বলার এবং আকর্ষণীয়। আমি [ChatGPT] এর সাথে এই সত্যিই আকর্ষণীয় ইন্টারঅ্যাকশন দেখেছি যেখানে [ChatGPT] লড়াই এবং আক্রমণাত্মক হয়ে ওঠে যখন ব্যবহারকারী এটিকে বলে যে এটি মনে করে যে Google Bing এর চেয়ে ভাল সার্চ ইঞ্জিন।


এই ঘটনা সম্পর্কে চিন্তা করার একটি ভাল উপায় কি? এর মানে কী? আপনি বলতে পারেন, এটি কেবল ভবিষ্যদ্বাণী করছে যে লোকেরা কী করবে এবং লোকেরা এটি করবে, যা সত্য। কিন্তু হয়তো আমরা এখন এমন এক পর্যায়ে পৌঁছেছি যেখানে এই নিউরাল নেটওয়ার্কের আচরণ বোঝার জন্য মনোবিজ্ঞানের ভাষা ব্যবহার করা শুরু হয়েছে।


এখন সীমাবদ্ধতা সম্পর্কে কথা বলা যাক। প্রকৃতপক্ষে এই নিউরাল নেটওয়ার্কগুলির হ্যালুসিনেশনের প্রবণতা রয়েছে। এর কারণ একটি ভাষা মডেল বিশ্ব সম্পর্কে শেখার জন্য দুর্দান্ত, তবে ভাল আউটপুট তৈরির জন্য এটি কিছুটা কম দুর্দান্ত। আর এর পেছনে বিভিন্ন প্রযুক্তিগত কারণ রয়েছে। প্রযুক্তিগত কারণ রয়েছে যে কেন একটি ভাষা মডেল বিশ্ব সম্পর্কে শেখার ক্ষেত্রে, ধারণাগুলির, ধারণাগুলির, মানুষের, বিদ্যমান প্রক্রিয়াগুলির অবিশ্বাস্য উপস্থাপনা শেখার ক্ষেত্রে অনেক বেশি ভাল, তবে এর ফলাফলগুলি আশা করা যায় এমন ভাল নয়, বা বরং তারা হতে পারে হিসাবে ভাল.


ইলিয়া: যে কারণে, উদাহরণস্বরূপ, ChatGPT এর মতো একটি সিস্টেমের জন্য, যা একটি ভাষা মডেল, একটি অতিরিক্ত শক্তিবৃদ্ধি শেখার প্রশিক্ষণ প্রক্রিয়া রয়েছে৷ আমরা একে বলি মানব প্রতিক্রিয়া থেকে রিইনফোর্সমেন্ট লার্নিং।


আমরা বলতে পারি যে প্রাক-প্রশিক্ষণ প্রক্রিয়ায়, আপনি বিশ্বের সবকিছু শিখতে চান। মানুষের প্রতিক্রিয়া থেকে শক্তিবৃদ্ধি শেখার সাথে, আমরা আউটপুট সম্পর্কে যত্নশীল। আমরা বলি, যে কোনো সময় আউটপুট অনুপযুক্ত, এটি আবার করবেন না। প্রতিবার আউটপুট মানে না, এটি আবার করবেন না।


এবং এটি ভাল আউটপুট উত্পাদন করতে দ্রুত শিখে। তবে এটি আউটপুটগুলির স্তর, যা ভাষা মডেল প্রাক-প্রশিক্ষণ প্রক্রিয়ার সময় হয় না।


এখন হ্যালুসিনেশনের বিন্দুতে, এটি সময়ে সময়ে জিনিসপত্র তৈরি করার প্রবণতা রয়েছে এবং এটি এমন কিছু যা তাদের উপযোগিতাকে ব্যাপকভাবে সীমিত করে।


কিন্তু আমি যথেষ্ট আশাবাদী যে মানুষের প্রতিক্রিয়া পদক্ষেপ থেকে এই পরবর্তী শক্তিবৃদ্ধি শেখার উন্নতি করে, আমরা এটিকে হ্যালুসিনেট না করতে শেখাতে পারি। এখন আপনি বলতে পারেন এটা কি সত্যিই শিখতে যাচ্ছে? আমার উত্তর, চলুন খুঁজে বের করা যাক.


আজকে আমরা যেভাবে কাজ করি তা হল আমাদের নিউরাল নেটওয়ার্ককে আচরণ করতে শেখানোর জন্য, ChatGPT-কে আচরণ করতে শেখানোর জন্য আমরা লোকেদের নিয়োগ করি। আপনি কেবল এটির সাথে ইন্টারঅ্যাক্ট করেন, এবং এটি আপনার প্রতিক্রিয়া থেকে দেখে, এটি অনুমান করে, ওহ, আপনি যা চেয়েছিলেন তা নয়। আপনি এর আউটপুট নিয়ে খুশি নন।


অতএব, আউটপুট ভাল ছিল না, এবং এটি পরের বার ভিন্নভাবে কিছু করা উচিত। আমি মনে করি এই পদ্ধতিটি সম্পূর্ণরূপে হ্যালুসিনেশনকে মোকাবেলা করতে সক্ষম হওয়ার একটি উচ্চ সম্ভাবনা রয়েছে।


ক্রেইগ: ইয়ান লেকুন [ফেসবুকের প্রধান এআই বিজ্ঞানী এবং গভীর শিক্ষার আরেকজন প্রাথমিক পথিকৃৎ] বিশ্বাস করেন যে বৃহৎ ভাষার মডেলগুলি থেকে যা অনুপস্থিত তা হল এই অন্তর্নিহিত বিশ্ব মডেল যা অ-ভাষাগত যা ভাষা মডেল উল্লেখ করতে পারে। আমি শুনতে চেয়েছিলাম যে আপনি এটি সম্পর্কে কী ভাবছেন এবং আপনি এটিকে অন্বেষণ করেছেন কিনা।


ইলিয়া: আমি ইয়ান লেকুন এর প্রস্তাব পর্যালোচনা করেছি এবং সেখানে অনেকগুলি ধারণা রয়েছে এবং সেগুলি বিভিন্ন ভাষায় প্রকাশ করা হয়েছে এবং বর্তমান দৃষ্টান্ত থেকে কিছু ছোট পার্থক্য রয়েছে, কিন্তু আমার মনে, সেগুলি খুব গুরুত্বপূর্ণ নয়।


প্রথম দাবি হল যে একটি সিস্টেমের জন্য মাল্টিমডাল বোঝাপড়া থাকা বাঞ্ছনীয় যেখানে এটি কেবল পাঠ্য থেকে বিশ্ব সম্পর্কে জানে না।


এবং সে সম্পর্কে আমার মন্তব্যটি হবে যে প্রকৃতপক্ষে মাল্টিমোডাল বোঝাপড়া বাঞ্ছনীয় কারণ আপনি বিশ্ব সম্পর্কে আরও শিখবেন, আপনি মানুষ সম্পর্কে আরও শিখবেন, আপনি তাদের অবস্থা সম্পর্কে আরও শিখবেন, এবং তাই সিস্টেমটি বুঝতে সক্ষম হবে যে এটির কাজটি কী করা উচিত। সমাধান, এবং মানুষ এবং তারা কি ভাল চান.


আমরা এটির উপর বেশ কিছুটা কাজ করেছি, বিশেষত দুটি প্রধান নিউরাল নেটগুলির আকারে যা আমরা করেছি। একটিকে ক্লিপ এবং একটিকে ডাল-ই বলা হয়। এবং তারা উভয়ই এই মাল্টিমডাল দিকে অগ্রসর হয়।


কিন্তু আমি এটাও বলতে চাই যে আমি পরিস্থিতিটিকে বাইনারি হিসাবে দেখি না-বা, যদি আপনার দৃষ্টি না থাকে, আপনি যদি বিশ্বকে দৃশ্যত বা ভিডিও থেকে বুঝতে না পারেন, তাহলে জিনিসগুলি কাজ করবে না।


এবং আমি যে জন্য মামলা করতে চাই. তাই, আমি মনে করি যে কিছু জিনিস ইমেজ এবং ডায়াগ্রাম থেকে শেখা অনেক সহজ, কিন্তু আমি দাবি করি যে আপনি এখনও সেগুলি শুধুমাত্র পাঠ্য থেকে শিখতে পারেন, আরও ধীরে ধীরে। এবং আমি আপনাকে একটি উদাহরণ দিতে হবে. রঙের ধারণাটি বিবেচনা করুন।


নিশ্চিতভাবে কেউ শুধুমাত্র টেক্সট থেকে রঙের ধারণা শিখতে পারে না, এবং তবুও আপনি যখন এম্বেডিংগুলি দেখেন — আমাকে এম্বেডিংয়ের ধারণাটি ব্যাখ্যা করার জন্য একটি ছোট পথচলা করতে হবে। প্রতিটি নিউরাল নেটওয়ার্ক উচ্চ-মাত্রিক ভেক্টর, 'এম্বেডিং' এর মাধ্যমে শব্দ, বাক্য, ধারণা উপস্থাপন করে।


এবং আমরা সেই উচ্চ-মাত্রিক ভেক্টরগুলির দিকে তাকাতে পারি এবং দেখতে পারি কিসের সাথে মিল রয়েছে; কিভাবে নেটওয়ার্ক এই ধারণা বা সেই ধারণা দেখতে পায়? এবং তাই, আমরা রঙের এম্বেডিংগুলি দেখতে পারি এবং এটি জানে যে বেগুনি লালের চেয়ে নীলের সাথে বেশি মিল এবং এটি জানে যে লাল বেগুনি থেকে কমলার সাথে বেশি মিল। এটা শুধু টেক্সট থেকে ঐ সব জিনিস জানে. কিভাবে এটা পারব?


যদি আপনার দৃষ্টি থাকে, রঙের মধ্যে পার্থক্যগুলি কেবল আপনার দিকে ঝাঁপিয়ে পড়ে। আপনি অবিলম্বে তাদের উপলব্ধি. যেখানে পাঠ্যের সাথে, এটি আপনাকে আরও বেশি সময় নেয়, সম্ভবত আপনি কীভাবে কথা বলতে জানেন এবং আপনি ইতিমধ্যে সিনট্যাক্স এবং শব্দ এবং ব্যাকরণ বোঝেন এবং শুধুমাত্র অনেক পরে আপনি আসলে রঙগুলি বুঝতে শুরু করেন।


সুতরাং, এটি মাল্টিমডালিটির প্রয়োজনীয়তা সম্পর্কে আমার বক্তব্য হবে: আমি দাবি করি এটি প্রয়োজনীয় নয়, তবে এটি অবশ্যই সবচেয়ে কার্যকর। আমি মনে করি এটি অনুসরণ করা একটি ভাল দিক। আমি শুধু এই ধরনের কঠোর হয় না-বা দাবি দেখতে না.


সুতরাং, [LeCun's] কাগজে প্রস্তাবটি একটি দাবি করে যে বড় চ্যালেঞ্জগুলির মধ্যে একটি হল উচ্চমাত্রিক ভেক্টরগুলির ভবিষ্যদ্বাণী করা যা তাদের সম্পর্কে অনিশ্চয়তা রয়েছে।


কিন্তু একটি জিনিস যা আমি আশ্চর্যজনক, বা অন্তত অস্বীকৃত কাগজে পেয়েছি, তা হল বর্তমান অটোরিগ্রেসিভ ট্রান্সফরমারগুলির ইতিমধ্যেই সম্পত্তি রয়েছে।


আমি আপনাকে দুটি উদাহরণ দেব। একটি হল, একটি বইয়ের একটি পৃষ্ঠা দেওয়া, একটি বইয়ের পরবর্তী পৃষ্ঠার পূর্বাভাস। অনুসরণ করে এমন অনেকগুলি সম্ভাব্য পৃষ্ঠা থাকতে পারে। এটি একটি খুব জটিল, উচ্চ-মাত্রিক স্থান, এবং তারা এটিকে ঠিকভাবে মোকাবেলা করে। একই চিত্র প্রযোজ্য. এই অটোরিগ্রেসিভ ট্রান্সফরমারগুলি চিত্রগুলিতে পুরোপুরি কাজ করে।


উদাহরণস্বরূপ, OpenAI এর মতো, আমরা iGPT-তে কাজ করেছি। আমরা শুধু একটি ট্রান্সফরমার নিয়েছি, এবং আমরা এটি পিক্সেলগুলিতে প্রয়োগ করেছি, এবং এটি খুব ভাল কাজ করেছে, এবং এটি খুব জটিল এবং সূক্ষ্ম উপায়ে ছবি তৈরি করতে পারে। ডাল-ই 1 এর সাথে, আবার একই জিনিস।


সুতরাং, যে অংশে আমি ভেবেছিলাম যে কাগজটি চারপাশে একটি শক্তিশালী মন্তব্য করেছে যেখানে বর্তমান পদ্ধতিগুলি উচ্চ মাত্রিক বিতরণের পূর্বাভাস দেওয়ার সাথে মোকাবিলা করতে পারে না - আমি মনে করি তারা অবশ্যই পারে।


ক্রেগ: মানব প্রশিক্ষকদের একটি বাহিনী থাকার এই ধারণাটি যা ChatGPT বা একটি বৃহৎ ভাষা মডেলের সাথে কাজ করছে যাতে এটিকে শক্তিশালীকরণ শিক্ষার সাথে কার্যকরভাবে পরিচালনা করা যায়, কেবল স্বজ্ঞাতভাবে, এটি অন্তর্নিহিত সম্পর্কে একটি মডেল শেখানোর একটি কার্যকর উপায় বলে মনে হয় না এর ভাষার বাস্তবতা।


ইলিয়া: আমি প্রশ্নের বাক্যাংশের সাথে একমত নই। আমি দাবি করি যে আমাদের প্রাক-প্রশিক্ষিত মডেলরা অন্তর্নিহিত বাস্তবতা সম্পর্কে তাদের যা জানা দরকার তা ইতিমধ্যেই জানে। তাদের ইতিমধ্যেই ভাষার এই জ্ঞান রয়েছে এবং বিশ্বের যে প্রক্রিয়াগুলি এই ভাষা তৈরি করে সেগুলি সম্পর্কেও প্রচুর জ্ঞান রয়েছে।


বড় জেনারেটিভ মডেলগুলি তাদের ডেটা সম্পর্কে যে জিনিসটি শিখে — এবং এই ক্ষেত্রে, বৃহৎ ভাষার মডেলগুলি — বাস্তব-বিশ্বের প্রক্রিয়াগুলির সংকুচিত উপস্থাপনা যা এই ডেটা তৈরি করেছে, যার অর্থ কেবল মানুষ এবং তাদের চিন্তাভাবনা সম্পর্কে কিছু নয়, তাদের অনুভূতি সম্পর্কে কিছু, কিন্তু মানুষ যে অবস্থায় আছে এবং তাদের মধ্যে বিদ্যমান মিথস্ক্রিয়া সম্পর্কেও কিছু।


একজন ব্যক্তি যে বিভিন্ন পরিস্থিতিতে থাকতে পারে। এগুলো সবই সেই সংকুচিত প্রক্রিয়ার অংশ যা পাঠ্য তৈরি করতে নিউরাল নেট দ্বারা প্রতিনিধিত্ব করা হয়। ভাষা মডেল যত ভাল, উৎপাদক মডেল তত ভাল, বিশ্বস্ততা যত বেশি, তত ভাল এটি এই প্রক্রিয়াটিকে ক্যাপচার করে।


এখন, শিক্ষকদের বাহিনী, আপনি যেমন শব্দগুচ্ছ বলছেন, প্রকৃতপক্ষে, সেই শিক্ষকরাও এআই সহায়তা ব্যবহার করছেন। সেই শিক্ষকরা নিজেরাই নয়। তারা আমাদের সরঞ্জামগুলির সাথে কাজ করছে এবং সরঞ্জামগুলি বেশিরভাগ কাজ করছে৷ কিন্তু আপনার নজরদারি থাকা দরকার; আপনার লোকেদের আচরণ পর্যালোচনা করা দরকার কারণ আপনি অবশেষে একটি খুব উচ্চ স্তরের নির্ভরযোগ্যতা অর্জন করতে চান।


প্রকৃতপক্ষে এটিকে যতটা সম্ভব দক্ষ এবং যথাসম্ভব সুনির্দিষ্ট করে তোলার জন্য প্রচুর প্রেরণা রয়েছে যাতে ফলস্বরূপ ভাষার মডেলটি যতটা সম্ভব ভাল আচরণ করা হয়।


ইলিয়া: তাই হ্যাঁ, এই মানব শিক্ষক আছেন যারা মডেল কাঙ্ক্ষিত আচরণ শেখাচ্ছেন। এবং তারা যেভাবে এআই সিস্টেম ব্যবহার করে তা ক্রমাগত বৃদ্ধি পাচ্ছে, তাই তাদের নিজস্ব দক্ষতা বৃদ্ধি পাচ্ছে।


এটি একটি শিক্ষা প্রক্রিয়ার মতো নয়, কীভাবে বিশ্বে ভাল আচরণ করা যায়।


মডেলটি জানে যে হ্যালুসিনেশন কখনই ঠিক নয় তা নিশ্চিত করার জন্য আমাদের অতিরিক্ত প্রশিক্ষণ করতে হবে। এবং এটি সেই শক্তিবৃদ্ধি শেখার মানব শিক্ষক লুপ বা অন্য কিছু বৈকল্পিক যা এটি শেখাবে।


এখানে কিছু কাজ করা উচিত. এবং আমরা খুব শীঘ্রই খুঁজে বের করতে হবে.


ক্রেগ: এটা কোথায় যাচ্ছে? কি, গবেষণা আপনি এই মুহূর্তে ফোকাস?


ইলিয়া: আমি যে নির্দিষ্ট গবেষণায় কাজ করছি সে সম্পর্কে আমি বিস্তারিতভাবে কথা বলতে পারি না, তবে আমি বিস্তৃত স্ট্রোকের কিছু গবেষণা উল্লেখ করতে পারি। আমি সেই মডেলগুলিকে আরও নির্ভরযোগ্য, আরও নিয়ন্ত্রণযোগ্য করতে, পাঠের ডেটা, কম নির্দেশাবলী থেকে দ্রুত শিখতে আগ্রহী। তাদের তৈরি করুন যাতে তারা প্রকৃতপক্ষে হ্যালুসিনেশন না করে।


ক্রেগ: আমি শুনেছি আপনি একটি মন্তব্য করেছেন যে আমাদের আরও স্কেল করতে সক্ষম হওয়ার জন্য দ্রুত প্রসেসর দরকার। এবং এটি প্রদর্শিত হয় যে মডেলগুলির স্কেলিং, যে দৃষ্টিশক্তির কোন শেষ নেই, তবে এই মডেলগুলিকে প্রশিক্ষণের জন্য যে শক্তি প্রয়োজন, আমরা সীমাতে পৌঁছেছি, অন্তত সামাজিকভাবে স্বীকৃত সীমাতে।


ইলিয়া: আপনি যে মন্তব্যটি উল্লেখ করছেন তা আমি সঠিক মন্তব্যটি মনে করি না, তবে আপনি সর্বদা দ্রুত প্রসেসর চান। অবশ্যই, শক্তি বাড়তে থাকে। সাধারণভাবে বলতে গেলে, খরচ বাড়ছে।


এবং আমি যে প্রশ্নটি জিজ্ঞাসা করব তা হল ব্যয়টি বড় কিনা তা নয়, তবে আমরা এই খরচটি পরিশোধ করে যে জিনিসটি পাই তা খরচের চেয়ে বেশি কিনা। হয়তো আপনি এই সমস্ত খরচ দিতে পারেন, এবং আপনি কিছুই পাবেন না, তাহলে হ্যাঁ, এটা মূল্য নয়।


কিন্তু আপনি যদি খুব দরকারী, খুব মূল্যবান কিছু পান, এমন কিছু যা আমাদের অনেক সমস্যার সমাধান করতে পারে, যা আমরা সত্যিই সমাধান করতে চাই, তাহলে খরচটি ন্যায়সঙ্গত হতে পারে।


ক্রেগ: আপনি এক পর্যায়ে কথা বলেছিলেন আমি গণতন্ত্র সম্পর্কে দেখেছি এবং AI এর উপর যে প্রভাব ফেলতে পারে, গণতন্ত্র সম্পর্কে।


লোকেরা আমার সাথে এমন একটি দিন সম্পর্কে কথা বলেছে যখন দ্বন্দ্ব, যা অমীমাংসিত বলে মনে হয়, যদি আপনার কাছে পর্যাপ্ত ডেটা এবং যথেষ্ট বড় মডেল থাকে, আপনি ডেটাতে মডেলটিকে প্রশিক্ষণ দিতে পারেন এবং এটি একটি সর্বোত্তম সমাধান নিয়ে আসতে পারে যা সবাইকে সন্তুষ্ট করবে।


আপনি কি ভাবেন যে এটি মানুষকে সমাজ পরিচালনায় সহায়তা করার ক্ষেত্রে কোথায় নিয়ে যেতে পারে?


ইলিয়া: এটি এত বড় প্রশ্ন কারণ এটি অনেক বেশি ভবিষ্যতের প্রশ্ন। আমি মনে করি যে এখনও অনেক উপায় রয়েছে যাতে আমাদের মডেলগুলি এখনকার তুলনায় অনেক বেশি সক্ষম হয়ে উঠবে।


সরকারগুলি বিভিন্ন ধরণের পরামর্শের উত্স হিসাবে এই প্রযুক্তিটি কীভাবে ব্যবহার করবে তা অবিশ্বাস্য।


আমি মনে করি যে গণতন্ত্রের প্রশ্নে, একটি জিনিস যা আমি মনে করি ভবিষ্যতে ঘটতে পারে তা হ'ল আপনার কাছে এই স্নায়ু জাল রয়েছে এবং সেগুলি এত ব্যাপক হতে চলেছে এবং সেগুলি সমাজে এত প্রভাবশালী হতে চলেছে, আমরা করব এটি একটি গণতান্ত্রিক প্রক্রিয়া থাকা বাঞ্ছনীয় যেখানে একটি দেশের নাগরিকরা নিউরাল নেটকে কিছু তথ্য প্রদান করে যে তারা জিনিসগুলি কেমন হতে চায় তা খুঁজে বের করুন। আমি যে ঘটছে কল্পনা করতে পারেন.


এটি গণতন্ত্রের একটি খুব উচ্চ ব্যান্ডউইথ ফর্ম হতে পারে, যেখানে আপনি প্রতিটি নাগরিকের কাছ থেকে অনেক বেশি তথ্য পাবেন এবং আপনি এটিকে একত্রিত করে নির্দিষ্ট করুন যে আমরা এই ধরনের সিস্টেমগুলি কীভাবে কাজ করতে চাই। এখন এটি অনেকগুলি প্রশ্ন খোলে, তবে এটি এমন একটি জিনিস যা ভবিষ্যতে ঘটতে পারে।


কিন্তু সব ভেরিয়েবল বিশ্লেষণ করার মানে কি? অবশেষে আপনি যেখানে বলবেন সেখানে একটি পছন্দ করতে হবে, এই ভেরিয়েবলগুলি সত্যিই গুরুত্বপূর্ণ বলে মনে হচ্ছে। আমি গভীরে যেতে চাই। কারণ আমি একশত বই পড়তে পারি, অথবা আমি খুব ধীরে ধীরে এবং মনোযোগ সহকারে একটি বই পড়তে পারি এবং এটি থেকে আরও বেশি কিছু পেতে পারি। সুতরাং, যে কিছু উপাদান থাকবে. এছাড়াও, আমি মনে করি কিছু অর্থে সবকিছু বোঝা সম্ভবত মৌলিকভাবে অসম্ভব। চলুন, কিছু সহজ উদাহরণ নেওয়া যাক।


যে কোনো সময় সমাজে যে কোনো ধরনের জটিল পরিস্থিতি, এমনকি একটি কোম্পানিতে, এমনকি একটি মাঝারি আকারের কোম্পানিতেও, এটি ইতিমধ্যেই যে কোনো একক ব্যক্তির বোঝার বাইরে। এবং আমি মনে করি যে আমরা যদি আমাদের AI সিস্টেমগুলি সঠিকভাবে তৈরি করি, আমি মনে করি AI যে কোনও পরিস্থিতিতে অবিশ্বাস্যভাবে সহায়ক হতে পারে।


ক্রেগ এস. স্মিথ দ্য নিউ ইয়র্ক টাইমসের একজন প্রাক্তন সংবাদদাতা এবং নির্বাহী। তিনি AI-তে পডকাস্ট আই- এর হোস্ট


এছাড়াও এখানে প্রকাশিত