ভার্চুয়াল রিয়েলিটি (ভিআর) প্রযুক্তির সাথে আমরা কীভাবে যোগাযোগ করি তার নতুন সীমানা খুলে দিয়েছে। আমি সম্প্রতি একটি প্রযুক্তিগত ডেমোর মাধ্যমে সেই সীমানাগুলিকে আরও এগিয়ে নেওয়ার সুযোগ পেয়েছি যা ChatGPT , Google স্পিচ-টু-টেক্সট (STT) এবং Amazon Web Services (AWS) পলিকে একটি VR অভিজ্ঞতায় সংহত করে।
ফলাফল?
একটি এআই-চালিত রেডি প্লেয়ার মি অবতারের সাথে একটি সত্যিকারের নিমগ্ন এবং ইন্টারেক্টিভ কথোপকথন, যা ChatGPT-এর প্রতিক্রিয়া দ্বারা চালিত এবং ভয়েস ইনপুট এবং আউটপুট ক্ষমতা দিয়ে সমৃদ্ধ৷
এই টেক ডেমোর পিছনে ধারণাটি ছিল একটি ভার্চুয়াল রুম তৈরি করা যেখানে ব্যবহারকারীরা ChatGPT দ্বারা চালিত AI অবতারের সাথে বাস্তবসম্মত কথোপকথন করতে পারে।
অভিজ্ঞতাটিকে পরবর্তী স্তরে নিয়ে যাওয়ার জন্য, আমি ভয়েস ইনপুটের জন্য Google STT সংহত করেছি, যা ব্যবহারকারীর বক্তৃতা পাঠ্যে প্রতিলিপি করে। এই পাঠ্যটি প্রক্রিয়াকরণের জন্য একটি মাইক্রো-সার্ভিসে পাঠানো হয় এবং একটি প্রাসঙ্গিক প্রতিক্রিয়া তৈরি করার জন্য ChatGPT-এ ফরোয়ার্ড করা হয়। একবার প্রতিক্রিয়া তৈরি হলে, AWS পলি টেক্সট-টু-স্পীচ (TTS) রূপান্তরের জন্য ব্যবহার করা হয় এবং আউটপুটটি ভয়েস প্রক্রিয়াকরণের জন্য অবতারে ফেরত পাঠানো হয়, যার ফলে বেশিরভাগই নির্বিঘ্ন এবং গতিশীল কথোপকথন হয়।
এই টেক ডেমোর স্ট্যান্ডআউট বৈশিষ্ট্যগুলির মধ্যে একটি হল রেডি প্লেয়ার মি অবতারগুলির ইন্টিগ্রেশন, যেখানে লিপ সিঙ্ক চালু আছে। এর মানে হল যে অডিও বাজানোর সাথে সাথে, অবতারের মুখ তাদের বক্তৃতার সাথে সুসংগতভাবে চলে, একটি অত্যন্ত বাস্তবসম্মত এবং ইন্টারেক্টিভ কথোপকথনের অভিজ্ঞতা তৈরি করে। এই অবতারগুলি AI এর ভিজ্যুয়াল উপস্থাপনা হিসাবে কাজ করে, কথোপকথনে নিমজ্জন এবং ব্যক্তিগতকরণের একটি স্তর যুক্ত করে।
কথোপকথনগুলিকে আকর্ষক করার জন্য, আমি ChatGPT-এর জন্য তিনটি পূর্ব-পূর্ণ প্রম্পট পরিস্থিতি তৈরি করেছি।
প্রথম দৃশ্যে, এআই একটি আর্থিক প্রতিনিধির ভূমিকা পালন করে, আর্থিক এবং বিনিয়োগ পরিচালনার বিষয়ে পরামর্শ প্রদান করে।
দ্বিতীয় দৃশ্যে এআই একজন মনোরোগ বিশেষজ্ঞ হিসেবে কাজ করে, ভার্চুয়াল থেরাপি এবং কাউন্সেলিং প্রদান করে।
অবশেষে, তৃতীয় দৃশ্যে, AI ভার্চুয়াল গিয়ার এবং আইটেম বিক্রি করে একটি ফ্যান্টাসি ব্যবসায়ীর ব্যক্তিত্ব গ্রহণ করে।
এই পরিস্থিতিগুলি অর্থ, মানসিক স্বাস্থ্য এবং বিনোদনের মতো বিভিন্ন ডোমেনে এই প্রযুক্তির সম্ভাব্য ব্যবহারের ক্ষেত্রে একটি আভাস দেয়।
যদিও যথেষ্ট কথা বলা হয়নি, প্রম্পট ইঞ্জিনিয়ারিং তার নিজের অধিকারে একটি প্রতিভা। আপনি কোডে দেখতে পাচ্ছেন, একটি প্রাসঙ্গিক দৃশ্য সেট আপ করা এবং অবতারটি যাতে চরিত্র হারায় না তা নিশ্চিত করা জটিল হতে পারে। মূলত, আমাদের নিশ্চিত করতে হবে যে মডেলটি স্ক্রিপ্ট ভঙ্গ করে না কিন্তু বাস্তবসম্মত থাকে। উপরের সম্পূর্ণ ভিডিওগুলি থেকে, আপনি দেখতে পাবেন যে ফ্যান্টাসি বণিক মাঝে মাঝে চরিত্র ভেঙে ফেলে এবং তাদের আবেগের কথা বলার সময় "ভাল, ভাল, ভাল" বলার পুনরাবৃত্তিমূলক, প্রায় নার্ভাস টিক প্রদর্শন করে৷
এটি লক্ষ্য করা গুরুত্বপূর্ণ যে এই প্রযুক্তির ডেমো প্রাথমিকভাবে শিল্প নির্দেশনার জন্য অফ-দ্য-শেল্ফ অ্যানিমেশন এবং মডেলগুলি ব্যবহার করে। যাইহোক, একটি পূর্ণাঙ্গ প্রয়োগের জন্য, বাস্তবসম্মত অ্যানিমেশনগুলিতে বিনিয়োগ করা, যার মধ্যে ইতিবাচক/নেতিবাচক অ্যানিমেশন টোনগুলির জন্য অনুভূতি বিশ্লেষণ সহ কথা বলা অ্যানিমেশন এবং প্রক্রিয়াকরণের সময় ফিলার অ্যানিমেশনগুলি এআই মিথস্ক্রিয়াগুলির বিশ্বাসযোগ্যতা এবং স্বাভাবিকতাকে বাড়িয়ে তুলতে পারে। এটি নিমগ্ন অভিজ্ঞতাকে আরও উন্নত করবে এবং এটিকে মানুষের মতো কথোপকথনের অনুরূপ করে তুলবে৷
সত্যিকারের নিমগ্ন VR কথোপকথনের অভিজ্ঞতা তৈরি করার চ্যালেঞ্জগুলির মধ্যে একটি হল আমাদের ইন্দ্রিয়ের সীমাবদ্ধতা। ভার্চুয়াল পরিবেশে, আমরা বিশ্বের উপলব্ধি করতে এবং যোগাযোগ করতে সাধারণত দৃষ্টিশক্তি এবং শব্দের উপর নির্ভর করি। যেহেতু এই 2টি ইন্দ্রিয়গুলি নিযুক্ত থাকে, আপনি যখন একটি দৃশ্যে কিছু বন্ধ মনে হয় তখন আপনি হাইপার-সচেতন হন। ভার্চুয়াল বিশ্বকে আরও বাস্তব বোধ করতে এবং পরিবেশের পরাবাস্তব প্রকৃতি থেকে বিভ্রান্ত করতে, বাস্তব-বিশ্বের পরিবেশের অনুকরণ করে এমন বিশ্বাসযোগ্য পরিবেশ তৈরি করা অত্যন্ত গুরুত্বপূর্ণ।
ভিআর-এ উপস্থিতির অনুভূতি তৈরিতে ভিজ্যুয়ালগুলি একটি গুরুত্বপূর্ণ ভূমিকা পালন করে। বাস্তবসম্মত 3D মডেলগুলি ব্যবহার করা সাহায্য করতে পারে, তবে টেক্সচার, আলো এবং অ্যানিমেশনগুলি এমন একটি পরিবেশ তৈরি করতে পারে যা স্টাইলাইজড গ্রাফিক্সের সাথেও বাস্তব বিশ্বের মতো দেখায় এবং অনুভব করে। উদাহরণস্বরূপ, যদি AI অবতারটি ভার্চুয়াল অফিসে স্থাপন করা হয়, সঠিক অফিসের আসবাবপত্র, সাজসজ্জা এবং আলো ব্যবহার করে একটি পরিচিত পরিবেশ তৈরি করতে পারে যা ব্যবহারকারীদের সাথে সম্পর্কযুক্ত হতে পারে, কথোপকথনটিকে আরও খাঁটি বোধ করে।
সাউন্ড হল আরেকটি মূল উপাদান যা ভিআর কথোপকথনে নিমজ্জন যোগ করে। স্থানিক অডিও, যেখানে শব্দ ব্যবহারকারীর অবস্থান এবং মাথার নড়াচড়ার উপর ভিত্তি করে দিক এবং তীব্রতা পরিবর্তন করে, উপস্থিতির অনুভূতিকে ব্যাপকভাবে উন্নত করতে পারে।
উদাহরণস্বরূপ, ব্যবহারকারী যদি AI অবতারের কণ্ঠস্বর শুনতে পান যে দিক থেকে অবতারটি অবস্থিত, এটি কথোপকথনের বাস্তবতাকে যোগ করে। তবে অবতারের শব্দের চেয়েও গুরুত্বপূর্ণ, প্রতিদিনের সাদা গোলমাল শব্দ। একজন সহকারীর কাগজের গর্জন, বাইরের লোকজন, ফোন ইত্যাদির শব্দ। এই সাদা-শব্দ-উৎপাদনকারী শব্দগুলি যেকোন গণনার চিন্তাভাবনাকে মুখোশ করতে সাহায্য করবে এবং ব্যবহারকারীকে বিভ্রান্ত করতে সাহায্য করবে এবং তাদের একটি পরাবাস্তব নিমগ্নতায় রাখতে সাহায্য করবে।
ভিডিও মিথস্ক্রিয়াগুলির রিপ্লেগুলি দেখলে, সেগুলি সব বন্ধ বলে মনে হবে। পরিবেশটি বিশেষভাবে ডিবাগ ওভারলেগুলির জন্য তৈরি করা হয়েছিল এবং সমস্ত পটভূমিতে সাদা গোলমাল অনুপস্থিত ছিল। যদি আমি একটি বাস্তবসম্মত অভিজ্ঞতা তৈরিতে ফোকাস করি তবে আমার ফোকাস ক্ষেত্রগুলি অন্তর্ভুক্ত থাকবে; অ্যানিমেশন, সাউন্ড ডিজাইন, সেট ডিজাইন এবং প্রম্পট ইঞ্জিনিয়ারিং। এটি হবে গুরুত্বের ক্রম, প্রম্পট ইঞ্জিনিয়ারিং আমার বিবেচনায় শেষ হবে কারণ আপনি যখন AI এর সাথে কথা বলছেন, এটি আপনাকে অনেক সময় হতবাক করে দিতে পারে যে এটি পরবর্তীতে কী বলা উচিত তা ভবিষ্যদ্বাণী করা কতটা ভাল হতে পারে, বিশেষ করে একটি কূপের সাথে -সময়ভিত্তিক অ্যানিমেশন।
যদিও এই প্রযুক্তিগত ডেমোটি ChatGPT, Google STT, এবং AWS Polly-কে VR অভিজ্ঞতায় একীভূত করার বিপুল সম্ভাবনা দেখায়, এটি গুরুত্বপূর্ণ নৈতিক বিবেচনাকেও উত্থাপন করে। নিশ্চিত করা যে ব্যবহারকারীর ডেটা নিরাপদে এবং দায়িত্বের সাথে পরিচালনা করা হয় এবং এআই মডেলগুলিকে একটি ন্যায্য এবং নিরপেক্ষ পদ্ধতিতে প্রশিক্ষণ দেওয়া হয়, এই জাতীয় প্রযুক্তিগুলির বিকাশ এবং স্থাপনার ক্ষেত্রে অগ্রাধিকার দেওয়া উচিত। এই মিথস্ক্রিয়াগুলি আরও ব্যাপকভাবে উপলব্ধ হওয়ার সাথে সাথে ইচ্ছুক ব্যবহারকারীদের ব্যক্তিগত তথ্য ঠকাতে সিমুলেটেড ভার্চুয়াল মানুষ তৈরি করা ব্ল্যাক মিরর-এর একটি পর্বের বাইরের কিছু বলে মনে হতে পারে, কিন্তু দ্রুত সম্ভাবনার রাজ্যে আসছে।
উপসংহারে, এই টেক ডেমোটি AI এর সাথে VR মিথস্ক্রিয়ায় সীমানা ভাঙার ক্ষেত্রে একটি উল্লেখযোগ্য পদক্ষেপের প্রতিনিধিত্ব করে। ChatGPT, Google STT, এবং AWS পলির একীকরণ নিমজ্জনশীল এবং গতিশীল কথোপকথনকে সক্ষম করে, শিক্ষা, গ্রাহক পরিষেবা এবং বিনোদনের মতো ডোমেনে উত্তেজনাপূর্ণ সম্ভাবনার পথ তৈরি করে। অ্যানিমেশন এবং AI প্রযুক্তিতে আরও অগ্রগতির সাথে, আমরা এমন একটি ভবিষ্যতের আশা করতে পারি যেখানে AI অবতারদের সাথে ভার্চুয়াল কথোপকথনগুলি আরও স্বাভাবিক, আকর্ষক এবং মূলধারায় পরিণত হবে। এই প্রযুক্তির সম্ভাবনা বিশাল, এবং ভার্চুয়াল জগতে এটি কীভাবে এআই-এর সাথে আমাদের মিথস্ক্রিয়াকে বিকশিত এবং রূপান্তরিত করে তা দেখে আমি রোমাঞ্চিত।
সিগমুন্ড মাইক্রোসার্ভিসের জন্য গিথুব: https://github.com/goldsziggy/sigmund
মাইক্রোসার্ভিসের জন্য ডকার ফাইল:
docker run -it -p 8080:8080 --env-file .env matthewzygowicz/ms-sigmund
যদি পর্যাপ্ত আগ্রহ জড়ো হয়, আমি ওপেন-সোর্স-এ সমস্ত ওপেন-সোর্স সম্পদ ব্যবহার করে কোডের ইউনিটি অংশটি আবার লিখতে পারি/করব।