paint-brush
AI অবতারের সাথে ইমারসিভ ভিআর কথোপকথন: ChatGPT, Google STT, এবং AWS পলিকে একীভূত করাদ্বারা@neighborlynook
4,498 পড়া
4,498 পড়া

AI অবতারের সাথে ইমারসিভ ভিআর কথোপকথন: ChatGPT, Google STT, এবং AWS পলিকে একীভূত করা

দ্বারা Matthew Zygowicz5m2023/04/19
Read on Terminal Reader
Read this story w/o Javascript

অতিদীর্ঘ; পড়তে

ChatGPT একটি VR অভিজ্ঞতায় Google স্পিচ-টু-টেক্সট (STT), এবং Amazon Web Services (AWS) পলি ব্যবহার করে। ফলাফল হল একটি এআই-চালিত রেডি প্লেয়ার মি অবতারের সাথে একটি সত্যিকারের নিমগ্ন এবং ইন্টারেক্টিভ কথোপকথন, যা ChatGPT-এর প্রতিক্রিয়া দ্বারা চালিত এবং ভয়েস ইনপুট এবং আউটপুট ক্ষমতা দিয়ে সমৃদ্ধ৷
featured image - AI অবতারের সাথে ইমারসিভ ভিআর কথোপকথন: ChatGPT, Google STT, এবং AWS পলিকে একীভূত করা
Matthew Zygowicz HackerNoon profile picture
0-item


ভার্চুয়াল রিয়েলিটি (ভিআর) প্রযুক্তির সাথে আমরা কীভাবে যোগাযোগ করি তার নতুন সীমানা খুলে দিয়েছে। আমি সম্প্রতি একটি প্রযুক্তিগত ডেমোর মাধ্যমে সেই সীমানাগুলিকে আরও এগিয়ে নেওয়ার সুযোগ পেয়েছি যা ChatGPT , Google স্পিচ-টু-টেক্সট (STT) এবং Amazon Web Services (AWS) পলিকে একটি VR অভিজ্ঞতায় সংহত করে।


ফলাফল?


একটি এআই-চালিত রেডি প্লেয়ার মি অবতারের সাথে একটি সত্যিকারের নিমগ্ন এবং ইন্টারেক্টিভ কথোপকথন, যা ChatGPT-এর প্রতিক্রিয়া দ্বারা চালিত এবং ভয়েস ইনপুট এবং আউটপুট ক্ষমতা দিয়ে সমৃদ্ধ৷


খেলা-লুপ





এই টেক ডেমোর পিছনে ধারণাটি ছিল একটি ভার্চুয়াল রুম তৈরি করা যেখানে ব্যবহারকারীরা ChatGPT দ্বারা চালিত AI অবতারের সাথে বাস্তবসম্মত কথোপকথন করতে পারে।


অভিজ্ঞতাটিকে পরবর্তী স্তরে নিয়ে যাওয়ার জন্য, আমি ভয়েস ইনপুটের জন্য Google STT সংহত করেছি, যা ব্যবহারকারীর বক্তৃতা পাঠ্যে প্রতিলিপি করে। এই পাঠ্যটি প্রক্রিয়াকরণের জন্য একটি মাইক্রো-সার্ভিসে পাঠানো হয় এবং একটি প্রাসঙ্গিক প্রতিক্রিয়া তৈরি করার জন্য ChatGPT-এ ফরোয়ার্ড করা হয়। একবার প্রতিক্রিয়া তৈরি হলে, AWS পলি টেক্সট-টু-স্পীচ (TTS) রূপান্তরের জন্য ব্যবহার করা হয় এবং আউটপুটটি ভয়েস প্রক্রিয়াকরণের জন্য অবতারে ফেরত পাঠানো হয়, যার ফলে বেশিরভাগই নির্বিঘ্ন এবং গতিশীল কথোপকথন হয়।



ডিজিটাল অবতার অ্যানিমেশনের সাথে কথা বলছে




এই টেক ডেমোর স্ট্যান্ডআউট বৈশিষ্ট্যগুলির মধ্যে একটি হল রেডি প্লেয়ার মি অবতারগুলির ইন্টিগ্রেশন, যেখানে লিপ সিঙ্ক চালু আছে। এর মানে হল যে অডিও বাজানোর সাথে সাথে, অবতারের মুখ তাদের বক্তৃতার সাথে সুসংগতভাবে চলে, একটি অত্যন্ত বাস্তবসম্মত এবং ইন্টারেক্টিভ কথোপকথনের অভিজ্ঞতা তৈরি করে। এই অবতারগুলি AI এর ভিজ্যুয়াল উপস্থাপনা হিসাবে কাজ করে, কথোপকথনে নিমজ্জন এবং ব্যক্তিগতকরণের একটি স্তর যুক্ত করে।


কথোপকথনগুলিকে আকর্ষক করার জন্য, আমি ChatGPT-এর জন্য তিনটি পূর্ব-পূর্ণ প্রম্পট পরিস্থিতি তৈরি করেছি।


প্রথম দৃশ্যে, এআই একটি আর্থিক প্রতিনিধির ভূমিকা পালন করে, আর্থিক এবং বিনিয়োগ পরিচালনার বিষয়ে পরামর্শ প্রদান করে।



দ্বিতীয় দৃশ্যে এআই একজন মনোরোগ বিশেষজ্ঞ হিসেবে কাজ করে, ভার্চুয়াল থেরাপি এবং কাউন্সেলিং প্রদান করে।


অবশেষে, তৃতীয় দৃশ্যে, AI ভার্চুয়াল গিয়ার এবং আইটেম বিক্রি করে একটি ফ্যান্টাসি ব্যবসায়ীর ব্যক্তিত্ব গ্রহণ করে।



এই পরিস্থিতিগুলি অর্থ, মানসিক স্বাস্থ্য এবং বিনোদনের মতো বিভিন্ন ডোমেনে এই প্রযুক্তির সম্ভাব্য ব্যবহারের ক্ষেত্রে একটি আভাস দেয়।


যদিও যথেষ্ট কথা বলা হয়নি, প্রম্পট ইঞ্জিনিয়ারিং তার নিজের অধিকারে একটি প্রতিভা। আপনি কোডে দেখতে পাচ্ছেন, একটি প্রাসঙ্গিক দৃশ্য সেট আপ করা এবং অবতারটি যাতে চরিত্র হারায় না তা নিশ্চিত করা জটিল হতে পারে। মূলত, আমাদের নিশ্চিত করতে হবে যে মডেলটি স্ক্রিপ্ট ভঙ্গ করে না কিন্তু বাস্তবসম্মত থাকে। উপরের সম্পূর্ণ ভিডিওগুলি থেকে, আপনি দেখতে পাবেন যে ফ্যান্টাসি বণিক মাঝে মাঝে চরিত্র ভেঙে ফেলে এবং তাদের আবেগের কথা বলার সময় "ভাল, ভাল, ভাল" বলার পুনরাবৃত্তিমূলক, প্রায় নার্ভাস টিক প্রদর্শন করে৷


ইমারসিভ ভিআর কথোপকথনের জন্য বিশ্বাসযোগ্য পরিবেশ তৈরি করা

এটি লক্ষ্য করা গুরুত্বপূর্ণ যে এই প্রযুক্তির ডেমো প্রাথমিকভাবে শিল্প নির্দেশনার জন্য অফ-দ্য-শেল্ফ অ্যানিমেশন এবং মডেলগুলি ব্যবহার করে। যাইহোক, একটি পূর্ণাঙ্গ প্রয়োগের জন্য, বাস্তবসম্মত অ্যানিমেশনগুলিতে বিনিয়োগ করা, যার মধ্যে ইতিবাচক/নেতিবাচক অ্যানিমেশন টোনগুলির জন্য অনুভূতি বিশ্লেষণ সহ কথা বলা অ্যানিমেশন এবং প্রক্রিয়াকরণের সময় ফিলার অ্যানিমেশনগুলি এআই মিথস্ক্রিয়াগুলির বিশ্বাসযোগ্যতা এবং স্বাভাবিকতাকে বাড়িয়ে তুলতে পারে। এটি নিমগ্ন অভিজ্ঞতাকে আরও উন্নত করবে এবং এটিকে মানুষের মতো কথোপকথনের অনুরূপ করে তুলবে৷


সত্যিকারের নিমগ্ন VR কথোপকথনের অভিজ্ঞতা তৈরি করার চ্যালেঞ্জগুলির মধ্যে একটি হল আমাদের ইন্দ্রিয়ের সীমাবদ্ধতা। ভার্চুয়াল পরিবেশে, আমরা বিশ্বের উপলব্ধি করতে এবং যোগাযোগ করতে সাধারণত দৃষ্টিশক্তি এবং শব্দের উপর নির্ভর করি। যেহেতু এই 2টি ইন্দ্রিয়গুলি নিযুক্ত থাকে, আপনি যখন একটি দৃশ্যে কিছু বন্ধ মনে হয় তখন আপনি হাইপার-সচেতন হন। ভার্চুয়াল বিশ্বকে আরও বাস্তব বোধ করতে এবং পরিবেশের পরাবাস্তব প্রকৃতি থেকে বিভ্রান্ত করতে, বাস্তব-বিশ্বের পরিবেশের অনুকরণ করে এমন বিশ্বাসযোগ্য পরিবেশ তৈরি করা অত্যন্ত গুরুত্বপূর্ণ।


ভিআর-এ উপস্থিতির অনুভূতি তৈরিতে ভিজ্যুয়ালগুলি একটি গুরুত্বপূর্ণ ভূমিকা পালন করে। বাস্তবসম্মত 3D মডেলগুলি ব্যবহার করা সাহায্য করতে পারে, তবে টেক্সচার, আলো এবং অ্যানিমেশনগুলি এমন একটি পরিবেশ তৈরি করতে পারে যা স্টাইলাইজড গ্রাফিক্সের সাথেও বাস্তব বিশ্বের মতো দেখায় এবং অনুভব করে। উদাহরণস্বরূপ, যদি AI অবতারটি ভার্চুয়াল অফিসে স্থাপন করা হয়, সঠিক অফিসের আসবাবপত্র, সাজসজ্জা এবং আলো ব্যবহার করে একটি পরিচিত পরিবেশ তৈরি করতে পারে যা ব্যবহারকারীদের সাথে সম্পর্কযুক্ত হতে পারে, কথোপকথনটিকে আরও খাঁটি বোধ করে।


সাউন্ড হল আরেকটি মূল উপাদান যা ভিআর কথোপকথনে নিমজ্জন যোগ করে। স্থানিক অডিও, যেখানে শব্দ ব্যবহারকারীর অবস্থান এবং মাথার নড়াচড়ার উপর ভিত্তি করে দিক এবং তীব্রতা পরিবর্তন করে, উপস্থিতির অনুভূতিকে ব্যাপকভাবে উন্নত করতে পারে।


উদাহরণস্বরূপ, ব্যবহারকারী যদি AI অবতারের কণ্ঠস্বর শুনতে পান যে দিক থেকে অবতারটি অবস্থিত, এটি কথোপকথনের বাস্তবতাকে যোগ করে। তবে অবতারের শব্দের চেয়েও গুরুত্বপূর্ণ, প্রতিদিনের সাদা গোলমাল শব্দ। একজন সহকারীর কাগজের গর্জন, বাইরের লোকজন, ফোন ইত্যাদির শব্দ। এই সাদা-শব্দ-উৎপাদনকারী শব্দগুলি যেকোন গণনার চিন্তাভাবনাকে মুখোশ করতে সাহায্য করবে এবং ব্যবহারকারীকে বিভ্রান্ত করতে সাহায্য করবে এবং তাদের একটি পরাবাস্তব নিমগ্নতায় রাখতে সাহায্য করবে।


ভিডিও মিথস্ক্রিয়াগুলির রিপ্লেগুলি দেখলে, সেগুলি সব বন্ধ বলে মনে হবে। পরিবেশটি বিশেষভাবে ডিবাগ ওভারলেগুলির জন্য তৈরি করা হয়েছিল এবং সমস্ত পটভূমিতে সাদা গোলমাল অনুপস্থিত ছিল। যদি আমি একটি বাস্তবসম্মত অভিজ্ঞতা তৈরিতে ফোকাস করি তবে আমার ফোকাস ক্ষেত্রগুলি অন্তর্ভুক্ত থাকবে; অ্যানিমেশন, সাউন্ড ডিজাইন, সেট ডিজাইন এবং প্রম্পট ইঞ্জিনিয়ারিং। এটি হবে গুরুত্বের ক্রম, প্রম্পট ইঞ্জিনিয়ারিং আমার বিবেচনায় শেষ হবে কারণ আপনি যখন AI এর সাথে কথা বলছেন, এটি আপনাকে অনেক সময় হতবাক করে দিতে পারে যে এটি পরবর্তীতে কী বলা উচিত তা ভবিষ্যদ্বাণী করা কতটা ভাল হতে পারে, বিশেষ করে একটি কূপের সাথে -সময়ভিত্তিক অ্যানিমেশন।


উপসংহার - ভবিষ্যতের উপর নেওয়া

যদিও এই প্রযুক্তিগত ডেমোটি ChatGPT, Google STT, এবং AWS Polly-কে VR অভিজ্ঞতায় একীভূত করার বিপুল সম্ভাবনা দেখায়, এটি গুরুত্বপূর্ণ নৈতিক বিবেচনাকেও উত্থাপন করে। নিশ্চিত করা যে ব্যবহারকারীর ডেটা নিরাপদে এবং দায়িত্বের সাথে পরিচালনা করা হয় এবং এআই মডেলগুলিকে একটি ন্যায্য এবং নিরপেক্ষ পদ্ধতিতে প্রশিক্ষণ দেওয়া হয়, এই জাতীয় প্রযুক্তিগুলির বিকাশ এবং স্থাপনার ক্ষেত্রে অগ্রাধিকার দেওয়া উচিত। এই মিথস্ক্রিয়াগুলি আরও ব্যাপকভাবে উপলব্ধ হওয়ার সাথে সাথে ইচ্ছুক ব্যবহারকারীদের ব্যক্তিগত তথ্য ঠকাতে সিমুলেটেড ভার্চুয়াল মানুষ তৈরি করা ব্ল্যাক মিরর-এর একটি পর্বের বাইরের কিছু বলে মনে হতে পারে, কিন্তু দ্রুত সম্ভাবনার রাজ্যে আসছে।


উপসংহারে, এই টেক ডেমোটি AI এর সাথে VR মিথস্ক্রিয়ায় সীমানা ভাঙার ক্ষেত্রে একটি উল্লেখযোগ্য পদক্ষেপের প্রতিনিধিত্ব করে। ChatGPT, Google STT, এবং AWS পলির একীকরণ নিমজ্জনশীল এবং গতিশীল কথোপকথনকে সক্ষম করে, শিক্ষা, গ্রাহক পরিষেবা এবং বিনোদনের মতো ডোমেনে উত্তেজনাপূর্ণ সম্ভাবনার পথ তৈরি করে। অ্যানিমেশন এবং AI প্রযুক্তিতে আরও অগ্রগতির সাথে, আমরা এমন একটি ভবিষ্যতের আশা করতে পারি যেখানে AI অবতারদের সাথে ভার্চুয়াল কথোপকথনগুলি আরও স্বাভাবিক, আকর্ষক এবং মূলধারায় পরিণত হবে। এই প্রযুক্তির সম্ভাবনা বিশাল, এবং ভার্চুয়াল জগতে এটি কীভাবে এআই-এর সাথে আমাদের মিথস্ক্রিয়াকে বিকশিত এবং রূপান্তরিত করে তা দেখে আমি রোমাঞ্চিত।


লিঙ্ক:

সিগমুন্ড মাইক্রোসার্ভিসের জন্য গিথুব: https://github.com/goldsziggy/sigmund


মাইক্রোসার্ভিসের জন্য ডকার ফাইল:

 docker run -it -p 8080:8080 --env-file .env matthewzygowicz/ms-sigmund


যদি পর্যাপ্ত আগ্রহ জড়ো হয়, আমি ওপেন-সোর্স-এ সমস্ত ওপেন-সোর্স সম্পদ ব্যবহার করে কোডের ইউনিটি অংশটি আবার লিখতে পারি/করব।