ভার্চুয়াল রিয়েলিটি (ভিআর) প্রযুক্তির সাথে আমরা কীভাবে যোগাযোগ করি তার নতুন সীমানা খুলে দিয়েছে। আমি সম্প্রতি একটি প্রযুক্তিগত ডেমোর মাধ্যমে সেই সীমানাগুলিকে আরও এগিয়ে নেওয়ার সুযোগ পেয়েছি যা   ,   স্পিচ-টু-টেক্সট (STT) এবং Amazon Web Services (AWS) পলিকে একটি VR অভিজ্ঞতায় সংহত করে। ChatGPT Google   ফলাফল?  একটি এআই-চালিত রেডি প্লেয়ার মি অবতারের সাথে একটি সত্যিকারের নিমগ্ন এবং ইন্টারেক্টিভ কথোপকথন, যা ChatGPT-এর প্রতিক্রিয়া দ্বারা চালিত এবং ভয়েস ইনপুট এবং আউটপুট ক্ষমতা দিয়ে সমৃদ্ধ৷   এই টেক ডেমোর পিছনে ধারণাটি ছিল একটি ভার্চুয়াল রুম তৈরি করা যেখানে ব্যবহারকারীরা ChatGPT দ্বারা চালিত AI অবতারের সাথে বাস্তবসম্মত কথোপকথন করতে পারে।  অভিজ্ঞতাটিকে পরবর্তী স্তরে নিয়ে যাওয়ার জন্য, আমি ভয়েস ইনপুটের জন্য Google STT সংহত করেছি, যা ব্যবহারকারীর বক্তৃতা পাঠ্যে প্রতিলিপি করে। এই পাঠ্যটি প্রক্রিয়াকরণের জন্য একটি মাইক্রো-সার্ভিসে পাঠানো হয় এবং একটি প্রাসঙ্গিক প্রতিক্রিয়া তৈরি করার জন্য ChatGPT-এ ফরোয়ার্ড করা হয়। একবার প্রতিক্রিয়া তৈরি হলে, AWS পলি টেক্সট-টু-স্পীচ (TTS) রূপান্তরের জন্য ব্যবহার করা হয় এবং আউটপুটটি ভয়েস প্রক্রিয়াকরণের জন্য অবতারে ফেরত পাঠানো হয়, যার ফলে বেশিরভাগই নির্বিঘ্ন এবং গতিশীল কথোপকথন হয়।   এই টেক ডেমোর স্ট্যান্ডআউট বৈশিষ্ট্যগুলির মধ্যে একটি হল রেডি প্লেয়ার মি অবতারগুলির ইন্টিগ্রেশন, যেখানে লিপ সিঙ্ক চালু আছে। এর মানে হল যে অডিও বাজানোর সাথে সাথে, অবতারের মুখ তাদের বক্তৃতার সাথে সুসংগতভাবে চলে, একটি অত্যন্ত বাস্তবসম্মত এবং ইন্টারেক্টিভ কথোপকথনের অভিজ্ঞতা তৈরি করে। এই অবতারগুলি AI এর ভিজ্যুয়াল উপস্থাপনা হিসাবে কাজ করে, কথোপকথনে নিমজ্জন এবং ব্যক্তিগতকরণের একটি স্তর যুক্ত করে।  কথোপকথনগুলিকে আকর্ষক করার জন্য, আমি ChatGPT-এর জন্য তিনটি পূর্ব-পূর্ণ প্রম্পট পরিস্থিতি তৈরি করেছি।  প্রথম দৃশ্যে, এআই একটি আর্থিক প্রতিনিধির ভূমিকা পালন করে, আর্থিক এবং বিনিয়োগ পরিচালনার বিষয়ে পরামর্শ প্রদান করে।   https://youtu.be/CtmqZEEH-mY?embedable=true  দ্বিতীয় দৃশ্যে এআই একজন মনোরোগ বিশেষজ্ঞ হিসেবে কাজ করে, ভার্চুয়াল থেরাপি এবং কাউন্সেলিং প্রদান করে।   https://youtu.be/QG4efRFH82E?embedable=true  অবশেষে, তৃতীয় দৃশ্যে, AI ভার্চুয়াল গিয়ার এবং আইটেম বিক্রি করে একটি ফ্যান্টাসি ব্যবসায়ীর ব্যক্তিত্ব গ্রহণ করে।   https://youtu.be/r8DcUEcx_kQ?embedable=true  এই পরিস্থিতিগুলি অর্থ, মানসিক স্বাস্থ্য এবং বিনোদনের মতো বিভিন্ন ডোমেনে এই প্রযুক্তির সম্ভাব্য ব্যবহারের ক্ষেত্রে একটি আভাস দেয়।  যদিও যথেষ্ট কথা বলা হয়নি,   তার নিজের অধিকারে একটি প্রতিভা। আপনি   দেখতে পাচ্ছেন, একটি প্রাসঙ্গিক দৃশ্য সেট আপ করা এবং অবতারটি যাতে চরিত্র হারায় না তা নিশ্চিত করা জটিল হতে পারে। মূলত, আমাদের নিশ্চিত করতে হবে যে মডেলটি স্ক্রিপ্ট ভঙ্গ করে না কিন্তু বাস্তবসম্মত থাকে। উপরের সম্পূর্ণ ভিডিওগুলি থেকে, আপনি দেখতে পাবেন যে ফ্যান্টাসি বণিক মাঝে মাঝে চরিত্র ভেঙে ফেলে এবং তাদের আবেগের কথা বলার সময় "ভাল, ভাল, ভাল" বলার পুনরাবৃত্তিমূলক, প্রায় নার্ভাস টিক প্রদর্শন করে৷ প্রম্পট ইঞ্জিনিয়ারিং কোডে  ইমারসিভ ভিআর কথোপকথনের জন্য বিশ্বাসযোগ্য পরিবেশ তৈরি করা  এটি লক্ষ্য করা গুরুত্বপূর্ণ যে এই প্রযুক্তির ডেমো প্রাথমিকভাবে শিল্প নির্দেশনার জন্য অফ-দ্য-শেল্ফ অ্যানিমেশন এবং মডেলগুলি ব্যবহার করে। যাইহোক, একটি পূর্ণাঙ্গ প্রয়োগের জন্য, বাস্তবসম্মত অ্যানিমেশনগুলিতে বিনিয়োগ করা, যার মধ্যে ইতিবাচক/নেতিবাচক অ্যানিমেশন টোনগুলির জন্য   সহ কথা বলা অ্যানিমেশন এবং প্রক্রিয়াকরণের সময় ফিলার অ্যানিমেশনগুলি এআই মিথস্ক্রিয়াগুলির বিশ্বাসযোগ্যতা এবং স্বাভাবিকতাকে বাড়িয়ে তুলতে পারে। এটি নিমগ্ন অভিজ্ঞতাকে আরও উন্নত করবে এবং এটিকে মানুষের মতো কথোপকথনের অনুরূপ করে তুলবে৷ অনুভূতি বিশ্লেষণ  সত্যিকারের নিমগ্ন VR কথোপকথনের অভিজ্ঞতা তৈরি করার চ্যালেঞ্জগুলির মধ্যে একটি হল আমাদের ইন্দ্রিয়ের সীমাবদ্ধতা। ভার্চুয়াল পরিবেশে, আমরা বিশ্বের উপলব্ধি করতে এবং যোগাযোগ করতে সাধারণত দৃষ্টিশক্তি এবং শব্দের উপর নির্ভর করি। যেহেতু এই 2টি ইন্দ্রিয়গুলি নিযুক্ত থাকে, আপনি যখন একটি দৃশ্যে কিছু বন্ধ মনে হয় তখন আপনি হাইপার-সচেতন হন। ভার্চুয়াল বিশ্বকে আরও বাস্তব বোধ করতে এবং পরিবেশের পরাবাস্তব প্রকৃতি থেকে বিভ্রান্ত করতে, বাস্তব-বিশ্বের পরিবেশের অনুকরণ করে এমন বিশ্বাসযোগ্য পরিবেশ তৈরি করা অত্যন্ত গুরুত্বপূর্ণ।  ভিআর-এ উপস্থিতির অনুভূতি তৈরিতে ভিজ্যুয়ালগুলি একটি গুরুত্বপূর্ণ ভূমিকা পালন করে। বাস্তবসম্মত 3D মডেলগুলি ব্যবহার করা সাহায্য করতে পারে, তবে টেক্সচার, আলো এবং অ্যানিমেশনগুলি এমন একটি পরিবেশ তৈরি করতে পারে যা স্টাইলাইজড গ্রাফিক্সের সাথেও বাস্তব বিশ্বের মতো দেখায় এবং অনুভব করে। উদাহরণস্বরূপ, যদি AI অবতারটি ভার্চুয়াল অফিসে স্থাপন করা হয়, সঠিক অফিসের আসবাবপত্র, সাজসজ্জা এবং আলো ব্যবহার করে একটি পরিচিত পরিবেশ তৈরি করতে পারে যা ব্যবহারকারীদের সাথে সম্পর্কযুক্ত হতে পারে, কথোপকথনটিকে আরও খাঁটি বোধ করে।  সাউন্ড হল আরেকটি মূল উপাদান যা ভিআর কথোপকথনে নিমজ্জন যোগ করে। স্থানিক অডিও, যেখানে শব্দ ব্যবহারকারীর অবস্থান এবং মাথার নড়াচড়ার উপর ভিত্তি করে দিক এবং তীব্রতা পরিবর্তন করে, উপস্থিতির অনুভূতিকে ব্যাপকভাবে উন্নত করতে পারে।  উদাহরণস্বরূপ, ব্যবহারকারী যদি AI অবতারের কণ্ঠস্বর শুনতে পান যে দিক থেকে অবতারটি অবস্থিত, এটি কথোপকথনের বাস্তবতাকে যোগ করে। তবে অবতারের শব্দের চেয়েও গুরুত্বপূর্ণ, প্রতিদিনের সাদা গোলমাল শব্দ। একজন সহকারীর কাগজের গর্জন, বাইরের লোকজন, ফোন ইত্যাদির শব্দ। এই সাদা-শব্দ-উৎপাদনকারী শব্দগুলি যেকোন গণনার চিন্তাভাবনাকে মুখোশ করতে সাহায্য করবে এবং ব্যবহারকারীকে বিভ্রান্ত করতে সাহায্য করবে এবং তাদের একটি পরাবাস্তব নিমগ্নতায় রাখতে সাহায্য করবে।  ভিডিও মিথস্ক্রিয়াগুলির রিপ্লেগুলি দেখলে, সেগুলি সব বন্ধ বলে মনে হবে। পরিবেশটি বিশেষভাবে ডিবাগ ওভারলেগুলির জন্য তৈরি করা হয়েছিল এবং সমস্ত পটভূমিতে সাদা গোলমাল অনুপস্থিত ছিল। যদি আমি একটি বাস্তবসম্মত অভিজ্ঞতা তৈরিতে ফোকাস করি তবে আমার ফোকাস ক্ষেত্রগুলি অন্তর্ভুক্ত থাকবে; অ্যানিমেশন, সাউন্ড ডিজাইন, সেট ডিজাইন এবং প্রম্পট ইঞ্জিনিয়ারিং। এটি হবে গুরুত্বের ক্রম, প্রম্পট ইঞ্জিনিয়ারিং আমার বিবেচনায় শেষ হবে কারণ আপনি যখন AI এর সাথে কথা বলছেন, এটি আপনাকে অনেক সময় হতবাক করে দিতে পারে যে এটি পরবর্তীতে কী বলা উচিত তা ভবিষ্যদ্বাণী করা কতটা ভাল হতে পারে, বিশেষ করে একটি কূপের সাথে -সময়ভিত্তিক অ্যানিমেশন।  উপসংহার - ভবিষ্যতের উপর নেওয়া  যদিও এই প্রযুক্তিগত ডেমোটি ChatGPT, Google STT, এবং AWS Polly-কে VR অভিজ্ঞতায় একীভূত করার বিপুল সম্ভাবনা দেখায়, এটি গুরুত্বপূর্ণ নৈতিক বিবেচনাকেও উত্থাপন করে। নিশ্চিত করা যে ব্যবহারকারীর ডেটা নিরাপদে এবং দায়িত্বের সাথে পরিচালনা করা হয় এবং এআই মডেলগুলিকে একটি ন্যায্য এবং নিরপেক্ষ পদ্ধতিতে প্রশিক্ষণ দেওয়া হয়, এই জাতীয় প্রযুক্তিগুলির বিকাশ এবং স্থাপনার ক্ষেত্রে অগ্রাধিকার দেওয়া উচিত। এই মিথস্ক্রিয়াগুলি আরও ব্যাপকভাবে উপলব্ধ হওয়ার সাথে সাথে ইচ্ছুক ব্যবহারকারীদের ব্যক্তিগত তথ্য ঠকাতে সিমুলেটেড ভার্চুয়াল মানুষ তৈরি করা ব্ল্যাক মিরর-এর একটি পর্বের বাইরের কিছু বলে মনে হতে পারে, কিন্তু দ্রুত সম্ভাবনার রাজ্যে আসছে।  উপসংহারে, এই টেক ডেমোটি AI এর সাথে VR মিথস্ক্রিয়ায় সীমানা ভাঙার ক্ষেত্রে একটি উল্লেখযোগ্য পদক্ষেপের প্রতিনিধিত্ব করে। ChatGPT, Google STT, এবং AWS পলির একীকরণ নিমজ্জনশীল এবং গতিশীল কথোপকথনকে সক্ষম করে, শিক্ষা, গ্রাহক পরিষেবা এবং বিনোদনের মতো ডোমেনে উত্তেজনাপূর্ণ সম্ভাবনার পথ তৈরি করে। অ্যানিমেশন এবং AI প্রযুক্তিতে আরও অগ্রগতির সাথে, আমরা এমন একটি ভবিষ্যতের আশা করতে পারি যেখানে AI অবতারদের সাথে ভার্চুয়াল কথোপকথনগুলি আরও স্বাভাবিক, আকর্ষক এবং মূলধারায় পরিণত হবে। এই প্রযুক্তির সম্ভাবনা বিশাল, এবং ভার্চুয়াল জগতে এটি কীভাবে এআই-এর সাথে আমাদের মিথস্ক্রিয়াকে বিকশিত এবং রূপান্তরিত করে তা দেখে আমি রোমাঞ্চিত।  লিঙ্ক:     সিগমুন্ড মাইক্রোসার্ভিসের জন্য গিথুব: https://github.com/goldsziggy/sigmund   মাইক্রোসার্ভিসের জন্য ডকার ফাইল:  docker run -it -p 8080:8080 --env-file .env matthewzygowicz/ms-sigmund  যদি পর্যাপ্ত আগ্রহ জড়ো হয়, আমি ওপেন-সোর্স-এ সমস্ত ওপেন-সোর্স সম্পদ ব্যবহার করে কোডের ইউনিটি অংশটি আবার লিখতে পারি/করব।

This story contains new, firsthand information uncovered by the writer.

Read My Stories

গল্পের মূল ভাষায় এই অডিও তৈরি!

AI অবতারের সাথে ইমারসিভ ভিআর কথোপকথন: ChatGPT, Google STT, এবং AWS পলিকে একীভূত করা

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

সেলিং দ্য ওয়াটারস: ডেটা লেক সহ প্রোডাকশন-গ্রেড RAG অ্যাপ্লিকেশন তৈরি করা

ব্যবহারকারী-কেন্দ্রিক ক্রিপ্টো পণ্য তৈরি করা: গ্রাহক প্রতিক্রিয়ার গুরুত্ব

ফোরাম থেকে ফিড পর্যন্ত: কীভাবে সোশ্যাল মিডিয়া অ্যালগরিদম ডিজিটাল ইন্টারঅ্যাকশনকে আকার দেয়

এআই/এমএল ডাটালেকের জন্য রেফারেন্স আর্কিটেকচার তৈরির জন্য একজন স্থপতির গাইড

সেলিং দ্য ওয়াটারস: ডেটা লেক সহ প্রোডাকশন-গ্রেড RAG অ্যাপ্লিকেশন তৈরি করা

ব্যবহারকারী-কেন্দ্রিক ক্রিপ্টো পণ্য তৈরি করা: গ্রাহক প্রতিক্রিয়ার গুরুত্ব

ফোরাম থেকে ফিড পর্যন্ত: কীভাবে সোশ্যাল মিডিয়া অ্যালগরিদম ডিজিটাল ইন্টারঅ্যাকশনকে আকার দেয়

এআই/এমএল ডাটালেকের জন্য রেফারেন্স আর্কিটেকচার তৈরির জন্য একজন স্থপতির গাইড

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps