Sanal Gerçeklik (VR), teknolojiyle etkileşimde bulunma şeklimizde yeni sınırlar açtı. Yakın zamanda ChatGPT , Google Speech-to-Text (STT) ve Amazon Web Services (AWS) Polly'yi bir VR deneyimine entegre eden bir teknoloji demosu ile bu sınırları daha da zorlama fırsatı buldum.
Sonuç?
ChatGPT'nin yanıtlarıyla desteklenen ve ses girişi ve çıkış özellikleriyle zenginleştirilen yapay zeka destekli Ready Player Me avatarıyla gerçek anlamda sürükleyici ve etkileşimli bir konuşma.
Bu teknoloji demosunun arkasındaki konsept, kullanıcıların ChatGPT tarafından desteklenen bir AI avatarıyla gerçekçi sohbetler yapabilecekleri sanal bir oda oluşturmaktı.
Deneyimi bir sonraki seviyeye taşımak için, kullanıcının konuşmasını metne dönüştüren ses girişi için Google STT'yi entegre ettim. Bu metin daha sonra işlenmek üzere bir mikro hizmete gönderilir ve ilgili yanıtın oluşturulması için ChatGPT'ye iletilir. Yanıt oluşturulduktan sonra AWS Polly, metinden konuşmaya (TTS) dönüştürme için kullanılır ve çıktı, ses işleme için avatara geri gönderilir ve sonuçta çoğunlukla kesintisiz ve dinamik bir konuşma sağlanır.
Bu teknoloji demosunun öne çıkan özelliklerinden biri, Lip Sync açıkken Ready Player Me avatarlarının entegrasyonudur. Bu, ses oynatılırken avatarın ağzının konuşmasıyla senkronize olarak hareket ederek son derece gerçekçi ve etkileşimli bir konuşma deneyimi yaratacağı anlamına gelir. Bu avatarlar yapay zekanın görsel temsili olarak hizmet ederek konuşmaya bir derinlik ve kişiselleştirme katmanı ekliyor.
Konuşmaları ilgi çekici hale getirmek için ChatGPT için önceden doldurulmuş üç bilgi istemi senaryosu oluşturdum.
İlk senaryoda yapay zeka, finans ve yatırımların yönetilmesi konusunda tavsiyelerde bulunarak bir finansal temsilci rolünü oynuyor.
İkinci senaryo, yapay zekanın bir psikiyatrist gibi hareket etmesini, sanal terapi ve danışmanlık sağlamasını içeriyor.
Son olarak, üçüncü senaryoda yapay zeka, sanal ekipman ve eşyalar satan fantastik bir tüccarın kişiliğine bürünüyor.
Bu senaryolar, bu teknolojinin finans, zihinsel sağlık ve eğlence gibi çeşitli alanlardaki potansiyel kullanım örneklerine bir bakış sağlıyor.
Yeterince konuşulmasa da hızlı mühendislik başlı başına bir yetenektir. Kodda görebileceğiniz gibi bağlamsal bir sahne oluşturmak ve avatarın karakterini kaybetmemesini sağlamak karmaşık olabilir. Temel olarak modelin senaryoyu bozmamasını ancak gerçekçi kalmasını sağlamamız gerekiyor. Yukarıdaki videoların tamamında, Fantasy tüccarının ara sıra karakterini bozduğunu ve duygularını dile getirirken tekrarlayan, neredeyse gergin bir şekilde "peki, peki, peki" diyerek tik taklar sergilediğini göreceksiniz.
Bu teknoloji demosunun öncelikle sanat yönetmenliği için hazır animasyonlar ve modeller kullandığını belirtmek önemlidir. Bununla birlikte, tam teşekküllü bir uygulama için, pozitif/negatif animasyon tonları için duygu analizi içeren konuşma animasyonları ve işlem süresi boyunca dolgu animasyonları dahil olmak üzere gerçekçi animasyonlara yatırım yapmak, yapay zeka etkileşimlerinin inandırıcılığını ve doğallığını artırabilir. Bu, sürükleyici deneyimi daha da artıracak ve onu insan benzeri konuşmalara daha benzer hale getirecek.
Gerçekten sürükleyici bir VR konuşma deneyimi yaratmanın zorluklarından biri duyularımızın sınırlamalarıdır. Sanal ortamlarda dünyayı algılamak ve onunla etkileşime geçmek için genellikle görüntü ve sese güveniriz. Bunlar devreye giren 2 duyu olduğundan, bir senaryoda bir şey ters göründüğünde hiper-farkında olursunuz. Sanal dünyayı daha gerçek hissettirmek ve ortamın gerçeküstü doğasından uzaklaşmak için gerçek dünya ortamlarını taklit eden inandırıcı ortamlar yaratmak çok önemlidir.
Görseller, VR'de varlık hissi yaratmada çok önemli bir rol oynuyor. Gerçekçi 3D modeller kullanmak yardımcı olabilir ancak dokular, ışıklandırma ve animasyonlar, stilize edilmiş grafiklerle bile gerçek dünyaya benzeyen ve hissettiren bir ortam yaratabilir. Örneğin, yapay zeka avatarı sanal bir ofise yerleştirilirse, doğru ofis mobilyaları, dekorasyonlar ve ışıklandırmanın kullanılması, kullanıcıların ilişki kurabileceği tanıdık bir ortam yaratarak sohbetin daha gerçekçi olmasını sağlayabilir.
Ses, VR konuşmalarına sürüklenmeyi artıran bir diğer önemli unsurdur. Kullanıcının konumuna ve baş hareketlerine göre sesin yönünü ve yoğunluğunu değiştirdiği uzamsal ses, mevcudiyet hissini büyük ölçüde artırabilir.
Örneğin kullanıcı, yapay zeka avatarının sesini avatarın bulunduğu yönden duyarsa, bu durum konuşmanın gerçekçiliğine katkıda bulunur. Ancak avatarın sesinden daha da önemli olan günlük beyaz gürültü sesidir. Bir asistanın kağıtları guruldaması, dışarıda ayaklarını karıştıran insanlar, telefonlar vb. sesleri. Beyaz gürültü üreten bu sesler, her türlü hesaplama düşüncesini maskelemeye yardımcı olmak için gereklidir ve kullanıcının dikkatini dağıtmaya ve onları gerçeküstü bir sürüklenme içinde tutmaya yardımcı olur.
Video etkileşimlerinin tekrarlarını izlerken hepsi kapalı görünecek. Ortam, hata ayıklama kaplamaları için özel olarak hazırlanmıştı ve arka planda hiçbir beyaz gürültü yoktu. Eğer gerçekçi bir deneyim yaratmaya odaklanacak olsaydım odak alanlarım şunları içerirdi; animasyonlar, ses tasarımı, set tasarımı ve hızlı mühendislik. Bu önem sırası olacaktır, hızlı mühendislik benim düşüncelerimde sonuncu olacaktır, çünkü yapay zeka ile konuşan siz olduğunuzda, özellikle bir kuyu ile, bir sonraki adımda ne söylemesi gerektiğini tahmin etmenin ne kadar iyi olabileceği sizi bazen şok edebilir. -zamanlanmış animasyon.
Bu teknoloji demosu ChatGPT, Google STT ve AWS Polly'yi bir VR deneyimine entegre etmenin muazzam potansiyelini sergilerken aynı zamanda önemli etik hususları da gündeme getiriyor. Kullanıcı verilerinin güvenli ve sorumlu bir şekilde işlenmesinin ve yapay zeka modellerinin adil ve tarafsız bir şekilde eğitilmesini sağlamak, bu tür teknolojilerin geliştirilmesinde ve devreye alınmasında önceliklendirilmelidir. Bu etkileşimler daha yaygın hale geldikçe, istekli kullanıcıların kişisel bilgilerini kandırmak için simüle edilmiş sanal insanlar yaratmak, Black Mirror'ın bir bölümünden fırlamış gibi görünebilir, ancak hızla olasılık alanına giriyor.
Sonuç olarak bu teknoloji demosu, yapay zeka ile VR etkileşimlerinde sınırları aşma konusunda önemli bir ileri adımı temsil ediyor. ChatGPT, Google STT ve AWS Polly'nin entegrasyonu, sürükleyici ve dinamik konuşmalara olanak tanıyarak eğitim, müşteri hizmetleri ve eğlence gibi alanlarda heyecan verici olanakların önünü açıyor. Animasyon ve yapay zeka teknolojilerindeki daha fazla ilerlemeyle birlikte, yapay zeka avatarlarıyla yapılan sanal konuşmaların daha doğal, ilgi çekici ve yaygın hale geldiği bir gelecek bekleyebiliriz. Bu teknolojinin potansiyeli çok büyük ve sanal dünyada yapay zeka ile etkileşimimizin nasıl geliştiğini ve dönüştürdüğünü görmek beni heyecanlandırıyor.
Sigmund Microservice için Github: https://github.com/goldsziggy/sigmund
Mikro Hizmet için Docker Dosyası:
docker run -it -p 8080:8080 --env-file .env matthewzygowicz/ms-sigmund
Yeterli ilgi toplanırsa, tüm açık kaynak varlıklarını kullanarak kodun Birlik bölümünü de açık kaynak olarak yeniden yazabilirim/yazacağım.