paint-brush
Cuộc trò chuyện thực tế ảo sống động với hình đại diện AI: Tích hợp ChatGPT, Google STT và AWS Pollytừ tác giả@neighborlynook
4,498 lượt đọc
4,498 lượt đọc

Cuộc trò chuyện thực tế ảo sống động với hình đại diện AI: Tích hợp ChatGPT, Google STT và AWS Polly

từ tác giả Matthew Zygowicz5m2023/04/19
Read on Terminal Reader

dài quá đọc không nổi

ChatGPT sử dụng tính năng Chuyển giọng nói thành văn bản (STT) của Google và Polly của Amazon Web Services (AWS) trong trải nghiệm VR. Kết quả là một cuộc trò chuyện tương tác và đắm chìm thực sự với hình đại diện Ready Player Me được hỗ trợ bởi AI, được thúc đẩy bởi các phản hồi của ChatGPT và được làm phong phú thêm với khả năng nhập và xuất giọng nói.
featured image - Cuộc trò chuyện thực tế ảo sống động với hình đại diện AI: Tích hợp ChatGPT, Google STT và AWS Polly
Matthew Zygowicz HackerNoon profile picture
0-item


Thực tế ảo (VR) đã mở ra những giới hạn mới trong cách chúng ta tương tác với công nghệ. Gần đây, tôi đã có cơ hội đẩy xa hơn nữa các ranh giới đó bằng một bản demo công nghệ tích hợp ChatGPT , Google Speech-to-Text (STT) và Amazon Web Services (AWS) Polly trong trải nghiệm VR.


Kết quả?


Một cuộc trò chuyện tương tác và đắm chìm thực sự với hình đại diện Ready Player Me được hỗ trợ bởi AI, được thúc đẩy bởi các phản hồi của ChatGPT và được bổ sung thêm khả năng nhập và xuất giọng nói.


vòng lặp trò chơi





Ý tưởng đằng sau bản demo công nghệ này là tạo ra một căn phòng ảo nơi người dùng có thể trò chuyện thực tế với hình đại diện AI, được hỗ trợ bởi ChatGPT.


Để nâng trải nghiệm lên một tầm cao mới, tôi đã tích hợp Google STT cho tính năng nhập liệu bằng giọng nói, giúp chuyển lời nói của người dùng thành văn bản. Văn bản này sau đó được gửi đến một dịch vụ vi mô để xử lý và chuyển tiếp đến ChatGPT để tạo phản hồi có liên quan. Sau khi phản hồi được tạo, AWS Polly được sử dụng để chuyển đổi văn bản thành giọng nói (TTS) và đầu ra được gửi trở lại hình đại diện để xử lý giọng nói, dẫn đến một cuộc trò chuyện động và liền mạch.



Hình đại diện kỹ thuật số nói chuyện với hình ảnh động




Một trong những tính năng nổi bật của bản demo công nghệ này là tích hợp các hình đại diện của Ready Player Me, với Lip Sync được bật. Điều này có nghĩa là khi âm thanh phát, miệng của hình đại diện sẽ di chuyển đồng bộ với lời nói của họ, tạo ra trải nghiệm trò chuyện có tính tương tác và thực tế cao. Những hình đại diện này đóng vai trò là đại diện trực quan của AI, bổ sung thêm một lớp hòa nhập và cá nhân hóa cho cuộc trò chuyện.


Để làm cho các cuộc trò chuyện trở nên hấp dẫn, tôi đã tạo ba tình huống lời nhắc được điền sẵn cho ChatGPT.


Trong kịch bản đầu tiên, AI đóng vai trò là đại diện tài chính, đưa ra lời khuyên về quản lý tài chính và đầu tư.



Kịch bản thứ hai liên quan đến việc AI đóng vai trò là bác sĩ tâm thần, cung cấp liệu pháp và tư vấn ảo.


Cuối cùng, trong kịch bản thứ ba, AI đóng vai một thương gia giả tưởng, bán thiết bị và vật phẩm ảo.



Các tình huống này cung cấp cái nhìn sơ lược về các trường hợp sử dụng tiềm năng của công nghệ này trong các lĩnh vực khác nhau, chẳng hạn như tài chính, sức khỏe tâm thần và giải trí.


Mặc dù không được nói đến đủ, nhưng kỹ thuật nhanh chóng tự nó là một tài năng. Như bạn có thể thấy trong mã , việc thiết lập bối cảnh theo ngữ cảnh và đảm bảo hình đại diện không bị mất ký tự có thể phức tạp. Về cơ bản, chúng tôi cần đảm bảo mô hình không phá vỡ kịch bản nhưng vẫn thực tế. Từ các video đầy đủ ở trên, bạn sẽ thấy thương nhân Fantasy thỉnh thoảng ngắt lời nhân vật và hiển thị dấu tích lặp đi lặp lại, gần như lo lắng khi nói "tốt, tốt, tốt" trong khi phát ra cảm xúc của họ.


Tạo môi trường đáng tin cậy cho các cuộc trò chuyện VR chân thực

Điều quan trọng cần lưu ý là bản trình diễn công nghệ này chủ yếu sử dụng các hình ảnh động và mô hình có sẵn cho hướng nghệ thuật. Tuy nhiên, đối với một ứng dụng chính thức, việc đầu tư vào hoạt ảnh thực tế, bao gồm hoạt ảnh trò chuyện với phân tích cảm tính để có tông màu hoạt ảnh tích cực/tiêu cực và hoạt ảnh phụ trong thời gian xử lý, có thể nâng cao độ tin cậy và tự nhiên của các tương tác AI. Điều này sẽ nâng cao hơn nữa trải nghiệm nhập vai và làm cho nó giống với các cuộc trò chuyện giống con người hơn.


Một trong những thách thức trong việc tạo ra trải nghiệm hội thoại VR thực sự đắm chìm là những hạn chế của các giác quan của chúng ta. Trong môi trường ảo, chúng ta thường dựa vào hình ảnh và âm thanh để cảm nhận và tương tác với thế giới. Vì đây là 2 giác quan đang hoạt động nên bạn siêu nhận thức khi có điều gì đó trong một tình huống có vẻ không ổn. Để làm cho thế giới ảo có cảm giác chân thực hơn và đánh lạc hướng khỏi bản chất siêu thực của môi trường, điều quan trọng là tạo ra môi trường xung quanh đáng tin cậy bắt chước môi trường trong thế giới thực.


Hình ảnh đóng một vai trò quan trọng trong việc tạo cảm giác hiện diện trong VR. Sử dụng các mô hình 3D thực tế có thể hữu ích, nhưng kết cấu, ánh sáng và hoạt ảnh có thể tạo ra một môi trường trông giống như thế giới thực ngay cả với đồ họa cách điệu. Ví dụ: nếu hình đại diện AI được đặt trong một văn phòng ảo, việc sử dụng nội thất văn phòng, đồ trang trí và ánh sáng chính xác có thể tạo ra một môi trường quen thuộc mà người dùng có thể liên tưởng đến, khiến cuộc trò chuyện có cảm giác chân thực hơn.


Âm thanh là một yếu tố quan trọng khác làm tăng thêm sự đắm chìm trong các cuộc hội thoại VR. Âm thanh không gian, trong đó âm thanh thay đổi hướng và cường độ dựa trên vị trí và chuyển động đầu của người dùng, có thể nâng cao đáng kể cảm giác hiện diện.


Chẳng hạn, nếu người dùng nghe thấy giọng nói của hình đại diện AI phát ra từ hướng có hình đại diện, điều đó sẽ làm tăng thêm tính chân thực của cuộc trò chuyện. Tuy nhiên, thậm chí còn quan trọng hơn âm thanh của hình đại diện, là âm thanh tiếng ồn trắng hàng ngày. Âm thanh của trợ lý đang lật giấy tờ, tiếng người xáo trộn bên ngoài, tiếng điện thoại, v.v. Những âm thanh tạo ra tiếng ồn trắng này là cần thiết để giúp che giấu bất kỳ tư duy tính toán nào và sẽ giúp đánh lạc hướng người dùng và khiến họ đắm chìm trong cảm giác siêu thực.


Xem các bản phát lại của các tương tác video, tất cả chúng sẽ bị tắt. Môi trường được tạo riêng cho lớp phủ gỡ lỗi và không có tất cả nhiễu trắng nền. Nếu tôi tập trung vào việc tạo ra trải nghiệm thực tế, các lĩnh vực trọng tâm của tôi sẽ bao gồm; hình ảnh động, thiết kế âm thanh, thiết kế bối cảnh và kỹ thuật nhanh chóng. Đây sẽ là thứ tự quan trọng, kỹ thuật nhanh chóng sẽ là vấn đề cuối cùng trong cân nhắc của tôi vì khi bạn là người nói chuyện với AI, đôi khi nó có thể khiến bạn sốc về khả năng dự đoán những gì nó sẽ nói tiếp theo, đặc biệt là với một cái giếng. -thời gian hoạt hình.


Lời kết - Vững bước tương lai

Mặc dù bản demo công nghệ này cho thấy tiềm năng to lớn của việc tích hợp ChatGPT, Google STT và AWS Polly trong trải nghiệm VR, nhưng nó cũng đặt ra những cân nhắc quan trọng về đạo đức. Việc đảm bảo rằng dữ liệu người dùng được xử lý an toàn và có trách nhiệm cũng như các mô hình AI được đào tạo một cách công bằng và không thiên vị nên được ưu tiên trong quá trình phát triển và triển khai các công nghệ đó. Khi những tương tác này trở nên phổ biến rộng rãi hơn, việc tạo ra những con người ảo mô phỏng để đánh lừa thông tin cá nhân của những người dùng sẵn sàng có vẻ giống như một điều gì đó trong một tập của Black Mirror, nhưng đang nhanh chóng trở thành khả thi.


Tóm lại, bản trình diễn công nghệ này thể hiện một bước tiến đáng kể trong việc phá vỡ ranh giới trong tương tác VR với AI. Việc tích hợp ChatGPT, Google STT và AWS Polly cho phép các cuộc trò chuyện sống động và sâu sắc, mở đường cho những khả năng thú vị trong các lĩnh vực như giáo dục, dịch vụ khách hàng và giải trí. Với những tiến bộ hơn nữa trong công nghệ hoạt hình và AI, chúng ta có thể mong đợi một tương lai nơi các cuộc trò chuyện ảo với hình đại diện AI trở nên tự nhiên, hấp dẫn và chủ đạo hơn. Tiềm năng của công nghệ này là rất lớn và tôi rất vui khi thấy nó phát triển và biến đổi tương tác của chúng ta với AI trong thế giới ảo như thế nào.


liên kết:

Github cho Sigmund Microservice: https://github.com/goldsziggy/sigmund


Tệp Docker cho Microservice:

 docker run -it -p 8080:8080 --env-file .env matthewzygowicz/ms-sigmund


Nếu thu thập đủ sự quan tâm, tôi có thể/sẽ viết lại phần Unity của mã bằng cách sử dụng tất cả nội dung nguồn mở thành nguồn mở.