paint-brush
Phát triển XR với Oracle Ep 3: Computer Vision AI, ML và Metaverseby@paulparkinson
178

Phát triển XR với Oracle Ep 3: Computer Vision AI, ML và Metaverse

Paul Parkinson2022/04/12
Read on Terminal Reader
Read this story w/o Javascript

Đây là phần thứ ba trong loạt bài về phát triển các ứng dụng và trải nghiệm XR bằng cách sử dụng Oracle và tập trung vào các ứng dụng XR của AI và ML thị giác máy tính và việc sử dụng liên quan của nó trong metaverse.

People Mentioned

Mention Thumbnail

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Phát triển XR với Oracle Ep 3: Computer Vision AI, ML và Metaverse
Paul Parkinson HackerNoon profile picture

Đây là phần thứ ba trong loạt bài về phát triển các ứng dụng và trải nghiệm XR bằng cách sử dụng Oracle và tập trung vào các ứng dụng XR của AI và ML thị giác máy tính cũng như việc sử dụng liên quan của nó trong metaverse.

Phần đầu tiên có thể được tìm thấy ở đâyphần thứ hai có thể được tìm thấy ở đây .

Một lần nữa, tôi sẽ trình bày cụ thể các ứng dụng được phát triển bằng công nghệ đám mây và cơ sở dữ liệu Oracle, HoloLens 2, Bộ công cụ thực tế hỗn hợp và nền tảng Unity.

Trong toàn bộ blog, tôi sẽ tham khảo video demo tương ứng này.

https://www.youtube.com/watch?v=40ADd-ALkcc

Thực tế mở rộng (XR), Metaverse và HoloLens

Tôi sẽ giới thiệu cho người đọc phần đầu tiên trong loạt bài để biết tổng quan về XR và Hololens.

Blog đầu tiên trong loạt bài này dựa trên một hội thảo microservices theo hướng dữ liệu và trình bày một số khía cạnh sẽ có trong metaverse, chẳng hạn như mua sắm trực tuyến, bằng cách tương tác với các mô hình 3D về thực phẩm / sản phẩm, 3D / thế giới thực không gian bản đồ, v.v. cũng như DevOps phụ trợ (theo dõi Kubernetes và OpenTelemetry), v.v.


Blog thứ hai dựa trên một số hội thảo về đồ thị và thể hiện sự trực quan hóa, tạo và thao tác các mô hình, sổ ghi chép, bố cục và điểm nổi bật để phân tích đồ thị tài sản được sử dụng trong đồ thị xã hội, mạng thần kinh và lĩnh vực tài chính (ví dụ: phát hiện rửa tiền ).


Trong cả hai blog này và cả trong blog thứ ba này, chủ đề có thể được chia sẻ và cộng tác tích cực, ngay cả trong thời gian thực, từ xa. Những loại khả năng này là chìa khóa của khái niệm metaverse và sẽ được mở rộng và mở rộng sang các khái niệm như nhân đôi kỹ thuật số trong các phần tương lai này.


Blog này sẽ không đi sâu vào thị giác máy tính AI và thay vào đó sẽ tập trung vào khả năng hỗ trợ XR của nó cũng như cơ sở dữ liệu và đám mây Oracle.

Khả năng và Khả năng của Thị giác Máy tính với XR

AI thị giác máy tính cung cấp một số khả năng bao gồm phân loại hình ảnh, phát hiện đối tượng, phát hiện văn bản và AI tài liệu.


Tôi chủ yếu sử dụng Hololens để chứng minh các khái niệm trong loạt bài này vì nó là công nghệ gần nhất với những gì sẽ là cách sử dụng XR phổ biến nhất và hàng ngày trong tương lai, tuy nhiên, các khái niệm tôi trình bày trong các blog này có thể được áp dụng ở mức độ này hay cách khác trong các hương vị khác nhau của XR và các thiết bị (và thực sự tôi sẽ đưa ra các ví dụ về điều đó trong các blog trong tương lai).


Một điều mà hầu hết, nếu không phải là tất cả, của các thiết bị này, có điểm chung là giao diện trực quan (tức là máy tính và máy ảnh) giữa người dùng và thế giới thực. Vốn dĩ điều này có khả năng nắm bắt và xử lý các kích thích thị giác xung quanh người dùng và do đó, mối liên kết giữa nó và Computer Vision AI là một mối liên hệ hợp lý và hợp lực.


Điều này cũng đúng với âm thanh và lời nói của AI mà tôi cũng sẽ trình diễn trong một phần trong tương lai.

Phân loại hình ảnh và phát hiện đối tượng

Hãy tưởng tượng tiềm năng giúp những người bị suy giảm thị lực, Alzheimer, ... bằng cách thiết bị XR đưa ra phản hồi âm thanh và hình ảnh theo ngữ cảnh về môi trường xung quanh của một người.


Phần đầu tiên của video cho thấy tính năng phát hiện đối tượng được áp dụng cho XR. Đây là các bước liên quan ...

  1. Ảnh về chế độ xem hiện tại của người dùng được chụp bởi Hololens (Tôi sử dụng một nút rõ ràng cho việc này nhưng tất nhiên, nó có thể được thực hiện tự động, định kỳ, phản ứng với lệnh thoại, v.v.).


  2. Hình ảnh này được tự động tải lên kho đối tượng và cơ sở dữ liệu Oracle để phân tích thêm. Bản thân đây là một tính năng tiện dụng để lưu trữ dữ liệu được truy xuất từ môi trường xung quanh của người dùng mà người dùng không cần phải hướng dẫn rõ ràng hoặc thậm chí nhận thức được thông tin ngữ cảnh khác nhau, v.v. đang được thu thập.

  3. Sau đó, hình ảnh được xử lý bởi dịch vụ Vision AI và phản hồi JSON chứa tên, độ tin cậy, bondingPolygon normalizedVertices, phân loại, v.v. được trả lại cho Hololens. Đây là cách xử lý hình ảnh và phản hồi JSON được gửi đến Hololens trông giống như trong bảng điều khiển đám mây Oracle ...


  4. Sau đó, ứng dụng Hololens xử lý JSON này, sử dụng các đỉnh / tọa độ để tạo lại các đa giác / hình chữ nhật và các nhãn.

  5. Vị trí của người dùng (tức là máy ảnh của tai nghe Hololens) đã được lưu khi chụp ảnh ban đầu và thực hiện quay từ điểm đó, thông qua tọa độ của các hình chữ nhật 2d và lên lưới bề mặt không gian 3d của căn phòng. (Lưu ý rằng biểu diễn 2d chỉ được hiển thị trong phần trình diễn để minh họa quy trình được mô tả và có thể trong một ứng dụng thực tế, chỉ kết quả cuối cùng của các hình khối được ánh xạ không gian mới tồn tại.)

  6. Các hình khối 3d sau đó được tạo ra tại các điểm giao nhau của các đường ray này trên lưới bề mặt.

  7. Ngoài ra, sau khi được tạo, các nhãn được đưa vào chương trình chuyển lời nói thành văn bản nói tên của đối tượng. Âm thanh này cũng được lập bản đồ không gian 3D.

  8. Điều này cung cấp một kỹ thuật cực kỳ hiệu quả và nhanh chóng vì một hình ảnh 2d duy nhất được sử dụng để lập bản đồ chế độ xem nhập một cách trực quan và rõ ràng trong 3D và ánh xạ này vẫn tồn tại ở cùng các vị trí chính xác sau khi khởi động lại Hololens / ứng dụng. (Độ chính xác, v.v. tất nhiên có thể được nâng cao hơn nữa với nhiều lần chụp / ảnh và được chụp tự động mà người dùng không cần nhấn nút, v.v.)


Hãy tưởng tượng tiềm năng hỗ trợ người bị suy giảm thị lực, bệnh Alzheimer, xác định các mục không xác định và khó cô lập, phân tích các mối đe dọa, sở thích, v.v. bằng cách để thiết bị XR cung cấp phản hồi âm thanh và hình ảnh theo ngữ cảnh về môi trường xung quanh của một người!


Thông tin / đại diện này lần lượt có thể được chia sẻ trong metaverse trên bất kỳ số lượng thiết bị XR khác nhau nào (bao gồm điện thoại cơ bản và màn hình máy tính đơn giản) để tạo điều kiện cho nhân đôi kỹ thuật số, cộng tác, v.v. theo cách rất hiệu quả và nhẹ đồng thời tận dụng lợi thế của các khả năng mạnh mẽ của cơ sở dữ liệu Oracle và / trong đám mây.


Tài liệu AI

Hãy tưởng tượng sử dụng XR và AI để tăng cường tương tác xã hội và tham gia vào các cuộc trò chuyện có ý nghĩa hơn TRONG CUỘC SỐNG THỰC TẾ.


Phần thứ hai của video cho thấy việc sử dụng dịch vụ AI tài liệu, một lần nữa với kỹ thuật chụp ảnh bằng máy ảnh Hololens được sử dụng trong phần đầu của video, ngoại trừ lần này văn bản từ hình ảnh (với các hướng, khoảng cách khác nhau, v.v.) được nhận dạng . Một lần nữa, điều này có thể được sử dụng để giúp người dùng đọc, v.v. như trong ví dụ phát hiện đối tượng, và cũng có thể được đưa vào khả năng ML mạnh mẽ của cơ sở dữ liệu Oracle để chạy xử lý dựa trên bất kỳ số mô hình, sổ ghi chép, v.v. Trong trường hợp này, tôi quét sách. Đây là ảnh chụp bức ảnh đó với văn bản được xử lý, trong bảng điều khiển OCI.

Chúng tôi có thể, như tôi đã làm trong blog đầu tiên, sử dụng điều này để đưa ra đề xuất về những cuốn sách khác có liên quan hoặc, như tôi đã làm trong blog thứ hai, thực hiện một số phân tích đồ thị để tìm mối tương quan và điểm chung. Tuy nhiên, trong ví dụ cụ thể này, tôi đã đưa văn bản vào một số mô hình hội thoại GPT-3 mà sau đó phản hồi một phản hồi hội thoại. Phản hồi này, hoặc một lần nữa, bất kỳ thông tin nào từ các kiểu máy khác nhau, có thể được cung cấp cho người dùng, chẳng hạn như bắt đầu cuộc trò chuyện với chủ nhân của những cuốn sách.

Tất nhiên, điều này không chỉ giới hạn trong sách hoặc hội thoại. Khả năng thực sự là vô tận khi sử dụng sự kết hợp này của XR và cung cấp cho người dùng thông tin và phân tích về môi trường họ đang ở (điều mà công nghệ Oracle cho phép hoàn hảo).


Tôi cũng có thể tưởng tượng người dùng quảng cáo hoặc "mặc" thông tin về bản thân họ giống như cách họ mặc quần áo, v.v. nhưng theo cách truyền đạt có khả năng phức tạp hơn (nghĩa là "thời trang" theo cả hai nghĩa của từ này và nghĩa là "các giác quan" ở cả hai định nghĩa của từ đó). Siêu thị đầy rẫy những lời bàn tán về việc các công ty tìm ra những cách mới để quảng cáo và tương tác trong thế giới ảo. Người dùng ít nhất phải được trao quyền để thể hiện bản thân và làm như vậy trong thế giới thực.

Suy nghĩ bổ sung

Tôi đã đưa ra một số ý tưởng và ví dụ về cách AI và XR thị giác máy tính có thể được sử dụng cùng nhau. Tôi mong sớm đưa ra nhiều blog hơn về chủ đề này và các lĩnh vực khác của XR với Cơ sở dữ liệu và đám mây Oracle.


Vui lòng xem các bài viết tôi xuất bản trên HackerNoon để biết thêm thông tin về đám mây XR và Oracle và cơ sở dữ liệu hội tụ cũng như các chủ đề khác nhau xung quanh microservices, khả năng quan sát, xử lý giao dịch, v.v. Ngoài ra, vui lòng liên hệ với tôi nếu có bất kỳ câu hỏi hoặc đề xuất nào về blog mới và video vì tôi rất cởi mở với các đề xuất. Cảm ơn đã đọc và theo dõi.


Cũng được xuất bản trên trang web chính thức của Oracle .