OpenAI đã đưa AI tổng hợp lên một tầm cao mới với Sora, mô hình chuyển văn bản thành video mới có thể tạo ra các cảnh thực tế chỉ từ các hướng dẫn bằng văn bản. Trong khi DALL-E và các mô hình chuyển văn bản thành hình ảnh khác đã cho chúng ta thấy sức mạnh của việc tạo ra AI thì Sora chứng tỏ chúng ta đã tiến được bao xa bằng cách thêm yếu tố chuyển động.
Chúng tôi sẽ thử nghiệm mô hình Sora khi nó hoạt động và thậm chí có thể phát hành hướng dẫn miễn phí trên bản tin hàng tuần của chúng tôi - 'Thợ săn AI' ! Đừng bỏ lỡ các nền tảng và sự kiện đột phá AI mới!
Ngoài hình ảnh tĩnh, Sora có thể tạo video dài tới một phút. Nó cũng có thể lấy các video hiện có và điền vào các khung hình còn thiếu để nâng cao nội dung. Khả năng sáng tạo là vô tận - chúng ta có thể xem các bộ phim ngắn, hoạt hình hoặc thậm chí các bản phát lại thể thao nâng cao do AI tạo ra trong tương lai.
Nhưng điều thực sự ấn tượng về Sora là sự hiểu biết của nó về thế giới vật chất. Nó có thể mô phỏng những cảnh phức tạp liên quan đến nhiều nhân vật và chuyển động. Bạn muốn nhìn thấy ai đó đi bộ trong rừng với những chiếc lá xào xạc và ánh sáng mặt trời xuyên qua tán cây như thật? Sora đã bảo vệ bạn.
Dưới mui xe, Sora tận dụng công việc trước đây về các mô hình khuếch tán và máy biến áp. Các bước ngẫu nhiên của mô hình khuếch tán vượt trội trong việc tạo ra dữ liệu chiều cao như video. Trong khi đó, máy biến áp xử lý các tác vụ xử lý dữ liệu tuần tự như ngôn ngữ tự nhiên.
Tất nhiên, vẫn còn một số hạn chế. Việc mô phỏng vật lý phức tạp như tai nạn ô tô hoặc lao xuống vách đá tỏ ra khó khăn. Mô hình cũng gặp khó khăn với nguyên nhân và kết quả - đừng mong đợi những miếng bánh quy sẽ xuất hiện một cách kỳ diệu sau khi ai đó cắn!
Đương nhiên, OpenAI tập trung vào sự an toàn. Trước khi phát hành rộng rãi, họ đang nâng cao các kỹ thuật để lọc nội dung có hại hoặc gây hiểu lầm. Sự tiến bộ đòi hỏi sự cân bằng tinh tế - Sora phải sáng tạo một cách thực tế đồng thời tránh những điều không phù hợp.
Hiện tại, công ty đã áp dụng các biện pháp an toàn sau:
Hạn chế về nội dung: OpenAI đã thiết lập các nguyên tắc nội dung nghiêm ngặt cho Sora, tương tự như các nguyên tắc dành cho mẫu DALL-E 3 của nó. Những nguyên tắc này nghiêm cấm việc tạo ra nội dung bạo lực, tình dục hoặc thù địch cũng như việc chiếm đoạt hình ảnh người thật hoặc phong cách của các nghệ sĩ có tên tuổi.
Siêu dữ liệu và nhận dạng nguồn gốc: Để thúc đẩy tính minh bạch và trách nhiệm giải trình, OpenAI có kế hoạch cung cấp siêu dữ liệu nguồn gốc cho các video do Sora tạo. Ngoài ra, công ty sẽ cho phép người xem xác định nội dung được tạo bởi mô hình AI.
Nhóm đỏ và quyền truy cập hạn chế: OpenAI đã cấp quyền truy cập vào Sora cho một nhóm các nhà nghiên cứu, nghệ sĩ thị giác và nhà làm phim chọn lọc, những người sẽ "đội đỏ" sản phẩm, kiểm tra tính nhạy cảm của nó để lách các điều khoản dịch vụ của công ty. Quyền truy cập hạn chế này cho phép OpenAI thu thập phản hồi và xác định các rủi ro tiềm ẩn trước khi cung cấp mô hình rộng rãi hơn.
Tương tác với các nhà hoạch định chính sách và nghệ sĩ: Công ty đang tích cực tương tác với các nhà hoạch định chính sách, nhà giáo dục và nghệ sĩ để hiểu mối quan tâm và xác định các trường hợp sử dụng tích cực cho mô hình. Cách tiếp cận chủ động này thể hiện cam kết của OpenAI trong việc giải quyết các tác động xã hội rộng lớn hơn của công nghệ của nó.
Khi AI phát triển tiến bộ, các mô hình như Sora có tiềm năng cách mạng hóa việc tạo và tiêu thụ nội dung. Họ có thể tạo ra nội dung được cá nhân hóa, giúp chúng ta hiểu thế giới và cung cấp năng lượng cho thế giới ảo thực tế.
Tuy nhiên, điều quan trọng là các mô hình này phải được phát triển một cách có trách nhiệm, có tính đến rủi ro của nội dung do AI tạo ra. OpenAI đang thực hiện các bước quan trọng với Sora để tối đa hóa lợi ích của nó đồng thời giảm thiểu các vấn đề tiềm ẩn.