paint-brush
Sora của OpenAI có gặp rắc rối không?từ tác giả@lukaszwronski
1,783 lượt đọc
1,783 lượt đọc

Sora của OpenAI có gặp rắc rối không?

từ tác giả Lukasz Wronski7m2024/06/17
Read on Terminal Reader

dài quá đọc không nổi

Luma Dream Machine là cảm giác mới nhất trong thế giới AI sáng tạo. Đây là công cụ tốt nhất để tạo video từ hình ảnh, đánh bại các đối thủ như Pika và Runway ML. Nhưng làm sao có thể so sánh được với Sora bí ẩn? Vì không thể sử dụng Sora nên chúng tôi sẽ so sánh các bản demo công khai của OpenAI với những gì máy Luma Dream có thể làm.
featured image - Sora của OpenAI có gặp rắc rối không?
Lukasz Wronski HackerNoon profile picture
0-item
1-item
2-item

Bạn đã nghe nói về cảm giác mới nhất trong thế giới AI sáng tạo, Luma Dream Machine chưa? Nó được gọi là đối thủ lớn nhất của Sora của OpenAI. Nhưng nó có thực sự tốt như vậy không?


Việc so sánh chúng thật khó khăn vì Dream Machine có sẵn cho tất cả mọi người, còn Sora thì không. Nhưng hãy xem chúng ta có thể tìm ra điều gì. Khó có thể phủ nhận rằng hiện tại, Dream Machine đang dẫn đầu vì chúng ta thực sự có thể sử dụng nó. Đây là công cụ tốt nhất để tạo video từ hình ảnh, đánh bại các đối thủ như Pika và Runway ML. Nhưng làm thế nào để so sánh được với Sora bí ẩn?

Vì không thể sử dụng Sora nên chúng tôi sẽ so sánh các bản demo công khai của OpenAI với những gì Luma Dream Machine có thể làm. Đây là kế hoạch: chúng tôi sẽ lấy khung hình đầu tiên từ các video demo của OpenAI và sử dụng lời nhắc tương tự với Dream Machine của Luma. Điều này sẽ cho chúng ta thấy Dream Machine có thể sao chép vật lý, chuyển động và không gian giống như Sora tốt đến mức nào. Ngay cả khi các bản demo của OpenAI được chọn lọc kỹ lưỡng, chúng ta vẫn có thể so sánh các chi tiết và xem cả hai mô hình hoạt động như thế nào.


Dưới đây, tôi đã tổng hợp một số video so sánh. Mỗi bộ có ba ví dụ. Video đầu tiên là từ bản demo của OpenAI trên trang web của Sora. Phần thứ hai được thực hiện bằng tính năng chuyển hình ảnh thành video của Dream Machine, sử dụng cùng một lời nhắc và khung hình đầu tiên trong bản demo của Sora làm hướng dẫn. Phần thứ ba cho thấy cách công cụ của Luma hoạt động chỉ bằng lời nhắc. Điều này thật thú vị vì cả Sora và Dream Machine đều sử dụng tính năng chuyển văn bản thành video nên chúng tôi có thể so sánh khả năng sáng tạo của họ cũng như mức độ họ làm theo lời nhắc.


Vì vậy, không cần phải dài dòng nữa, hãy xem các ví dụ và xem công cụ nào đứng đầu.

Đi bộ Tokyo


Hãy so sánh bản demo của OpenAI với Luma Dream Machine. Ở lần so sánh đầu tiên, Dream Machine cho thấy chuyển động camera ấn tượng, các động tác của nhân vật chính mượt mà và tự nhiên. Tuy nhiên, có vấn đề với các hiện vật không tự nhiên và vẻ ngoài không nhất quán của các đồ vật và con người xuyên suốt clip. Không giống như video của OpenAI, đám đông ở hậu cảnh dường như tan chảy và thay đổi hình dạng khi video tiếp tục.


Khuôn mặt của nhân vật chính cũng thay đổi không tự nhiên, khiến video trông rõ ràng là giả, một vấn đề mà Sora không gặp phải.


Trong ví dụ về chuyển văn bản thành video, video của Dream Machine không tệ nhưng có thể nhận thấy sự biến đổi không tự nhiên của các vật thể. Ví dụ: một chiếc ô bất ngờ xuất hiện trong tay người đi bộ, biểu thị rõ ràng việc tạo ra AI. Điều này làm cho nó không có sự cạnh tranh đối với các clip có sẵn miễn phí bản quyền. Một điều mà các thế hệ của Sora có lẽ có thể làm được.


Tuy nhiên, Dream Machine vẫn bám sát yêu cầu: áo khoác đen, váy đỏ, son môi, kính râm, đường phản chiếu, người đi bộ và đèn neon đều có mặt. Vì vậy, hãy làm tốt việc theo dõi chi tiết!

Tìm vàng


Khi so sánh kết quả từ hình ảnh đến video của Luma với OpenAI, nó không tệ lắm. Tuy nhiên, chuyển động của camera không mượt mà như trong video ở Tokyo, dừng đột ngột và khiến cảnh quay trở nên gắt. Tệ nhất là chuyển động của nhân vật ở cuối clip trông thiếu tự nhiên và ngẫu nhiên. Ngoài ra, các tòa nhà bên trái xuống cấp theo từng khung hình, một vấn đề không thấy trong ví dụ của Sora.


Tương tự như clip trước, thiếu sự ổn định và nhất quán, có quá nhiều hiện vật. Sora cũng xuất sắc trong việc làm cho clip trông cổ điển với tốc độ khung hình thấp và chất lượng tổng thể cổ điển, cho thấy cô ấy có thể cách điệu hóa đầu ra theo lời nhắc, điều mà Dream Machine không đạt được ở đây.


Trong ví dụ về chuyển văn bản thành video với lời nhắc ngắn và có kết thúc mở, mô hình của Luma đã chọn một cảnh khác với lịch sử cơn sốt vàng. Nó có vẻ phù hợp hơn với thời đại, sử dụng màu sắc và ánh sáng phù hợp. Tuy nhiên, hiệu ứng biến hình và chuyển động không tự nhiên đã làm hỏng toàn bộ clip, khiến nó không thể sử dụng được trong các dự án video.

SUV trong bụi


Video này là video tôi yêu thích nhất trên trang web của OpenAI. Chiếc xe di chuyển rất tự nhiên, với ánh sáng, bóng tối và độ động tuyệt vời. Nó không thể phân biệt được với một video thực, khiến nó trở nên hoàn hảo cho người sáng tạo nội dung. Ngược lại, chuyển động của camera của Dream Machine là chính xác, nhưng các vật thể bị đè bẹp và biến dạng một cách không tự nhiên. Ở phần thứ hai của clip, góc nhìn trở nên méo mó nặng nề, trông rõ ràng giống như một thế hệ AI.


Đối với ví dụ về chuyển văn bản thành video, kết quả thực sự khá tốt—một trong những kết quả tốt nhất mà tôi có được từ sản phẩm của Luma. Nó kém năng động hơn cái đầu tiên nhưng trông khá tự nhiên. Tuy nhiên, nó lại gặp phải một vấn đề khác. Lời nhắc rất rộng rãi, chỉ rõ rằng chiếc SUV phải được nhìn thấy từ phía sau với bụi bay ra từ lốp xe. Dream Machine diễn giải nó theo cách khác.


Điều này nêu bật một khía cạnh quan trọng của trình tạo nội dung AI: nếu không có sự giải thích kịp thời chính xác, chúng ta có thể lãng phí hàng giờ để tạo ra các biến thể không phù hợp với tầm nhìn hoặc nhu cầu của mình.

Bảo tàng


Ví dụ về Bảo tàng là một loại quái thú khác. Chà, thực ra không phải là một con thú - nó tinh tế hơn, điềm tĩnh hơn và ít năng động hơn. Chỉ cần đi bộ đơn giản với một chiếc máy ảnh ổn định. Phiên bản của OpenAI là chính xác. Nó không thú vị nhưng không thiếu tính chân thực. Phiên bản của Luma thể hiện một chuyển động máy ảnh khác nhưng trông cũng đẹp, không bị biến dạng như trong các clip khác. Vấn đề chính là những bức ảnh không phải là một phần của ảnh gốc sẽ bị mờ và thiếu độ nét. Nhìn chung, video ổn và với một vài chỉnh sửa, chúng tôi có thể nhận được kết quả phù hợp.


Không có sai sót hình ảnh rõ ràng nào trong video thứ hai. Phòng trưng bày có vẻ ổn. Vấn đề lớn nhất của tôi là việc lựa chọn chuyển động của camera ở phần đầu tiên, nó không thực tế lắm. Điều thú vị là Dream Machine đã tạo ra hai cảnh cho một lời nhắc, với một đoạn cắt ở giữa hiển thị một căn phòng khác trong bảo tàng. Thật thú vị khi người mẫu quyết định làm điều này. Phần thứ hai có chuyển động camera tốt hơn, nhìn dễ chịu hơn.

Người chạy bộ lùi


Ví dụ này rất thú vị vì trên trang của Sora, nó được hiển thị dưới dạng một trong những vấn đề của mô hình: người chạy bộ đang chạy sai đường. Không có máy chạy bộ nào hoạt động như vậy, nhưng trong thế giới AI, mọi thứ đều có thể xảy ra. Liệu đây có phải là cơ hội để Dream Machine tỏa sáng? Kết quả chuyển hình ảnh thành video thực sự khá tốt.


Người chạy bộ vẫn chạy lùi như trong hình ảnh đầu vào, nhưng chuyển động của camera và hành vi của người chạy bộ gần như hoàn hảo. Có một số biến dạng nhỏ và phối cảnh máy ảnh hơi kỳ lạ theo thời gian, nhưng chỉ cần chọn lọc một chút, chúng tôi có thể nhận được kết quả tốt cho sản phẩm của mình.


Phiên bản được tạo chỉ bằng lời nhắc cũng thú vị. Nó rất sống động và hơi méo, nhưng điều này có thể phù hợp với một số sản phẩm nhất định, đặc biệt nếu muốn có tính thẩm mỹ giống như phác thảo, run rẩy. Không xấu cả. Cuối cùng, mô hình của Luma đang tiến gần hơn đến đối thủ cạnh tranh trong tương lai.

Chó con Ý


Ví dụ chính cuối cùng trên trang OpenAI có hình chú chó đốm ở một thành phố đầy màu sắc của Ý. Video gốc được làm bằng Sora không hoàn hảo. Trong một clip dài hơn, chú chó bắt đầu hành động hơi kỳ quặc và hoạt ảnh của nó không tự nhiên như trong các video giới thiệu khác. AI mới nhất của Luma xử lý việc này như thế nào?


Không ổn chút nào. Có thể đó là vì họ chỉ quay một lần (và trình tạo có tỷ lệ khá hạn chế), nhưng những gì chúng ta thấy là một lễ hội của những trục trặc và hình ảnh phi thực tế. Kết cấu của con chó thay đổi khi video tiếp tục, các tòa nhà trông giống như được làm bằng bột nặn và một hình ảnh ghê tởm giống con chó khác xuất hiện ở cuối, khiến nó trông giống tác phẩm của Salvador Dali hơn là một video thực. Đây chắc chắn là ví dụ tồi tệ nhất cho đến nay.


Sự sáng tạo của chính Dream Machine cũng không khá hơn chút nào. Nó không tuân theo lời nhắc, hoàn toàn không bao gồm chú chó đốm. Không có cửa sổ cho chó ngồi, các tòa nhà trông giống hoạt hình và kiến trúc tổng thể thì vô nghĩa. Tệ nhất là những người đi xe đạp trên những chiếc xe đạp méo mó nặng nề, những sinh vật dị dạng lái xe xuống kênh, hoặc biến thành những người đi xe đạp khác mà không có lý do. Điều này giảm xuống dưới mức mong đợi.

Phán quyết?

Đối với những gì hiện có cho công chúng, AI mới của Luma thực sự ấn tượng. Nó vượt qua các ranh giới, tạo ra chuyển động camera thực sự đẹp mắt và thường là những chuyển động rất chân thực của con người và đồ vật. Nó dường như hoạt động tốt hơn khi được cung cấp một hình ảnh tham chiếu, tạo ra hiệu ứng tốt hơn so với đối thủ cạnh tranh hiện tại.


Nhưng liệu nó có tốt bằng Sora không? Có vẻ như còn xa lắm, ít nhất là vào lúc này. Những sáng tạo của Sora có thể bị nhầm lẫn với video thật, ít nhất là khi nhìn qua. Buổi giới thiệu gợi ý rằng Sora có thể cạnh tranh với các video có sẵn và giúp cuộc sống của các nhà làm phim và người sáng tạo nội dung trở nên dễ dàng hơn. Mặt khác, Dream Machine thường gây ra trục trặc và không phải lúc nào cũng làm theo lời nhắc một cách chính xác.


Đó là một bước tiến nữa trong việc cải tiến mô hình, nhưng vẫn chưa đủ tin cậy và ổn định để sử dụng rộng rãi.


Nó có phải là đối thủ thực sự của Sora không? Chưa. Tuy nhiên, chúng tôi chưa tương tác trực tiếp với Sora và buổi giới thiệu của OpenAI có thể được quản lý cẩn thận. Sora có khả năng mắc phải những sai lầm tương tự như mô hình của Luma. Cho đến khi Sora được công khai, chúng tôi không thể chắc chắn.


Cá nhân tôi rất vui vì chúng tôi có Dream Machine. Nó đưa chúng ta đến gần hơn với trình tạo video AI hoàn hảo. Nó hữu ích trong một số trường hợp và có thể sẽ cải thiện theo thời gian. Tôi đánh giá cao việc Luma phát hành công cụ này, mang đến cho chúng tôi một cách khác để tận hưởng AI tổng hợp cho các video clip.


Mặt khác, tôi hy vọng Sora sẽ làm việc như trong buổi giới thiệu. Nếu được thì đó sẽ là một bước nhảy vọt đáng kể. Tôi háo hức chờ đợi nó được công bố rộng rãi để tôi có thể tự mình so sánh kết quả.