paint-brush
AI này có thể dịch bất kỳ đầu vào nào thành bất kỳ đầu ra nào: Đây là lý do tại sao đó là một thỏa thuận lớntừ tác giả@mikeyoung44
2,535 lượt đọc
2,535 lượt đọc

AI này có thể dịch bất kỳ đầu vào nào thành bất kỳ đầu ra nào: Đây là lý do tại sao đó là một thỏa thuận lớn

từ tác giả Mike Young6m2023/05/27
Read on Terminal Reader

dài quá đọc không nổi

CoDi là một mô hình thế hệ thay đổi trò chơi có thể xử lý nhiều loại đầu vào. Nó có thể xử lý văn bản, âm thanh, video, hình ảnh và chuyển đổi chúng thành bất kỳ kết hợp đầu ra nào khác. CoDi sử dụng sơ đồ đào tạo nhiều giai đoạn, nghĩa là nó có thể đào tạo trên nhiều nhiệm vụ khác nhau.
featured image - AI này có thể dịch bất kỳ đầu vào nào thành bất kỳ đầu ra nào: Đây là lý do tại sao đó là một thỏa thuận lớn
Mike Young HackerNoon profile picture
0-item

AI đang trở nên thông minh hơn, các bạn. Đã qua rồi cái thời mà trí tuệ nhân tạo chỉ có thể xử lý một loại đầu vào duy nhất và nhổ ra một loại đầu ra duy nhất . Đây là thời đại của Cơ Di : một mô hình tổng quát có thể thay đổi trò chơi có thể xử lý nhiều loại đầu vào (ví dụ như văn bản, âm thanh, video, hình ảnh) và biến chúng thành bất kỳ tổ hợp đầu ra nào khác.


Tôi tình cờ biết được dự án táo bạo này qua một tiếng riu ríu của Avi Schiffmann, một người đam mê AI với trí tò mò không có giới hạn.


Vì vậy, một cách tự nhiên, tôi cảm thấy bắt buộc phải đi sâu vào giấy chi tiết bước đột phá thú vị này. Dây đeo vào, bởi vì đó là một chuyến đi hoang dã.

Chào mừng đến với bữa tiệc, CoDi

Vậy CoDi có gì đặc biệt? Trước hết, cường quốc AI này linh hoạt hơn bất kỳ mô hình tổng quát nào mà chúng tôi từng thấy cho đến nay. Nó không bị ràng buộc với các phương thức cụ thể như hình ảnh thành hình ảnh hoặc văn bản thành văn bản. Ồ không, CoDi là một tinh thần tự do, vì nó là một mô hình "bất kỳ đối với bất kỳ".


Cậu bé hư này lấy bất cứ thứ gì bạn cung cấp—ngôn ngữ, hình ảnh, video, âm thanh—và biến đổi nó thành một phương thức khác.


Các nhà nghiên cứu tại Đại học Bắc Carolina ở Chapel Hill và Nghiên cứu Dịch vụ Nhận thức của Microsoft Azure đã tạo ra CoDi để không chỉ quản lý nhiều phương thức cùng một lúc mà còn tạo ra các đầu ra thậm chí không có trong dữ liệu đào tạo ban đầu.


Bây giờ, đó là những gì chúng tôi gọi là đấm trên trọng lượng của bạn.


Điều thú vị hơn nữa là tất cả điều này có thể thực hiện được nhờ một chiến lược tạo tổng hợp mới lạ, cho phép tạo đồng bộ các phương thức đan xen. Hãy tưởng tượng một video có âm thanh được đồng bộ hóa hoàn hảo do một cỗ máy về cơ bản chỉ đoán xem chúng khớp với nhau như thế nào.


Nó giống như một loại nghệ sĩ phối lại AI.

Nhưng làm thế nào nó hoạt động?

Đối với những người khao khát kỹ thuật thực sự, CoDi sử dụng sơ đồ đào tạo nhiều giai đoạn, nghĩa là nó có thể đào tạo nhiều nhiệm vụ khác nhau trong khi suy luận tất cả các loại kết hợp đầu vào và đầu ra. Nó giống như nó có khả năng đa nhiệm.

Từ bài báo: "Khuếch tán tổng hợp sử dụng sơ đồ đào tạo nhiều giai đoạn để có thể chỉ đào tạo trên một số nhiệm vụ tuyến tính nhưng suy luận về tất cả các kết hợp phương thức đầu vào và đầu ra."


Tiện ích của mô hình được thể hiện trong kiến trúc của nó. Phần sau đây là phần tóm tắt mang tính kỹ thuật về các phương pháp chính mà người sáng tạo sử dụng để làm cho mô hình hoạt động theo cách họ muốn.

Sơ bộ: Mô hình khuếch tán tiềm ẩn

Nền tảng của CoDi là một mô hình khuếch tán, cụ thể là Mô hình khuếch tán tiềm ẩn (LDM). Dạng AI tổng quát này học cách phân phối dữ liệu bằng cách bắt chước quá trình phổ biến thông tin theo thời gian.


Trong quá trình đào tạo, nó liên tục thêm nhiễu ngẫu nhiên vào dữ liệu đầu vào, học cách đảo ngược quá trình này và làm sạch dữ liệu trở lại dạng ban đầu. Khi nó tạo dữ liệu mới, nó sẽ tạo ra tiếng ồn đơn giản và loại bỏ nó để tạo ra thứ gì đó trông giống như dữ liệu đào tạo.


Trong trường hợp của LDM, một bộ mã hóa tự động—một loại mô hình AI có thể tạo lại đầu vào của nó—được sử dụng để nén dữ liệu xuống dạng "tiềm ẩn" nhỏ hơn, sau đó được khuếch tán theo thời gian. Quá trình này làm giảm đáng kể chi phí tính toán và cải thiện hiệu quả của mô hình.

Điều hòa đa phương thức có thể kết hợp

Khía cạnh độc đáo của CoDi nằm ở khả năng điều hòa đa phương thức có thể kết hợp của nó. Thành phần này cho phép nó chấp nhận bất kỳ sự kết hợp nào của các phương thức—văn bản, hình ảnh, video và âm thanh—làm đầu vào.


Điều này đạt được bằng cách sắp xếp đầu vào từ tất cả các phương thức này vào cùng một không gian, điều này có thể được điều chỉnh thuận tiện bằng cách nội suy các biểu diễn của chúng.


Để đảm bảo các hoạt động tính toán hiệu quả, một kỹ thuật đơn giản gọi là "Sắp xếp cầu nối" được sử dụng. Văn bản được chọn làm phương thức "bắc cầu" vì nó thường được ghép nối với các phương thức khác, chẳng hạn như các cặp văn bản-hình ảnh, văn bản-video và văn bản-âm thanh.


Phương pháp này cho phép mô hình căn chỉnh cả bốn phương thức trong không gian đặc trưng, ngay cả khi các phương thức kép như cặp hình ảnh-âm thanh thưa thớt.

Khuếch tán tổng hợp

Đào tạo một mô hình có thể chuyển đổi bất kỳ đầu vào nào thành bất kỳ đầu ra nào là một nhiệm vụ đòi hỏi phải học hỏi đáng kể trên các nguồn dữ liệu đa dạng.


Để giải quyết vấn đề này, CoDi được thiết kế để có thể kết hợp và tích hợp, nghĩa là các mô hình riêng lẻ cho từng phương thức có thể được xây dựng độc lập và sau đó được tích hợp trơn tru sau này.


Ví dụ: một mô hình khuếch tán hình ảnh có thể được sử dụng để truyền kiến thức và tạo độ trung thực của một mô hình đã thiết lập được đào tạo trên các bộ dữ liệu hình ảnh chất lượng cao, quy mô lớn.


Tương tự, một mô hình khuếch tán video có thể mở rộng bộ khuếch tán hình ảnh với các mô-đun thời gian để mô hình hóa các thuộc tính tạm thời của video.


Ngoài ra, bộ khuếch tán âm thanh xem quang phổ mel âm thanh dưới dạng hình ảnh với một kênh và mô hình khuếch tán văn bản sử dụng bộ mã hóa tự động đa dạng để nén dữ liệu văn bản thành dạng tiềm ẩn nhỏ hơn, giống như các mô hình khác.

Tạo đa phương thức chung bằng cách sắp xếp tiềm ẩn

Phần cuối cùng của câu đố là cho phép các mô hình được đào tạo độc lập này làm việc cùng nhau để tạo ra nhiều phương thức đồng thời. Điều này đạt được bằng cách thêm các lớp con chú ý đa phương thức vào mô hình.


Kỹ thuật "Căn chỉnh tiềm ẩn" này cho phép mỗi mô hình cụ thể theo phương thức chú ý đến các mô hình khác, chiếu các biến tiềm ẩn của chúng vào một không gian chung mà tất cả chúng đều có thể truy cập.


Thiết kế này cho phép tạo ra sự kết hợp liền mạch của bất kỳ sự kết hợp nào của các phương thức. Ví dụ: ngay cả khi chỉ được đào tạo để tạo ra các phương thức A và B, và B và C, CoDi vẫn có thể đạt được việc tạo ra các phương thức A và C mà không cần đào tạo thêm!


Hơn nữa, nó có thể xử lý đồng thời việc tạo ra các phương thức A, B và C. Tính linh hoạt này là có thể bởi vì mô hình đã học cách tham dự chéo giữa các phương thức khác nhau.


Về bản chất, thông qua các phương pháp này, CoDi có thể học cách chuyển đổi bất kỳ dạng đầu vào nào thành bất kỳ dạng đầu ra nào khác một cách hiệu quả, duy trì chất lượng tạo cao cho tất cả các quy trình tổng hợp. Kết quả là, nó mở ra một lĩnh vực khả năng hoàn toàn mới cho các tương tác AI đa phương thức.

Ảnh gif cho thấy cách thức hoạt động của CoDi - từ bài báo.


Ví dụ: cung cấp cho CoDi kiểu nhập văn bản "Gấu bông trên ván trượt, 4k, độ phân giải cao" và nó có thể xuất video có âm thanh đi kèm. Hoặc cung cấp cho nó văn bản và hình ảnh với "Cyberpunk vibe" và nó có thể tạo văn bản và hình ảnh phù hợp với chủ đề nhất định.


Các thế hệ ví dụ được hiển thị bên dưới - kiểm tra giấy cho các ví dụ tương tác.

Điều này có ý nghĩa gì đối với chúng ta?

Ý nghĩa của thế hệ bất kỳ đối với bất kỳ ai của CoDi là rất lớn. Trong một thế giới ngày càng trở nên kỹ thuật số, việc sở hữu một công cụ như CoDi đồng nghĩa với việc có thể tương tác với công nghệ theo cách linh hoạt, tự nhiên và giống con người hơn. Nó có thể chuyển đổi mọi thứ, từ trợ lý ảo sang các công cụ trợ năng và tạo nội dung cho đến giải trí.


Nhưng như mọi khi, những hàm ý không hoàn toàn là không tưởng. Khi AI trở nên tốt hơn trong việc tạo ra các kết quả đầu ra thực tế, đa phương thức, thì nhu cầu phân biệt thực tế với nội dung do AI tạo ra càng trở nên quan trọng hơn bao giờ hết. Thông tin sai lệch có thể trở nên thuyết phục hơn và deepfakes phổ biến hơn.


Nhưng chúng ta đừng mưa trong cuộc diễu hành. CoDi là một bước tiến đáng kể trong công nghệ AI, cho thấy chúng ta đã tiến xa đến mức nào trong việc huấn luyện máy móc để hiểu và tái tạo tấm thảm phong phú về giao tiếp của con người.


Nếu bạn muốn tìm hiểu sâu hơn về cơ chế của CoDi hoặc thậm chí có thể tự mình thử nghiệm với nó, bạn có thể xem mã nguồn mở cơ sở mã trên GitHub. Ai biết được bạn có thể nghĩ ra loại biến đổi hoang dã nào khi sử dụng CoDi?


Cuối cùng, điều khiến CoDi thực sự mang tính cách mạng là khả năng kết hợp nhuần nhuyễn các loại dữ liệu khác nhau và tạo ra kết quả đầu ra theo cách mà trước đây người ta cho là không thể. Nó giống như xem một nhà giả kim đang làm việc, biến chì thành vàng.


Ngoại trừ trong trường hợp này, nó biến bất kỳ loại đầu vào nào thành bất kỳ loại đầu ra nào. Đó thực sự là một kỷ nguyên đáng chú ý của AI mà chúng ta đang sống.