paint-brush
Deepmind có thể vừa tạo ra AI chung đầu tiên trên thế giớitừ tác giả@whatsai
5,869 lượt đọc
5,869 lượt đọc

Deepmind có thể vừa tạo ra AI chung đầu tiên trên thế giới

từ tác giả Louis Bouchard3m2022/05/16
Read on Terminal Reader
Read this story w/o Javascript

dài quá đọc không nổi

Gato từ DeepMind vừa được xuất bản! Nó là một máy biến áp duy nhất có thể chơi trò chơi Atari, chú thích hình ảnh, trò chuyện với mọi người, điều khiển một cánh tay robot thực sự và hơn thế nữa! Thật vậy, nó được huấn luyện một lần và sử dụng cùng trọng lượng để đạt được tất cả các nhiệm vụ đó. Gato là một tác nhân đa phương thức có nghĩa là nó có thể tạo chú thích cho hình ảnh hoặc trả lời câu hỏi như một chatbot. Nó hiểu từ ngữ, hình ảnh, và thậm chí cả vật lý ... hãy tìm hiểu thêm trong video transcript dưới đây.

Company Mentioned

Mention Thumbnail
featured image - Deepmind có thể vừa tạo ra AI chung đầu tiên trên thế giới
Louis Bouchard HackerNoon profile picture

Gato từ DeepMind vừa được xuất bản! Nó là một máy biến áp duy nhất có thể chơi trò chơi Atari, hình ảnh chú thích, trò chuyện với mọi người, điều khiển một cánh tay robot thực sự và hơn thế nữa! Thật vậy, nó được huấn luyện một lần và sử dụng cùng trọng lượng để đạt được tất cả các nhiệm vụ đó. Và theo Deepmind, đây không chỉ là một máy biến áp mà còn là một tác nhân. Đây là những gì sẽ xảy ra khi bạn kết hợp Người biến hình với tiến trình trên các tác nhân học tăng cường đa nhiệm vụ.

Như chúng tôi đã nói, Gato là một đại lý đa phương thức. Có nghĩa là nó có thể tạo chú thích cho hình ảnh hoặc trả lời câu hỏi như một chatbot. Bạn sẽ nói rằng GPT-3 đã có thể làm được điều đó, nhưng Gato có thể làm được nhiều hơn thế… Tính đa phương thức đến từ thực tế là Gato cũng có thể chơi các trò chơi Atari ở cấp độ con người hoặc thậm chí làm các nhiệm vụ trong thế giới thực như điều khiển cánh tay robot để di chuyển các đối tượng một cách chính xác. Nó hiểu từ ngữ, hình ảnh và thậm chí cả vật lý ...

Tìm hiểu thêm trong video

Người giới thiệu

►Đọc toàn bộ bài viết: https://www.louisbouchard.ai/deepmind-gato/
► Bài đăng trên blog của Deepmind: https://www.deepmind.com/publications/a-generalist-agent
►Paper: Reed S. và cộng sự, 2022, Deemind: Gato, https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
►Bản tin của tôi (Một ứng dụng AI mới được giải thích hàng tuần cho email của bạn!): Https://www.louisbouchard.ai/newsletter/

Bản ghi video

0:00

Gato from deepmind vừa được xuất bản

0:02

đó là một máy biến áp duy nhất có thể chơi

0:04

trò chơi atari chú thích hình ảnh trò chuyện với

0:07

mọi người điều khiển một cánh tay robot thực sự và

0:09

thực sự nhiều hơn được đào tạo một lần và sử dụng

0:12

trọng lượng như nhau để đạt được tất cả các nhiệm vụ đó

0:15

và theo chuyên sâu, đây không chỉ là

0:17

máy biến áp mà còn là một tác nhân đây là

0:20

điều gì xảy ra khi bạn trộn máy biến áp

0:22

với tiến độ về đa tác vụ

0:23

các tác nhân học tập tăng cường như chúng tôi đã nói

0:26

gato là một tác nhân đa phương thức có nghĩa là

0:29

nó có thể tạo chú thích cho hình ảnh hoặc

0:31

trả lời các câu hỏi với tư cách là một chatbot mà bạn sẽ thấy

0:34

rằng gpt3 đã có thể làm điều đó nhưng ghetto

0:36

có thể làm được nhiều hơn từ đa phương thức đến từ

0:39

thực tế là ghetto cũng có thể chơi atari

0:41

trò chơi ở cấp độ con người hoặc thậm chí là thực

0:44

các nhiệm vụ thế giới như điều khiển robot

0:46

cánh tay để di chuyển các đối tượng một cách chính xác

0:48

hiểu từ hình ảnh và thậm chí

0:51

khu ổ chuột vật lý là nhà tổng quát đầu tiên

0:54

mô hình hoạt động rất tốt trên rất nhiều

0:56

các nhiệm vụ khác nhau và nó vô cùng

0:58

hứa hẹn cho lĩnh vực nó đã được đào tạo

1:00

trên 604 nhiệm vụ riêng biệt với các

1:03

phương thức quan sát và hành động

1:06

thông số kỹ thuật làm cho nó trở nên hoàn hảo

1:08

nhà tổng quát và như tôi đã nói nó làm tất cả

1:11

với cùng một mạng và trọng số

1:13

và trước khi bạn hỏi nó chỉ cần 1,2

1:15

tỷ tham số so với gpt3

1:18

đòi hỏi

1:19

175 tỷ trong số đó không phải là một cái bẫy

1:22

nơi bạn phải đào tạo lại hoặc chiến đấu đơn vị

1:24

cho tất cả các tác vụ, bạn có thể gửi cả một hình ảnh

1:27

và nhắn tin và nó sẽ hoạt động, bạn thậm chí có thể

1:29

thêm một vài chuyển động từ cánh tay rô bốt

1:32

mô hình có thể quyết định loại

1:34

đầu ra để cung cấp dựa trên ngữ cảnh của nó

1:36

từ văn bản đến các hành động rời rạc trong

1:38

một môi trường nếu bạn thích video

1:41

xin vui lòng xem xét đăng ký và cho tôi

1:43

biết bạn có thích loại video tin tức này không

1:46

tôi chắc chắn làm được nhiều hơn điều này là có thể

1:48

vì quá trình mã hóa của họ

1:50

mã hóa là khi bạn chuẩn bị

1:52

đầu vào cho phương thức vì chúng không

1:55

tự hiểu văn bản hoặc hình ảnh

1:57

mô hình ngôn ngữ và khu ổ chuột lấy

1:59

tổng số từ phụ, ví dụ 32

2:02

000 và mỗi từ có một số được gán

2:05

vào nó để có hình ảnh mà họ theo dõi vit

2:08

nhúng vá bằng cách sử dụng rộng rãi

2:10

khối resnet như chúng tôi đã đề cập trong phần trước

2:12

video chúng tôi cũng mã hóa nút

2:14

nhấn dưới dạng số nguyên cho atari

2:16

trò chơi hoặc các giá trị rời rạc cuối cùng dành cho

2:19

các giá trị liên tục như cảm thụ

2:21

đầu vào mà chúng tôi đã nói với robot

2:23

họ đã mã hóa các bài hát khác nhau

2:25

ma trận thành số thực và thêm chúng

2:27

sau mã thông báo văn bản bằng cách sử dụng tất cả những

2:30

các đầu vào khác nhau mà tác nhân thích ứng với

2:32

nhiệm vụ hiện tại để tạo ra

2:34

kết quả đầu ra trong quá trình đào tạo họ sử dụng dấu nhắc

2:36

điều hòa như trong gpt3 với trước đó

2:39

hành động lấy mẫu và quan sát

2:42

tiến bộ trong các đại lý rl tổng quát trong

2:44

những năm qua thật đáng kinh ngạc và đã đến

2:47

chủ yếu từ deepmind người ta có thể thấy rằng

2:49

họ đang di chuyển kim đến gần

2:51

ai nói chung hoặc trí thông minh cấp độ con người

2:55

nếu cuối cùng chúng ta có thể xác định nó, tôi yêu như thế nào

2:57

nhiều chi tiết họ đã đưa ra trong bài báo của họ

2:59

và tôi rất vui khi xem họ sẽ làm gì

3:01

hoặc người khác sẽ làm gì khi sử dụng cái này

3:03

kiến trúc của mô hình liên kết đến

3:06

giấy để biết thêm thông tin về

3:07

mô hình là trong mô tả, tôi hy vọng bạn

3:09

rất thích đoạn video ngắn này, tôi vừa xem cái này

3:12

tin tức khi tôi thức dậy và tôi không thể làm gì

3:13

bất cứ điều gì khác ngoài làm video này

3:15

trước khi bắt đầu một ngày của tôi, nó cũng vậy

3:17

thú vị, tôi sẽ gặp bạn vào tuần tới với

một tờ giấy tuyệt vời khác