paint-brush
Nhận dạng video chung là gì?từ tác giả@whatsai
866 lượt đọc
866 lượt đọc

Nhận dạng video chung là gì?

từ tác giả Louis Bouchard6m2022/09/09
Read on Terminal Reader
Read this story w/o Javascript

dài quá đọc không nổi

Chúng tôi đã thấy AI tạo ra văn bản, sau đó tạo hình ảnh và gần đây nhất là thậm chí tạo video ngắn, mặc dù chúng vẫn cần một số cải tiến. Kết quả thật đáng kinh ngạc khi bạn nghĩ rằng không ai thực sự tham gia vào quá trình tạo ra những mảnh ghép này và nó chỉ phải được đào tạo một lần để sau đó được hàng nghìn người sử dụng giống như sự khuếch tán ổn định. Tuy nhiên, những người mẫu này có thực sự hiểu những gì họ đang làm không? Họ có biết hình ảnh hoặc video họ vừa sản xuất thực sự đại diện cho điều gì không? Một người mẫu như vậy hiểu gì khi nhìn thấy một bức ảnh như vậy hoặc thậm chí phức tạp hơn, một đoạn video? Tìm hiểu thêm trong video ... (thông tin tặng phẩm cũng có trong video!)
featured image - Nhận dạng video chung là gì?
Louis Bouchard HackerNoon profile picture

Chúng tôi đã thấy AI tạo ra văn bản, sau đó tạo hình ảnh và gần đây nhất là thậm chí tạo video ngắn, mặc dù chúng vẫn cần một số cải tiến.

Kết quả thật đáng kinh ngạc khi bạn nghĩ rằng không ai thực sự tham gia vào quá trình tạo ra những mảnh ghép này và nó chỉ phải được đào tạo một lần để sau đó được hàng nghìn người sử dụng giống như sự khuếch tán ổn định.

Tuy nhiên, những người mẫu này có thực sự hiểu những gì họ đang làm không? Họ có biết hình ảnh hoặc video họ vừa sản xuất thực sự đại diện cho điều gì không?

Một người mẫu như vậy hiểu gì khi nhìn thấy một bức ảnh như vậy hoặc thậm chí phức tạp hơn, một đoạn video? Tìm hiểu thêm trong video ... (có cả thông tin quà tặng GPU RTX trong video!)

Người giới thiệu

►Đọc toàn bộ bài viết:
https://www.louisbouchard.ai/general-video-recognition/
►Ni, B., Peng, H., Chen, M., Zhang, S., Meng, G., Fu, J., Xiang, S. và
Ling, H., 2022. Mở rộng các mô hình định sẵn ngôn ngữ-hình ảnh cho thông thường
Nhận dạng video. arXiv bản in trước arXiv: 2208.02816.
►Code: https://github.com/microsoft/VideoX/tree/master/X-CLIP
►Bản tin của tôi (Một ứng dụng AI mới được giải thích hàng tuần cho email của bạn!):
https://www.louisbouchard.ai/newsletter/

Bản ghi video

0:00

chúng tôi đã thấy ai tạo ra văn bản sau đó

0:02

tạo hình ảnh và thậm chí gần đây nhất

0:05

tạo video ngắn mặc dù chúng

0:07

vẫn cần làm việc kết quả là

0:09

đặc biệt là khi bạn nghĩ

0:11

rằng không ai thực sự tham gia vào

0:13

quá trình tạo ra những mảnh này và nó

0:16

chỉ cần được đào tạo ngay lập tức

0:18

được sử dụng bởi hàng nghìn người thích

0:20

sự khuếch tán ổn định vẫn làm những điều này

0:23

phương thức thực sự hiểu chúng là gì

0:25

họ đang làm gì họ biết những gì hình ảnh hoặc

0:27

video họ vừa sản xuất thực sự

0:29

đại diện cho những gì một mô hình như vậy

0:31

hiểu khi nó nhìn thấy một bức tranh như vậy

0:34

hoặc thậm chí phức tạp hơn một video hãy tập trung

0:36

về thách thức hơn của cả hai và

0:38

tìm hiểu cách một ai đó hiểu video

0:41

thông qua một nhiệm vụ được gọi là video chung

0:44

công nhận nơi mà mục tiêu là

0:46

mô hình lấy video làm đầu vào và sử dụng

0:49

văn bản để mô tả những gì đang xảy ra trong

0:51

video nhưng trước tiên tôi nghĩ bạn sẽ thích

0:53

nhà tài trợ tập này và những gì họ có

0:55

để cung cấp một sự kiện ai miễn phí tuyệt vời cho

0:59

video này tôi đang hợp tác với scale ai

1:01

scalia là công ty đứng sau một trong những

1:04

hội nghị ai hàng đầu thế giới chuyển đổi

1:07

x lần chuyển đổi từ ngày 19 đến ngày 21 tháng 10 này

1:11

sẽ quy tụ hơn 20.000 ai và

1:14

các nhà lãnh đạo ml có tầm nhìn xa trông rộng và

1:16

các nhà nghiên cứu trong các ngành để khám phá

1:19

vận hành ai và học máy

1:22

kết hợp chuyển giao là một sự kiện ảo miễn phí và

1:24

sẽ có 120 diễn giả từ các công ty

1:27

như meta openai deepmind google etsy

1:31

và hơn thế nữa, cá nhân tôi rất vui khi nghe

1:33

từ người đồng sáng lập của Greg brockman openai

1:36

và chủ tịch và cốt lõi là vp của

1:39

nghiên cứu và công nghệ ở sâu thứ hai

1:41

trong số các công ty quan trọng nhất trong

1:43

lĩnh vực đó cũng sẽ thực sự

1:45

những cuộc nói chuyện thú vị từ tuyệt vời

1:46

những người đóng góp cho lĩnh vực này như francois

1:49

nhà gỗ, người tạo ra keras mà tôi sẽ

1:51

chắc chắn điều chỉnh để không bỏ lỡ của bạn

1:53

cơ hội tham dự chương trình giáo dục miễn phí này

1:55

sự kiện đó là một cú hit lớn vào năm ngoái và

1:58

bạn không muốn bỏ lỡ buổi hát với

2:00

liên kết đầu tiên bên dưới để tham dự

2:01

hội nghị biến đổi với tôi và

2:03

ủng hộ công việc của tôi

2:06

nhận dạng video chung

2:08

là một trong những nhiệm vụ khó khăn nhất trong

2:10

hiểu video nhưng nó có thể là

2:13

thước đo tốt nhất về khả năng của một người mẫu để có được

2:15

những gì đang xảy ra nó cũng là cơ sở

2:17

đằng sau nhiều ứng dụng dựa vào

2:19

hiểu rõ về các video như thể thao

2:22

phân tích hoặc lái xe tự động nhưng những gì

2:24

làm cho nhiệm vụ này rất phức tạp ở đó

2:27

là hai điều chúng ta cần hiểu

2:30

những gì được hiển thị có nghĩa là từng khung hoặc từng

2:33

hình ảnh của một video cụ thể thứ hai chúng tôi

2:36

cần có thể nói những gì chúng tôi

2:38

hiểu theo cách mà con người hiểu

2:41

có nghĩa là sử dụng từ ngữ may mắn cho

2:44

chúng tôi thách thức thứ hai đã được giải quyết

2:46

nhiều lần bởi cộng đồng ngôn ngữ

2:49

và chúng tôi có thể tiếp quản công việc của họ nhiều hơn

2:51

chính xác là chúng tôi có thể lấy những gì mọi người từ

2:53

trường hình ảnh ngôn ngữ đã thực hiện với

2:56

mô hình như clip hoặc thậm chí ổn định

2:58

phổ biến nơi bạn có một bộ mã hóa văn bản

3:01

và một bộ mã hóa hình ảnh học cách

3:04

mã hóa cả hai loại đầu vào thành

3:06

cùng một kiểu đại diện theo cách này bạn

3:09

có thể so sánh một cảnh tương tự với một cảnh tương tự

3:11

nhắc văn bản bằng cách đào tạo kiến trúc

3:13

với hàng triệu ví dụ về chú thích hình ảnh

3:16

các cặp có cả văn bản và hình ảnh

3:18

được mã hóa trong một không gian tương tự rất mạnh mẽ

3:20

bởi vì nó chiếm ít không gian hơn để

3:22

thực hiện các phép tính và nó cho phép chúng tôi

3:24

so sánh văn bản với hình ảnh dễ dàng ý nghĩa

3:27

mà người mẫu vẫn không hiểu

3:29

một hình ảnh hoặc thậm chí một câu đơn giản nhưng

3:32

ít nhất nó có thể hiểu nếu cả hai đều

3:34

tương tự hay không chúng ta vẫn còn xa

3:37

thông minh nhưng điều đó khá hữu ích

3:39

và đủ tốt cho hầu hết các trường hợp

3:42

với thử thách lớn nhất tại đây video

3:44

và vì điều đó, chúng tôi sẽ sử dụng cách tiếp cận từ

3:47

berlin tôi và các đồng nghiệp trong thời gian gần đây của họ

3:49

hình ảnh ngôn ngữ mở rộng giấy

3:51

các phương thức được đào tạo trước cho video chung

3:54

video nhận dạng phức tạp hơn nhiều

3:56

hơn hình ảnh do thời gian

3:58

thông tin có nghĩa là nhiều khung

4:01

và thực tế là mỗi khung đều được liên kết

4:03

tới cái tiếp theo và cái trước đó với

4:05

chuyển động mạch lạc và hành động của mô hình

4:08

cần phải xem những gì đã xảy ra trước đó trong

4:10

và sau mỗi khung hình để có một

4:13

sự hiểu biết về cảnh đó chỉ là

4:15

như trên youtube, bạn thực sự không thể bỏ qua 5

4:18

chuyển tiếp vài giây trong video ngắn với tư cách là bạn

4:20

sẽ bỏ lỡ thông tin có giá trị trong này

4:23

trường hợp họ lấy từng khung hình và gửi chúng

4:25

vào cùng một bộ mã hóa hình ảnh mà chúng tôi chỉ

4:27

thảo luận về việc sử dụng máy biến áp tầm nhìn

4:30

dựa trên kiến trúc để xử lý chúng thành

4:32

một không gian cô đọng sử dụng sự chú ý nếu bạn

4:35

không quen với tầm nhìn

4:36

máy biến áp hoặc cơ chế chú ý

4:39

tôi sẽ mời bạn xem video tôi

4:40

đã giới thiệu họ khi bạn có

4:43

đại diện cho mỗi khung bạn có thể

4:45

sử dụng một quy trình dựa trên sự chú ý tương tự để

4:47

để mỗi khung giao tiếp với nhau và

4:50

cho phép mô hình của bạn trao đổi thông tin

4:52

giữa các khung và tạo ra một cuối cùng

4:55

đại diện cho video này

4:57

trao đổi thông tin giữa các khung

4:59

sử dụng sự chú ý sẽ hoạt động như một số loại

5:02

bộ nhớ cho mô hình của bạn để hiểu

5:04

toàn bộ video thay vì một vài

5:06

hình ảnh ngẫu nhiên cùng nhau cuối cùng chúng tôi sử dụng

5:09

một mô-đun chú ý khác để hợp nhất

5:11

mã hóa văn bản của các khung mà chúng tôi đã có

5:14

đại diện video cô đọng của chúng tôi

5:17

và thì đây là một cách an ai

5:20

hiểu một video tất nhiên đây là

5:23

chỉ là một cái nhìn tổng quan về bài báo tuyệt vời này bởi

5:25

nghiên cứu microsoft đóng vai trò như một

5:27

giới thiệu về nhận dạng video i

5:30

mời bạn đọc bài báo của họ để biết

5:32

hiểu rõ hơn về cách tiếp cận của họ tôi

5:34

cũng hân hạnh được thông báo

5:36

một món quà khác cho gtc nvidia tiếp theo

5:39

sự kiện từ ngày 19 tháng 9 đến tháng 9

5:42

Nvidia thứ 22 một lần nữa cho tôi một

5:45

rtx 3080 ti để cho đi

5:48

cộng đồng cho những người bạn tham dự

5:50

sự kiện chỉ có hai điều bạn phải làm

5:53

để có cơ hội giành chiến thắng là

5:55

đăng ký kênh và dm mình a

5:57

ảnh chụp màn hình của một trong những khoản thu phí bạn

5:59

quyết định tham dự sự kiện

6:02

đó là nó, cảm ơn bạn đã xem

6:04

video và lời cảm ơn nồng nhiệt đến những người bạn của tôi tại

6:06

scale ai để tài trợ cho video mà tôi hy vọng

6:09

để gặp bạn hầu như tại sự kiện miễn phí của họ

6:11

ngay và tôi sẽ gặp bạn vào tuần tới

6:13

với một tờ giấy tuyệt vời khác

[Âm nhạc]