Bạn đã bao giờ mơ về một công cụ phiên âm tốt có thể hiểu chính xác những gì bạn nói và viết nó ra chưa? Không giống như các công cụ dịch tự động của YouTube… Ý tôi là, chúng tốt nhưng chưa hoàn hảo. Chỉ cần dùng thử và bật tính năng này cho video, bạn sẽ thấy những gì tôi đang nói.
May mắn thay, OpenAI vừa phát hành và tạo nguồn mở cho một mô hình AI khá mạnh mẽ chỉ dành cho điều đó: Whisper.
Nó hiểu những thứ mà tôi thậm chí không thể hiểu được, không phải là người nói tiếng Anh bản ngữ (nghe trong video) và nó cũng hoạt động để dịch ngôn ngữ! Tìm hiểu thêm trong video bên dưới ...
►Đọc toàn bộ bài viết: https://www.louisbouchard.ai/whisper/
► Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. và
Sutskever, I., Nhận dạng giọng nói mạnh mẽ thông qua Yếu quy mô lớn
Giám sát.
► Liên kết dự án: https://openai.com/blog/whisper/
►Mã: https://github.com/openai/whisper
► Sổ tay Google Colab: https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb
► Ứng dụng YouTube Whisperer: https://huggingface.co/spaces/jeffistyping/Youtube-Whisperer
►Bản tin của tôi (Một ứng dụng AI mới được giải thích hàng tuần cho email của bạn!): Https://www.louisbouchard.ai/newsletter/
0:00
bạn đã bao giờ mơ về một điều tốt đẹp
0:01
công cụ phiên âm sẽ chính xác
0:03
hiểu những gì bạn thấy và viết nó
0:05
xuống không giống như YouTube tự động
0:07
công cụ dịch thuật ý tôi là chúng tốt
0:09
nhưng không hoàn hảo, chỉ cần dùng thử và
0:12
bật tính năng cho video này và
0:14
bạn sẽ thấy tốt về những gì tôi đang nói
0:16
AI mở vừa phát hành một nguồn mở
0:18
và một mô hình AI khá mạnh mẽ chỉ dành cho
0:21
thì thầm nó thậm chí còn hiểu những thứ tôi
0:24
thậm chí không thể hiểu được không phải là một người bản xứ
0:26
người nói tiếng Anh
0:28
đây là người máy vi mô đang trình bày
0:29
đoàn mô tô thu nhỏ nhất của
0:30
máy vi mô mỗi cái có kịch tính
0:32
chi tiết trang trí tuyệt vời Trang chính xác
0:33
Cộng với túi máy siêu nhỏ đáng kinh ngạc
0:34
nơi nói rằng PlayStation bắn nó
0:36
cũng làm việc cho bản dịch ngôn ngữ
0:38
thì thầm một quán chất lỏng nó
0:41
máy phát âm thanh tự động
0:48
kết quả và độ chính xác thật đáng kinh ngạc
0:51
nhưng điều thú vị hơn là cách nó hoạt động
0:53
chúng ta hãy đi sâu vào nó nhưng trước tiên hãy để tôi
0:56
giới thiệu nhà tài trợ của tập này là
0:58
liên quan nhiều đến hội đồng nghiên cứu này
1:00
AI lắp ráp AI là nền tảng API cho
1:03
các mô hình AI hiện đại từ các công ty khởi nghiệp
1:06
cho các nhà phát triển công ty trong danh sách Fortune 500 và
1:08
nhóm sản phẩm trên khắp thế giới sử dụng đòn bẩy
1:10
lắp ráp AI để xây dựng dựa trên ai tốt hơn
1:13
sản phẩm và tính năng nếu bạn
1:15
xây dựng podcast trình tóm tắt cuộc họp
1:17
máy phân tích hoặc bất cứ điều gì thực sự liên quan đến
1:19
âm thanh hoặc video và muốn tận dụng AI
1:22
để cung cấp cho phiên âm hoặc thông tin chi tiết tại
1:24
quy mô chắc chắn kiểm tra API của họ
1:26
nền tảng cụ thể hơn mà tôi muốn
1:29
chia sẻ mô hình tóm tắt của họ mà tôi
1:31
thấy thực sự thú vị như cái tên đã nói với
1:34
mô hình này bạn có thể xây dựng các công cụ
1:36
tự động tóm tắt âm thanh của bạn và
1:38
các tệp video, mô hình linh hoạt để phù hợp
1:41
trường hợp sử dụng của bạn và có thể được tùy chỉnh để
1:44
các loại dấu đầu dòng tóm tắt khác nhau
1:46
tiêu đề đoạn văn hoặc điều chỉnh tất cả
1:48
Hoạt động thông qua các lệnh gọi API đơn giản và bạn
1:51
có thể tìm thấy tất cả thông tin bạn cần
1:53
cho mô hình tóm tắt và lắp ráp
1:55
AI với liên kết đầu tiên bên dưới
1:59
khi nói đến chính mô hình
2:01
thì thầm khá cổ điển, nó được xây dựng dựa trên
2:04
kiến trúc Transformer xếp chồng
2:06
khối mã hóa và khối bộ giải mã với
2:08
cơ chế chú ý tuyên truyền
2:10
thông tin giữa cả hai nó sẽ mất
2:13
bản ghi âm chia nó thành 30
2:16
phần thứ hai và xử lý từng phần một
2:18
một cho mỗi 30 giây ghi lại nó
2:21
sẽ mã hóa âm thanh bằng bộ mã hóa
2:23
và lưu vị trí của từng
2:25
từ đã nói và tận dụng được mã hóa này
2:28
thông tin để tìm những gì đã được nói bằng cách sử dụng
2:30
bộ giải mã, bộ giải mã sẽ dự đoán
2:33
những gì chúng tôi gọi là mã thông báo từ tất cả những thứ này
2:34
thông tin về cơ bản là mỗi
2:37
những từ được nói rồi nó sẽ lặp lại
2:39
quá trình này cho từ tiếp theo sử dụng tất cả
2:41
cùng một thông tin cũng như
2:43
dự đoán từ trước đó giúp nó
2:46
đoán cái tiếp theo sẽ kiếm được nhiều tiền hơn
2:48
cảm giác như tôi đã nói về kiến trúc tổng thể
2:50
là một bộ mã hóa và giải mã cổ điển và tôi
2:53
đã bao gồm nó trong nhiều video tương tự như
2:55
gpt3 và các mô hình ngôn ngữ khác mà tôi
2:58
mời bạn kiểm tra thêm
3:00
chi tiết kiến trúc này hoạt động như nó
3:02
đã được đào tạo trên 600 000 giờ
3:05
đa ngôn ngữ và đa nhiệm được giám sát
3:08
dữ liệu được thu thập từ web có nghĩa là
3:11
họ đã đào tạo mô hình Âm thanh của họ trong một
3:12
cách tương tự như gpt3 với dữ liệu có sẵn
3:15
trên internet làm cho nó trở nên lớn và
3:18
Mô hình âm thanh chung, nó cũng làm cho
3:20
cách mô hình mạnh mẽ hơn những cách khác trong
3:23
thực tế là họ đã đề cập đến lời thì thầm đó
3:24
tiếp cận mức độ mạnh mẽ của con người do
3:27
được đào tạo trên một loạt các
3:29
dữ liệu khác nhau từ Clip TED Talks
3:32
các cuộc phỏng vấn podcast và hơn thế nữa, tất cả
3:34
đại diện cho dữ liệu giống như thế giới thực với một số
3:36
trong số họ được phiên âm bằng máy
3:38
học dựa trên mô hình chứ không phải con người
3:40
chắc chắn sử dụng dữ liệu không hoàn hảo như vậy
3:43
giảm Độ chính xác có thể nhưng tôi
3:45
sẽ lập luận rằng nó sẽ giúp cho sự mạnh mẽ khi
3:47
được sử dụng như một cách thưa thớt so với Pure human
3:49
bộ dữ liệu âm thanh được quản lý hoàn hảo
3:52
phiên âm có một cái chung chung như vậy
3:54
mô hình không phải là rất mạnh mẽ trong chính nó như
3:57
nó sẽ bị đánh bại ở hầu hết các nhiệm vụ bởi
3:58
các mô hình nhỏ hơn và cụ thể hơn được điều chỉnh
4:01
đến nhiệm vụ trước mắt nhưng nó có nhiệm vụ khác
4:03
lợi ích bạn có thể sử dụng loại này
4:05
các mô hình được đào tạo trước và tinh chỉnh chúng trên
4:08
nhiệm vụ của bạn có nghĩa là bạn sẽ thực hiện
4:10
mô hình mạnh mẽ này và đào tạo lại một phần
4:13
của nó hoặc toàn bộ điều của riêng bạn
4:15
dữ liệu kỹ thuật này đã được hiển thị cho
4:17
sản xuất các mô hình tốt hơn nhiều so với bắt đầu
4:19
đào tạo từ đầu với dữ liệu của bạn và
4:21
điều tuyệt vời hơn nữa là cái mở openai đó
4:24
lấy nguồn mã của họ và mọi thứ
4:25
thay vì một API để bạn có thể sử dụng thì thầm
4:28
như một kiến trúc nền tảng được đào tạo trước
4:30
để xây dựng và tạo ra
4:33
mô hình cho chính bạn một số người có
4:35
đã phát hành các công cụ như
4:37
Khuôn mặt unhugging trên YouTube Whisperer của Jeff
4:39
đang gõ lấy một liên kết YouTube và
4:42
tạo các bản ghi âm mà tôi đã tìm thấy
4:44
nhờ Yannick kilter họ cũng
4:46
phát hành sổ ghi chép cộng tác của Google cho
4:48
chơi với ngay lập tức trong khi một cái gì đó
4:50
cạnh tranh là chìa khóa tôi rất vui vì openai là
4:53
phát hành một số tác phẩm của nó cho công chúng
4:54
Tôi tin rằng những sự hợp tác như vậy là
4:57
cách tốt nhất để thăng tiến trong lĩnh vực của chúng tôi
5:00
tôi biết bạn nghĩ gì nếu bạn muốn
5:01
xem thêm các bản phát hành công khai của openai hoặc nếu
5:04
bạn thích những sản phẩm cuối cùng mà họ xây dựng
5:06
như dally như mọi khi bạn có thể tìm thấy thêm
5:08
thông tin về thì thầm trong báo
5:11
và mã được liên kết bên dưới và tôi hy vọng bạn
5:13
rất thích video này, tôi sẽ gặp bạn lần sau
5:15
tuần với một bài báo tuyệt vời khác