我们已经看到人工智能生成文本,然后生成图像,最近甚至生成短视频,尽管它们仍需要一些改进。
当您认为实际上没有人参与这些作品的创作过程并且只需要培训一次然后像稳定扩散一样被成千上万的人使用时,结果是令人难以置信的。
不过,这些模型真的了解它们在做什么吗?他们知道他们刚刚制作的图片或视频真正代表什么吗?
当这样的模型看到这样的图片或更复杂的视频时,它会理解什么?在视频中了解更多...(视频中也有 RTX GPU 赠品信息!)
►阅读全文:
https://www.louisbouchard.ai/general-video-recognition/
►Ni, B., Peng, H., Chen, M., Zhang, S., Meng, G., Fu, J., Xiang, S. and
Ling, H., 2022. 扩展通用语言图像预训练模型
视频识别。 arXiv 预印本 arXiv:2208.02816。
►代码: https ://github.com/microsoft/VideoX/tree/master/X-CLIP
►我的时事通讯(一个新的 AI 应用程序每周向您的电子邮件解释!):
https://www.louisbouchard.ai/newsletter/
0:00
我们已经看到 ai 生成文本然后
0:02
生成图像,最近甚至
0:05
生成短视频,即使它们
0:07
仍然需要工作结果是
0:09
难以置信,尤其是当你认为
0:11
没有人真正参与
0:13
这些作品的创作过程和它
0:16
只需要立即训练到那时
0:18
被成千上万的人使用
0:20
稳定的扩散还在做这些
0:23
模态真正了解它们是什么
0:25
他们知道图片是什么吗?
0:27
他们刚刚制作的视频真的
0:29
代表什么是这样的模型
0:31
看到这样的图就明白了
0:34
或者更复杂的视频让我们集中注意力
0:36
关于两者中更具挑战性的
0:38
深入了解人工智能如何理解视频
0:41
通过一项称为一般视频的任务
0:44
识别目标是
0:46
将视频作为输入并使用的模型
0:49
文本来描述正在发生的事情
0:51
视频,但首先我想你会喜欢的
0:53
这一集的赞助商和他们有什么
0:55
为
0:59
这个视频我正在与 scale ai 合作
1:01
斯卡利亚是其中之一背后的公司
1:04
世界领先的人工智能会议转型
1:07
x 今年 10 月 19 日至 21 日 transformix
1:11
将汇集超过 20 000 个人工智能和
1:14
机器学习领导者有远见的实践者和
1:16
跨行业的研究人员进行探索
1:19
操作人工智能和机器学习
1:22
transfer mix 是一个免费的虚拟活动,并且
1:24
将有来自公司的 120 位演讲者
1:27
像元 openai deepmind google etsy
1:31
还有更多我个人很高兴听到
1:33
来自 greg brockman openai 的联合创始人
1:36
总裁兼副总裁科里
1:39
deepmind 2 的研究和技术
1:41
我们最重要的公司
1:43
场上也会有真的
1:45
来自梦幻般的有趣谈话
1:46
像弗朗索瓦这样的领域的贡献者
1:49
我会的 keras 的创造者小屋
1:51
绝对不要错过你的
1:53
有机会参加这个免费的教育
1:55
事件去年是一个巨大的打击,
1:58
你不想错过一起唱歌
2:00
下面的第一个链接参加
2:01
与我举行的 transformix 会议和
2:03
支持我的工作
2:06
通用视频识别
2:08
是最具挑战性的任务之一
2:10
理解视频,但它可能是
2:13
模型获得能力的最佳衡量标准
2:15
发生了什么这也是基础
2:17
许多应用程序背后依赖于一个
2:19
对运动等视频有很好的理解
2:22
分析或自动驾驶,但什么
2:24
使这项任务变得如此复杂
2:27
是我们需要了解的两件事
2:30
显示的意思是每一帧或每一帧
2:33
特定视频的图像秒我们
2:36
需要能够说我们
2:38
以人类理解的方式理解
2:41
这意味着幸运地使用单词
2:44
我们已经解决了第二个挑战
2:46
多次被语言社区
2:49
我们可以更多地接手他们的工作
2:51
正是我们可以从人们那里得到什么
2:53
语言图像字段已完成
2:56
夹子甚至稳定的模型
2:58
有文本编码器的扩散
3:01
和一个图像编码器,它学会了
3:04
将两种类型的输入编码到
3:06
以这种方式进行相同的表示
3:09
可以将相似的场景与相似的场景进行比较
3:11
通过训练架构的文本提示
3:13
数以百万计的图片说明示例
3:16
具有文本和图像的对
3:18
编码在相似的空间是强大的
3:20
因为它需要更少的空间
3:22
执行计算,它允许我们
3:24
将文字与图像轻松比较
3:27
模型仍然不明白
3:29
一个图像甚至一个简单的句子,但是
3:32
它至少可以理解两者是否都是
3:34
相似与否 我们离我们还很远
3:37
智能,但这非常有用
3:39
对于大多数情况来说已经足够好了
3:42
最大的挑战在这里视频
3:44
为此,我们将使用来自
3:47
柏林我和同事在他们最近
3:49
纸张扩展语言图像
3:51
一般视频的预训练模态
3:54
识别视频要复杂得多
3:56
比图像由于时间
3:58
信息意味着多帧
4:01
以及每个框架都链接的事实
4:03
到下一个和上一个
4:05
连贯的运动和动作模型
4:08
需要看看之前发生了什么
4:10
并在每一帧之后有一个适当的
4:13
对场景的理解只是
4:15
就像在 youtube 上一样,你不能真的跳过 5
4:18
像你一样在短视频中前进几秒钟
4:20
会错过这个有价值的信息
4:23
以防他们获取每一帧并发送它们
4:25
进入我们刚刚的同一个图像编码器
4:27
讨论使用视觉转换器
4:30
基于架构将它们处理成
4:32
使用注意力的浓缩空间,如果你
4:35
不熟悉视力
4:36
变形金刚或注意力机制
4:39
我会邀请你看我的视频
4:40
一旦你有你的介绍他们
4:43
你可以为每一帧表示
4:45
使用类似的基于注意力的过程
4:47
让每个帧一起通信,并且
4:50
允许您的模型交换信息
4:52
帧之间并创建一个决赛
4:55
表示视频 this
4:57
帧之间的信息交换
4:59
使用注意力会起到某种作用
5:02
记忆让你的模型理解
5:04
视频作为一个整体而不是几个
5:06
最后我们一起使用随机图像
5:09
另一个注意力模块来合并
5:11
我们拥有的帧的文本编码
5:14
我们的浓缩视频表示
5:17
瞧,这是人工智能的一种方式
5:20
理解视频当然这是
5:23
只是对这篇伟大论文的概述
5:25
微软研究作为
5:27
视频识别简介 i
5:30
邀请您阅读他们的论文
5:32
更好地理解他们的方法我
5:34
也有幸宣布
5:36
下一个 nvidia gtc 的另一个赠品
5:39
9月19日至9月的活动
5:42
22nd nvidia 再次给我一个
5:45
rtx 3080 ti 赠送给这个
5:48
你们参加的社区
5:50
你唯一要做的两件事
5:53
为了有机会获胜
5:55
订阅频道并给我发消息
5:57
你收费之一的截图
5:59
决定参加活动期间
6:02
就是这样,谢谢你观看
6:04
视频和热烈感谢我的朋友们
6:06
scale ai 赞助我希望的视频
6:09
在他们的免费活动中虚拟地见到你
6:11
很快,我下周见
6:13
用另一张神奇的纸
[音乐]