人工智能 (AI) 是一个您一定听说过的术语,即使您来自 IT 界。人工智能是机器和计算机系统模拟人类智能过程的时候。现在,人工智能正在真正接管世界——至少 90% 的科技巨头投资于它。根据数据和人工智能领导力高管调查,参与调查的人工智能友好型公司的数量在一年内翻了一番。另一项调查表明,一半的受访公司使用人工智能。
人工智能的一些更具体的应用包括专家系统、自然语言处理、语音识别和机器(计算机)视觉。后一种人工智能——计算机视觉——已经被集成到道路交通、银行支付和社交网络中。在过去的几十年里,人工智能视觉已经学会了以达到人类的准确度来解决许多任务。
“正如许多其他人已经注意到并指出的那样,新皮质在其所有输入模式中也具有高度统一的架构。也许大自然偶然发现了一个非常相似的强大架构,并以类似的方式复制了它,只是改变了一些细节。这种架构整合将反过来集中软件、硬件和基础设施,进一步加快人工智能的发展。 [...] 无论如何,激动人心的时刻。” ——安德烈·卡帕斯(Andrej Karpathy)被埃隆·马斯克(Elon Musk)追捕,为特斯拉开发计算机视觉,他在推特上发布了关于人工智能愿景的信息。
许多公司已经开始在人工智能任务中使用计算机视觉。 Karpathy 正在研究人工智能驱动的汽车。 NASA 使用 AI 视觉来追踪宇航员,警察使用它来追踪罪犯。人工智能视觉已成为我们日常生活的重要组成部分。您是否注意到计算机视觉每天都在哪里为您工作?我们打赌你每天都会使用它。至少,如果您是 Amazon、Apple 或 Google 客户,您会这样做。
考虑到计算机视觉已经成为我们生活的一部分,是时候了解人工智能视觉的工作原理并决定是否依赖它了。五年前,我们认为人工智能是一个“孩子”。它已经成长到可以依赖的程度了吗?我们建议您在了解后自行决定:
曾经,人们决定教计算机充当大脑。这个想法主要属于心理学家弗兰克·罗森布拉特。许多人称他为人工智能之父。在 1950 年代后期,罗森布拉特在生物学和数学的帮助下制造了一台计算机来模拟神经网络。为了学习一些东西,人脑中的神经元会建立联系。这一原则奠定了人工智能的基础。
麻省理工学院联合创始人 Marvel Minsky 迈出了下一步。他希望他的学生教计算机描述整个夏天它“看到”的一切。值得一提的是,这是一个夏季项目,但失败了。尽管计算机仍然无法准确识别图像,但它可以识别图片中物体的边缘。
人工智能视觉首先应用于任何字体的印刷文本(光学字符识别)甚至手写文本(智能字符识别)。这在 1970 年代已经成为可能。在这一突破之后,在商业、娱乐、交通、医疗保健和日常生活中都做了很多工作。
1970 年代对于计算机视觉至关重要,因为它的许多技术基础都是在那十年中出现的。在 1980 年代,计算机已经可以完成复杂的任务。感谢大卫马尔和其他人,人工智能可以看到曲线和边缘,并注意到类似的视觉模式。后来,计算机不仅能识别线条,还能识别阴影、焦点和纹理。这要归功于促进图像处理的卷积神经网络。
2001 年,人工智能已经能够识别人脸。自 2012 年的 AlexNet 项目以来,AI 视觉的错误越来越少,现在它更加准确。当然,AI 识别向下姿势的猫仍然是一项艰巨的任务。无论如何,它可以学习如何做到这一点。 ImageNet 团队付出了巨大的努力,吸引了全球超过 50,000 人手动标记图像。它帮助 AI 学习了一些模式,并能够自行继续学习。
计算机的视觉与生物的视觉相似吗?
CNN(卷积神经网络)的思想是基于神经元原理。 CNN 由层组成,这些层逐渐识别图像模式,从简单到复杂,从线条到整张脸。人工层类似于大脑中的神经元层。人工神经元被称为感知器,CNN 就是使用这些感知器的网络。
谈到人类视觉,一些神经元在特别暴露于垂直线时会被激活,而另一些神经元则在暴露于水平线或对角线时会被激活。这就是 Hubel 和 Wiesel 在 1962 年所描述的。将特定任务划分为分离人工神经元也是 CNN 所做的。
感知器以不同的方式评估信息,或者从数学上讲,人工神经元以不同的方式对输入进行加权,以决定其中哪些是重要的。我们的大脑以类似的方式过滤信息。我们不记得白天看到的所有面孔。我们只保存有价值的信息。神经元层呢?
大脑皮层将神经元保持在六个水平层中。这些层因神经元类型及其连接而异。然而,神经信号实际上并没有以分层的方式通过所有的皮层层。信号不一定从第一层移动到最后一层。
信息在整个神经元中传输的方式不依赖于层的拓扑。在 CNN 层中,它确实如此。 CNN 以不同的方式使用神经元层原理:信息逐渐从一层传递到另一层。
这一切都来自于 Kunihiko Fukushima 在 1980 年提出的“神经认知”。他介绍了两种基本类型的 CNN 层:卷积层和下采样层。这些层包含类似于不同神经元的单元,可以处理不同复杂度的视觉信息。受这些细胞的启发,福岛提出了一种级联模型,其中神经元以分层方式传递信息:从层到层。
研究人类视觉确实导致了人工智能视觉的出现。现在,计算机系统即使在运动中也能识别复杂的世界。此外,他们自己学习如何更有效地做到这一点。
由于多项成就,计算机视觉成为可能。数学、生物学、编程和工程通常结合起来开发人工智能产品。计算机视觉可以称为人工智能视觉,因为它是基于人工智能技术的。此外,机器视觉部分与计算机视觉有关。他们的技术经常结合在一起。无论如何,计算机视觉对于在线监控产品或读取二维码等许多任务更为常见。那么它是怎样工作的?
像素:人工智能看到颜色和线条
准确地说,人工智能识别模式。它处理数百万张图像,以便能够对它们做出结论。这是深度学习发生的地方,使系统学习。
图像由像素组成。像素有它们的代码,每个图像都存储为由这些代码组成的数据。所有颜色都基于红色、蓝色和绿色(例如,在 RGB 模型中)。这意味着每种特定颜色都有三个值。当我们看到狗时,计算机会看到数字。例如,AI 将橙色像素理解为一组 (255, 165, 0) 数字。结果,计算机看到的不是图像,而是这些数字的网格。
如果计算机处理 1920*1080 像素的图像,那么它必须读取 2,073,600 像素。为了识别这张照片中的狗,计算机必须在图像中的所有像素中看到一些图案。我们做类似的事情:首先,我们注意到我们简单熟悉的对象特征。这就是为什么我们可以仅通过它们的轮廓来区分狗和汽车的原因。
计算机也试图区分熟悉的模式——查看与计算机数据库中的某物相关的线条或形状。数据库包含的匹配项越多,计算机对图像进行正确分类的机会就越大。
技术:类脑CNN
卷积是将数学函数与神经网络的原理结合成卷积神经网络。 CNN 和皮层一样有层次。它具有从简单到困难逐渐过滤图像特征的层:
CNN的核心是卷积层。再把图像想象成一个数字网格。在这一层,由于在卷积矩阵 (CM) 上乘以网格,计算机可以从图像中提取特征。在每个网格的单元格上乘以 CM 之后,我们得到一个变换的网格。计算机将其值理解为边缘或线条等特征,人工智能数据库可以熟悉它们的模式。
卷积运行多次以对模式进行预测并检查其准确性。神经网络将继续进行迭代,直到准确度尽可能高。这涉及到所有层。
如果我们从卷积层得到 10 个特征矩阵作为输出,这 10 个矩阵将作为输入传递到下一层。池化层和密集层也适用于图像进行多次迭代。但是它们的功能是不同的。
池化层减少了特征矩阵的维度,从而总结了主要信息。输入图像可能包含与简单对象模式的许多偏差:阴影、旋转或裁剪。它们使物体的识别复杂化。在池化层,干扰图像处理的不变特征只是被下采样或减少。
最后,密集层必须使用前一层的输出对图像进行分类。它必须处理从先前图层中提取的所有图像特征,并从该图像中命名对象。深层是一个全连接层,之所以这样称呼是因为人工神经元高度互连。其他层缺乏这种能力。
卷积层包含仅与前一层相连的神经元。对于一个物体的预测来说,这还不够。深层通过同时使用许多相互连接的神经元来应对这一任务。基于从前几层提取的特征进行预测,深层是人工智能视觉达到高精度的地方。
在编程级别,图像处理看起来不像是层次结构中的简单图像过滤。在不同的情况下,人工智能处理不同数量的层和不同的图像处理迭代,并在不同的时间内完成。
考虑到 AI 必须处理数十亿张图像才能理解复杂的现代世界,我们想象人们坐着并试图填充其数据库,假装 AI 是他们的学生。现在,人工智能正在尝试自己研究。人工智能是一个聪明的“孩子”,只需要材料就可以开始。
人工智能自学:深度学习
为了能够快速识别图像中的物体,人工智能需要大量的材料。由于照片的手动处理,第一次人脸识别成为可能。人们在人脸照片上标记特征,人工智能只需将新面孔与其现成的数据库进行比较。 AI没有自动工作,误差太大。为了完成计算机视觉的这些困难任务,使用了机器学习。
现在,人工智能使用深度学习技术自行学习。人工智能在输入了一些数据库后,大多不需要人。人们不会向人工智能解释每一条规则。他们应用统计学习算法——逻辑回归、决策树、线性回归和支持向量机——以便人工智能开始自己记住新模式。深度学习自动捕获特征,人们不必手动进行。
要训练,人工智能仍然需要人们在第一阶段引入的材料。为了识别狗,开发人员必须向计算机展示许多狗来准备它。稍后,人工智能将在处理新图像的同时继续自学。这也意味着 AI 不仅会从其数据库中查找相应的图像,现在它还知道如何对已经上传或看到的类似图像进行分类。
许多人工智能技术巨头与 Meta 和 Google 等社交网络巨头分享他们的工作,或者将其开源。它可以收集、共享大数据,并为人工智能提供更多的研究可能性。
由于早期手动处理大数据的计算机视觉技术,许多现代人工智能视觉技术完成了特定的任务。如今,全球数以千计的团队正在开发人工智能视觉。
例如,YOLO 算法可以实现实时对象检测和跟踪。它的任务不仅仅是检测镜头中的物体,而是关联之前镜头的所有信息。 You Only Look Once 原则意味着神经网络只处理一次图像以检测所有对象。然后它看着他们。由于深层和深度学习,这是可能的。
现在,计算机视觉几乎是一种自给自足的技术,可以做出比人类更好的预测。在谷歌资助的这项研究中,深度学习算法检测到乳房中的癌细胞的准确度高于放射科医生。 AI 系统的误报率降低了 5.7% 和 1.2%(美国和英国),误报率降低了 9.4% 和 2.7%。信任人工智能的一个很好的论据,不是吗?
从商店到拖拉机:计算机视觉应用
计算机视觉可以告诉我们关于图像的什么信息?我们知道它可以检测物体,甚至可以实时跟踪它们。还有什么?使用谷歌街景,在美国道路上捕捉汽车的视觉人工智能可以预测不同城市地区的收入甚至投票模式。例如,如果该城市的轿车多于皮卡,市民可能会投票给民主党。
人工智能可以为人们做的另一件事是计算国家公园中的动物数量。名为 Wildbook 的 AI 软件可通过外观自动识别物种。这种人工智能视觉可以识别独特的外套图案或其他特征,如耳朵轮廓或侥幸。 Wildbook 拥有一个包含 20 个物种的数据库。现在它与Microsoft AI for Earth Program合作解决不同的环境问题。我们不经常与长颈鹿或美洲虎打交道,而这些故事并不像我们每天遇到的人工智能那样让我们心碎。
Snapchat 和亚马逊
您是否知道您可以使用 Snapchat 相机专注于任何产品,并且 AI 会在亚马逊上向您展示该产品?如果您访问实体亚马逊商店,计算机视觉会观察您并告诉其开发人员您的行为方式。人工智能可以从整个购物过程中提取分析:从推荐停车场到收集情感数据,再到对客户感兴趣的产品进行预测。
在幕后,人工智能也在制造阶段提供帮助。使用机器视觉,监控产品线是否有缺陷商品或包装。顺便说一句,阅读条形码是光学字符识别 (OCR),一种机器视觉,在您购买商品时所做的事情。
很可能零售业的很大一部分将很快实施人工智能视觉。不同的团队已经在研究新技术来检测和跟踪产品,以便这些技术可能变得更便宜。因此,更多的商店将能够申请它们。
亚马逊将大量工作委派给人工智能,以至于该公司建立了 AWS Panorama,这是一个为不同企业销售计算机视觉服务的独立项目。例如,他们帮助机场应对排队问题。 AWS 还帮助一家天然气勘探公司监控工人的社交距离并检测石油泄漏。弹 Fender 吉他? AWS 知道制作吉他花费了多少时间。它可以帮助 Fender 监控生产一把吉他需要多长时间以及可以优化哪些制造点。
亚马逊的人工智能愿景还有更多示例。现在,考虑到每个科技巨头都在使用人工智能,想象一下每天有多少任务由人工智能视觉解决。
约翰迪尔拖拉机
近 200 年来,约翰迪尔联合收割机一直在照料田地。该公司正以科技巨头的速度逐步实施人工智能技术。 2020 年,约翰迪尔开发人员发布了半自动拖拉机的概念,该拖拉机可以找到作物之间的最佳路线,分析收获质量,准确喷洒除草剂,并自行清除杂草。所有这些功能都是用计算机视觉制作的。
要分析作物和喷洒除草剂,我们不一定需要拖拉机。无人机也可以做到这一点。使用无人机预示着我们走向精准农业,解决粮食损失问题。在收割期间,每年有近 15% 的粮食损失,无人机可以减少这一数字。
计算机视觉可以帮助人类应对饥饿。在农业领域,视觉 AI 提供了如何最大限度减少收成损失的解决方案。因此,预计 100 亿人口可能面临更少的供应风险。此外,如果人工智能比人类更准确地喷洒,我们将需要更少的除草剂。它可以用额外的除草剂解决生态问题。
苹果的人脸识别
这是我们不是每天而是每小时使用的东西。从 iOS 10 开始,基于人脸检测算法的 FaceID 解锁新 iPhone 机型。 iPhone 摄像头实时跟踪人脸,如果人脸属于手机所有者,则允许授权。在 iOS 中,人脸识别不仅用于解锁屏幕,还用于识别照片中的人物。在这种情况下,照片被发送到云服务器,以使用深度学习技术检测人脸。
这也是 Facebook 所做的。直到 2021 年,Facebook 因法律监管不力和社会担忧而关闭了人脸识别。此选项不仅限于面部识别:自动替代文本系统还为盲人生成图像描述。该系统使用人脸识别来判断图像中是否有人或朋友。人们继续讨论这个问题,因为这是人工智能造福社会的地方。好玩呢?
您是否尝试在任何应用程序中与您朋友的脸交换您的脸?或者你已经看到了你晚年的样子?然后,您尝试了逼真的面部操作。这种人工智能视觉技术不仅用于娱乐用户,还用于制造深度伪造。这就是计算机视觉变得危险的地方,因为可以使用深度伪造来操纵社会。
俄罗斯人已经完成了观看乌克兰总统的深度伪造视频,他说他没有应对战争并准备投降乌克兰,这是一个谎言。
面部识别已经做了哪些真正的好事?除了在公共摄像机上检测到罪犯外,视觉 AI 还可以找到失踪的儿童。由于面部识别应用于 TrackChild 数据库,新德里警方仅在四天内就追踪了 45,000 名失踪儿童中的近 3,000 名。计算机视觉如何使我们的社会受益的另一个例子。
今天,计算机视觉的工作量太大了。 AI 示例可以组成数百个点的列表。还有一些是:
谈到医疗保健,CNN 和深度学习帮助医生检测 Covid。 Covid-Net 团队的应用程序——DarwinAI——使用胸部 X 光图像,以超过 92% 的准确率预测疾病。由于其开源数据库,该软件有很多资料可供学习。
对于帮助人类解决零售、农业、社交网络和医疗保健问题的“青少年”来说,这还不错。可能是人工智能已经达到了成年人智力的可能性。人工智能视觉实际上进入了每个生活领域。不过,有些事情人工智能“太年轻”或还没有准备好应对。
主要的限制不是人工智能不知道什么:它是一个很好的深度学习“学生”。问题是硬件通常限制了人工智能视觉的潜力。
机器学习需要高效的处理器:CPU 和 GPU 必须渲染高质量的图像或视频。 CPU 功能通常不足以完成计算密集型任务,而GPU 有助于加速 AI 视觉计算。因此,GPU 为计算机视觉以外的任务释放了 CPU。
除了高效的计算机,计算机视觉还需要边缘设备。它们连接到摄像头以实时收集数据,从而节省在云中处理数据的时间。边缘设备在本地处理数据,因此实时数据没有延迟问题。通过在本地处理数据,企业可以通过在本地完成数据处理来节省资金。
获得边缘设备不是问题,但它被添加到计算机视觉的“消费篮”中,并且价格越来越高。很难估计一台完美的人工智能视觉计算机要花多少钱。天空是极限。在普通笔记本电脑上,只能运行简单的 AI 视觉任务。
例如,AI12 实验室的研究人员计算了如果复杂的 Google 的 NoisyStudent 深度学习任务将在类似亚马逊的 AWS 的云中运行将花费多少。考虑到 NoisyStudent 在 CNN 上工作并包含 4.8 亿个参数,价格将达到 1 万美元至 20 万美元(仅适用于 3.4 亿个参数)。
如果结合机器和计算机AI,必须有一个高分辨率的相机。如果目标是跟踪对象,那么机器需要能够记录高清流的摄像机。将此也添加到价格中。
除了硬件之外,另一个限制是缺乏高质量的数据。为了教 AI 识别物体,它必须在带有高分辨率图像的标记数据上进行训练。处理一堆低质量的 X 射线,AI 视觉很难预测疾病。此外,通常没有足够的数据。 Covid-Net 之所以成功,是因为在大流行期间不断填充新的扫描。其他项目可能会因为限制数据积累的隐私问题而失败。
在这里,人工智能视觉处理另一个问题——道德和法律法规。美国的几个州已经禁止在警察随身摄像机中使用面部识别系统。考虑到人工智能可以找到罪犯或失踪的孩子,这似乎是一个法律监管薄弱的问题,现在仍然很不清楚。
种族和性别偏见也达到了人工智能的愿景。在大多数情况下,人工智能是在一个包含少量女性和肤色较深的人图像的数据集上进行训练的。问题在于它确实导致了不准确的识别——这不仅仅是一个道德问题。
在此过程中,人工智能视觉将面临诸多道德问题,也将受到社会信任的挑战。道德、硬件和低质量数据挑战人工智能。然而,主要问题是人工智能仍然需要人类。它仍然需要手动标记的数据。
然而,人工智能更自主地解决问题只是时间问题。计算机视觉不再是技术“孩子”。它似乎是一个成年人,我们已经可以为此感到自豪了。这是记住其主要成就的时候了。
谈论计算机视觉时要考虑的主要和最重要的几点如下:
是依赖人工智能还是相信它(例如在驾驶自动驾驶汽车时)是你个人的选择。但是,无论您对所有高科技事物有何看法,您都应该接受的是,自从您打开浏览器或解锁手机以来,AI 就一直在监视您。此外,它会一直围绕在您日常生活的每一步。因此,最好的办法是了解并了解计算机视觉是如何开发的,以及您可以通过哪些方式在个人或商业方面利用它。
最初在这里发布。