我最近看到一篇文章,作者认为,虽然 2023 年是人工智能疯狂的一年,成为企业董事会和媒体的热门话题,甚至推动了公开股票市场的表现,但 2024 年将是探索和发现的一年。他将人工智能的现状比作“原始汤”阶段,充满潜力但仍未定形,并声称我们太快从人工智能的探索阶段冲向积极开发,追求快速而简单的结果。现在,是“按下重置按钮”的时候了,进一步探索人工智能,创造有意义的价值。
这篇文章引起了我的共鸣,激发了我的好奇心,想要了解塑造人工智能研究的现在和未来的思想。为了获得更深入的见解,我采访了 Portal.ai 的首席技术官兼联合创始人、亚马逊前人工智能研究科学家和苹果研发实验室经理Mohammad (Hamudi) Naanaa 。我们的对话深入探讨了人工智能探索的现状及其下一个前沿、负责任和合乎道德的人工智能开发的挑战和机遇、影子人工智能的潜在影响、建立强大的人工智能专业知识需要什么等等。
享受阅读!
我的 AI 之旅始于大学期间,当时我发表了开创性的AlexNet 论文。训练一个模型来对图像进行分类的想法令人惊叹,这似乎是传统软件无法实现的。受这种复杂性的启发,我深入研究了 AI,以更好地理解神经网络。我有一种强烈的直觉,如果我们能够解决图像分类问题,那么我们能够处理更复杂的数据和问题,最终构建智能,只是时间问题。我想成为这段旅程的一部分。
最初,我深入研究计算机视觉,着迷于生成式人工智能的创造性可能性,特别是 GAN 和扩散模型。后来, Transformer论文引发的语言模型爆炸式增长引起了我的注意,让我离真正的人工智能梦想更近了一步。今天,我正处于文本和图像生成式人工智能令人兴奋的交汇点。
即使是现在,多年以后,我们也只是触及了人工智能潜力的表面。这是一个非常热门的话题;你会看到很多趋势来来去去,而且前沿每天都在被塑造。
这一前沿的一个突出方向是多模态。世界不仅仅是文本,我看到了原生多模态人工智能的光明前景——集成文本、图像、音频等。许多大型人工智能公司已经接受了这一点,我们看到了支持各种输入的基础模型。
另一个让我充满期待和兴奋的领域是代理。这些系统具有完整的反馈回路,包括观察、推理、状态、动作和反思。它们超越了我们今天在大多数基于 LLM 的 AI 中看到的“输入-输出”范式。
关于基于变压器的架构(例如输入输出令牌机)是否足以实现“真正的”智能,一直存在争论。
探索全新的架构是一个有前途但充满挑战的方向。我们可能会看到状态内存原生架构的复兴,例如神经图灵机 (NTM) 或差分神经计算机 (DNC),它们可以解决 Transformer 的一些缺陷。
所有这些进步都将彻底改变机器人技术,让智能助手比预期更早地进入我们的日常生活。我相信我们将在几年内甚至更短的时间内看到第一批机器人在我们中间行走。
然而,开发技术是一回事,在此基础上构建有用的产品又是另一回事。
多模态音频原生 AI 的价值在于,用户可以生成超个性化的歌曲,并在其中融入自己的情感。核心技术相同,但包装得当的产品才是赋予人们力量的关键。而这正是我看到大量探索即将发生的地方,模型将变得更加可靠、可控和强大。
多模式人工智能已经颠覆了我们与技术的互动方式。以聊天机器人为例——它们曾经是人们在网站上会忽略的简单文本工具,现在它们正在演变成复杂的多模式界面,成为新设计的核心。
多模态性正在实现新的交互模式——以Duolingo或Khan Academy等教育应用程序为例。能够通过向 AI 伙伴写文本来练习语言技能,通过语音对话提高发音,或者通过照片展示数学等式,这是一种更自然地与技术互动的全新方式,可以提高生产力和参与度。
我设想未来会出现超级应用程序甚至新的操作系统,用户无需浏览不同的应用程序即可发出指令并获得结果。
例如,您无需点击图标和文字来点餐,而是可以通过说话、手势甚至看某些元素来更人性化地互动。早期采用者如Humane AI Pin和Rabbit R1表现出了希望,但也凸显了不可预测性和改进空间。作为开发人员和 AI 研究人员,我们需要解决这些问题,我对此充满信心。
多模态人工智能系统将打破不同沟通方式之间的障碍,彻底改变我们与技术互动的方式。我们仍在探索构建界面的新方法,但已经注意到一个常见模式:
具有预定义交互模式的现有系统将被重新发明。
由于人工智能技术发展迅速,其影响尚待理解,因此应对人工智能的道德问题既复杂又至关重要。我们必须预测并减轻偏见和意想不到的后果。
一些挑战源于与人类缺陷相关的伦理问题。例如,旨在打造人工智能伴侣的项目可以帮助人们对抗孤独。不过,它们也可能通过鼓励人们在人工智能而不是现实生活中的互动中寻求安慰而加剧孤独。这让开发者们对他们的应用程序的影响以及如何解决这些问题产生了疑问。这只是看似简单的应用程序引发的基本问题的一个例子,还有更多我们尚未想象到的问题,更不用说它们存在的副作用了。
近期科技巨头频发的事件,例如生成的图像中人物的历史表述被扭曲,凸显了人工智能技术快速发展带来的重大挑战,包括道德问题和意想不到的后果。
这没有简单的答案,但我相信通过开源 LLM 开发确保透明度(公开模型和训练它们的数据)并培养一种让不同背景的人员(而不仅仅是工程师和科学家)参与的多学科方法是应对这些挑战的关键步骤。
提出这些问题是唯一正确的方法。我们有责任塑造未来最强大的技术。作为人工智能的创造者,我们必须考虑固有和潜在的偏见以及如何减轻它们。
人工智能的神奇之处在于,它能够帮助人们找到最有用的激光聚焦用例。离开亚马逊后,我与朋友Vlad Panchenko进行了讨论,展望了未来以及人工智能可以造福人类的各种方式。在建立了一段时间的代理系统之后,我们将这些知识与 Vlad 作为成功的连续创业者的经验相结合,开始思考如何将人工智能代理应用于企业。大多数企业都无法接触到成功所需的顶级 CMO、COO 和其他专家。人工智能可以以前所未有的规模使情报的获取民主化。我们一起探索将复杂的业务流程分解为小的、可识别的任务,将代理视为可以连接并相互通信的单独砖块。我对这种潜力感到兴奋,这导致了Portal AI的诞生,其驱动力是将世界一流的人工智能智能引入企业日常运营,从营销到物流,让他们专注于真正重要的事情。
人工智能将通过自动化重复任务和增强决策能力来彻底改变企业管理。
想象一下,拥有一个人工智能合作伙伴来负责您的营销、物流和人力资源,让您专注于创造性和战略性工作。这种转变将使获取专家知识变得民主化,使每个企业都能在更高的水平上运营。
人工智能简化运营的能力不仅可以提高效率,还可以促进创新和增长。
“影子人工智能”——人工智能的非预期且经常被隐藏的使用——带来了重大风险。例如,人们使用人工智能来玩弄社交媒体算法,突显了人工智能如何被滥用。随着人工智能内容充斥互联网,维护完整性和安全性变得具有挑战性。合乎道德的人工智能研究必须跟上这些发展的步伐,促进透明度和强有力的保障措施。应对这些风险需要持续警惕和采取适应性策略来防止滥用。
我们发现自己处在一个新时代,有很多事情我们必须牢记在心并不断辩论。
一切都在快速发展和变化,这很好。但这也意味着,三个月后,某些东西很有可能就会过时、淘汰或过时。在这些快速的迭代周期中,不可能只读一本书就能跟上潮流。
该领域有主要领导者和知名消息来源,因此关注他们有助于保持最新状态。为了深入研究,我订阅了 Reddit 和 Twitter/X 等平台上的相关新闻通讯和社区——当然,我使用人工智能总结我在 Reddit 上的帖子。
对于渴望成为 AI 专家的人来说,有很多途径。如果你想成为一名研究人员,那么就需要打下坚实的基础——AI 深深植根于数学,尽管趋势在变化,但底层数学始终不变。
总的来说,我是黑客马拉松的忠实拥护者。我参加过很多黑客马拉松,组织过几次。我也看过很多项目。它们很适合人们学习新东西。如果我要向任何人(无论是工程师、产品经理还是 CEO)推荐一件事,那就是:走出去,结识那些想要创造一些东西的人,亲自动手,然后开始行动。这是真正理解事物的最佳方式,因为你可以培养自己的直觉,并从中获得乐趣。保持好奇心!
我真的很想在 20 年后读到这篇采访!人工智能变化如此之快,很难预测 20 个月后会发生什么,更不用说 20 年后了。我们正处于一个独特的时刻,处于将所有人类智能整合到一个系统中的早期阶段,允许普遍获取知识。目前,教育等资源分配不均,我相信人工智能将在这方面发挥巨大影响,在许多方面成为普遍的均衡器。
再次谈到机器人,我认为这将成为现实。我们将拥有与我们生活在一起的个人机器人,作为我们的助手,接管所有家务。
我们将拥有高度个性化的产品——我们自己的导师、教练和朋友。我们甚至还没有给这些实体起名字,但这已经发生了。
另一件让我兴奋的事情是研究的加速。我对第一个由人工智能共同开发的药物或治疗方法的前景感到兴奋——那将是一个多么美好的世界。我坚信未来会更美好,并很高兴尽我所能塑造这个未来。
没错!我出生在黎巴嫩,小时候搬到了乌克兰,并在那里长大。乌克兰对我影响深远。17 岁时,我搬到德国上大学,后来我的家人也来到这里,我的职业生涯也由此开始。生活在多元而又同样美丽的社会中,我了解到了他们独特的挑战和机遇。
目前,人工智能研究以英语为中心,大多数数据和系统都是由英语使用者构建的,也为英语使用者服务。我们相信人工智能应该是一个通用的均衡器,因此我们需要适应和支持每一种语言,以构建真正通用的人工智能。我会说五种语言,所以我对它们都很熟悉——我是黎巴嫩人、乌克兰人和德国人。我是人类。这些经历让我对人类之间的联系和独特性有了宝贵的见解,我将这些知识运用到我的所有努力中。