paint-brush
Na vanguarda da pesquisa em IA: multimodalidade, agentes, LLM de código aberto e muito maispor@viceasytiger
1,434 leituras
1,434 leituras

Na vanguarda da pesquisa em IA: multimodalidade, agentes, LLM de código aberto e muito mais

por Vik Bogdanov9m2024/07/04
Read on Terminal Reader

Muito longo; Para ler

Explorando a próxima fronteira da pesquisa em IA com Hamudi Naanaa, CTO e cofundador da Portal.ai e ex-cientista pesquisador de IA da Amazon. Discutimos o estado atual da IA, a importância da multimodalidade e dos agentes de IA, a importância do desenvolvimento de código aberto e os desafios éticos na IA. Naanaa compartilha sua jornada na IA, o impacto potencial da IA em vários setores e o papel da IA na transformação das práticas de gestão empresarial. Ele enfatiza a necessidade de um desenvolvimento responsável da IA e destaca as emocionantes possibilidades futuras da IA, incluindo robôs pessoais e medicamentos co-desenvolvidos pela IA.
featured image - Na vanguarda da pesquisa em IA: multimodalidade, agentes, LLM de código aberto e muito mais
Vik Bogdanov HackerNoon profile picture
0-item

Recentemente, deparei-me com um artigo onde o autor argumenta que, embora 2023 tenha sido um ano frenético na IA, sendo um tema quente nas salas de reuniões corporativas e nos meios de comunicação social e até mesmo impulsionando o desempenho do mercado de ações público, 2024 será um ano de exploração e descoberta. Ele compara o estado atual da IA a uma fase de “sopa primordial”, repleta de potencial, mas ainda amorfa, e afirma que passamos da fase de exploração da IA para a exploração ativa muito rapidamente, em busca de resultados rápidos e fáceis. Agora é “hora de pressionar o botão reset” e explorar ainda mais a IA em direção à criação de valor significativo.


Este artigo me tocou, despertando a curiosidade de compreender as mentes que moldam o presente e o futuro da pesquisa em IA. Para obter insights mais profundos, entrevistei Mohammad (Hamudi) Naanaa , CTO e cofundador da Portal.ai, ex-cientista pesquisador de IA na Amazon e gerente do laboratório de P&D da Apple. A nossa conversa investiga o estado atual da exploração da IA e a sua próxima fronteira, os desafios e oportunidades do desenvolvimento responsável e ético da IA, o impacto potencial da IA sombra, o que é necessário para construir uma experiência robusta em IA e muito mais.


Aproveite a leitura!


Hamudi, o que o atraiu para o campo da pesquisa em IA e que área(s) específica(s) você está explorando atualmente?


Minha jornada na IA começou durante meus anos de universidade com o artigo inovador da AlexNet . A ideia de treinar um modelo para classificar imagens era inspiradora, algo que parecia inatingível com software convencional. Inspirado por essa complexidade, mergulhei na pesquisa de IA para compreender melhor as redes neurais. Tive uma forte intuição de que, se pudéssemos resolver a classificação de imagens, seria apenas uma questão de tempo até que pudéssemos lidar com dados e problemas ainda mais complexos e, em última análise, construir inteligência. Eu queria fazer parte dessa jornada.


Inicialmente, mergulhei na visão computacional, fascinado pelas possibilidades criativas da IA generativa, especificamente GANs e modelos de difusão. Mais tarde, a explosão de modelos de linguagem com o papel Transformer me chamou a atenção, aproximando o sonho da verdadeira inteligência artificial. Hoje, estou na emocionante interseção da IA generativa tanto em texto quanto em imagens.


O que você vê como a próxima fronteira para a exploração de IA?


Mesmo agora, anos depois, estamos apenas arranhando a superfície do potencial da IA. É um tema muito quente; você vê muitas tendências indo e vindo, e a fronteira está sendo moldada todos os dias.


Uma direção proeminente nesta fronteira é a multimodalidade . O mundo é mais do que apenas texto, e vejo um futuro brilhante na IA nativamente multimodal – integrando texto, imagens, áudio e muito mais. Muitas grandes empresas de IA já estão adotando isso e vemos modelos fundamentais apoiando vários insumos.


Outro domínio pelo qual vejo muita expectativa e entusiasmo é o dos agentes . Esses sistemas possuem um ciclo de feedback completo com observações, raciocínio, estado, ações e reflexão. Eles vão além do paradigma de “entrada-saída” que vimos hoje com a maior parte da IA baseada em LLM.


Há um debate contínuo sobre se as arquiteturas baseadas em transformadores, como máquinas de token de entrada-saída, são suficientes para a “verdadeira” inteligência.


Explorar arquiteturas fundamentalmente novas é uma direção promissora, mas desafiadora. Poderemos ver um renascimento de arquiteturas nativas de memória com estado, como Máquinas Neurais de Turing (NTMs) ou Computadores Neurais Diferenciais (DNCs), que poderiam resolver algumas das falhas dos transformadores.


Todos estes avanços irão revolucionar a robótica, trazendo assistentes inteligentes para a nossa vida quotidiana mais cedo do que o esperado. Acredito que veremos os primeiros robôs andando entre nós dentro de alguns anos, talvez até menos.


No entanto, desenvolver tecnologia é uma coisa e construir produtos úteis sobre ela é outra.


O valor de uma IA multimodal de áudio nativo é que os usuários conseguem gerar músicas ultrapersonalizadas nas quais colocam emoções. A mesma tecnologia central, mas o produto na embalagem certa é o que capacita as pessoas. E é aqui que vejo muita exploração acontecendo em breve, com modelos se tornando mais confiáveis, controláveis e robustos .


Como você vê os sistemas multimodais de IA mudando a interação entre humanos e tecnologia? Existem indústrias ou aplicações específicas nas quais a IA multimodal terá o impacto mais significativo?


A IA multimodal já está revolucionando a forma como interagimos com a tecnologia. Vejamos o exemplo dos chatbots – antes ferramentas simples baseadas em texto que as pessoas ignorariam em sites, agora estão evoluindo para interfaces sofisticadas e multimodais no centro de novos designs.


A multimodalidade está permitindo novos padrões de interação – por exemplo, aplicativos educacionais como Duolingo ou Khan Academy . Ser capaz de praticar suas habilidades linguísticas ao escrever textos para seu parceiro de IA, melhorar sua pronúncia em uma conversa por voz ou mostrar suas equações matemáticas em fotos é uma maneira completamente nova de interagir com a tecnologia de forma mais natural, aumentando a produtividade e o envolvimento.


Imagino um futuro com superaplicativos ou mesmo novos sistemas operacionais onde os usuários possam dar instruções e receber um resultado sem navegar por diferentes aplicativos.


Por exemplo, em vez de clicar em ícones e texto para pedir comida, você pode falar, gesticular ou até mesmo olhar para determinados elementos para interagir de forma mais humana. Os primeiros usuários, como o Humane AI Pin e o Rabbit R1, mostram-se promissores, mas também destacam a imprevisibilidade e o espaço para melhorias. Como desenvolvedores e pesquisadores de IA, precisamos abordar essas questões e estou otimista de que o faremos.


Os sistemas multimodais de IA estão preparados para revolucionar a forma como interagimos com a tecnologia, quebrando as barreiras entre as diferentes formas de comunicação. Ainda estamos no início da exploração dessa nova forma de construir interfaces, mas um padrão comum já é perceptível:


os sistemas existentes com padrões de interação predefinidos serão reinventados.


À medida que a investigação em IA avança rapidamente, quais são alguns dos maiores desafios que enfrentamos para garantir o desenvolvimento responsável da IA e mitigar o seu potencial impacto negativo?


Navegar no panorama ético da IA é complexo, mas crucial, uma vez que a tecnologia evolui rapidamente e as suas implicações ainda estão a ser compreendidas. Devemos antecipar e mitigar preconceitos e consequências não intencionais.


Alguns desafios decorrem de implicações éticas relacionadas com falhas humanas. Por exemplo, projetos destinados a construir companheiros de IA podem ajudar a combater a solidão. Ainda assim, eles também podem agravá-lo, incentivando as pessoas a encontrar conforto na IA, em vez de nas interações da vida real. Isso levanta questões aos criadores sobre as implicações de seus aplicativos e como eles devem abordá-las. Este é apenas um exemplo das questões fundamentais que surgem de aplicativos aparentemente simples, e há muitas outras que ainda precisamos imaginar, sem falar dos efeitos colaterais de sua existência.


Incidentes recentes nas grandes tecnologias, como representações históricas distorcidas de pessoas em imagens geradas , destacam os desafios significativos, incluindo preocupações éticas e consequências não intencionais, que acompanham o rápido avanço da tecnologia de IA.


Não há uma resposta simples, mas acredito que garantir a transparência através do desenvolvimento de LLM de código aberto (expondo os modelos e os dados nos quais foram treinados) e promover uma abordagem multidisciplinar envolvendo pessoas com diversas formações, não apenas engenheiros e cientistas, são fundamentais passos para enfrentar esses desafios.


Fazer essas perguntas é a única abordagem correta. Somos responsáveis por moldar o futuro das tecnologias mais poderosas a serem construídas. Como criadores de IA, devemos considerar os preconceitos inerentes e potenciais e como mitigá-los.


Desde seu tempo na Amazon, em quais projetos ou pesquisas você esteve envolvido? No que você está trabalhando agora?


A magia da IA reside na compreensão dos casos de uso focados no laser onde ela pode ser mais útil. Depois de deixar a Amazon, conversei com meu amigo Vlad Panchenko , imaginando o futuro e as várias maneiras pelas quais a IA poderia beneficiar a humanidade. Tendo construído sistemas de agentes há algum tempo e combinando esse conhecimento com a experiência de Vlad como um empreendedor em série de sucesso, começamos a pensar em como os agentes de IA poderiam ser aplicados às empresas. A maioria das empresas não tem acesso a CMOs, COOs e outros especialistas de alto nível necessários para o sucesso. A IA pode democratizar o acesso à inteligência numa escala sem precedentes. Juntos, exploramos a decomposição de processos de negócios complexos em tarefas pequenas e identificáveis, visualizando os agentes como blocos individuais que podem ser unidos e comunicar-se entre si. Fiquei entusiasmado com o potencial, e isso levou ao nascimento do Portal AI , impulsionado pela crença em trazer inteligência de IA de classe mundial para apoiar as empresas nas suas operações diárias, do marketing à logística, permitindo-lhes concentrar-se no que realmente importa.


Como você vê a IA transformando as práticas de gestão empresarial?


A IA está preparada para revolucionar a gestão empresarial, automatizando tarefas repetitivas e melhorando a tomada de decisões.


Imagine ter um parceiro de IA que cuida do marketing, da logística e do RH, permitindo que você se concentre no trabalho criativo e estratégico. Esta transformação democratizará o acesso ao conhecimento especializado, permitindo que todas as empresas operem a um nível mais elevado.


A capacidade da IA de agilizar as operações não só aumentará a eficiência, mas também promoverá a inovação e o crescimento.


À medida que a IA se torna mais sofisticada, o que você acha do impacto potencial da “IA sombra” em áreas como integridade no local de trabalho e segurança cibernética? Como podemos mitigar esses riscos potenciais?


A ' Shadow AI ' – o uso não intencional e muitas vezes oculto da IA – apresenta riscos significativos. Por exemplo, as pessoas que usam IA para manipular algoritmos de mídia social destacam como a IA pode ser mal utilizada. À medida que o conteúdo de IA inunda a Internet, manter a integridade e a segurança torna-se um desafio. A investigação ética em IA deve acompanhar estes desenvolvimentos, promovendo transparência e salvaguardas robustas. Abordar estes riscos requer vigilância contínua e estratégias adaptativas para proteger contra o uso indevido.


Encontramo-nos nesta nova era onde há muitas coisas que temos que realmente manter em mente e continuar debatendo.


Dada a rápida evolução do campo, como você se mantém atualizado sobre os avanços mais recentes e mantém sua experiência em IA? Que conselho você daria a alguém que deseja adquirir experiência neste domínio de ritmo acelerado?


Tudo está se movendo e mudando tão rápido que é ótimo. Mas isso também significa que já em três meses há uma boa probabilidade de que algo esteja desatualizado, obsoleto ou apenas antiquado. Não há como apenas ler um livro e estar atualizado nesses rápidos ciclos de iteração.


Existem grandes líderes e fontes confiáveis na área, portanto, segui-los ajuda a se manter atualizado. Para me aprofundar na pesquisa, assino boletins informativos e comunidades relevantes em plataformas como Reddit e Twitter/X – e, claro, uso IA para resumir meus tópicos no Reddit.


Para alguém que deseja adquirir experiência em IA, existem vários caminhos. Se você deseja se tornar um pesquisador, construa uma base sólida: a IA está profundamente enraizada na matemática e, embora as tendências mudem, a matemática subjacente permanece a mesma.


No geral, sou um grande defensor dos hackathons. Já estive em muitos, organizei vários. E tenho que ver muitos projetos. Eles são ótimos para as pessoas aprenderem algo novo para usar. Se eu fosse recomendar algo a alguém, seja engenheiro, gerente de produto ou CEO, seria: vá lá, conheça pessoas que querem construir algo, coloque a mão na massa e coloque tudo em prática. Esta é a melhor maneira de realmente entender as coisas, porque você desenvolve sua intuição e se diverte. Fique curioso!


Olhando daqui a 20 anos, como você imagina o papel da IA em nossas vidas diárias? Com o que você está mais animado e quais aspectos deste futuro você acha mais difíceis de prever?


Eu realmente quero ler essa entrevista daqui a 20 anos! A IA está mudando tão rapidamente que é difícil prever o que acontecerá em 20 meses, quanto mais em 20 anos. Estamos num momento único, nos primeiros estágios de conseguirmos consolidar toda a inteligência humana em um único sistema, permitindo o acesso universal ao conhecimento. Atualmente, recursos como a educação não estão distribuídos uniformemente e acredito que a IA terá um grande impacto aqui, sendo um equalizador universal em muitos aspectos.


E voltando aos robôs, acho que isso se tornará uma coisa real. Teremos robôs pessoais que viverão conosco como nossos assistentes e assumirão todas as tarefas domésticas.


Teremos produtos hiperpersonalizados – nossos próprios tutores, treinadores e amigos. Ainda nem temos nome para essas entidades, mas isso já está acontecendo.


Outra coisa que me entusiasma é a aceleração das pesquisas. Estou entusiasmado com a perspectiva do primeiro medicamento ou cura co-desenvolvido pela IA – que mundo lindo seria. Acredito firmemente em um futuro melhor e estou animado para fazer tudo o que puder para moldar esse futuro.


De acordo com o seu perfil do LinkedIn, você nasceu no Líbano, cresceu na Ucrânia e estudou na Alemanha: poderia compartilhar sua jornada conosco e como essas diversas origens culturais moldaram você?


Isso mesmo! Nasci no Líbano, mudei-me para a Ucrânia ainda criança e cresci lá. A Ucrânia moldou-me profundamente. Aos 17 anos, mudei-me para a Alemanha para fazer faculdade, onde minha família mais tarde se juntou a mim, e minha carreira começou. Vivendo em sociedades diversas e igualmente belas, aprendi sobre os seus desafios e oportunidades únicos.


A pesquisa em IA tem atualmente uma tendência centrada na língua inglesa, com a maioria dos dados e sistemas construídos por e para falantes de inglês. Acreditando que a IA deve ser um equalizador universal, precisamos de acomodar e apoiar todas as linguagens para construir uma IA verdadeiramente universal. Por poder falar cinco idiomas, me identifico com todos eles – sou libanês, ucraniano e alemão. Eu sou humano. Essas experiências me deram insights inestimáveis sobre o que nos conecta e ao mesmo tempo nos torna únicos, e carrego esse conhecimento comigo em todos os meus empreendimentos.