Ваъдаи сунъии мултимодалӣ дар ҳама ҷо аст, аз ташхиси пешрафтаи соҳаи тандурустӣ то эҷоди таҷрибаи бойтар ва динамикии муштариён. Аммо барои онҳое, ки мо дар хандак ҳастанд, сохтани системаҳои мултимодалӣ, ки қодир ба коркарди матн, тасвирҳо, аудио ва берун аз он ҳастанд, аксар вақт ҳамчун як печи беохири интегратсияҳои фармоишӣ, коди таблиғотӣ ва масъалаҳои мутобиқат эҳсос мешавад. Ин ноумедии ман буд ва он дар ниҳоят ба таъсиси AnyModal оварда расонд.
Биёед бо он рӯ ба рӯ шавем: муоширати одамон бо ҷаҳон бо як намуди маълумот маҳдуд намешавад. Мо калимаҳо, визуалӣ, садоҳо ва эҳсосоти ҷисмониро ҳамзамон тафсир мекунем. Консепсияи сунъии мултимодалӣ аз ҳамин идея бармеояд. Бо ворид кардани намудҳои гуногуни маълумот ба як лӯлаи коркард, AI мултимодалӣ ба моделҳо имкон медиҳад, ки вазифаҳоеро ҳал кунанд, ки қаблан барои системаҳои якмода хеле мураккаб буданд. Тасаввур кунед, ки барномаҳои соҳаи тандурустӣ, ки рентгенҳо ва қайдҳои тиббиро якҷоя таҳлил мекунанд ё системаҳои хидматрасонии муштариён, ки ҳам матн ва ҳам сигналҳои аудиоиро ба назар мегиранд, то эҳсоси муштариёнро дақиқ муайян кунанд.
Аммо мушкилот ин аст: дар ҳоле ки моделҳои якмодали барои матн (ба мисли GPT) ё тасвирҳо (ба монанди ViT) хуб ба роҳ монда шудаанд, муттаҳид кардани онҳо барои муоширати моеъ осон нест. Мушкилоти техникӣ ба бисёре аз муҳаққиқон ва таҳиягарон имкон намедиҳад, ки АИ мултимодалиро самаранок омӯзанд. AnyModal -ро ворид кунед.
Дар кори шахсии худ бо омӯзиши мошинсозӣ, ман мушоҳида кардам, ки дар ҳоле ки асбобҳо ба монанди GPT, ViT ва протсессори аудиоӣ дар алоҳидагӣ пурқувватанд, эҷоди системаҳои мултимодалӣ тавассути омезиши ин асбобҳо аксар вақт маънои якҷоя кардани онҳоро бо коди мушаххаси лоиҳаро дорад. Ин равиш васеъ нест. Қарорҳои кунунӣ барои ҳамгироии усулҳо ё хеле махсусгардонида шудаанд, танҳо барои вазифаҳои мушаххас тарҳрезӣ шудаанд (ба монанди навиштани тасвир ё ҷавоби визуалӣ ба саволҳо) ё онҳо танҳо барои якҷоя кор кардани намудҳои додаҳо миқдори ғамангези коди таблиғотиро талаб мекунанд.
Чаҳорчӯбаҳои мавҷуда ба маҷмӯаҳои мушаххаси усулҳо тамаркуз мекунанд, ки васеъшавӣ ба намудҳои нави додаҳо ё мутобиқ кардани як танзимотро ба вазифаҳои гуногун душвор мегардонад. Ин сохтори "силодор" -и моделҳои AI маънои онро дошт, ки ман чархро доимо аз нав ихтироъ мекардам. Маҳз он вақт ман қарор додам, ки AnyModal - чаҳорчӯбаи фасењ ва модулиро созам, ки ҳама намуди маълумотро бидуни мушкилот ба ҳам меорад.
AnyModal чаҳорчӯбаест, ки барои содда ва содда кардани рушди мултимодалии AI тарҳрезӣ шудааст. Он барои кам кардани мураккабии омезиши намудҳои гуногуни вуруд тавассути коркарди токенизатсия, рамзгузорӣ ва тавлид барои воридоти ғайриматн сохта шудааст, ки илова кардани намудҳои нави маълумотро ба моделҳои калони забон (LLM) осонтар мекунад.
Консепсия дар атрофи як равиши модулӣ ба қубури воридотӣ бармегардад. Бо AnyModal, шумо метавонед рамзгузорҳои хусусиятро иваз кунед (ба монанди Transformer Vision барои тасвирҳо ё протсессори спектрограмма барои аудио) ва бефосила онҳоро ба LLM пайваст кунед. Чаҳорчӯба қисми зиёди мураккабиро абстракт мекунад, яъне ба шумо лозим нест, ки ҳафтаҳо барои навиштани код сарф кунед, то ин системаҳо бо ҳамдигар мувофиқ бошанд.
Ҷузъи муҳими AnyModal ин токенизатори воридотӣ мебошад, ки фосилаи байни маълумоти ғайриматнӣ ва коркарди вуруди матнии LLM-ро бартараф мекунад. Ин аст, ки чӣ тавр кор мекунад:
Ин равиши дуқабата ба модел имкон медиҳад, ки маълумоти мултимодалиро ҳамчун пайдарпаии ягона баррасӣ кунад ва ба он имкон медиҳад, ки посухҳоеро тавлид кунад, ки ҳамаи намудҳои вурудро ҳисоб мекунанд. Аслан, AnyModal манбаъҳои маълумоти ноҳамро ба формати ягонае табдил медиҳад, ки LLM-ҳо фаҳманд.
Барои фаҳмидани он, ки AnyModal чӣ гуна кор мекунад, биёед ба мисоли истифодаи маълумоти тасвирӣ бо LLMҳо назар кунем.
from transformers import ViTImageProcessor, ViTForImageClassification from anymodal import MultiModalModel from vision import VisionEncoder, Projector # Step 1: Initialize Vision Components processor = ViTImageProcessor.from_pretrained('google/vit-base-patch16-224') vision_model = ViTForImageClassification.from_pretrained('google/vit-base-patch16-224') vision_encoder = VisionEncoder(vision_model) # Step 2: Define Projection Layer for Compatibility vision_tokenizer = Projector(in_features=vision_model.config.hidden_size, out_features=768) # Step 3: Initialize LLM and Tokenizer from transformers import AutoTokenizer, AutoModelForCausalLM llm_tokenizer = AutoTokenizer.from_pretrained("gpt2") llm_model = AutoModelForCausalLM.from_pretrained("gpt2") # Step 4: Build the AnyModal Multimodal Model multimodal_model = MultiModalModel( input_processor=None, input_encoder=vision_encoder, input_tokenizer=vision_tokenizer, language_tokenizer=llm_tokenizer, language_model=llm_model, input_start_token='<|imstart|>', input_end_token='<|imend|>', prompt_text="Describe this image: " )
Ин насби модулӣ ба таҳиягарон имкон медиҳад, ки бо рамзгузорҳо ва LLM-ҳои гуногун васл ва бозӣ кунанд ва моделро ба вазифаҳои мухталифи мултиподалӣ, аз навиштани тасвир то посух ба саволҳо мутобиқ созанд.
AnyModal аллакай ба якчанд ҳолатҳои истифода бурда шудааст, ки бо натиҷаҳои ҳаяҷоновар:
Бо абстраксияи мураккабии коркарди намудҳои гуногуни додаҳо, AnyModal ба таҳиягарон имкон медиҳад, ки прототипҳоро зуд созанд ё системаҳои пешрафтаро бидуни мушкилоте, ки одатан бо ҳамгироии мултимодалӣ меоянд, такмил диҳанд.
Агар шумо кӯшиши сохтани як системаи мултимодалиро дошта бошед, эҳтимол шумо бо ин мушкилот дучор шудаед:
AnyModal ин нуқтаҳои дарднокро тавассути кам кардани табақ, пешниҳоди модулҳои фасеҳ ва имкон додани мутобиқсозии зуд ҳал мекунад. Ба ҷои мубориза бо мушкилоти мутобиқат, таҳиягарон метавонанд ба сохтани системаҳои интеллектуалӣ зудтар ва муассиртар таваҷҷӯҳ кунанд.
Сафари AnyModal ҳоло оғоз мешавад. Ман дар айни замон кор карда истодаам, ки барои илова кардани усулҳои иловагӣ ба монанди навиштаҷоти аудиоӣ ва васеъ кардани чаҳорчӯба, то он барои ҳолатҳои истифодаи чароғдонаҳо бештар мутобиқ карда шавад. Алоқа ва саҳмҳои ҷомеа барои рушди он муҳиманд - агар шумо ба AI мултимодалӣ таваҷҷӯҳ дошта бошед, ман мехоҳам андешаҳои шуморо бишнавам ё ҳамкорӣ кунам.
Агар шумо дар бораи AI-и мултимодалӣ ҳаяҷоновар бошед ё мехоҳед раванди таҳияи худро содда кунед, AnyModal-ро санҷед. Биёед якҷоя кор кунем, то сарҳади навбатии инноватсияи AI-ро кушоем.