223 хониш

Сохтани чаҳорчӯбаи чандир барои воридкунии маълумотҳои мултимодалӣ дар моделҳои забонҳои калон

аз ҷониби ritabratamaiti5m2024/11/19

Хеле дароз; Хондан

AnyModal як чаҳорчӯбаи кушодаасос мебошад, ки барои осон кардани омӯзиши LLM-ҳои мултимодалӣ тавассути коҳиш додани табақ ва содда кардани ҳамгироии намудҳои гуногуни маълумот ба монанди матн, тасвирҳо ва аудио пешбинӣ шудааст. Он ҷузъҳои модулиро барои токенизатсия, рамзгузории хусусиятҳо ва тарҳрезӣ таъмин мекунад, ки ба таҳиягарон имкон медиҳад, ки бидуни сару кор бо мураккабии ҳамгироии мултимодалӣ ба сохтани барномаҳо тамаркуз кунанд. Намоишҳо омӯзиши VLM-ро барои навиштани тасвир, LaTeX OCR ва сарлавҳаи радиология дар бар мегиранд.

featured image - Сохтани чаҳорчӯбаи чандир барои воридкунии маълумотҳои мултимодалӣ дар моделҳои забонҳои калон

Лоиҳаи манбаи кушодаи ман: Чаҳорчӯби модели забони чандир барои PyTorch

Ваъдаи сунъии мултимодалӣ дар ҳама ҷо аст, аз ташхиси пешрафтаи соҳаи тандурустӣ то эҷоди таҷрибаи бойтар ва динамикии муштариён. Аммо барои онҳое, ки мо дар хандак ҳастанд, сохтани системаҳои мултимодалӣ, ки қодир ба коркарди матн, тасвирҳо, аудио ва берун аз он ҳастанд, аксар вақт ҳамчун як печи беохири интегратсияҳои фармоишӣ, коди таблиғотӣ ва масъалаҳои мутобиқат эҳсос мешавад. Ин ноумедии ман буд ва он дар ниҳоят ба таъсиси AnyModal оварда расонд.

Чаро AI Multimodal?

Биёед бо он рӯ ба рӯ шавем: муоширати одамон бо ҷаҳон бо як намуди маълумот маҳдуд намешавад. Мо калимаҳо, визуалӣ, садоҳо ва эҳсосоти ҷисмониро ҳамзамон тафсир мекунем. Консепсияи сунъии мултимодалӣ аз ҳамин идея бармеояд. Бо ворид кардани намудҳои гуногуни маълумот ба як лӯлаи коркард, AI мултимодалӣ ба моделҳо имкон медиҳад, ки вазифаҳоеро ҳал кунанд, ки қаблан барои системаҳои якмода хеле мураккаб буданд. Тасаввур кунед, ки барномаҳои соҳаи тандурустӣ, ки рентгенҳо ва қайдҳои тиббиро якҷоя таҳлил мекунанд ё системаҳои хидматрасонии муштариён, ки ҳам матн ва ҳам сигналҳои аудиоиро ба назар мегиранд, то эҳсоси муштариёнро дақиқ муайян кунанд.

Аммо мушкилот ин аст: дар ҳоле ки моделҳои якмодали барои матн (ба мисли GPT) ё тасвирҳо (ба монанди ViT) хуб ба роҳ монда шудаанд, муттаҳид кардани онҳо барои муоширати моеъ осон нест. Мушкилоти техникӣ ба бисёре аз муҳаққиқон ва таҳиягарон имкон намедиҳад, ки АИ мултимодалиро самаранок омӯзанд. AnyModal -ро ворид кунед.

Мушкилот бо ҳалли мултимодалии мавҷуда

Дар кори шахсии худ бо омӯзиши мошинсозӣ, ман мушоҳида кардам, ки дар ҳоле ки асбобҳо ба монанди GPT, ViT ва протсессори аудиоӣ дар алоҳидагӣ пурқувватанд, эҷоди системаҳои мултимодалӣ тавассути омезиши ин асбобҳо аксар вақт маънои якҷоя кардани онҳоро бо коди мушаххаси лоиҳаро дорад. Ин равиш васеъ нест. Қарорҳои кунунӣ барои ҳамгироии усулҳо ё хеле махсусгардонида шудаанд, танҳо барои вазифаҳои мушаххас тарҳрезӣ шудаанд (ба монанди навиштани тасвир ё ҷавоби визуалӣ ба саволҳо) ё онҳо танҳо барои якҷоя кор кардани намудҳои додаҳо миқдори ғамангези коди таблиғотиро талаб мекунанд.

Чаҳорчӯбаҳои мавҷуда ба маҷмӯаҳои мушаххаси усулҳо тамаркуз мекунанд, ки васеъшавӣ ба намудҳои нави додаҳо ё мутобиқ кардани як танзимотро ба вазифаҳои гуногун душвор мегардонад. Ин сохтори "силодор" -и моделҳои AI маънои онро дошт, ки ман чархро доимо аз нав ихтироъ мекардам. Маҳз он вақт ман қарор додам, ки AnyModal - чаҳорчӯбаи фасењ ва модулиро созам, ки ҳама намуди маълумотро бидуни мушкилот ба ҳам меорад.

AnyModal чист?

AnyModal чаҳорчӯбаест, ки барои содда ва содда кардани рушди мултимодалии AI тарҳрезӣ шудааст. Он барои кам кардани мураккабии омезиши намудҳои гуногуни вуруд тавассути коркарди токенизатсия, рамзгузорӣ ва тавлид барои воридоти ғайриматн сохта шудааст, ки илова кардани намудҳои нави маълумотро ба моделҳои калони забон (LLM) осонтар мекунад.

Консепсия дар атрофи як равиши модулӣ ба қубури воридотӣ бармегардад. Бо AnyModal, шумо метавонед рамзгузорҳои хусусиятро иваз кунед (ба монанди Transformer Vision барои тасвирҳо ё протсессори спектрограмма барои аудио) ва бефосила онҳоро ба LLM пайваст кунед. Чаҳорчӯба қисми зиёди мураккабиро абстракт мекунад, яъне ба шумо лозим нест, ки ҳафтаҳо барои навиштани код сарф кунед, то ин системаҳо бо ҳамдигар мувофиқ бошанд.

Асосҳои AnyModal: Токенизатсияи вуруд

Ҷузъи муҳими AnyModal ин токенизатори воридотӣ мебошад, ки фосилаи байни маълумоти ғайриматнӣ ва коркарди вуруди матнии LLM-ро бартараф мекунад. Ин аст, ки чӣ тавр кор мекунад:

Рамзгузории хусусият : Барои ҳар як услуб (ба монанди тасвирҳо ё аудио), рамзгузори махсус барои истихроҷи хусусиятҳои муҳим истифода мешавад. Масалан, ҳангоми кор бо тасвирҳо AnyModal метавонад аз Vision Transformer (ViT) истифода барад, ки тасвирро коркард мекунад ва як қатор векторҳои хусусиятро мебарорад. Ин векторҳо ҷанбаҳои калидӣ, аз қабили объектҳо, муносибатҳои фазоӣ ва матнҳоро, ки барои замимаҳо ба монанди сарлавҳаи тасвир ё посух додан ба саволҳои визуалӣ муҳиманд, мегиранд.
Қабати проексия : Пас аз рамзгузорӣ, векторҳои хусусият аксар вақт ба фазои аломати LLM мувофиқат намекунанд. Барои таъмини ҳамгироии ҳамвор, AnyModal қабати проексияро истифода мебарад, ки ин векторҳоро барои мувофиқат кардан бо аломатҳои вуруди LLM табдил медиҳад. Масалан, векторҳои рамзгузоришудаи ViT ба фазои дохилкунии LLM харита карда мешаванд, ки имкон медиҳад, ки ҷараёни муттасили маълумоти мултимодалӣ дар дохили меъмории LLM дода шавад.

Ин равиши дуқабата ба модел имкон медиҳад, ки маълумоти мултимодалиро ҳамчун пайдарпаии ягона баррасӣ кунад ва ба он имкон медиҳад, ки посухҳоеро тавлид кунад, ки ҳамаи намудҳои вурудро ҳисоб мекунанд. Аслан, AnyModal манбаъҳои маълумоти ноҳамро ба формати ягонае табдил медиҳад, ки LLM-ҳо фаҳманд.

Он чӣ гуна кор мекунад: Намуна бо вуруди тасвир

Барои фаҳмидани он, ки AnyModal чӣ гуна кор мекунад, биёед ба мисоли истифодаи маълумоти тасвирӣ бо LLMҳо назар кунем.

 from transformers import ViTImageProcessor, ViTForImageClassification from anymodal import MultiModalModel from vision import VisionEncoder, Projector # Step 1: Initialize Vision Components processor = ViTImageProcessor.from_pretrained('google/vit-base-patch16-224') vision_model = ViTForImageClassification.from_pretrained('google/vit-base-patch16-224') vision_encoder = VisionEncoder(vision_model) # Step 2: Define Projection Layer for Compatibility vision_tokenizer = Projector(in_features=vision_model.config.hidden_size, out_features=768) # Step 3: Initialize LLM and Tokenizer from transformers import AutoTokenizer, AutoModelForCausalLM llm_tokenizer = AutoTokenizer.from_pretrained("gpt2") llm_model = AutoModelForCausalLM.from_pretrained("gpt2") # Step 4: Build the AnyModal Multimodal Model multimodal_model = MultiModalModel( input_processor=None, input_encoder=vision_encoder, input_tokenizer=vision_tokenizer, language_tokenizer=llm_tokenizer, language_model=llm_model, input_start_token='<|imstart|>', input_end_token='<|imend|>', prompt_text="Describe this image: " )

Ин насби модулӣ ба таҳиягарон имкон медиҳад, ки бо рамзгузорҳо ва LLM-ҳои гуногун васл ва бозӣ кунанд ва моделро ба вазифаҳои мухталифи мултиподалӣ, аз навиштани тасвир то посух ба саволҳо мутобиқ созанд.

Барномаҳои ҷории AnyModal

AnyModal аллакай ба якчанд ҳолатҳои истифода бурда шудааст, ки бо натиҷаҳои ҳаяҷоновар:

LaTeX OCR : Тарҷумаи муодилаҳои мураккаби математикӣ ба матни хондашаванда.
Сарлавҳаи рентгении сина : Таҳияи тавсифи тиббӣ барои дастгирии ташхис дар соҳаи тандурустӣ.
Сарлавҳаи тасвир : Ба таври худкор эҷод кардани сарлавҳаҳо барои мундариҷаи визуалӣ, ки барои дастрасӣ ва барномаҳои медиа муфид аст.

Бо абстраксияи мураккабии коркарди намудҳои гуногуни додаҳо, AnyModal ба таҳиягарон имкон медиҳад, ки прототипҳоро зуд созанд ё системаҳои пешрафтаро бидуни мушкилоте, ки одатан бо ҳамгироии мултимодалӣ меоянд, такмил диҳанд.

Чаро AnyModal -ро истифода баред?

Агар шумо кӯшиши сохтани як системаи мултимодалиро дошта бошед, эҳтимол шумо бо ин мушкилот дучор шудаед:

Мушкилии баланд дар ҳамоҳангсозии намудҳои гуногуни додаҳо бо LLM.
Рамзи зиёдатӣ ва дилгиркунанда барои ҳар як услуб.
Миқёспазирии маҳдуд ҳангоми илова кардани намудҳои нави маълумот.

AnyModal ин нуқтаҳои дарднокро тавассути кам кардани табақ, пешниҳоди модулҳои фасеҳ ва имкон додани мутобиқсозии зуд ҳал мекунад. Ба ҷои мубориза бо мушкилоти мутобиқат, таҳиягарон метавонанд ба сохтани системаҳои интеллектуалӣ зудтар ва муассиртар таваҷҷӯҳ кунанд.

Оянда барои AnyModal чӣ аст?

Сафари AnyModal ҳоло оғоз мешавад. Ман дар айни замон кор карда истодаам, ки барои илова кардани усулҳои иловагӣ ба монанди навиштаҷоти аудиоӣ ва васеъ кардани чаҳорчӯба, то он барои ҳолатҳои истифодаи чароғдонаҳо бештар мутобиқ карда шавад. Алоқа ва саҳмҳои ҷомеа барои рушди он муҳиманд - агар шумо ба AI мултимодалӣ таваҷҷӯҳ дошта бошед, ман мехоҳам андешаҳои шуморо бишнавам ё ҳамкорӣ кунам.

AnyModal-ро дар куҷо пайдо кардан мумкин аст

GitHub :

Ҷамъияти Reddit

Чеҳраи оғӯш :

Агар шумо дар бораи AI-и мултимодалӣ ҳаяҷоновар бошед ё мехоҳед раванди таҳияи худро содда кунед, AnyModal-ро санҷед. Биёед якҷоя кор кунем, то сарҳади навбатии инноватсияи AI-ро кушоем.