AI21 Labs: Un nou model de inteligență artificială capabil să gestioneze mai mult context decât majoritatea
April 5, 2024
Industria inteligenței artificiale se îndreaptă din ce în ce mai mult către modele generative cu contexte mai largi. Cu toate acestea, modelele cu ferestre largi de context tind să fie intensive din punct de vedere computațional. Or Dagan, manager de produs la start-up-ul de inteligență artificială AI21 Labs, susține că acest lucru nu trebuie să fie neapărat așa, iar compania sa lansează un model generativ pentru a demonstra acest lucru.
Contextele, sau ferestrele de context, se referă la datele de intrare (de exemplu, text) pe care un model le ia în considerare înainte de a genera rezultatul (mai mult text). Modelele cu ferestre de context mici au tendința de a uita conținutul chiar și al unor conversații foarte recente, în timp ce modelele cu contexte mai mari evită această problemă și, în plus, înțeleg mai bine fluxul de date pe care îl procesează.
Noul model de generare și analiză de text al AI21 Labs, numit Jamba, poate îndeplini multe dintre aceleași sarcini ca și modelele precum ChatGPT de la OpenAI și Gemini de la Google. Antrenat cu o combinație de date publice și de proprietate, Jamba poate scrie texte în engleză, franceză, spaniolă și portugheză.
O caracteristică unică a Jamba este capacitatea sa de a gestiona până la 140.000 de jetoane cu un singur GPU cu cel puțin 80 GB de memorie, cum ar fi un Nvidia A100 puternic. Acest lucru corespunde la aproximativ 105.000 de cuvinte, sau 210 pagini, o dimensiune adecvată pentru un roman de dimensiuni bune.
În comparație, Meta’s Llama 2 are o fereastră de context de 32.000 de jetoane, o dimensiune mai mică după standardele actuale, dar necesită doar un GPU cu aproximativ 12 GB de memorie pentru a funcționa. (Ferestrele de context se măsoară de obicei în jetoane, care sunt fragmente de text brut și alte date).
La prima vedere, Jamba ar putea părea un model obișnuit. Există multe modele de inteligență artificială generativă disponibile și descărcabile în mod gratuit, cum ar fi recentul DBRX lansat de Databricks și Llama 2 menționat anterior.
Ceea ce îl face pe Jamba unic este ceea ce se află sub capotă. Acesta utilizează o combinație a două arhitecturi de modele: transformatoare și modele de spațiu de stare (SSM).
Transformatoarele sunt arhitectura preferată pentru sarcinile complexe de raționament și modelele de putere, cum ar fi GPT-4 și Google Gemini menționat anterior. Acestea au mai multe caracteristici unice, dar caracteristica distinctivă a transformatoarelor este, fără îndoială,“mecanismullorde atenție“. Pentru fiecare bucată de date de intrare (de exemplu, o propoziție), transformatoarele“cântăresc” relevanța tuturor celorlalte date de intrare (alte propoziții) și se bazează pe acestea pentru a genera rezultatul (o nouă propoziție).
Pe de altă parte, SSM-urile combină diferite calități ale unor tipuri mai vechi de modele de inteligență artificială, cum ar fi rețelele neuronale recurente și rețelele neuronale convoluționale, pentru a crea o arhitectură mai eficientă din punct de vedere computațional, capabilă să gestioneze secvențe lungi de date.
SSM-urile au limitările lor. Cu toate acestea, unele încarnări timpurii, inclusiv un model cu sursă deschisă numit Mamba, dezvoltat de cercetători de la Princeton și Carnegie Mellon, pot gestiona intrări mai mari decât echivalentele lor bazate pe transformatoare și le depășesc în sarcinile de generare de limbaj.
Jamba folosește de fapt Mamba ca parte a modelului de bază, iar Dagan spune că acesta oferă un randament de trei ori mai mare pe contexte lungi în comparație cu modelele bazate pe transformatoare de dimensiuni comparabile.
‘Deși există câteva exemple academice timpurii de modele SSM, acesta este primul model de producție de nivel comercial‘, a declarat
a declarat Dagan într-un interviu acordat TechCrunch.
“Această arhitectură, pe lângă faptul că este inovatoare și interesantă pentru cercetări ulterioare din partea comunității, deschide posibilități mari de eficiență și randament“.
Deși Jamba a fost lansat sub licența Apache 2.0, o licență open source cu puține restricții de utilizare, Dagan subliniază că este o versiune în scopuri de cercetare și nu este destinată utilizării comerciale. Modelul nu dispune de măsuri de protecție pentru a preveni generarea de texte toxice sau de atenuări pentru a aborda posibilele prejudecăți; o versiune rafinată și presupus “mai sigură” va fi pusă la dispoziție în următoarele săptămâni.
Cu toate acestea, Dagan spune că Jamba demonstrează deja potențialul arhitecturii SSM chiar și în acest stadiu incipient.
“Ceea ce estespecial la acest model, atât în ceea ce privește dimensiunea sa, cât și arhitectura sa inovatoare, este faptul că poate fi adaptat cu ușurință la un singur GPU,”
a spus el.
“Credem că performanțele se vor îmbunătăți și mai mult odată cu optimizările ulterioare ale Mamba.”
Avantajele modelelor de inteligență artificială cu context larg
Pe măsură ce industria inteligenței artificiale continuă să evolueze, aceasta se îndreaptă din ce în ce mai mult spre adoptarea modelelor generative cu contexte mai largi. Aceste modele, cum ar fi Jamba de la AI21 Labs, permit luarea în considerare a mai multor informații înainte de a genera rezultatul dorit.
Modelele cu contexte largi au mai multe avantaje față de cele cu ferestre de context mai mici. În primul rând, modelele cu contexte largi au o capacitate mai mare de a înțelege și de a stoca informații importante din conversațiile anterioare. Acest lucru înseamnă că modelul poate crea un rezultat mai coerent și mai precis, evitând repetițiile sau erorile datorate lipsei de context.
În plus, modelele cu contexte largi sunt mai capabile să înțeleagă mai bine fluxul de date pe care îl iau în considerare. Acest lucru înseamnă că pot înțelege mai bine contextul general și pot crea rezultate care se potrivesc mai bine contextului specific în care sunt utilizate.
Un exemplu practic al utilității modelelor cu contexte largi este domeniul chatbots. Chatbots bazate pe modele cu contexte largi pot înțelege mai bine conversațiile anterioare și pot răspunde mai precis și mai consistent la întrebările utilizatorilor. Acest lucru duce la o experiență mai bună și mai satisfăcătoare pentru utilizator.
În plus, modelele cu contexte largi pot fi utilizate într-o varietate de sectoare și aplicații. De exemplu, acestea pot fi utilizate pentru a genera automat texte, pentru a traduce dintr-o limbă în alta, pentru a crea dialoguri realiste pentru jocuri video sau filme și multe altele.
Jamba: potențialul modelelor SSM
Un aspect interesant al modelului Jamba de la AI21 Labs este utilizarea unei combinații de două arhitecturi de modele: transformatoare și modele de spațiu de stare (SSM). Se știe că transformatoarele sunt foarte eficiente în sarcinile complexe de raționament, în timp ce SSM-urile sunt capabile să gestioneze secvențe mai lungi de date.
Utilizarea combinată a acestor două arhitecturi permite companiei Jamba să obțină ce este mai bun din ambele lumi. Transformatoarele oferă capacități complexe de raționament, cum ar fi analiza contextului și generarea de text coerent, în timp ce SSM-urile permit gestionarea unor secvențe de date mai lungi fără a sacrifica performanța.
S-a demonstrat că această abordare hibridă oferă un randament de trei ori mai mare în cazul contextelor lungi, comparativ cu modelele bazate exclusiv pe transformatoare de dimensiuni comparabile. Acest lucru înseamnă că Jamba este capabil să genereze text coerent și de înaltă calitate pe secvențe lungi de date, oferind un avantaj semnificativ față de alte modele disponibile pe piață.
Sursa articolului aici.