Un test atât de greu că niciun sistem AI nu poate trece – încă

Dacă sunteți în căutarea unui nou motiv pentru a fi nervos în legătură cu inteligența artificială, încercați acest lucru: unii dintre cei mai inteligenți oameni din lume se luptă să creeze teste pe care sistemele AI nu le pot trece.

Ani de zile, sistemele AI au fost măsurate oferind modelelor noi o varietate de teste standardizate de referință. Multe dintre aceste teste au constat în probleme provocatoare de calibru SAT în domenii precum matematică, știință și logică. Compararea scorurilor modelelor de-a lungul timpului a servit ca o măsură aproximativă a progresului AI.

Dar sistemele AI au devenit în cele din urmă prea bune la acele teste, așa că au fost create teste noi, mai dificile – adesea cu tipurile de întrebări pe care elevii absolvenți le-ar putea întâlni la examene.

Nici acele teste nu sunt în stare bună. Noile modele de la companii precum OpenAI, Google și Anthropic au obținut scoruri mari la multe provocări la nivel de doctorat, limitând utilitatea acestor teste și conducând la o întrebare înfricoșătoare: sistemele AI devin prea inteligente pentru a putea fi măsurate?

Săptămâna aceasta, cercetătorii de la Center for AI Safety and Scale AI lansează un posibil răspuns la această întrebare: o nouă evaluare, numită „Ultimul examen al umanității”, despre care susțin că este cel mai greu test administrat vreodată sistemelor AI.

Ultimul examen al umanității este creația lui Dan Hendrycks, un cunoscut cercetător în domeniul siguranței AI și director al Centrului pentru Siguranța AI. (Numele inițial al testului, „Umanity’s Last Stand,” a fost eliminat pentru că este prea dramatic.)

Dl. Hendrycks a lucrat cu Scale AI, o companie de inteligență artificială în care este consilier, pentru a compila testul, care constă în aproximativ 3.000 de întrebări cu răspunsuri multiple și cu răspunsuri scurte menite să testeze abilitățile sistemelor AI în domenii, de la filozofia analitică la ingineria rachetelor. .

Întrebările au fost înaintate de experți în aceste domenii, inclusiv profesori de colegiu și matematicieni premiați, cărora li sa cerut să vină cu întrebări extrem de dificile la care știau răspunsurile.

Aici, încercați-vă mâna la o întrebare despre anatomia colibri din test:

Păsările colibri din Apodiformes au în mod unic un os oval pereche bilateral, un sesamoid încorporat în porțiunea caudolaterală a aponevrozei încrucișate extinse de inserție a m. depresor caudae. Câte tendoane pereche sunt susținute de acest os sesamoid? Răspundeți cu un număr.

Sau, dacă fizica este mai mult viteza ta, încearcă aceasta:

Un bloc este plasat pe o șină orizontală, de-a lungul căreia poate aluneca fără frecare. Este atașată la capătul unei tije rigide, fără masă, de lungime R. O masă este atașată la celălalt capăt. Ambele obiecte au greutatea W. Sistemul este inițial staționar, cu masa direct deasupra blocului. Masei i se dă o împingere infinitezimală, paralelă cu șina. Să presupunem că sistemul este proiectat astfel încât tija să se poată roti la 360 de grade fără întrerupere. Când tija este orizontală, poartă tensiunea T1. Când tija este din nou verticală, cu masa direct sub bloc, aceasta poartă tensiunea T2. (Ambele aceste mărimi ar putea fi negative, ceea ce ar indica faptul că tija este în compresie.) Care este valoarea lui (T1−T2)/W?

(Aș imprima răspunsurile aici, dar asta ar strica testul pentru orice sisteme AI instruite pe această coloană. De asemenea, sunt mult prea prost pentru a verifica singur răspunsurile.)

Întrebările privind Ultimul examen al umanității au trecut printr-un proces de filtrare în doi pași. În primul rând, întrebările trimise au fost adresate modelelor de IA de top de rezolvat.

Dacă modelele nu puteau să le răspundă (sau dacă, în cazul întrebărilor cu răspunsuri multiple, modelele s-au descurcat mai rău decât prin ghicitul aleatoriu), întrebările erau date unui set de recenzori umani, care le rafinau și verificau răspunsurile corecte. . Experții care au scris întrebări de top au fost plătiți între 500 și 5.000 USD per întrebare, precum și au primit credit pentru contribuția la examen.

Kevin Zhou, cercetător postdoctoral în fizica teoretică a particulelor la Universitatea din California, Berkeley, a trimis o mână de întrebări la test. Trei dintre întrebările lui au fost alese, toate dintre care mi-a spus că sunt „de-a lungul gamei superioare a ceea ce s-ar putea vedea la un examen de absolvire”.

Domnul Hendrycks, care a contribuit la crearea unui test AI utilizat pe scară largă, cunoscut sub numele de Massive Multitask Language Understanding, sau MMLU, a spus că a fost inspirat să creeze teste AI mai dificile de o conversație cu Elon Musk. (Dl. Hendrycks este, de asemenea, un consilier de siguranță al companiei AI a lui Musk, xAI.) Domnul Musk, a spus el, și-a exprimat îngrijorarea cu privire la testele existente oferite modelelor AI, care le-a considerat prea ușor.

„Elon sa uitat la întrebările MMLU și a spus: „Acestea sunt la nivel de licență. Vreau lucruri pe care un expert de talie mondială le poate face’”, a spus domnul Hendrycks.

Există și alte teste care încearcă să măsoare capabilitățile avansate de AI în anumite domenii, cum ar fi FrontierMath, un test dezvoltat de Epoch AI și ARC-AGI, un test dezvoltat de cercetătorul AI François Chollet.

Dar Ultimul examen al umanității are ca scop să determine cât de bune sunt sistemele de inteligență artificială pentru a răspunde la întrebări complexe dintr-o mare varietate de subiecte academice, oferindu-ne ceea ce ar putea fi considerat un scor general de inteligență.

„Încercăm să estimăm în ce măsură AI poate automatiza o mulțime de muncă intelectuală cu adevărat dificilă”, a spus domnul Hendrycks.

Odată ce lista de întrebări a fost compilată, cercetătorii au oferit Ultimul examen al umanității șase modele de inteligență artificială de top, inclusiv Gemini 1.5 Pro de la Google și Claude 3.5 Sonnet de la Anthropic. Toți au eșuat lamentabil. Sistemul o1 al OpenAI a obținut cel mai mare scor din grup, cu un scor de 8,3 la sută.

(New York Times a dat în judecată OpenAI și partenerul său, Microsoft, acuzându-i de încălcarea drepturilor de autor asupra conținutului de știri legat de sistemele AI. OpenAI și Microsoft au negat aceste afirmații.)

Domnul Hendrycks a spus că se așteaptă ca aceste scoruri să crească rapid și, potențial, să depășească 50% până la sfârșitul anului. În acel moment, a spus el, sistemele AI ar putea fi considerate „oracole de clasă mondială”, capabile să răspundă la întrebări cu privire la orice subiect mai precis decât experții umani. Și ar putea fi nevoiți să căutăm alte modalități de a măsura impactul AI, cum ar fi analizarea datelor economice sau a judeca dacă poate face descoperiri noi în domenii precum matematica și știința.

„Vă puteți imagina o versiune mai bună a acestui lucru, unde putem pune întrebări la care încă nu știm răspunsurile și putem verifica dacă modelul ne poate ajuta să o rezolvăm”, a spus Summer Yue, Scale. Director de cercetare al AI și organizator al examenului.

O parte din ceea ce este atât de confuz în ceea ce privește progresul AI în zilele noastre este cât de accidentat este. Avem modele de inteligență artificială capabile să diagnosticheze bolile mai eficient decât medicii umani, câștigând medalii de argint la Olimpiada Internațională de Matematică și învingând programatori umani de top în provocările competitive de codificare.

Dar aceleași modele se luptă uneori cu sarcini de bază, cum ar fi aritmetica sau scrierea poeziei măsurate. Acest lucru le-a dat o reputație ca fiind uimitor de strălucitor la unele lucruri și total inutil la altele și le-a creat impresii foarte diferite despre cât de repede se îmbunătățește AI, în funcție de faptul că te uiți la cele mai bune sau cele mai proaste rezultate.

De asemenea, acea zimțare a făcut ca măsurarea acestor modele să fie dificilă. Am scris anul trecut că avem nevoie de evaluări mai bune pentru sistemele AI. Inca cred asta. Dar, de asemenea, cred că avem nevoie de metode mai creative de urmărire a progresului AI, care să nu se bazeze pe teste standardizate, deoarece majoritatea a ceea ce fac oamenii – și ceea ce ne temem că AI va face mai bine decât noi – nu poate fi surprins la un examen scris. .

Domnul Zhou, cercetătorul teoretic în fizica particulelor care a trimis întrebări la Ultimul examen al umanității, mi-a spus că, deși modelele AI au fost adesea impresionante în a răspunde la întrebări complexe, el nu le-a considerat o amenințare pentru el și pentru colegii săi, deoarece slujbele lor implică mult. mai mult decât a scuipa răspunsuri corecte.

„Există o mare prăpastie între ceea ce înseamnă să dai un examen și ce înseamnă să fii fizician practicant și cercetător”, a spus el. „Chiar și o IA care poate răspunde la aceste întrebări ar putea să nu fie pregătită să ajute în cercetare, care este în mod inerent mai puțin structurată.”