×

Accesează
contul existent

Cultura si divertisment

„Ultimul examen al umanității”, cel mai dificil test de inteligență artificială creat de...

„Ultimul examen al umanității”, cel mai dificil test de inteligență artificială creat de cercetători din istorie. Rezultatele sunt surprinzătoare

13.03.2026, 08:50 Sursa: mediafax.ro

Aplicatia Orange Sport este gratuita si poate fi descarcata din Google Play si App Store

Evaluari bine cunoscute, precum examenul Massive Multitask Language Understanding (MMLU), care anterior era considerat exigent, nu mai reusesc sa masoare in mod adecvat capacitatile modelelor avansate de IA din prezent, potrivit ScienceDaily. Pentru a rezolva aceasta problema, un grup international format din aproape 1.000 de cercetatori a dezvoltat un nou tip de test. Obiectivul lor era sa creeze un examen cuprinzator, dificil si bazat pe cunostintele umane specializate, pe care sistemele actuale de IA inca nu le pot gestiona. Rezultatul este "Humanity's Last Exam" (n.r - "Ultimul examen al umanitatii"), o evaluare cu 2.500 de intrebari care acopera matematica, stiintele umaniste, stiintele naturale, limbile antice si o gama larga de domenii academice foarte specializate. Scopul examenului nu a fost acela de a pacali sau de a invinge participantii umani. In schimb, obiectivul a fost acela de a identifica cu atentie domeniile in care sistemele de IA inca sunt deficitare. Un efort global pentru a masura limitele IA Specialisti din intreaga lume au redactat si revizuit intrebarile incluse in Humanity's Last Exam. Fiecare problema a fost conceputa cu atentie, astfel incat sa aiba un raspuns clar si verificabil. Intrebarile au fost elaborate pentru a impiedica gasirea de solutii rapide prin simple cautari pe internet. Subiectele provin din provocari academice avansate. Unele sarcini implica traducerea inscriptiilor antice din Palmyra, in timp ce altele necesita identificarea structurilor anatomice minuscule ale pasarilor sau analizarea caracteristicilor detaliate ale pronuntiei ebraice biblice. Cercetatorii au testat fiecare intrebare cu ajutorul sistemelor de IA de varf. Daca un model era capabil sa raspunda corect la o intrebare, acea intrebare era eliminata din examenul final. Acest proces a asigurat ca testul a ramas putin peste ceea ce sistemele actuale de IA pot rezolva in mod fiabil. Testele initiale au confirmat ca strategia a functionat. Chiar si modelele puternice de IA au avut dificultati cu examenul. GPT-4o a obtinut un scor de 2,7%, in timp ce Claude 3.5 Sonnet a atins 4,1%. Modelul o1 al OpenAI a avut o performanta ceva mai buna, cu 8%. Cele mai performante sisteme de pana acum, inclusiv Gemini 3.1 Pro si Claude Opus 4.6, au atins niveluri de precizie intre aproximativ 40% si 50%. Potrivit echipei de cercetare, scorurile mari la testele concepute initial pentru oameni nu indica neaparat o inteligenta autentica. Aceste teste de referinta masoara in principal cat de bine poate AI sa indeplineasca sarcini specifice create pentru elevii umani, mai degraba decat sa surprinda o intelegere mai profunda. Nu o amenintare, ci un instrument In ciuda numelui dramatic, Humanity's Last Exam nu vrea sa sugereze ca oamenii devin "demodati". In schimb, subliniaza cantitatea mare de cunostinte si expertiza care ramane in continuare specifica oamenilor. Humanity's Last Exam este conceput pentru a servi ca un standard de referinta durabil si transparent pentru viitoarele sisteme de IA.

Legal disclaimer:

Acesta este un articol informativ. Produsele descrise pot sa nu faca parte din oferta comerciala curenta Orange. Continutul acestui articol nu reprezinta pozitia Orange cu privire la produsul descris, ci a autorilor, conform sursei indicate.



Articole asemanatoare