Anthropic a lansat public Claude Fable 5, primul model AI din clasa Mythos - tehnologia pe care compania o considera pana de curand prea periculoasa pentru publicul larg. Cererile riscante sunt redirectionate automat catre un model mai vechi

￢ Fable 5 si Mythos 5, lansate simultan pe 9 iunie, au la baza acelasi model - diferenta o fac mecanismele de siguranta: "clasificatoare" care redirectioneaza cererile legate de securitate cibernetica, biologie, chimie si distilare catre modelul anterior, Claude Opus 4.8, in medie in sub 5% din sesiuni, potrivit companiei. ￢ Primul model al clasei Mythos a fost tinut din aprilie doar la dispozitia unor parteneri precum Microsoft, Amazon si Cisco, prin Project Glasswing, program derulat in colaborare cu guvernul SUA, dupa ce a gasit mii de vulnerabilitati critice, inclusiv in toate sistemele de operare si browserele majore.￢ Presa specializata in securitate cibernetica ramane sceptica: modelele AI mai vechi au fost sparte in mod constant de cercetatori, iar chiar si modelul de rezerva Opus 4.8 ofera capabilitati "dual-use" semnificative, noteaza publicatia americana CyberScoop.

Anthropic, compania americana din spatele asistentului AI Claude, a pus pentru prima data la dispozitia publicului un model din clasa Mythos - nivelul de capabilitate pe care chiar conducerea companiei il descria, la inceputul anului, drept prea periculos pentru o lansare generala. Noul Claude Fable 5, lansat marti, 9 iunie, vine insa "in lesa": un strat de sisteme AI separate intercepteaza cererile pe teme de securitate cibernetica, biologie, chimie sau distilare si le paseaza automat modelului anterior, Claude Opus 4.8, utilizatorul fiind informat de fiecare data.

"Lansarea unui model atat de capabil vine cu riscuri. Fara mecanisme de protectie, capabilitatile Fable 5 in zone precum securitatea cibernetica ar putea fi folosite abuziv pentru a produce daune serioase. Am lansat, prin urmare, modelul cu mecanisme de protectie care fac ca cererile pe anumite subiecte sa primeasca in schimb un raspuns de la urmatorul nostru cel mai capabil model, Claude Opus 4.8", se arata in anuntul oficial al Anthropic.

Mecanismul de filtrare - "clasificatoare", adica sisteme AI separate care detecteaza potentialele utilizari abuzive, inclusiv tentativele de jailbreak - acopera trei zone: securitatea cibernetica, biologia si chimia, respectiv distilarea, practica prin care terti incearca sa extraga capabilitatile unui model pentru a antrena modele concurente. Potrivit companiei, redirectionarea catre Opus 4.8 se declanseaza, in medie, in mai putin de 5% din sesiuni. "Capabilitatile Fable 5 in zone precum securitatea cibernetica, biologia si chimia sunt suficient de avansate incat adoptam o abordare deliberat conservatoare pentru aceste subiecte la lansare", a transmis compania intr-un raspuns scris pentru NBC News. Anthropic recunoaste deschis ca a calibrat filtrele mai strans decat ar fi optim. "Pentru ca am prioritizat siguranta, am calibrat deliberat mecanismele de protectie sa fie precaute, iar ele sunt inca mai stricte decat ar fi ideal - de exemplu, uneori cereri inofensive vor declansa clasificatoarele. Recunoastem ca acest lucru va fi frustrant pentru unii utilizatori, iar obiectivul nostru este sa reducem alarmele false pe masura ce actualizam si rafinam mecanismele dupa lansare", se mai arata in anunt.

De la "prea periculos pentru public" la lansare generala

La inceputul acestui an, conducerea Anthropic spunea ca noul sau model, Claude Mythos, are capabilitati atat de puternice de a face rau incat nu il va lansa public, aminteste publicatia americana specializata in securitate cibernetica CyberScoop, care isi intituleaza materialul despre lansare "Mythos in lesa" si descrie noul produs drept o incercare de a impaca discursul de siguranta al companiei cu presiunea pietei.

Primul model al clasei, Claude Mythos Preview, a fost lansat in aprilie exclusiv printr-un program restrictionat, Project Glasswing, derulat in colaborare cu guvernul american si deschis unor parteneri precum Microsoft, Amazon si Cisco, care au testat modelul "in spatele usilor inchise", potrivit publicatiei britanice IT Pro. Modelul a trimis unde de soc prin industria securitatii cibernetice: Mythos Preview a gasit mii de vulnerabilitati critice si severe, inclusiv buguri si exploit-uri in toate sistemele de operare si browserele majore, potrivit NBC News. Programul a fost extins saptamana trecuta la peste 150 de organizatii - institutii financiare, companii de software si retele medicale care isi testeaza apararea cibernetica.

Partenerii Glasswing pot trece de acum la Claude Mythos 5 - acelasi model de baza ca Fable 5, dar cu restrictiile de securitate cibernetica ridicate. "Are cele mai puternice capabilitati de securitate cibernetica dintre toate modelele din lume", sustine Anthropic, care spune ca va extinde treptat accesul, "in consultare cu guvernul SUA", printr-un program de acces pe baza de incredere, inclusiv pentru cercetatori din stiintele vietii.

Niciun jailbreak universal - deocamdata

Inainte de lansare, Anthropic a supus filtrele unor teste agresive: un program extern de tip bug bounty nu a produs niciun jailbreak universal - o metoda care ar permite folosirea modelului ca si cum protectiile nu ar exista - in peste 1.000 de ore de testare, iar organizatiile externe de red-teaming angajate de companie au esuat la randul lor, sustine Anthropic. Compania admite insa ca institutul britanic pentru siguranta AI, UK AISI, "a facut progrese catre" un astfel de jailbreak intr-o fereastra scurta de testare initiala.

"Avansul oferit de capabilitatile de nivel Mythos este valoros pentru multi adversari - de exemplu, pentru cei care ar putea castiga financiar din atacuri cibernetice - si ne asteptam, prin urmare, ca ei sa fie motivati sa incerce sa ocoleasca masurile noastre de siguranta", se arata in anuntul companiei.

Scepticismul ramane insa prezent in presa de specialitate. CyberScoop noteaza ca cercetatorii in securitate cibernetica au gasit in mod constant metode de a sparge modelele AI mai vechi si ca Anthropic nu precizeaza daca au fost descoperite tehnici de jailbreak partiale. In plus, publicatia atrage atentia ca nici varianta de rezerva nu este inofensiva: potrivit documentatiei tehnice a Opus 4.8 citate de CyberScoop, fara mecanisme de protectie, modelul de fallback poate reproduce circa 80% din vulnerabilitatile descoperite anterior in proiecte software open-source reale, pornind de la o descriere generala a slabiciunii - protectiile reduc aceasta rata la 1%.

Ce poate modelul - si cat costa

Dincolo de zonele blocate, Anthropic sustine ca Fable 5 depaseste orice model pus vreodata de companie la dispozitia publicului si ca este state-of-the-art pe aproape toate benchmark-urile testate. Pe SWE-Bench Pro, un test de sarcini reale de inginerie software, modelul atinge 80,3%, fata de 69,2% pentru Opus 4.8, 58,6% pentru GPT 5.5 si 54,2% pentru Gemini 3.1 Pro, potrivit datelor prezentate de companie si preluate de publicatia germana The Decoder. In testele de acces timpuriu, procesatorul de plati Stripe a raportat ca modelul a realizat intr-o singura zi o migrare a unui cod-sursa de 50 de milioane de linii, operatiune care ar fi luat manual unei echipe intregi peste doua luni, sustine Anthropic.

Compania face afirmatii ambitioase si in zona stiintifica: expertii sai interni ar fi accelerat de circa 10 ori etape ale procesului de design de medicamente cu ajutorul Mythos 5. Anthropic mai sustine ca Mythos 5 este primul sau model care produce "in mod consecvent ipoteze stiintifice noi, convingatoare" - o afirmatie pe care The Decoder o plaseaza in contextul unei dezbateri deschise in industrie, capacitatea modelelor de limbaj de a face stiinta reala fiind contestata, printre altii, de Richard Sutton, laureat al premiului Turing.

Noua generatie vine si cu un pret pe masura: 10 dolari per milion de tokeni la intrare si 50 de dolari per milion la iesire - dublu fata de Opus 4.8 (5, respectiv 25 de dolari), desi compania il prezinta ca fiind "sub jumatate" din pretul la care a fost oferit Mythos Preview.

Fable 5 este inclus fara cost suplimentar in abonamentele Pro, Max, Team si Enterprise pana pe 22 iunie; de pe 23 iunie, accesul va necesita credite de utilizare, compania promitand revenirea in abonamente "cand capacitatea o va permite". "Ne asteptam ca cererea pentru Fable 5 sa fie foarte mare si greu de prezis", se arata in anunt.

Lansarea vine la pachet si cu o schimbare de politica a datelor: tot traficul catre modelele din clasa Mythos va fi pastrat obligatoriu timp de 30 de zile, inclusiv pe platformele terte si inclusiv pentru clientii enterprise care aveau anterior acorduri de tip "retentie zero", noteaza TechCrunch, care avertizeaza ca politica "ar putea crea un precedent de industrie". Compania sustine ca datele nu vor fi folosite la antrenarea modelelor, ci exclusiv pentru apararea impotriva atacurilor noi si reducerea blocarilor eronate. Masura se aliniaza ordinului executiv semnat cu o saptamana inainte de presedintele american Donald Trump, care creeaza un mecanism voluntar de partajare a modelelor AI de frontiera cu guvernul, pentru testare de siguranta inainte de lansare, potrivit NBC News.

Momentul lansarii nu este intamplator nici din perspectiva financiara: Anthropic a depus confidential dosarul pentru listarea la bursa, dupa o runda de finantare care a evaluat compania la 965 mld. de dolari, iar rivalul OpenAI a depus propriul dosar cu o zi inainte, ambele operatiuni fiind estimate printre cele mai mari IPO-uri din istorie. Cu doar cateva zile inainte de lansare, Anthropic ceruse public marilor laboratoare AI sa stabileasca o "frana coordonata" a dezvoltarii modelelor de frontiera, avertizand ca sistemele ar putea ajunge curand sa se auto-imbunatateasca fara interventie umana, noteaza TechCrunch.

Business Hi-Tech

Anthropic a lansat public Claude Fable 5, primul model AI din clasa Mythos - tehnologia pe care compania o considera pana de curand prea periculoasa pentru publicul larg. Cererile riscante sunt redirectionate automat catre un model mai vechi

Articole asemanatoare