×

Accesează
contul existent

Cultura si divertisment

De ce sunt fișierele PDF o problemă pentru inteligența artificială

De ce sunt fișierele PDF o problemă pentru inteligența artificială

11.03.2026, 06:56 Sursa: mediafax.ro

Aplicatia Orange Sport este gratuita si poate fi descarcata din Google Play si App Store

PDF-ul (Portable Document Format) a fost creat de compania Adobe in 1993 pentru a permite deschiderea documentelor pe orice computer fara a modifica aspectul acestora. De-a lungul anilor, formatul a devenit standard pentru documente oficiale, formulare administrative, lucrari academice sau documente de lucru, scrie Il Post. Problema este ca PDF-urile au fost concepute in primul rand pentru a fi citite de oameni, nu de programe informatice. Desi modelele moderne de inteligenta artificiala pot analiza texte complexe, ele intampina dificultati atunci cand incearca sa interpreteze structura unui document PDF. De exemplu, atunci cand textul este organizat in coloane, include grafice sau tabele. Din aceste motive, programele pot interpreta gresit ordinea informatiilor, ceea ce duce la rezultate confuze. De ce AI-ul citeste greu documentele PDF Din punct de vedere tehnic, un PDF functioneaza mai degraba ca o "fotografie" a unui document. Fisierul contine instructiuni pentru a reproduce exact aceeasi pagina pe orice dispozitiv. Pentru a extrage textul, programele trebuie sa foloseasca tehnologii de recunoastere optica a caracterelor (OCR), care transforma imaginile in text digital. Aceste sisteme functioneaza relativ bine in cazul documentelor simple. Ele intampina probleme majore atunci cand fisierele contin scanari, scris de mana sau structuri grafice complexe. In schimb, alte formate precum HTML sunt mult mai usor de analizat de catre inteligenta artificiala. Explicatia este ca acestea includ etichete care indica structura documentului: titluri, subtitluri sau paragrafe. O provocare pentru industria inteligentei artificiale Limitarile PDF-urilor reprezinta o problema dubla pentru companiile din domeniul inteligentei artificiale. Pe de o parte, utilizatorii se confrunta frecvent cu dificultati atunci cand incearca sa ofere documente PDF pentru analiza sau rezumare. Pe de alta parte, aceste limitari impiedica accesul la un volum urias de continut de calitate care ar putea fi folosit pentru antrenarea modelelor AI. Estimarile arata ca intre 80% si 90% dintre datele existente in companii sunt stocate in formate "nestructurate". Iar aici sunt incluse PDF-uri, inregistrari audio sau video, care sunt dificil de analizat automat. Ar putea aparea un nou standard In contextul cresterii rapide a industriei AI, mai multe companii incearca sa gaseasca solutii pentru aceasta problema. Startup-ul israelian Factify a atras recent peste 70 de milioane de dolari pentru dezvoltarea unui nou tip de format de document. El a fost conceput pentru a pastra avantajele PDF-ului, dar care sa poata fi analizat mai usor de sistemele de inteligenta artificiala. In paralel, compania europeana Mistral a lansat un sistem OCR bazat pe AI pentru a imbunatati citirea documentelor PDF. Momentan, rezultatele nu sunt inca semnificativ mai bune decat cele ale tehnologiilor existente. Pentru moment, PDF-ul ramane standardul dominant pentru documente digitale. Totusi, pe masura ce inteligenta artificiala devine tot mai importanta in analizarea datelor, presiunea pentru dezvoltarea unor formate mai prietenoase cu masinile este tot mai mare.

Legal disclaimer:

Acesta este un articol informativ. Produsele descrise pot sa nu faca parte din oferta comerciala curenta Orange. Continutul acestui articol nu reprezinta pozitia Orange cu privire la produsul descris, ci a autorilor, conform sursei indicate.



Articole asemanatoare