Formatul PDF (Portable Document Format) a fost creat de Adobe în 1993, având ca scop principal facilitarea deschiderii documentelor pe orice computer, fără a altera aspectul acestora. De-a lungul timpului, PDF-ul a devenit un standard de facto pentru documente oficiale, formulare administrative, lucrări academice și alte tipuri de documente, conform unei analize realizate de Il Post.
Cu toate acestea, un aspect important de menționat este că PDF-urile au fost concepute inițial pentru a fi citite de oameni, nu de software-uri specializate. Chiar dacă modelele moderne de inteligență artificială pot analiza texte complexe, ele se confruntă cu dificultăți semnificative în interpretarea structurii unui document PDF. De exemplu, atunci când textul este organizat în coloane sau conține grafice și tabele, programele pot interpreta greșit ordinea informațiilor, ceea ce duce la rezultate confuze.
Un aspect tehnic important este că un PDF funcționează mai mult ca o „fotografie” a unui document. Fișierul conține instrucțiuni precise pentru a reproduce exact aceeași pagină pe orice dispozitiv. Pentru a extrage textul dintr-un PDF, software-urile trebuie să utilizeze tehnologii de recunoaștere optică a caracterelor (OCR), care transformă imaginile în text digital. Aceste sisteme sunt eficiente în cazul documentelor simple, dar întâmpină dificultăți atunci când fișierele conțin scanări, scris de mână sau structuri grafice complexe.
Comparativ, formatele precum HTML sunt mult mai accesibile pentru inteligența artificială, deoarece includ etichete care indică structura documentului, cum ar fi titluri, subtitluri și paragrafe.
Aceste limitări ale PDF-urilor reprezintă o provocare dublă pentru companiile din domeniul inteligenței artificiale. Pe de o parte, utilizatorii se confruntă frecvent cu dificultăți atunci când încearcă să folosească documente PDF pentru analiză sau rezumare. Pe de altă parte, aceste constrângeri împiedică accesul la un volum imens de conținut valoros care ar putea fi utilizat pentru antrenarea modelelor AI. Estimările sugerează că între 80% și 90% din datele existente în cadrul companiilor sunt stocate în formate „nestructurate”, inclusiv PDF-uri, înregistrări audio sau video, care sunt dificil de analizat automat.
În contextul expansiunii accelerate a industriei inteligenței artificiale, mai multe companii încearcă să găsească soluții pentru aceste probleme. De exemplu, startup-ul israelian Factify a atras recent peste 70 de milioane de dolari pentru dezvoltarea unui nou tip de format de document. Acest format este conceput pentru a păstra avantajele PDF-ului, dar să fie mai ușor accesibil pentru analiza de către sistemele de inteligență artificială.
În paralel, compania europeană Mistral a lansat un sistem OCR bazat pe AI pentru a îmbunătăți citirea documentelor PDF. Cu toate acestea, rezultatele obținute până în prezent nu sunt semnificativ mai bune decât cele ale tehnologiilor existente.
Până în prezent, PDF-ul rămâne standardul dominant pentru documentele digitale. Totuși, pe măsură ce inteligența artificială devine tot mai relevantă în analiza datelor, crește presiunea pentru dezvoltarea unor formate mai prietenoase cu mașinile.


