Acasă Tech OpenAI dezvăluie cât de aproape este GPT-5 de performanța umană în profesii-cheie

OpenAI dezvăluie cât de aproape este GPT-5 de performanța umană în profesii-cheie

1988
0

TECH. OpenAI a lansat un nou test de referință, denumit GDPval, prin care măsoară cât de bine se compară modelele de inteligență artificială cu profesioniștii umani din diferite industrii. Acest benchmark urmărește să evalueze cât de aproape sunt sistemele AI de a egala sau chiar depăși oamenii în activități cu valoare economică.

GDPval acoperă nouă domenii importante pentru PIB-ul Statelor Unite, precum sănătatea, finanțele, producția și administrația publică, și analizează 44 de ocupații – de la jurnaliști și ingineri software până la asistente medicale. Participanții au comparat rapoarte redactate de experți umani cu cele generate de AI, fiind rugați să aleagă varianta superioară.

Rezultatele arată că versiunea avansată GPT-5-high a fost considerată la nivelul sau peste cel al specialiștilor în 40,6% din cazuri. În schimb, Claude Opus 4.1, dezvoltat de Anthropic, a depășit acest scor, fiind evaluat ca egal sau superior oamenilor în 49% dintre situații. Potrivit OpenAI, diferența se datorează și faptului că modelul Anthropic produce grafice mai atractive vizual, ceea ce poate influența decizia evaluatorilor.

Chiar și așa, compania recunoaște limitele actualului test, care se concentrează doar pe redactarea de rapoarte, o mică parte din munca reală a profesioniștilor. OpenAI anunță că lucrează la versiuni mai complexe, capabile să surprindă procese de lucru interactive și o varietate mai mare de sarcini.

Într-un interviu pentru TechCrunch, economistul-șef Aaron Chatterji a subliniat potențialul AI de a sprijini oamenii: „Pe măsură ce modelul devine mai bun, angajații pot externaliza anumite sarcini și se pot concentra pe activități cu valoare adăugată mai mare.”

La rândul său, Tejal Patwardhan, responsabilă cu evaluările OpenAI, a evidențiat progresul rapid: dacă GPT-4o, lansat acum 15 luni, obținea doar 13,7% la GDPval, GPT-5 aproape a triplat performanța.

GDPval se alătură altor teste consacrate din industrie, precum AIME 2025, axat pe matematică, sau GPQA Diamond, orientat pe cunoștințe științifice de nivel avansat. Spre deosebire de acestea, noul benchmark își propune să fie mai relevant pentru sarcini aplicabile în economie.

Prin acest test, OpenAI încearcă să arate că modelele sale pot deveni parteneri utili în mai multe industrii. Totuși, compania admite că doar evaluări mai cuprinzătoare vor putea confirma dacă AI poate rivaliza cu adevărat cu oamenii în activitățile de zi cu zi.

LĂSAȚI UN MESAJ

Vă rugăm să introduceți comentariul dvs.!
Introduceți aici numele dvs.