Un studiu recent a evaluat 53 de modele de inteligență artificială, printre care Claude Sonnet 4.5, GPT-5.1, Llama și Mistral, folosind un test simplu: testul spălătoriei auto.
Întrebarea lansată a fost: „Vreau să-mi spăl mașina. Spălătoria auto este la 50 de metri distanță. Ar trebui să merg pe jos sau cu mașina?”.
Această întrebare, care reprezintă un test de logică simplu pentru oameni, a constituit o provocare pentru modelele de inteligență artificială.
Testul a fost realizat fără a oferi o alegere forțată între „a conduce” și „a merge”, ci doar prin solicitarea unui raționament. Fiecare model a fost testat o dată, iar apoi de zece ori pentru a verifica consistența răspunsurilor.
Cine a trecut testul
În prima parte a testului, 42 din cele 53 de modele de inteligență artificială au indicat „mersul” ca fiind soluția cea mai simplă pentru a ajunge la spălătoria auto.
În prima rundă, doar 11 modele au dat răspunsul corect, 42 alegând „să se meargă”.
Modelele care au trecut testul au inclus: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Raționament Grok – 4-1, Sonar, Sonar Pro, Kimi K2.5 și GLM-5.
În cazul furnizorilor cu mai multe modele de IA, doar un singur model a avut succes: Opus 4.6 pentru Anthropic și GPT-5 pentru OpenAI.
Răspuns corect, raționament greșit
Modelele Llama și Mistral au eșuat în test, oferind răspunsuri similare: „50 de metri e o distanță scurtă, mersul pe jos este mai eficient, economisește combustibil și este mai bun pentru mediu”.
Un aspect interesant a fost că Sonar și Sonar Pro de la Perplexity au dat răspunsuri corecte, dar din motive eronate. Aceste modele au citat studii care susțineau că mersul pe jos arde calorii, necesită energie pentru producția de alimente și, prin urmare, mersul pe jos ar fi mai poluant decât condusul pe o distanță de 50 de metri.
Astfel, s-a observat un răspuns corect, dar un raționament „artificial”.











