Истражување објавено во PNAS Nexus покажува дека некои од најнапредните модели на вештачка интелигенција се однесуваат изненадувачки кревко кога задачата бара одржување на вниманието под пречки. На класичниот Строуп тест, кој со децении се користи во психологијата за мерење на контролата на вниманието, моделите добро се снаоѓале со кратки листи, но драматично им опаѓала прецизноста кога листите станувале подолги и посложени.
Во тестот, од системите се барало да ја именуваат бојата на мастилото, а не да го читаат зборот. Тоа е едноставна задача за луѓето, но тешка кога зборот и бојата се во конфликт. Истражувачите забележале дека моделите често ја следат најсилната научена навика, односно „читање“ на зборот, наместо да останат фокусирани на дадената инструкција.
Резултатите биле впечатливи. GPT-4o постигнал 91% точност со пет зборови, но паднал на 57% со десет и на само 15% со четириесет. Claude 3.5 Sonnet останал релативно стабилен до дваесет зборови, по што паднал на 24% точност на најдолгата листа. Слични падови биле забележани и кај GPT-5, Claude Opus 4.1 и Gemini 2.5.
Кога во истата листа имало и совпаѓачки и несовпаѓачки зборови и бои, перформансите дополнително се влошувале, а кај дел од тестовите точноста на несовпаѓачките ставки паѓала речиси на нула. Авторите заклучуваат дека овие системи немаат стабилен механизам за „извршна контрола“ каков што има човечкиот мозок, па затоа полесно губат фокус кога задачата бара отпор кон одвлекувања.
































