Строуп тестот ја откри слабоста на најдобрите модели на ИИ

Од

13/06/2026

Истражување објавено во PNAS Nexus покажува дека некои од најнапредните модели на вештачка интелигенција се однесуваат изненадувачки кревко кога задачата бара одржување на вниманието под пречки. На класичниот Строуп тест, кој со децении се користи во психологијата за мерење на контролата на вниманието, моделите добро се снаоѓале со кратки листи, но драматично им опаѓала прецизноста кога листите станувале подолги и посложени.

Во тестот, од системите се барало да ја именуваат бојата на мастилото, а не да го читаат зборот. Тоа е едноставна задача за луѓето, но тешка кога зборот и бојата се во конфликт. Истражувачите забележале дека моделите често ја следат најсилната научена навика, односно „читање“ на зборот, наместо да останат фокусирани на дадената инструкција.

Резултатите биле впечатливи. GPT-4o постигнал 91% точност со пет зборови, но паднал на 57% со десет и на само 15% со четириесет. Claude 3.5 Sonnet останал релативно стабилен до дваесет зборови, по што паднал на 24% точност на најдолгата листа. Слични падови биле забележани и кај GPT-5, Claude Opus 4.1 и Gemini 2.5.

Кога во истата листа имало и совпаѓачки и несовпаѓачки зборови и бои, перформансите дополнително се влошувале, а кај дел од тестовите точноста на несовпаѓачките ставки паѓала речиси на нула. Авторите заклучуваат дека овие системи немаат стабилен механизам за „извршна контрола“ каков што има човечкиот мозок, па затоа полесно губат фокус кога задачата бара отпор кон одвлекувања.

Строуп тестот ја откри слабоста на најдобрите модели на ИИ

Најново од Енаука.мк

Дијабетесот и деменцијата се поврзани поблиску отколку што се мислеше

NASA подготвува спасувачка мисија за Swift

Терзан 5 открива слоевита историја на Млечниот Пат

Надградена квантната лабораторија на МВС со ново „ладно“ јадро

Нова флуоресцентна молекула ги мери железото и кислородот во живи клетки