Моделот Centaur беше претставен како значаен чекор кон вештачка интелигенција што може да го имитира човечкото размислување. Тој бил доработен врз податоци од психолошки експерименти и покажал добри резултати на 160 когнитивни задачи, меѓу кои задачи за одлучување, извршна контрола и други ментални процеси.
Но нова анализа објавена во National Science Open отвора сериозно прашање: дали моделот навистина ја разбира задачата или само ги препознава обрасците од податоците на кои бил обучуван? Истражувачи од Универзитетот Џеџијанг тврдат дека успехот на Centaur може да се должи на претерано приспособување кон познати примери, а не на вистинско разбирање.
За да ја проверат оваа можност, истражувачите направиле изменети тестови. Во еден од нив, наместо оригиналните прашања од психолошките задачи, на моделот му била дадена едноставна инструкција: да ја избере опцијата А. Ако Centaur ја следел смислата на новото барање, би требало постојано да ја избира таа опција.
Наместо тоа, моделот продолжил да ги избира одговорите што биле „точни“ во првичните податоци. Таквото однесување укажува дека тој не ја толкувал намерата зад прашањето, туку се потпирал на статистички обрасци што ги научил претходно.
Ова е важна забелешка за начинот на кој се оценуваат големите јазични модели. Висок резултат на тест не мора секогаш да значи дека системот поседува способност што личи на човечко расудување. Кај моделите што функционираат како „црни кутии“, тешко е да се утврди дали одговорот произлегува од разбирање, од меморирање или од успешно погодување.
Случајот со Centaur покажува дека идните проверки на ВИ-системите мора да бидат поразновидни и построги. Особено важно прашање останува разбирањето на јазикот: не само препознавање зборови и формати, туку препознавање што всушност се бара. Без тоа, моделите може да изгледаат убедливо, а сепак да промашуваат во самата суштина на задачата.
































