Со оглед на тоа што системите за вештачка интелигенција (АИ) почнаа да постигнуваат исклучително високи резултати на долго користените академски бенчмаркови, истражувачите забележаа растечки проблем: тестовите кои некогаш беа предизвик за машините веќе не беа доволно тешки. Познати евалуации како испитот MMLU (Massive Multitask Language Understanding) сега не успеваат правилно да ги измерат способностите на денешните напредни АИ модели.
Потреба од нов предизвик
За да го решат овој проблем, светска група од речиси 1.000 истражувачи, вклучувајќи професор од Универзитетот Тексас А&М, разви нов тип на тест. Нивната цел беше да создадат испит кој е опширен, тежок и заснован на стручно човечко знаење – предизвици со кои сегашните АИ системи сè уште се борат. Д-р Тунг Нгуен, вонреден професор на Универзитетот Тексас А&М, беше еден од клучните соработници, помагајќи во пишувањето и рафинирањето на многу од испитните прашања.
„Кога АИ системите почнуваат да работат исклучително добро на човечките бенчмаркови, примамливо е да се мисли дека се приближуваат до разбирање на човечко ниво“, вели Нгуен. „Но, HLE нè потсетува дека интелигенцијата не е само препознавање на шеми – таа е длабочина, контекст и специјализирана експертиза.“
Што е „Последниот испит на човештвото“ (HLE)?
Резултатот е „Последниот испит на човештвото“ (Humanity’s Last Exam – HLE), проценка од 2.500 прашања што опфаќа математика, хуманистички науки, природни науки, антички јазици и широк спектар на високо специјализирани академски полиња. Деталите за проектот се објавени во списанието Nature, а повеќе информации се достапни на lastexam.ai.
Прашањата се напишани и прегледани од специјалисти од целиот свет. Секој проблем бил внимателно дизајниран за да има еден јасен, проверлив одговор и да спречи брзи решенија преку едноставни интернет пребарувања. Темите вклучуваат превод на антички палмирски натписи, идентификување на ситни анатомски структури кај птиците или анализа на детали од библискиот хебрејски изговор.
Тестирање на границите
Истражувачите го тестирале секое прашање против водечките АИ системи. Доколку некој модел можел точно да одговори, тоа прашање било отстрането од финалниот испит. Овој процес осигурил дека тестот останува само надвор од она што актуелните АИ системи можат сигурно да го решат.
Раното тестирање ја потврдило ефикасноста. Дури и моќни АИ модели се мачеле со испитот. GPT-4o постигна 2,7%, Claude 3.5 Sonnet 4,1%, а моделот o1 на OpenAI 8%. Најспособните системи досега, вклучувајќи ги Gemini 3.1 Pro и Claude Opus 4.6, достигнаа нивоа на точност помеѓу 40 и 50 проценти.
Зошто е важен HLE?
Нгуен објаснува дека прашањето за надминувањето на постарите тестови од страна на АИ е повеќе од техничка грижа. „Без прецизни алатки за проценка, креаторите на политики, развивачите и корисниците ризикуваат погрешно да интерпретираат што всушност можат да направат АИ системите“, вели тој. „Бенчмарковите ја обезбедуваат основата за мерење на напредокот и идентификување на ризиците.“
И покрај драматичното име, HLE не сугерира дека луѓето стануваат застарени. Напротив, тој ја истакнува огромната количина на знаење и експертиза што сè уште остануваат уникатно човечки. „Ова не е трка против АИ“, нагласува Нгуен. „Тоа е метод за разбирање каде овие системи се силни и каде се борат. Тоа разбирање ни помага да изградиме побезбедни, посигурни технологии. И, што е важно, нè потсетува зошто човечката експертиза сè уште е важна.“
HLE е дизајниран да служи како траен и транспарентен бенчмарк за идните АИ системи. Истражувачите објавија некои прашања јавно, додека поголемиот дел ги чуваат скриени за да не можат АИ моделите едноставно да ги запаметат одговорите.
„Засега, HLE претставува една од најјасните проценки на јазот меѓу АИ и човечката интелигенција“, заклучува Нгуен, „и покрај брзиот технолошки напредок, тој останува широк.“ Размерот на проектот, со експерти од речиси секоја дисциплина – историчари, физичари, лингвисти, медицински истражувачи – ја покажува вредноста на меѓудисциплинарната соработка во откривањето на овие граници.































