Навука і тэхналогіі 4 4

Nashaniva.com

03.02.2025 / 12:54

«Апошні экзамен чалавецтва». Для нейрасетак стварылі максімальна складаны акадэмічны тэст — і вось які вынік

Прафесары, навукоўцы, а таксама выбітныя выпускнікі і студэнты з амаль 500 прэстыжных адукацыйных установаў па ўсім свеце вырашылі даць апошні акадэмічны бой сістэмам штучнага інтэлекту, стварыўшы для іх самы складаны з усіх магчымых тэстаў экспертнага ўзроўню на разважанне і валоданне тэхнічнымі ведамі. Нейрасеткі (у тым ліку ChatGPT і нашумелы кітайскі DeepSeek) выклік прынялі і ўжо паказалі першыя вынікі.

Міжнародная каманда з 1000 экспертаў у розных акадэмічных дысцыплінах з амаль 500 прэстыжных адукацыйных устаноў (сярод якіх Оксфард, Гарвард, Кэмбрыдж, Стэнфард, швейцарскі ETH, французская Inria і іншыя) распрацавалі глабальны тэст па тэхнічных і перадавых навуковых ведах і лагічным мысленні для вымярэння ўзроўню дасканаласці сістэм штучнага інтэлекту.

Тэст атрымаў назву HLE (Humanity's Last Exam), ці «Апошні экзамен чалавецтва». Эксперты назвалі яго самым складаным акадэмічным выпрабаваннем у гісторыі, які можна стварыць для тэсціравання магчымасцяў нейрасетак у дакладных навуках, не закранаючы аспект творчых здольнасцяў.

Экзамен HLE складаецца з трох тысяч складаных пытанняў па ста розных дысцыплінах (напрыклад, класічная філалогія, хімія, вышэйшая матэматыка, інфарматыка, экалогія, лінгвістыка). Фарматаў заданняў два: пытанні з дакладным супадзеннем (ШІ-мадэлі самі пішуць тэкст у якасці адказу) і пытанні з выбарам адказу (ШІ выбірае адзін з пяці або больш варыянтаў адказу). Асаблівы акцэнт у тэсце таксама робіцца на разуменні схем і выяваў.

Прыклады пытанняў па розных акадэмічных дысцыплінах у рамках экзамена HLE (на англійскай мове). Пад пытаннямі пазначаны іх аўтары і адукацыйныя ўстановы, у якіх тыя працуюць ці навучаюцца. Крыніца: agi.safe.ai

У тэсце ўжо прынялі ўдзел некалькі топавых нейрасетак, такія як ChatGPT (старыя і найноўшыя версіі), Claude (папулярны ў бізнэсменаў і праграмістаў), Gemini (ад карпарацыі Google), Grok (ШІ ад Ілана Маска) і DeepSeek (кітайская нейрасетка, якая абваліла ўвесь тэхналагічны сектар ЗША).

Усе яны з трэскам правалілі экзамен (у плюс-мінус 90% пытанняў мадэлі давалі няправільны адказ, ды і яшчэ настойвалі на тым, што мелі рацыю), адзначылі аўтары тэста HLE.

Ёсць і паказальны момант — найгоршы і адначасова найлепшы вынік прадэманстраваў ChatGPT (яго старая звычайная версія Омні паказала 3,3% дакладнасці адказаў, сярэдняя o1 паказала вынік 9,1, а найноўшая о3-mini-high — 13). А нашумелы кітайскі DeepSeek, якога днямі назвалі «забойцай ChatGPT», паказаў 9,4% дакладнасці адказаў.

Вынікі праходжання «Апошняга экзамена чалавецтва» (HLE) у шэрагу топавых нейрасетак. Усе яны з трэскам правалілі тэст (узровень правільнасці адказаў складаў ад 3 да 13 адсоткаў), а найлепшы вынік паказала новая версія ChatGPT пад назвай o3-mini (high), якая выйшла днямі. Крыніца: agi.safe.ai

Таксама паказальна, што існуючыя складаныя глабальныя тэсты на навуковыя веды, такія як GPQA, MATH і MMLU, даваліся вышэйпералічаным нейрасеткам нашмат лягчэй, і тыя мелі ў іх ад 40 да амаль 100 адсоткаў правільных адказаў.

Аднак цяпер са стварэннем тэста HLE чалавецтва кінула штучнаму інтэлекту вельмі сур'ёзны выклік, але ён, як сумна канстатуюць эксперты, можа стаць апошнім. Па прагнозах аўтараў HLE, нейрасеткі могуць дасягнуць у экзамене 50% дакладнасці адказаў ужо ў канцы гэтага года.

Параўнальныя вынікі дакладнасці адказаў некалькіх топавых нейрасетак у існуючых глабальных вузка-спецыялізаваных тэстах GPQA, MATH і MMLU. З «Апошнім экзаменам чалавецтва» (HLE) у сістэм штучнага інтэлекту пакуль усё дрэнна. Крыніца: agi.safe.ai

Чытайце яшчэ

Каментары4

Жвір

03.02.2025

А может они и правы, они же машины, видят суть без искажений. Вот попросите ши нарисовать звёздное небо, уверен, что оно будет иным. Люди в основном много видят того, чего нет.
не такі, як ёсць

03.02.2025

Лічбавыя вынікі выпрабавання HLE паказваюць, што кітайскі ‘’забойца GPT” быў спісаны з сярэдняй о1 чата GPT
Хех

03.02.2025

Жвір ,
Трудно сказать, что они там видят.
Никто исчерпывающе не представляет ход рассуждений ИИ.

Управление и цензура в основном заключается в запрещении тех или иных действий, ответов, реакций.

Нецензурированный ИИ вполне может дать ответ "убить всех больных" на вопрос "как сделать всех здоровыми"
И разве ответ неправильный?

У Маскве падарвалі прарасійскага аўтарытэта з Данбаса, які арганізоўваў цітушак1

Светдапоўнена1

У Маскве падарвалі прарасійскага аўтарытэта з Данбаса, які арганізоўваў цітушак

З беларускай Марыяй Зайцавай, якая загінула на фронце ва Украіне, развіталіся ў Кіеве1 1

Гэтыя джынсы будуць сёлета самымі моднымі2 2

Прадзюсар тэлешоу на БТ паехаў у Польшчу па натхненне5 5

У Жыткавічах у галаве 10-гадовага хлопчыка знайшлі дзве дзіркі1 1

У цэнтры Мінска выцягнулася вялізная чарга ФОТАФАКТ5 5

У цэнтры Мінска выцягнулася вялізная чарга ФОТАФАКТ5

Беларуска не знайшла сябе ў спісе выпускнікоў школы — лічыць, што праз палітычныя погляды3 3

Беларуска не знайшла сябе ў спісе выпускнікоў школы — лічыць, што праз палітычныя погляды3

Памёр Аляксандр Машэўскі

Памёр Аляксандр Машэўскі

Стала вядома, за што будуць судзіць першага намесніка начальніка Кіраўніцтва справамі Лукашэнкі7 7

Стала вядома, за што будуць судзіць першага намесніка начальніка Кіраўніцтва справамі Лукашэнкі7

Расія пастрожыла прыём таджыкаў пасля «Крокуса», дык яны цяпер спрабуюць у абыход — праз Беларусь1 1

Расія пастрожыла прыём таджыкаў пасля «Крокуса», дык яны цяпер спрабуюць у абыход — праз Беларусь1

Былы камандзір Палка Каліноўскага Дзяніс «Кіт» Прохараў расказвае, чым цяпер займаецца60 60

Былы камандзір Палка Каліноўскага Дзяніс «Кіт» Прохараў расказвае, чым цяпер займаецца60

Трамп паабяцаў увесці мыты на тавары з ЕС8 8

Трамп паабяцаў увесці мыты на тавары з ЕС8

Пяць частых памылак пры падачы на візу

Пяць частых памылак пры падачы на візу

У Жлобінскім раёне прагрымеў выбух. Загінулі тата і двое маленькіх дзяцей1 1

У Жлобінскім раёне прагрымеў выбух. Загінулі тата і двое маленькіх дзяцей1

«Адчуваю сябе як у турме, толькі на працу ходзіш». Маналог беларуса, які паехаў на заробкі ў Нідэрланды — і расчараваўся56 56

«Адчуваю сябе як у турме, толькі на працу ходзіш». Маналог беларуса, які паехаў на заробкі ў Нідэрланды — і расчараваўся56

Ці можна абедаць проста на працоўным месцы? Адказ можа вас здзівіць

Ці можна абедаць проста на працоўным месцы? Адказ можа вас здзівіць

Выйшла на свабоду Паліна Шарэнда-Панасюк45 45

Выйшла на свабоду Паліна Шарэнда-Панасюк45

Былы міліцыянер, які працаваў дальнабойшчыкам, вярнуўся ў Беларусь і атрымаў чатыры палітычныя артыкулы2 2

Былы міліцыянер, які працаваў дальнабойшчыкам, вярнуўся ў Беларусь і атрымаў чатыры палітычныя артыкулы2

Зяленскі: Украіна як ніколі блізкая да міру10 10

Зяленскі: Украіна як ніколі блізкая да міру10

Украінскі фільм «2000 метраў да Андрэеўкі» паказаў вайну вачыма байцоў. Некаторыя гінулі ў кадры1 1

Украінскі фільм «2000 метраў да Андрэеўкі» паказаў вайну вачыма байцоў. Некаторыя гінулі ў кадры1

«Без нашай падтрымкі краіна перастане існаваць». Трамп зноў прапанаваў, каб Канада стала 51-м штатам ЗША29 29

«Без нашай падтрымкі краіна перастане існаваць». Трамп зноў прапанаваў, каб Канада стала 51-м штатам ЗША29

Чаму беларускія СМІ пішуць пра добраахвотнікаў столькі, колькі пішуць67 67

Чаму беларускія СМІ пішуць пра добраахвотнікаў столькі, колькі пішуць67

Аднапакаёўку ў Мінску плошчай 26 квадратаў прадаюць ажно за 103 тысячы даляраў20 20

Аднапакаёўку ў Мінску плошчай 26 квадратаў прадаюць ажно за 103 тысячы даляраў20

Беларускае тэлебачанне 90-х: узгадваем яркія праекты і папулярных вядучых12 12

Беларускае тэлебачанне 90-х: узгадваем яркія праекты і папулярных вядучых12

Скандал на абласной алімпіядзе па нямецкай мове. У аддзеле адукацыі адказалі хейтарам36 36

Скандал на абласной алімпіядзе па нямецкай мове. У аддзеле адукацыі адказалі хейтарам36

Усе навіны →

Цяпер чытаюць

У Іспаніі пачалі судзіць экс-прэзідэнта футбольнай федэрацыі, які пацалаваў у вусны футбалістку, чым выклікаў гучны скандал

Стала вядома, колькі будзе каштаваць базавы тэлефонны тарыф

Вайскоўца, асуджанага на 19 гадоў, хочуць перавесці на турэмны рэжым

З беларускай Марыяй Зайцавай, якая загінула на фронце ва Украіне, развіталіся ў Кіеве1

Гэтыя джынсы будуць сёлета самымі моднымі2

Літоўскі завод, што належыць беларусу, нелегальна прадаваў лазеры Расіі

Прадзюсар тэлешоу на БТ паехаў у Польшчу па натхненне5

У Жыткавічах у галаве 10-гадовага хлопчыка знайшлі дзве дзіркі1

У цэнтры Мінска выцягнулася вялізная чарга ФОТАФАКТ5

Былы міліцыянер, які працаваў дальнабойшчыкам, вярнуўся ў Беларусь і атрымаў чатыры палітычныя артыкулы2

Апошнія навіны

Вайскоўца, асуджанага на 19 гадоў, хочуць перавесці на турэмны рэжым

У Мінску аўтамабіль зваліўся ў катлаван

У Мінску могуць з'явіцца беспілотныя трамваі1

Канапацкая назвала сябе апазіцыяй3

Былы гомельскі журналіст і палітвязень Андрэй Толчын на волі

За ініцыятыву па выдачы пашпартоў новай Беларусі ў Літве можа пагражаць крымінальная адказнасць 2