АИ је успео да превари најбоље што човечанство може да понуди након што је открио екплоит у класичној аркадној игри К * берт и трчао с њим.
Иако би раније верзије АИ играле К * берт правилно, у неком тренутку учења свог рада, игра открива екплоит који му омогућава да скупља луде поене. Природно, као што би то учинио сваки играч који лови на резултате, он понавља поступак како би могао да повећа резултат на најефикаснији могући начин.
Можете видети АИ како се креће око платформи на видео снимку испод. У почетку изгледа као да бесциљно скаче између платформи. Уместо да види како се игра напредује у следећу рунду, К * берт се заглавио у петљи у којој све његове платформе почињу да трепере - ту АИ тада може да крене у лудилу резултата скупљајући огромне поене.
ПРОЧИТАЈТЕ ДАЉЕ: Један од најконтроверзнијих записа о играма коначно је дискредитован
како се играти са пријатељима неокренут
Како је АИ победио у К * бертовом рату
Разбијајући досадашњи рекорд у наслову, АИ је постигао невероватно висок резултат захваљујући свом алгоритму еволуционе стратегије алгоритма. Стратегије еволуције (ЕС) разликују се од уобичајеног учења ојачавања (РЛ) које традиционални АИ користи, јер се због свог генерацијског учења сматра скалабилнијим.
Свака петља учења назива се генерацијом и наставља свој задатак све док се не испуни постављени услов (у овом случају висок рејтинг). Са сваком узастопном генерацијом, АИ упија знање претходне генерације и стога је бољи у постизању истог циља и надмашивању. Наставите и на крају ћете добити АИ који је апсолутно без премца у свом задатку. Управо се то овде догодило са К * берт резултатом.
Обрисано у папир , коју су прошле недеље објавили истраживачи са Универзитета у Фреибургу, Немачка, чини се да грешка није позната количина. У ствари, иако нису превише изненађени у проналажењу грешке, занимљиво је видети како је АИ затим напредовао и научио да је користи сваки пут када је играо како би максимализирао свој бодовачки потенцијал.
ПРОЧИТАЈТЕ ДАЉЕ: Ова вештачка интелигенција учи да савлада Супер Марио Брос
Да би пронашао грешку, агент је прво морао да научи да готово заврши први ниво - то није учињено одједном већ је коришћено мноштво малих побољшања, објаснили су истраживачи Регистар . Сумњамо да је у неком тренутку тренинга једно од решења за потомке наишло на грешку и добило много бољи резултат у поређењу са својом браћом и сестрама, што је заузврат повећало његов допринос ажурирању - његова тежина је била највећа у пондерисаној средњој вредности. Ово је полако преселило решење у простор где је све више и више потомака почело да се сусреће са истом бубом.
Не знамо тачно под којим условима се грешка појављује; могуће је да се појави само ако агент следи образац који се чини неоптималним, [на пример када агент губи време или чак губи живот]. Ако је то био случај, онда би стандардном РЛ-у било изузетно тешко пронаћи грешку: ако користите инкременталне награде, научићете стратегије које брзо доносе неку награду, уместо стратегије учења које неко време не доносе много награда и онда изненада победите велике.
Погледајте сродно Драгстер шампион Тодд Рогерс управо је изгубио круну после 35 година Ова вештачка интелигенција већ 17 дана учи да савлада Супер Марио Брос 1-2 Погледајте овај АИ како учите да возите у ГТА В на Твитцх-у
Међутим, упркос дивним резултатима бота, истраживачи не кажу да је ово случај да се завлада ЕС учењем преко РЛ-а. У ствари, оба система имају своје проблеме и комбинација два се углавном сматра најбољом опцијом за напредак.
Иста ЕС метода на другим играма Атари није донела ни приближно исте позитивне резултате. С друге стране, РЛ је одговоран за разбијање рекорда лево, десно и у центар, укључујући победу најбољег светског играча ГО. ЕС ипак још увек има своје место у стварима, и заправо је то како Нвидиа изводи много свог АИ тренинга јер захтева већу рачунску снагу, али постизање бољих резултата током дужег временског периода.
Без обзира на то који ће начин постати будућност за развој АИ, бар овај бот који вара систем није толико лош као овај сада осрамоћени светски шампион у видео играма .