Maailma targema Grok3 testimine

AIPU WATON GROUP (1)

Sissejuhatus

Kas teie arvates saab Grok3-st eelkoolitatud mudelite "lõpp-punkt"?

Elon Musk ja xAI meeskond avalikustasid otseülekande ajal ametlikult Groki uusima versiooni Grok3. Enne seda sündmust tõstis märkimisväärne hulk seotud teavet koos Muski ööpäevaringse reklaamikäraga Grok3 suhtes globaalsed ootused enneolematule tasemele. Vaid nädal tagasi teatas Musk otseülekande ajal DeepSeek R1 kohta kommenteerides enesekindlalt: "xAI on kohe-kohe turule toomas parema tehisintellekti mudeli." Otseülekande andmete põhjal on Grok3 väidetavalt ületanud kõiki praeguseid peavoolumudeleid matemaatika, loodusteaduste ja programmeerimise võrdlusalustes ning Musk väitis isegi, et Grok3 hakatakse kasutama SpaceX-i Marsi missioonidega seotud arvutusülesannete jaoks, ennustades "Nobeli preemia tasemel läbimurdeid kolme aasta jooksul". Praegu on need aga vaid Muski väited. Pärast turuletoomist testisin Grok3 uusimat beetaversiooni ja esitasin suurtele mudelitele klassikalise trikiküsimuse: "Kumb on suurem, 9.11 või 9.9?" Kahjuks ei suutnud niinimetatud kõige targem Grok3 ilma igasuguste täpsustuste või märgistusteta sellele küsimusele ikkagi õigesti vastata. Grok3 ei suutnud küsimuse tähendust täpselt tuvastada.

 

See test äratas kiiresti paljude sõprade tähelepanu ja juhuslikult on mitmed sarnased testid välismaal näidanud, et Grok3-l on raskusi füüsika/matemaatika põhiküsimustega, näiteks "Milline pall kukub esimesena Pisa kaldtornist?". Seetõttu on seda humoorikalt tembeldatud kui "geeniust, kes ei soovi lihtsatele küsimustele vastata".

640

Grok3 on hea, aga see pole parem kui R1 või o1-Pro.

Grok3 koges praktikas paljudes üldteadmiste testides "ebaõnnestumisi". xAI käivitamise üritusel demonstreeris Musk Grok3 kasutamist mängu Path of Exile 2 tegelaskujude klasside ja efektide analüüsimiseks, mida ta väitis sageli mängivat, kuid enamik Grok3 antud vastuseid olid valed. Musk otseülekande ajal seda ilmset probleemi ei märganud.

 

See viga mitte ainult ei andnud välismaistele netikasutajatele lisatõendeid Muski pilkamiseks mängude "asendaja leidmise" pärast, vaid tekitas ka märkimisväärset muret Grok3 usaldusväärsuse pärast praktilistes rakendustes. Sellise "geeniuse" puhul, olenemata selle tegelikest võimalustest, on selle usaldusväärsus äärmiselt keerukates rakendusstsenaariumides, näiteks Marsi uurimise ülesannetes, endiselt kaheldav.

 

Praegu viitavad paljud testijad, kes said Grok3-le ligipääsu nädalaid tagasi, ja need, kes testisid mudeli võimekust alles eile paar tundi, ühisele järeldusele: "Grok3 on hea, aga see pole parem kui R1 või o1-Pro."

640 (1)

Kriitiline vaatenurk teemale "Nvidia häirimine"

Ametlikult esitletud PPT-s väljalaske ajal näidati Grok3 olevat Chatbot Arenal "kaugel ees", kuid see kasutas nutikalt graafilisi võtteid: edetabeli vertikaalteljel olid ainult 1400–1300 punkti vahemikus olevad tulemused, mistõttu esialgne 1% erinevus testitulemustes tundub selles esitluses erakordselt oluline.

640

Tegelike mudelite hindamistulemuste põhjal on Grok3 DeepSeek R1-st ja GPT-4.0-st vaid 1-2% ees, mis vastab paljude kasutajate kogemustele praktilistes testides, kus "märkimisväärset erinevust" ei leitud. Grok3 ületab oma järeltulijaid vaid 1-2% võrra.

640

Kuigi Grok3 on saanud kõrgema hinde kui kõik praegu avalikult testitud mudelid, ei võta paljud seda tõsiselt: lõppude lõpuks on xAI-d varem Grok2 ajastul kritiseeritud "skoori manipuleerimise" pärast. Kuna edetabelis karistati vastuse pikkuse stiili, langesid hinded oluliselt, mis pani valdkonna asjatundjad sageli kritiseerima "kõrge hinde, aga madala võimekuse" fenomeni.

 

Olgu tegemist edetabelite „manipuleerimise” või illustratsioonide disainitrikkidega, need paljastavad xAI ja Muski kinnisidee olla mudelite võimekuse osas „eesrindlik”. Musk maksis nende marginaalide eest kõrget hinda: turuletoomise ajal kiitles ta 200 000 H100 GPU kasutamisega (väites otseülekande ajal, et neid on „üle 100 000”) ja saavutas 200 miljoni tunni pikkuse treeningaja. See pani mõned uskuma, et see kujutab endast järjekordset olulist õnnistust GPU-tööstusele ja pidas DeepSeeki mõju sektorile „rumalaks”. Märkimisväärselt usuvad mõned, et tohutu arvutusvõimsus on mudelite treenimise tulevik.

 

Siiski võrdlesid mõned netikasutajad DeepSeek V3 loomiseks 2000 H800 GPU tarbimist kahe kuu jooksul ning arvutasid, et Grok3 tegelik treeningenergia tarbimine on 263 korda suurem kui V3-l. Vahe DeepSeek V3, mis sai 1402 punkti, ja Grok3 vahel on veidi alla 100 punkti. Pärast nende andmete avaldamist said paljud kiiresti aru, et Grok3 tiitli "maailma tugevaim" taga peitub selge piirkasulikkuse efekt – loogika, et suuremad mudelid genereerivad tugevamat jõudlust, on hakanud näitama vähenevat tulu.

640 (2)

Isegi „kõrge punktisumma, aga madala võimekuse” korral oli Grok2-l tohutul hulgal kvaliteetseid esimese osapoole andmeid X (Twitter) platvormilt, mis toetasid kasutamist. Grok3 treenimisel kohtas xAI aga loomulikult OpenAI praegust „lage” – esmaklassiliste treeningandmete puudumine paljastas kiiresti mudeli võimete piiratud kasulikkuse.

 

Grok3 arendajad ja Musk on tõenäoliselt esimesed, kes neid fakte sügavuti mõistavad ja tuvastavad, mistõttu Musk on sotsiaalmeedias pidevalt maininud, et versioon, mida kasutajad praegu kogevad, on "veel alles beetaversioon" ja et "täisversioon avaldatakse lähikuudel". Musk on võtnud Grok3 tootejuhi rolli, soovitades kasutajatel anda kommentaaride osas tagasisidet erinevate tekkinud probleemide kohta. Ta võib olla maailma enim jälgitud tootejuht.

 

Kuid Grok3 jõudlus tekitas ühe päeva jooksul kahtlemata ärevust neile, kes lootsid tugevamate suurte mudelite treenimiseks loota "massiivsele arvutuslikule jõule": avalikult kättesaadava Microsofti teabe põhjal on OpenAI GPT-4 parameetri suurus 1,8 triljonit parameetrit, mis on üle kümne korra suurem kui GPT-3-l. Kuulujutud viitavad sellele, et GPT-4.5 parameetri suurus võib olla veelgi suurem.

 

Mudeli parameetrite suuruste hüppelise kasvuga kerkivad ka koolituskulud järsult. Grok3 tulekuga peavad sellised konkureerivad ettevõtted nagu GPT-4.5 ja teised, kes soovivad parameetrite suuruse abil parema mudeli jõudluse saavutamiseks jätkuvalt „raha põletada“, arvestama nüüd selgelt nähtava laega ja kaaluma, kuidas sellest üle saada. Praegusel hetkel oli OpenAI endine peateadlane Ilja Sutskever eelmise aasta detsembris öelnud: „Meile tuttav eelkoolitus saab läbi“, mis on aruteludes taas pinnale kerkinud, ajendades püüdma leida õige tee suurte mudelite koolitamiseks.

640 (3)

Ilja seisukoht on tööstuses häirekella löönud. Ta nägi täpselt ette kättesaadavate uute andmete peatset ammendumist, mis viib olukorrani, kus jõudlust ei saa enam andmete hankimise abil parandada, võrreldes seda fossiilkütuste ammendumisega. Ta märkis, et "nagu nafta, on ka inimeste loodud sisu internetis piiratud ressurss". Sutskeveri ennustuste kohaselt on järgmise põlvkonna mudelitel pärast eelkoolitust "tõeline autonoomia" ja arutlusvõime, mis on "sarnane inimajuga".

 

Erinevalt tänapäevastest eelkoolitatud mudelitest, mis tuginevad peamiselt sisu sobitamisele (eelnevalt õpitud mudeli sisu põhjal), suudavad tulevased tehisintellekti süsteemid õppida ja luua meetodeid probleemide lahendamiseks viisil, mis sarnaneb inimaju "mõtlemisele". Inimene saab aines fundamentaalse vilumuse saavutada vaid põhilise erialase kirjandusega, samas kui tehisintellekti suurmudel vajab miljoneid andmepunkte, et saavutada kõige elementaarsem algtaseme efektiivsus. Isegi kui sõnastust veidi muuta, ei pruugita neid põhiküsimusi õigesti mõista, mis näitab, et mudel ei ole intelligentsuse osas tegelikult paranenud: artikli alguses mainitud põhilised, kuid lahendamatud küsimused on selle nähtuse selge näide.

微信图片_20240614024031.jpg1

Kokkuvõte

Kuid peale jõuvõtete, kui Grok3-l õnnestub tõepoolest tööstusele avaldada, et "eelkoolitatud mudelid lähenevad oma lõpule", oleks sellel valdkonnale märkimisväärne mõju.

Võib-olla pärast Grok3 ümber käiva hulluse järkjärgulist vaibumist näeme rohkem selliseid juhtumeid nagu Fei-Fei Li näide "kõrgjõudlusega mudelite häälestamisest konkreetse andmestiku põhjal vaid 50 dollari eest", avastades lõpuks tõelise tee üldise tehisintellektini.

Leidke ELV kaablilahendus

Juhtkaablid

BMS-i, bussi-, tööstus- ja instrumenteerimiskaabli jaoks.

Struktureeritud kaabeldussüsteem

Võrk ja andmeside, kiudoptiline kaabel, ühenduskaabel, moodulid, esiplaat

2024. aasta näituste ja ürituste ülevaade

16.–18. aprill 2024 Lähis-Ida energiamess Dubais

16.-18. aprill 2024 Securika Moskvas

9. mail 2024 toimus Shanghais uute toodete ja tehnoloogiate esitlusüritus

22.–25. oktoober 2024 SECURITY CHINA Pekingis

19.–20. november 2024 CONNECTED WORLD KSA


Postituse aeg: 19. veebruar 2025