Deepseek: häiriv AI maastik

Aipu Watoni grupp

Sissejuhatus

Pidev ärevus konkureerivate suurte mudelite seas, turuosa nimel konkureerivad pilveteenuse pakkujad ja töökad kiipi tootjad - DeepSeee'i efekt püsib.

Kui kevadfestival lõppeb, on Deepseeki ümbritsev elevus tugev. Hiljutine puhkus tõi välja olulise konkurentsi tunnet tehnikatööstuses, paljud arutasid ja analüüsisid seda "säga". Silicon Valley kogeb enneolematut kriisitunnet: avatud lähtekoodiga pooldajad avaldavad taas oma arvamust ja isegi OpenAi hindab uuesti, kas selle suletud lähtekoodi strateegia oli parim valik. Uus madalamate arvutuskulude paradigma on käivitanud ahelreaktsiooni kiibid hiiglasi nagu NVIDIA, mille tulemusel on USA aktsiaturu ajaloos ühepäevane turuväärtuse kahjum rekordiliselt, samal ajal kui valitsusasutused uurivad Deepseeki kasutatavate kiipide järgimist. Deepseeki välismaalt segatud ülevaated, kodumaal on see erakordne kasv. Pärast R1 mudeli käivitamist on Associated App näinud liikluse kasvu, mis näitab, et rakendussektorite kasv juhib AI üldist ökosüsteemi edasi. Positiivne aspekt on see, et Deepseek laiendab rakendusvõimalusi, viidates sellele, et ChatGPT -le tuginemine ei ole tulevikus nii kallis. See nihe on kajastunud OpenAi hiljutistes tegevustes, sealhulgas O3-Mini nimega Põhjemudeli pakkumine tasuta kasutajatele vastusena Deepseek R1-le, samuti sellele järgnenud versiooniuuendused, mis tegid O3-mini avaliku avaliku mõtteahela. Paljud ülemeremaade kasutajad avaldasid nende arengute eest tänu Deepseekile, ehkki see mõttekett on kokkuvõte.

Optimistlikult on ilmne, et Deepseek ühendab kodumaiseid mängijaid. Keskendudes treeningkulude vähendamisele, liituvad ökosüsteemiga aktiivselt mitmesugused ülesvoolu kiibitootjad, vahepealsed pilveteenuse pakkujad ja arvukad idufirmad, suurendades Deepseeki mudeli kasutamisel kulutõhusust. Deepseeki paberite kohaselt nõuab V3 mudeli täielik koolitus ainult 2,788 miljonit H800 GPU tundi ja treeningprotsess on väga stabiilne. MOE (ekspertide segu) arhitektuur on ülioluline, et vähendada koolituseelseid kulusid kümne võrra võrreldes 305 miljardi parameetriga 3 405 miljardi laamaga. Praegu on V3 esimene avalikult tunnustatud mudel, mis näitab MOE -s nii suurt hõredust. Lisaks töötab MLA (mitmekihiline tähelepanu) sünergistlikult, eriti mõttekäikudes. "Mida hõredam on MOE, seda suurem on arvutusliku võimsuse täielikuks kasutamiseks vajalik partii suurus, kuna peamine piirav tegur on kvcache suurus; MLA vähendab oluliselt Kvcache'i suurust," märkis Chuanjingi tehnoloogia teadlane AI tehnoloogia ülevaate analüüsis. Üldiselt seisneb Deepseeki edu erinevate tehnoloogiate, mitte ainult ühe tehnoloogia kombinatsioonis. Tööstusharu siseringid kiidavad Deepseeki meeskonna insenerivõimalusi, märkides nende tipptasemel paralleelse väljaõppe ja operaatori optimeerimise, saavutades murrangulised tulemused, täpsustades kõiki detaile. Deepseeki avatud lähtekoodiga lähenemisviis õhutab veelgi suurte mudelite üldist arengut ja eeldatakse, et kui sarnased mudelid laienevad piltideks, videoteks ja muuks, stimuleerib see oluliselt nõudlust kogu tööstuses.

Kolmandate osapoolte mõttekäikude võimalused

Andmed näitavad, et alates selle ilmumisest on Deepseek kogunenud 22,15 miljonit igapäevast aktiivset kasutajat (DAU) vaid 21 päeva jooksul, saavutades 41,6% ChatGPT kasutajabaasist ja ületades 16,95 miljonit Doubao igapäevast aktiivset kasutajat, saades seeläbi kiireima kasvava rakenduse, lisades Apple'i rakenduse kaupluse 157 riigi/piirkondades. Kuigi kasutajad karjusid droves, on küberhäkkerid rünnanud Deepseeki rakendust järeleandmatult, põhjustades selle serveritele märkimisväärset koormust. Tööstusharu analüütikud usuvad, et see on osaliselt tingitud Deepseeki väljaõppekaartide juurutamisest, ilma et neil puudub piisav arvutusvõimsus mõttekäikude jaoks. Tööstusharu sisering teatas AI -tehnoloogia ülevaatele: "Sagedasi serveriprobleeme saab hõlpsalt lahendada, võttes tasusid või rahastades rohkem masinate ostmist; lõppkokkuvõttes sõltub see Deepseeki otsustest." See kujutab endast kompromissi tehnoloogiale ja produtseerimisele keskendumisel. Deepseek on suures osas tuginenud enesekindluse kvant kvant kvant kvant kvantitatsioonile, saades vähe väliseid rahalisi vahendeid, mille tulemuseks on suhteliselt madal rahavoogude rõhk ja puhtama tehnoloogiline keskkond. Praegu kutsuvad mõned kasutajad ülalnimetatud probleeme silmas pidades sotsiaalmeedias Deepseeki üles tõstma kasutuslävesid või tutvustama tasulisi funktsioone, et parandada kasutaja mugavust. Lisaks on arendajad hakanud optimeerimiseks kasutama ametlikke API või kolmanda osapoole API-sid. Siiski teatas Deepseeki avatud platvorm hiljuti: "Praeguseid serveriressursse on vähe ja API -teenuse laadimine on peatatud."

 

See avab kahtlemata rohkem võimalusi AI infrastruktuuri sektoris kolmandate osapoolte müüjatele. Hiljuti on Deepseeki mudeli API -sid käivitanud arvukalt kodumaiseid ja rahvusvahelisi pilvehiiglasi - Overseasse hiiglased Microsoft ja Amazon olid esimeste seas, kes jaanuari lõpus ühinesid. Kodumaine juht Huawei Cloud tegi esimese käigu, vabastades 1. veebruaril Deepseek R1 ja V3 arutlusteenused koostöös Siliconipõhise vooluga. AI-tehnoloogia ülevaate aruanded näitavad, et Silicon-põhised Flow teenused on kasutanud kasutajate sissevoolu, mis on tegelikult "platvormi krahh". Kolm suurt tehnoloogiaettevõtet-BAT (Baidu, Alibaba, Tencent) ja Bytedance-andsid välja ka odavaid ja piiratud ajalisi pakkumisi, mis algavad 3. veebruaril, meenutades eelmise aasta pilvemüüja Price Warsit, mida süttis Deepseeki V2 mudeli käivitamine, kus Deepseek hakkas dubleerima "Hind Butcher". Pilvemüüjate meeletu tegevus kajastavad varasemaid tugevaid sidemeid Microsoft Azure'i ja OpenAi vahel, kus 2019. aastal tegi Microsoft märkimisväärselt miljardi dollari suuruse investeeringu OpenAisse ja sai kasu pärast ChatGPT-i turuletoomist 2023. aastal. See lähedased suhted hakkasid aga pärast Meta Open-lema, mis võimaldas teistel Microsofti Azure'i mudelitel toimuvaid meta-lemasid. Sel juhul pole Deepseek mitte ainult ületanud ChatGPT-i tootekuumuse osas, vaid on ka O1 väljaande järel kasutusele võtnud avatud lähtekoodiga mudelid, mis sarnaneb põnevusega, mis ümbritseb Llama taaselustamist GPT-3.

 

Tegelikult positsioneerivad pilveteenuse pakkujad end ka AI -rakenduste liiklusväravatena, mis tähendab, et arendajatega seotud sidemed tähendavad ennetavaid eeliseid. Aruanded näitavad, et Baidu Smart Cloudil oli Qianfani platvormi kaudu mudeli käivituspäeval üle 15 000 kliendi, kes kasutas Deepseeki mudelit. Lisaks pakuvad mitmed väiksemad ettevõtted lahendusi, sealhulgas ränipõhine voog, Luchen Technology, Chuanjingi tehnoloogia ja erinevad AI infraanteenuse pakkujad, kes on käivitanud tuge Deepseeeki mudelitele. AI Technology Review on õppinud, et praegused optimeerimisvõimalused Deepseeki lokaliseeritud juurutamiseks eksisteerivad peamiselt kahes valdkonnas: üks on optimeerimine MOE mudeli hõredaid omadusi, kasutades segatud mõttekäiku, et juurutada 671 miljardit parameetri MOE mudelit lokaalselt, kasutades samal ajal hübriid GPU/CPU -d. Lisaks on MLA optimeerimine ülioluline. Deepseeki kaks mudelit seisavad aga kasutuselevõtu optimeerimisel endiselt silmitsi. "Mudeli suuruse ja arvukate parameetrite tõttu on optimeerimine tõepoolest keeruline, eriti kohalike juurutuste puhul, kus optimaalse tasakaalu saavutamine jõudluse ja kulude vahel on keeruline," ütles Chuanjingi tehnoloogia teadlane. Kõige olulisem takistus seisneb mälumahu piiridest ülesaamisel. "Me võtame kasutusele heterogeense koostöö lähenemisviisi protsessori ja muude arvutusressursside täielikuks kasutamiseks, pannes CPU/DRAM-i jaoks ainult Surse Moe maatriksi mittejagamata osad töötlemiseks, kasutades suure jõudlusega CPU operaatoreid, samal ajal kui tihedad portsjonid püsivad GPU-l," selgitas ta edasi. Aruanded näitavad, et Chuanjingi avatud lähtekoodiga raamistik Ktransformerid süstivad peamiselt malli kaudu erinevaid strateegiaid ja operaatoreid, suurendades oluliselt järelduste kiirust, kasutades selliseid meetodeid nagu Cudagraph. Deepseek on loonud nendele idufirmadele võimalusi, kuna kasvuhüvitised ilmnevad; Paljud ettevõtted on pärast Deepseek API käivitamist teatanud märgatavast kliendi kasvust, saades varasematelt klientidelt päringuid optimeerimist otsima. Tööstusharu siseringid on märkinud: "Varem lukustati mõnevõrra väljakujunenud kliendigrupid sageli suuremate ettevõtete standardiseeritud teenustesse, mis olid tihedalt seotud nende kulude eelistega. Kuid pärast DeepSEEK-R1/V3 juurutamist enne kevadist festivali lõppu saime äkitselt koostöötaotlused mitmetelt tuntud klientidelt ja isegi varem Dormanti klientidelt oma DeepEk-teenuste koostamisega." Praegu näib, et Deepseek muudab mudeli järelduste tulemuslikkuse üha kriitilisemaks ja suurte mudelite laiema kasutuselevõtuga mõjutab see AI infratööstuse arengut märkimisväärselt. Kui sügava taseme mudelit saaks kohapeal madala hinnaga kasutada, aitaks see oluliselt valitsuse ja ettevõtte digitaalsete ümberkujundamise jõupingutusi. Kuid väljakutsed püsivad, kuna mõnel kliendil võivad olla suured ootused suure mudeli võimaluste osas, mistõttu on ilmsem, et jõudluse ja kulude tasakaalustamine muutub praktilise kasutuselevõtu jaoks oluliseks. 

Hinnata, kas Deepseek on parem kui Chatgpt, on oluline mõista nende peamisi erinevusi, tugevusi ja kasutamist. Siin on põhjalik võrdlus:

Funktsioon/aspekt Sügavkülg Vestlus
Omandiõigus Välja töötanud Hiina ettevõte Välja töötanud OpenAi
Lähtemudel Avatud lähtekood Omanik
Maksumus Tasuta kasutada; odavamad API juurdepääsu valikud Tellimus- või tasulise kasutamise hinnakujundus
Kohandamine Väga kohandatav, võimaldades kasutajatel seda näpistada ja tugineda Saadaval on piiratud kohandamine
Jõudlus konkreetsetes ülesannetes Paistab silma teatud valdkondades, näiteks andmeanalüütika ja teabe otsimine Mitmekülgne tugeva esinemisega loomingulise kirjutamise ja vestlusülesannete osas
Keeletoetus Tugev keskendumine hiina keelele ja kultuurile Lai keeletoetus, kuid USA-keskne
Koolituskulud Madalamad koolituskulud, optimeeritud tõhususe tagamiseks Suuremad koolituskulud, nõudes olulisi arvutusressursse
Reageerimise variatsioon Võib pakkuda erinevaid vastuseid, mida võib mõjutada geopoliitiline kontekst Koolitusandmete põhjal järjepidevad vastused
Sihtrühm Suunatud arendajatele ja teadlastele, kes soovivad paindlikkust Suunatud üldkasutajatele, kes otsivad vestlusvõimalusi
Kasutusjuhtumid Koodide genereerimiseks ja kiirete ülesannete jaoks tõhusam Ideaalne teksti genereerimiseks, küsimustele vastamiseks ja dialoogi tegemiseks

Kriitiline perspektiiv "NVIDIA häirimisel"

Praegu, peale Huawei, kohanevad ka mitmed kodumaised kiipi tootjad, nagu Moore Threads, Muxi, Birani tehnoloogia ja Tianxu Zhixin, ka Deepseeki kahe mudeliga. Kiibi tootja ütles AI Technology Review'ile: "Deepseeki struktuur näitab innovatsiooni, kuid see on endiselt LLM. Meie kohanemine Deepseekiga on keskendunud peamiselt mõttekäikudele, muutes tehnilise rakenduse üsna sirgjooneliseks ja kiireks." MOE lähenemisviis nõuab siiski suuremaid nõudmisi ladustamise ja levitamise osas koos kodumaiste kiipidega juurutamisel ühilduvuse tagamisega, esitades arvukalt tehnilisi väljakutseid, mis vajavad kohanemise ajal lahendamist. "Praegu ei vasta kodumaine arvutusjõud NVIDIA kasutatavuse ja stabiilsuse poolest, nõudes tehase algset osalust tarkvarakeskkonna seadistamiseks, tõrkeotsinguks ja aluste jõudluse optimeerimiseks," ütles tööstusharu praktik praktiliste kogemuste põhjal. Samal ajal, "Deepseek R1 suure parameetri skaala tõttu nõuab kodumaine arvutusvõimsus rohkem paralleelseks sõlme. Lisaks on kodumaised riistvara spetsifikatsioonid endiselt mõnevõrra maha jäänud; näiteks ei saa Huawei 910B praegu toetada FP8 järeldust, mida DeepSEEK -i kasutusele võetakse." Deepseek V3 mudeli üks tipphetki on FP8 segatud täpse treeningraamistiku kasutuselevõtt, mis on tõhusalt valideeritud äärmiselt suure mudeli jaoks, tähistades olulist saavutust. Varem soovitasid suuremad mängijad nagu Microsoft ja Nvidia seotud tööd, kuid kahtlused jäävad tööstuses teostatavuse osas. On arusaadav, et võrreldes INT8-ga on FP8 peamine eelis, et treeningujärgne kvantimine võib saavutada peaaegu kadudeta täpsuse, suurendades samas oluliselt järelduste kiirust. FP16 -ga võrreldes suudab FP8 realiseerida kuni kaks korda kiirendust NVIDIA H20 ja H100 -l üle 1,5 -kordse kiirenduse. Nimelt on üha enam levinud, kuna kodumaise arvutusvõimsuse suundumused pluss kodumaised mudelid pluss kodumaised mudelid on hoogu, kas NVIDIA võib häirida ja kas Cuda vallikraavist mööda minna. Üks vaieldamatu fakt on see, et Deepseek on tõepoolest põhjustanud Nvidia turuväärtuse märkimisväärse languse, kuid see nihe tõstatab küsimusi Nvidia tipptasemel arvutusliku energia terviklikkuse kohta. Varem aktsepteeritud narratiivid, mis käsitlevad kapitalipõhist arvutuslikku akumulatsiooni, on vaidlustatud, kuid NVIDIA-l on koolitusstsenaariumides endiselt keeruline. Deepseeki sügava kasutamise CUDA analüüs näitab, et paindlikkus - näiteks SM -i kasutamine suhtlemiseks või otsevõrgukaartidega manipuleerimiseks - ei ole teostatav tavaliste GPU -de jaoks. Tööstusharu vaatepunktid rõhutavad, et Nvidia vallikraav hõlmab kogu CUDA ökosüsteemi, mitte ainult CUDA ise, ja PTX (paralleelse lõime täitmise) juhised, mida Deepseek kasutab, on endiselt osa CUDA ökosüsteemist. "Lühiajaliselt ei saa Nvidia arvutuslikku võimsust mööda minna - see on eriti selge koolitusel; kodumaiste kaartide põhjendamisel on aga suhteliselt lihtsam, nii et edusammud on tõenäoliselt kiirem. Kodumaiste kaartide kohandamine keskendub peamiselt järeldustele; keegi pole veel suutnud koolitada Deepseeki tulemusi kodumaiseid kaarte skaalal," tööstusanalüüs, "An Technolost Reveers. Üldiselt julgustavad järelduste seisukohast asjaolud kodumaiste suurte mudelilaastude jaoks olukorrad. Kodumaiste kiipide tootjate võimalused järelduste valdkonnas ilmnevad rohkem koolituse liiga kõrgete nõuete tõttu, mis takistavad sisenemist. Analüütikud väidavad, et lihtsalt kodumaiste järelduskaartide kasutamisest piisab; Vajadusel on täiendava masina omandamine teostatav, samal ajal kui treeningmudelid kujutavad ainulaadseid väljakutseid - suurenenud masinate haldamine võib muutuda koormavaks ja kõrgemad veamäärad võivad koolitustulemusi negatiivselt mõjutada. Treeningul on ka konkreetsed klastri skaala nõuded, samas kui klastrite nõudmised järeldamiseks pole nii ranged, leevendades seega GPU nõudeid. Praegu ei ületa Nvidia ühe H20 kaardi jõudlus Huawei ega Cambriani jõudlust; Selle tugevus seisneb klastris. Tuginedes üldisele mõjule arvutusliku energiaturule, Luchen Technology asutaja Yang, märgite intervjuus AI Technology Review'ile, "Deepseek võib ajutiselt õõnestada ülikergete koolituste arvutusliku klastrite loomist ja rentimist. Pikas perspektiivis, vähendades märkimisväärselt suuremat mudelitreeningut, mis on seetõttu, et see surub, on see, et see surub seetõttu, et see surub ASE-dega. Nõudlus arvutusliku energiaturul. " Lisaks on "Deepseeki kõrgendatud nõudlus mõttekäikude ja peenhäälestamise teenuste järele, ühilduvad rohkem kodumaise arvutusmaastikuga, kus kohalikud võimed on suhteliselt nõrgad, aidates leevendada jäätmeid jõudeolevate ressursside pärast klastrijärgsest asutamisest; see loob tootjatele elujõulisi võimalusi kodumaise arvutusliku ökosüsteemi erinevatel tasanditel." Luchen Technology on teinud koostööd Huawei Cloud'iga, et käivitada Deepseek R1 seeria mõttekäik API -de ja pilvepilditeenused, mis põhinevad kodumaisel arvutusvõimsusel. Teie Yang väljendas tuleviku suhtes optimismi: "Deepseek sisendab usaldust kodumaal toodetud lahendustesse, julgustades suuremat entusiasmi ja investeeringuid sisemisse arvutusvõimalustesse."

微信图片 _20240614024031.jpg1

Järeldus

Kas Deepseek on "parem" kui ChatGpt, sõltub kasutaja konkreetsetest vajadustest ja eesmärkidest. Paindlikkust, odavat ja kohandamist vajavate ülesannete korral võib DeepSEEK olla parem. Loomingulise kirjutamise, üldise uurimise ja kasutajasõbralike vestlusliideste jaoks võivad ChatGpt juhtida. Iga tööriist teenib erinevaid eesmärke, nii et valik sõltub suuresti nende kasutamise kontekstist.

Leidke ELV kaablilahendus

Juhtimiskaablid

BMS, bussi, tööstusliku, mõõteriistakaabli jaoks.

Struktureeritud kaabeldussüsteem

Võrk ja andmed, kiudoptiline kaabel, plaastri nööri, moodulid, esiplaat

2024 näitused ja üritused ülevaade

16.-18. Aprill 2024 Dubais kesk-Ida-energia

16.-18. aprill 2024 Securika Moskvas

9. mai, 2024 Uued tooted ja tehnoloogiad käivitavad Shanghais

Oktoober22.-25

19.-20. November 2024 ühendatud maailm KSA


Postiaeg: 10. veebruar 20125