Cyflwyniad

Ydych chi'n meddwl mai Grok3 fydd "pwynt terfyn" modelau sydd wedi'u hyfforddi ymlaen llaw?

Lansiodd Elon Musk a thîm xAI fersiwn ddiweddaraf Grok, Grok3, yn swyddogol yn ystod darllediad byw. Cyn y digwyddiad hwn, cododd llawer iawn o wybodaeth gysylltiedig, ynghyd â hype hyrwyddo 24/7 Musk, ddisgwyliadau byd-eang ar gyfer Grok3 i lefelau digynsail. Wythnos yn ôl, dywedodd Musk yn hyderus yn ystod darllediad byw wrth wneud sylwadau ar DeepSeek R1, "mae xAI ar fin lansio model AI gwell." O'r data a gyflwynwyd yn fyw, mae Grok3 wedi rhagori ar bob model prif ffrwd cyfredol mewn meincnodau ar gyfer mathemateg, gwyddoniaeth a rhaglennu, gyda Musk hyd yn oed yn honni y bydd Grok3 yn cael ei ddefnyddio ar gyfer tasgau cyfrifiadurol sy'n gysylltiedig â theithiau SpaceX i'r blaned Mawrth, gan ragweld "datblygiadau arloesol ar lefel Gwobr Nobel o fewn tair blynedd." Fodd bynnag, dim ond honiadau Musk yw'r rhain ar hyn o bryd. Ar ôl y lansiad, profais y fersiwn beta ddiweddaraf o Grok3 a gofynnais y cwestiwn tric clasurol ar gyfer modelau mawr: "Pa un sy'n fwy, 9.11 neu 9.9?" Yn anffodus, heb unrhyw gymwysyddion na marciau, ni allai'r Grok3 mwyaf clyfar fel y'i gelwir ateb y cwestiwn hwn yn gywir o hyd. Methodd Grok3 â nodi ystyr y cwestiwn yn gywir.

Denodd y prawf hwn sylw sylweddol gan lawer o ffrindiau yn gyflym, ac yn gyd-ddigwyddiadol, mae amryw o brofion tebyg dramor wedi dangos bod Grok3 yn cael trafferth gyda chwestiynau ffiseg/mathemateg sylfaenol fel "Pa bêl sy'n disgyn gyntaf o Dŵr Pisa?" Felly, mae wedi cael ei labelu'n ddoniol fel "athrylith sy'n amharod i ateb cwestiynau syml."

Mae Grok3 yn dda, ond nid yw'n well na R1 nac o1-Pro.

Profodd Grok3 "fethiannau" ar lawer o brofion gwybodaeth gyffredin wrth ymarfer. Yn ystod digwyddiad lansio xAI, dangosodd Musk ddefnyddio Grok3 i ddadansoddi'r dosbarthiadau cymeriad ac effeithiau o'r gêm Path of Exile 2, yr oedd yn honni ei fod yn ei chwarae'n aml, ond roedd y rhan fwyaf o'r atebion a ddarparwyd gan Grok3 yn anghywir. Ni sylwodd Musk yn ystod y ffrydio byw ar y broblem amlwg hon.

Nid yn unig y rhoddodd y camgymeriad hwn dystiolaeth bellach i ddefnyddwyr rhyngrwyd tramor wneud hwyl am Musk am "ddod o hyd i ddewis arall" mewn gemau, ond cododd bryderon sylweddol hefyd ynghylch dibynadwyedd Grok3 mewn cymwysiadau ymarferol. Ar gyfer "athrylith" o'r fath, waeth beth fo'i alluoedd gwirioneddol, mae ei ddibynadwyedd mewn senarios cymwysiadau hynod gymhleth, fel tasgau archwilio Mawrth, yn parhau i fod dan amheuaeth.

Ar hyn o bryd, mae llawer o brofwyr a gafodd fynediad i Grok3 wythnosau yn ôl, a'r rhai a brofodd alluoedd y model am ychydig oriau ddoe, i gyd yn pwyntio at gasgliad cyffredin: "Mae Grok3 yn dda, ond nid yw'n well na R1 nac o1-Pro."

Persbectif Beirniadol ar "Amharu ar Nvidia"

Yn y PPT a gyflwynwyd yn swyddogol yn ystod y datganiad, dangoswyd bod Grok3 “ymhell ar y blaen” yn yr Arena Chatbot, ond defnyddiodd hyn dechnegau graffig yn glyfar: dim ond canlyniadau yn yr ystod sgôr 1400-1300 a restrwyd gan yr echelin fertigol ar y bwrdd arweinwyr, gan wneud i'r gwahaniaeth gwreiddiol o 1% yng nghanlyniadau'r prawf ymddangos yn eithriadol o arwyddocaol yn y cyflwyniad hwn.

Mewn canlyniadau sgorio model gwirioneddol, dim ond 1-2% sydd o flaen DeepSeek R1 a GPT-4.0 sydd Grok3, sy'n cyfateb i brofiadau llawer o ddefnyddwyr mewn profion ymarferol a ganfu "dim gwahaniaeth amlwg." Dim ond 1%-2% y mae Grok3 yn rhagori ar ei olynwyr.

Er bod Grok3 wedi sgorio'n uwch na'r holl fodelau sydd wedi'u profi'n gyhoeddus ar hyn o bryd, nid yw llawer yn cymryd hyn o ddifrif: wedi'r cyfan, mae xAI wedi cael ei feirniadu o'r blaen am "drin sgoriau" yn oes Grok2. Wrth i'r bwrdd arweinwyr gosbi arddull hyd atebion, gostyngodd y sgoriau'n fawr, gan arwain pobl o fewn y diwydiant i feirniadu'r ffenomen "sgorio uchel ond gallu isel" yn aml.

Boed drwy "drin" y bwrdd arweinwyr neu driciau dylunio mewn darluniadau, maent yn datgelu xAI ac obsesiwn Musk â'r syniad o "arwain y pecyn" mewn galluoedd modelu. Talodd Musk bris serth am yr ymylon hyn: yn ystod y lansiad, ymffrostiodd o ddefnyddio 200,000 o GPUau H100 (gan honni "dros 100,000" yn ystod y darllediad byw) a chyflawni cyfanswm amser hyfforddi o 200 miliwn awr. Arweiniodd hyn rai i gredu ei fod yn cynrychioli bendith sylweddol arall i'r diwydiant GPU ac i ystyried effaith DeepSeek ar y sector fel "ffôl." Yn nodedig, mae rhai'n credu mai pŵer cyfrifiadurol pur fydd dyfodol hyfforddiant modelu.

Fodd bynnag, cymharodd rhai defnyddwyr y rhyngrwyd ddefnydd 2000 o GPUs H800 dros ddau fis i gynhyrchu DeepSeek V3, gan gyfrifo bod defnydd pŵer hyfforddi gwirioneddol Grok3 263 gwaith yn fwy na V3. Mae'r bwlch rhwng DeepSeek V3, a sgoriodd 1402 pwynt, a Grok3 ychydig o dan 100 pwynt. Yn dilyn rhyddhau'r data hwn, sylweddolodd llawer yn gyflym fod effaith cyfleustodau ymylol glir y tu ôl i deitl Grok3 fel "cryfaf y byd"—mae'r rhesymeg bod modelau mwy yn cynhyrchu perfformiad cryfach wedi dechrau dangos enillion sy'n lleihau.

Hyd yn oed gyda "sgoriau uchel ond gallu isel," roedd gan Grok2 symiau enfawr o ddata parti cyntaf o ansawdd uchel o blatfform X (Twitter) i gefnogi'r defnydd. Fodd bynnag, wrth hyfforddi Grok3, daeth xAI ar draws y "nenfwd" y mae OpenAI yn ei wynebu ar hyn o bryd yn naturiol—mae diffyg data hyfforddi premiwm yn datgelu cyfleustodau ymylol galluoedd y model yn gyflym.

Mae'n debyg mai datblygwyr Grok3 a Musk yw'r cyntaf i ddeall a nodi'r ffeithiau hyn yn ddwfn, a dyna pam mae Musk wedi sôn yn barhaus ar gyfryngau cymdeithasol mai'r fersiwn y mae defnyddwyr yn ei phrofi nawr yw "y beta yn unig" a bod "y fersiwn lawn yn cael ei rhyddhau yn y misoedd nesaf." Mae Musk wedi ymgymryd â rôl rheolwr cynnyrch Grok3, gan awgrymu bod defnyddwyr yn rhoi adborth ar wahanol faterion a wynebir yn yr adran sylwadau. Efallai mai ef yw'r rheolwr cynnyrch a ddilynir fwyaf ar y Ddaear.

Ac eto, o fewn diwrnod, roedd perfformiad Grok3 yn sicr o godi pryder i'r rhai oedd yn gobeithio dibynnu ar "gyhyr cyfrifiadurol enfawr" i hyfforddi modelau mawr cryfach: yn seiliedig ar wybodaeth Microsoft sydd ar gael yn gyhoeddus, mae gan GPT-4 OpenAI faint paramedr o 1.8 triliwn o baramedrau, dros ddeg gwaith maint GPT-3. Mae sibrydion yn awgrymu y gallai maint paramedr GPT-4.5 fod hyd yn oed yn fwy.

Wrth i feintiau paramedrau'r modelau godi'n sydyn, mae costau hyfforddi hefyd yn codi'n sydyn. Gyda phresenoldeb Grok3, rhaid i gystadleuwyr fel GPT-4.5 ac eraill sy'n dymuno parhau i "losgi arian" i gyflawni perfformiad model gwell trwy faint paramedrau ystyried y nenfwd sydd bellach yn amlwg i'w weld a meddwl sut i'w oresgyn. Ar hyn o bryd, roedd Ilya Sutskever, cyn brif wyddonydd yn OpenAI, wedi datgan fis Rhagfyr diwethaf, "Bydd y cyn-hyfforddiant yr ydym yn gyfarwydd ag ef yn dod i ben," sydd wedi ailymddangos mewn trafodaethau, gan ysgogi ymdrechion i ddod o hyd i'r llwybr gwirioneddol ar gyfer hyfforddi modelau mawr.

Mae safbwynt Ilya wedi canu’r larwm yn y diwydiant. Rhagwelodd yn gywir y byddai data newydd hygyrch yn dod i ben, gan arwain at sefyllfa lle na ellir parhau i wella perfformiad trwy gaffael data, gan ei gymharu â diffyg tanwydd ffosil. Nododd "fel olew, mae cynnwys a gynhyrchir gan bobl ar y rhyngrwyd yn adnodd cyfyngedig." Yn rhagfynegiadau Sutskever, bydd gan y genhedlaeth nesaf o fodelau, ar ôl hyfforddiant cyn-amser, "ymreolaeth wirioneddol" a galluoedd rhesymu "tebyg i'r ymennydd dynol."

Yn wahanol i fodelau hyfforddedig ymlaen llaw heddiw sy'n dibynnu'n bennaf ar baru cynnwys (yn seiliedig ar gynnwys y model a ddysgwyd yn flaenorol), bydd systemau AI yn y dyfodol yn gallu dysgu a sefydlu methodolegau i ddatrys problemau mewn modd tebyg i "feddwl" ymennydd dynol. Gall bod dynol gyflawni hyfedredd sylfaenol mewn pwnc gyda llenyddiaeth broffesiynol sylfaenol yn unig, tra bod model AI mawr angen miliynau o bwyntiau data i gyflawni'r effeithiolrwydd lefel mynediad mwyaf sylfaenol yn unig. Hyd yn oed pan fydd y geiriad yn cael ei newid ychydig, efallai na fydd y cwestiynau sylfaenol hyn yn cael eu deall yn gywir, gan ddangos nad yw'r model wedi gwella'n wirioneddol o ran deallusrwydd: mae'r cwestiynau sylfaenol ond an-ddatrysadwy a grybwyllir ar ddechrau'r erthygl yn cynrychioli enghraifft glir o'r ffenomen hon.

Casgliad

Fodd bynnag, y tu hwnt i rym brwd, os bydd Grok3 yn llwyddo i ddatgelu i'r diwydiant bod "modelau sydd wedi'u hyfforddi ymlaen llaw yn agosáu at eu diwedd," byddai'n golygu goblygiadau sylweddol i'r maes.

Efallai ar ôl i'r ffwdan o amgylch Grok3 dawelu'n raddol, byddwn yn gweld mwy o achosion fel enghraifft Fei-Fei Li o "diwnio modelau perfformiad uchel ar set ddata benodol am ddim ond $50," gan ddarganfod y llwybr gwirioneddol i AGI yn y pen draw.

Dod o Hyd i Ddatrysiad Cebl ELV

Ceblau Rheoli

Ar gyfer BMS, BUS, Diwydiannol, Cebl Offeryniaeth.

Cliciwch Yma

System Geblau Strwythuredig

Rhwydwaith a Data, Cebl Ffibr-Optig, Cord Patch, Modiwlau, Plât Wyneb

Cliciwch Yma

Adolygiad Arddangosfeydd a Digwyddiadau 2024

Amser postio: Chwefror-19-2025

Profi'r “Clyfaraf yn y Byd” Grok3

Cyflwyniad

Mae Grok3 yn dda, ond nid yw'n well na R1 nac o1-Pro.

Persbectif Beirniadol ar "Amharu ar Nvidia"

Casgliad

Ceblau Rheoli

System Geblau Strwythuredig

16eg-18fed Ebrill, 2024 Ynni'r Dwyrain Canol yn Dubai

16eg-18fed Ebrill, 2024 Securika ym Moscow

9 Mai, 2024 DIGWYDDIAD LANSIO CYNHYRCHION A THECHNOLEGAU NEWYDD yn Shanghai

Hydref 22ain-25ain, 2024 DIOGELWCH TSIEINA yn Beijing

Tachwedd 19-20, 2024 BYD CYSYLLTIEDIG KSA