Profi'r “craffaf yn y byd” Grok3

Grŵp Aipu Waton (1)

Cyflwyniad

Ydych chi'n meddwl mai GROK3 fydd "endpoint" modelau wedi'u hyfforddi ymlaen llaw?

Lansiodd Elon Musk a thîm XAI y fersiwn ddiweddaraf o Grok, Grok3, yn ystod llif byw yn swyddogol. Cyn y digwyddiad hwn, cododd cryn dipyn o wybodaeth gysylltiedig, ynghyd â hype hyrwyddo 24/7 Musk, ddisgwyliadau byd -eang ar gyfer GROK3 i lefelau digynsail. Wythnos yn ôl, nododd Musk yn hyderus yn ystod llif byw wrth wneud sylwadau ar Deepseek R1, "Mae Xai ar fin lansio model AI gwell." O'r data a gyflwynir yn fyw, mae Grok3 wedi rhagori ar yr holl fodelau prif ffrwd cyfredol mewn meincnodau ar gyfer mathemateg, gwyddoniaeth a rhaglennu, gyda Musk hyd yn oed yn honni y bydd GROK3 yn cael ei ddefnyddio ar gyfer tasgau cyfrifiadol sy'n gysylltiedig â chenadaethau Mars SpaceX, gan ragweld "datblygiadau arloesol ar lefel gwobr Nobel o fewn tair blynedd." Fodd bynnag, dim ond honiadau Musk yw'r rhain ar hyn o bryd. Ar ôl y lansiad, profais y fersiwn beta ddiweddaraf o GROK3 a gofyn y cwestiwn tric clasurol ar gyfer modelau mawr: "Sy'n fwy, 9.11 neu 9.9?" Yn anffodus, heb unrhyw gymwysterau na marciau, ni allai'r GROK3 craffaf, fel y'i gelwir, ateb y cwestiwn hwn yn gywir o hyd. Methodd Grok3 â nodi ystyr y cwestiwn yn gywir.

 

Yn fuan, tynnodd y prawf hwn gryn sylw gan lawer o ffrindiau, ac yn gyd -ddigwyddiadol, mae amryw o brofion tebyg dramor wedi dangos Grok3 yn ei chael hi'n anodd gyda chwestiynau ffiseg/mathemateg sylfaenol fel "Pa bêl sy'n disgyn gyntaf o dwr pwyso Pisa?" Felly, mae wedi'i labelu'n ddigrif fel "athrylith sy'n anfodlon ateb cwestiynau syml."

640

Mae Grok3 yn dda, ond nid yw'n well na R1 neu O1-Pro.

Profodd Grok3 "fethiannau" ar lawer o brofion gwybodaeth cyffredin yn ymarferol. Yn ystod digwyddiad lansio XAI, dangosodd Musk ddefnyddio GROK3 i ddadansoddi'r dosbarthiadau cymeriad ac effeithiau llwybr gêm alltud 2, yr honnodd ei fod yn chwarae'n aml, ond roedd y rhan fwyaf o'r atebion a ddarparwyd gan GROK3 yn anghywir. Ni sylwodd Musk yn ystod y llif byw y mater amlwg hwn.

 

Roedd y camgymeriad hwn nid yn unig yn darparu tystiolaeth bellach i netizens tramor watwar Musk ar gyfer "dod o hyd i eilydd" mewn hapchwarae ond hefyd cododd bryderon sylweddol ynghylch dibynadwyedd GROK3 mewn cymwysiadau ymarferol. Ar gyfer "athrylith," o'r fath, waeth beth yw ei alluoedd gwirioneddol, mae ei ddibynadwyedd mewn senarios cymhwysiad hynod gymhleth, megis tasgau archwilio Mars, yn parhau i fod yn amheus.

 

Ar hyn o bryd, mae llawer o brofwyr a dderbyniodd fynediad i GROK3 wythnosau yn ôl, a'r rhai sydd newydd brofi'r galluoedd model am ychydig oriau ddoe, i gyd yn pwyntio at gasgliad cyffredin: "Mae Grok3 yn dda, ond nid yw'n well na R1 neu O1-Pro."

640 (1)

Persbectif Beirniadol ar "Amharu ar Nvidia"

Yn y PPT a gyflwynwyd yn swyddogol yn ystod y rhyddhau, dangoswyd bod GROK3 yn “bell ymlaen” yn Arena Chatbot, ond y technegau graffig a ddefnyddiwyd yn glyfar: yr echelin fertigol ar y bwrdd arweinwyr yn unig a restrir canlyniadau yn yr ystod sgôr 1400-1300, gan wneud y gwahaniaeth 1% gwreiddiol yng nghanlyniadau profion yn ymddangos yn eithriadol o arwyddocaol yn y cyflwyniad hwn.

640

Mewn canlyniadau sgorio modelau gwirioneddol, mae GROK3 ddim ond 1-2% ar y blaen i Deepseek R1 a GPT-4.0, sy'n cyfateb i brofiadau llawer o ddefnyddwyr mewn profion ymarferol na chanfu "unrhyw wahaniaeth amlwg." Dim ond 1%-2%y mae GROK3 yn fwy na'i olynwyr.

640

Er bod GROK3 wedi sgorio'n uwch na'r holl fodelau a brofwyd yn gyhoeddus ar hyn o bryd, nid yw llawer yn cymryd hyn o ddifrif: Wedi'r cyfan, mae Xai wedi cael ei feirniadu o'r blaen am "drin sgôr" yn oes GROK2. Wrth i'r bwrdd arweinydd gosbi arddull hyd ateb, gostyngodd y sgoriau'n fawr, gan arwain mewnwyr diwydiant i feirniadu ffenomen "gallu sgorio uchel ond isel yn aml."

 

P'un ai trwy "drin" Leaderboard neu driciau dylunio mewn lluniau, maent yn datgelu obsesiwn Xai a Musk gyda'r syniad o "arwain y pecyn" mewn galluoedd model. Talodd Musk bris serth am yr ymylon hyn: yn ystod y lansiad, ymffrostiodd o ddefnyddio 200,000 H100 GPUs (gan honni "dros 100,000" yn ystod y llif byw) a chyflawni cyfanswm amser hyfforddi o 200 miliwn o oriau. Arweiniodd hyn at rai i gredu ei fod yn cynrychioli hwb sylweddol arall i'r diwydiant GPU ac i ystyried effaith Deepseek ar y sector fel un "ffôl." Yn nodedig, mae rhai yn credu mai pŵer cyfrifiadol pur fydd dyfodol hyfforddiant model.

 

Fodd bynnag, cymharodd rhai netizens y defnydd o 2000 H800 GPUs dros ddau fis i gynhyrchu Deepseek V3, gan gyfrifo bod defnydd pŵer hyfforddi gwirioneddol GROK3 263 gwaith yn yr un modd â V3. Mae'r bwlch rhwng Deepseek V3, a sgoriodd 1402 pwynt, a GROK3 ychydig yn llai na 100 pwynt. Yn dilyn rhyddhau'r data hwn, sylweddolodd llawer yn gyflym, y tu ôl i deitl Grok3 fel "cryfaf y byd" yn gorwedd effaith cyfleustodau ymylol clir - mae rhesymeg modelau mwy sy'n cynhyrchu perfformiad cryfach wedi dechrau dangos enillion gostyngol.

640 (2)

Hyd yn oed gyda "gallu sgorio uchel ond isel," roedd gan GROK2 lawer iawn o ddata parti cyntaf o ansawdd uchel o'r platfform X (Twitter) i gefnogi'r defnydd. Fodd bynnag, wrth hyfforddi GROK3, daeth Xai ar draws y "nenfwd" y mae Openai yn ei wynebu ar hyn o bryd - mae'r diffyg data hyfforddi premiwm yn datgelu defnyddioldeb ymylol galluoedd y model yn gyflym.

 

Mae'n debyg mai datblygwyr Grok3 a Musk yw'r cyntaf i ddeall a nodi'r ffeithiau hyn yn ddwfn, a dyna pam mae Musk wedi sôn yn barhaus ar gyfryngau cymdeithasol bod y fersiwn y mae defnyddwyr yn eu profi nawr yn "dal yn unig y beta" ac y bydd "y fersiwn lawn yn cael ei rhyddhau yn ystod y misoedd nesaf.” Mae Musk wedi ymgymryd â rôl rheolwr cynnyrch GROK3, gan awgrymu bod defnyddwyr yn rhoi adborth ar amrywiol faterion y deuir ar eu traws yn yr adran sylwadau.

 

Ac eto, o fewn diwrnod, heb os, cododd perfformiad Grok3 larymau i'r rhai sy'n gobeithio dibynnu ar "gyhyr cyfrifiadol enfawr" hyfforddi modelau mawr cryfach: yn seiliedig ar wybodaeth Microsoft sydd ar gael i'r cyhoedd, mae gan GPT-4 Openai faint paramedr o 1.8 triliwn o baramedrau, dros ddeg gwaith GPT-3. Mae sibrydion yn awgrymu y gallai maint paramedr GPT-4.5 fod hyd yn oed yn fwy.

 

Wrth i feintiau paramedr y model esgyn, mae'r costau hyfforddi hefyd yn skyrocketing. Gyda phresenoldeb Grok3, rhaid i gystadleuwyr fel GPT-4.5 ac eraill sy'n dymuno parhau i “losgi arian” i gyflawni perfformiad model gwell trwy faint paramedr ystyried y nenfwd sydd bellach yn amlwg yn y golwg ac ystyried sut i'w oresgyn. Ar hyn o bryd, roedd Ilya Sutskever, cyn brif wyddonydd yn Openai, wedi nodi o'r blaen fis Rhagfyr diwethaf, "bydd y cyn-hyfforddi yr ydym yn gyfarwydd ag ef yn dod i ben," sydd wedi ail-wynebu mewn trafodaethau, gan ysgogi ymdrechion i ddod o hyd i'r gwir lwybr ar gyfer hyfforddi modelau mawr.

640 (3)

Mae safbwynt Ilya wedi swnio'r larwm yn y diwydiant. Rhagwelodd yn gywir flinder data newydd hygyrch sydd ar ddod, gan arwain at sefyllfa lle na all perfformiad barhau i gael ei wella trwy gaffael data, gan ei debyg i flinder tanwydd ffosil. Nododd "fel olew, mae cynnwys a gynhyrchir gan bobl ar y rhyngrwyd yn adnodd cyfyngedig." Yn rhagfynegiadau Sutskever, bydd gan y genhedlaeth nesaf o fodelau, ôl-hyfforddiant, "wir ymreolaeth" a galluoedd rhesymu "debyg i'r ymennydd dynol."

 

Yn wahanol i fodelau wedi'u hyfforddi ymlaen llaw heddiw sy'n dibynnu'n bennaf ar baru cynnwys (yn seiliedig ar y cynnwys model a ddysgwyd yn flaenorol), bydd systemau AI yn y dyfodol yn gallu dysgu a sefydlu methodolegau i ddatrys problemau mewn modd sy'n debyg i "feddwl" yr ymennydd dynol. Gall bod dynol gyflawni hyfedredd sylfaenol mewn pwnc sydd â llenyddiaeth broffesiynol sylfaenol yn unig, tra bod model mawr AI yn gofyn am filiynau o bwyntiau data i gyflawni'r effeithiolrwydd lefel mynediad mwyaf sylfaenol yn unig. Hyd yn oed pan fydd y geiriad yn cael ei newid ychydig, efallai na fydd y cwestiynau sylfaenol hyn yn cael eu deall yn gywir, gan ddangos nad yw'r model wedi gwella'n wirioneddol mewn deallusrwydd: mae'r cwestiynau sylfaenol ond na ellir eu cynnwys a grybwyllir ar ddechrau'r erthygl yn cynrychioli enghraifft glir o'r ffenomen hon.

微信图片 _20240614024031.jpg1

Nghasgliad

Fodd bynnag, y tu hwnt i rym 'n Ysgrublaidd, os yw GROK3 yn wir yn llwyddo i ddatgelu i'r diwydiant bod "modelau wedi'u hyfforddi ymlaen llaw yn agosáu at eu diwedd," byddai'n cynnwys goblygiadau sylweddol i'r maes.

Efallai ar ôl i'r frenzy o amgylch GROK3 ymsuddo'n raddol, byddwn yn dyst i fwy o achosion fel enghraifft Fei-Fei Li o "diwnio modelau perfformiad uchel ar set ddata benodol am ddim ond $ 50," yn y pen draw yn darganfod y gwir lwybr i AGI.

Dod o hyd i ddatrysiad cebl elv

Rheoli ceblau

Ar gyfer BMS, bws, diwydiannol, cebl offeryniaeth.

System ceblau strwythuredig

Rhwydwaith a data, cebl ffibr-optig, llinyn patsh, modiwlau, faceplate

2024 Adolygiad Arddangosfeydd a Digwyddiadau

Ebrill.16fed-18fed, 2024 Ynni'r Dwyrain Canol yn Dubai

Ebrill.16fed-18fed, 2024 Securika ym Moscow

Mai.9fed, 2024 Digwyddiad Lansio Cynhyrchion a Thechnolegau Newydd yn Shanghai

Hydref.22nd-25th, 2024 Diogelwch China yn Beijing

Tachwedd.19-20, 2024 Cysylltiedig y Byd KSA


Amser Post: Chwefror-19-2025