Pruvà u "più intelligente di u mondu" grok3

Aiupu Waton Group (1)

Introduzione

Pensate chì Grook3 serà u "endpoint" di mudelli pre-furmati?

Elon muscu è a squadra xai hà lanciatu ufficialmente l'ultima versione di Groff, Grown3, durante un livestream. Prima di questa eventu, una quantità significativa di informazioni impurtanti, accove cù uomo regulale di u 24//utazioni glubali, aspettatevi glubale, alzati per grook3 per i livelli Solu una settimana fa, musch hà dichjaratu di manera bravu durante un livestream mentre commentanu in profonda R1, "Xai hè per lancià un mudellu megliu aI." Da e dati presentati vivi, grook3 hà superatu tuttu u mo mudelli Mainstream currente in a scientione cù u volu è Grook3 in u livellu di premiu Tuttavia, queste sò attualmente affermazioni di Musk. Dopu à u lanciatu, aghju pruvatu l'ultima versione beta di grok3 è hà prumessu a dumanda di u truccu classicu per grandi mudelli: "Quale hè più grande, 9.19?" Lamentemulmente, senza alcune qualificatori o marcati, u chjamatu SMARTSTest Grok3 ùn pudia micca risponde à sta dumanda currettamente. Grok3 hà fiascatu à identificà precisamente u significatu di a dumanda.

 

Questa prova a prestazione subitu a tanti amici, è coincidente, furests similari Overseas anu mostratu eccelliche cum'è "Chì balla fallate prima di a torre di a mateminazione di Pisa?" Cusì, hè statu umoratu umuramente cum'è "Un geniu ùn vuleria à risponde à e dumande simpliche".

640

Grook3 hè bonu, ma ùn hè micca megliu cà R1 o O1-Pro.

Grook3 sperimentatu "fallimenti" nantu à parechje teste di cunniscenze cumuni in pratica. Duranti i avvenimenti xai lancu, musk dimustrati utilizendu Grook3 à analizate à l'analizà i classi è l'effetti di u campu di u ghjocu, ma a maiò parte di e e vostre3 eranu sbagliati. Musk durante u livestream ùn hà micca nutatu questu prublema evidenti.

 

Stu sbagliu ùn hà micca solu furnitu evidenza più di l'evidenza old per beleti à mocke per "TROKING ma ancu e predizione significativu significati in l'applicazioni pratiche. Per un "geniu," Indipendente di e so capacità attuale, a so affidabile scenari eccessivu cumplessi, cum'è marte esplorazioni compie, remenu in dogrette.

 

Attualmente assai di i testtu chì hà ricevutu accessu à grok3 settimane fa, è quelli chì anu solu testtu à capacità di u mudellu in pochi ore di ieri: "Grook3 hè bonu, ma ùn hè micca megliu cà r1 o o1-pro."

640 (1)

Una prospettiva critica nantu à "disrupting Nviidia"

In u pettatu ufficialmente presentatu à a liberazione, grok3 hè dimustratu à esse "spettaculu" in l'assi di u 1400-13 - a regetta a prima parte usata in questa presentazione.

640

In i risultati di puntuazione di mudellu attuali, grok3 hè di 1-2% in u fondu R1 è GPT-4.0, chì currisponde à e teste di l'utilizatori chì anu truvatu "senza" Grook3 supera solu i so successori per 1% -2%.

640

Ancu se Grown3 hà puntuatu più altu di tutti i mudelli attuali attualmente prestati, assai ùn piglianu micca questu seriu: Dopu à tuttu, Xai hà statu criticatu per "in a gannula di u grok2. Siccomu a risposta penalizata di Leaderboard, i punteghji assai diminuiti, l'industria di l'industria di u capu per criticà spessu u fenomenu di "alta capacità."

 

Mai à traversu u capu "Manipulazione" o disignu in Illustrazioni, revelanu ossessione XAI è di munghie cù a nozione di "guidendu u pacchettu" in e capacità di u mudellu. Musk hà pagatu un prezzu ripidu per sti margini: durante a leccia di l'usu 200.000 H100 GPUS (dichjarazione "più di 100.000" Orievu di u totale di 200 milioni di furmazione. Stu guidatu qualchi per crede chì rapprisenta un altru guvernu significativu per a industria GPU è per cunsiderà l'impattu di a profonda à u settore cume "stupidu". Notambilmente, certi credi chì a putenza computativa sheer serà u futuru di a furmazione mudellu.

 

Tuttavia, certi nemensens comp> CONCENTITARE 2000 H800 GPUS OVER Two Mose à productanu u cunsumu attuale propiu di furmazione di grown3 hè 263 volte quella di V3. U distaccu trà u prufonda v3, chì hà puntuatu 1402 punti, è grook3 hè ghjustu sottu 100 punti. Dopu a liberazione di sta dati, parechji si capì rapidamente chì daretu à u titulu di Grook3 cum'è a più forte utilità di u mondu chì generanu a performance più stretta hà cuminciatu à mustrà i renditi di diminuisce.

640 (2)

Ancu cun "alta scoring ma bassa capacità," Grok2 hà avutu quantità quantità di dati di prima festa di alta qualità da a piattaforma di alta parte di a X (Twitter) per sustene l'usu. Eppuru, in a furmazione di Grook3, Xai naturalmente hà truvatu u "tettu" chì face a mancanza di dati di furmazione premium rapidamente l'utilità marginale.

 

I sviluppatori di GRok3 è musi sò prubabilmente u primu à capiscenu è identificà questi fatti in fondu, chì hè per quessa chì u granak hà citatu avà hè "Sempre solu a versione completa." Musk hà pigliatu u rolu di u gestore di u produttu di Grook3, suggerenu l'utilizatori à diversi prublemi chì anu scontru in a sezione di cummentarii. Puderia esse u più rializatu u gestore di u produttu nantu à a Terra.

 

Eppuru, ind'è un ghjornu, u performance di grook3 senza duebbidu alarme allegate per quelli chì sperendu. I rumuri suggerenu chì u paràmetru di u paràmetru di GPT-4.5 puderia esse ancu più grande.

 

Cumu a paràmetru di u paràmetru di u mudellu, i costi di furmazione sò ancu skyrocketing. Cù a prisenza di Grown3, i contendenti cum'è GPT-4.5 è altri chì vulianu cuntinuà u megliu prestazione per a dimensione di u poveradore chì hè avà chjaramente a vista. À questu mumentu, ilya suskever, impredianu capimachja, avia previ dichjaratu d'ultimu ghjornu, ùn ci era micca fameianu micca familiar "A pre-furmazione simu familiati cun discussione:"

640 (3)

U puntu di vista di l'ilya hà sonu l'alarma in l'industria. A prevolta accuratamente a machja imminente di dati novi accessibili, guidendu à una situazione ùn pò micca cuntinuà à esse rinfurzatu per via di l'acquista di dati, simili à e fucili di fossa. Hà indicatu chì "cum'è l'oliu, cuntenutu generatu umanu in Internet hè una risorsa limitata". In e previsioni di e duttep di e vigilazione di i mudelli, a post-pre-furmazione, pusterete "TRUE autonomia" è e capacità "simili à u cervellu umanu".

 

A cuntrariu di u primariu oghje di l'oghje chì si ripressanu primuriti nantu à u cuntenutu di u cuntenutu (basatu nantu à u mudellu previamente amparatu è stabilisce i prublemi in un cervellu umanu. Un omu pò ghjunghje compitività fundamentale in un sughjettu cù literatura prufessiunale basica, mentre un mudellu di ai necessita unica mudellu di milioni di punti di dati in più di u più basi d'entrata di u più basi. Ancu quandu a furmazione hè cambiata, queste dumande fundamentali ùn ponu esse capitu, illustrendu chì u mudellu ùn hà micca fattu megliu chì e dumande minute à l'articulu chjaru di questu fenomenu.

微信 图片 _20240614024031.jpg1

Cunclusione

Eppuru, di alcunà u polzu brutu, se grok3 anzi riduceva à a mudelli chì "avvicinonu previste implicazioni per u campu.

Forsi dopu à u frenesimu chì circonda grook3 in soliturivamente, viraghju di più casi di dati Fei-feu-fari nantu à una spedizione specifica per solu $ 50, "scuperta l'età vera à l'Italia

Truvate soluzione di cable ELV

Cappelli di cuntrollu

Per BMS, autobus, u cable Industriale, strumentu.

Sistema di Cabulatore Strutturale

Rete è dati, cable ottica fibra, corda di patch, moduli, faceplate

2024 Esposizioni e avvenimenti

Apr.16h-18, 2024 mediu-est-energia in Dubai

Apr.168, 2024 secuka in Mosca

May.9Quantu, 2024 I novi prudutti è tecnulugie lancianu l'avvenimentu in Shanghai

Uttrettu.222ND-25TH, 2024 Sicurezza Cina in Pechino

NOV.19-20, 2024 connettatu u mondu ksa


Tempu post: 19-2025