Introduzione

Pensate chì Grok3 serà u "puntu finale" di i mudelli pre-furmati?

Elon Musk è a squadra xAI anu lanciatu ufficialmente l'ultima versione di Grok, Grok3, durante una trasmissione in diretta. Prima di questu avvenimentu, una quantità significativa d'infurmazioni relative, accumpagnata da u hype promozionale 24 ore su 24, 7 ghjorni su 7 di Musk, hà elevatu l'aspettative mundiali per Grok3 à livelli senza precedenti. Solu una settimana fà, Musk hà dichjaratu cun fiducia durante una trasmissione in diretta mentre cummentava DeepSeek R1, "xAI hè in traccia di lancià un mudellu di IA megliu". Da i dati presentati in diretta, Grok3 hà presuntamente superatu tutti i mudelli mainstream attuali in i benchmark per a matematica, a scienza è a prugrammazione, cù Musk chì hà ancu dichjaratu chì Grok3 serà adupratu per compiti di calculu ligati à e missioni di SpaceX nantu à Marte, predicendu "scoperte à u livellu di u Premiu Nobel in trè anni". Tuttavia, queste sò attualmente solu l'asserzioni di Musk. Dopu u lanciu, aghju pruvatu l'ultima versione beta di Grok3 è aghju postu a classica dumanda trappula per i grandi mudelli: "Chì hè più grande, 9.11 o 9.9?" Sfurtunatamente, senza alcuna qualificazione o marcatura, u cusì dettu u più intelligente Grok3 ùn hà ancu pussutu risponde currettamente à sta quistione. Grok3 ùn hà micca riesciutu à identificà currettamente u significatu di a quistione.

Questa prova hà subitu attiratu una attenzione considerable da parechji amichi, è per cuincidenza, diverse prove simili à l'esteru anu dimustratu chì Grok3 hà difficultà cù dumande basiche di fisica/matematica cum'è "Quale palla cade prima da a Torre Pendente di Pisa?". Cusì, hè statu umuristicamente etichettatu cum'è "un geniu chì ùn hè micca dispostu à risponde à dumande simplici".

Grok3 hè bonu, ma ùn hè micca megliu cà R1 o o1-Pro.

Grok3 hà scontru "fallimenti" in parechji testi di cunniscenza cumuna in pratica. Durante l'eventu di lanciu di xAI, Musk hà dimustratu l'usu di Grok3 per analizà e classi di caratteri è l'effetti di u ghjocu Path of Exile 2, chì ellu dichjarava di ghjucà spessu, ma a maiò parte di e risposte furnite da Grok3 eranu sbagliate. Musk durante a trasmissione in diretta ùn hà micca nutatu stu prublema evidente.

Questu sbagliu ùn hà micca solu furnitu altre prove per chì l'internauti stranieri si burlassinu di Musk per avè "truvatu un sustitutu" in i ghjochi, ma hà ancu suscitatu preoccupazioni significative riguardu à l'affidabilità di Grok3 in applicazioni pratiche. Per un tale "geniu", indipendentemente da e so capacità effettive, a so affidabilità in scenarii di applicazione estremamente cumplessi, cum'è i compiti di esplorazione di Marte, ferma in dubbitu.

Attualmente, parechji tester chì anu ricevutu accessu à Grok3 settimane fà, è quelli chì anu appena testatu e capacità di u mudellu per qualchì ora eri, puntanu tutti à una cunclusione cumuna: "Grok3 hè bonu, ma ùn hè micca megliu cà R1 o o1-Pro".

Una Prospettiva Critica nantu à "Disrupzione di Nvidia"

In u PPT presentatu ufficialmente durante a liberazione, Grok3 hè statu dimustratu cum'è "assai avanti" in l'Arena di Chatbot, ma questu hà utilizatu tecniche grafiche in modu intelligente: l'asse verticale nantu à a classifica hà elencatu solu i risultati in a gamma di punteggi 1400-1300, facendu chì a differenza originale di 1% in i risultati di i test pare eccezziunalmente significativa in questa presentazione.

In i risultati di puntuazione di u mudellu attuale, Grok3 hè solu 1-2% davanti à DeepSeek R1 è GPT-4.0, ciò chì currisponde à l'esperienze di parechje persone in testi pratichi chì ùn anu trovu "nisuna differenza notevule". Grok3 supera solu i so successori di 1%-2%.

Ancu s'è Grok3 hà ottenutu punteggi più alti cà tutti i mudelli attualmente testati publicamente, parechji ùn piglianu micca questu in seriu: dopu tuttu, xAI hè stata criticata prima per "manipulazione di punteggi" in l'era Grok2. Siccomu a classifica penalizzava u stile di lunghezza di a risposta, i punteggi sò diminuiti assai, ciò chì hà purtatu i membri di l'industria à criticà spessu u fenomenu di "punteggi alti ma bassa capacità".

Ch'ella sia per via di a "manipulazione" di a classifica o di trucchi di cuncepimentu in l'illustrazioni, rivelanu l'xAI è l'ossessione di Musk per l'idea di "guidà u gruppu" in e capacità di i mudelli. Musk hà pagatu un prezzu altu per questi margini: durante u lanciu, s'hè vantatu d'utilizà 200.000 GPU H100 (dichjarendu "più di 100.000" durante a trasmissione in diretta) è d'avè ottenutu un tempu di furmazione tutale di 200 milioni d'ore. Questu hà purtatu alcuni à crede chì rapprisenta un altru vantaghju significativu per l'industria di e GPU è à cunsiderà l'impattu di DeepSeek nantu à u settore cum'è "stupidu". In particulare, alcuni credenu chì a putenza computazionale pura serà u futuru di a furmazione di i mudelli.

Tuttavia, certi internauti anu paragunatu u cunsumu di 2000 GPU H800 in dui mesi per pruduce DeepSeek V3, calculendu chì u cunsumu energeticu di furmazione reale di Grok3 hè 263 volte quellu di V3. A differenza trà DeepSeek V3, chì hà ottenutu 1402 punti, è Grok3 hè appena sottu à 100 punti. Dopu à a publicazione di sti dati, parechji anu capitu rapidamente chì daretu à u titulu di Grok3 cum'è "u più forte di u mondu" si trova un chjaru effettu di utilità marginale - a logica di i mudelli più grandi chì generanu prestazioni più forti hà cuminciatu à mustrà rendimenti decrescenti.

Ancu cù "puntuazione alta ma capacità bassa", Grok2 avia vaste quantità di dati di prima parte di alta qualità da a piattaforma X (Twitter) per sustene l'usu. Tuttavia, in a furmazione di Grok3, xAI hà scontru naturalmente u "soffittu" chì OpenAI affronta attualmente - a mancanza di dati di furmazione premium espone rapidamente l'utilità marginale di e capacità di u mudellu.

I sviluppatori di Grok3 è Musk sò probabilmente i primi à capisce è identificà prufundamente sti fatti, hè per quessa chì Musk hà mintuvatu cuntinuamente nantu à i social media chì a versione chì l'utilizatori stanu sperimentendu avà hè "ancora solu a beta" è chì "a versione cumpleta serà liberata in i prossimi mesi". Musk hà pigliatu u rolu di gestore di produttu di Grok3, suggerendu à l'utilizatori di furnisce feedback nantu à diversi prublemi incontrati in a sezione di cumenti. Puderia esse u gestore di produttu u più seguitu nantu à a Terra.

Eppuru, in un ghjornu, a prestazione di Grok3 hà senza dubbitu suscitatu allarmi per quelli chì speranu di cuntà nantu à un "musculu computazionale massivu" per furmà mudelli più grandi è più forti: basatu annantu à l'infurmazioni Microsoft dispunibili publicamente, GPT-4 di OpenAI hà una dimensione di parametri di 1,8 trilioni di parametri, più di dece volte quella di GPT-3. I rumori suggerenu chì a dimensione di i parametri di GPT-4.5 puderia esse ancu più grande.

Cù l'aumentu di e dimensioni di i parametri di u mudellu, i costi di furmazione sò ancu in crescita. Cù a presenza di Grok3, i contendenti cum'è GPT-4.5 è altri chì volenu cuntinuà à "brusgià soldi" per ottene prestazioni megliu di u mudellu attraversu a dimensione di i parametri devenu cunsiderà u limitu chì hè avà chjaramente in vista è riflettà nantu à cumu superallu. In questu mumentu, Ilya Sutskever, anzianu capu scientist di OpenAI, avia dichjaratu prima u dicembre scorsu: "A pre-furmazione chì cunniscimu ghjunghjerà à a fine", ciò chì hè riemersu in e discussioni, suscitendu sforzi per truvà a vera strada per a furmazione di grandi mudelli.

U puntu di vista d'Ilya hà sunatu l'allarme in l'industria. Hà previstu accuratamente l'esaurimentu imminente di novi dati accessibili, purtendu à una situazione induve e prestazioni ùn ponu micca cuntinuà à esse migliorate per mezu di l'acquisizione di dati, paragunendulu à l'esaurimentu di i combustibili fossili. Hà indicatu chì "cum'è u petroliu, u cuntenutu generatu da l'omu in Internet hè una risorsa limitata". In e previsioni di Sutskever, a prossima generazione di mudelli, dopu a pre-furmazione, pussederà una "vera autonomia" è capacità di ragiunamentu "simili à u cervellu umanu".

À u cuntrariu di i mudelli pre-addestrati d'oghje chì si basanu principalmente nantu à a currispundenza di cuntenutu (basata nantu à u cuntenutu di u mudellu amparatu prima), i futuri sistemi d'IA saranu capaci d'amparà è di stabilisce metodologie per risolve i prublemi in un modu simile à u "pensamentu" di u cervellu umanu. Un umanu pò ottene una cumpetenza fundamentale in una materia cù solu literatura prufessiunale basica, mentre chì un grande mudellu d'IA richiede milioni di punti di dati per ottene solu l'efficacia di livellu d'entrata più basica. Ancu quandu a formulazione hè cambiata ligeramente, queste dumande fundamentali ùn ponu micca esse capite currettamente, ciò chì illustra chì u mudellu ùn hà micca veramente migliuratu in intelligenza: e dumande basiche ma irrisolvibili citate à l'iniziu di l'articulu rapprisentanu un esempiu chjaru di stu fenomenu.

Cunclusione

Tuttavia, al di là di a forza bruta, se Grok3 riesce veramente à revelà à l'industria chì "i mudelli pre-addestrati si avvicinanu à a so fine", questu avaria implicazioni significative per u campu.

Forse dopu chì a frenesia intornu à Grok3 si calmerà gradualmente, assisteremu à più casi cum'è l'esempiu di Fei-Fei Li di "ottimisazione di mudelli d'alte prestazioni nantu à un inseme di dati specificu per solu $ 50", scoprendu infine a vera strada versu l'AGI.

Truvà una suluzione di cavi ELV

Cavi di cuntrollu

Per BMS, BUS, Industriale, Cavi di Strumentazione.

Cliccate quì

Sistema di cablaggio strutturatu

Rete è Dati, Cavu in Fibra Ottica, Cavu di Patch, Moduli, Piastra Frontale

Cliccate quì

Revista di Mostre è Eventi 2024

Data di publicazione: 19 di ferraghju 2025

Pruvendu u Grok3 "u più intelligente di u mondu"

Introduzione

Grok3 hè bonu, ma ùn hè micca megliu cà R1 o o1-Pro.

Una Prospettiva Critica nantu à "Disrupzione di Nvidia"

Cunclusione

Cavi di cuntrollu

Sistema di cablaggio strutturatu

16-18 d'aprile 2024 Mediu Oriente-Energia in Dubai

16-18 d'aprile 2024 Securika à Mosca

9 di maghju 2024 EVENTU DI LANCIO DI NOVI PRODOTTI È TECNULUGIE in Shanghai

22-25 d'ottobre 2024 SECURITY CHINA in Pechino

19-20 di nuvembre di u 2024 MONDU CONNESSU KSA