Tes "Grok3" paling cerdas "

Klompok aipu waton (1)

Pambuka

Apa sampeyan mikir grok3 bakal dadi "titik titik" model sing wis dilatih?

Elon Musk lan tim XAI resmi ngluncurake versi grock, grok3, sajrone urip livestream. Sadurunge acara iki, jumlah informasi sing gegandhengan, ditambah karo jinis promosi Musk, kanthi pangarepan global kanggo tingkat grok3 kanggo sing durung sadurunge. Mung seminggu kepungkur, otak kanthi yakin nyatakake nalika urip nalika menehi komentar ing Deepseek R1, "XAI arep miwiti model AI sing luwih apik." Saka data sing diwenehake langsung, Grok3 wis nglairake kabeh model ide utama ing pathokan matematika, ilmu, lan program, kanthi kasur, bisa digunakake kanggo komputasi misi komputasi sing ana gandhengane kanggo level komplotan ing telung taun. " Nanging, iki saiki mung negesake kasturi. Sawise diluncurake, aku nyoba versi Grok3 Grok3 paling anyar lan entuk pitakon trick klasik kanggo model gedhe: "sing luwih gedhe, 9.11 utawa 9.9?" Gegel, tanpa kualifikasi utawa tandha, sing diarani Grok3 paling cerdas isih ora bisa mangsuli pitakon iki kanthi bener. Grok3 gagal kanthi tepat ngerteni makna pitakonan kasebut.

 

Tes iki kanthi cepet narik kawigatosan saka pirang-pirang kanca, lan luwih apik, macem-macem tes luar negeri karo Fisika Dhasar Fisika / Matematika Pitakonan kaya "Bola Banana Pisa?" Mangkono, wis diwenehi label minangka "jenius ora gelem njawab pitakon sing gampang."

640

Grok3 apik, nanging ora luwih apik tinimbang R1 utawa O1-Pro.

Gros3 ngalami "gagal" ing akeh tes kawruh sing umum ing praktik. Sajrone acara peluncuran Xai, otok nuduhake nggunakake Grok3 kanggo nganalisa kelas karakter lan efek saka dalan sing diasingake 2, sing dikandhani main asring digunakake dening Grok3 ora salah. Musk sajrone livestream ora sok dong mirsani masalah sing jelas iki.

 

Kesalahan iki ora mung nyedhiyakake bukti kanggo njeblug ing luar negeri kanggo moyoki kasturi kanggo "Nggoleki pengganti" ing game nanging uga ngunggahake keprihatinan sing penting babagan aplikasi praktis. Kanggo "jenius kasebut kaya ngono," preduli saka kemampuan sing nyata, linuwih ing skenario aplikasi sing komplek banget, kayata tugas eksplorasi Mars, tetep ana sangsi.

 

Saiki, akeh penguji sing nampa akses menyang Grok3 minggu kepungkur, lan sing mung nyoba kemampuan model kanggo sawetara jam wingi, kabeh ora cocog karo R1 utawa O1-Pro. "

640 (1)

Perspektif kritis babagan "ngganggu Nvidia"

Ing ppt resmi sing ditawakake kanthi rilis, Grok3 ditampilake dadi "adoh" ing Arena Chatbot, nanging teknik grafis sing cerdas ing papan test kasebut mung kadhaptar ing presentasi kasebut kanthi signifikan ing presentasi iki.

640

Ing asil skor model nyata, Grok3 mung 1-2% sadurunge Deepseek R1 lan GPT-4,0, sing cocog karo pengalaman pangguna ing tes praktis sing ditemokake "bedane." Grok3 mung ngluwihi penerus kanthi 1% -2%.

640

Sanajan Grok3 wis nyetak luwih dhuwur tinimbang kabeh model sing diuji kanthi umum, mula kabeh, XAI sadurunge wis dikritik "ing Era Grok2. Nalika leaderboard gaya dawa dialasi, skor miridor, industri pemimpin para insiders asring ngritik fénomena "skoring dhuwur nanging kurang kemampuan."

 

Apa Lumantar Leaderboard "Manipulasi" utawa trik desain ing ilustrasi, dheweke nuduhake obsesi XII lan Musk kanthi pangerten "ngarahake paket model". Musk mbayar rega curam kanggo bathi iki: Sajrone diluncurake, dheweke ngegung nggunakake 200.000 H100 GPU (ngaku "luwih saka 100.000" sajrone latihan) lan entuk wektu latihan sajrone 200 yuta jam. Iki nyebabake sawetara wong percaya, nuduhake boon penting liyane kanggo industri GPU lan nimbang dampak deepseek ing sektor kasebut minangka "bodho." Mesthine, ana sing percaya yen kekuwatan komputasional dheweke bakal dadi latihan model.

 

Nanging, sawetara jinis nada mbandhingake konsumsi 2000 H800 GPU sajrone rong wulan kanggo ngasilake EfSeek V3, ngitung panggunaan tenaga latihan nyata Grok3 yaiku 263 kali sing v3. Gap ing antarane Deepseek V3, sing ngetung 1402 poin, lan grok3 mung ana 100 nilai. Sawise diluncurake data iki, akeh sing bisa ngerteni judhul Grok3 minangka "paling kuat" ana efek sarana marginal sing jelas - logika model sing luwih gedhe ngasilake ngasilake luwih gedhe.

640 (2)

Malah kanthi "kemampuan skor nanging kurang," grok2 duwe data pihak pertama sing bermutu saka platform X (Twitter) kanthi rega panggunaan. Nanging, ing pelatihan Grok3, XAI kanthi alami nemoni "Ceiling" sing mbukak - kekurangan data pelatihan premium kanthi cepet saka kapabilitas marginal.

 

Pangembang saka Grok3 lan kasturi bisa dadi luwih dhisik ngerti lan ngenali kasunyatan kasebut kanthi jero, yaiku manawa Musk terus-terusan nyebutake ing Media Sosial sing saiki wis dialami "lan" versi lengkap bakal dibebasake ing wulan sing bakal teka. " Musk wis njupuk peran manajer produk Grok3, sing menehi saran nyedhiyakake umpan balik babagan macem-macem masalah sing ditemoni ing bagean komentar. Dheweke bisa uga dadi manajer produk sing paling akeh ing bumi.

 

Nanging, sajrone sedina, kinerja grok3 sing ora bisa diangkat weker kanggo sing ngarep-arep karo otot komputasi "adhedhasar parameter sing luwih gedhe: luwih saka sepuluh parameter, luwih saka sepuluh kaping saka GPT-3. Gosip nuduhake manawa ukuran parameter GPT-4,5 bisa uga luwih gedhe.

 

Minangka model parameter parameter soar, biaya latihan uga skyrocketing. Kanthi ngarsane Grok3, kontes kaya GPT-4,5 lan liya-liyane sing pengin nerusake "dhuwit sing luwih apik kanggo entuk langit-langit sing luwih apik liwat ukuran model sing kudu dianggep kanthi cetha lan mikirake cara ngatasi. Ing wayahe iki, Iya Sutbever, mantan ilmuwan kepala ing Openai, "sadurunge latihan," sing wis ditrima ing diskusi, njaluk upaya kanggo nglatih model sing gedhe.

640 (3)

Pandhangan ILYA wis muni weker ing industri kasebut. Dheweke kanthi aksara kanthi tepat babagan data anyar sing bisa diakses, nyebabake kahanan sing ora bisa ditambah liwat akuisisi Data, sing seneng karo lemari fosil. Dheweke nuduhake yen "kaya minyak, konten sing digawe manungsa ing Internet minangka sumber winates." Ing ramalan Sutskever, model sabanjure, post-pra-sadurunge latihan, bakal duwe "otonomi" padha karo otak manungsa. "

 

Ora kaya model sing wis dilatih saiki sing cocog karo konten konten (adhedhasar konten model sing sadurunge sinau), sistem AI sing sadurunge sinau bisa sinau lan netepake metodologi kanggo ngatasi masalah "saka otak manungsa. Manungsa bisa nggayuh keahlian dhasar ing subyek kanthi mung literatur profesional dhasar, dene model gedhe AI ​​mbutuhake mayuta-yuta poin data kanggo entuk khasiat tingkat entri paling dhasar. Sanajan tembung kasebut diganti kanthi rada, pitakon dhasar iki bisa uga ora bisa dingerteni kanthi bener, nggambarake manawa model kasebut ora bisa dirampungake ing wiwitan artikel sing nuduhake conto sing jelas babagan kedadeyane.

微信图片 _20240614024031.jpg1

Kesimpulan

Nanging, ora ana kekuwatan, yen Grok3 pancen sukses ing industri sing "model sing wis dilatih nyedhaki pungkasane," bakal nggawa implikasi sing signifikan kanggo lapangan.

Mbok menawa sawise sugoring grook3 kanthi bertahap, kita bakal nyekseni kasus liyane kaya conto Fei-Fei Li "tuning model sing dhuwur ing dataset tartamtu kanthi mung $ 50," pungkasane nemokake dalan sing bener kanggo AGI.

Temokake solusi kabel Elv

Kabel Kontrol

Kanggo bm, bis, industri, kabel instrumen.

Sistem Cabling Struktur

Jaringan & Data, Kabel Serat-Optik, Cord Patch, Modules, Faceplate

2024 Pameran & Review Acara

Apr.16th-18, 2024 Tengah-East Energy ing Dubai

Apr.16th-18, 2024 Securika ing Moskow

May.9th 2024 Produk & Teknologi Peluncuran Anyar ing Shanghai

Oct.222-25, 2024 Keamanan China ing Beijing

Nov.19-20, 2024 World Sedar KSA


Wektu kirim: Feb-19-2025