Pambuka

Apa sampeyan mikir Grok3 bakal dadi "titik pungkasan" saka model sing wis dilatih?

Elon Musk lan tim xAI resmi ngluncurake versi paling anyar saka Grok, Grok3, sajrone livestream. Sadurunge acara iki, akeh informasi sing gegandhengan, ditambah karo promosi promosi Musk 24/7, ngunggahake pangarepan global kanggo Grok3 menyang tingkat sing durung tau ana sadurunge. Mung seminggu kepungkur, Musk kanthi yakin nyatakake sajrone livestream nalika menehi komentar babagan DeepSeek R1, "xAI bakal ngluncurake model AI sing luwih apik." Saka data sing ditampilake langsung, Grok3 dilaporake wis ngluwihi kabeh model mainstream saiki ing pathokan kanggo matematika, ilmu pengetahuan, lan pemrograman, kanthi Musk malah ngaku yen Grok3 bakal digunakake kanggo tugas komputasi sing ana gandhengane karo misi SpaceX Mars, prédhiksi "terobosan ing tingkat Hadiah Nobel sajrone telung taun." Nanging, iki saiki mung pratelan Musk. Sawise diluncurake, aku nyoba versi beta paling anyar saka Grok3 lan menehi pitakonan trick klasik kanggo model gedhe: "Sing luwih gedhe, 9.11 utawa 9.9?" Sayange, tanpa kualifikasi utawa tandha, sing diarani paling pinter Grok3 isih ora bisa mangsuli pitakon iki kanthi bener. Grok3 gagal ngenali kanthi tepat makna pitakonan kasebut.

Tes iki kanthi cepet narik kawigatosan saka akeh kanca, lan kebetulan, macem-macem tes sing padha ing luar negeri nuduhake Grok3 berjuang karo pitakonan fisika/matematika dhasar kaya "Werni endi sing luwih dhisik saka Menara Miring Pisa?" Mangkono, wis humorously labeled minangka "jenius ora gelem njawab pitakonan prasaja."

Grok3 apik, nanging ora luwih saka R1 utawa o1-Pro.

Grok3 ngalami "gagal" ing akeh tes kawruh umum ing praktik. Sajrone acara peluncuran xAI, Musk nuduhake nggunakake Grok3 kanggo nganalisa kelas karakter lan efek saka game Path of Exile 2, sing diklaim asring diputer, nanging umume jawaban sing diwenehake dening Grok3 ora bener. Musk sajrone livestream ora ngerteni masalah sing jelas iki.

Kesalahan iki ora mung menehi bukti luwih akeh kanggo netizen jaban rangkah kanggo moyoki Musk amarga "nemokake pengganti" ing game nanging uga nyebabake keprihatinan sing signifikan babagan linuwih Grok3 ing aplikasi praktis. Kanggo "jenius" kaya ngono, ora preduli saka kemampuan sing nyata, linuwih ing skenario aplikasi sing rumit banget, kayata tugas eksplorasi Mars, tetep diragukan.

Saiki, akeh panguji sing nampa akses menyang Grok3 minggu kepungkur, lan wong-wong sing mung nguji kemampuan model kanggo sawetara jam wingi, kabeh nuduhake kesimpulan umum: "Grok3 apik, nanging ora luwih apik tinimbang R1 utawa o1-Pro."

Perspektif Kritis babagan "Ngganggu Nvidia"

Ing PPT sing disedhiyakake kanthi resmi sajrone rilis, Grok3 ditampilake "ahead ahead" ing Chatbot Arena, nanging teknik grafis kanthi pinter iki: sumbu vertikal ing leaderboard mung kadhaptar asil ing sawetara skor 1400-1300, nggawe prabédan 1% asli ing asil tes katon luar biasa ing presentasi iki.

Ing asil pemarkahan model nyata, Grok3 mung 1-2% luwih dhisik tinimbang DeepSeek R1 lan GPT-4.0, sing cocog karo pengalaman akeh pangguna ing tes praktis sing nemokake "ora ana prabédan sing nyata." Grok3 mung ngluwihi peneruse kanthi 1%-2%.

Sanajan Grok3 wis ngetung luwih dhuwur tinimbang kabeh model sing saiki diuji publik, akeh sing ora nganggep serius iki: sawise kabeh, xAI sadurunge wis dikritik amarga "manipulasi skor" ing jaman Grok2. Minangka leaderboard penalized gaya dawa jawaban, skor nemen melorot, anjog insiders industri asring mada kedadean saka "skor dhuwur nanging kemampuan kurang."

Apa liwat "manipulasi" leaderboard utawa trik desain ing ilustrasi, dheweke ngungkapake obsesi xAI lan Musk karo gagasan "mimpin pak" ing kemampuan model. Musk mbayar rega sing larang kanggo margin kasebut: nalika diluncurake, dheweke gumunggung nggunakake 200,000 GPU H100 (ngaku "luwih saka 100,000" sajrone livestream) lan entuk wektu latihan total 200 yuta jam. Iki ndadékaké sawetara sing pracaya iku nggantosi liyane keuntungan pinunjul kanggo industri GPU lan nimbang impact DeepSeek ing sektor minangka "bodho." Utamane, sawetara sing percaya yen kekuwatan komputasi bakal dadi masa depan latihan model.

Nanging, sawetara netizen mbandhingake konsumsi 2000 GPU H800 sajrone rong wulan kanggo ngasilake DeepSeek V3, ngitung konsumsi daya latihan nyata Grok3 263 kaping V3. Jurang antarane DeepSeek V3, sing ngetung 1402 poin, lan Grok3 mung kurang saka 100 poin. Sawise diluncurake data iki, akeh sing ngerti manawa judhul Grok3 minangka "paling kuat ing donya" ana efek sarana marginal sing jelas - logika model sing luwih gedhe sing ngasilake kinerja sing luwih kuat wis wiwit nuduhake asil sing saya suda.

Malah kanthi "skor dhuwur nanging kemampuan sing sithik," Grok2 duwe data pihak pertama sing berkualitas tinggi saka platform X (Twitter) kanggo ndhukung panggunaan. Nanging, ing latihan Grok3, xAI alamiah nemoni "langit-langit" sing saiki diadhepi OpenAI-kekurangan data latihan premium kanthi cepet mbukak sarana marginal saka kapabilitas model kasebut.

Pangembang Grok3 lan Musk kemungkinan sing pertama ngerti lan ngenali kasunyatan kasebut kanthi jero, mula Musk terus-terusan nyebutake ing media sosial yen versi pangguna saiki "isih mung beta" lan "versi lengkap bakal dirilis ing wulan-wulan sing bakal teka." Musk wis njupuk peran manajer produk Grok3, menehi saran pangguna menehi umpan balik babagan macem-macem masalah sing ditemoni ing bagean komentar. Dheweke bisa dadi manajer produk sing paling akeh diikuti ing Bumi.

Nanging, sajrone sedina, kinerja Grok3 mesthi nggawe weker kanggo wong-wong sing ngarep-arep bisa ngandelake "otot komputasi massive" kanggo nglatih model gedhe sing luwih kuat: adhedhasar informasi Microsoft sing kasedhiya kanggo umum, OpenAI's GPT-4 duwe ukuran parameter 1.8 triliun parameter, luwih saka sepuluh kaping GPT-3. Gosip nuduhake manawa ukuran parameter GPT-4.5 bisa uga luwih gedhe.

Minangka ukuran parameter model soar, biaya latihan uga skyrocketing. Kanthi anane Grok3, pesaing kaya GPT-4.5 lan liya-liyane sing pengin terus "ngobong dhuwit" kanggo entuk kinerja model sing luwih apik liwat ukuran parameter kudu nimbang langit-langit sing saiki katon jelas lan mikir babagan cara ngatasi. Ing wektu iki, Ilya Sutskever, mantan pangareping ilmuwan ing OpenAI, sadurunge nyatakake Desember pungkasan, "Pra-training sing kita kenal bakal rampung," sing wis muncul maneh ing diskusi, nyebabake upaya kanggo nemokake dalan sing bener kanggo latihan model gedhe.

Sudut pandang Ilya wis nyebabake weker ing industri kasebut. Dheweke kanthi akurat ngramalake kekeselen data anyar sing bisa diakses, sing ndadékaké kahanan ing ngendi kinerja ora bisa terus ditingkatake liwat akuisisi data, nyandhingake karo kekeselen bahan bakar fosil. Dheweke nuduhake yen "kaya lenga, konten sing digawe manungsa ing internet minangka sumber daya sing winates." Ing prediksi Sutskever, model generasi sabanjure, pasca-pra-training, bakal nduweni "otonomi sejati" lan kemampuan nalar "padha karo otak manungsa."

Ora kaya model sing wis dilatih saiki sing utamane gumantung karo konten sing cocog (adhedhasar konten model sing wis dipelajari sadurunge), sistem AI ing mangsa ngarep bakal bisa sinau lan netepake metodologi kanggo ngatasi masalah kanthi cara sing padha karo "mikir" otak manungsa. Manungsa bisa entuk keahlian dhasar ing subyek kanthi literatur profesional dhasar, dene model gedhe AI mbutuhake mayuta-yuta titik data kanggo entuk khasiat tingkat entri sing paling dhasar. Sanajan tembung kasebut rada diganti, pitakonan dhasar kasebut bisa uga ora dimangerteni kanthi bener, nggambarake manawa model kasebut ora bener-bener nambah intelijen: pitakonan dhasar sing durung bisa ditanggulangi sing kasebut ing wiwitan artikel minangka conto sing jelas babagan fenomena iki.

Kesimpulan

Nanging, ngluwihi kekuwatan kasar, yen Grok3 pancen sukses ngumumake menyang industri yen "model sing wis dilatih wis nyedhaki pungkasane," bakal nggawa implikasi sing signifikan kanggo lapangan kasebut.

Mbok menawa sawise kegilaan ing saubengé Grok3 saya suwe saya suda, kita bakal nyekseni luwih akeh kasus kaya Fei-Fei Li conto "nyetel model kinerja dhuwur ing set data tartamtu mung $50," pungkasane nemokake dalan sing bener menyang AGI.

Golek Solusi Kabel ELV

Kabel Kontrol

Kanggo BMS, BUS, Industri, Kabel Instrumentasi.

Klik kene

Sistem Kabel Terstruktur

Jaringan&Data, Kabel Serat Optik, Kabel Patch, Modul, Plat Muka

Klik kene

2024 Pameran & Events Review

Wektu kirim: Feb-19-2025

Nguji "Paling Cerdas ing Donya" Grok3

Pambuka

Grok3 apik, nanging ora luwih saka R1 utawa o1-Pro.

Perspektif Kritis babagan "Ngganggu Nvidia"

Kesimpulan

Kabel Kontrol

Sistem Kabel Terstruktur

April 16-18, 2024 Tengah-Energi ing Dubai

April 16-18, 2024 Securika ing Moskow

9 Mei 2024 PRODUK & TEKNOLOGI ANYAR ACARA LUNCINGAN ing Shanghai

22-25 Oktober 2024 KEAMANAN CHINA ing Beijing

19-20 Nov. 2024 SAMBUNGAN DUNIA KSA