መግቢያ

Grok3 አስቀድሞ የሰለጠኑ ሞዴሎች "የመጨረሻ ነጥብ" ይሆናል ብለው ያስባሉ?

ኤሎን ማስክ እና የ xAI ቡድን በቀጥታ ስርጭት ወቅት የ Grok, Grok3 የቅርብ ጊዜውን ስሪት በይፋ ጀምሯል. ከዚህ ክስተት በፊት፣ ከፍተኛ መጠን ያለው ተዛማጅ መረጃ፣ ከመስክ 24/7 የማስተዋወቂያ ሃይፕ ጋር ተዳምሮ፣ ከግሮk3 ዓለም አቀፋዊ ተስፋዎችን ወደ ታይቶ በማይታወቅ ደረጃ አሳድጓል። ልክ ከሳምንት በፊት ማስክ በ DeepSeek R1 ላይ አስተያየት ሲሰጥ በቀጥታ ስርጭት ላይ በልበ ሙሉነት “xAI የተሻለ AI ሞዴል ሊጀምር ነው” ብሏል። በቀጥታ ከቀረበው መረጃ ግሮክ3 በሒሳብ፣ በሳይንስ እና በፕሮግራም አወጣጥ መለኪያዎች ውስጥ ካሉት ዋና ዋና ሞዴሎች ሁሉ በልጦ እንደ ወጣ ተዘግቧል። ሆኖም፣ እነዚህ በአሁኑ ጊዜ የማስክ ማረጋገጫዎች ብቻ ናቸው። ከጅማሬው በኋላ የቅርብ ጊዜውን የGrok3 የቅድመ-ይሁንታ ስሪት ሞከርኩ እና ለትላልቅ ሞዴሎች የሚታወቀውን የማታለያ ጥያቄ አቀረብኩ፡ "የትኛው ትልቅ ነው 9.11 ወይስ 9.9?" በሚያሳዝን ሁኔታ፣ ያለ ምንም ብቃቶች ወይም ምልክቶች፣ ስማርት ግሩክ3 እየተባለ የሚጠራው አሁንም ይህንን ጥያቄ በትክክል መመለስ አልቻለም። Grok3 የጥያቄውን ትርጉም በትክክል መለየት አልቻለም።

ይህ ፈተና የብዙ ወዳጆችን ትኩረት በፍጥነት ስቧል፣ እና በአጋጣሚ፣ በባህር ማዶ የተለያዩ ተመሳሳይ ሙከራዎች ግሮክ3 ከመሰረታዊ የፊዚክስ/የሂሳብ ጥያቄዎች ጋር ሲታገል አሳይተዋል እንደ "ከፒሳ ዘንበል ማማ ላይ የቱ ኳስ ቀድሞ ይወድቃል?" ስለዚህም “ቀላል ጥያቄዎችን ለመመለስ ፈቃደኛ ያልሆነ ሊቅ” ተብሎ በቀልድ ተለጥፏል።

Grok3 ጥሩ ነው, ነገር ግን ከ R1 ወይም o1-Pro የተሻለ አይደለም.

ግሮክ3 በተግባር በብዙ የጋራ የእውቀት ፈተናዎች ላይ "ውድቀቶችን" አጋጥሞታል። በ xAI የማስጀመሪያ ዝግጅቱ ወቅት ማስክ ግሩክ 3ን በመጠቀም የገፀ ባህሪ ክፍሎችን እና ተፅእኖዎችን ለመተንተን ግሩክ 3ን በመጠቀም አሳይቷል ፣ይህም ብዙ ጊዜ እጫወታለሁ እያለ ነበር ፣ነገር ግን በግሮክ3 የቀረቡት አብዛኛዎቹ መልሶች የተሳሳቱ ናቸው። በቀጥታ ስርጭት ወቅት ማስክ ይህንን ግልፅ ጉዳይ አላስተዋለም።

ይህ ስህተት በውጭ አገር የሚገኙ ኔትዎርኮች በጨዋታ ላይ "ተተኪ ለማግኘት" ብለው ሙክን ለማሾፍ ተጨማሪ ማስረጃዎችን ከማቅረብ ባለፈ የ Grok3ን በተግባራዊ አፕሊኬሽኖች ላይ ያለውን አስተማማኝነት በተመለከተ ትልቅ ስጋት አስነስቷል። ለእንዲህ ዓይነቱ "ሊቅ" ትክክለኛ አቅሙ ምንም ይሁን ምን፣ እንደ ማርስ ፍለጋ ተግባራት ባሉ እጅግ በጣም ውስብስብ የመተግበሪያ ሁኔታዎች ውስጥ ያለው አስተማማኝነት በጥርጣሬ ውስጥ ይቆያል።

በአሁኑ ጊዜ ብዙ ሞካሪዎች ከሳምንታት በፊት ወደ ግሮክ 3 መዳረሻ የተቀበሉ እና የአምሳያውን ችሎታዎች ትናንት ለጥቂት ሰዓታት የሞከሩት ሁሉም ወደ አንድ የጋራ መደምደሚያ ያመለክታሉ: "Grok3 ጥሩ ነው, ነገር ግን ከ R1 ወይም ከ o1-Pro የተሻለ አይደለም."

በ "Nvidiya ረብሻ" ላይ ወሳኝ አመለካከት

በተለቀቀው ጊዜ በይፋ በቀረበው PPT ውስጥ Grok3 በቻትቦት አሬና ውስጥ “እጅግ ወደፊት” እንደነበረ ታይቷል ነገር ግን ይህ በጥበብ የተጠቀመው ግራፊክ ቴክኒኮች፡ በመሪዎች ሰሌዳው ላይ ያለው ቀጥ ያለ ዘንግ በ1400-1300 የውጤት ክልል ውስጥ ውጤቶችን ብቻ ተዘርዝሯል ፣ ይህም በፈተና ውጤቶች ውስጥ የመጀመሪያው የ 1% ልዩነት በዚህ አቀራረብ ውስጥ ልዩ ጉልህ ሆኖ ይታያል።

በተጨባጭ የሞዴል ውጤት ውጤቶች፣ Grok3 ከ DeepSeek R1 እና GPT-4.0 በ1-2% ብቻ ነው የሚቀድመው፣ ይህ ደግሞ “ምንም የሚታይ ልዩነት የለም” ካሉት በተግባራዊ ሙከራዎች ከብዙ ተጠቃሚዎች ተሞክሮ ጋር ይዛመዳል። Grok3 ከተከታዮቹ በ1%-2% ብቻ ይበልጣል።

ምንም እንኳን ግሮክ3 በአሁኑ ጊዜ በይፋ ከተሞከሩት ሞዴሎች ሁሉ የላቀ ውጤት ያስመዘገበ ቢሆንም ብዙዎች ይህንን በቁም ነገር አይመለከቱትም፤ ለነገሩ፣ xAI ቀደም ብሎ በ Grok2 ዘመን በ"ውጤት ማጭበርበር" ተወቅሷል። የመሪ ሰሌዳው የመልስ ርዝመት ዘይቤን ሲቀጣ ውጤቱ በጣም ቀንሷል፣የኢንዱስትሪው ውስጥ አዋቂዎች ብዙ ጊዜ "ከፍተኛ ነጥብ የመስጠት ነገር ግን ዝቅተኛ ችሎታ" የሚለውን ክስተት ተችተዋል።

በመሪዎች ሰሌዳው "ማታለል" ወይም በምሳሌዎች ውስጥ ንድፍ አውጪዎች xAI እና Musk በሞዴል ችሎታዎች ውስጥ "ጥቅሉን መምራት" የሚለውን አስተሳሰብ ያሳያሉ። ማስክ ለእነዚህ ህዳጎች ከፍተኛ ዋጋ ከፍሏል፡ በምርቃቱ ወቅት 200,000 H100 ጂፒዩዎችን (በቀጥታ ስርጭት ላይ "ከ100,000 በላይ" በማለት) እና አጠቃላይ የስልጠና ጊዜ 200 ሚሊዮን ሰአታት በማሳካት በጉራ ተናግሯል። ይህም አንዳንዶች ለጂፒዩ ኢንደስትሪ ሌላ ጠቃሚ ጥቅምን እንደሚወክል እንዲያምኑ እና DeepSeek በዘርፉ ላይ የሚያሳድረውን ተጽዕኖ እንደ "ጅል" አድርገው እንዲመለከቱት አድርጓቸዋል። በተለይም, አንዳንዶች ከፍተኛ የስሌት ኃይል የወደፊት ሞዴል ስልጠና እንደሚሆን ያምናሉ.

ነገር ግን፣ አንዳንድ መረቦች የ2000 H800 ጂፒዩ ፍጆታን በሁለት ወራት ውስጥ በማነፃፀር DeepSeek V3 ን ለማምረት የ Grok3 ትክክለኛ የስልጠና የሃይል ፍጆታ ከV3 በ263 እጥፍ ይበልጣል። 1402 ነጥብ ባመጣው DeepSeek V3 እና Grok3 መካከል ያለው ልዩነት ከ100 ነጥብ በታች ነው። የዚህ መረጃ ይፋ ከሆነ በኋላ ብዙዎች ከ Grok3 ርዕስ በስተጀርባ "የአለም ጠንካራው" ግልጽ የሆነ የኅዳግ መገልገያ ውጤት እንዳለ ተገነዘቡ - ጠንካራ አፈፃፀም የሚያመነጩ ትላልቅ ሞዴሎች አመክንዮ መመለሻ መቀነስ መጀመሩን ያሳያል።

በ"ከፍተኛ ነጥብ ግን ዝቅተኛ ችሎታ" ቢሆንም ግሮክ2 አጠቃቀምን ለመደገፍ ከX (Twitter) መድረክ ከፍተኛ ጥራት ያለው የመጀመሪያ ወገን ውሂብ ነበረው። ነገር ግን፣ በGrok3 ስልጠና፣ xAI በተፈጥሮ በአሁኑ ጊዜ OpenAI የሚያጋጥመውን "ጣሪያ" አጋጥሞታል—የፕሪሚየም የስልጠና መረጃ እጥረት የአምሳያው አቅም ህዳግ መጠቀሚያነት በፍጥነት ያጋልጣል።

የ Grok3 እና Musk አዘጋጆች እነዚህን እውነታዎች በጥልቀት ለመረዳት እና ለመለየት የመጀመሪያዎቹ ሊሆኑ ይችላሉ፣ለዚህም ነው ማስክ ተጠቃሚዎች አሁን እያጋጠሙት ያለው ስሪት “አሁንም ቤታ ብቻ ነው” እና “ሙሉው እትም በሚቀጥሉት ወሮች ውስጥ እንደሚለቀቅ በማህበራዊ ሚዲያ ላይ የጠቀሰው” Musk የ Grok3 ምርት አስተዳዳሪን ሚና ተጫውቷል, ተጠቃሚዎች በአስተያየቶች ክፍል ውስጥ ስላጋጠሟቸው የተለያዩ ጉዳዮች አስተያየት እንዲሰጡ ይጠቁማል. እሱ በምድር ላይ በጣም የተከተለ የምርት አስተዳዳሪ ሊሆን ይችላል።

ሆኖም፣ በአንድ ቀን ውስጥ፣ የGrok3 አፈጻጸም በ"ግዙፍ ስሌት ጡንቻ" ላይ ለመተማመን ተስፋ ለሚያደርጉ ሰዎች ማስጠንቀቂያ ሰጠ ያለጥርጥር ጠንካራ ትላልቅ ሞዴሎችን ለማሰልጠን፡ በይፋ በሚገኙ የማይክሮሶፍት መረጃ መሰረት፣ የOpenAI's GPT-4 ከ GPT-3 አስር እጥፍ በላይ የ1.8 ትሪሊዮን መለኪያዎች መለኪያ አለው። የ GPT-4.5 የመለኪያ መጠን ከዚህም የበለጠ ሊሆን እንደሚችል ወሬዎች ይጠቁማሉ።

የአምሳያው መለኪያ መጠኖች እያደጉ ሲሄዱ፣ የስልጠና ወጪውም እየጨመረ ነው። በ Grok3 መገኘት፣ እንደ GPT-4.5 ያሉ ተፎካካሪዎች እና ሌሎች በመለኪያ መጠን የተሻለ የሞዴል አፈጻጸም ለማስመዝገብ “ገንዘብ ማቃጠል” ለመቀጠል የሚፈልጉ ተፎካካሪዎች አሁን በእይታ ላይ ያለውን ጣሪያ ከግምት ውስጥ ማስገባት እና እንዴት ማሸነፍ እንደሚችሉ ያስቡ። በዚህ ቅጽበት ኢሊያ ሱትስኬቨር በ OpenAI የቀድሞ ዋና ሳይንቲስት ቀደም ሲል ባለፈው ታኅሣሥ ወር ላይ "የምናውቀው የቅድመ-ሥልጠና ወደ ማብቂያው ይመጣል" በማለት ተናግሯል, ይህም በውይይት እንደገና በመነሳት ትላልቅ ሞዴሎችን ለማሰልጠን ትክክለኛውን መንገድ ለማግኘት ጥረት አድርጓል.

የኢሊያ አመለካከት በኢንዱስትሪው ውስጥ ስጋት ፈጥሯል። ሊደረስበት የሚችል አዲስ መረጃ መሟጠጥን በትክክል አስቀድሞ አይቷል፣ ይህም አፈጻጸሙን በመረጃ ማግኛ ሂደት መቀጠል ወደማይችልበት ሁኔታ አመራ፣ ይህም ከቅሪተ አካል ነዳጆች ድካም ጋር በማመሳሰል ነው። "እንደ ዘይት ሁሉ በበይነመረቡ ላይ በሰው የተገኘ ይዘት ውስን ሀብት ነው" ሲል አመልክቷል። በሱትስኬቨር ትንበያዎች፣ የሚቀጥለው ትውልድ ሞዴሎች፣ ከቅድመ-ስልጠና በኋላ፣ “እውነተኛ ራስን በራስ የማስተዳደር” እና የማመዛዘን ችሎታዎች “ከሰው አእምሮ ጋር ተመሳሳይነት” ይኖራቸዋል።

ከዛሬዎቹ አስቀድሞ ከሰለጠኑት ሞዴሎች በዋነኛነት በይዘት ማዛመድ (ቀደም ሲል በተማረው የሞዴል ይዘት ላይ ተመስርተው)፣ የወደፊት AI ስርዓቶች ከሰው አእምሮ "አስተሳሰብ" ጋር በሚመሳሰል መልኩ ችግሮችን ለመፍታት ዘዴዎችን መማር እና መመስረት ይችላሉ። አንድ ሰው በመሠረታዊ ሙያዊ ሥነ-ጽሑፍ ብቻ በአንድ ርዕሰ ጉዳይ ላይ መሠረታዊ ብቃቱን ማሳካት ይችላል፣ የ AI ትልቅ ሞዴል ግን በጣም መሠረታዊውን የመግቢያ ደረጃ ውጤታማነት ለማግኘት በሚሊዮን የሚቆጠሩ የመረጃ ነጥቦችን ይፈልጋል። የቃላቶቹ አጻጻፍ በትንሹ ሲቀየር እንኳን እነዚህ መሰረታዊ ጥያቄዎች በትክክል ላይረዱ ይችላሉ፣ ይህም ሞዴሉ በእውቀት ላይ በትክክል እንዳልተሻሻለ ያሳያል፡ በአንቀጹ መጀመሪያ ላይ የተጠቀሱት መሰረታዊ እና ያልተፈቱ ጥያቄዎች ለዚህ ክስተት ግልፅ ምሳሌ ናቸው።

መደምደሚያ

ነገር ግን፣ ከጉልበት በላይ፣ ግሮክ3 በእርግጥም ለኢንዱስትሪው “ቀድሞ የሰለጠኑ ሞዴሎች ወደ ፍጻሜያቸው እየተቃረበ ነው” በማለት ከተሳካለት በመስክ ላይ ትልቅ አንድምታ ይኖረዋል።

ምናልባት በ Grok3 ዙሪያ ያለው ብስጭት ቀስ በቀስ ከቀነሰ በኋላ፣ እንደ Fei-Fei Li ምሳሌ “ከፍተኛ አፈጻጸም ያላቸውን ሞዴሎች በአንድ የተወሰነ የውሂብ ስብስብ ላይ በ$50 ብቻ ማስተካከል” የመሳሰሉ ብዙ ጉዳዮችን እንመሰክራለን።

የኤልቪ ኬብል መፍትሄን ያግኙ

የመቆጣጠሪያ ገመዶች

ለቢኤምኤስ፣ ለባስ፣ ለኢንዱስትሪ፣ ለመሳሪያ ገመድ።

እዚህ ጠቅ ያድርጉ

የተዋቀረ የኬብል ስርዓት

አውታረ መረብ እና ውሂብ፣ የፋይበር ኦፕቲክ ኬብል፣ ጠጋኝ ኮርድ፣ ሞጁሎች፣ የፊት ሰሌዳ

እዚህ ጠቅ ያድርጉ

2024 ኤግዚቢሽኖች እና ክስተቶች ግምገማ

የልጥፍ ጊዜ: የካቲት-19-2025

"በዓለም ላይ በጣም ብልህ" Grok3 በመሞከር ላይ

መግቢያ

Grok3 ጥሩ ነው, ነገር ግን ከ R1 ወይም o1-Pro የተሻለ አይደለም.

በ "Nvidiya ረብሻ" ላይ ወሳኝ አመለካከት

መደምደሚያ

የመቆጣጠሪያ ገመዶች

የተዋቀረ የኬብል ስርዓት

ኤፕሪል 16-18፣ 2024 መካከለኛ-ምስራቅ-ኢነርጂ በዱባይ

ኤፕሪል 16-18, 2024 ሴኩሪካ በሞስኮ

ግንቦት 9፣ 2024 አዲስ ምርቶች እና ቴክኖሎጂዎች በሻንጋይ የጀመሩት ክስተት

ኦክቶበር 22-25፣ 2024 ሴኩሪቲ ቻይና በቤጂንግ

ህዳር 19-20፣ 2024 የተገናኘው ዓለም ኬኤስኤ