Google DeepMind กำลังเปิดตัว ราศีเมถุน 2.5 คิดลึก ๆซึ่ง บริษัท กล่าวว่าเป็นรูปแบบการให้เหตุผล AI ที่ทันสมัยที่สุดสามารถตอบคำถามได้โดยการสำรวจและพิจารณาแนวคิดหลายอย่างพร้อมกันแล้วใช้ผลลัพธ์เหล่านั้นเพื่อเลือกคำตอบที่ดีที่สุด
สมาชิกของ Google $ 250 ต่อเดือนของ Google เป็นพิเศษ การสมัครสมาชิกจะได้รับการเข้าถึง Gemini 2.5 Deep Suppose ในแอพราศีเมถุนเริ่มตั้งแต่วันศุกร์
เปิดตัวครั้งแรกในเดือนพฤษภาคมที่ Google I/O 2025, Gemini 2.5 Deep Suppose เป็นรูปแบบหลายตัวแทนที่เปิดเผยต่อสาธารณะของ Google ระบบเหล่านี้วางไข่เอเจนต์หลายตัวเพื่อจัดการกับคำถามในแบบคู่ขนานกระบวนการที่ใช้ทรัพยากรการคำนวณมากกว่าตัวแทนเดียวอย่างมีนัยสำคัญ แต่มีแนวโน้มที่จะส่งผลให้คำตอบที่ดีขึ้น
Google ใช้การเปลี่ยนแปลงของ Gemini 2.5 Deep Suppose to ทำคะแนนเหรียญทอง ที่ Olympiad คณิตศาสตร์นานาชาติในปีนี้ (IMO)
นอกเหนือจาก Gemini 2.5 Deep Suppose บริษัท บอกว่ามันกำลังปล่อยโมเดลที่ใช้ใน IMO ให้กับกลุ่มนักคณิตศาสตร์และนักวิชาการที่เลือก Google กล่าวว่าโมเดล AI นี้“ ใช้เวลาหลายชั่วโมงในการให้เหตุผล” แทนที่จะเป็นวินาทีหรือไม่กี่นาทีเช่นโมเดล AI ของผู้บริโภคส่วนใหญ่ บริษัท หวังว่ารูปแบบ IMO จะเพิ่มความพยายามในการวิจัยและมีจุดมุ่งหมายเพื่อรับข้อเสนอแนะเกี่ยวกับวิธีการปรับปรุงระบบหลายตัวแทนสำหรับกรณีการใช้งานทางวิชาการ
Google ตั้งข้อสังเกตว่ารูปแบบการคิดของ Gemini 2.5 เป็นการปรับปรุงที่สำคัญมากกว่าสิ่งที่ประกาศไว้ที่ I/O บริษัท ยังอ้างว่าได้พัฒนา“ เทคนิคการเรียนรู้การเสริมแรงใหม่” เพื่อส่งเสริม Gemini 2.5 Deep Suppose เพื่อใช้ประโยชน์จากเส้นทางการใช้เหตุผลที่ดีขึ้น
“ ความคิดที่ลึกล้ำสามารถช่วยให้ผู้คนจัดการกับปัญหาที่ต้องใช้ความคิดสร้างสรรค์การวางแผนเชิงกลยุทธ์และการปรับปรุงทีละขั้นตอน” Google กล่าวในโพสต์บล็อกที่แชร์กับ TechCrunch
กิจกรรม TechCrunch
ซานฟรานซิสโก
–
27-29 ตุลาคม 2568
บริษัท กล่าวว่า Gemini 2.5 Deep Suppose ประสบความสำเร็จในการสอบครั้งสุดท้ายของมนุษยชาติ (HLE)-การทดสอบที่ท้าทายการวัดความสามารถของ AI ในการตอบคำถามหลายพันคำถามในคณิตศาสตร์มนุษยศาสตร์และวิทยาศาสตร์ Google อ้างว่าโมเดลได้คะแนน 34.8percentสำหรับ HLE (ไม่มีเครื่องมือ) เมื่อเทียบกับ Grok 4 ของ Xai ซึ่งทำคะแนนได้ 25.4percentและ Openai’s O3 ซึ่งทำคะแนนได้ 20.3%
Google ยังกล่าวอีกว่า Gemini 2.5 Deep Suppose มีประสิทธิภาพสูงกว่ารุ่น AI จาก OpenAI, XAI และมานุษยวิทยาบน LiveCodeBench6 ซึ่งเป็นการทดสอบที่ท้าทายของงานการเข้ารหัสที่แข่งขันได้ โมเดลของ Google ได้คะแนน 87.6percentในขณะที่ Grok 4 ได้คะแนน 79percentและ Openai’s O3 ได้คะแนน 72%

Gemini 2.5 Deep Suppose ทำงานโดยอัตโนมัติกับเครื่องมือเช่นการดำเนินการรหัสและการค้นหาของ Google และ บริษัท บอกว่าสามารถผลิต“ การตอบสนองที่ยาวนานกว่า” มากกว่ารุ่น AI แบบดั้งเดิม
ในการทดสอบของ Google โมเดลได้สร้างงานการพัฒนาเว็บที่มีรายละเอียดและสวยงามมากขึ้นเมื่อเทียบกับรุ่น AI อื่น ๆ บริษัท อ้างว่าแบบจำลองสามารถช่วยเหลือนักวิจัยและ“ อาจเร่งเส้นทางสู่การค้นพบ”

ดูเหมือนว่า AI Labs ชั้นนำหลายแห่งกำลังมาบรรจบกันรอบ ๆ วิธีการหลายตัวแทน
Xai ของ Elon Musk เพิ่งเปิดตัวระบบหลายตัวแทนของตัวเอง Grok 4 หนักซึ่งบอกว่าสามารถบรรลุผลการดำเนินงานชั้นนำของอุตสาหกรรมในการเปรียบเทียบหลายประการ นักวิจัยของ Openai Noam Brown กล่าวในก พอดคาสต์ ว่าโมเดล AI ที่ยังไม่ได้เผยแพร่ บริษัท เคยได้รับเหรียญทองที่ Olympiad (IMO) ระหว่างประเทศในปีนี้ก็เป็นระบบหลายตัวแทน ในขณะเดียวกัน ตัวแทนวิจัยของมานุษยวิทยาซึ่งสร้างบทสรุปการวิจัยอย่างละเอียดนั้นขับเคลื่อนด้วยระบบหลายตัวแทน
แม้จะมีประสิทธิภาพที่แข็งแกร่ง แต่ดูเหมือนว่าระบบหลายตัวแทนมีค่าใช้จ่ายมากกว่าที่จะให้บริการมากกว่ารุ่น AI แบบดั้งเดิม นั่นหมายความว่า บริษัท เทคโนโลยีอาจรักษาระบบเหล่านี้ให้อยู่เบื้องหลังแผนการสมัครสมาชิกที่แพงที่สุดซึ่ง XAI และตอนนี้ Google เลือกทำ
ในอีกไม่กี่สัปดาห์ข้างหน้า Google กล่าวว่ามีแผนที่จะแบ่งปัน Gemini 2.5 Deep Suppose กับกลุ่มผู้ทดสอบที่เลือกผ่าน Gemini API บริษัท บอกว่าต้องการเข้าใจดีขึ้นว่านักพัฒนาและองค์กรอาจใช้ระบบหลายตัวแทนได้อย่างไร
(tagstotranslate) ตัวแทน