Openai กล่าวว่ามันปรับใช้ระบบใหม่เพื่อตรวจสอบรูปแบบการให้เหตุผล AI ล่าสุด O3 และ O4-miniสำหรับการแจ้งเตือนที่เกี่ยวข้องกับภัยคุกคามทางชีวภาพและสารเคมี ระบบมีจุดมุ่งหมายเพื่อป้องกันไม่ให้โมเดลให้คำแนะนำที่สามารถสอนให้ใครบางคนดำเนินการโจมตีที่อาจเป็นอันตรายได้ ตามรายงานความปลอดภัยของ Openai–
O3 และ O4-Mini แสดงถึงความสามารถที่มีความหมายเพิ่มขึ้นมากกว่ารุ่นก่อนหน้าของ OpenAI บริษัท กล่าวและทำให้เกิดความเสี่ยงใหม่ในมือของนักแสดงที่ไม่ดี ตามเกณฑ์มาตรฐานภายในของ Openai O3 มีทักษะมากกว่าในการตอบคำถามเกี่ยวกับการสร้างภัยคุกคามทางชีวภาพบางประเภทโดยเฉพาะ ด้วยเหตุผลนี้-และเพื่อลดความเสี่ยงอื่น ๆ-OpenAI ได้สร้างระบบการตรวจสอบใหม่ซึ่ง บริษัท อธิบายว่าเป็น “การตรวจสอบการใช้เหตุผลที่เน้นความปลอดภัย”
จอภาพซึ่งได้รับการฝึกฝนให้กับเหตุผลเกี่ยวกับนโยบายเนื้อหาของ OpenAi ทำงานบน O3 และ O4-MINI มันถูกออกแบบมาเพื่อระบุการแจ้งเตือนที่เกี่ยวข้องกับความเสี่ยงทางชีวภาพและทางเคมีและสั่งให้แบบจำลองปฏิเสธที่จะให้คำแนะนำเกี่ยวกับหัวข้อเหล่านั้น
ในการสร้างพื้นฐาน OpenAi มีทีมงานสีแดงใช้เวลาประมาณ 1,000 ชั่วโมงตั้งค่าสถานะการสนทนาที่เกี่ยวข้องกับ Biorisk จาก O3 และ O4-MINI ในระหว่างการทดสอบที่ OpenAI จำลอง“ ตรรกะการบล็อก” ของจอภาพความปลอดภัยโมเดลปฏิเสธที่จะตอบสนองต่อความเสี่ยงที่เกิดขึ้นได้ 98.7% ของเวลาตาม OpenAI
Openai ยอมรับว่าการทดสอบไม่ได้อธิบายถึงผู้ที่อาจลองพรอมต์ใหม่หลังจากถูกบล็อกโดยจอภาพซึ่งเป็นสาเหตุที่ บริษัท บอกว่าจะยังคงพึ่งพาส่วนหนึ่งของการตรวจสอบของมนุษย์
O3 และ O4-mini ไม่ข้ามเกณฑ์“ ความเสี่ยงสูง” ของ Openai สำหรับ Biorisks ตาม บริษัท อย่างไรก็ตามเมื่อเทียบกับ O1 และ GPT-4, Openai กล่าวว่ารุ่นแรกของ O3 และ O4-Mini ได้รับการพิสูจน์แล้วว่ามีประโยชน์มากขึ้นในการตอบคำถามเกี่ยวกับการพัฒนาอาวุธชีวภาพ

บริษัท กำลังติดตามว่าแบบจำลองของมันสามารถทำให้ผู้ใช้ที่เป็นอันตรายได้ง่ายขึ้นในการพัฒนาภัยคุกคามทางเคมีและชีวภาพ กรอบการเตรียมความพร้อม–
OpenAI กำลังพึ่งพาระบบอัตโนมัติมากขึ้นเพื่อลดความเสี่ยงจากโมเดล ตัวอย่างเช่นเพื่อป้องกัน เครื่องกำเนิดภาพพื้นเมืองของ GPT-4O จากการสร้างวัสดุการล่วงละเมิดทางเพศเด็ก (CSAM)OpenAI กล่าวว่าใช้การตรวจสอบการใช้เหตุผลคล้ายกับ บริษัท ที่ใช้สำหรับ O3 และ O4-MINI
แต่นักวิจัยหลายคนได้หยิบยกข้อกังวลของ OpenAI ไม่ได้จัดลำดับความสำคัญความปลอดภัยเท่าที่ควร Metr หนึ่งในหุ้นส่วนของ บริษัท สีแดงของ บริษัท กล่าวว่ามีเวลาค่อนข้างน้อยในการทดสอบ O3 บนมาตรฐานสำหรับพฤติกรรมการหลอกลวง ในขณะเดียวกัน Openai ตัดสินใจที่จะไม่ปล่อยก รายงานความปลอดภัยสำหรับรุ่น GPT-4.1ซึ่งเปิดตัวเมื่อต้นสัปดาห์นี้
(tagstotranslate) AI Security (T) Chatgpt