หากคุณตรวจสอบเกณฑ์มาตรฐานยอดนิยมที่ใช้ในการวัดผลการปฏิบัติงาน LLM แล้ว คุณคงจะรู้สึกว่า AI นั้นฉลาดมาก
นี่เป็นเพียงความประทับใจระดับผิวเผินเท่านั้น แต่ว่า AI ดีกว่ามนุษย์โดยทั่วไปในงานทางปัญญาจริงหรือ?
โมเดลแนวหน้าอย่าง o1 จาก OpenAI และ Claude 3.5 Sonnet จาก Anthropic ทำงานได้ดีกว่ามนุษย์ผู้เชี่ยวชาญในหลายๆ สาขา รวมถึงกฎหมาย การเขียนโค้ด และคณิตศาสตร์ แล้วทำไม ChatGPT ถึงไม่สามารถแก้ปัญหาการใช้เหตุผลเชิงพื้นที่ง่ายๆ หรือคำถามที่ไร้สาระได้ล่ะ เรายังคงพูดถึง "โมเดลภาษาขนาดใหญ่" อยู่ ซึ่งโมเดลเหล่านี้รับตัวอักษรจำนวนมากและพยายามทำนายว่าตัวอักษรใดที่จะแสดงออกมาสำหรับการค้นหาที่กำหนด
โปรดทราบว่าสมการนี้ไม่ได้กล่าวถึง "ความคิด" ที่แท้จริงในส่วนใดเลย โมเดลเหล่านี้เป็นเพียง นกแก้วสุ่ม ชนิดหนึ่งที่พยายามดึงข้อมูลที่ถูกต้องจากชุดข้อมูลการฝึกแทนที่จะพิจารณาคำถามของคุณจริงๆ อย่างน้อยก็เป็นเช่นนี้จนกระทั่ง OpenAI เปิดตัว o1-preview แต่เราจะพูดถึงเรื่องนี้เพิ่มเติมในภายหลัง
ในบรรดาผู้ที่เริ่มตั้งคำถามเกี่ยวกับเกณฑ์มาตรฐาน LLM ที่มีอยู่สำหรับความเกี่ยวข้องนั้น มีผู้เขียน “AI Explained” ซึ่งเป็นช่อง YouTube ยอดนิยมที่ฉันเป็นแฟนตัวยง ฟิลิป (ซึ่งเป็นชื่อของ YouTuber) สังเกตเห็นว่าเกณฑ์มาตรฐานอุตสาหกรรมนั้นมีลักษณะคำถามที่ชัดเจน ซึ่งส่วนใหญ่ยังเปิดเผยต่อสาธารณะด้วย ซึ่งหมายความว่าคำถามที่แน่นอนเหล่านั้นไม่เพียงแต่สามารถเป็นส่วนหนึ่งของชุดข้อมูลการฝึกอบรมได้เท่านั้น แต่เนื่องจากการทำให้เป็นมาตรฐาน จึงทำให้โมเดลสามารถระบุและใช้รูปแบบจากข้อมูลการฝึกอบรมโดยรวมได้ง่ายขึ้น
หากพูดให้เข้าใจง่ายๆ นักวิจัยด้าน AI ที่สร้างเทคโนโลยีที่ซับซ้อนและก้าวล้ำสามารถหาวิธีให้โมเดลของตนมีคำถามและคำตอบที่เกี่ยวข้องเพื่อ "จดจำ" ก่อนการประเมินผลได้อย่างแน่นอน
เมื่อพิจารณาผลลัพธ์ของโมเดลชั้นนำที่มีอยู่ o1 จาก OpenAI เราสามารถสรุปได้ว่าโมเดลดังกล่าวทำคะแนนได้สูงกว่าค่าเฉลี่ยในสาขาวิชาชีพต่างๆ มากมาย ซึ่งก็เป็นความจริง แต่ผลลัพธ์นี้ขึ้นอยู่กับความพร้อมของข้อมูลการฝึกอบรมที่เกี่ยวข้องและตัวอย่างในอดีตจากสาขาเฉพาะนั้นๆ อย่าเข้าใจฉันผิด โมเดลเหล่านี้มีประสิทธิภาพในการให้คำตอบตามตำราเรียนได้อย่างยอดเยี่ยม และสิ่งนี้เองถือเป็นสิ่งที่น่าประทับใจอย่างยิ่ง
อย่างไรก็ตาม คำว่า "ปัญญาประดิษฐ์" หมายความถึงมากกว่าการค้นหาข้อมูลเพียงอย่างเดียว แต่ควรมีการคิดเชิงปฏิบัติจริงด้วย ดังนั้น การติดตามตัวเลขที่น่าประทับใจทั้งหมดข้างต้นจึงเป็นเรื่องที่ว่า "ปัญญาประดิษฐ์" ดังกล่าวสามารถตอบคำถามการใช้เหตุผลที่ยุ่งยากได้หรือไม่ ปัญญาประดิษฐ์มีสติปัญญาเชิงพื้นที่หรือไม่ หรือสามารถนำทางได้ดีในสถานการณ์ทางสังคมทั่วไปหรือไม่ คำตอบคือ - บางครั้ง
ต่างจากคำถามเฉพาะสาขาที่มีคำตอบที่กำหนดไว้แล้ว ปัญหาที่มนุษย์แก้ไขในแต่ละวันมักต้องใช้ความเข้าใจบริบทที่เกินเลยภาษาธรรมชาติ (ซึ่งเป็นสิ่งเดียวที่ LLM มี)
ด้านบนคือผู้ทำคะแนนสูงสุดในเกณฑ์มาตรฐาน SIMPLE ซึ่งให้คำถาม LLM ที่คนทั่วไปคิดว่าไม่สำคัญแต่โมเดลยังไม่สามารถตอบได้อย่างแน่นอน เราคุ้นเคยกับการเห็น AI ทำได้ดีกว่ามนุษย์ทั่วไปมากในการสอบหรือเกณฑ์มาตรฐานเฉพาะทาง แต่ที่นี่ ประสิทธิภาพโมเดลชั้นนำอยู่ที่ 41.7% (o1-preview) เทียบกับ 83.7% ของมนุษย์ทั่วไป เกณฑ์มาตรฐานนี้ใช้คำถามแบบเลือกตอบ 200 ข้อที่เน้นที่การใช้เหตุผลเชิงปริภูมิ-เวลา สติปัญญาทางสังคม และคำถามเชิงหลอกตา
คุณสมบัติที่สำคัญที่สุดของเกณฑ์มาตรฐานคือคำถามเหล่านี้ไม่เปิดเผยต่อสาธารณะ ดังนั้นห้องปฏิบัติการ AI จึงไม่สามารถเพิ่มคำถามเหล่านี้ลงในข้อมูลการฝึกอบรมได้ คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับเกณฑ์มาตรฐานนี้ ได้ที่นี่
แนวทางใหม่ในการวัดผลการปฏิบัติงาน LLM นี้แสดงให้เห็นว่าแบบจำลองทั้งหมดยังห่างไกลจากความสามารถในการใช้เหตุผลของมนุษย์โดยเฉลี่ยเพียงใด ยิ่งช่องว่างนี้ปิดลงเร็วเท่าไรในอีกไม่กี่เดือนข้างหน้า คำตอบ "ใช่" ต่อพาดหัวข่าวของเราก็จะชัดเจนขึ้นเท่านั้น ตัวชี้วัดใหม่ที่น่าสนใจที่ควรจับตามองหากคุณมีความกระตือรือร้นแต่ระมัดระวังเกี่ยวกับ AI