Generative AI ถือเป็นเทคโนโลยีที่ก้าวล้ำอย่างมาก โมเดลอย่าง GPT-4 ได้เข้ามามีบทบาทอย่างมากทั่วโลกด้วยความสามารถเหนือจริงในการสร้างข้อความที่เลียนแบบบทสนทนาของมนุษย์ เขียนเรียงความ เขียนโค้ด และแม้แต่เสนอวิธีแก้ปัญหาที่สร้างสรรค์สำหรับงานที่ค่อนข้างซับซ้อน เราก้าวเข้าใกล้อนาคตที่ AI เข้ามาช่วยมากขึ้นเรื่อยๆ ซึ่งผู้ช่วยดิจิทัลของเราจะเข้าใจและตอบสนองต่อความต้องการของเราได้อย่างง่ายดาย แค่นี้ก็เพียงพอแล้วที่จะทำให้ใครก็ตามเชื่อได้ใช่ไหม
เกือบจะใช่แล้ว… แต่ยังไม่ใช่ทั้งหมด
จะเห็นได้ว่าภายใต้ความแวววาวของผลลัพธ์อันหรูหราและความละเอียดเชิงไวยากรณ์ของ GPT นั้นยังมีข้อจำกัดพื้นฐานอยู่ ซึ่งทำให้พวกเราผู้เชี่ยวชาญด้านเทคโนโลยีหลายคนคลั่งไคล้ นั่นคือ AI เชิงสร้างสรรค์นั้นมีปัญหาในการจัดการกับข้อมูลใหม่ทั้งหมด โดยเฉพาะอย่างยิ่งในสถานการณ์การเรียนรู้แบบช็อตเดียว ปัญหาที่ดูเหมือนเรียบง่าย (แต่สร้างความหงุดหงิด) นี้เผยให้เห็นถึงช่องว่างสำคัญในระบบ AI ในปัจจุบัน แม้ว่าจะสามารถสังเคราะห์ข้อความที่น่าประทับใจจากจุดข้อมูลนับพันล้านจุดได้ แต่เมื่อได้รับมอบหมายให้ทำงานที่แปลกใหม่จริงๆ ซึ่งไม่เคยเห็นหรือเคยได้รับการฝึกฝนมาก่อน โมเดลสไตล์ GPT กลับพบกับอุปสรรคโดยธรรมชาติ
สิ่งนี้วาดภาพของสิ่งที่ผมเรียกว่า "ความขัดแย้งในการสรุปผลแบบครั้งเดียว" ไม่ว่าระบบ AI อย่าง GPT จะทรงพลังแค่ไหน ไม่ว่าระบบ AI จะดู "ฉลาด" แค่ไหน พวกมันก็พังทลายเมื่อจำเป็นต้องสรุปผลอย่างรวดเร็วจากตัวอย่างเดียวหรือไม่กี่ตัวอย่างที่มองไม่เห็น
มาไขข้อขัดแย้งนี้กันสักหน่อยแล้วมาดูว่า เหตุใด มันจึงเป็นเช่นนั้น แต่ไม่ต้องกังวล เราจะไม่พูดแต่เรื่องปรัชญาเท่านั้น เราจะลงลึกในรายละเอียดทางเทคนิคและสำรวจว่าอะไรกันแน่ที่หยุดยั้ง AI รุ่นปัจจุบันของเราไม่ให้สามารถยืดหยุ่นได้เทียบเท่ากับความยืดหยุ่นที่มนุษย์มีเมื่อเผชิญกับสิ่งที่ไม่คุ้นเคย
ความยอดเยี่ยมของโมเดลอย่าง GPT-4 นั้นขึ้นอยู่กับ สถาปัตยกรรม Transformer ที่ซับซ้อน ซึ่งมีชื่อเสียงในด้านการจัดหาพลังงานให้กับทุกอย่างตั้งแต่โมเดลภาษาไปจนถึงงานด้านวิสัยทัศน์ ตอนนี้ ฉันไม่ต้องการทำให้คุณติดขัดด้วยศัพท์เฉพาะในช่วงต้นของบทความนี้ (เราเพิ่งจะเริ่มต้นเท่านั้น) แต่จำเป็นต้องแยกชั้นเทคโนโลยีบางส่วนออกเพื่อให้เข้าใจว่ารอยร้าวเริ่มปรากฏที่ใดและเพราะเหตุใด
สำหรับผู้เริ่มต้น GPT เป็นส่วนหนึ่งของกลุ่ม โมเดลที่อิงตามลำดับ ซึ่งได้รับการฝึกให้ทำนายคำหรือโทเค็นถัดไปในข้อความที่กำหนด พวกมันเก่งในเรื่องนี้ได้อย่างไร ส่วนใหญ่เป็นเพราะ กลไกการใส่ใจตนเอง ที่สร้างขึ้นใน Transformer ซึ่งทำให้โมเดลเหล่านี้สามารถคัดกรองข้อความจำนวนมากและ "โฟกัส" ไปที่ส่วนสำคัญของประโยคโดยพื้นฐาน ขณะเดียวกันก็ดูคำทั้งหมดในลำดับ กลไกการใส่ใจทั่วโลกนี้กลายมาเป็นแกนหลักในการจับความหมายที่ไวต่อบริบทในข้อความจำนวนมากอย่างรวดเร็ว
แต่ประเด็นสำคัญของความขัดแย้งคือ Generative AI พึ่งพาข้อมูลการฝึกอบรมนี้ เป็นอย่างมาก ปัญญาประดิษฐ์มีความสามารถพิเศษในการจดจำรูปแบบและความสัมพันธ์ทางสถิติระหว่างโทเค็นในข้อมูลที่เคยพบมาก่อน แต่โดย เนื้อแท้ แล้ว ปัญญาประดิษฐ์ยังต้องพึ่งพาข้อมูลดังกล่าวด้วย เมื่อโมเดลนี้เปิดตัว GPT-4 ยังไม่ได้เรียนรู้ที่จะใช้เหตุผลหรือพัฒนาความเข้าใจเกี่ยวกับโลก แต่กลับใช้ประโยชน์จากการเชื่อมโยงที่รวบรวมได้จากตัวอย่างข้อความหลายพันล้านตัวอย่างที่พบทางออนไลน์ (ในหนังสือ Wikipedia กระทู้ Reddit เอกสารวิชาการ ฯลฯ)
แม้ว่า GPT อาจดูเหมือนเป็นเครื่องทำนายที่มองเห็นทุกสิ่งทุกอย่าง โดยสร้างข้อความที่เชื่อมโยงกันและบางครั้งก็เข้าใจได้ แต่สิ่งที่มันทำ อยู่จริง ๆ คือการเล่นเกมจับคู่รูปแบบความน่าจะเป็นที่น่าประทับใจ หมายความว่าอย่างไร เมื่อมีสิ่งใหม่ ๆ เกิดขึ้น (เช่น เอกสารทางวิทยาศาสตร์ฉบับใหม่เกี่ยวกับกลศาสตร์ควอนตัมหรือศัพท์เฉพาะอุตสาหกรรมบางอย่าง) มันก็จะประสบปัญหาอย่างหนักในการทำความเข้าใจถึงความหมายที่แท้จริงของมัน
มัน... ไม่คำนวณ
นี่คือจุดที่มนุษย์แตกต่างจากเครื่องจักรอย่างเห็นได้ชัด ลองนึกภาพว่าคุณกำลังอ่านแนวคิดที่อยู่เหนือความเชี่ยวชาญของคุณเป็นครั้งแรก บางทีคุณอาจเป็นผู้ก่อตั้งสตาร์ทอัพด้านเทคโนโลยีที่กำลังสำรวจโลกของวิศวกรรมเครื่องกล แน่นอนว่าคุณอาจไม่สามารถเชื่อมโยงจุดทั้งหมดได้ในการอ่านครั้งแรก แต่หลังจากดูตัวอย่างหรือไดอะแกรมเพียงไม่กี่ตัวอย่าง ก็มีแสงแฟลชที่เข้าใจง่ายปรากฏขึ้น อ๋อ นี่คือระบบควบคุม! สิ่งนี้เชื่อมโยงกับสิ่งนั้น! จากนั้น คุณก็เข้าใจแล้ว (หรืออย่างน้อยก็ส่วนใหญ่)
ความแตกต่างนี้เรียกว่า การสรุปโดยรวมในครั้งเดียว ซึ่งเป็นความสามารถในการหยิบยกรูปแบบหรือทำความเข้าใจข้อมูลใหม่ทั้งหมดได้อย่างรวดเร็วโดยอาศัยตัวอย่างเพียงเล็กน้อย และเป็นสิ่งที่มนุษย์ทำได้ดีเป็นอย่างยิ่ง เราใช้ความรู้เพียงเล็กน้อยแล้วนำไปเชื่อมโยงกับธีม โครงสร้าง หรือการเปรียบเทียบที่กว้างขึ้นซึ่งเรารู้แล้ว กล่าวอีกนัยหนึ่ง เราไม่จำเป็นต้องมีตัวอย่างเป็นล้านๆ ตัวอย่างหรือชุดข้อมูลในอดีตจำนวนมากเพื่อให้เกิดความรู้แจ้ง
ตรงกันข้ามอย่างสิ้นเชิง โมเดลเชิงกำเนิด ไม่มีความเข้าใจโดยกำเนิด เกี่ยวกับโลกเลย โมเดลเหล่านี้เดินไปมาในพื้นที่ทางสถิติแบบสุ่มและทำนายโดยอิงจากคำหรือโครงสร้างที่มีแนวโน้มว่าจะเกิดขึ้นพร้อมกันมากที่สุด ดังนั้นเมื่อโมเดลเหล่านี้ถูกขอให้จัดการกับบางสิ่งที่แปลกใหม่โดยสิ้นเชิง ไม่ว่าจะเป็นคำศัพท์ทางวิทยาศาสตร์ใหม่ทั้งหมด ทฤษฎีใหม่เอี่ยมที่ไม่เคยเผยแพร่ทางออนไลน์ โมเดลเหล่านี้ก็จะวิ่งชนกำแพงทันที พูดง่ายๆ ก็คือ โมเดลเหล่านี้ไม่เคยพบเจอมาก่อน และขาดกรอบแนวคิดที่แท้จริงที่จะก้าวข้ามขอบเขตที่ไม่คุ้นเคย
เอาล่ะ มันค่อนข้างนามธรรม ฉันจะอธิบายเพิ่มเติม
โมเดล AI เชิงสร้างสรรค์เรียนรู้โดย การสอดแทรก ระหว่างจุดข้อมูลที่มีอยู่ ซึ่งหมายความว่าโมเดลเหล่านี้จะกลายเป็นผู้เชี่ยวชาญใน การเติมเต็มช่องว่าง ระหว่างจุดต่างๆ ที่พวกเขาเคยเห็นและรูปแบบที่พวกเขาคุ้นเคย แต่มีปัญหาใน การประมาณค่า เช่น การกระโดดออกมาและสร้างการฉายภาพโดยอิงจากแนวคิดใหม่เมื่อข้อมูลการฝึกอบรมไม่มีแบบอย่างมาก่อน ตัวอย่างเช่น GPT-4 สามารถจัดการโครงสร้างภาษา "ปกติ" ในภาษาพูดทั่วไปได้อย่างยอดเยี่ยมเพราะมีตัวอย่างมากมายให้เลือกใช้ แต่หากคุณขอแนวคิดเฉพาะทางใหม่ๆ เช่น ความก้าวหน้าล่าสุดใน เลเซอร์ไฟเบอร์โซลิโทนิก ในฟิสิกส์ ก็จะกลายเป็นเรื่องไร้สาระสิ้นดี ทำไมน่ะหรือ GPT ไม่มีจุดอ้างอิงทางสถิติสำหรับคำศัพท์เฉพาะทางที่แปลกใหม่ดังกล่าว โดยพื้นฐานแล้ว GPT มีการคาดเดาแบบมีการศึกษาว่าแม้จะดูน่าเชื่อถือในด้านความคล่องแคล่ว แต่ก็เสียสละ ความสอดคล้องที่แท้จริง เพื่อ ความถูกต้องทางวากยสัมพันธ์
เอาล่ะ ถ้าคุณมีความคิดด้านเทคนิคมากกว่านี้สักหน่อย มาเจาะลึกกันดีกว่าว่าทำไมข้อจำกัดนี้ถึงมีมาก และมีอะไรเกิดขึ้นบ้างในระหว่างความพยายามเรียนรู้แบบครั้งเดียว
ปัญหาสำคัญประการหนึ่งของการสรุปแบบ one-shot คือข้อมูลที่แบบจำลองแสดงภายในระหว่าง การฝึกที่ควบคุมตนเอง แบบจำลองสไตล์ GPT ค่อนข้างจะทำงานได้ดีเมื่อทำงานภายในขีดจำกัด ซึ่งมักเรียกปรากฏการณ์นี้ว่า การเรียนรู้แบบกระจายตัว ภายในขอบเขตของหัวข้อต่างๆ ที่มีตัวอย่างการฝึกมากมายเพียงพอ แม้แต่ GPT-4 ก็ยังสามารถสร้างผลลัพธ์ที่ชวนให้ขนลุกได้ นั่นเป็นเพราะโครงสร้างของแบบจำลองช่วยให้สามารถ เข้ารหัสข้อมูลผ่านการแสดงเวกเตอร์หนาแน่น ในรูปแบบของ การฝังตามบริบท ซึ่งจะจับความเชื่อมโยงระหว่างคำและแนวคิด
แต่ตรงนี้เองที่ปัญหาคลี่คลาย เมื่อโมเดลได้รับมอบหมายให้จัดการกับสถานการณ์ที่จำเป็นต้องมีการสรุปแบบนอกการแจกแจง ซึ่งหมายถึงการเผชิญกับแนวความคิดที่ไม่เคยมีการฝึกมาก่อน ระบบจะไม่อนุมานสิ่งต่างๆ ในลักษณะเดียวกับที่มนุษย์ทำ ลองคิดดูแบบนี้: โมเดลเหล่านี้เป็น เครื่องจักรสร้างรูปแบบ โดยเนื้อแท้ ซึ่งอาศัย "สัญชาตญาณ" ทางสถิติ พวกมันไม่มีความสามารถในตัวในการสร้างหรือให้เหตุผล "เหนือข้อมูล"
ตัวอย่างเช่น ลองพิจารณาวิธีที่ GPT เรียนรู้กฎไวยากรณ์ ซึ่งเปรียบเสมือนกับคนที่นั่งจำวิธีการใช้คำศัพท์เป็นพันๆ คำในประโยคภาษาอังกฤษ หลังจากสังเกตเพียงพอแล้ว ระบบจะสร้างแผนที่ภายในที่รู้ว่า “หลังจากประธานแล้วจะมีกริยา จากนั้นอาจเป็นกรรม และใส่คำนำหน้าหรือคำบุพบทตามต้องการ” แต่เมื่อพบกับภาษาใหม่เอี่ยมหรือโครงสร้างประโยคที่แปลกใหม่ ความสามารถนี้ก็จะล้มเหลว เนื่องจากถูกจำกัดให้จดจำเฉพาะความสัมพันธ์ แฝง (หรือโดยนัย) ที่เคยพบเห็นแล้วเท่านั้น
น่าเสียดายที่สิ่งนี้มีข้อจำกัด ลองทำงานที่ต้องสร้างข้อความที่สอดคล้องกันเกี่ยวกับหัวข้อที่ยังไม่เปิดเผย เช่น การค้นพบที่ก้าวล้ำในหัวข้อฟิสิกส์ที่ไม่ค่อยมีใครรู้จัก เช่น ทฤษฎี ควอนตัม-แรงโน้มถ่วง แบบทวิภาคี โมเดลนี้ขาด องค์ประกอบ ที่จำเป็นในการตีความความรู้เก่าเพื่ออนุมานความเป็นไปได้ใหม่ ในสมองของมนุษย์ เรามักจะมีการแสดงภาพในระดับสูง (แนวคิด ทฤษฎี การเปรียบเทียบ!) ที่ทำให้เรามีความยืดหยุ่น แต่ GPT ไม่มี! GPT สร้างผลลัพธ์ตาม ความน่าจะเป็นเชิงทำนาย ไม่ใช่การก้าวกระโดดที่สร้างสรรค์
มันก็เหมือนกับการขับรถโดยใช้แผนที่ที่ตั้งโปรแกรมไว้เฉพาะเส้นทางจากศตวรรษที่แล้วเท่านั้น ไม่ได้ช่วยให้คุณนำทางในช่วงที่กำลังก่อสร้าง หรือในทางโค้งหักศอกที่เกิดขึ้นเมื่อหกเดือนที่ผ่านมาได้เลย
ก้าวหนึ่งในการทำความเข้าใจข้อจำกัดคือการรับรู้บทบาทของ การแสดงภาพแบบหนาแน่นเทียบกับแบบเบาบาง
ฉันหมายถึงอะไร?
โมเดลหม้อแปลงแบบดั้งเดิมทำงานด้วย การฝังเวกเตอร์แบบหนาแน่น โทเค็นแต่ละตัวในประโยคจะแสดงโดยเวกเตอร์ที่มีมิติสูง และเวกเตอร์เหล่านี้จับเอาความสัมพันธ์ที่หลากหลายระหว่างคำต่างๆ เช่น โครงสร้างทางวากยสัมพันธ์ ความหมายทางความหมาย พลวัตของตำแหน่ง เป็นต้น แต่เนื่องจากการแสดงเหล่านี้มีความหนาแน่น จึง ไม่สามารถแยกออกได้เพียงพอ ที่จะรองรับการนามธรรมในลักษณะที่นำไปสู่การสรุปทั่วไปที่ยืดหยุ่นและปรับเปลี่ยนได้
การฝังตัวที่หนาแน่นถูกจำกัดโดย การแลกเปลี่ยนความลำเอียงและความแปรปรวน ระหว่างการฝึกโมเดล การแลกเปลี่ยนนี้มีความสำคัญ: โดยการปรับให้เหมาะสมสำหรับสิ่งหนึ่ง (ความสามารถทางสถิติทั่วไป) โมเดลจะเสียสละสิ่งอื่น (ความสามารถในการใช้เหตุผลในสถานการณ์ที่แปลกใหม่โดยสิ้นเชิง) ลองนึกภาพว่าคุณปรับแต่งโมเดลทางจิตของคุณอย่างต่อเนื่องเพื่อให้ตรงกับโลกที่คุณเคยพบเจอมาแล้ว อย่างแม่นยำ การแลกเปลี่ยนคือสถานการณ์ที่คาดเดาไม่ได้จะทำให้คุณสับสนโดย สิ้นเชิง โมเดลทางสถิติที่ซับซ้อนแต่ยืดหยุ่น นั้นมักจะประสบปัญหาในกรณีเล็ก ๆ ที่เกิดขึ้นครั้งเดียว เนื่องจากโมเดลเหล่านี้เก่งในการทำซ้ำ "สถานการณ์เฉลี่ย" และหยุดนิ่งเมื่อเผชิญกับข้อยกเว้นจากกฎที่เรียนรู้
วิธีแก้ปัญหาที่สำคัญในที่นี้คือ การแสดงแบบเบาบาง ซึ่งเป็นเทคนิคในการสร้างมิติต่างๆ ที่ช่วย แยกคุณลักษณะต่างๆ ออกจากกัน ในระดับการตีความที่แตกต่างกัน เครือข่ายแบบเบาบางแสดงและค้นหาข้อมูลในลักษณะที่ยืดหยุ่นและทั่วไปมากขึ้น ซึ่งคล้ายกับวิธีที่มนุษย์มุ่งเน้นไปที่คุณลักษณะหลักในการทำนายผลลัพธ์แทนที่จะหมกมุ่นอยู่กับรายละเอียดเล็กๆ น้อยๆ
ปัญหาประการหนึ่งของการสรุปผลแบบครั้งเดียวคือโครงสร้างเครือข่ายสมัยใหม่ไม่ได้เน้นที่งานการแยกแยะดังกล่าว แต่เน้นที่รูปแบบที่หนาแน่นและขับเคลื่อนด้วยข้อมูลมากเกินไป ดังนั้น เมื่อถูกขอให้สรุปผลข้อมูลใหม่ที่ไม่ซ้ำใครโดยสิ้นเชิงโดยมีบริบทน้อยที่สุด โครงสร้างเครือข่ายจึงล้มเหลว
โชคดีที่เราไม่ได้หมดไอเดียไปเสียทีเดียว นักวิจัยด้าน AI (รวมทั้งตัวฉันเองด้วย!) ได้เริ่มสร้างทฤษฎีเกี่ยวกับวิธีต่างๆ หลายวิธีที่จะปรับปรุงความสามารถในการสรุปผลแบบครั้งเดียวของ AI แนวทางที่น่าสนใจที่สุดบางส่วนเกี่ยวข้องกับสถาปัตยกรรม การเรียนรู้แบบเมตา สถาปัตยกรรมเหล่านี้แตกต่างโดยพื้นฐานจากโมเดลในปัจจุบัน โดยช่วยให้สามารถเรียนรู้ได้ โดยระบบจะปรับพารามิเตอร์แบบไดนามิกเพื่อให้เหมาะกับประเภทข้อมูลใหม่ๆ ได้อย่างรวดเร็ว ซึ่งสอดคล้องกับพฤติกรรมของมนุษย์มากกว่ามาก
ตัวอย่างเช่น ใน Model-Agnostic Meta-Learning (MAML) โมเดลจะปรับตัวเพื่อเรียนรู้ภารกิจใหม่ด้วยตัวอย่างการฝึกขั้นต่ำ Memory-Augmented Neural Networks (MANN) ทำงานในลักษณะเดียวกันโดย รักษาบริบทที่เรียนรู้ ไว้ในหลายอินสแตนซ์ ซึ่งคล้ายกับวิธีที่เราจำบทเรียนสำคัญจากอดีตและนำมาใช้ซ้ำโดยสัญชาตญาณเมื่อเผชิญกับสถานการณ์ใหม่ที่คล้ายกัน
การรวม ความสามารถในการใช้เหตุผลเชิงสัญลักษณ์ เข้ากับโมเดลการเรียนรู้เชิงลึกถือเป็นแนวทางที่มีแนวโน้มดีอีกแนวทางหนึ่ง โมเดลที่มีส่วนประกอบเชิงสัญลักษณ์สามารถ "ใช้เหตุผล" ผ่านตรรกะได้ แทนที่จะต้องพึ่งพาการซ้อนข้อมูลทางสถิติเพียงอย่างเดียว สาขาต่างๆ เช่น Neuro-Symbolic AI นำเสนอไฮบริดของโมเดลการเชื่อมโยงและระบบตามกฎเกณฑ์ ซึ่งช่วยให้ AI สามารถเลียนแบบการคิดในระดับสูงได้ โดยเฉพาะในสถานการณ์การใช้เหตุผลเชิงนามธรรม
ทั้งหมดนี้มีความหมายต่ออนาคตของ AI อย่างไร แน่นอนว่า GPT-4 ให้ความรู้สึกราวกับมีเวทมนตร์เมื่อช่วยให้เราโต้ตอบกับลูกค้าได้อย่างคล่องแคล่วหรือตอบคำถามทั่วๆ ไป แต่เราต้องพัฒนาโมเดลที่ไม่ใช่แค่เครื่องมือจดจำเท่านั้น เรากำลังมุ่งหน้าสู่อนาคตที่ การเรียนรู้การถ่ายโอน การเรียนรู้แบบเมตา และ สถาปัตยกรรมเชิงสัญลักษณ์ของระบบประสาท มาบรรจบกันเพื่อสร้างผู้เรียนที่ปรับตัวได้มากขึ้น
One-Shot Generalization Paradox ไม่ใช่จุดสิ้นสุดของ AI ในอนาคต แต่เป็นอุปสรรคที่ทำให้เราต้องกลับมาคิดทบทวนสมมติฐานหลักเกี่ยวกับความฉลาดและความยืดหยุ่น เนื่องจากข้อมูลเพียงอย่างเดียวไม่สามารถแก้ไขปัญหานี้ได้ โมเดลต่างๆ จำเป็นต้องมีความสามารถใน การเรียนรู้จากการแยกส่วน สร้างการเปรียบเทียบ และ จดจำคุณลักษณะหลัก ไม่ใช่แค่จดจำ
ในอนาคต โมเดลของเราจะต้องเป็นมนุษย์มากกว่าเครื่องจักรเมื่อต้องสังเคราะห์ความรู้ และในฐานะนักวิจัย นักพัฒนา และผู้สร้างสรรค์นวัตกรรมที่ล้ำสมัย เรายังอยู่ในช่วงเริ่มต้นของการกำหนดความหมายของการเรียนรู้ด้วยตัวเองของ AI ในโลกที่ยืดหยุ่นและแปลกใหม่
นี่ไม่ใช่แค่ความท้าทายทางเทคนิคเท่านั้น แต่มันเป็นความท้าทายเชิงปรัชญาด้วย