ลองจินตนาการถึงอนาคตที่ AI ไม่ได้ถูกล็อกไว้ในห้องนิรภัยขององค์กร แต่ถูกสร้างขึ้นอย่างเปิดเผยโดยชุมชนนักประดิษฐ์จากทั่วโลก ซึ่งความร่วมมือไม่ใช่การแข่งขันที่ส่งเสริมความก้าวหน้า และการพิจารณาทางจริยธรรมมีความสำคัญเท่าเทียมกับประสิทธิภาพที่แท้จริง นี่ไม่ใช่เรื่องนิยายวิทยาศาสตร์ แต่เป็นการปฏิวัติ โอเพ่นซอร์ส ที่กำลังก่อตัวขึ้นในใจกลางการพัฒนา AI แต่บริษัทเทคโนโลยีขนาดใหญ่มีวาระของตัวเอง นั่นคือการปกปิดโมเดลที่ถูกจำกัดให้เป็นโอเพ่นซอร์สในขณะที่พยายามเก็บเกี่ยวผลประโยชน์จากชุมชนที่เปิดกว้างอย่างแท้จริง
เรามาลอกชั้นของโค้ดออกแล้วเปิดเผยความจริงเบื้องหลังความพยายามเหล่านี้ การสำรวจอนาคตของ AI โอเพนซอร์สนี้จะวิเคราะห์ "สิ่งที่แอบอ้าง" และสนับสนุน "สิ่งที่เป็นจริง" ในการพัฒนา AI เพื่อค้นหากลไกนวัตกรรมที่เป็นซอฟต์แวร์โอเพนซอร์สที่ทำงานอยู่เบื้องหลังทั้งหมดนี้ ข้อสรุปก็คือ AI โอเพนซอร์สจะสร้างชุดข้อมูลโอเพนซอร์ส
ความต้องการ
บทความล่าสุดของ Matteo Wong ใน The Atlantic ' ไม่เคยมีสิ่งที่เรียกว่า AI แบบ 'เปิด' ' อธิบายถึงแนวโน้มที่เพิ่มขึ้นในแวดวงวิชาการและชุมชนซอฟต์แวร์สำหรับ AI โอเพนซอร์สอย่างแท้จริง “แนวคิดคือการสร้างแบบจำลองที่ค่อนข้างโปร่งใสซึ่งสาธารณชนสามารถใช้ ศึกษา และทำซ้ำได้ง่ายและประหยัดกว่า โดยพยายามทำให้เทคโนโลยีที่มีความเข้มข้นสูงซึ่งอาจมีศักยภาพในการเปลี่ยนแปลงการทำงาน ตำรวจ การพักผ่อน และแม้แต่ศาสนา กลายเป็นประชาธิปไตย” แอตแลนติกฉบับเดียวกันนั้นแนะนำว่าบริษัทเทคโนโลยีขนาดใหญ่ เช่น Meta กำลังพยายามตอบสนองความต้องการนี้ในตลาดด้วยการ 'เปิดเผย' ผลิตภัณฑ์ของตน พวกเขากำลังสันนิษฐานถึงคุณภาพและชื่อเสียงเชิงบวกของชุมชนโอเพนซอร์สโดยไม่เปิดเผยผลิตภัณฑ์ของตนอย่างแท้จริง แต่ไม่มีอะไรทดแทนของจริงได้ นั่นเป็นเพราะซอฟต์แวร์โอเพนซอร์สที่แท้จริงขับเคลื่อนการสร้างสรรค์นวัตกรรมและการทำงานร่วมกัน ซึ่งเป็นคุณสมบัติสองประการที่จำเป็นอย่างยิ่งในการก้าวไปข้างหน้าด้วย AI อย่างมีความรับผิดชอบ
คนแอบอ้าง
LLaMA 2 เป็นโมเดลภาษาขนาดใหญ่ที่สร้างขึ้นโดย Meta ซึ่งสามารถใช้ได้ฟรีทั้งสำหรับการวิจัยและการใช้งานเชิงพาณิชย์ ซึ่งทำให้บางคนแนะนำว่า LLaMA 2 เป็นโอเพนซอร์ส อย่างไรก็ตาม Meta ได้นำข้อจำกัดที่เข้มงวดบางประการมาใช้ในการใช้งานโมเดลของตน ตัวอย่างเช่น ไม่สามารถใช้ LLaMA 2 เพื่อปรับปรุงโมเดลภาษาขนาดใหญ่อื่นใดได้ ซึ่งถือเป็นจุดยืนที่ขัดกับแนวทางดั้งเดิม รูปแบบนวัตกรรมรวมส่วนตัว ของซอฟต์แวร์โอเพ่นซอร์สซึ่งส่งเสริมการเปิดเผยนวัตกรรมอย่างอิสระและเปิดกว้างเพื่อประโยชน์ของทุกคนในชุมชนซอฟต์แวร์
Meta ทำให้การใช้โมเดลของตนต้องหยุดชะงักลงอีก เนื่องจากไม่อนุญาตให้รวม LLaMA 2 เข้ากับผลิตภัณฑ์ที่มีผู้ใช้ 700 ล้านรายต่อเดือน และโดยไม่เปิดเผยว่าโมเดลของตนใช้ข้อมูลใดในการฝึกหรือโค้ดที่ใช้สร้างโมเดลนั้น การไม่เปิดเผยข้อมูลดังกล่าวทำให้ Meta เปิดใจต่อคำถามเกี่ยวกับอคติโดยธรรมชาติและการเลือกปฏิบัติโดยไม่ได้ตั้งใจ โมเดลที่ได้รับการฝึกจากข้อมูลที่เลือกปฏิบัติจะ เสิร์ฟคำตอบแบบเลือกปฏิบัติ หากชุมชนซอฟต์แวร์โดยรวมไม่สามารถดูโค้ดที่ใช้สร้างโมเดลเพื่อดูว่ามีการสร้างมาตรการป้องกันใดๆ หรือไม่ หรือข้อมูลที่ใช้ในการฝึกอบรมโมเดลหรือไม่ เราก็จะไม่รู้เกี่ยวกับคำถามทางศีลธรรมเหล่านี้ ในยุคสมัยที่ ตีพิมพ์ผลงานวิจัยเกี่ยวกับ AI ให้ความสำคัญกับประสิทธิภาพมากกว่าความยุติธรรมและความเคารพ ความคลุมเครือนี้สร้างความรำคาญใจเป็นอย่างยิ่ง
ตัวจริง
มิสทรัล เอไอ ได้รับการยอมรับจากโมเดลภาษาโอเพนซอร์สขนาดใหญ่ โดยเฉพาะ Mistral 7B และ Mixtral 8x7B บริษัทมุ่งมั่นที่จะทำให้โมเดล AI ของบริษัทเข้าถึงได้อย่างกว้างขวาง โดยส่งเสริมให้ชุมชนซอฟต์แวร์โอเพนซอร์สตรวจสอบ ปรับเปลี่ยน และนำกลับมาใช้ใหม่
วีแอลเอ็ม ย่อมาจาก "vectorized low-latency model providing" และเป็นไลบรารีโอเพ่นซอร์สที่ออกแบบมาโดยเฉพาะเพื่อเร่งความเร็วและเพิ่มประสิทธิภาพโมเดลภาษาขนาดใหญ่ (LLM) เป็นเครื่องมือทรงพลังที่สามารถปรับปรุงประสิทธิภาพและการใช้งานของ LLM ได้อย่างมาก ซึ่งทำให้เป็นทรัพยากรที่มีค่าสำหรับนักพัฒนาที่ทำงานกับแอปพลิเคชัน AI ต่างๆ ตั้งแต่แชทบอทและผู้ช่วยเสมือนไปจนถึงการสร้างเนื้อหาและการสร้างโค้ด มากเสียจน Mistral แนะนำให้ใช้ vLLM เป็นเซิร์ฟเวอร์อนุมานสำหรับโมเดล 7B และ 8x7B
เอลิวเธอร์เอไอ เป็นห้องปฏิบัติการวิจัย AI ที่ไม่แสวงหากำไร ซึ่งเติบโตจากเซิร์ฟเวอร์ Discord ที่ใช้พูดคุยเกี่ยวกับ GPT-3 จนกลายมาเป็นองค์กรวิจัยที่ไม่แสวงหากำไรชั้นนำ กลุ่มนี้เป็นที่รู้จักจากการทำงานด้านการฝึกอบรมและส่งเสริมบรรทัดฐานของวิทยาศาสตร์เปิดในการประมวลผลภาษาธรรมชาติ พวกเขาได้เปิดตัวโมเดลภาษาโอเพนซอร์สขนาดใหญ่ต่างๆ และมีส่วนร่วมในโครงการวิจัยที่เกี่ยวข้องกับการจัดแนวและการตีความ AI LM-สายรัด โครงการนี้อาจเป็นเครื่องมือประเมินโอเพ่นซอร์สชั้นนำสำหรับโมเดลภาษา
ฟี-2 คือหลักสูตร LLM ของ Microsoft ที่มีประสิทธิภาพเหนือกว่าหลักสูตรอื่น ๆ โดยหลักสูตรนี้ใช้การผสมผสานระหว่างข้อความสังเคราะห์และเว็บไซต์ที่ผ่านการกรอง จึงทำให้หลักสูตรมีขนาดเล็กแต่ทรงพลังนี้เหมาะสำหรับงานต่าง ๆ เช่น การถาม-ตอบ การสรุป และการแปล สิ่งที่ทำให้ Phi-2 แตกต่างอย่างแท้จริงคือการเน้นที่การใช้เหตุผลและความเข้าใจภาษา ซึ่งช่วยให้มีประสิทธิภาพที่น่าประทับใจแม้จะไม่มีเทคนิคการจัดตำแหน่งขั้นสูง
โมเดลการฝังโอเพ่นซอร์สที่มีความสามารถมากมายกำลังเสริมความแข็งแกร่งให้กับพื้นที่ AI เชิงสร้างสรรค์โอเพ่นซอร์สโดยรวม สิ่งเหล่านี้คือสถานะปัจจุบันของเทคโนโลยีโอเพ่นซอร์สและรวมถึง ยูเออี-ขนาดใหญ่-V1 และ หลายภาษา-e5-largel -
ยังมีอีกมากมายในสาขาที่เติบโตอย่างต่อเนื่องนี้ รายการที่จำกัดนี้เป็นเพียงจุดเริ่มต้นเท่านั้น
โอเพ่นซอร์สขับเคลื่อนการสร้างสรรค์นวัตกรรม
ด้วยการยอมรับปรัชญาของนวัตกรรมแบบเปิดกว้างอย่างสุดขั้ว บริษัทต่างๆ ที่เข้าร่วมอย่างแท้จริงในการพัฒนาซอฟต์แวร์โอเพ่นซอร์สจะท้าทายแนวคิดดั้งเดิมของข้อได้เปรียบในการแข่งขันด้วยการยอมรับว่า ไม่ใช่ว่าโค้ดที่ดีหรือแนวคิดดีๆ ทั้งหมดจะอยู่ในองค์กรของพวกเขา การเปลี่ยนแปลงนี้สนับสนุน การโต้แย้ง การแบ่งปันนวัตกรรมภายในระบบนิเวศโอเพนซอร์สทำให้ตลาดเติบโตเร็วขึ้น ส่งผลให้บริษัทซอฟต์แวร์ขนาดเล็กมีเงินทุนวิจัยและพัฒนาที่จำกัดมากขึ้น โอกาสที่จะได้รับประโยชน์ จากผลพลอยได้จากการวิจัยและพัฒนาที่มีอยู่ในซอฟต์แวร์โอเพ่นซอร์ส เนื่องมาจากนวัตกรรมแบบโอเพ่นซอร์สแตกต่างจากการเอาท์ซอร์สแบบดั้งเดิม เสริมสร้างทรัพยากรภายใน โดยใช้ประโยชน์จากสติปัญญาของชุมชนโดยรวม โดยไม่ลดทอนความพยายามในการวิจัยและพัฒนาภายใน ซึ่งหมายความว่าบริษัทซอฟต์แวร์โอเพ่นซอร์สไม่จำเป็นต้องเสียสละงบประมาณเพื่อแสวงหาผู้นำทางความคิดและโค้ดนอกองค์กรของตน
นอกจากนี้ บริษัทซอฟต์แวร์โอเพนซอร์สยังขับเคลื่อนการสร้างสรรค์นวัตกรรมอย่างมีกลยุทธ์ด้วย ปล่อยโค้ดเร็วและบ่อยครั้ง โดยตระหนักถึงธรรมชาติของกระบวนการสร้างนวัตกรรมในชุมชนซอฟต์แวร์ ซึ่งทั้งหมดนี้ก็เพื่อบอกอะไรบางอย่างที่หลายๆ คนทราบอยู่แล้วว่าซอฟต์แวร์โอเพ่นซอร์สเป็นตัวขับเคลื่อนการสร้างนวัตกรรม
โอเพ่นซอร์สส่งเสริมความร่วมมือ
ผ่าน การสร้างเครือข่าย ในชุมชนซอฟต์แวร์โอเพ่นซอร์ส ผู้ประกอบการสามารถบรรลุเป้าหมายทั้งในระยะสั้นและระยะยาวได้ เป้าหมายกำไรในระยะสั้นจะสร้างบริษัทขึ้นมา และเป้าหมายกำไรในระยะยาวจะรักษาบริษัทเอาไว้ได้ ในขณะเดียวกัน ความพยายามในการสร้างเครือข่ายนี้จะทำให้เครือข่ายนั้นเติบโตต่อไปได้ด้วยตัวเอง ซึ่งจะทำให้ผู้ประกอบการรายต่อไปเติบโตขึ้น เป็นที่ทราบกันดีว่าแพลตฟอร์มโอเพ่นซอร์สให้การเข้าถึงซอร์สโค้ด ทำให้ผู้พัฒนาสามารถสร้างการอัปเกรด ปลั๊กอิน และซอฟต์แวร์อื่นๆ และใช้งานได้ตามความต้องการ ความร่วมมือประเภทนี้ได้รับความนิยมเพิ่มขึ้นเมื่อชุมชนซอฟต์แวร์ในวงกว้างนำ Kubernetes มาใช้กันอย่างแพร่หลาย ปัจจุบัน เทคโนโลยีสมัยใหม่ทำงานร่วมกันได้อย่างคล่องตัวและใช้เวลาเพียงไม่กี่นาทีจากทุกที่
บริษัทเทคโนโลยียักษ์ใหญ่ยอมรับความร่วมมืออันลึกซึ้งนี้ที่เป็นส่วนหนึ่งของชุมชนโอเพ่นซอร์สเมื่อพวกเขาเผยแพร่เฟรมเวิร์ก ไลบรารี และภาษาที่พวกเขาสร้างขึ้นเพื่อบำรุงรักษาและพัฒนาเครื่องมือภายในได้อย่างอิสระ การทำเช่นนี้จะทำให้กลุ่มนักพัฒนามีความสามารถในการทำงานกับผลิตภัณฑ์ของตนมากขึ้น และเริ่มกำหนดมาตรฐานว่าเทคโนโลยีที่คล้ายกันควรทำงานอย่างไร บทความใน The Atlantic ฉบับเดียวกันได้อ้างคำพูดของ Mark Zuckerberg ผู้ก่อตั้ง Meta ว่า “การจัดเตรียมสิ่งนี้ให้ถือเป็นสิ่งที่มีค่ามากสำหรับเรา เพราะตอนนี้นักพัฒนาซอฟต์แวร์ชั้นนำในอุตสาหกรรมทั้งหมดต่างก็ใช้เครื่องมือที่เราใช้ภายในองค์กรด้วยเช่นกัน”
โอเพ่นซอร์สก่อให้เกิดโอเพ่นซอร์ส
ปัจจัยเหล่านี้ทำให้เราเห็นการทำงานร่วมกันระหว่างบริษัทโอเพ่นซอร์สบ่อยครั้ง บริษัทโอเพ่นซอร์ส AI และ ML จะพัฒนาโซลูชันร่วมกับผลิตภัณฑ์โอเพ่นซอร์สอื่นๆ โดยธรรมชาติ ตั้งแต่ผลิตภัณฑ์พื้นฐาน เช่น การจัดเก็บอ็อบเจ็กต์ ไปจนถึงเครื่องมือสร้างภาพ เมื่อบริษัทโอเพ่นซอร์สบริษัทใดบริษัทหนึ่งก้าวไปข้างหน้า เราก็ก้าวไปข้างหน้าด้วย แนวทางที่สอดประสานและผสมผสานนี้น่าจะเป็นทางเลือกที่ดีที่สุดสำหรับการพัฒนา AI ที่ใช้แนวทางที่เน้นที่มนุษย์ แรงผลักดันตามธรรมชาติเหล่านี้ที่มีอยู่ในความต้องการของตลาดสำหรับ AI โอเพ่นซอร์ส เมื่อรวมกับคุณสมบัติของซอฟต์แวร์โอเพ่นซอร์สในด้านนวัตกรรมและการทำงานร่วมกัน จะขับเคลื่อนชุดข้อมูล AI โอเพ่นซอร์ส
โปรดเข้าร่วมและมีส่วนร่วมในการสนทนาและชุมชนของเราโดยส่งอีเมลถึงเราที่ สวัสดี@min.io หรือส่งข้อความถึงเราที่ ช่อง Slack ของเรา