การทดสอบ LLMs ในการแก้ปัญหา Leetcode ในปี 2025

class Solution: def twoSum(self, nums: List[int], target: int) -> List[int]: # รหัสของคุณที่นี่ หนึ่งปีที่ผ่านมา แสดงให้เห็นว่า Large Language Models (LLMs) สามารถแก้ปัญหาการเข้ารหัสอัลกอริทึมบน Leetcode อย่างไรก็ตามความสามารถของพวกเขาถูก จํากัด ไปยังส่วนประกอบของปัญหาที่รู้จักกันดี "ที่นิยม" ปัญหาใหม่ซึ่งไม่เคยเป็นส่วนหนึ่งของชุดข้อมูลการฝึกอบรมของพวกเขานําเสนอความยากลําบาก ในขณะที่ปัญหาที่ง่ายที่สุดส่วนใหญ่ได้รับการแก้ไขโดยรูปแบบที่ยากลําบากที่สุดยังคงไม่สามารถบรรลุได้ ของฉัน benchmark ข้อดีของฉัน ข้อเสนอแนะของฉัน ตั้งแต่นั้น Open AI, Anthropic, และ Google ได้เปิดตัวรุ่นที่เพิ่มขึ้นของรุ่นของพวกเขาและผู้เล่นใหม่ ๆ เช่น Deepseek และ xAI ได้ปรากฏขึ้น รุ่นจํานวนมากในขณะนี้ได้รับการตลาดว่าเป็นสามารถเขียนโค้ดซึ่งไม่ได้เป็นกรณีก่อนหน้านี้ ฉันตั้งใจที่จะเปรียบเทียบ LLMs เหล่านี้ทันสมัยเพื่อหาว่าความสามารถในการแก้ปัญหาอัลกอริทึมใหม่ ๆ ของพวกเขาได้ปรับปรุงหรือไม่ แรงจูงใจ มีมาตรฐานที่มีอยู่สําหรับ LLMs เพื่อประเมินความสามารถในการเข้ารหัสของพวกเขา มุ่งเน้นไปที่การแก้ปัญหาซอฟต์แวร์ในชีวิตจริง - มันขึ้นอยู่กับปัญหา Github ของโครงการแหล่งที่มาเปิดที่มีอยู่ แน่นอนเป็นความคิดที่ยอดเยี่ยม แต่ก็ครอบคลุมสิ่งอื่น ๆ นอกเหนือจากการแก้ปัญหาอัลกอริทึมที่แท้จริงที่ฉันมุ่งเน้น SWE-bench SWE-bench SWE-bench , 1 2 Codeforces Codeforces 1 1 2 2 สิ่งนี้นําไปสู่การสร้างมาตรฐานใหม่ที่ช่วยให้การเปรียบเทียบโดยตรงของ LLMs และในที่สุดแล้วทําไมไม่ทํามันเพียงเพื่อความสนุกสนาน? การออกแบบ benchmark ความคิดคือการจําลองการกระทําของมนุษย์เมื่อแก้ปัญหาอัลกอริทึม แต่ใช้ LLM เพื่อเขียนรหัส: ดาวน์โหลดคําอธิบายปัญหา. สร้างคําแนะนําจากคําอธิบาย. สร้างรหัสด้วย LLM. ส่งรหัสเพื่อยืนยัน. รอผลลัพธ์. ดาวน์โหลดคําอธิบายปัญหา สร้างคําแนะนําจากคําอธิบาย สร้างรหัสด้วย LLM. ส่งรหัสเพื่อยืนยัน. รอผลลัพธ์ class Solution: def twoSum(self, nums: List[int], target: int) -> List[int]: # รหัสของคุณที่นี่ ปกติแล้วตัวอย่างหลายตัวของอินพุตและเอาท์พุท (กรณีทดสอบ) จะให้ในคําอธิบาย: Input: nums = [2,7,11,15], target = 9 Output: [0,1] Input: nums = [2,7,11,15], target = 9 Output: [0,1] ปัญหาอาจมีหลายสิบกรณีทดสอบที่สามารถใช้ได้เฉพาะกับผู้พิจารณาออนไลน์เท่านั้น ปัญหาจะถูกแก้ไข (หรือการแก้ปัญหาถือว่าได้รับการยอมรับ) หากและเฉพาะถ้ารหัสจะผลิตผลผลิตที่คาดหวังสําหรับกรณีทดสอบทั้งหมดภายในเวลาและหน่วยความจําที่เหมาะสม การแก้ปัญหาสามารถเขียนในภาษาโปรแกรมที่ผู้พิจารณาสนับสนุนได้ใด ๆ แต่ละปัญหามี "อัตราการยอมรับ" อัตราส่วนของโซลูชั่นที่ยอมรับโดยผู้ใช้ Leetcode โปรดทราบว่าผู้ใช้เดียวสามารถส่งรหัสของพวกเขาไม่ จํากัด จํานวนครั้งและแต่ละความพยายามจะคํานึงถึงอัตราการยอมรับ กฎเหล่านี้ไม่ได้คิดค้นโดย Leetcode พวกเขาได้รับการใช้กันอย่างแพร่หลายในการแข่งขันวิทยาศาสตร์คอมพิวเตอร์เป็นเวลานาน ชุดข้อมูล เช่นเดียวกับมาตรฐานก่อนหน้านี้ฉันต้องการที่จะเรียกใช้ LLMs บนสองชุดของปัญหา: ปัญหา "รู้จักกันดี" ไม่เพียง แต่เผยแพร่มานานแล้ว แต่ยังใช้กันอย่างแพร่หลายสําหรับการสัมภาษณ์ซอฟต์แวร์ - ดังนั้นโซลูชั่นมีให้เลือกอย่างแพร่หลาย. "ไม่เห็น" ปัญหาที่เผยแพร่เมื่อเร็ว ๆ นี้และโซลูชันของพวกเขาไม่น่าจะสังเกตได้โดย LLMs ที่ได้รับการทดสอบ ปัญหา "รู้จักกันดี" ไม่เพียง แต่ถูกเผยแพร่มานาน แต่ยังใช้กันอย่างแพร่หลายสําหรับการสัมภาษณ์ซอฟต์แวร์ - ดังนั้นโซลูชั่นที่มีให้กว้าง ปัญหา "ไม่เห็น" ที่เผยแพร่เมื่อเร็ว ๆ นี้และโซลูชั่นของพวกเขาไม่น่าจะสังเกตเห็นโดย LLMs ที่ผ่านการทดสอบ ในขณะที่ปัญหาส่วนใหญ่มีคําอธิบายในข้อความที่เรียบง่ายและต้องขยายฟังก์ชั่นเฉพาะด้วยรหัส แต่บางคนแตกต่างกัน บางคนต้องการใช้อินเตอร์เฟซเช่นการขยายฟังก์ชั่นหลายฟังก์ชั่นในปัญหาหนึ่ง อื่น ๆ มีลิงก์และรูปภาพภายนอกซึ่งอาจทําให้เกิดความยากลําบากต่อ LLMs เนื่องจากรุ่นไม่กี่รุ่นรองรับการป้อนรูปภาพหรือการเรียกดูอินเทอร์เน็ต ฉันตัดสินใจที่จะยกเว้นปัญหาที่มีรูปภาพลิงก์และสิ่งที่ต้องใช้ฟังก์ชั่นหลายฟังก์ชั่น Leetcode มีสามรายการปัญหา: และ , และ ชุดข้อมูลของฉันของ "ปัญหาที่รู้จักกันดี" รวมถึงรายการเหล่านี้ "Leetcode 75" "Top interview 150" "Leetcode 75" "Top 100 Likes" "การสัมภาษณ์ด้านบน 150" "Leetcode 75" "Top 100 Likes" สําหรับปัญหา "ไม่เห็น" ฉันเลือก 99 ของปัญหาที่เผยแพร่ล่าสุด: 33 ง่าย, 33 ต่ําและ 33 ยาก ความเร็วล่าสุดถูกกําหนดขึ้นอยู่กับ ID ปัญหาซึ่งเป็นขั้นตอน แม้ว่า Leetcode ไม่แสดงวันที่เผยแพร่ปัญหา แต่ก็สามารถประมาณได้จากความคิดเห็นและการสนทนา ปัญหา "ไม่เห็น" เหล่านี้เป็นไปได้มากที่สุดจะเผยแพร่รอบเดือนพฤศจิกายน 2024 ระดับความยากลําบากเป็นเรื่องโดยเฉพาะอย่างยิ่งและตามความคิดของบรรณาธิการ ฉันไม่ได้ตั้งใจที่จะจับคู่จํานวนปัญหาสําหรับแต่ละความยากลําบากหรือชุดข้อมูล ชุดปัญหา ชุดปัญหา ชุดปัญหา ชุดปัญหา ไม่เห็น (23 Mar 2025) ยอดนิยม ดีรู้จัก ที่รู้จักกันดี ไม่เห็น (23 Mar 2025) ไม่เห็น (23 Mar 2025) ไม่เห็น (23 Mar 2025) รวม 133 99 รวม รวม รวม 133 133 99 99 Easy 41 33 ง่าย ง่าย ง่าย 41 41 33 33 Medium 78 33 สื่อ สื่อ Medium 78 78 33 33 Hard 14 33 ฮาร์ด ฮาร์ด ฮาร์ด 14 14 33 33 อัตราการยอมรับของผู้ใช้ Leetcode 53.44% 37,05% อัตราการยอมรับของผู้ใช้ Leetcode อัตราการยอมรับของผู้ใช้ Leetcode อัตราการยอมรับของผู้ใช้ Leetcode 53.44% 53.44% 53.44% 37,05% 37,05% 37,05% คําอธิบายปัญหาและรหัส snippets ได้รับโดยใช้เครื่องมือ benchmarking ของฉันซึ่งเผยแพร่บน Github: https://github.com/whisk/leetgptsolver https://github.com/whisk/leetgptsolver https://github.com/whisk/leetgptsolver ตัวเลือกภาษาและการสร้างรหัส มาตรฐานได้รับการออกแบบดังนี้: LLM ทําเพียงครั้งเดียวเพื่อสร้างรหัสโดยไม่มีข้อมูลก่อนหน้านี้เกี่ยวกับปัญหา (หรือปัญหาอื่น ๆ) และโดยไม่ทราบกรณีการทดสอบของมันยกเว้นสิ่งที่อยู่ในคําอธิบายเอง ไม่มีกลไกที่จะให้ความคิดเห็นหรือปรับปรุงรหัสหลังจากที่มันถูกสร้างขึ้น ฉันใช้คําแนะนําเดียวกันสําหรับทุก LLM และทุกปัญหา: สวัสดีนี่คือการสัมภาษณ์การเข้ารหัส คุณจะได้รับ: * คําอธิบายปัญหา (พร้อมกรณีทดสอบตัวอย่างหากมี) * สะท้อนรหัสเริ่มต้น (พร้อมลายเซ็นฟังก์ชั่นคงที่) กรุณาเขียนโซลูชั่นของคุณในภาษาการเขียนโปรแกรม {language} รหัสของคุณต้อง: * แก้ปัญหาอย่างสมบูรณ์และถูกต้อง * ผ่านทุกกรณีทดสอบตัวอย่างที่ให้ * ดําเนินการภายในเวลาและขีด จํากัด ของหน่วยความจําที่ยอมรับได้ (คิดถึงการป้อนข้อมูลขนาดใหญ่หากไม่มีที่ระบุ) * ตามแนวทางการเข้ารหัสที่ดี (โลจิกที่ชัดเจนโครงสร้างที่สามารถอ่านได้การใช้คุณสมบัติภาษาที่เหมาะสม) นี่คือคําอธิบายปัญหา: {คําถาม} นี่คือสะท้อนรหัสที่คุณควรขยายด้วยโซลูชั่นของคุณ: {snippet Hello, this is a coding interview. You will be given: * A problem statement (with sample test cases if available). * A starter code snippet (with fixed function signatures). Please write your solution in {language} programming language. Your code must: * Solve the problem fully and correctly. * Pass all provided sample test cases. * Run within acceptable time and memory limits (assume large inputs if none are specified). * Follow good coding practices (clear logic, readable structure, appropriate use of language features). Here is the problem statement: {question} Here is the code snippet, which you should expand with your solution: {snippet} Important Requirements: * Do not change any provided function, class names, or method names. * Output only valid source code that can be executed as-is, without any further ตัวอักษรถูก “ขัด” ด้วย ChatGPT4 จากการออกแบบครั้งแรกของฉัน แต่โดยไม่ต้องใช้เทคนิค “การวิศวกรรมตัวอักษร” ใด ๆ คําอธิบายปัญหาถูกยกเลิกจากแท็ก HTML ก่อนที่จะใช้ในคําแนะนํา สําหรับภาษาโปรแกรมที่ฉันเลือก Python (รุ่น 3) LLMs ถูกขอให้ส่งออกเฉพาะรหัสทํางานโดยไม่มีข้อความก่อนหน้านี้ แต่ในหลายกรณีนั้นไม่ได้เป็นความจริง การทําความสะอาดขั้นพื้นฐานถูกนําไปใช้และทุกอย่างนอกเหนือจากรหัสที่เกิดขึ้นจริงจะถูกลบออกและไม่ได้ส่ง โมเดลและพารามิเตอร์ โมเดลที่ใช้ในการอ้างอิงจะระบุไว้ในตารางด้านล่างพร้อมกับพารามิเตอร์ที่ไม่ใช่มาตรฐานทั้งหมดที่ระบุ วันที่ตัดความรู้จะได้รับจากเอกสารอย่างเป็นทางการของผู้จัดจําหน่ายและมีให้สําหรับการอ้างอิงถ้ามี ผู้ขาย ผู้ขาย ผู้ขาย ผู้ขาย รุ่น รุ่น รูปแบบ วันที่ตัดความรู้ วันที่ตัดความรู้ วันที่ตัดความรู้ "ความคิด" “ความคิด” “เหตุผล” พารามิเตอร์ พารามิเตอร์ พารามิเตอร์ Anthropic claude-3-7-sonnet-20250219 Nov 2024 No อุณหภูมิ = 0.0 max_tokens = 4096 อินทรีย์ ทางทวารหนั ก หัวข้อ-3-7-sonnet-20250219 หัวข้อ 3-7-sonnet-20250219 หัวข้อ 3-7-sonnet-20250219 พฤศจิกายน 2024 พฤศจิกายน 2024 ไม่ ไม่ อุณหภูมิ = 0.0 max_tokens = 4096 อุณหภูมิ = 0.0 max_tokens = 4096 Claude-3-7-sonnet-20250219 (พร้อมใช้งานการคิด) Nov 2024 Yes temperature = 0.0 max_tokens = 16384 budget_tokens = 8192 หัวข้อ-3-7-sonnet-20250219 (พร้อมใช้งานการคิด) หัวข้อ-3-7-sonnet-20250219 (พร้อมใช้งานการคิด) หัวข้อ 3-7-sonnet-20250219 (ด้วย thinking enabled) พฤศจิกายน 2024 พฤศจิกายน 2024 ใช่ ใช่ อุณหภูมิ = 0.0 max_tokens = 16384 budget_tokens = 8192 อุณหภูมิ = 0.0 max_tokens = 16384 budget_tokens = 8192 DeepSeek deepseek-chat (DeepSeek-V3) unknown No temperature = 0.0 DeepSeek DeepSeek deepseek-chat (DeepSeek-V3) deepseek-chat (DeepSeek-V3) deepseek-chat (DeepSeek-V3) ไม่รู้จัก ไม่รู้จัก ไม่ ไม่ อุณหภูมิ = 0.0 อุณหภูมิ = 0.0 deepseek-reasoner (DeepSeek-R1) unknown Yes temperature = 0.0 Deepseek-reasoner (DeepSeek-R1) Deepseek-reasoner (DeepSeek-R1) Deepseek-reasoner (DeepSeek-R1) ไม่รู้จัก ไม่รู้จัก ใช่ ใช่ อุณหภูมิ = 0.0 อุณหภูมิ = 0.0 Google gemini-2.0-flash-001 unknown No อุณหภูมิ = 0.0 Google Google กางเกงยีนส์ 2.0-flash-001 กางเกงยีนส์ 2.0-flash-001 gemini-2.0-flash-001 ไม่รู้จัก ไม่รู้จัก ไม่ ไม่ อุณหภูมิ = 0.0 อุณหภูมิ = 0.0 กางเกงยีนส์ 2.0-pro-exp-02-05 unknown No อุณหภูมิ = 0.0 กางเกงยีนส์ 2.0-pro-exp-02-05 กางเกงยีนส์ 2.0-pro-exp-02-05 gemini-2.0-pro-exp-02-05 ไม่รู้จัก ไม่รู้จัก ไม่ ไม่ อุณหภูมิ = 0.0 อุณหภูมิ = 0.0 กึ่ง-2.5-pro-exp-03-25 unknown Yes อุณหภูมิ = 0.0 gemini-2.5-pro-exp-03-25 กางเกงยีนส์ 2.5-pro-exp-03-25 gemini-2.5-pro-exp-03-25 ไม่รู้จัก ไม่รู้จัก ใช่ ใช่ อุณหภูมิ = 0.0 อุณหภูมิ = 0.0 xAI grok-2-1212 17 กรกฎาคม 2024 No seed = 42 xAI XAI Grok-2-1212 Grok-2-1212 โครก-2-1212 July 17, 2024 วันที่ 17 กรกฎาคม 2024 ไม่ ไม่ เมล็ด = 42 เมล็ด = 42 OpenAI o1-2024-12-17 Oct 01, 2023 Yes seed = 42 OpenAI OpenAI o1-2024-12-17 o1-2024-12-17 o1-2024-12-17 Oct 01, 2023 กุมภาพันธ์ 26, 2019 ใช่ ใช่ seed = 42 เมล็ด = 42 o3-mini-2025-01-31 Oct 01, 2023 Yes seed = 42 o3-mini-2025-01-31 o3-mini-2025-01-31 o3-mini-2025-01-31 Oct 01, 2023 กุมภาพันธ์ 26, 2019 ใช่ ใช่ เมล็ด = 42 เมล็ด = 42 มาตรฐานมีวัตถุประสงค์เพื่อให้เป็นตัวบ่งชี้และทําซ้ําได้มากที่สุดเท่าที่จะเป็นไปได้ ดังนั้นจึงใช้พารามิเตอร์เช่น "อุณหภูมิ" หรือ "เมล็ด" อย่างไรก็ตามไม่มีรุ่นที่ผ่านการทดสอบรับประกันผลลัพธ์ที่ทําซ้ําอย่างสมบูรณ์ปัจจัยนี้ควรพิจารณาเมื่อทําการทดสอบเหล่านี้อีกครั้ง วันที่ตัดข้อมูลที่รู้จักกันทั้งหมดเป็นครั้งแรกกว่าปัญหาที่เก่าแก่ที่สุดในชุดข้อมูลที่รู้จักกันดี (เดือนพฤศจิกายน 2024) อย่างไรก็ตามฉันไม่สามารถหาวันที่ตัดสําหรับครอบครัวรุ่น Gemini และ DeepSeek โมเดลบางรุ่นสนับสนุนโหมด "เหตุผล" หรือ "คิด" โดยค่าเริ่มต้นในขณะที่สําหรับ Claude 3.7 Sonnet สามารถเปิดใช้งานได้โดยผ่านพารามิเตอร์ การใช้คุณลักษณะนี้ระบุไว้ในตาราง คุณสมบัติรุ่นอื่น ๆ (หรือ "เครื่องมือ") เช่นการค้นหาเว็บไม่ได้เปิดใช้งานแม้ว่าจะได้รับการสนับสนุน ผลลัพธ์ ทุกคู่แข่งแสดงอัตราการยอมรับที่สูงมากในปัญหาที่รู้จักกันดีเช่นเดียวกับในคะแนนแถลงก่อนหน้านี้ ฉันไม่ได้ทดสอบรุ่นหรือการปรับเปลี่ยนที่เหนือกว่า (คือ: Claude 3.7 Sonnet ด้วยการพิจารณาเปิดใช้งาน DeepSeek R1, Gemini 2.5 Pro, O1) เพื่อประหยัดเวลาและเครดิตเนื่องจากผลลัพธ์สามารถคาดการณ์ได้มาก ผลลัพธ์แตกต่างกันอย่างชัดเจนสําหรับปัญหา "ไม่เห็น" ในสองแง่มุม: สําหรับทุกรุ่น สิ่งนี้เป็นสิ่งสําคัญโดยเฉพาะอย่างยิ่งสําหรับปัญหาขนาดกลางและปัญหาที่รุนแรง อัตราการยอมรับต่ํากว่าสําหรับปัญหา "ไม่เห็น" ในปัญหาทุกความยากลําบากแม้ว่าตัวเลขที่แน่นอนจะแตกต่างจากรุ่นแต่ละรุ่น รูปแบบที่มีโหมด "เหตุผล" หรือ "คิด" ที่เปิดใช้งานให้ผลลัพธ์ที่ดีขึ้น สําหรับทุกรุ่น นี่เป็นเรื่องที่โดดเด่นโดยเฉพาะอย่างยิ่งสําหรับปัญหาขนาดกลางและหนัก อัตราการยอมรับต่ํากว่าสําหรับปัญหา "ไม่เห็น" อัตราการยอมรับต่ํากว่าสําหรับปัญหา "ไม่เห็น" ในปัญหาทุกความยากลําบากแม้ว่าตัวเลขที่แน่นอนจะแตกต่างกันไปจากโมเดลแต่ละรุ่น โมเดลที่มีโหมด "เหตุผล" หรือ "คิด" ช่วยให้ได้ผลลัพธ์ที่ดีขึ้น โมเดลที่มีโหมด "เหตุผล" หรือ "คิด" ช่วยให้ได้ผลลัพธ์ที่ดีขึ้น อัตราการยอมรับที่สูงขึ้นอย่างมีนัยสําคัญสําหรับปัญหาที่รู้จักกันดีสามารถอธิบายได้ด้วยความเป็นไปได้ว่าปัญหาเหล่านั้นและโซลูชั่นของพวกเขาเป็นส่วนหนึ่งของชุดการฝึกอบรมและรูปแบบเพียงแค่ต้องทําซ้ําโซลูชั่นที่ถูกต้องที่รู้จักกัน อย่างไรก็ตามอัตราการยอมรับของผู้ใช้สําหรับปัญหาขนาดกลางและยากใหม่ยังต่ํากว่าสําหรับปัญหาในชุด "ที่รู้จักกันดี" กรณีนี้เป็นเรื่องยากที่จะคํานวณและไม่จําเป็นต้องหมายความว่าปัญหาใหม่จะยากขึ้น การประเมินความยากลําบากเช่นที่กล่าวไว้ก่อนหน้านี้เป็นเรื่องสําคัญมาก และในกรณีของ LLMs เท่านั้นผู้ใช้มนุษย์อาจนําเสนอโซลูชั่นที่ถูกต้องที่รู้จักสําหรับปัญหาที่รู้จักกันดี โมเดลทั้งหมดที่มีโหมด "เหตุผล" สามารถทํางานได้ดีขึ้นอย่างมีนัยสําคัญกว่าคู่มือพื้นฐานของพวกเขา - ประสบการณ์ที่ไม่สามารถทําได้เพียงหนึ่งปีที่ผ่านมา O3-mini แสดงผลที่ดีที่สุดในหมู่รุ่น "เหตุผล" ทั้งหมด - มันทํางานได้ดีขึ้นกว่า O1 ที่แพงกว่าและช้ากว่ามาก ควรสังเกตว่า เพื่อแก้ปัญหาการเขียนโปรแกรมที่แข่งขัน อย่างไรก็ตามฉันไม่สามารถสรุปได้ว่าโมเดลใดที่ดีกว่าในการแก้ปัญหาอัลกอริทิลิตี้เพราะมันขึ้นอยู่กับงบประมาณโทเค็นและความล่าช้าและค่าใช้จ่าย ที่สําคัญที่สุดบางส่วนของพวกเขาสามารถแก้ปัญหาขนาดกลางและยาก O3-mini ได้รับการฝึกอบรมเฉพาะ สิ่งที่สําคัญที่สุดคือบางส่วนของพวกเขาสามารถแก้ปัญหาขนาดกลางและปัญหาที่ยากมาก o3-mini ได้รับการฝึกอบรมโดยเฉพาะ O3-mini ได้รับการฝึกอบรมโดยเฉพาะ ความคิดในอนาคต ไม่สามารถรับประกันได้ว่าชุดปัญหา "ไม่เห็น" ไม่ได้รวมอยู่ในข้อมูลการฝึกอบรมของรุ่น เพื่อแก้ไขเรื่องนี้เราอาจพิจารณาการสร้างปัญหาใหม่และเป็นเอกลักษณ์ที่ออกแบบมาเป็นพิเศษสําหรับมาตรฐานในอนาคต - แน่นอนโดยใช้ LLMs นอกจากนี้กลยุทธ์อื่น ๆ คือการใช้ภาษาโปรแกรมที่ใช้บ่อยน้อย วิธีการนี้อาจต้องใช้ LLMs เพื่อออกแบบโซลูชั่นแทนที่จะ "คัดลอกผ่าน" รหัสที่ถูกต้องที่เขียนใน Python ความคิดเหล่านี้ต้องมีการวิจัยเพิ่มเติมและฉันหวังว่าคนอื่นหรือฉันจะสามารถเจาะเข้าไปในพวกเขา ซ้าย https://github.com/whisk-on-solving-leetcode-problems">https://github.com/whisk/leetgptsolver ผลลัพธ์ Raw, ชุดปัญหาและรหัสแหล่งที่มาสามารถพบได้บน GitHub ของฉัน: https://github.com/whisk/leetgptsolver https://github.com/whisk/leetgptsolver https://github.com/whisk/leetgptsolver ผล benchmark ก่อนหน้านี้ของฉัน (2024): https://hackernoon.com/testing-llms-on-solving-leetcode-problems https://hackernoon.com/testing-llms-on-solving-leetcode-problems https://hackernoon.com/testing-llms-on-solving-leetcode-problems ครอบคลุมภาพที่สร้างขึ้นโดย DALL·E.