ความจริงที่ไม่สะดวก: “เลือกรูปแบบ” เป็นครึ่งวิศวกรรมของคุณอย่างรวดเร็ว หากคําแนะนําของคุณเป็นสูตรรูปแบบเป็นห้องครัวของคุณ สูตรที่ดีไม่ช่วยถ้า: เตาอบมีขนาดเล็ก (หน้าต่างพื้นผิว) ส่วนผสมมีราคาแพง (ราคาแท็ก) หัวหน้าช้า (ความล่าช้า) หรือเครื่องมือของคุณไม่พอดี (การเรียกฟังก์ชั่น / JSON / SDK / ecosystem) นี่คือ a การเปรียบเทียบที่คุณสามารถใช้ได้ practical หมายเหตุเกี่ยวกับ“พารามิเตอร์”: สําหรับหลายรุ่นขอบเขตการนับพารามิเตอร์ไม่ได้เปิดเผยโดยสาธารณะ ในทางปฏิบัติหน้าต่างบรรทัดฐาน + ราคา + คุณสมบัติเครื่องมือคาดการณ์“ เหมาะ” ดีกว่าการคาดการณ์ขนาดพารามิเตอร์ สําหรับหลายรุ่นขอบเขตการนับพารามิเตอร์ไม่ได้เปิดเผยให้สาธารณะ ในทางปฏิบัติหน้าต่างบรรทัดฐาน + ราคา + คุณสมบัติเครื่องมือคาดการณ์“ เหมาะ” ดีกว่าการคาดการณ์ขนาดพารามิเตอร์ Note on “parameters”: 1) การเปรียบเทียบอย่างรวดเร็ว: สิ่งที่คุณควรดูแลก่อน 1.1 “สี่ปุ่ม” ที่สําคัญ กรณี: คุณสามารถจับคู่งานในคําขอเดียวได้หรือไม่ ค่าใช้จ่าย: คุณสามารถจ่ายปริมาณได้หรือไม่ ความล่าช้า: UX ของคุณยอมรับการรอคอยหรือไม่ ความเข้ากันได้: Stack ของคุณจะบูรณาการได้อย่างสะอาดหรือไม่ ทุกสิ่งอื่นเป็นลําดับที่สอง 2) โมเดล Spec Table (Context + Positioning) ตารางนี้มุ่งเน้นไปที่สิ่งที่เสถียร: . family, positioning, and context expectations , , ) ทั้งหมดวัตถุประสงค์เครื่องมือที่แข็งแกร่ง Ecosystem ราคา + input cached จะถูกเผยแพร่อย่างชัดเจน OpenAI ครอบครัวเหตุผล “o” (เช่น, , ) Átha Deep การพิจารณา / การวางแผนที่รุนแรงเกินไป บ่อยครั้งค่าใช้จ่ายสูงขึ้น; ใช้ทางเลือก Anthropic ครอบครัว Claude (เช่น Haiku / Sonnet tiers) เขียนที่แข็งแกร่ง + ตําแหน่งความปลอดภัย; ทําความสะอาด docs ตารางราคารวมถึงค่าใช้จ่ายหลายมิติ Google Gemini ครอบครัว (Flash / Pro tiers) Multimodal + Google ecosystem + caching / grounding options หน้าราคาครอบคลุม caching + grounding DeepSeek DeepSeek แชท + การพิจารณารุ่น ราคาที่รุนแรง / สมบูรณ์แบบเป็นที่นิยมสําหรับ scale ตารางราคาอย่างเป็นทางการ แหล่งเปิด Llama / Qwen / gpt-4o gpt-4.1 gpt-5* o3 o1 3) ตารางราคา (ส่วนที่ CFO ของคุณอ่านจริง) ด้านล่าง จากเอกสารอย่างเป็นทางการ (USD ต่อ ). ใช้เรื่องนี้เป็นขั้นตอนพื้นฐานแล้วใช้: การแคชส่วนลดชุดและความยาวการส่งออกจริงของคุณ public list prices 1M tokens 3.1 OpenAI (จุดเด่นที่เลือก) OpenAI เปิดเผยราคา input, cached input และ output ต่อ 1M tokens Model Input / 1M Cached input / 1M Output / 1M When to use gpt-4.1 $2.00 $0.50 $8.00 High-quality general reasoning with sane cost gpt-4o $2.50 $1.25 $10.00 Multimodal-ish “workhorse” if you need it gpt-4o-mini $0.15 $0.075 $0.60 High-throughput chat, extraction, tagging o3 $2.00 $0.50 $8.00 Reasoning-heavy tasks without the top-end pricing o1 $15.00 $7.50 $60.00 “Use sparingly”: hard reasoning where mistakes are expensive gpt-4.1 2.00 ดอลลาร์ ค่าใช้จ่าย 0.50 8.00 ดอลลาร์ การพิจารณาทั่วไปที่มีคุณภาพสูงด้วยค่าใช้จ่ายที่เหมาะสม gpt-4o 2.50 ดอลลาร์ 1.25 ดอลลาร์ ค่าใช้จ่าย Multimodal-ish “งานม้า” ถ้าคุณต้องการ gpt-4o-mini ค่าใช้จ่าย 0.15 ค่าธรรมเนียม 0.075 ค่าใช้จ่าย 0.60 การแชทความจุสูงการสกัดแท็ก o3 2.00 ดอลลาร์ ค่าใช้จ่าย 0.50 8.00 ดอลลาร์ การพิจารณาภาระหนักโดยไม่ต้องกําหนดราคาสุด o1 ค่าธรรมเนียม 7.50 ดอลลาร์ เหรียญ 60.00 “ใช้อย่างประหยัด”: การพิจารณาที่ยากลําบากที่ข้อผิดพลาดมีราคาแพง หากคุณสร้างผลิตภัณฑ์: คุณมักจะเรียกใช้ 80–95% ของการโทรบนรุ่นที่ถูกกว่า (มินิ / ระดับรวดเร็ว) และเพิ่มขึ้นเฉพาะกรณีที่ยาก หากคุณสร้างผลิตภัณฑ์: คุณจะทํางานบ่อย การโทรบนรูปแบบที่ถูกกว่า (mini / fast tier) และเพิ่มขึ้นเฉพาะในกรณีที่ยาก 80–95% 3.2 แอนโตรปิก (Claude) Anthropic เปิดตัวตารางราคาแบบจําลองใน Claude docs Model Input / MTok Output / MTok Notes Claude Haiku 4.5 $1.00 $5.00 Fast, budget-friendly tier Claude Haiku 3.5 $0.80 $4.00 Even cheaper tier option Claude Sonnet 3.7 (deprecated) $3.75 $15.00 Listed as deprecated on pricing Claude Opus 3 (deprecated) $18.75 $75.00 Premium, but marked deprecated โคตร Haiku 4.5 1.00 ดอลลาร์ ค่าธรรมเนียม สัตว์เลี้ยงที่รวดเร็วและเป็นมิตรกับงบประมาณ โคตร Haiku 3.5 ค่าใช้จ่าย 0.80 เหรียญสหรัฐ ตัวเลือก tier ที่ถูกกว่า Claude Sonnet 3.7 (ลดลง) ค่าธรรมเนียม 3.75 ค่าธรรมเนียม รายการเป็นลดลงในราคา Claude Opus 3 (ลดลง) 1875 ดอลลาร์ 75.00 ดอลลาร์ Premium, แต่ทําเครื่องหมายลดค่าใช้จ่าย สิ่งสําคัญ: ความพร้อมใช้งานของรุ่นเปลี่ยนแปลง พิจารณาตารางราคาเป็น “สิ่งที่มีอยู่ในขณะนี้” ที่ถูกต้อง การเปลี่ยนแปลงความพร้อมของรุ่น รักษาตารางราคาเป็น "สิ่งที่มีอยู่ในขณะนี้" ที่มีอํานาจ Important: 3.3 Google Gemini (API ผู้พัฒนา) ราคา Gemini ขึ้นอยู่กับระดับและรวมถึงการแคชแง่มุม + การกําหนดราคา Tier (example rows from pricing page) Input / 1M (text/image/video) Output / 1M Notable extras Gemini tier (row example) $0.30 $2.50 Context caching + grounding options Gemini Flash-style row example $0.10 $0.40 Very low output cost; good for high volume Gemini tier (ตัวอย่างรุนแรง) $ 0.30 2.50 ดอลลาร์ แคชคอนเทนต์ + ตัวเลือกการตั้งพื้นฐาน Gemini สไตล์แฟลชแถวตัวอย่าง 0 0 0 0 0 เหรียญ 0.40 ค่าใช้จ่ายการผลิตต่ํามาก; ดีสําหรับปริมาณสูง หน้าราคาของ Gemini ยังระบุ: อัตราการแคช contextualization และ การสร้างพื้นฐานด้วยราคา / ข้อ จํากัด ของ Google Search 3.4 DeepSeek (API) DeepSeek เปิดเผยราคาในเอกสาร API และในหน้าราคา Model family (per DeepSeek pricing pages) What to expect DeepSeek-V3 / “chat” tier Very low per-token pricing compared to many frontier models DeepSeek-R1 reasoning tier Higher than chat tier, still aggressively priced DeepSeek-V3 / “แชท” tier ราคาต่อโทเค็นต่ํามากเมื่อเทียบกับหลายรุ่นชายแดน DeepSeek-R1 การพิจารณาระดับ สูงกว่าระดับแชทยังคงมีราคาประหยัด 4) ความล่าช้า: อย่าใช้ตาราง “เฉลี่ยวินาที” ตารางความล่าช้าบล็อกส่วนใหญ่คือ: การวัดในหนึ่งวันหนึ่งภูมิภาคหนึ่งค่าใช้จ่ายแล้วรีไซเคิลตลอดไปหรือ จินตนาการบริสุทธิ์ แทนที่จะใช้ : two metrics you can actually observe TTFT (Time to First Token) — ความเร็วในการสตรีมมิ่งเริ่มต้น แท็ก / วินาที - วิธีการเร็วส่งออกมาเมื่อมันเริ่มต้น 4.1 ความคาดหวังความล่าช้าในทางปฏิบัติ (ทิศทาง) ระดับ "มินิ / แฟลช" โดยปกติจะชนะ TTFT และผ่านสําหรับโหลดทํางานสไตล์แชท ระดับ "เหตุผล" โดยปกติจะมี TTFT ที่ช้ากว่าและอาจส่งออก tokens มากขึ้น (คิดมากขึ้น) ดังนั้นความล่าช้าที่รับรู้เพิ่มขึ้น อินพุตพื้นฐานยาวเพิ่มความล่าช้าทุกที่ 4.2 วิธีการเปรียบเทียบสําหรับผลิตภัณฑ์ของคุณเอง (วิธีการ 15 นาที) สร้างสคริปต์ benchmark ขนาดเล็กที่ส่ง: สัมผัสเดียวกัน (เช่น 400-800 tokens) เอาท์พุทสูงสุดคงที่ (เช่น 300 แท็ก) ในภูมิภาคเป้าหมายของคุณ สําหรับ 30 - 50 รอบ บันทึก: p50 / p95 TTFT p50 / p95 เวลาทั้งหมด ตุ๊กตา / sec จากนั้นตัดสินใจด้วยข้อมูลไม่ใช่สั่นสะเทือน 5) ความเข้ากันได้: ทําไม “tooling fit” จะเอาชนะคุณภาพของรุ่นดิบ รุ่นที่ 5% "สมาร์ท" แต่ทําลายสต็อกของคุณคือการสูญเสียสุทธิ 5.1 ความเข้ากันได้กับพื้นผิวของ Prompt + API (ซึ่งทําลายเมื่อคุณเปลี่ยนรูปแบบ) ฟังก์ชั่น IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP IP 5.2 Ecosystem fit (a.k.a. “คุณกําลังใช้อะไรแล้ว?”) หากคุณอาศัยอยู่ในกระบวนการทํางานแบบ Google Workspace / Vertex ตัวเลือกการบูรณาการ Gemini + การตั้งพื้นฐานสามารถเหมาะอย่างเป็นธรรมชาติ หากคุณพึ่งพาระบบนิเวศการอัตโนมัติที่กว้างขวางของบุคคลที่สาม OpenAI + Claude ทั้งสองมี SDK + เครื่องมือที่ทันสมัย (LangChain ฯลฯ) หากคุณต้องการข้อมูลที่อยู่อาศัย / on-prem รูปแบบ open-source (Llama / Qwen) ช่วยให้คุณเก็บข้อมูลภายในขอบเขตของคุณ แต่คุณจ่ายใน MLOps 6) รายการตรวจสอบการตัดสินใจ: เลือกรูปแบบเช่นวิศวกร ขั้นตอนที่ 1 - ประเภทงาน ปริมาณสูง / ปริมาณต่ํา: แท็ก, Rewrite, FAQ, การสกัด เงื่อนไขกลาง: คําตอบการสนับสนุนลูกค้า, การรายงานภายใน การเดิมพันสูง: กฎหมายการเงินการรักษาความปลอดภัยโดเมนทางการแพทย์ (ให้ความระมัดระวัง) ขั้นตอนที่ 2 — เลือก Stack ของคุณ (กฎ 2-3 แบบ) การตั้งค่าทั่วไป: ต้นทุนต่ําสําหรับคําขอส่วนใหญ่ พื้นที่ที่แข็งแกร่งสําหรับคําแนะนําที่ยากลําบากพื้นฐานที่ยาวนานเหตุผลที่ยากลําบาก ตัวเลือก: การพิจารณาแบบเรียลไทม์หรือระดับลึกสําหรับ UX / คุณสมบัติเฉพาะ ขั้นตอนที่ 3 – กลยุทธ์การควบคุมค่าใช้จ่าย (ก่อนที่คุณจัดส่ง) การบังคับใช้ขีด จํากัด ความยาวการส่งออก cache ระบบซ้ํา / กรอบ แบตเตอรี่งาน homogeneous เพิ่มกฎการเพิ่มขึ้น (ไม่ส่งทุกอย่างไปยังรุ่นที่แพงที่สุดของคุณ) 7) ตารางการเปรียบเทียบที่ใช้งานได้ที่คุณสามารถวางไว้ใน PRD นี่คือตารางสั้น “คัดลอก / ป้าย” สําหรับผู้มีส่วนร่วม Scenario Priority Default pick Escalate to Why Customer support chatbot Latency + cost (or Gemini Flash-tier) gpt-4o-mini / Claude higher tier gpt-4.1 Cheap 80–90%, escalate only ambiguous cases Long document synthesis Context + format stability Claude tier with strong long-form behaviour gpt-4.1 Long prompts + structured output Coding helper in IDE Tooling + correctness or equivalent gpt-4.1 / o3 o1 Deep reasoning for tricky bugs Privacy-sensitive internal assistant Data boundary Self-host Llama/Qwen Cloud model for non-sensitive output Keep raw data in-house สนับสนุนลูกค้า Chatbot ความล่าช้า + ค่าใช้จ่าย (หรือ Gemini Flash-tier) gpt-4o-mini Claude Tier ที่สูงขึ้น gpt-4.1 ราคาถูก 80–90% การเพิ่มขึ้นเฉพาะกรณีที่ไม่ชัดเจน รายละเอียดเอกสารยาว ความเสถียรของพื้นฐาน + รูปแบบ Claude tier ด้วยพฤติกรรมแบบยาวที่แข็งแกร่ง gpt-4.1 สัมผัสระยะยาว + ผลผลิตแบบโครงสร้าง ตัวช่วยรหัสใน IDE เครื่องมือ + ความถูกต้อง หรือเทียบเท่า gpt-4.1 / ชีวิต o3 o1 การพิจารณาลึกสําหรับ bugs น่ากลัว ผู้ช่วยภายในที่มีความไวต่อความเป็นส่วนตัว ข้อมูลขอบเขต โฮสติ้ง Llama / Qwen โมดูลคลาวด์สําหรับเอาต์พุตที่ไม่สําคัญ เก็บข้อมูลดิบภายในบ้าน ล่าสุด Take “รูปแบบที่ดีที่สุด” ไม่ใช่สิ่งที่ มีเพียง . best model for this prompt, this latency budget, this cost envelope, and this ecosystem หากคุณเรือกับ: benchmark การวัด 2 - 3 แบบ Stack ข้อ จํากัด การผลิตที่เข้มงวด และ caching / batching ...คุณจะเอาชนะทีมที่ติดตามรุ่นล่าสุดทุกเดือน