Vào đầu năm 2026, một chiếc Tesla Model 3 đã đi từ Tesla Diner ở Los Angeles đến Myrtle Beach, Nam Carolina - một khoảng cách 2.732.4 dặm. Trong hai ngày và hai mươi giờ, chiếc xe đã điều hướng các động mạch liên bang của một lục địa, xử lý sự sáp nhập hỗn loạn của các khu vực mở rộng đô thị, và tự đậu tại Superchargers, tất cả đều được điều khiển bởi bàn tay vô hình của Full Self-Driving (FSD) v14.2.1 Đó là một khoảnh khắc "Kitty Hawk" cho lái xe tự trị, một minh chứng rằng trực giác của một mạng lưới thần kinh cuối cùng đã nắm vững dòng chảy của con đường mở. Đạo diễn David Moss Đạo diễn David Moss Tuy nhiên, trên những con đường dày đặc, đầy sương mù của San Francisco, một loại cách mạng khác đang diễn ra. Ở đó, những chiếc Jaguar I-Pace màu trắng mang vương miện xoay của bộ cảm biến của Waymo đang điều hướng các môi trường đô thị phức tạp mà không có ai ở ghế lái. Những chiếc máy này hoạt động theo một nguyên tắc cơ bản khác. Chúng không chỉ phản ứng; chúng đang lên kế hoạch. Chúng dựa vào phương pháp có chủ ý, lý luận và xác minh - được hỗ trợ bởi một bộ cảm biến nhìn thế giới không chỉ như các pixel, mà là một lưới hình học chính xác của sự thật được đo bằng laser. Một bên là Tesla, kẻ nổi dậy maverick, đặt cược nhà trên một cách tiếp cận chỉ tầm nhìn mà bắt chước sinh học của con người: mắt (máy ảnh) và một bộ não (mạng thần kinh). Mặt khác là Waymo, người titan có phương pháp sinh ra từ Google, triển khai một đội tàu robot taxi được nạp với một loạt phức tạp, đắt tiền của laser và radar, từ từ nhưng chắc chắn chinh phục thành phố sau thành phố. Báo cáo này là một vết rạn nứt đầy đủ của cuộc đua công nghệ này cho Gran Turismo của lái tự động. Chúng tôi sẽ mở ra các mạng thần kinh, phân tích vật lý cảm biến, kiểm tra kiến trúc silicon, và phân tích những hiểu biết của những người tiên phong AI như Andrej Karpathy. Chúng tôi sẽ nhìn qua sự thổi phồng tiếp thị đến những thách thức kỹ thuật thô vẫn còn. Từ "March of Nines" đến cuộc tranh luận giữa trực giác "nhanh" và lý luận "nhanh", đây là sự lặn sâu nhất định vào công nghệ lái tự động của ngày mai. Phần I: Kiến trúc của tư tưởng Hệ thống 1 vs. Hệ thống 2: Cognitive Engine Để hiểu tại sao chiếc xe của bạn có thể một ngày nào đó lái xe tốt hơn bạn, trước tiên chúng ta phải hiểu làm thế nào Người đoạt giải Nobel Daniel Kahneman mô tả nhận thức của con người theo hai cách: Hệ thống 1 và Hệ thống 2. Ngươi Hệ thống 1 là nhanh chóng, tự động và trực quan. Đó là phần của bộ não của bạn bắt một cốc rơi trước khi bạn nhận ra nó đã trượt, hoặc phần điều khiển chiếc xe của bạn xuống một con đường cao tốc quen thuộc trong khi tâm trí của bạn lang thang đến những gì bạn sẽ làm cho bữa tối. Hệ thống 2 là chậm, có chủ ý và logic.Đó là phần của bộ não của bạn tham gia khi bạn cố gắng giải quyết một vấn đề toán học phức tạp, hoặc - quan trọng nhất - khi bạn gặp phải một khu vực xây dựng gây nhầm lẫn với tín hiệu tay mâu thuẫn từ một công nhân và một sĩ quan cảnh sát. Trong thập kỷ qua, ngành công nghiệp ô tô tự động (AV) phần lớn đã xây dựng các máy hệ thống 1. họ xử lý dữ liệu cảm biến và lệnh điều khiển đầu ra trong milliseconds dựa trên các mô hình học được. nhưng những bước đột phá gần đây trong AI tạo ra và các mô hình ngôn ngữ lớn (LLM) đã giới thiệu khả năng suy nghĩ hệ thống 2 cho xe hơi - khả năng "tôn trọng" thông qua các trường hợp cạnh thay vì chỉ phản ứng với chúng.3 Mạng lưới thần kinh End-to-End của Tesla: Học giả trực quan FSD v14 của Tesla đại diện cho đỉnh cao của cách tiếp cận "Hệ thống 1", đẩy đến giới hạn tuyệt đối của nó thông qua những gì được gọi là "End-to-End" (E2E) học. Trong robot truyền thống, lái xe được chia thành các nhiệm vụ mô-đun: nhận thức (tôi thấy gì?), định vị (tôi đang ở đâu?), lập kế hoạch (tôi nên đi đâu?), và kiểm soát (làm thế nào để tôi xoay bánh xe?). con người đã viết mã C++ cho mỗi bước. Tesla đã loại bỏ điều đó. FSD v12 và người kế nhiệm của nó v14 đã loại bỏ hơn 300.000 dòng mã C++ heuristic, thay thế logic "dựa trên quy tắc" bằng các mạng thần kinh khổng lồ được đào tạo trên hàng triệu clip video.5 Các máy ảnh cung cấp video thô vào mô hình, và mô hình phát ra lệnh lái xe và pedal trực tiếp. Kiến trúc kỹ thuật của FSD v14 được xây dựng trên nền tảng thu thập dữ liệu khổng lồ và hiển thị thần kinh. nó sử dụng "Nhà mạng chiếm đóng" lấy nguồn cấp dữ liệu video 2D từ tám máy ảnh và xây dựng lại một đại diện khối lượng 3D của thế giới trong thời gian thực.7 Đây không phải là một danh sách phát hiện đối tượng đơn giản; nó là một sự hiểu biết không gian của "không gian di chuyển" so với "kẻ cản". Sự rực rỡ của cách tiếp cận này là khả năng mở rộng của nó. Bởi vì nó học hỏi từ video thô, nó không yêu cầu bản đồ độ nét cao (HD). Nó không cần phải biết tọa độ GPS chính xác của một đường ray để biết rằng nó không nên vượt qua nó. Nó chỉ đơn giản là nhìn vào con đường và "nhìn thấy" con đường, giống như một người lái xe con người trên một con đường nông thôn không quen thuộc. Điều này cho phép Tesla triển khai FSD ở bất cứ đâu, từ những con đường hỗn loạn của Mumbai đến những con đường tuyết của Na Uy, mà không có đội bản đồ trước.8 Tuy nhiên, bản chất "Hệ thống 1" của việc học từ đầu đến cuối cũng là gót chân Achilles của nó. Nó là xác suất, không xác định. Nó bắt chước hành vi của con người - bao gồm, đôi khi, sai lầm của con người. Và vì nó thiếu một lớp biểu tượng "nguyên lý", nó có thể đấu tranh để giải thích Nó đã đưa ra quyết định, làm cho việc gỡ lỗi và xác nhận an toàn trở thành cơn ác mộng của xác suất thống kê chứ không phải là logic có thể xác minh.9 Nó là một hệ thống tương quan, không nhất thiết là nguyên nhân. Tại sao Ashok Elluswamy, Phó Chủ tịch Phần mềm Autopilot của Tesla, đã trình bày “Building Foundational Models for Robotics at Tesla” tại Hội nghị Quốc tế về Tầm nhìn Máy tính (ICCV) vào tháng 10 năm 2025.Tin tức công nghệ này, đã cho chúng ta một cái nhìn sâu sắc về những cải tiến “Hệ thống 2” của Tesla FSD để hỗ trợ trong khả năng giải thích và an toàn thông qua “kiểm tra chuỗi suy nghĩ và quy trình”, mô hình nền tảng dự đoán nhiều kết quả có thể giải thích. 3D Occupation và Flow Các đối tượng như xe hơi, người đi bộ, người đi xe đạp, v.v. kiểm soát giao thông Đường biên giới, đường ray và ngữ nghĩa Giới hạn tốc độ và các thuộc tính đường bộ khác Quyết định được thể hiện như ngôn ngữ đơn giản Waymo’s Hybrid Architecture: The Deliberative Professor – Kiến trúc lai của Waymo Waymo đã thực hiện một con đường kiến trúc cơ bản khác nhau. trong khi họ sử dụng sâu học tập nặng nề để nhận thức và dự đoán, các lớp lập kế hoạch và kiểm soát của họ đã được cấu trúc hơn trong lịch sử, dựa trên một đường ống dẫn mô-đun cho phép đảm bảo an toàn nghiêm ngặt. Tuy nhiên, Waymo không bỏ qua cuộc cách mạng AI. Trong trình điều khiển thế hệ thứ 6 mới nhất của họ, họ đã tích hợp một thành phần "Hệ thống 2" một cách rõ ràng. họ sử dụng một mô hình Vision-Language-Action (VLA) - một loại AI đa phương thức có thể xử lý dữ liệu thị giác và "thiết lý" về nó bằng cách sử dụng khả năng ngôn ngữ. Kiến trúc của Waymo chia sẻ sự khác biệt: Hệ thống nhanh (Hệ thống 1): Một bộ mã hóa kết hợp cảm biến phản ứng trong milliseconds để xe hơi cắt vào hoặc người đi bộ bước ra khỏi rào cản. Điều này xử lý 99% lái xe mà là thói quen. lớp này kết hợp camera, LiDAR, và radar đầu vào vào một vector trạng thái thế giới nhất quán.10 Hệ thống chậm (Hệ thống 2): Một VLM lái xe (Visual Language Model) được đào tạo về khả năng của Gemini. Hệ thống này tham gia vào lý luận ngữ nghĩa phức tạp. Ví dụ, nếu một chiếc xe Waymo gặp một chiếc xe đang cháy trên đường, hệ thống "nhanh" có thể chỉ nhìn thấy một trở ngại. VLM "nhanh" hiểu "lửa", "nguy hiểm" và "công nhân khẩn cấp" và có thể lý luận rằng nó không chỉ nên dừng lại, mà có thể thực hiện một U-turn hoặc làm theo tín hiệu tay không chuẩn của một sĩ quan cảnh sát.10 Kiến trúc “Think Fast, Think Slow” này cho phép Waymo có độ tin cậy của một robot với khả năng thích ứng của một con người lý luận. Nó có thể được xác minh – các kỹ sư có thể kiểm tra “dấu vết lý luận” của VLM để xem lý do tại sao nó quyết định bỏ qua ánh sáng xanh (có lẽ vì một sĩ quan cảnh sát đang lắc đầu nó để ngăn chặn nó).11 “giải thích” này là một yêu cầu quan trọng đối với các cơ quan quản lý và kiểm toán an toàn không thoải mái với bản chất “hộp đen” của các mạng thuần túy. Trái ngược với cách tiếp cận có thể mở rộng của Tesla, sự phụ thuộc của Waymo vào bản đồ trung tâm, độ tin cậy cao và kết nối đã chứng tỏ là một lỗ hổng trong một sự cố điện lớn ở San Francisco vào cuối năm 2025.Khi các khu vực lớn của thành phố bị mất điện, một số xe Waymo đột ngột dừng lại, chặn các giao lộ và tạo ra lưới điện cục bộ.Vụ việc làm nổi bật sự mỏng manh của một hệ thống phụ thuộc vào giao tiếp liên tục và các lĩnh vực hoạt động được xác nhận trước.Trong khi các phương tiện cuối cùng đã được phục hồi mà không có sự cố, sự kiện này phục vụ như một lời nhắc nhở mạnh mẽ rằng ngay cả kiến trúc "System 2" có ý định nhất cũng dễ bị thất bại trong cơ sở hạ tầng vật lý cơ bản, một thách thức ít nghiêm trọng hơn Nvidia Alpamayo: Phát triển trí não Cho đến gần đây, chỉ có Waymo và Tesla có nguồn lực để xây dựng những mô hình thế giới khổng lồ này.Nhập Nvidia.Vào đầu năm 2026, Nvidia đã giới thiệu Alpamayo, một mô hình lý luận mã nguồn mở "System 2" cho xe tự lái.4 Alpamayo giới thiệu lý luận “Chain-of-Thought” (CoT) cho thị trường ô tô rộng lớn hơn. Trong AI truyền thống, một mô hình nhìn thấy một hình ảnh và đầu ra “Construction Zone”. .3 “Tôi thấy những nón màu cam chặn đường dây bên phải.Có một người lao động cầm một dấu hiệu. dấu hiệu nói ‘Slow’. người lao động cử chỉ sang trái. do đó, tôi phải hợp nhất bên trái và giảm tốc độ.” Mô phỏng nội bộ này cho phép hệ thống xử lý sự kiện lái xe "Long Tail" - những sự kiện hiếm hoi, kỳ lạ xảy ra một lần mỗi triệu dặm. Bằng cách phá vỡ vấn đề thành các bước logic, Alpamayo làm giảm khả năng ảo giác thảm khốc. Nó hiệu quả hóa khả năng "nguyên lý" trước đây là lĩnh vực độc quyền của các gã khổng lồ công nghệ, cung cấp một "bộ não trong một hộp" cho các nhà sản xuất ô tô cổ xưa như Mercedes-Benz, Jaguar Land Rover và Lucid.12 The Insight from Andrej Karpathy: The "March of Nines" (Những hiểu biết từ Andrej Karpathy: Cuộc diễu hành của chín người) Cựu Giám đốc AI tại Tesla và là thành viên sáng lập của OpenAI, cung cấp khuôn khổ trí tuệ quan trọng để hiểu trận chiến này. Andrej Karpathy, Andrej Karpathy, Để có được một bản demo tự lái để làm việc 90% thời gian là dễ dàng. Nó mất một ngày cuối tuần mã hóa. Để có được nó đến 99% mất một năm. Để có được nó đến 99,9% mất năm năm. Để loại bỏ bánh xe, bạn cần khoảng "sáu chín" độ tin cậy (99.9999%), có nghĩa là hệ thống chỉ thất bại một lần mỗi vài triệu dặm. Karpathy lập luận rằng các mô hình "Hệ thống 1" hiện tại (như các phiên bản FSD đầu tiên) về cơ bản là "sugaring supervision through a straw".14 Họ dựa vào Reinforcement Learning (RL) nơi phản hồi duy nhất là một sự tách rời. bạn lái xe trong một giờ (hàng triệu khung hình), con người chiếm lĩnh một lần, và mô hình nhận được một tín hiệu "xấu". Ông gợi ý rằng sự tự chủ thực sự đòi hỏi phải giải quyết "sự thiếu hụt nhận thức" của AI hiện tại. các mô hình ngày nay giống như các động cơ "tự hoàn thành ấn tượng" - họ dự đoán token tiếp theo (hoặc góc lái) dựa trên xác suất thống kê. nhưng họ thiếu một "Mô hình thế giới" - một sự hiểu biết thực sự về vật lý, nhân quả và vĩnh viễn đối tượng. Một quả bóng lăn vào đường phố là nguy hiểm; nó chỉ biết rằng trong dữ liệu huấn luyện của nó, "quả bóng" thường tương đương với "phanh."Karpathy dự đoán rằng cầu nối khoảng cách này - chuyển từ bắt chước sang lý luận - là thách thức trung tâm của thập kỷ tới.15 Tại sao Lời bài hát: Eyes On The Road - The Sensor War Sự chia rẽ vĩ đại: Tầm nhìn vs. Fusion Nếu kiến trúc là não bộ, cảm biến là mắt.Và ở đây, sự khác biệt giữa Tesla và Waymo là rõ ràng nhất – theo nghĩa đen. Bảng 1: So sánh Sensor Suite Feature Tesla (Vision-Only) Waymo (Sensor Fusion - Gen 6) Primary Sensors 8 External Cameras 13 Cameras, 4 LiDAR, 6 Radar, Audio Receivers Depth Perception Inferred (AI estimation via Occupancy Nets) Direct (LiDAR Time-of-Flight) Map Reliance Low (Standard Nav Maps) High (HD Centimeter-Level Maps) Cost (Est.) < $500 per vehicle > $10,000+ (Significant reduction from Gen 5) Aesthetics Invisible (Integrated into body) Visible (Roof "Dome" + Peripherals) Theory "Humans drive with eyes; cars should too." "Superhuman safety requires superhuman senses." Sensor chính 8 Camera ngoài trời 13 camera, 4 LiDAR, 6 radar, máy thu âm thanh Độ sâu nhận thức Inferred (AI ước tính thông qua Occupancy Nets) Thời gian bay (LiDAR Time-of-Flight) Bản đồ Reliance Low (Standard Nav Maps) High (HD Centimeter-Level Maps) Bản đồ Chi phí (Trung Quốc) > 500 USD mỗi xe > $10,000+ (Giảm đáng kể từ Gen 5) Aesthetics Invisible (được tích hợp vào cơ thể) Màn hình hiển thị (Roof "Dome" + Peripherals) Lý thuyết “Con người lái xe bằng mắt; xe hơi cũng nên.” “Sự an toàn siêu nhân đòi hỏi những giác quan siêu nhân.” Tên sản phẩm: The Camera Purist Triết lý của Tesla, được thúc đẩy bởi Elon Musk, bắt nguồn từ các nguyên tắc đầu tiên: Toàn bộ hệ thống đường bộ được thiết kế cho các mạng thần kinh sinh học ( não) và các cảm biến quang học (mắt). Tesla đã loại bỏ radar (6) và cảm biến siêu âm (2) khỏi xe của mình, dựa hoàn toàn vào Tesla Vision (1,3,4,5). Ưu điểm: Nó cực kỳ rẻ và có thể mở rộng. Mỗi Tesla Model 3 và Y chạy ra khỏi dòng là một bộ sưu tập dữ liệu tiềm năng và robot taxi. Không có laser quay mỏng manh trên mái nhà. Chi phí của bộ cảm biến là không đáng kể so với pin. Nhược điểm: Máy ảnh là các cảm biến thụ động. chúng không thể "nhìn thấy" khoảng cách; chúng phải ước tính nó, giống như một con người làm với một mắt đóng (tính toán độ sâu đơn mắt). chúng cũng bị mù bởi những điều tương tự như người mù: ánh sáng mặt trời trực tiếp, mưa lớn, sương mù dày đặc và bóng tối.8 Để bù đắp, Tesla sử dụng phần mềm “Occupancy Networks” khổng lồ. Những mạng này lấy các nguồn cấp dữ liệu video và xây dựng một mô hình khối lượng 3D thời gian thực của thế giới, tạo ra một đám mây điểm “virtual LiDAR” từ video.7 Đây là một thành tựu tuyệt vời của kỹ thuật phần mềm, nhưng nó vẫn là một ước tính.Nếu AI hiểu sai một chiếc xe tải trắng chống lại bầu trời sáng (như đã xảy ra trong các vụ tai nạn Autopilot ban đầu), nó “nhìn thấy” không gian trống. Lời bài hát: The All-Seeing Fusion Waymo tin rằng để vượt qua sự an toàn của con người, bạn cần nhận thức siêu nhân. con người trở nên mệt mỏi, phân tâm và có tầm nhìn ban đêm hạn chế. Waymo's 6th Generation Driver Stack là một phép lạ của tích hợp cảm biến.17 LiDAR (Light Detection and Ranging): Vẽ thế giới trong hàng triệu điểm laser, cung cấp đo chính xác khoảng cách chính xác đến cm, bất kể điều kiện chiếu sáng. Nó sử dụng xung laser (ở 905nm hoặc 1550nm bước sóng) để đo thời gian bay. Nó hoạt động trong bóng tối. Nó cắt qua ánh sáng. Nó không thể bị lừa bởi một bức ảnh của một đường hầm được sơn trên tường. Radar: Waymo sử dụng radar hình ảnh tiên tiến nhìn qua sương mù, mưa và tuyết. quan trọng là radar đo tốc độ ngay lập tức bằng cách sử dụng hiệu ứng Doppler. Một máy ảnh cần một số khung hình để tính toán rằng một chiếc xe phía trước đang phanh cứng; radar biết điều đó ngay khi vector tốc độ thay đổi. Camera: Waymo sử dụng 13 camera (từ 29 trong Gen 5) để đọc đèn giao thông, dấu hiệu và đèn phanh (màu sắc và ngữ nghĩa).17 Bộ thu âm: Một loạt các micrô dành riêng cho phép chiếc xe "nghe" các điềm báo, sừng, và thậm chí cả hướng của các phương tiện khẩn cấp tiếp cận. The 6th Generation suite has been optimized for cost, reducing the number of sensors while increasing range and resolution. This "sensor fusion" creates a redundant safety net. If the camera is blinded by the sun, the LiDAR still sees the car ahead. If the LiDAR is confused by heavy rain (which can scatter laser beams), the radar sees through it.19 Vật lý của cuộc tranh luận: Signal-to-Noise Cuộc tranh luận thường đun sôi xuống đến tỷ lệ "tín hiệu đến tiếng ồn". LiDAR cung cấp một đại diện tín hiệu cao, tiếng ồn thấp của hình học. Nó cho bạn biết chính xác nơi mặt đất là và nơi một trở ngại là. Máy ảnh cung cấp số lượng dữ liệu khổng lồ (màu sắc, kết cấu, văn bản) nhưng rất ồn ào về mặt hình học. AI phải thực hiện nâng nặng để tìm ra rằng một mô hình phẳng ở mặt sau của một chiếc xe tải không phải là một đối tượng 3D, hoặc rằng một cái lỗ không phải là một lỗ hổng. Tesla đặt cược rằng tính toán (AI) cuối cùng sẽ trở nên đủ tốt để giải quyết tiếng ồn của máy ảnh một cách hoàn hảo. Waymo đặt cược rằng có dữ liệu "trái đất" từ LiDAR là một phím tắt để bảo mật mà không thể được bỏ qua bởi phần mềm một mình. Phần III: The Heart (Silicon) - The Compute Bottleneck Việc chuyển sang lý luận "Hệ thống 2" và mạng thần kinh End-to-End đòi hỏi sức mạnh tính toán trên tàu khổng lồ.Đây là nơi các chiến lược phần cứng của Tesla và Nvidia (năng lượng cho mọi người khác) khác biệt đáng kể. Vì không có thông tin công khai về phần cứng máy tính của Waymo, xin vui lòng tự do thêm vào bình luận hoặc ping tôi trực tiếp. Tesla AI4: Trò chơi hiệu quả Phần cứng hiện tại, HW4 (AI4), là một máy tính kết luận tùy chỉnh được xây dựng trên một quy trình 7nm của Samsung.20 Thông số kỹ thuật: ước tính 100-150 TOPS (Tera Operations Per Second) với độ chính xác INT8. Kiến trúc: Tối ưu hóa để xử lý các luồng video từ 8 máy ảnh. Nó có các đơn vị xử lý thần kinh chuyên dụng (NPU) và thiết kế redundant dual-SoC. The Bottleneck: Nghiên cứu cho thấy hạn chế của Tesla không chỉ là tốc độ thô, mà là băng thông bộ nhớ. xử lý video độ phân giải cao và chạy Transformers khổng lồ (như mô hình V14) đòi hỏi phải di chuyển lượng dữ liệu khổng lồ vào và ra khỏi bộ nhớ chip. AI4 sử dụng bộ nhớ GDDR6 (như một máy tính chơi game) để đạt ~384 GB/s băng thông.20 Giới hạn băng thông này rất quan trọng. Các mô hình lớn "Hệ thống 2" (VLM) đòi hỏi lượng bộ nhớ khổng lồ để giữ "cửa sổ bối cảnh" của họ (lịch sử của những gì vừa xảy ra). Cách tiếp cận chỉ có tầm nhìn của Tesla hấp thụ lượng dữ liệu video thô khổng lồ, làm bão hòa bus bộ nhớ. Elon Musk đã tuyên bố rằng chip thế hệ tiếp theo, AI5, sẽ có 5x băng thông bộ nhớ và 10x máy tính. Tuy nhiên, AI5 không phải là đến cuối năm 2026 hoặc 2027. Điều này đặt Tesla vào một vị trí khó khăn: FSD v14 đang đẩy giới hạn của phần cứng HW4 hiện tại. Họ có thể phù hợp với một tác nhân lý luận (Hệ thống 2) trên các chiếc xe hiện tại? Đó là một sự ép chặt chẽ, buộc họ phải Tên sản phẩm: Thor: The Sledgehammer Trong khi Tesla đang xây dựng chip tùy chỉnh, Nvidia đang xây dựng nền tảng "Thor" cho phần còn lại của ngành. Thông số kỹ thuật: Lên đến 2.000 TFLOPS (sử dụng độ chính xác FP4).20 Kiến trúc: Được xây dựng trên quy trình TSMC 4N (một nút 5nm tùy chỉnh). Nó tích hợp các hệ thống CPU, GPU và điều khiển vào một SoC (System on Chip) dựa trên kiến trúc Blackwell. Ưu điểm: Thor được thiết kế rõ ràng cho các mô hình Transformer và các mô hình ngôn ngữ lớn (LLM) có khả năng lý luận "Hệ thống 2". Nó có cơ sở để chạy các mô hình như Alpamayo cùng với phần mềm còn lại của chiếc xe. Nó hỗ trợ định lượng FP4 bản địa (4-bit floating point), cho phép nó chạy các mô hình lớn với tác động bộ nhớ ít hơn.21 Bảng 2: Silicon Showdown Spec Tesla AI4 (Current) Nvidia Thor (Next-Gen) Compute ~150 TOPS (INT8) ~2,000 TFLOPS (FP4) Process Node Samsung 7nm TSMC 4N (5nm class) Memory Type GDDR6 LPDDR5X Memory Bandwidth ~384 GB/s ~273 GB/s (per chip) Primary Use Vision Inference VLM/LLM Reasoning + Vision Adopters Tesla Mercedes, Zeekr, Lucid, BYD Tính toán Đánh giá 150 TOPS (INT8) ~ 2.000 TFLOPS (FP4) quy trình node Samsung 7nm TSMC 4N (Lớp 5nm) Loại bộ nhớ GDDR6 Đánh giá LPDDR5X Bandwidth bộ nhớ 384 GB / giây ~273 GB/s (mỗi chip) Sử dụng chính Tầm nhìn inference VLM / LLM lý luận + Tầm nhìn Adopters Tesla Mercedes, Zeekr, Lucid và BYD The Insight: Sự tích hợp dọc của Tesla cho phép họ dẫn đầu sớm, nhưng quy mô R & D khổng lồ của Nvidia trong trung tâm dữ liệu đang lật đổ xuống xe hơi. Thor là một con chip quái vật có thể cho phép các đối thủ cạnh tranh "trượt" silicon HW4 cũ của Tesla về khả năng lý luận thô, miễn là họ có thể viết phần mềm để sử dụng nó. cược của Tesla là phần mềm được tối ưu hóa cao của họ có thể ép nhiều hiệu suất từ phần cứng yếu hơn so với các đối thủ cạnh tranh có thể thoát khỏi sức mạnh thô.20 Phần IV: Nhiên liệu dữ liệu – Chất lượng so với số lượng Và trong cuộc đua tự chủ, hai công ty đang tiêu thụ chế độ ăn uống rất khác nhau. Tesla: Đại dương dữ liệu Tesla có một đội xe hơn 5 triệu xe trên đường, một phần đáng kể trong số đó đang chạy FSD (Chế độ giám sát) hoặc hoạt động trong "Chế độ bóng tối". Chế độ bóng tối: Ngay cả khi một con người đang lái xe, máy tính Tesla đang chạy trong nền, đưa ra dự đoán.Nếu máy tính dự đoán "chuyển sang trái" và con người đi thẳng, hệ thống đánh dấu sự khác biệt này và tải dữ liệu lên máy chủ của Tesla.5 Kích thước: Tesla thu thập hàng tỷ dặm dữ liệu mỗi năm, điều này cho phép họ nắm bắt "cái đuôi dài" của các sự kiện kỳ lạ - nệm trên đường cao tốc, ngựa và buggies, bão ở Bắc Dakota - mà một hạm đội nhỏ hơn có thể không bao giờ nhìn thấy. The V14 Leap: Với FSD v14, Tesla đã mở rộng các thông số đào tạo của mình bằng 10x.22 Họ đang đào tạo trên các cụm khổng lồ của Nvidia H200s (và sớm siêu máy tính Dojo của riêng họ), cố gắng "lực thô" giải pháp thông qua khối lượng kinh nghiệm thuần túy. Lời bài hát: The Curated Library Hạm đội của Waymo rất nhỏ so với hàng ngàn chiếc xe, không phải hàng triệu chiếc.Họ đã tích lũy khoảng 100 triệu dặm tự động.10 Tuy nhiên, Waymo lập luận rằng dữ liệu của họ có chất lượng vô cùng cao. High-Fidelity Labels: Bởi vì Waymo xe sử dụng LiDAR, dữ liệu đào tạo của họ đi kèm với độ sâu hoàn hảo "trái đất sự thật". Mô phỏng: Waymo phụ thuộc rất nhiều vào mô phỏng (Carcraft). Họ gặp gỡ thế giới thực và pha trộn chúng thành hàng triệu biến thể trong một thế giới ảo, đào tạo hệ thống của họ trên hàng tỷ dặm mô phỏng có độ chính xác về mặt vật lý.10 Closed Loop Feedback: Hệ thống của Waymo học hỏi từ lái xe của chính nó. Nó sử dụng một mô hình "Critic" để đánh giá hiệu suất của chính nó và đánh dấu hành vi không tối ưu cho đào tạo lại. Điều này tạo ra một "flywheel" nơi chiếc xe tự học.10 The Insight: Tesla đang chơi một trò chơi về chiều rộng; họ đã nhìn thấy mọi thứ ngoại trừ với dữ liệu thị giác "bồn ồn".Waymo đang chơi một trò chơi về chiều sâu; họ đã nhìn thấy ít hơn, nhưng với độ chính xác cảm biến "hoàn hảo" và họ mô phỏng phần còn lại.Tesla tin rằng "số lượng có chất lượng riêng của nó."Waymo tin rằng "rác vào, rác ra" áp dụng cho đào tạo AI, và dữ liệu chỉ có camera là "rác" về bản chất so với dữ liệu LiDAR. Phần V: Sự phát triển gần đây & Kiểm tra thực tế The Coast-to-Coast Drive: Một tiêu chuẩn mới Vào đầu năm 2026, cuộc tranh luận đã chuyển từ lý thuyết sang thực tế.Một chủ sở hữu Tesla, David Moss, đã ghi lại một chuyến đi không can thiệp từ Los Angeles đến Myrtle Beach bằng cách sử dụng FSD v14.2. Chuyến đi mất 2 ngày và 20 giờ. chiếc xe xử lý các điểm dừng sạc, giao thông đường cao tốc, và giao thông thành phố mà không có một "tắt sự tham gia" (tắt người).1 Thành tựu này rất quan trọng vì nhiều lý do: Tổng quát: Nó chứng minh rằng mô hình "từ đầu đến cuối" tổng quát trên các đường nhà nước, các dấu hiệu đường khác nhau và điều kiện thời tiết khác nhau. Độ tin cậy: Trong khi một ổ đĩa là thống kê không đáng kể (một "kích thước mẫu của một"), thực tế là nó có thể cho thấy MTBF (Mean Time Between Failures) của FSD đã được cải thiện theo thứ tự của quy mô kể từ v12. Xác minh cộng đồng: ổ đĩa được theo dõi thông qua cơ sở dữ liệu FSD của Whole Mars, thêm một lớp xác minh thường thiếu trong các tuyên bố của nhà sản xuất.24 Ngoài ra, cá nhân tôi đã nghe khá nhiều câu chuyện thành công của Tesla FSD v14 từ mạng riêng của tôi trong mùa lễ 2025-2026. bạn bè của tôi đã hoàn thành các chuyến đi trở lại cuối cùng từ San Francisco đến LA và khu vực vịnh đến hồ Tahoe (nhà trượt tuyết) mà không có sự can thiệp của con người. Tuy nhiên, những người chỉ trích vẫn còn hoài nghi. Họ chỉ ra "Gambler's Fallacy." Nếu hệ thống có tỷ lệ thất bại là 1 trong 10.000 dặm, bạn có thể dễ dàng lái xe 3.000 dặm mà không có vấn đề. Nhưng để trở thành một chiếc robot taxi (không tài xế), bạn cần tỷ lệ thất bại là 1 trong 10.000.000 dặm. Thực tế Waymo Trong khi Tesla ăn mừng một chuyến đi xuyên quốc gia duy nhất, Waymo đang điều hành một dịch vụ thương mại Ở các thành phố như Phoenix, San Francisco và Los Angeles, Waymo đang lái xe trống rỗng, đón hành khách trả tiền và đối phó với các phương tiện khẩn cấp, mưa và xây dựng hàng ngày. Hôm nay Hôm nay The Stat: Waymo có tỷ lệ tai nạn thấp hơn đáng kể so với người lái xe trong các khu vực mà nó hoạt động (0,7 tai nạn mỗi triệu dặm so với 4,85 đối với con người).25 The Constraint: Waymo được bảo vệ địa lý. nó không thể chỉ lái xe đến Myrtle Beach vào ngày mai. nó cần bản đồ và xác nhận. Phần VI: Dự đoán tương lai và con đường phía trước Ai thắng Gran Turismo? câu trả lời phụ thuộc vào thời gian và định nghĩa của chiến thắng. The Short Term (2026-2028): Waymo thống trị Robotaxi, Tesla thống trị ADAS Waymo: Sẽ tiếp tục mở rộng quy mô thành phố theo thành phố. Chi phí đơn vị của họ đang giảm (thế hệ 6), và trường hợp an toàn của họ đã được chứng minh. Họ sẽ sở hữu thị trường "Uber-without-a-driver" trong các tàu điện ngầm dày đặc lớn. Việc bổ sung VLM (Hệ thống 2) sẽ giúp họ xử lý các trường hợp cạnh hiếm gặp mà trước đây đã ngăn cản họ. Tesla: FSD v14 sẽ trở thành một hệ thống "Chăm sóc" đáng kinh ngạc. Nó sẽ lái xe bạn từ bờ biển đến bờ biển, nhưng bạn vẫn sẽ cần phải chú ý. Việc nhảy đến "Không giám sát" (xóa bánh lái) là khó khăn hơn so với việc nhảy đến v14. Các hạn chế phần cứng của HW4 có thể ngăn chặn sự tự chủ L5 đầy đủ, buộc phải chờ đợi AI5. The Long Term (2029+): Sự hội tụ Khoảnh khắc "Android": Nvidia Alpamayo và Thor nền tảng sẽ cho phép các nhà sản xuất ô tô khác để bắt kịp. chúng ta sẽ thấy "tự trị hàng hóa" trong đó một Mercedes hoặc một Hyundai có khả năng "tôn trọng" tương tự như Waymo, được cung cấp bởi Nvidia. Chiến thắng dữ liệu của Tesla: Nếu - và đó là một vấn đề lớn nếu - Tesla có thể giải quyết vấn đề lý luận bằng cách sử dụng đội tàu video khổng lồ của họ và đào tạo từ đầu đến cuối, họ sẽ giành chiến thắng trong trò chơi toàn cầu. Một Waymo pivot: đây hoàn toàn là suy đoán, nhưng dựa trên sức mạnh não bộ to lớn của Google AI Research và sự tiến bộ nhanh chóng của nó trong bộ Gemini của các mô hình đa phương thức, có khả năng Google có thể bí mật chạy một chương trình song song với kiến trúc hệ thống cơ bản khác. Thẻ hoang dã: Hệ thống 2 Distillation Điểm tiên tiến của nghiên cứu (được đề cập trong 26) liên quan đến việc "tách" lý luận hệ thống 2 nặng và chậm của các mô hình lớn thành các mạng hệ thống 1 nhanh và hiệu quả. Hãy tưởng tượng một học sinh (Hệ thống 1) học từ một giáo sư (Hệ thống 2) Giáo sư suy nghĩ chậm rãi và giải thích tại sao. Tesla và Waymo đều đang cạnh tranh để làm điều này. Waymo sử dụng VLM của mình để dạy chính sách lái xe của mình. Tesla sử dụng các đoạn video được điều phối (được dán nhãn bởi các nhà đánh dấu tự động) để dạy mạng lưới từ đầu đến cuối của mình. Dự đoán: Người chiến thắng sẽ là công ty tự động hóa tốt nhất vòng lặp "giáo viên - học sinh".Tesla có nhiều "học sinh" (xe) và dữ liệu hơn.Waymo có một "giáo viên" tốt hơn (dữ liệu xác minh, thực tế cơ bản). Lời bài hát: Infinite Mile Cuộc hành trình từ Los Angeles đến Myrtle Beach là một chiến thắng của kỹ thuật, một bằng chứng cho thấy các mạng thần kinh đã đi được bao xa.Nhưng khoảng cách giữa "làm việc 99% thời gian" và "làm việc đủ tốt để ngủ ở ghế sau" không được đo bằng dặm; nó được đo bằng chín. Tesla đang nhảy xuống con đường này với một tầm nhìn về tự trị phổ quát, giá cả phải chăng, được thúc đẩy bởi quy mô tuyệt vời của đội tàu và sự táo bạo của cược "chỉ tầm nhìn". Waymo đang xây dựng con đường khi nó lái xe, đặt nền tảng của các cảm biến và bản đồ đảm bảo an toàn với chi phí tốc độ và quy mô. Khi Nvidia dân chủ hóa bộ não của chiếc xe với các công cụ như Alpamayo, sự khác biệt giữa hai chiếc xe có thể bị mờ đi.Chiếc xe sẽ học cách lý luận.Họ sẽ học cách giải thích bản thân.Và ở đâu đó trong sự nắm tay vô hình giữa một máy ảnh, một laser và một con chip silicon, thiên tài trong máy cuối cùng sẽ lấy bánh xe cho tốt. References Elon Musk trả lời sau khi chủ sở hữu Tesla hoàn thành lái xe hoàn toàn tự trị đầu tiên ở Mỹ - UNILAD Tech, truy cập ngày 7 tháng 1 năm 2026, https://www.uniladtech.com/vehicles/car-news/musk-responds-tesla-owner-first-autonomous-drive-867091-20260102 Tesla FSD hoàn thành thành công toàn bộ đường bờ biển với không can thiệp - Teslarati, truy cập ngày 7 tháng 1 năm 2026, https://www.teslarati.com/tesla-fsd-successfully-completes-full-coast-to-coast-drive-with-zero-interventions/ Self Driving Has Been Solved by NVIDIA?, truy cập ngày 7 tháng 1 năm 2026, https://www.youtube.com/shorts/gVbpwlNdUTg Xây dựng Xe Tự Động Vì Lý Do với NVIDIA Alpamayo ..., truy cập ngày 7 tháng 1 năm 2026, https://developer.nvidia.com/blog/building-autonomous-vehicles-that-reason-with-nvidia-alpamayo/ Deep Dive: Tesla, Waymo, and the Great Sensor Debate, truy cập ngày 7 tháng 1 năm 2026, https://research.contrary.com/report/tesla-waymo-and-the-great-sensor-debate The curious long tail of automated driving: It reads minds but stops too far from the ticket machine - ResearchGate, accessed January 7, 2026, https://www.researchgate.net/publication/387997832_The_curious_long_tail_of_automated_driving_It_reads_minds_but_stops_too_far_from_the_ticket_machine Tesla's FSD Redefines Autonomous Driving - Veltyx, truy cập ngày 7 tháng 1 năm 2026, https://www.veltyx.de/en/post/tesla-s-fsd-redefines-autonomous-driving Sự khác biệt trong cách tiếp cận giữa Tesla FSD và Waymo là gì và cách nào tốt hơn?, truy cập ngày 7 tháng 1 năm 2026, https://www.reddit.com/r/SelfDrivingCars/comments/1mmxu53/whats_the_difference_in_approach_between_tesla/ Kyle nói về những ưu và nhược điểm của cách tiếp cận Waymo và Tesla : r/SelfDrivingCars - Reddit, truy cập ngày 7 tháng 1 năm 2026, https://www.reddit.com/r/SelfDrivingCars/comments/1lkcco0/kyle_talks_pros_and_cons_of_waymo_and_tesla/ Demonstrably Safe AI For Autonomous Driving - Waymo, truy cập ngày 7 tháng 1 năm 2026, https://waymo.com/blog/2025/12/demonstrably-safe-ai-for-autonomous-driving Waymo: AI lái xe tự trị "Xác minh và an toàn" - EEWorld, truy cập ngày 7 tháng 1 năm 2026, https://en.eeworld.com.cn/news/qcdz/eic715466.html NVIDIA công bố Alpamayo Family of Open-Source AI Models and Tools to Accelerate Safe, Reasoning-Based Autonomous Vehicle Development, truy cập ngày 7 tháng 1 năm 2026, https://nvidianews.nvidia.com/news/alpamayo-autonomous-vehicle-development Andrej Karpathy nói với Dwarkesh rằng AGI vẫn còn cách xa một thập kỷ. - The Neuron, truy cập ngày 7 tháng 1 năm 2026, https://www.theneuron.ai/explainer-articles/andrej-karpathy-told-dwarkesh-that-agi-is-still-a-decade-away Beyond the Hype: 5 Counter-Intuitive Truths About AI từ Andrej Karpathy, truy cập ngày 7 tháng 1 năm 2026, https://dev.to/amananandrai/beyond-the-hype-5-counter-intuitive-truths-about-ai-from-andrej-karpathy-afk Andrej Karpathy — AGI vẫn còn một thập kỷ nữa - Dwarkesh Podcast, truy cập ngày 7 tháng 1 năm 2026, https://www.dwarkesh.com/p/andrej-karpathy Issues Under The Surface With Tesla FSD vs. Waymo Driver - CleanTechnica, truy cập ngày 7 tháng 1 năm 2026, https://cleantechnica.com/2025/12/16/issues-under-the-surface-with-tesla-fsd-vs-waymo-driver/ New Waymo robotaxi cung cấp hiệu suất tốt hơn với chi phí thấp hơn - The Robot Report, truy cập ngày 7 tháng 1 năm 2026, https://www.therobotreport.com/new-waymo-robotaxis-offers-better-performance-at-lower-cost/ Gặp gỡ Waymo Driver thế hệ thứ 6 : r/singularity - Reddit, truy cập ngày 7 tháng 1 năm 2026, https://www.reddit.com/r/singularity/comments/1ewdrd1/meet_the_6thgeneration_waymo_driver/ Tesla's Robotaxi Bet: Vision-Only vs. Multi-Sensor Reality Check - EYE2DRIVE, truy cập ngày 7 tháng 1 năm 2026, https://www.eye2drive.com/2025/06/19/tesla-testing-vision-only-autonomy-in-robotaxi-fleet/ Tesla AI4 vs. NVIDIA Thor: thực tế tàn bạo của máy tính tự lái eBay Electrek, truy cập ngày 7 tháng 1 năm 2026, https://electrek.co/2025/11/25/tesla-ai4-vs-nvidia-thor-reality-self-driving-computers/ Giới thiệu NVIDIA Jetson Thor, nền tảng cuối cùng cho AI vật lý, truy cập ngày 7 tháng 1 năm 2026, https://developer.nvidia.com/blog/introducing-nvidia-jetson-thor-the-ultimate-platform-for-physical-ai/ Ngành công nghiệp lái xe thông minh của Trung Quốc: Những thay đổi đáng kể trong sức mạnh tính toán - 36 doanh nghiệp, truy cập ngày 7 tháng 1 năm 2026, https://eu.36kr.com/en/p/3617790434980357 Tesla vs. Waymo vs. Cruise: Who's Leading the Autonomous Vehicle Race? (Thống kê thị trường) Ebay PatentPC, truy cập ngày 7 tháng 1 năm 2026, https://patentpc.com/blog/tesla-vs-waymo-vs-cruise-whos-leading-the-autonomous-vehicle-race-market-share-stats Tesla FSD đạt được lái xe hoàn toàn tự trị đầu tiên của Mỹ Coast-to-Coast : r/singularity - Reddit, truy cập ngày 7 tháng 1 năm 2026, https://www.reddit.com/r/singularity/comments/1q0pvbr/tesla_fsd_achieves_first_fully_autonomous_us/ Elon trên Waymo: "Không bao giờ thực sự có cơ hội chống lại Tesla" Waymo Chi tiết Chiến lược An toàn AI : r/SelfDrivingCars - Reddit, truy cập ngày 7 tháng 1 năm 2026, https://www.reddit.com/r/SelfDrivingCars/comments/1pj4ufx/elon_on_waymo_never_really_had_a_chance_against/ Distilling Multi-modal Large Language Models for Autonomous Driving - arXiv, truy cập ngày 7 tháng 1 năm 2026, https://arxiv.org/html/2501.09757v1 Distilling System 2 into System 1 - arXiv, truy cập ngày 7 tháng 1 năm 2026, https://arxiv.org/html/2407.06023v1 Ashok Elluswamy “Mô hình nền tảng cho FSD”, ICCV 2025 trình bày https://www.youtube.com/watch?v=IkW8hIGimfs https://www.uniladtech.com/vehicles/car-news/musk-responds-tesla-owner-first-autonomous-drive-867091-20260102 https://www.teslarati.com/tesla-fsd-successfully-completes-full-coast-to-coast-drive-with-zero-interventions/ https://www.youtube.com/shorts/gVbpwlNdUTg https://developer.nvidia.com/blog/building-autonomous-vehicles-that-reason-with-nvidia-alpamayo/ https://research.contrary.com/report/tesla-waymo-and-the-great-sensor-debate https://www.researchgate.net/publication/387997832_The_curious_long_tail_of_automated_driving_It_reads_minds_but_stops_too_far_from_the_ticket_machine https://www.veltyx.de/en/post/tesla-s-fsd-redefines-autonomous-driving https://www.reddit.com/r/SelfDrivingCars/comments/1mmxu53/whats_the_difference_in_approach_between_tesla/ https://www.reddit.com/r/SelfDrivingCars/comments/1lkcco0/kyle_talks_pros_and_cons_of_waymo_and_tesla/ https://waymo.com/blog/2025/12/demonstrably-safe-ai-for-autonomous-driving https://en.eeworld.com.cn/news/qcdz/eic715466.html https://nvidianews.nvidia.com/news/alpamayo-autonomous-vehicle-development https://www.theneuron.ai/explainer-articles/andrej-karpathy-told-dwarkesh-that-agi-is-still-a-decade-away https://dev.to/amananandrai/beyond-the-hype-5-counter-intuitive-truths-about-ai-from-andrej-karpathy-afk https://www.dwarkesh.com/p/andrej-karpathy https://cleantechnica.com/2025/12/16/issues-under-the-surface-with-tesla-fsd-vs-waymo-driver/ https://www.therobotreport.com/new-waymo-robotaxis-offers-better-performance-at-lower-cost/ https://www.reddit.com/r/singularity/comments/1ewdrd1/meet_the_6thgeneration_waymo_driver/ https://www.eye2drive.com/2025/06/19/tesla-testing-vision-only-autonomy-in-robotaxi-fleet/ https://electrek.co/2025/11/25/tesla-ai4-vs-nvidia-thor-reality-self-driving-computers/ https://developer.nvidia.com/blog/introducing-nvidia-jetson-thor-the-ultimate-platform-for-physical-ai/ https://eu.36kr.com/en/p/3617790434980357 https://patentpc.com/blog/tesla-vs-waymo-vs-cruise-whos-leading-the-autonomous-vehicle-race-market-share-stats https://www.reddit.com/r/singularity/comments/1q0pvbr/tesla_fsd_achieves_first_fully_autonomous_us/ https://www.reddit.com/r/SelfDrivingCars/comments/1pj4ufx/elon_on_waymo_never_really_had_a_chance_against/ https://arxiv.org/html/2501.09757v1 https://arxiv.org/html/2407.06023v1