Phỏng vấn Ilya Sutskever, Đồng sáng lập OpenAI

Khi chúng ta hướng tới một tương lai tràn ngập trí tuệ nhân tạo, nhiều nhà bình luận đang tự hỏi liệu chúng ta có đang tiến quá nhanh hay không. Những gã khổng lồ công nghệ, các nhà nghiên cứu và các nhà đầu tư dường như đang điên cuồng phát triển AI tiên tiến nhất. Nhưng liệu họ có đang cân nhắc những rủi ro, ? những người lo lắng hỏi Câu hỏi không hoàn toàn là tranh luận, và hãy yên tâm rằng có hàng trăm bộ đang xem xét các khả năng lạc hậu - và các cách để tránh chúng. óc sắc bén Nhưng thực tế là tương lai là không thể biết trước, ý nghĩa của công nghệ mới đầy sức mạnh này cũng không thể tưởng tượng được giống như phương tiện truyền thông xã hội khi Internet ra đời. Sẽ có điều tốt và điều xấu, nhưng sẽ có những hệ thống trí tuệ nhân tạo mạnh mẽ trong tương lai của chúng ta và những AI thậm chí còn mạnh mẽ hơn nữa trong tương lai của con cháu chúng ta. Nó không thể dừng lại, nhưng nó có thể được hiểu. Tôi đã nói về công nghệ mới này với r, người đồng sáng lập OpenAI, một viện nghiên cứu AI phi lợi nhuận có các công ty con có khả năng nằm trong số những tổ chức sinh lời cao nhất trên trái đất. Ilya Stutskeve Cuộc trò chuyện của tôi với Ilya diễn ra ngay trước khi phát hành GPT-4, phiên bản mới nhất của hệ thống AI khổng lồ của OpenAI, đã tiêu thụ hàng tỷ từ văn bản - nhiều hơn bất kỳ con người nào có thể đọc trong đời. GPT là viết tắt của Generative Pre-training Transformer, ba từ quan trọng để hiểu Homeric này. Transformer là tên của thuật toán ở trung tâm của người khổng lồ. Polyphemus Được đào tạo trước đề cập đến việc giáo dục con người khổng lồ với một kho văn bản khổng lồ, dạy nó các mẫu và mối quan hệ cơ bản của ngôn ngữ - nói tóm lại, dạy nó hiểu thế giới. Sáng tạo có nghĩa là AI có thể tạo ra những suy nghĩ mới từ cơ sở kiến thức này. AI đã chiếm lĩnh nhiều khía cạnh trong cuộc sống của chúng ta. Nhưng những gì sắp tới còn tiên tiến hơn nhiều, mạnh mẽ hơn nhiều. Chúng tôi đang di chuyển vào lãnh thổ chưa được khám phá. Và thật đáng để dành một chút thời gian để xem xét điều đó có nghĩa là gì. Nhưng điều quan trọng là không phản ứng thái quá, không rút lui như những con rùa khỏi mặt trời rực rỡ đang chiếu sáng chúng ta. Trong bài thơ sử thi "The Odyssey" của Homer, Cyclops Polyphemus bẫy Odysseus và thủy thủ đoàn của anh ta trong hang động của anh ta, định ăn thịt họ. Nhưng Odysseus đã làm mù mắt tên khổng lồ và trốn thoát. AI sẽ không ăn thịt chúng ta. Ilya Sutskever là người đồng sáng lập và là nhà khoa học trưởng của OpenAI và là một trong những bộ óc chính đằng sau mô hình ngôn ngữ lớn và sản phẩm con công khai của nó, ChatGPT, mà tôi không nghĩ là cường điệu khi nói rằng nó đang thay đổi thế giới. GPT-4 Đây không phải là lần đầu tiên Ilya thay đổi thế giới. Anh ấy là động lực chính cho AlexNet, mạng lưới thần kinh tích chập có hiệu suất ấn tượng đã làm choáng váng cộng đồng khoa học vào năm 2012 và khởi xướng cuộc cách mạng học sâu. Sau đây là bản ghi đã được chỉnh sửa của cuộc trò chuyện của chúng tôi. Ilya, tôi biết bạn sinh ra ở Nga. Điều gì khiến bạn quan tâm đến khoa học máy tính, nếu đó là sự thôi thúc ban đầu, khoa học thần kinh hay bất cứ thứ gì. CRAIG: Thật vậy, tôi sinh ra ở Nga. Tôi lớn lên ở Israel, và khi còn là một thiếu niên, gia đình tôi di cư đến Canada. Cha mẹ tôi nói rằng tôi quan tâm đến AI từ khi còn nhỏ. Tôi cũng rất được thúc đẩy bởi ý thức. Tôi rất băn khoăn về nó, và tôi tò mò về những điều có thể giúp tôi hiểu rõ hơn về nó. ILYA: Tôi bắt đầu làm việc với Geoff Hinton [một trong những người sáng lập deep learning, loại AI đằng sau GPT-4, và là giáo sư tại Đại học Toronto vào thời điểm đó] từ rất sớm khi tôi 17 tuổi. Bởi vì chúng tôi chuyển đến Canada và tôi ngay lập tức đã có thể gia nhập Đại học Toronto. Tôi thực sự muốn học máy, bởi vì đó dường như là khía cạnh quan trọng nhất của trí tuệ nhân tạo mà vào thời điểm đó hoàn toàn không thể tiếp cận được. Đó là năm 2003. Chúng tôi cho rằng máy tính có thể học là điều hiển nhiên, nhưng vào năm 2003, chúng tôi đã cho rằng máy tính học là điều hiển nhiên. Thành tựu lớn nhất của AI hồi đó là Deep Blue, công cụ chơi cờ của [IBM] [đã đánh bại nhà vô địch thế giới Garry Kasparov năm 1997]. không thể Nhưng ở đó, bạn có trò chơi này và bạn có nghiên cứu này, và bạn có cách đơn giản này để xác định xem vị trí này có tốt hơn vị trí khác hay không. Và tôi thực sự không cảm thấy điều đó có thể áp dụng được vào thế giới thực vì không có kiến thức học tập. Học tập là bí ẩn lớn này. Và tôi đã thực sự, thực sự quan tâm đến việc học. Thật may mắn cho tôi, Geoff Hinton là giáo sư tại trường đại học, và chúng tôi bắt đầu làm việc cùng nhau gần như ngay lập tức. Vậy trí thông minh hoạt động như thế nào? Làm thế nào chúng ta có thể làm cho máy tính trở nên thông minh hơn một chút? Tôi đã có ý định rất rõ ràng là đóng góp rất nhỏ nhưng thực sự cho AI. Vì vậy, động lực là, tôi có thể hiểu cách hoạt động của trí thông minh không? Và cũng đóng góp cho nó? Vì vậy, đó là động lực ban đầu của tôi. Đó là gần như chính xác 20 năm trước. Tóm lại, tôi nhận ra rằng nếu bạn đào tạo, một mạng lưới thần kinh lớn trên một mạng lưới thần kinh lớn và sâu trên một tập dữ liệu đủ lớn chỉ định một số nhiệm vụ phức tạp mà mọi người thực hiện, chẳng hạn như tầm nhìn, thì bạn nhất thiết sẽ thành công. Và logic của nó là không thể rút gọn được; chúng ta biết rằng bộ não con người có thể giải quyết những nhiệm vụ này và có thể giải quyết chúng một cách nhanh chóng. Và bộ não con người chỉ là một mạng lưới thần kinh với các nơ-ron chậm chạp. Vì vậy, sau đó chúng ta chỉ cần lấy một mạng thần kinh nhỏ hơn nhưng có liên quan và đào tạo nó trên dữ liệu. Và mạng thần kinh tốt nhất bên trong máy tính sẽ liên quan đến mạng thần kinh mà chúng ta có trong bộ não thực hiện nhiệm vụ này. Vào năm 2017, bài báo "Chú ý là tất cả những gì bạn cần" đã ra mắt giới thiệu về khả năng tự chú ý và máy biến áp. Dự án GPT bắt đầu vào thời điểm nào? Có một số trực giác về máy biến áp? CRAIG: Vì vậy, đối với bối cảnh, tại OpenAI từ những ngày đầu tiên, chúng tôi đã khám phá ý tưởng rằng dự đoán điều tiếp theo là tất cả những gì bạn cần. Chúng tôi đang khám phá nó với các mạng thần kinh hạn chế hơn nhiều vào thời điểm đó, nhưng hy vọng là nếu bạn có một mạng thần kinh có thể dự đoán từ tiếp theo, thì nó sẽ giải quyết được việc học không giám sát. Vì vậy, trước GPT, học không giám sát được coi là Chén Thánh của học máy. ILYA: Bây giờ nó đã được giải quyết hoàn toàn, và thậm chí không ai nói về nó, nhưng đó là Chén Thánh. Nó rất bí ẩn, và vì vậy chúng tôi đang khám phá ý tưởng này. Tôi thực sự phấn khích về điều đó, rằng việc dự đoán từ tiếp theo đủ tốt sẽ mang lại cho bạn khả năng học tập không giám sát. Nhưng mạng lưới thần kinh của chúng tôi đã không sẵn sàng cho nhiệm vụ. Chúng tôi đang sử dụng mạng thần kinh hồi quy. Khi máy biến áp xuất hiện, theo đúng nghĩa đen ngay sau khi bài báo ra mắt, theo nghĩa đen là ngày hôm sau, đối với tôi, với chúng tôi, rõ ràng là máy biến áp đã giải quyết các hạn chế của mạng thần kinh tái phát, của việc học các phụ thuộc dài hạn. Đó là một điều kỹ thuật. Nhưng chúng tôi chuyển sang máy biến áp ngay lập tức. Và vì vậy, nỗ lực GPT non trẻ tiếp tục sau đó với máy biến áp. Nó bắt đầu hoạt động tốt hơn, và bạn làm cho nó lớn hơn, và sau đó bạn tiếp tục làm cho nó lớn hơn. Và đó là điều đã dẫn đến GPT-3 cuối cùng và về cơ bản là chúng ta đang ở đâu ngày nay. Hạn chế của các mô hình ngôn ngữ lớn khi chúng tồn tại là kiến thức của chúng được chứa trong ngôn ngữ mà chúng được đào tạo. Và hầu hết kiến thức của con người, tôi nghĩ mọi người đều đồng ý, là phi ngôn ngữ. CRAIG: Mục tiêu của họ là đáp ứng tính nhất quán thống kê của lời nhắc. Họ không có hiểu biết cơ bản về thực tế mà ngôn ngữ liên quan đến. Tôi đã hỏi ChatGPT về bản thân mình. Nó công nhận tôi là một nhà báo, rằng tôi đã làm việc ở nhiều tờ báo khác nhau, nhưng nó cứ lặp đi lặp lại về những giải thưởng mà tôi chưa bao giờ giành được. Và tất cả đều đọc rất hay, nhưng rất ít kết nối với thực tế cơ bản. Có điều gì đó đang được thực hiện để giải quyết vấn đề đó trong nghiên cứu của bạn trong tương lai không? Chúng tôi tự tin đến mức nào rằng những hạn chế mà chúng tôi thấy ngày hôm nay sẽ vẫn tồn tại với chúng tôi trong hai năm tới? Tôi không tự tin như vậy. Có một nhận xét khác mà tôi muốn đưa ra về một phần của câu hỏi, đó là những mô hình này chỉ tìm hiểu các quy tắc thống kê và do đó chúng không thực sự biết bản chất của thế giới là gì. ILYA: Tôi có quan điểm khác với điều này. Nói cách khác, tôi nghĩ rằng việc học các quy tắc thống kê là một vấn đề lớn hơn nhiều so với những gì bắt mắt. Dự đoán cũng là một hiện tượng thống kê. Tuy nhiên, để dự đoán, bạn cần hiểu quy trình cơ bản tạo ra dữ liệu. Bạn cần hiểu ngày càng nhiều về thế giới đã tạo ra dữ liệu. Khi các mô hình thế hệ của chúng ta trở nên cực kỳ tốt, tôi khẳng định rằng chúng sẽ có một mức độ hiểu biết đáng kinh ngạc về thế giới và nhiều điều tinh tế của nó. Đó là thế giới được nhìn qua lăng kính của văn bản. Nó cố gắng tìm hiểu ngày càng nhiều về thế giới thông qua hình chiếu thế giới trên không gian văn bản do con người thể hiện trên internet. Tuy nhiên, văn bản này đã thể hiện thế giới. Và tôi sẽ cho bạn một ví dụ, một ví dụ gần đây, mà tôi nghĩ là rất hay và hấp dẫn. Tôi đã thấy sự tương tác thực sự thú vị này với [ChatGPT] trong đó [ChatGPT] trở nên hiếu chiến và hiếu chiến khi người dùng nói với nó rằng họ nghĩ rằng Google là công cụ tìm kiếm tốt hơn Bing. Một cách tốt để suy nghĩ về hiện tượng này là gì? Nó có nghĩa là gì? Bạn có thể nói, nó chỉ là dự đoán những gì mọi người sẽ làm và mọi người sẽ làm điều này, đó là sự thật. Nhưng có lẽ chúng ta đang đạt đến điểm mà ngôn ngữ tâm lý học bắt đầu được sử dụng để hiểu hành vi của các mạng thần kinh này. Bây giờ hãy nói về những hạn chế. Thực sự là trường hợp các mạng thần kinh này có xu hướng gây ảo giác. Đó là bởi vì một mô hình ngôn ngữ rất tuyệt vời để tìm hiểu về thế giới, nhưng nó kém tuyệt vời hơn một chút để tạo ra kết quả đầu ra tốt. Và có nhiều lý do kỹ thuật cho điều đó. Có những lý do kỹ thuật giải thích tại sao một mô hình ngôn ngữ học về thế giới tốt hơn nhiều, học những cách thể hiện đáng kinh ngạc về ý tưởng, khái niệm, con người, quy trình tồn tại, nhưng kết quả đầu ra của nó không hoàn toàn tốt như người ta mong đợi, hay đúng hơn là tốt nhất có thể. Đó là lý do tại sao, ví dụ, đối với một hệ thống như ChatGPT, một mô hình ngôn ngữ, có một quy trình đào tạo học tăng cường bổ sung. Chúng tôi gọi đó là Học tăng cường từ phản hồi của con người. ILYA: Có thể nói rằng trong quá trình tiền đào tạo, bạn muốn tìm hiểu mọi thứ về thế giới. Với việc học tăng cường từ phản hồi của con người, chúng tôi quan tâm đến kết quả đầu ra. Chúng tôi nói, bất cứ khi nào đầu ra không phù hợp, đừng làm điều này một lần nữa. Mỗi lần đầu ra không có ý nghĩa, đừng làm điều này một lần nữa. Và nó học một cách nhanh chóng để tạo ra kết quả đầu ra tốt. Nhưng đó là cấp độ của kết quả đầu ra, điều này không xảy ra trong quá trình đào tạo trước mô hình ngôn ngữ. Bây giờ về mặt ảo giác, thỉnh thoảng nó có xu hướng bịa ra mọi thứ, và đó là điều cũng hạn chế rất nhiều tính hữu dụng của chúng. Nhưng tôi khá hy vọng rằng chỉ cần cải thiện quá trình học tăng cường tiếp theo này từ bước phản hồi của con người, chúng ta có thể dạy nó không bị ảo giác. Bây giờ bạn có thể nói là nó thực sự sẽ học? Câu trả lời của tôi là, hãy cùng tìm hiểu. Cách chúng tôi làm mọi việc ngày nay là chúng tôi thuê người dạy cách cư xử của mạng thần kinh, dạy ChatGPT cách cư xử. Bạn chỉ cần tương tác với nó, và nó thấy từ phản ứng của bạn, nó suy ra, ồ, đó không phải là điều bạn muốn. Bạn không hài lòng với đầu ra của nó. Do đó, đầu ra không tốt và nó sẽ làm khác đi vào lần sau. Tôi nghĩ rằng có khả năng cao là phương pháp này sẽ có thể giải quyết hoàn toàn ảo giác. Yann LeCun [nhà khoa học AI trưởng tại Facebook và một nhà tiên phong đầu tiên khác của deep learning] tin rằng điều còn thiếu trong các mô hình ngôn ngữ lớn chính là mô hình thế giới cơ bản này, mô hình phi ngôn ngữ mà mô hình ngôn ngữ có thể tham chiếu. Tôi muốn nghe bạn nghĩ gì về điều đó và liệu bạn đã khám phá điều đó chưa. CRAIG: Tôi đã xem xét đề xuất của Yann LeCun và có một số ý tưởng ở đó, và chúng được thể hiện bằng ngôn ngữ khác và có thể có một số khác biệt nhỏ so với mô hình hiện tại, nhưng đối với tôi, chúng không quan trọng lắm. ILYA: Tuyên bố đầu tiên là mong muốn một hệ thống có sự hiểu biết đa phương thức, nơi nó không chỉ biết về thế giới từ văn bản. Và nhận xét của tôi về điều đó là sự hiểu biết đa phương thức thực sự là điều đáng mong đợi bởi vì bạn tìm hiểu thêm về thế giới, bạn tìm hiểu thêm về con người, bạn tìm hiểu thêm về tình trạng của họ, và do đó hệ thống sẽ có thể hiểu được nhiệm vụ mà nó phải thực hiện. giải quyết, và những người và những gì họ muốn tốt hơn. Chúng tôi đã thực hiện khá nhiều công việc về điều đó, đáng chú ý nhất là ở dạng hai mạng lưới thần kinh chính mà chúng tôi đã thực hiện. Một tên là Clip và một tên là Dall-E. Và cả hai đều hướng tới hướng đa phương thức này. Nhưng tôi cũng muốn nói rằng tôi không coi tình huống là nhị phân - hoặc, nếu bạn không có tầm nhìn, nếu bạn không hiểu thế giới bằng mắt hoặc từ video, thì mọi thứ sẽ không hoạt động. Và tôi muốn làm cho trường hợp đó. Vì vậy, tôi nghĩ rằng một số thứ sẽ dễ học hơn nhiều từ hình ảnh và sơ đồ, v.v., nhưng tôi khẳng định rằng bạn vẫn có thể học chúng chỉ từ văn bản, chỉ là chậm hơn mà thôi. Và tôi sẽ cho bạn một ví dụ. Hãy xem xét khái niệm về màu sắc. Chắc chắn người ta không thể học khái niệm màu sắc chỉ từ văn bản, nhưng khi bạn nhìn vào phần nhúng - tôi cần đi một vòng nhỏ để giải thích khái niệm về phần nhúng. Mọi mạng lưới thần kinh đại diện cho các từ, câu, khái niệm thông qua các biểu diễn, 'phần nhúng', là các vectơ chiều cao. Và chúng ta có thể nhìn vào những vectơ chiều cao đó và xem cái gì tương tự cái gì; Làm thế nào để mạng nhìn thấy khái niệm này hoặc khái niệm đó? Và vì vậy, chúng ta có thể nhìn vào sự nhúng của các màu và nó biết rằng màu tím giống với màu xanh lam hơn là màu đỏ và nó biết rằng màu đỏ giống với màu cam hơn là màu tím. Nó biết tất cả những điều đó chỉ từ văn bản. Làm thế nào mà có thể được? Nếu bạn có tầm nhìn, sự khác biệt giữa màu sắc sẽ nhảy vào bạn. Bạn ngay lập tức nhận ra chúng. Trong khi với văn bản, bạn sẽ mất nhiều thời gian hơn, có thể bạn biết cách nói chuyện và bạn đã hiểu cú pháp, từ ngữ và ngữ pháp, và chỉ rất lâu sau đó bạn mới thực sự bắt đầu hiểu màu sắc. Vì vậy, đây sẽ là quan điểm của tôi về sự cần thiết của đa phương thức: Tôi cho rằng nó không cần thiết, nhưng nó chắc chắn hữu ích nhất. Tôi nghĩ đó là một hướng tốt để theo đuổi. Tôi chỉ không thấy nó trong những tuyên bố rõ ràng như vậy. Vì vậy, đề xuất trong bài báo của [LeCun] đưa ra tuyên bố rằng một trong những thách thức lớn là dự đoán các vectơ chiều cao không chắc chắn về chúng. Nhưng một điều mà tôi thấy ngạc nhiên, hoặc ít nhất là không được thừa nhận trong bài báo, là các máy biến áp tự hồi quy hiện tại đã có đặc tính này. Tôi sẽ cho bạn hai ví dụ. Một là, đưa ra một trang trong cuốn sách, dự đoán trang tiếp theo trong cuốn sách. Có thể có rất nhiều trang có thể theo sau. Đó là một không gian nhiều chiều, rất phức tạp và họ xử lý nó rất tốt. Điều tương tự cũng áp dụng cho hình ảnh. Những máy biến áp tự hồi quy này hoạt động hoàn hảo trên hình ảnh. Ví dụ: như với OpenAI, chúng tôi đã hoàn thành công việc trên iGPT. Chúng tôi vừa lấy một máy biến áp, và chúng tôi áp dụng nó cho các điểm ảnh, và nó hoạt động rất tốt, và nó có thể tạo ra hình ảnh theo những cách rất phức tạp và tinh tế. Với Dall-E 1, điều tương tự lại xảy ra. Vì vậy, phần mà tôi nghĩ rằng bài báo đã đưa ra nhận xét mạnh mẽ xung quanh việc các phương pháp hiện tại không thể giải quyết việc dự đoán phân phối chiều cao - tôi nghĩ chúng chắc chắn có thể. Về ý tưởng có một đội ngũ huấn luyện viên con người đang làm việc với ChatGPT hoặc một mô hình ngôn ngữ lớn để hướng dẫn nó hiệu quả với việc học tăng cường, chỉ bằng trực giác, điều đó nghe có vẻ không phải là một cách hiệu quả để dạy một mô hình về nền tảng thực tế của ngôn ngữ của nó. CRAIG: Tôi không đồng ý với cách diễn đạt câu hỏi. Tôi khẳng định rằng các mô hình được đào tạo trước của chúng tôi đã biết mọi thứ họ cần biết về thực tế cơ bản. Họ đã có kiến thức về ngôn ngữ này và cũng có rất nhiều kiến thức về các quá trình tồn tại trong thế giới tạo ra ngôn ngữ này. ILYA: Điều mà các mô hình thế hệ lớn tìm hiểu về dữ liệu của họ - và trong trường hợp này, các mô hình ngôn ngữ lớn - là các biểu diễn nén của các quy trình trong thế giới thực tạo ra dữ liệu này, có nghĩa là không chỉ con người và điều gì đó về suy nghĩ của họ, điều gì đó về cảm xúc của họ, mà còn là điều gì đó về tình trạng của mọi người và những tương tác tồn tại giữa họ. Các tình huống khác nhau mà một người có thể gặp phải. Tất cả những điều này là một phần của quá trình nén được đại diện bởi mạng lưới thần kinh để tạo ra văn bản. Mô hình ngôn ngữ càng tốt, mô hình tổng quát càng tốt, độ trung thực càng cao thì nó càng nắm bắt tốt quá trình này. Bây giờ, đội quân giáo viên, như bạn nói, thực sự, những giáo viên đó cũng đang sử dụng sự trợ giúp của AI. Những giáo viên đó không phải là của riêng họ. Họ đang làm việc với các công cụ của chúng tôi và các công cụ này đang thực hiện phần lớn công việc. Nhưng bạn cần phải có sự giám sát; bạn cần có người xem xét hành vi vì cuối cùng bạn muốn đạt được mức độ tin cậy rất cao. Thực sự có rất nhiều động lực để làm cho nó hiệu quả và chính xác nhất có thể để mô hình ngôn ngữ kết quả sẽ hoạt động tốt nhất có thể. Đúng vậy, có những giáo viên con người đang dạy những hành vi mong muốn kiểu mẫu. Và cách họ sử dụng các hệ thống AI không ngừng tăng lên, vì vậy hiệu quả của chính họ cũng không ngừng tăng lên. ILYA: Nó không giống như một quá trình giáo dục, làm thế nào để hành động tốt trên thế giới. Chúng tôi cần đào tạo thêm để đảm bảo rằng người mẫu biết rằng ảo giác là không bao giờ ổn. Và đó là vòng lặp học tập tăng cường của giáo viên con người hoặc một số biến thể khác sẽ dạy nó. Một cái gì đó ở đây nên làm việc. Và chúng tôi sẽ tìm ra khá sớm. Chuyện này sẽ đi đến đâu? Cái gì, nghiên cứu bạn đang tập trung vào ngay bây giờ? CRAIG: Tôi không thể nói chi tiết về nghiên cứu cụ thể mà tôi đang thực hiện, nhưng tôi có thể đề cập một số nghiên cứu một cách khái quát. Tôi rất quan tâm đến việc làm cho những mô hình đó trở nên đáng tin cậy hơn, dễ kiểm soát hơn, khiến chúng học nhanh hơn từ dữ liệu bài học, ít hướng dẫn hơn. Làm cho họ để thực sự họ không ảo giác. ILYA: Tôi nghe nói bạn đưa ra nhận xét rằng chúng tôi cần bộ xử lý nhanh hơn để có thể mở rộng quy mô hơn nữa. Và có vẻ như việc mở rộng quy mô của các mô hình, không có điểm kết thúc, nhưng sức mạnh cần thiết để đào tạo các mô hình này, chúng ta đang đạt đến giới hạn, ít nhất là giới hạn được xã hội chấp nhận. CRAIG: Tôi không nhớ chính xác nhận xét mà tôi đã đưa ra mà bạn đang đề cập đến, nhưng bạn luôn muốn bộ xử lý nhanh hơn. Tất nhiên, sức mạnh tiếp tục tăng lên. Nói chung, chi phí đang tăng lên. ILYA: Và câu hỏi mà tôi đặt ra không phải là chi phí đó có lớn không, mà là liệu thứ chúng ta nhận được từ việc trả chi phí này có lớn hơn chi phí bỏ ra hay không. Có thể bạn trả tất cả chi phí này, và bạn không nhận được gì, thì vâng, điều đó không đáng. Nhưng nếu bạn nhận được thứ gì đó rất hữu ích, thứ gì đó rất có giá trị, thứ gì đó có thể giải quyết rất nhiều vấn đề mà chúng ta gặp phải, mà chúng ta thực sự muốn giải quyết, thì chi phí đó có thể hợp lý. Tại một thời điểm, bạn đã nói về nền dân chủ và về tác động mà AI có thể gây ra đối với nền dân chủ. CRAIG: Mọi người đã nói với tôi về một ngày mà những xung đột dường như không thể giải quyết được, rằng nếu bạn có đủ dữ liệu và một mô hình đủ lớn, bạn có thể huấn luyện mô hình trên dữ liệu và nó có thể đưa ra một giải pháp tối ưu làm hài lòng tất cả mọi người. Bạn có nghĩ về việc điều này có thể dẫn đến đâu trong việc giúp con người quản lý xã hội? Đó là một câu hỏi lớn bởi vì đó là một câu hỏi hướng tới tương lai nhiều hơn. Tôi nghĩ rằng vẫn còn nhiều cách để các mô hình của chúng ta trở nên có khả năng hơn nhiều so với hiện tại. ILYA: Không thể đoán trước chính xác các chính phủ sẽ sử dụng công nghệ này như một nguồn tư vấn các loại như thế nào. Tôi nghĩ rằng đối với câu hỏi về dân chủ, một điều mà tôi nghĩ có thể xảy ra trong tương lai là bởi vì bạn có những mạng lưới thần kinh này và chúng sẽ trở nên phổ biến và có ảnh hưởng lớn trong xã hội, chúng ta sẽ thấy rằng mong muốn có một số loại quy trình dân chủ trong đó, giả sử công dân của một quốc gia cung cấp một số thông tin cho mạng lưới thần kinh về cách họ muốn mọi thứ diễn ra. Tôi có thể tưởng tượng điều đó xảy ra. Đó có thể là một hình thức dân chủ băng thông rất cao, nơi bạn nhận được nhiều thông tin hơn từ mỗi công dân và bạn tổng hợp nó, chỉ định chính xác cách chúng tôi muốn các hệ thống đó hoạt động. Bây giờ nó mở ra rất nhiều câu hỏi, nhưng đó là một điều có thể xảy ra trong tương lai. Nhưng phân tích tất cả các biến có nghĩa là gì? Cuối cùng, sẽ có một sự lựa chọn mà bạn cần đưa ra khi bạn nói, những biến số này có vẻ thực sự quan trọng. Tôi muốn đi sâu. Bởi vì tôi có thể đọc cả trăm cuốn sách, hoặc tôi có thể đọc một cuốn sách thật chậm rãi và cẩn thận để thu được nhiều điều hơn từ nó. Vì vậy, sẽ có một số yếu tố của điều đó. Ngoài ra, tôi nghĩ có lẽ về cơ bản là không thể hiểu mọi thứ theo một nghĩa nào đó. Hãy, lấy một số ví dụ dễ dàng hơn. Bất cứ khi nào có bất kỳ tình huống phức tạp nào trong xã hội, ngay cả trong một công ty, ngay cả trong một công ty cỡ trung bình, nó đã vượt ra ngoài tầm hiểu biết của bất kỳ cá nhân nào. Và tôi nghĩ rằng nếu chúng ta xây dựng hệ thống AI của mình đúng cách, tôi nghĩ AI có thể cực kỳ hữu ích trong hầu hết mọi tình huống. Craig S. Smith là cựu phóng viên và giám đốc điều hành của The New York Times. Anh ấy là người dẫn chương trình podcast Eye on AI Cũng được xuất bản ở đây