Đây là một bài luận với một số phản ánh cuối tuần về tình trạng hiện tại của công nghệ máy học, đặc biệt tập trung vào LLM hay còn gọi là AI và điểm hiện tại của chúng ta trong lịch sử.
Trước khi chúng ta đi sâu vào vấn đề kỳ dị thú vị này, tôi muốn đề cập rằng, với tư cách là một bài luận, đây là một bài viết mang tính cá nhân hơn và ít trang trọng hơn, chia sẻ quan điểm của tôi về quá trình tiến hóa của Hiểu ngôn ngữ tự nhiên và nêu bật một số ý tưởng có vẻ quan trọng trong bối cảnh đó . Đây không phải là một báo cáo toàn diện về ngành và cũng không phải là một báo cáo, nhưng tôi hy vọng nó sẽ là một bài đọc thú vị cho cả Kỹ sư Máy học và cho nhiều đối tượng quan tâm đến sự nổi lên của AI hiện tại.
Có ba phần của câu chuyện:
Phần lịch sử nhắc nhở chúng ta ngắn gọn về cách chúng ta đạt được trạng thái AGI hiện tại từ một perceptron đa lớp chỉ trong mười hai năm.
Phần ngày nay tập trung vào những thành tựu mới nhất của LLM và xu hướng hiện tại của ngành. Nếu bạn hiểu sâu về ngữ cảnh và đang tìm kiếm một số ý tưởng mới, hãy bỏ qua phần đó.
Phần bí ẩn trình bày một số ý tưởng về những gì có thể xảy ra sau giai đoạn AGI hiện tại.
Vì vậy, trước hết, Machine Learning đã xuất hiện được một thời gian, khoảng một thập kỷ hoặc mười hai năm, tùy thuộc vào việc bạn tính từ ấn phẩm word2vec của Tomas Mikolov hay từ khóa học Machine Learning của Andrew Ng trên Coursera. Kaggle được ra mắt vào năm 2010 và Fei-Fei Li đã thu thập Imagenet vào năm 2009. Cách đây không lâu, có lẽ bạn sẽ đồng ý nếu bạn trên 30 tuổi.
Một số người sẽ tranh luận rằng học máy đã tồn tại lâu hơn nữa, nhưng tôi hiện đang nói về việc áp dụng các thuật toán học sâu hay còn gọi là động lực công nghệ trong ngành, chứ không phải về nghiên cứu thuần túy. Và ở đây, chúng tôi không chạm vào những thứ như thuật toán ML cổ điển được đề cập trong scikitlearn, tất cả các loại dự báo hồi quy, phân cụm và chuỗi thời gian. Họ đang âm thầm làm công việc quan trọng của mình nhưng mọi người không gọi họ là AI, không có sự cường điệu nào xung quanh, bạn biết đấy.
Tại sao mùa xuân AI đó lại xảy ra 12 năm trước? Học sâu (đào tạo mạng thần kinh nhiều lớp có lỗi lan truyền ngược) cuối cùng đã trở nên khả thi trên một GPU trung bình. Vào năm 2010, kiến trúc mạng thần kinh đơn giản nhất, một perceptron nhiều lớp, đã đánh bại các thuật toán khác trong nhận dạng chữ số viết tay (bộ dữ liệu MNIST nổi tiếng), kết quả đạt được bởi Juergen Schmidhuber et al.
Kể từ thời điểm đó vào khoảng năm 2010, công nghệ ngày càng trở nên mạnh mẽ hơn. Đã có một vài khoảnh khắc thay đổi cuộc chơi —cho biết việc phát hành mô hình word2vec đã mang lại sự hiểu biết ngữ nghĩa cho thế giới Xử lý ngôn ngữ tự nhiên (NLP), việc phát hành công khai các khung học sâu Tensorflow và Keras muộn hơn một chút, và tất nhiên, phát minh ra Transformer vào năm 2017, vẫn là kiến trúc mạng thần kinh SOTA, đã mở rộng ra ngoài thế giới NLP. Tại sao vậy? Bởi vì Transformer có sự chú ý và có khả năng xử lý các chuỗi chẳng hạn như văn bản có độ phức tạp O(n2) được kích hoạt bởi phương pháp nhân ma trận cho phép chúng tôi xem xét toàn bộ chuỗi đầu vào. Theo tôi, lý do thứ hai cho sự thành công của Transformer là kiến trúc Bộ mã hóa-Giải mã linh hoạt cho phép chúng tôi đào tạo và sử dụng các mô hình cùng nhau và riêng biệt (từ trình tự đến trình tự hoặc từ trình tự đến vectơ).
Các mô hình gia đình OpenAI GPT (Bộ giải mã biến áp) đã gây ra một số tiếng ồn vượt ra ngoài ngành công nghệ vì GPT-3 đã có thể tạo ra các văn bản khá giống con người và có khả năng học vài lần và một số lần không cần chụp. Phần cuối cùng quan trọng hơn, bài báo GPT-3 thậm chí còn được đặt tên là “Mô hình ngôn ngữ là những người học rất ít” — khả năng học nhanh từ các ví dụ này của Mô hình ngôn ngữ lớn lần đầu tiên được OpenAI công bố vào năm 2020.
Nhưng nổ!
Bản phát hành của ChatGPT đã đi kèm với sự cường điệu mà chúng tôi chưa từng thấy trước đây, cuối cùng đã thu hút được sự chú ý lớn của công chúng. Và giờ đây, GPT-4 còn vượt xa điều đó.
Tại sao vậy? Trong 7 năm qua, kể từ khi mạng nơ-ron bắt đầu cho thấy kết quả khả quan, cái mà chúng ta gọi là AI thực ra là một loại trí tuệ nhân tạo hạn hẹp — các mô hình của chúng ta được đào tạo để giải quyết một số nhóm nhiệm vụ cụ thể — nhận dạng đối tượng, thực hiện phân loại hoặc dự đoán các mã thông báo sau trong trình tự. Và mọi người chỉ mơ về AGI - một trí thông minh nhân tạo nói chung, có khả năng hoàn thành nhiều nhiệm vụ ở cấp độ con người.
Trên thực tế, điều đã xảy ra với việc điều chỉnh LLM dựa trên hướng dẫn, hay, như cách gọi của họ trong OpenAI, việc học tăng cường từ phản hồi của con người —
Các mẫu GPT-3.5+ cuối cùng đã học được khả năng suy luận dựa trên thông tin được cung cấp. Và điều đó thay đổi mọi thứ - trước khi LLM gần với một con vẹt thống kê khá tốt, nhưng vẫn rất hữu ích cho nhiều ứng dụng như nhúng văn bản, tìm kiếm véc tơ, chatbot, v.v. Nhưng với đào tạo dựa trên hướng dẫn, chúng học lý luận từ con người một cách hiệu quả .
Lý luận chính xác là gì?
Khả năng sử dụng thông tin được cung cấp để rút ra kết luận thông qua một số phép toán logic. Giả sử A được kết nối với B và B được kết nối với C, vậy A có được kết nối với C không? GPT-4 có ví dụ lý luận phức tạp hơn nhiều trên trang sản phẩm chính thức của họ. Khả năng suy luận của mô hình mạnh mẽ và linh hoạt đến mức nó có thể tạo ra một chuỗi hướng dẫn có cấu trúc hoặc các thao tác logic để tuân theo nhằm đạt được mục tiêu nhất định bằng cách sử dụng “kiến thức chung” hoặc “lẽ thường” trong quá trình thực hiện chứ không chỉ thông tin được cung cấp trong dấu nhắc.
Trước các LLM có khả năng suy luận như vậy, một công cụ khác được thiết kế tốt để suy luận là biểu đồ tri thức , với các nút chứa các thực thể và các cạnh là vị từ hoặc quan hệ của các thực thể. Đây là một hình thức lưu trữ thông tin cung cấp khả năng suy luận rõ ràng. Tại một số thời điểm, tôi đã tham gia xây dựng một hệ thống trả lời câu hỏi, trong số những thứ khác, sử dụng biểu đồ tri thức để tìm thông tin được hỏi - bạn chỉ cần phát hiện ý định, xem liệu chúng ta có loại quan hệ này trong biểu đồ hay không, kiểm tra các thực thể cụ thể được đề cập và, nếu chúng tồn tại, hãy truy vấn biểu đồ con này. Trên thực tế, quy trình này đã cung cấp bản dịch truy vấn bằng ngôn ngữ tự nhiên sang truy vấn SPARQL.
Giờ đây, bạn có thể cung cấp thông tin thực tế này cho mô hình ở dạng văn bản thuần túy dưới dạng phần ngữ cảnh của lời nhắc của bạn và mô hình sẽ “tìm hiểu” thông tin đó ngay lập tức và sẽ có thể suy luận về điều đó. Chà, phải không?
Và bạn không bị giới hạn số lượng thực thể và loại quan hệ có trong biểu đồ. Ngoài ra, bạn có “lẽ thường” đó, hiểu biết chung về các khái niệm về thế giới của chúng ta và mối quan hệ của chúng, đây là phần khó nhất trong việc tách các mô hình học máy khỏi nhận thức của con người. Chúng tôi thậm chí không nhận thấy làm thế nào chúng tôi có thể đưa ra hướng dẫn bằng ngôn ngữ tự nhiên và chúng bắt đầu hoạt động chính xác mà không cần giải thích quá rõ ràng.
Lý luận cộng với kiến thức là hai thành phần quan trọng của trí thông minh. Trong 20 năm qua, chúng ta đã đưa hầu hết kiến thức của con người lên Internet dưới dạng Wikipedia, ấn phẩm khoa học, mô tả dịch vụ, blog, hàng tỷ dòng mã và câu trả lời trên Stackoverflow cũng như hàng tỷ ý kiến trên mạng xã hội.
Bây giờ chúng ta có thể suy luận với kiến thức đó.
Những khả năng suy luận này được thể hiện rõ trong báo cáo công nghệ OpenAI chính thức trên GPT4 :
GPT-4 thể hiện hiệu suất ở cấp độ con người trong phần lớn các kỳ thi học thuật và chuyên môn này. Đáng chú ý, nó đã vượt qua một phiên bản mô phỏng của Bài kiểm tra Đoàn thống nhất với số điểm nằm trong top 10% người tham gia bài kiểm tra.
Theo kết quả GPT-4 trên một số thử nghiệm của con người, chúng tôi đang ở đâu đó xung quanh AGI — OpenAI thậm chí còn sử dụng những từ này trên trang web của họ và một bài viết gần đây của Microsoft hơn 150 trang với nghiên cứu chuyên sâu về các khả năng của GPT-4 trên các ứng dụng khác nhau. các miền có tên “Sparks of Artificial General Intelligence: Những thử nghiệm ban đầu với GPT-4” tuyên bố một cách cẩn thận nhưng rõ ràng rằng AGI ở đây:
Với bề rộng và chiều sâu của các khả năng của GPT-4, chúng tôi tin rằng nó có thể được xem một cách hợp lý như một phiên bản ban đầu (chưa hoàn thiện) của hệ thống trí tuệ nhân tạo chung (AGI).
và sau đó:
Sự kết hợp giữa tính tổng quát của các khả năng của GPT-4, với nhiều khả năng trải rộng trên nhiều lĩnh vực và hiệu suất của nó trên nhiều loại nhiệm vụ ở cấp độ con người hoặc vượt ra ngoài cấp độ con người, khiến chúng tôi cảm thấy thoải mái khi nói rằng GPT-4 là một bước tiến quan trọng hướng tới AGI.
Lý do cho tuyên bố đó là:
Mặc dù hoàn toàn là một mô hình ngôn ngữ, nhưng phiên bản đầu tiên này của GPT-4 thể hiện các khả năng đáng chú ý trên nhiều lĩnh vực và nhiệm vụ khác nhau, bao gồm trừu tượng hóa, lĩnh hội, thị giác, mã hóa, toán học, y học, luật, hiểu biết về động cơ và cảm xúc của con người cũng như hơn.
Và để đóng đinh nó:
Tuy nhiên, ngay cả khi là bước đầu tiên, GPT-4 đã thách thức một số lượng đáng kể các giả định được phổ biến rộng rãi về trí thông minh của máy móc, đồng thời thể hiện các hành vi và khả năng mới nổi mà nguồn gốc và cơ chế của chúng, tại thời điểm này, khó có thể phân biệt chính xác <…>. Mục tiêu chính của chúng tôi khi viết bài báo này là chia sẻ khám phá của chúng tôi về các khả năng và hạn chế của GPT-4 để hỗ trợ cho đánh giá của chúng tôi rằng đã đạt được bước nhảy vọt về công nghệ. Chúng tôi tin rằng trí thông minh của GPT-4 báo hiệu một sự thay đổi mô hình thực sự trong lĩnh vực khoa học máy tính và hơn thế nữa.
Tôi thực sự khuyên bạn nên dành chút thời gian cho nghiên cứu này vì đằng sau những tuyên bố ồn ào này có một phân tích rất thú vị về cách các mô hình nói trên hoạt động và so sánh toàn diện GPT-4 với kết quả ChatGPT trên nhiều tác vụ không tầm thường từ các miền khác nhau.
Nếu chúng ta cần áp dụng các khả năng suy luận của LLM để đưa ra kết luận về một số thông tin cụ thể mà mô hình không thể học được trong khi đào tạo, chúng ta có thể sử dụng bất kỳ loại tìm kiếm nào — cơ chế truy xuất cộng với xếp hạng, bất kể bạn có lưu trữ dữ liệu của mình dưới dạng nhúng vectơ trong một số chỉ mục ANN như Faiss hoặc trong chỉ mục toàn văn của trường học cũ như Đàn hồi - sau đó cung cấp các kết quả tìm kiếm này cho LLM dưới dạng ngữ cảnh, đưa nó vào lời nhắc. Đó là loại tìm kiếm Bing 2.0 và Bard (hiện được cung cấp bởi PaLM2 ) hiện đang làm.
Tôi đã triển khai hệ thống gọi tìm kiếm + LLM này với kiến trúc DPR , trong đó ChatGPT thay thế mô hình Reader và bằng tìm kiếm đàn hồi toàn văn, trong cả hai trường hợp, chất lượng tổng thể của hệ thống phụ thuộc vào chất lượng dữ liệu bạn có trong chỉ mục của bạn — nếu nó cụ thể và đầy đủ, bạn có thể tin tưởng vào các câu trả lời tốt hơn so với ChatGPT truyền thống cung cấp.
Một số thậm chí còn quản lý để tạo một thư viện dao Thụy Sĩ xung quanh GPT, gọi nó là cơ sở dữ liệu vectơ và gây ấn tượng tốt về điều đó - tôi ngả mũ kính phục!
Nhưng do giao diện văn bản của các mô hình GPT, bạn có thể xây dựng mọi thứ xung quanh nó bằng bất kỳ công cụ nào bạn quen thuộc mà không cần bộ điều hợp.
Một trong những câu hỏi có thể đưa ra manh mối cho những tiến bộ hơn nữa của mô hình là làm thế nào những mô hình lớn này thực sự học hỏi và những khả năng lập luận ấn tượng đó được lưu trữ ở đâu trong các trọng số của mô hình .
Tuần này OpenAI đã phát hành một bài báo “Các mô hình ngôn ngữ có thể giải thích các nơ-ron trong các mô hình ngôn ngữ” và một dự án nguồn mở nhằm trả lời những câu hỏi này bằng cách bóc tách các lớp LLM. Cách thức hoạt động — họ quan sát hoạt động của một số phần trong mạng nơ-ron của mô hình thường được kích hoạt trên một số miền kiến thức, sau đó, một mô hình GPT-4 mạnh mẽ hơn sẽ viết giải thích về phần cụ thể này hoặc một nơ-ron của LLM đang được nghiên cứu. chịu trách nhiệm và sau đó họ cố gắng dự đoán đầu ra của LLM ban đầu trên một số chuỗi văn bản có liên quan bằng GPT-4, dẫn đến điểm số được chỉ định cho từng phần giải thích của nó.
Tuy nhiên, kỹ thuật này có một số nhược điểm. Đầu tiên, như các tác giả đã nêu, phương pháp của họ chỉ đưa ra lời giải thích tốt cho 1000 nơ-ron trong số khoảng 300.000 nơ-ron đã được nghiên cứu.
Đây là trích dẫn bài báo:
Tuy nhiên, chúng tôi nhận thấy rằng cả giải thích về nhà thầu dựa trên GPT-4 và con người vẫn đạt điểm kém về mặt tuyệt đối. Khi xem xét các nơ-ron, chúng tôi cũng nhận thấy nơ-ron điển hình có vẻ khá đa nghĩa. Điều này cho thấy chúng ta nên thay đổi những gì chúng ta đang giải thích.
Điểm thứ hai là kỹ thuật này hiện không cung cấp thông tin chi tiết về cách cải thiện quy trình đào tạo. Nhưng đó là một nỗ lực tốt về mặt nghiên cứu khả năng diễn giải mô hình.
Có thể nếu các tế bào thần kinh được nghiên cứu sẽ được hợp nhất thành một số cụm dựa trên sự phụ thuộc lẫn nhau của chúng và các cụm này sẽ thể hiện một số kiểu hành vi có thể thay đổi do các quy trình đào tạo khác nhau, điều đó sẽ cho chúng ta hiểu về cách các khả năng nhất định của mô hình tương quan với dữ liệu đào tạo và chính sách đào tạo. Theo một cách nào đó, sự phân cụm và phân biệt này có thể giống như sự phân chia của bộ não thành các khu vực khác nhau chịu trách nhiệm về các kỹ năng cụ thể. Điều đó có thể cung cấp cho chúng tôi những hiểu biết sâu sắc về cách tinh chỉnh LLM một cách hiệu quả để nó đạt được một số kỹ năng mới cụ thể.
Một ý tưởng thịnh hành khác là tạo một tác nhân tự trị với LLM vòng lặp - Twitter có đầy đủ các thử nghiệm như AutoGPT, AgentGPT, BabyAGI , v.v. Ý tưởng là đặt mục tiêu cho một tác nhân như vậy và cung cấp cho tác nhân đó một số công cụ bên ngoài chẳng hạn như API của các dịch vụ khác để tác nhân đó có thể mang lại kết quả mong muốn thông qua một vòng lặp hoặc mô hình chuỗi.
Tuần trước Huggingface đã phát hành Agents trong thư viện Transformers nổi tiếng của họ để:
“dễ dàng xây dựng các ứng dụng GenerativeAI và tác nhân tự trị bằng LLM như OpenAssistant, StarCoder, OpenAI, v.v.”. (c) Phillip Schmid
Thư viện cung cấp giao diện cho các mô hình chuỗi và API có khả năng trả lời các truy vấn phức tạp bằng ngôn ngữ tự nhiên và hỗ trợ dữ liệu đa phương thức (văn bản, hình ảnh, video, âm thanh). Lời nhắc trong trường hợp này bao gồm mô tả của tác nhân, một bộ công cụ (hầu hết là một số mạng thần kinh chữ thường hẹp khác), một số ví dụ và một tác vụ. Các đại lý sẽ tạo điều kiện sử dụng mô hình cho những người không phải là kỹ sư nhưng cũng là một khởi đầu tốt để xây dựng một hệ thống phức tạp hơn trên các LLM. Và, nhân tiện, đây là Natural Language API, một loại Internet khác với những gì bạn biết.
Nhân tiện, Twitter ngày nay đang thực sự phát điên về AI, mọi người đang xây dựng thứ gì đó dựa trên các mô hình LLM và giới thiệu nó với thế giới - Tôi chưa bao giờ thấy sự nhiệt tình trong ngành này nhiều như vậy. Nếu bạn muốn điều tra xem chuyện gì đang xảy ra - tôi khuyên bạn nên bắt đầu lặn xuống hố thỏ đó với dòng tweet gần đây của Andrew Karpathy.
Codex , cung cấp năng lượng cho Github copilot đã xuất hiện được một thời gian và cách đây vài ngày, với tư cách là người đăng ký Colab Pro, tôi đã nhận được một lá thư từ Google, nói rằng vào tháng 6 họ sẽ (trích dẫn bức thư)
bắt đầu thêm dần các tính năng lập trình AI vào Colab Trong số những tính năng đầu tiên xuất hiện:
- gợi ý đơn và nhiều dòng để hoàn thành mã;
- tạo mã ngôn ngữ tự nhiên, cho phép bạn gửi yêu cầu tạo mã tới các mô hình của Google và dán vào sổ ghi chép.
Nhân tiện, tuần trước Google đã công bố dòng mô hình PaLM 2 , trong số đó có Codey, mô hình chuyên biệt của Google để mã hóa và gỡ lỗi, có thể sẽ cung cấp năng lượng cho các tính năng đã công bố này.
Để kết thúc phần này, tôi muốn nói rằng lựa chọn NLP của cá nhân tôi thay vì CV vào khoảng năm 2016 là do ngôn ngữ là cách phổ biến và cuối cùng mà mọi người truyền thông tin . Chúng tôi thậm chí còn suy nghĩ với các khái niệm từ ngôn ngữ của chúng tôi, vì vậy hệ thống này đủ phức tạp để xác định chính chúng tôi và thế giới xung quanh chúng tôi. Và điều đó mang lại khả năng tạo ra một hệ thống điều khiển bằng ngôn ngữ với khả năng suy luận và ý thức giống con người hoặc thậm chí vượt qua cấp độ đó. Chúng tôi chỉ mới vạch ra bề nổi của lý do thực sự đó khoảng nửa năm trước. Hãy tưởng tượng chúng ta đang ở đâu và điều gì sẽ xảy ra tiếp theo .
Nếu vì bất kỳ lý do gì mà bạn không quen thuộc với Tim Urban, tác giả của blog waitbutwhy , hãy đọc bài đăng của anh ấy trên AGI , ngày 2015 - hãy xem điều này trông như thế nào từ quá khứ, chỉ 7 năm trước, khi KHÔNG có LLM nào xung quanh và không có Transformer mô hình một trong hai. Tôi sẽ trích dẫn một vài dòng trong bài đăng của anh ấy ở đây, chỉ để nhắc bạn rằng chúng ta đã ở đâu 7 năm trước.
Tạo AI có thể đánh bại bất kỳ con người nào trong cờ vua? Xong. Làm một cái có thể đọc một đoạn trong cuốn sách tranh của một đứa trẻ sáu tuổi và không chỉ nhận ra các từ mà còn hiểu ý nghĩa của chúng? Google hiện đang chi hàng tỷ đô la để cố gắng làm điều đó.
Nhưng sau khi chúng tôi đạt được AGI, mọi thứ sẽ bắt đầu di chuyển với tốc độ nhanh hơn nhiều, anh ấy hứa. Điều này là do quy luật lợi nhuận tăng tốc do Ray Kurzweil xây dựng:
Ray Kurzweil gọi Quy luật Hoàn trả Tăng tốc của lịch sử nhân loại. Điều này xảy ra bởi vì các xã hội tiên tiến hơn có khả năng phát triển với tốc độ nhanh hơn các xã hội kém tiên tiến hơn — bởi vì chúng tiên tiến hơn.
Áp dụng định luật này cho các LLM hiện tại, thật dễ dàng để đi xa hơn và nói rằng khả năng học hỏi và suy luận về tất cả dữ liệu được lưu trên Internet sẽ đưa trí nhớ siêu phàm này đến với khả năng suy luận ở cấp độ con người và chẳng mấy chốc những người thông minh nhất xung quanh sẽ bị đánh bại bởi giống như nhà vô địch cờ vua Kasparov đã bị máy tính Deep Blue đánh bại vào năm 1997.
Điều này sẽ đưa chúng ta đến Trí tuệ siêu nhân tạo (ASI) nhưng chúng ta vẫn chưa biết nó trông như thế nào. Có lẽ chúng ta cần một vòng phản hồi khác để đào tạo nó vì quá trình học phản hồi của con người GPT-4 chỉ cung cấp lý luận ở cấp độ con người. Rất có khả năng những mô hình tốt hơn sẽ dạy những mô hình yếu hơn và đây sẽ là một quá trình lặp đi lặp lại.**Chỉ cần suy đoán — chúng ta sẽ thấy.
Điều Tim thực sự vạch ra trong phần thứ hai của bài đăng của anh ấy trên AGI là do quy luật lợi nhuận tăng tốc này, chúng tôi thậm chí có thể không nhận thấy điểm khi hệ thống của chúng tôi vượt qua AGI và khi đó mọi thứ sẽ hơi ngoài tầm hiểu biết của chúng tôi.
Hiện tại, chỉ một tỷ lệ nhỏ những người làm việc trong lĩnh vực công nghệ hiểu được tốc độ thực sự của tiến trình và khả năng điều chỉnh LLM dựa trên hướng dẫn tiềm năng đáng kinh ngạc mang lại. Geoffrey Hinton là một trong số họ, công khai nói về những rủi ro như áp lực thị trường việc làm, sản xuất nội dung giả mạo và sử dụng độc hại. Điều tôi thấy thậm chí còn quan trọng hơn là anh ấy chỉ ra rằng các hệ thống hiện tại có khả năng học các kỹ năng phức tạp mà không cần bắn một phát nào có thể có thuật toán học tốt hơn so với con người .
Mối quan tâm với các LLM hiện đại xuất phát từ thực tế là mặc dù chúng mang lại đòn bẩy lớn trong nhiều nhiệm vụ, nhưng khả năng làm việc với các mô hình này — đào tạo trước, tinh chỉnh, nhắc nhở có ý nghĩa hoặc kết hợp chúng trong các sản phẩm kỹ thuật số — là rõ ràng là không bình đẳng trong xã hội, cả về chi phí đào tạo/sử dụng và kỹ năng. Một số người từ cộng đồng twitter hoặc hugface sẽ lập luận rằng hiện tại chúng ta có các LLM nguồn mở khá có năng lực như một giải pháp thay thế cho quyền bá chủ OpenAI, tuy nhiên, chúng vẫn đang theo xu hướng và kém mạnh mẽ hơn, cộng với việc chúng yêu cầu một số kỹ năng nhất định để xử lý. Và trong khi các mô hình OpenAI thành công như vậy, Microsoft và Google thậm chí sẽ đầu tư nhiều hơn vào nghiên cứu đó để cố gắng ngăn chặn chúng. Ồ, Meta cũng vậy, nếu cuối cùng họ để Metaverse ra đi.
Một trong những kỹ năng được yêu cầu nhiều nhất hiện nay là viết mã – công nghệ phần mềm đã thống trị lĩnh vực công nghệ và mức lương trong 20 năm qua. Với trạng thái hiện tại của các đồng thí điểm mã hóa, có vẻ như một đoạn mã soạn sẵn tốt sẽ sớm được tạo hoặc được tìm nạp và điều chỉnh một cách hiệu quả, trông giống như vậy đối với người dùng, giúp nhà phát triển tiết kiệm rất nhiều thời gian và có thể mất một số thời gian. cơ hội việc làm ngoài thị trường.
Có một ý tưởng khác trong bài đăng rất hay đó về AGI và hơn thế nữa, có vẻ như AGI sẽ có khả năng tự cải thiện bản thân . Hiện tại, LLM thuần túy vẫn không phải là tác nhân tự trị và hoàn toàn không kết hợp bất kỳ ý chí nào - hai ý tưởng khiến mọi người sợ hãi. Chỉ trong trường hợp. Đừng nhầm lẫn quá trình đào tạo của mô hình liên quan đến học tăng cường với phản hồi của con người, trong đó thuật toán RL được sử dụng là Tối ưu hóa chính sách gần nhất của OpenAI, với mô hình cuối cùng chỉ là một phần Bộ giải mã từ các chuỗi mã thông báo dự đoán Transformer.
Có lẽ bạn đã nhận thấy rằng một vài bài báo mà tôi đã trích dẫn đã được phát hành vào tuần trước - tôi chắc chắn rằng những tuần tiếp theo sẽ mang đến những bài báo và ý tưởng mới mà tôi ước mình đã trình bày trong bài đăng này, nhưng đó là dấu hiệu của thời gian.
Có vẻ như chúng ta đang nhanh chóng bước vào kỷ nguyên mới của phần mềm và đã tiến được vài bước tới điểm kỳ dị , vì những đổi mới trong ngành công nghiệp máy học đang diễn ra với tốc độ chưa từng thấy — như vài tháng trong khi năm ngoái chúng ta đã thấy chỉ là một vài bản phát hành lớn. Tận hưởng chuyến đi!
PS Vụ nổ tiếp theo sẽ là khi Musk kết nối chúng ta với LLM thông qua Neuralink.
PPS . Không một lệnh gọi API OpenAI nào được thực hiện để viết văn bản này. Tôi cá là vậy.