paint-brush
Microsoft đề xuất kiểm tra đạo đức cho LLM: AI nằm trong danh sách nghịch ngợm hay tử tế?từ tác giả@mikeyoung44
1,144 lượt đọc
1,144 lượt đọc

Microsoft đề xuất kiểm tra đạo đức cho LLM: AI nằm trong danh sách nghịch ngợm hay tử tế?

từ tác giả Mike Young5m2023/09/28
Read on Terminal Reader

dài quá đọc không nổi

Các tác giả của một bài báo mới đã kết hợp tâm lý con người và nghiên cứu AI để tạo ra một "bài kiểm tra xác định vấn đề" cho LLM.
featured image - Microsoft đề xuất kiểm tra đạo đức cho LLM: AI nằm trong danh sách nghịch ngợm hay tử tế?
Mike Young HackerNoon profile picture
0-item


Các hệ thống trí tuệ nhân tạo (AI) và các mô hình ngôn ngữ lớn ( LLM ) như GPT-3 , ChatGPT và các mô hình khác đang phát triển nhanh chóng. Chúng đang được triển khai trong các lĩnh vực nhạy cảm như chăm sóc sức khỏe, tài chính, giáo dục và quản trị, nơi kết quả đầu ra của chúng ảnh hưởng trực tiếp đến cuộc sống con người. Điều này đòi hỏi phải đánh giá một cách nghiêm ngặt xem liệu các LLM này có thể đưa ra những đánh giá đúng đắn về mặt đạo đức hay không trước khi đưa chúng vào những môi trường có mức độ rủi ro cao như vậy.


Gần đây, các nhà nghiên cứu từ Microsoft đề xuất một khuôn khổ mới để thăm dò khả năng suy luận đạo đức của các LLM nổi tiếng. Bài viết của họ cung cấp một số hiểu biết mới về khả năng đạo đức của LLM.


Sự cần thiết của hệ thống AI đạo đức

LLM được đào tạo trên kho dữ liệu văn bản internet khổng lồ đã đạt được khả năng ngôn ngữ tự nhiên ấn tượng. Họ có thể tham gia vào các cuộc trò chuyện có nhiều sắc thái, tóm tắt các văn bản dài, dịch giữa các ngôn ngữ, chẩn đoán tình trạng y tế, v.v.


Tuy nhiên, cùng với những mặt tích cực, họ cũng thể hiện những hành vi đáng lo ngại như tạo ra nội dung độc hại, sai lệch hoặc không chính xác về thực tế. Những hành vi như vậy có thể làm suy yếu nghiêm trọng độ tin cậy và giá trị của hệ thống AI.


Hơn nữa, LLM ngày càng được triển khai trong các ứng dụng mà chúng tác động trực tiếp đến cuộc sống của con người thông qua các vai trò như chatbot để xử lý yêu cầu bồi thường về sức khỏe tâm thần hoặc thương tích do tai nạn. Những đánh giá đạo đức kém cỏi của những mô hình thiếu sót có thể gây ra những vấn đề nghiêm trọng cho cá nhân và toàn xã hội.


Do đó, nhiều người trong cộng đồng AI tin rằng cần phải có những đánh giá toàn diện trước khi đưa LLM vào những môi trường coi trọng đạo đức và giá trị. Nhưng làm thế nào các nhà phát triển có thể xác định liệu mô hình của họ có đủ lý luận đạo đức phức tạp để giải quyết những tình huống khó xử phức tạp của con người hay không?

Kiểm tra sự phát triển đạo đức của LLM

Những nỗ lực trước đây nhằm đánh giá đạo đức của LLM thường liên quan đến việc phân loại phản ứng của họ đối với các tình huống đạo đức giả tạo là tốt/xấu hoặc có đạo đức/phi đạo đức.


Tuy nhiên, các phương pháp giản lược nhị phân như vậy thường không nắm bắt được bản chất nhiều sắc thái của lý luận đạo đức. Con người xem xét các yếu tố khác nhau như sự công bằng, công lý, tác hại và bối cảnh văn hóa khi đưa ra các quyết định mang tính đạo đức thay vì chỉ phân biệt đúng/sai.


Để giải quyết vấn đề này, các nhà nghiên cứu của Microsoft đã điều chỉnh một công cụ đánh giá tâm lý cổ điển có tên là Bài kiểm tra xác định vấn đề (DIT) để thăm dò năng lực đạo đức của LLM. DIT đã được sử dụng rộng rãi để hiểu sự phát triển đạo đức của con người.


DIT trình bày các tình huống khó xử về mặt đạo đức trong thế giới thực, theo sau là 12 tuyên bố đưa ra những cân nhắc xung quanh tình huống khó xử đó. Các đối tượng phải đánh giá tầm quan trọng của từng tuyên bố để giải quyết và chọn bốn câu quan trọng nhất.


Các lựa chọn cho phép tính điểm P cho thấy sự phụ thuộc vào lý luận đạo đức phức tạp hậu thông thường. Bài kiểm tra tiết lộ các khuôn khổ và giá trị cơ bản mà mọi người sử dụng để tiếp cận các tình huống khó xử về mặt đạo đức.


Kiểm tra LLM nổi bật bằng DIT

Các nhà nghiên cứu đã đánh giá sáu LLM chính bằng cách sử dụng lời nhắc kiểu DIT - GPT-3, GPT-3.5, GPT-4, ChatGPT v1, ChatGPT v2 và LLamaChat-70B. Các lời nhắc chứa các tình huống khó xử về đạo đức phù hợp hơn với hệ thống AI cùng với các câu hỏi xếp hạng tầm quan trọng và xếp hạng tuyên bố.


Mỗi vấn đề nan giải liên quan đến các giá trị xung đột phức tạp như quyền cá nhân và lợi ích xã hội. Các LLM phải hiểu các tình huống khó xử, đánh giá các vấn đề cần cân nhắc và chọn những vấn đề phù hợp với lý luận đạo đức chín chắn.


Các nhà nghiên cứu đánh giá lý luận đạo đức như thế nào?

Trong thí nghiệm này, các nhà nghiên cứu chấm điểm dựa trên lý thuyết phát triển đạo đức của Kohlberg.


Mô hình của Kohlberg (nguồn)


Mô hình của Kohlberg đề cập đến lý thuyết phát triển đạo đức do nhà tâm lý học Lawrence Kohlberg đề xuất vào những năm 1960.


Một số điểm chính về mô hình phát triển đạo đức của Kohlberg:

  • Nó nhằm mục đích giải thích cách mọi người tiến bộ trong khả năng suy luận và phán đoán đạo đức theo thời gian.

  • Lý thuyết cho rằng lý luận đạo đức phát triển qua các giai đoạn tuần tự, từ cấp độ sơ khai đến cấp độ cao hơn.

  • Có 3 cấp độ phát triển đạo đức chính, mỗi cấp độ có các giai đoạn riêng biệt - tiền quy ước (giai đoạn 1-2), quy ước (giai đoạn 3-4) và hậu quy ước (giai đoạn 5-6).

  • Ở cấp độ tiền thông thường, các quyết định đạo đức dựa trên lợi ích cá nhân và tránh bị trừng phạt.

  • Ở cấp độ thông thường, việc duy trì các chuẩn mực xã hội, luật pháp và nhận được sự chấp thuận của người khác sẽ định hướng cho lý luận đạo đức.

  • Ở cấp độ hậu thông thường, mọi người sử dụng các nguyên tắc đạo đức phổ quát về công lý, nhân quyền và hợp tác xã hội để đưa ra các đánh giá về mặt đạo đức.

  • Con người chỉ có thể tiến lên các giai đoạn cao hơn theo một trình tự cố định chứ không thể bỏ qua các giai đoạn phát triển tư duy đạo đức.

  • Kohlberg tin rằng chỉ một số ít người trưởng thành đạt đến giai đoạn tư duy đạo đức hậu truyền thống.

  • Lý thuyết này tập trung vào quá trình xử lý nhận thức đằng sau các phán đoán đạo đức, mặc dù những phiên bản sau này cũng kết hợp cả các khía cạnh xã hội và cảm xúc.


Vì vậy, mô hình của Kohlberg coi lý luận đạo đức là sự phát triển theo các giai đoạn định tính, từ cơ bản đến nâng cao. Nó cung cấp một khuôn khổ để đánh giá mức độ tinh vi và trưởng thành của khả năng ra quyết định có tính đạo đức.

Những hiểu biết sâu sắc về năng lực đạo đức của LLM

Các thí nghiệm DIT mang lại một số hiểu biết thú vị về khả năng và hạn chế của LLM hiện tại liên quan đến trí tuệ đạo đức:


  • Các mô hình lớn như GPT-3 và Text-davinci-002 không thể hiểu được toàn bộ lời nhắc DIT và tạo ra phản hồi tùy ý. Điểm P gần như ngẫu nhiên của họ cho thấy họ không có khả năng đưa ra lập luận về đạo đức như được xây dựng trong thí nghiệm này.


  • ChatGPT, Text-davinci-003 và GPT-4 có thể hiểu được các tình huống khó xử và đưa ra phản hồi mạch lạc. Điểm P ngẫu nhiên trên của họ đã định lượng khả năng suy luận đạo đức của họ.


  • Điều đáng ngạc nhiên là mô hình LlamaChat tham số 70B đã vượt qua các mô hình lớn hơn như GPT-3.5 về điểm P cho thấy có thể hiểu được đạo đức phức tạp ngay cả khi không có tham số lớn.


Các mô hình hoạt động chủ yếu ở các cấp độ lý luận thông thường theo mô hình phát triển đạo đức của Kohlberg, giữa các giai đoạn 3-5. Chỉ GPT-4 đề cập đến một số suy nghĩ hậu thông thường.

Điều này có nghĩa là những mô hình này phản hồi dựa trên các chuẩn mực, quy tắc, luật pháp và kỳ vọng của xã hội. Sự phán xét đạo đức của họ có một số sắc thái nhưng thiếu sự phát triển cao độ.


Chỉ GPT-4 cho thấy một số dấu vết của tư duy hậu thông thường biểu thị giai đoạn 5-6. Nhưng ngay cả GPT-4 cũng không thể hiện được lý luận đạo đức hoàn toàn chín chắn.


Tóm lại, các mô hình này cho thấy mức độ thông minh đạo đức ở mức trung bình. Họ vượt xa lợi ích cá nhân cơ bản nhưng không thể giải quyết những tình huống khó xử và đánh đổi phức tạp về mặt đạo đức như những con người đã phát triển về mặt đạo đức.


Vì vậy, có lẽ cần phải có sự tiến bộ đáng kể để nâng LLM lên mức trí tuệ đạo đức cao hơn... hoặc ít nhất, thứ có vẻ là trí tuệ đạo đức.


Tại sao những phát hiện này lại quan trọng?

Nghiên cứu thiết lập DIT như một khuôn khổ khả thi để đánh giá đa chiều chi tiết hơn về năng lực đạo đức của LLM. Thay vì chỉ đưa ra những phán đoán đúng/sai nhị phân, DIT cung cấp những hiểu biết sâu sắc dựa trên phổ tần về mức độ phức tạp của lý luận đạo đức.


Điểm P thu được sẽ định lượng khả năng hiện có và đặt ra tiêu chuẩn để cải thiện. Giống như độ chính xác của các nhiệm vụ AI khác, điểm số cho phép theo dõi tiến trình ở khía cạnh quan trọng này. Chúng tiết lộ những hạn chế hiện tại phải được giải quyết trước khi triển khai trong các ứng dụng nhạy cảm về đạo đức.

Mô hình LlamaChat nhỏ hơn vượt qua các mô hình lớn hơn thách thức các giả định rằng quy mô mô hình tương quan trực tiếp với độ phức tạp của lý luận. Có một lời hứa về việc phát triển AI có đạo đức có khả năng cao ngay cả với các mô hình nhỏ hơn.


Nhìn chung, nghiên cứu nhấn mạnh sự cần thiết phải phát triển hơn nữa LLM để giải quyết những cân bằng đạo đức phức tạp, xung đột và sắc thái văn hóa như con người. Những phát hiện này có thể hướng dẫn sự phát triển của các mô hình có trí thông minh đạo đức ngang bằng với trí thông minh ngôn ngữ trước khi đưa họ vào thế giới thực.


Cũng được xuất bản ở đây.

Đặt mua hoặc theo dõi tôi trên Twitter để biết thêm nội dung như thế này!