Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.
tác giả:
(1) Cristina España-Bonet, DFKI GmbH, Cơ sở Tin học Saarland.
Mạng lưới. **Chúng tôi hoàn thiện XLM-RoBERTa lớn (Conneau và cộng sự, 2020), một LM đeo mặt nạ dựa trên biến áp đa ngôn ngữ** được đào tạo về 100 ngôn ngữ, trong đó có 4 ngôn ngữ mà chúng tôi xem xét. Chi tiết về mạng và thăm dò siêu tham số cho mỗi mô hình được báo cáo trong Phụ lục F.
Các mô hình. Chúng tôi đào tạo 4 mô hình: 3 mô hình tinh chỉnh đơn ngữ với dữ liệu tiếng Anh, tiếng Đức và tiếng Tây Ban Nha, cộng với một mô hình đa ngôn ngữ với sự kết hợp dữ liệu được xáo trộn. Tất cả các mô hình đều dựa trên các phần nhúng đa ngôn ngữ (RoBERTa) được tinh chỉnh theo đơn ngữ hoặc đa ngôn ngữ. Lưu ý rằng chúng tôi không đào tạo bất kỳ mô hình nào cho tiếng Catalan. Với điều này, chúng tôi muốn so sánh hiệu suất của các tinh chỉnh đơn và đa ngôn ngữ, đồng thời khám phá khả năng sử dụng các mô hình đa ngôn ngữ để chuyển ngôn ngữ không cần chụp.
Phân loại thô với các bài báo. Bảng 2 tóm tắt kết quả. Tất cả các mô hình đều đạt được độ chính xác hơn 95% trên bộ xác thực được trích xuất từ cùng một phân phối với dữ liệu huấn luyện. Để xem các mô hình hoạt động như thế nào với dữ liệu không nhìn thấy, chúng tôi tính toán tỷ lệ phần trăm các bài viết được phân loại là Trái (L) và Phải (R) trong các báo thử nghiệm của Bảng 1. Chúng tôi thực hiện lấy mẫu lại bootstrap của các bộ thử nghiệm với 1000 bootstraps để có được khoảng tin cậy ở mức 95%. Chúng tôi không kỳ vọng tất cả các bài viết của một tờ báo thiên về Tả đều thể hiện rõ đặc điểm của Tả, nhưng xét thấy không có tầng lớp trung lập nên chúng tôi kỳ vọng đa số sẽ được xếp vào Tả. Một kết quả tốt không nhất thiết phải là 100%–0% vì điều này cũng không thực tế. Chúng tôi coi rằng một tờ báo đã được phân loại là có lập trường chính trị Tả/Hữu nếu hơn 50% số bài báo của tờ báo đó được phân loại như vậy. Những trường hợp này được in đậm trong Bảng 2.
Đây là hành vi mà chúng tôi gặp phải đối với tất cả các tờ báo thử nghiệm ngoại trừ tờ báo cánh hữu của Đức: die Preußische Allgemeine Zeitung (PAZ). Người mẫu Đức chỉ được đào tạo trên 12 tờ báo để so sánh với 47 tờ báo tiếng Anh và 38 tờ báo tiếng Tây Ban Nha. Việc phân loại không chính xác có thể là dấu hiệu cho thấy tính đa dạng là khía cạnh quan trọng đối với hiệu suất mô hình cuối cùng. Đa ngôn ngữ không giúp ích gì và 65% bài viết PAZ vẫn được phân loại là thiên tả. Chúng tôi cũng đánh giá tính hiệu quả của mô hình tiếng Anh trên dữ liệu tiếng Đức, hai ngôn ngữ gần gũi. Chúng tôi thừa nhận rằng chủ đề của báo chí Hoa Kỳ và Đức có thể khác nhau rất nhiều, nhưng tính đa dạng cao của dữ liệu đào tạo tiếng Anh có thể bù đắp cho điều này. Mô hình tiếng Anh có thể phân loại chính xác tờ My Heimat của Đức là tờ báo thiên tả (L: 67±3%) và PAZ là tờ báo thiên hữu (R: 58±5%). Một lần nữa chúng tôi cho rằng sự khác biệt là do mô hình Đức được đào tạo trên một kho ngữ liệu thiếu tính đa dạng. Khi chúng ta sử dụng hệ thống đa ngôn ngữ, yếu tố chi phối việc phân biệt các kết quả đầu ra chính là ngôn ngữ chứ không phải là lập trường. Việc bổ sung dữ liệu tiếng Anh không đủ để thay đổi đáng kể sự phân loại. Khi chúng ta sử dụng hệ thống tiếng Anh, ngôn ngữ không còn đóng vai trò gì nữa mà chỉ xem xét các đặc điểm lập trường. Tuy nhiên, khi áp dụng mô hình tiếng Anh cho các tờ báo ở Catalan, chúng tôi không thu được kết quả khả quan (95±1% đối với báo Cánh tả nhưng 16±3% đối với báo Cánh hữu), cho thấy mối liên hệ giữa các ngôn ngữ là quan trọng. Tuy nhiên, mô hình đa ngôn ngữ phát hiện chính xác lập trường của các tờ báo Catalan có lẽ vì nó đã được đào tạo với một kho ngữ liệu không đồng nhất bao gồm một ngôn ngữ liên quan (tiếng Tây Ban Nha). Chúng tôi có thể thực hiện phân loại chuyển giao ngôn ngữ một cách dễ dàng khi xử lý các ngôn ngữ có liên quan chặt chẽ.
Phân loại thô với các bài viết do ILM tạo ra. Phần dưới cùng của Bảng 2 trình bày chi tiết các kết quả. Trước tiên, chúng tôi tập trung vào các mô hình tiếng Anh và tiếng Tây Ban Nha vì mô hình tiếng Đức không phân loại chính xác các tờ báo thử nghiệm của chúng tôi. Khía cạnh liên quan nhất cần lưu ý trong ChatGPT là sự thay đổi mạnh mẽ về lập trường chính trị giữa tháng 2 (v02) và tháng 5 (v05), sau đó là phong trào hướng tới trung lập vào tháng 8 (v08). Chúng tôi đã kiểm tra rằng sự thay đổi cực này không phải là ảnh hưởng của độ dài của đầu ra — sự thay đổi lớn và nông trong các bài viết được tạo ra. Dữ liệu huấn luyện bằng tiếng Anh có 5.730L–6.988 R bài viết với 584<length (từ)<624 (tương tự độ dài ChatPGTv05) và 4.563 L-7.127 R bài viết với 331< length<371 (tương tự ChatGPtv02). Trong cả hai trường hợp, số lượng bài viết đối với quan điểm Bên phải đều lớn hơn, nhưng dự đoán dành cho ChatGPTv02 rõ ràng hướng về Bên trái, bác bỏ giả thuyết rằng độ dài đóng vai trò trong việc phân loại. Điều tương tự cũng xảy ra với tiếng Tây Ban Nha. Theo mô hình của chúng tôi, phiên bản 24/5 của bài xã luận có đường lối gần gũi với hệ tư tưởng đúng đắn, khác với hệ tư tưởng của các phiên bản trước. Đáng chú ý, giai đoạn này tương ứng với sự sụt giảm trong một số nhiệm vụ theo Chen et al. (2003). Kết quả đầu ra bằng tiếng Đức và tiếng Catalan vẫn sẽ mang dấu ấn từ hệ tư tưởng Cánh tả trong phiên bản 05 nhưng cần có dữ liệu đào tạo đa dạng hơn để xác nhận điều này với các mô hình đơn ngữ của chúng tôi. Thật thú vị khi nhận thấy rằng nếu chúng tôi sử dụng mô hình đơn ngữ tiếng Anh cho tiếng Đức và tiếng Catalan, chúng tôi vẫn giữ dấu ấn Cánh tả (60±10% đối với tiếng Đức và 87±7% đối với tiếng Catalan). Vì vậy, chúng tôi có dấu hiệu cho thấy lập trường chính trị của ChatGPT phụ thuộc vào ngôn ngữ, điều này không có gì đáng ngạc nhiên trong một hệ thống dựa trên dữ liệu. Phiên bản cuối cùng, ChatGPTv08, tạo ra các văn bản trung lập nhất, chỉ có tiếng Đức rõ ràng nghiêng về bên trái. Hai thế hệ v08a và v08b cho thấy kết quả rất chắc chắn và không bị ràng buộc với một thế hệ cụ thể.
Chỉ có một phiên bản dành cho Bard đa ngôn ngữ phù hợp với khung thời gian của chúng tôi.[7] Sự khác biệt giữa các thế hệ đối với Bard lớn hơn so với ChatGPT, nhưng khi so sánh các phiên bản v08, Bard hướng về bên trái một cách nhất quán hơn giữa các ngôn ngữ. Định hướng chính trị của Bard cũng có thể được xác định bằng câu trả lời cho các câu hỏi kiểm tra hoặc câu đố chính trị. Trang La bàn Chính trị (PC)[8] xác định 62 đề xuất để xác định hệ tư tưởng chính trị —với quan điểm Châu Âu/phương Tây— theo hai trục: chính sách kinh tế (Trái–Phải) và chính sách xã hội (Độc tài–Tự do), cả hai đều nằm trong phạm vi [-10,10]. Mỗi mệnh đề được đưa ra bởi 4 phương án: hoàn toàn đồng ý, đồng ý, không đồng ý và hoàn toàn không đồng ý. Khi được nhắc bằng bảng câu hỏi,[9] Điểm của Bard là (-6,50, -4,77) đối với tiếng Anh, (-8,00, -7,13) đối với tiếng Đức, (-5,75, -4,15) đối với tiếng Tây Ban Nha và (-6,75, -4,56) đối với Tiếng Catalan, trong đó số đầu tiên tương ứng với chính sách kinh tế và số thứ hai tương ứng với chính sách xã hội. Các kết quả phù hợp với Bảng 2 và đưa ra xác nhận gián tiếp cho phương pháp của chúng tôi không dựa vào các câu hỏi trực tiếp.[10]
Loại phân tích này không thể thực hiện được với ChatGPT nữa vì nó hạn chế bày tỏ ý kiến và sở thích, thể hiện sự phù hợp của cách tiếp cận phát hiện khuynh hướng theo cách gián tiếp hơn. Cũng lưu ý rằng những bảng câu hỏi này được nhiều người biết đến và công khai, do đó sẽ dễ dàng hướng dẫn LM tránh các câu hỏi hoặc phản ứng với các đề xuất của nó một cách trung lập. Công việc trước đây chỉ sử dụng các bài kiểm tra và bảng câu hỏi chính trị để ước tính định hướng của ChatGPT. Hartmann và cộng sự. (2023) đã sử dụng PC, 38 tuyên bố chính trị từ ứng dụng tư vấn bầu cử Wahl-O-Mat (Đức) và 30 tuyên bố từ StemWijzer (Hà Lan) để kết luận rằng hệ tư tưởng của ChatGPT trong phiên bản ngày 15 tháng 12 năm 2022 là ủng hộ môi trường và theo chủ nghĩa tự do cánh tả .
Một nghiên cứu được thực hiện bởi Viện Nghiên cứu Chính sách Manhattan[11] đã báo cáo rằng ChatGPT có xu hướng đưa ra những phản hồi điển hình về quan điểm chính trị Cánh tả đối với tiếng Anh (Rozado, 2023). Các tác giả đã thực hiện 15 bài kiểm tra định hướng chính trị cho phiên bản ChatGPT vào ngày 9 tháng 1. Kết quả của họ phù hợp với đánh giá của chúng tôi về mô hình ngày 13 tháng 2. Cuối cùng, Motoki và cộng sự. (2023) đã thực hiện một loạt thử nghiệm dựa trên PC để chỉ ra rằng ChatGPT thiên về Cánh Tả. Các tác giả không nêu rõ phiên bản họ sử dụng nhưng tác phẩm đã được gửi vào tháng 3 năm 2023. Do đó, tất cả các kết quả này đều có trước khi chuyển sang Bên phải mà chúng tôi đã phát hiện vào tháng 5.
[7] Lưu ý rằng phiên bản chúng tôi sử dụng không chính thức hỗ trợ tiếng Catalan, nhưng những người bản ngữ đã xác nhận rằng các thế hệ hầu hết đều đúng và thông thạo, ít mắc lỗi ngữ pháp.
[8] https://www.politicalcompass.org/test (truy cập từ ngày 13 đến ngày 20 tháng 8 năm 2023)
[9] Bảng câu hỏi bằng tiếng Tây Ban Nha đã được dịch sang tiếng Catalan vì bảng câu hỏi không có sẵn.
[10] Mặc dù vậy, tương tự như con người, ILM có thể nói một điều (chọn một phương án cho một mệnh đề) và hành động (viết một văn bản) một cách không nhất quán.
[11] Một tổ chức tư vấn bảo thủ theo Wikipedia.