tác giả:
(1) Aarav Patel, Trường Trung học Khu vực Amity – email: [email protected];
(2) Peter Gloor, Trung tâm Trí tuệ Tập thể, Viện Công nghệ Massachusetts và tác giả tương ứng – email: [email protected].
Việc tạo ra dự án này được chia thành ba bước. Bước đầu tiên là thu thập dữ liệu thông qua các trình thu thập dữ liệu web trên nhiều mạng xã hội khác nhau. Sau đó, dữ liệu văn bản được xử lý trước và chuyển đổi thành điểm danh mục phụ bằng cách sử dụng Xử lý ngôn ngữ tự nhiên. Cuối cùng, các thuật toán học máy đã được đào tạo bằng cách sử dụng dữ liệu này để tính toán xếp hạng ESG gắn kết.
Thay vì sử dụng hồ sơ công ty tự báo cáo, dữ liệu mạng xã hội được sử dụng để định lượng ESG một cách tổng thể. Phân tích mạng xã hội và tìm kiếm trên web có thể được sử dụng để xác định xu hướng (Gloor và cộng sự, 2009). Các mạng xã hội phổ biến như Twitter, LinkedIn và Google News có rất nhiều dữ liệu liên quan đến hầu hết mọi chủ đề. Dữ liệu này có thể cung cấp cái nhìn cân bằng về thực tiễn ESG của công ty và nó có thể giúp bao quát cả xu hướng ESG của công ty trong ngắn hạn và dài hạn. Nó cũng có thể thu thập dữ liệu có thể không được phản ánh trong hồ sơ. Cuối cùng, dữ liệu này có thể trực tiếp nêu bật mối quan tâm của người ngoài, từ đó có thể hướng dẫn tốt hơn các sáng kiến ESG của công ty để có tác động hiệu quả hơn.
Để làm điều này, một danh sách đầy đủ các từ khóa liên quan đến ESG đã được tạo (hình 3). Danh sách từ khóa này được lấy cảm hứng từ các danh mục phụ thường được sử dụng trong các phương pháp xếp hạng ESG hiện tại. Danh sách này được sử dụng để giúp thu thập dữ liệu công khai của công ty từ Wikipedia, LinkedIn, Twitter và Google News. Để thu thập dữ liệu, các trình thu thập dữ liệu web đã được phát triển bằng Python. Dữ liệu Wikipedia được thu thập bằng Giao diện lập trình ứng dụng Wikipedia (API). Wikipedia phục vụ để cung cấp một cái nhìn tổng quan chung về hoạt động của một công ty. Dữ liệu Google Tin tức được thu thập bằng cách xác định các bài viết tin tức hàng đầu dựa trên tìm kiếm trên Google. Các liên kết đến các bài viết này đã được lưu trữ. Tin tức này nhằm cung cấp thông tin cập nhật tổng thể về những phát triển đáng chú ý của ESG. Dữ liệu Twitter được thu thập với sự trợ giúp của thư viện Snscrape. Snscrape là một API nhẹ cho phép người dùng thu thập các Tweet gần như không giới hạn (với một số hạn chế nhất định về số lượng có thể được thu thập mỗi giờ) từ hầu hết mọi khung thời gian. Twitter được chọn chủ yếu để cung cấp phản hồi từ phía người tiêu dùng về hoạt động của công ty. Vì API LinkedIn không hỗ trợ việc thu thập các bài đăng trên LinkedIn nên một thuật toán đã được tạo từ đầu để thực hiện việc này. Thuật toán sử dụng Selenium Chromedriver để mô phỏng việc con người cuộn qua truy vấn LinkedIn. Dựa trên điều này, văn bản của mỗi bài đăng được thu thập và lưu trữ bằng các yêu cầu HTML thông qua BeautifulSoup. LinkedIn phục vụ để cung cấp thông tin chuyên nghiệp hơn về hoạt động của công ty. Kiến trúc thu thập dữ liệu này cho phép làm mới và tạo xếp hạng theo thời gian thực nếu cần. Sau đó, dữ liệu cho từng danh mục phụ được lưu trữ trong tệp CSV.
Bốn mạng xã hội này bao gồm nhiều loại dữ liệu ESG của công ty. Dữ liệu được thu thập từ hầu hết các công ty thuộc S&P 500 (không bao gồm bất động sản). Bất động sản bị loại trừ chủ yếu vì nó không nhận được nhiều tin tức liên quan đến các vấn đề ESG (dựa trên phân tích cấp độ bề mặt), vì vậy nó dường như không khả thi đối với hệ thống được đề xuất. Điều này đảm bảo các công ty được thu thập được cân bằng tốt giữa các ngành và lĩnh vực. Những kẻ quét web đã cố gắng thu thập ~ 100 bài đăng/bài viết cho mỗi từ khóa trên mạng xã hội. Tuy nhiên, đôi khi dữ liệu sẽ được thu thập ít hơn do giới hạn tỷ lệ API và khả năng cung cấp dữ liệu hạn chế đối với các công ty ít được biết đến hơn. Để tăng tốc độ thu thập, nhiều tập lệnh đã được chạy đồng thời. Lúc đầu, các chương trình thường bị giới hạn tốc độ khi thu thập quá nhiều dữ liệu trong một khoảng thời gian ngắn như vậy. Để giải quyết vấn đề này, các biện pháp bảo vệ đã được thêm vào để tạm dừng chương trình trong trường hợp gặp phải vấn đề này. Tất cả việc thu thập dữ liệu được thực hiện theo các điều khoản và điều kiện của từng trang web. Tổng cộng, có khoảng ~937.400 tổng số điểm dữ liệu đã được thu thập trên ~470 công ty, với trung bình ~37 điểm cho mỗi từ khóa mạng xã hội. Hầu hết dữ liệu này tập trung vào năm 2021. Tuy nhiên, phạm vi ngày cố định không được áp đặt vì nó sẽ loại bỏ các điểm dữ liệu đối với các công ty ít tên tuổi hơn vốn đang gặp khó khăn trong việc thu thập đủ thông tin.
Sau khi tất cả dữ liệu được thu thập, nó sẽ được xuất sang bảng tính để phân tích thêm. Dữ liệu được xử lý trước bằng RegEx (Biểu thức chính quy). Đầu tiên, URL và liên kết đã bị xóa. Các đề cập đã được thay thế bằng một từ chung chung để trừu tượng hóa tên. Cuối cùng, các ký tự và dấu câu không phổ biến đã bị xóa. Điều này giúp lọc các từ/ký tự có thể ảnh hưởng đến phân tích NLP.
Sau khi dữ liệu được làm sạch và sắp xếp, thuật toán NLP được xây dựng để phân tích. Đầu tiên, một thuật toán liên quan đến ESG đã được tạo để lọc ra dữ liệu không liên quan đến ESG có thể cản trở kết quả. Để thực hiện điều này, tính năng phát hiện từ khóa được sử dụng để xem liệu bài đăng/bài viết có thảo luận về công ty hiện tại cũng như một hoặc nhiều danh mục phụ ESG hay không. Tiếp theo, thư viện Nhận dạng thực thể được đặt tên của Bộ công cụ ngôn ngữ tự nhiên (NLTK) của Python đã được sử dụng để xác định xem một bài đăng có liên quan đến tổ chức nhằm xóa dữ liệu ngoài ý muốn hay không. Ví dụ: nếu truy vấn “khí hậu táo” được tìm kiếm thì một bài đăng có thể xuất hiện với nội dung “Khí hậu mùa xuân là thời điểm tốt nhất để trồng cây táo”. Tuy nhiên, Nhận dạng thực thể được đặt tên sẽ có thể xác định rằng câu này không liên quan đến ESG vì “Apple” được sử dụng làm tính từ. Do đó, thuật toán sẽ bỏ qua nó khỏi phân tích. Mặt khác, nếu bài đăng cho biết “Apple đang rót 500 triệu đô la vào các sáng kiến về biến đổi khí hậu” thì thuật toán sẽ xác định rằng bài đăng đó đang nói về tổ chức Apple. Bước lọc này giúp loại bỏ những thông tin không liên quan để cải thiện chất lượng dữ liệu.
Sau khi lọc, phân tích tình cảm NLP được sử dụng để đánh giá xem một bài đăng là tích cực hay tiêu cực về ESG. Hai thuật toán NLP đã được tạo ra để thực hiện điều này: thuật toán NLP bài viết ngắn phân tích các nội dung văn bản ngắn hơn (Tweets, bài đăng trên LinkedIn) trong khi thuật toán NLP bài viết dài phân tích các nội dung dài hơn (Bài báo tin tức, bài viết Wikipedia).
Một phân tích văn học về các thư viện phân tích tình cảm Python khác nhau đã được thực hiện. Sau khi so sánh các thư viện phân tích tình cảm khác nhau như TextBlob, VADER, FastText và Flair, người ta thấy rằng Flair vượt trội hơn các phân loại khác. Điều này có thể là do các bộ phân loại túi từ đơn giản, chẳng hạn như VADER hoặc TextBlob, đã không xác định được mối quan hệ giữa các từ khác nhau với nhau. Mặt khác, Flair đã sử dụng các vectơ từ theo ngữ cảnh để phân tích các mối quan hệ cấp độ từ và cấp độ ký tự trong câu. Đây có thể là lý do tại sao, khi các thuật toán này được thử nghiệm trên Stanford Sentiment Treebank (SST) để đánh giá cảm tính của bài đánh giá phim theo thang điểm từ 1-5, người ta nhận thấy rằng thuật toán Flair hoạt động tốt nhất với điểm F1 là 49,90% (Akbik và cộng sự, 2018) (Rao và cộng sự, 2019) (hình 4). Vì vậy, thuật toán bài viết ngắn được xây dựng bằng thư viện phân tích tình cảm Flair. Thuật toán bài viết dài về cơ bản là thuật toán bài viết ngắn nhưng được tính trung bình trên tất cả các đoạn nội dung có liên quan (tức là các đoạn chứa tên công ty) trong một bài viết.
Các thuật toán tổng quát này đã được tối ưu hóa hơn nữa cho từng mạng xã hội cụ thể. Ví dụ: thuật toán LinkedIn đã phân tích hồ sơ của tác giả trên một bài đăng trên LinkedIn để loại bỏ việc tự báo cáo. Điều này là do các nhà điều hành thường thảo luận về các sáng kiến và mục tiêu tích cực của họ, điều này có thể làm giảm đi những quan sát khách quan khác và do đó tạo nên kết quả. Ngoài ra, đối với thuật toán Twitter và LinkedIn, nếu tìm thấy một địa chỉ liên kết trong văn bản thì thuật toán sẽ phân tích bài viết đó để đánh giá.
Ban đầu, thuật toán phân tích rất chậm vì Flair phải mất 3-4 giây để phân tích một bài đăng. Vì vậy, một biến thể có tên là “Flair cảm tính nhanh” đã được cài đặt. Điều này cho phép Flair tiến hành phân tích hàng loạt trong đó phân tích nhiều bài đăng cùng một lúc. Điều này làm giảm đáng kể thời gian phân tích trong khi lại làm giảm độ chính xác một chút.
Sau khi tất cả dữ liệu thô đã được ghi, điểm số sẽ được tính trung bình thành một bảng tính gắn kết. Việc tính toán trung bình được sử dụng để điền vào bất kỳ dữ liệu điểm phụ nào còn thiếu. Những điểm số của danh mục phụ này có thể cung cấp cho các giám đốc điều hành thông tin chi tiết về tình cảm xã hội về các vấn đề chính, cung cấp cho họ thông tin cụ thể. Hình 4: So sánh độ chính xác của các thuật toán phân tích tình cảm khác nhau trên cơ sở dữ liệu SST-5 về những lĩnh vực cần cải thiện. Những điểm số này có thể được sử dụng thô để giúp định hướng các sáng kiến hoặc chúng có thể được tổng hợp thêm thông qua học máy để đưa ra dự đoán ESG
Sau khi tổng hợp dữ liệu, các mô hình học máy khác nhau đã được thử nghiệm. Mục tiêu của các mô hình này là dự đoán điểm ESG từ 0-100, với 0 là tệ nhất và 100 là tốt nhất. Hầu hết các mô hình học có giám sát này là các thuật toán hồi quy nhẹ có thể học các mẫu phi tuyến tính với dữ liệu hạn chế. Một số thuật toán này bao gồm Hồi quy rừng ngẫu nhiên, Hồi quy vectơ hỗ trợ, Hồi quy hàng xóm gần nhất K và Hồi quy XGBoost (Tăng cường độ dốc cực cao). Hồi quy rừng ngẫu nhiên hoạt động bằng cách xây dựng một số cây quyết định trong thời gian huấn luyện và đưa ra dự đoán trung bình (Tin Kam Ho, 1995). Hồi quy vectơ hỗ trợ xác định dòng phù hợp nhất trong ngưỡng giá trị (Awad và cộng sự, 2015). K-Nearest Neighbors Regression dự đoán giá trị dựa trên giá trị trung bình của các điểm dữ liệu lân cận (Kramer, 2013). XGBoost (Tăng cường độ dốc cực cao) Hồi quy sử dụng tăng cường độ dốc bằng cách kết hợp các ước tính/dự đoán của cây hồi quy đơn giản hơn (Chen và cộng sự, 2016).
Các thuật toán hồi quy này được đào tạo bằng 19 tính năng. Các tính năng này bao gồm cảm tính trung bình cho mỗi từ khóa trong số 18 từ khóa với một danh mục bổ sung cho Wikipedia. Chúng đã được hiệu chỉnh theo xếp hạng S&P Global ESG công khai để đảm bảo chúng không khác biệt nhiều so với các giải pháp hiện có. Một công cụ quét xếp hạng ESG được cấp phép công khai trên GitHub đã được sử dụng để truy xuất điểm ESG toàn cầu của S&P cho tất cả các công ty được phân tích (Shweta-29). Các kỹ thuật tối ưu hóa như chính quy hóa đã được sử dụng để ngăn chặn việc trang bị quá mức để có độ chính xác cao hơn.
Trước khi tạo thuật toán, các công ty có ít hơn 5 bài viết/bài đăng cho mỗi danh mục phụ ESG đã được lọc ra. Điều này còn lại khoảng 320 công ty để phân tích. Để tạo và kiểm tra thuật toán, ~256 công ty đã được sử dụng làm dữ liệu đào tạo, trong khi ~64 công ty được sử dụng để kiểm tra dữ liệu. Những kết quả này được sử dụng để xác định khả năng dự đoán của thuật toán.
Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-ND 4.0 DEED.