저자:
(1) Aarav Patel, Amity 지역 고등학교 – 이메일: [email protected];
(2) Peter Gloor, MIT 집단지성센터, 교신저자 – 이메일: [email protected].
Random Forest Regression Model은 다중 의사결정 트리의 예측을 결합하여 작동하기 때문에 가장 좋은 성능을 발휘했을 가능성이 높습니다. 이를 통해 정확도를 높이고 하나의 특정 트리에 대한 과적합을 줄여 탁월한 결과를 얻을 수 있습니다. Random Forest Regression 알고리즘은 통계적으로 유의미한 R2 Correlation이 26.1%(p-value <0.05)로 나타났으며, MAAE는 13.4%로 낮았습니다. 이러한 결과는 다른 데이터 소스를 사용하여 수행된 유사한 작업과 일치합니다(Krappel et al., 2021). 예를 들어 Krappel et al. 기본 데이터(예: 재무 데이터 및 회사 주변 일반 정보)를 앙상블 머신러닝 알고리즘에 입력하여 ESG 예측 시스템을 만들었습니다. 가장 정확한 모델은 54%의 R2 상관관계와 11.3%의 MAAE를 받았습니다. 제안된 알고리즘은 정성적 데이터를 활용하기 때문에 Krappel et al.의 모델만큼 상관관계가 없지만 ESG의 프록시로 사회적 정서를 사용할 수 있는 가능성을 여전히 강조합니다.
제안된 알고리즘은 고무적인 결과를 보여 ESG 등급 예측의 실행 가능성을 강조했습니다. 자체 공개 지속 가능성 보고서를 사용하여 ESG를 결정하는 현재 ESG 평가자와 달리 제안된 알고리즘의 데이터 중심 접근 방식은 보다 전체적이고 균형 잡힌 평가를 허용합니다. 사회적 감정을 활용하면 경영진은 사람들이 회사에서 개선하기를 원하는 영역을 측정하여 변화에 대한 조치에 집중할 수 있습니다. 또한 시스템 아키텍처를 통해 짧은 시간 내에 점수를 업데이트할 수 있습니다. 마지막으로 경영진은 추가 키워드를 알고리즘에 입력하여 테스트할 수 있습니다. 이러한 속성은 시스템의 유연성과 기존 방법에 비해 장점을 보여줍니다.
그러나 결과의 한계는 S&P 500 기업을 대상으로 테스트했다는 것입니다. 따라서 이 지수 아래의 소규모 회사에는 결과가 적용되지 않을 수 있습니다. 또 다른 제한은 소셜 네트워크 데이터 내의 잘못된 정보일 수 있습니다. 이는 다른 의견으로 희석되어야 하지만 잠재적으로 알고리즘의 등급을 변경할 수 있습니다. 또한 Flair 감정 분석 알고리즘은 게시물/기사 감정을 잘못 분류하는 경우가 있었으며, 특히 게시물/기사에 냉소적인 태도가 있는 경우 더욱 그렇습니다. 마지막으로, 이 연구에서는 특정 유료 네이티브 API에 대한 액세스가 불가능했습니다. 결과적으로 수집된 데이터는 속도 제한으로 인해 키워드에 사용 가능한 모든 데이터를 포함하지 못할 수도 있습니다.
알고리즘이 통계적으로 유의미한 결과를 보여주었지만 향후 연구에서 개선할 여지가 있습니다. 여기에는 더 많은 데이터 수집이 포함될 수 있습니다. 이는 S&P 500 이상으로 더 많은 기업을 분석하거나 더 많은 키워드 및 ESG 하위 주제에 대한 데이터를 수집하여 수행할 수 있습니다. 이는 개별 키워드별로 더 많은 데이터 포인트를 수집하기 위해 기본 API를 사용하여 수행할 수도 있습니다. 또한 더 많은 데이터 소스를 모델에 통합할 수 있습니다. 이는 다른 소셜 네트워크(예: Reddit, Glassdoor)를 통합하거나 회사 보고서 및 정부 데이터베이스의 정량적 데이터/통계(예: 이사회 구성원의 여성 비율, 범위 1 탄소 배출량 등)를 포함하여 수행할 수 있습니다.
또한 당면한 작업에 더 적합하도록 ESG용으로 특별히 NLP 알고리즘을 만들 수 있습니다. 예를 들어, 현재 방법은 관련 없는 데이터의 대부분을 필터링하지만 관련 없는 일부 데이터는 여전히 통과합니다. 따라서 이 문제를 해결하기 위해 TF-IDF 벡터화를 사용하여 관련 텍스트 본문을 식별하도록 새로운 지도 학습 알고리즘을 훈련할 수 있습니다. 이미 수집된 데이터에 직접 라벨을 지정하여 알고리즘을 학습할 수 있습니다. 게다가 장문/단문 포스트 NLP 알고리즘도 더욱 최적화될 수 있습니다. Flair는 이미 만족스러운 결과를 제공하고 있지만 일부 기사는 잘못 분류된 것으로 보이며 이는 알고리즘 오류의 원인이 될 수 있습니다. ESG 분류에 특별히 맞춰진 감정 분석 알고리즘을 생성함으로써 장문 및 단문 NLP 알고리즘 정확도를 더욱 향상시킬 수 있습니다. 이는 가중치가 있는 맞춤형 ESG 어휘집을 생성하거나 분류된 ESG 데이터에 대해 새로운 NLP 알고리즘을 훈련함으로써 수행할 수 있습니다.
마지막으로, 개선해야 할 또 다른 영역은 사후 신뢰성입니다. 소량의 잘못된 정보가 결과를 크게 바꾸지는 않지만 이러한 위험을 최대한 완화하는 것이 가장 좋습니다. 소셜 네트워크에서 가짜 뉴스 식별을 탐구하는 문헌이 늘어나고 있습니다. 따라서 이러한 접근 방식은 가짜 게시물/기사를 식별하는 데 잠재적으로 사용될 수 있습니다(de Beer et al., 2020). 또한, 회사 서류의 "하드" 정량적 데이터를 알고리즘에 추가하는 것은 추가적인 보호 수단으로 사용될 수 있습니다. 마지막으로, 알고리즘은 보다 안전한 결과를 산출하기 위해 다른 행위자보다 더 중앙 집중적이고 신뢰할 수 있는 행위자에게 우선순위를 부여할 수 있습니다.
전반적으로, 이 연구는 소셜 네트워크 기반 ESG 평가 시스템에 대한 개념 증명 프레임워크를 제공합니다. 이 작업은 결국 경영진이 사용할 수 있는 사회적 정서 ESG 제품의 백엔드 로직 역할을 할 수 있습니다. 사전 패키지된 라이브러리는 프로토타입 제작 목적으로 사용되었지만 향후 작업에서는 프로젝트의 이러한 측면을 최적화할 수 있습니다. 자체 보고된 회사 서류에 의존하는 기존 프레임워크와 달리 제안된 모델은 회사의 ESG 긍정적인 면과 부정적인 면에 대해 보다 균형 잡힌 관점을 취합니다. 일반적으로 이는 보다 지속 가능하도록 회사 관행에 더 나은 영향을 미칠 수 있는 ESG 근거 진실에 접근하는 데 도움이 될 수 있습니다.
이 문서는 CC BY-NC-ND 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다.