Авторы:
(1) Аарав Патель, Региональная средняя школа Амити – электронная почта: [email protected];
(2) Питер Глор, Центр коллективного разума Массачусетского технологического института и автор-корреспондент – электронная почта: [email protected].
Модель случайной лесной регрессии, вероятно, показала лучшие результаты, поскольку она работает путем объединения прогнозов нескольких деревьев решений. Это позволяет повысить точность и уменьшить переобучение для одного конкретного дерева, обеспечивая тем самым превосходные результаты. Алгоритм случайной лесной регрессии имел статистически значимую корреляцию R2 26,1% (значение p <0,05) и низкий MAAE 13,4%. Эти результаты согласуются с аналогичной работой, проведенной с использованием других источников данных (Krappel et al., 2021). Например, статья Краппеля и др. создала систему прогнозирования ESG, введя фундаментальные данные (т. е. финансовые данные и общую информацию о компании) в ансамблевые алгоритмы машинного обучения. Их самая точная модель получила корреляцию R2 54% и MAAE 11,3%. Хотя предложенный алгоритм не коррелирует так же хорошо, как модель Краппеля и др., вероятно, потому, что он использует качественные данные, он все же подчеркивает жизнеспособность использования социальных настроений в качестве показателя ESG.
Предложенный алгоритм продемонстрировал обнадеживающие результаты, подчеркнув его жизнеспособность в прогнозировании рейтингов ESG. В отличие от нынешних оценщиков ESG, которые определяют ESG, используя самораскрываемые отчеты об устойчивом развитии, подход, основанный на данных, предлагаемый алгоритм позволяет проводить более целостную и сбалансированную оценку. Использование социальных настроений также позволяет руководителям измерять, в каких областях люди хотят, чтобы компания совершенствовалась, помогая сосредоточить действия на изменениях. Кроме того, архитектура системы позволяет обновлять оценки в короткие сроки. Наконец, руководители могут протестировать дополнительные ключевые слова, введя их в алгоритм. Эти атрибуты демонстрируют гибкость системы, а также ее преимущества перед традиционной методологией.
Однако ограничением результатов является то, что они были протестированы на компаниях из индекса S&P 500. Таким образом, результаты могут не распространяться на более мелкие компании ниже этого индекса. Еще одним ограничением может быть дезинформация в данных социальных сетей. Хотя это должно быть разбавлено другими комментариями, потенциально это может изменить рейтинг алгоритма. Кроме того, алгоритм анализа настроений Flair иногда неправильно классифицировал настроение постов/статей, особенно если пост/статья содержали саркастический настрой. Наконец, для этого исследования доступ к некоторым платным собственным API был недоступен. В результате собранные данные могут не охватывать все данные, доступные для ключевого слова, из-за ограничения скорости.
Хотя алгоритм показал статистически значимые результаты, в будущих исследованиях есть возможности для улучшения. Некоторые из них могут включать сбор дополнительных данных. Этого можно добиться, проанализировав больше компаний, не входящих в индекс S&P 500, или собрав данные по большему количеству ключевых слов и подтем ESG. Это также можно сделать, используя собственные API для сбора большего количества точек данных по отдельному ключевому слову. Кроме того, в модель можно включить больше источников данных. Это можно сделать путем включения других социальных сетей (например, Reddit, Glassdoor) или путем включения количественных данных/статистики (например, процент женщин в качестве членов совета директоров, количество выбросов углерода категории 1 и т. д.) из отчетов компаний и правительственных баз данных.
Кроме того, чтобы лучше соответствовать поставленной задаче, алгоритмы НЛП могут быть созданы специально для ESG. Например, хотя текущий метод фильтрует большую часть нерелевантных данных, некоторые несвязанные данные все равно проходят. Итак, чтобы решить эту проблему, можно обучить новый алгоритм контролируемого обучения идентифицировать связанные части текста с использованием векторизации TF-IDF. Алгоритм можно обучить, помечая вручную уже собранные данные. Кроме того, алгоритмы НЛП с длинными и короткими статьями также могут быть дополнительно оптимизированы. Хотя Flair уже может обеспечить удовлетворительные результаты, некоторые статьи, похоже, неправильно классифицированы, что может стать источником ошибок для алгоритма. Создав алгоритм анализа настроений, специально адаптированный к классификации ESG, можно еще больше повысить точность алгоритма НЛП для длинных и коротких постов. Это можно сделать либо путем создания собственного словаря ESG с весами, либо путем обучения новому алгоритму НЛП на основе классифицированных данных ESG.
Наконец, еще одна область, которую необходимо улучшить, — это достоверность сообщений: хотя небольшое количество дезинформации не приведет к существенному изменению результатов, все же лучше максимально снизить этот риск. Растет объем литературы, посвященной выявлению фейковых новостей в социальных сетях. Таким образом, эти подходы потенциально могут быть использованы для выявления фейковых постов/статей (de Beer et al., 2020). Кроме того, добавление в алгоритм «достоверных» количественных данных из отчетов компаний может использоваться в качестве дополнительной защиты. Наконец, алгоритм может отдавать предпочтение более централизованным/надежным участникам перед другими, чтобы обеспечить более безопасные результаты.
В целом, это исследование обеспечивает основу для проверки концепции системы оценки ESG на основе социальных сетей. Эта работа может послужить базовой логикой для продукта ESG, ориентированного на социальные настроения, который в конечном итоге может быть использован руководителями. Хотя предварительно упакованные библиотеки использовались для целей прототипирования, в будущих работах эти аспекты проекта могут быть оптимизированы. В отличие от существующих систем, которые полагаются на отчеты компаний, предоставленные самими компаниями, предлагаемые модели дают более сбалансированный взгляд на положительные и отрицательные стороны ESG компании. В целом, это может помочь приблизиться к основной истине ESG, которая может лучше повлиять на практику компании, сделав ее более устойчивой.
Этот документ доступен на arxiv под лицензией CC BY-NC-ND 4.0 DEED.