Autores:
(1) Aarav Patel, Amity Regional High School – e-mail: [email protected];
(2) Peter Gloor, Centro de Inteligência Coletiva, Instituto de Tecnologia de Massachusetts e autor correspondente – email: [email protected].
O modelo de regressão florestal aleatória provavelmente teve o melhor desempenho porque funciona combinando as previsões de múltiplas árvores de decisão. Isso permite melhorar sua precisão e reduzir o ajuste excessivo a uma árvore específica, produzindo assim resultados superiores. O algoritmo Random Forest Regression apresentou correlação R2 estatisticamente significativa de 26,1% (p-valor <0,05) e apresentou MAAE baixo de 13,4%. Estes resultados estão alinhados com trabalhos semelhantes realizados utilizando outras fontes de dados (Krappel et al., 2021). Por exemplo, um artigo de Krappel et al. criou um sistema de previsão ESG alimentando dados fundamentais (ou seja, dados financeiros e informações gerais sobre a empresa) em algoritmos conjuntos de aprendizado de máquina. Seu modelo mais preciso recebeu uma correlação R2 de 54% e um MAAE de 11,3%. Embora o algoritmo proposto não se correlacione tão bem quanto o modelo de Krappel et al., provavelmente porque aproveita dados qualitativos, ainda destaca a viabilidade de usar o sentimento social como proxy para ESG.
O algoritmo proposto apresentou resultados encorajadores, destacando sua viabilidade na previsão de classificação ESG. Ao contrário dos atuais avaliadores ESG que determinam ESG usando relatórios de sustentabilidade autodivulgados, a abordagem baseada em dados do algoritmo proposto permite uma avaliação mais holística e equilibrada. A utilização do sentimento social também permite que os executivos avaliem quais áreas as pessoas desejam que uma empresa melhore, ajudando a concentrar as ações na mudança. Além disso, a arquitetura do sistema permite que as pontuações sejam atualizadas em curtos prazos. Finalmente, os executivos podem testar palavras-chave adicionais inserindo-as no algoritmo. Esses atributos mostram a flexibilidade do sistema e também vantagens em relação à metodologia convencional.
Uma limitação dos resultados, contudo, é que foi testado nas empresas do S&P 500. Portanto, os resultados podem não ser transferidos para empresas menores abaixo deste índice. Outra limitação pode ser a desinformação nos dados da rede social. Embora isso deva ser diluído por outros comentários, pode potencialmente alterar as classificações do algoritmo. Além disso, o algoritmo de análise de sentimento Flair às vezes classificava incorretamente o sentimento da postagem/artigo, especialmente se a postagem/artigo tivesse uma atitude sarcástica. Por fim, para esta pesquisa, o acesso a determinadas APIs nativas pagas não estava disponível. Como resultado, os dados coletados podem não abranger todos os dados disponíveis para uma palavra-chave devido à limitação de taxa.
Embora o algoritmo tenha apresentado resultados estatisticamente significativos, há espaço para melhorias que podem ser feitas em pesquisas futuras. Parte disso pode incluir a coleta de mais dados. Isto pode ser feito analisando mais empresas além do S&P 500 ou coletando dados para mais palavras-chave e subtópicos ESG. Isso também pode ser feito usando APIs nativas para coletar mais pontos de dados por palavra-chave individual. Além disso, mais fontes de dados poderiam ser incorporadas ao modelo. Isso pode ser feito incorporando outras redes sociais (ou seja, Reddit, Glassdoor) ou incluindo dados/estatísticas quantitativas (ou seja, % de mulheres como membros do conselho, número de emissões de carbono de escopo 1, etc.) de relatórios de empresas e bancos de dados governamentais.
Além disso, para melhor se adequar à tarefa em questão, algoritmos de PNL podem ser criados especificamente para ESG. Por exemplo, embora o método atual filtre muitos dos dados irrelevantes, alguns dados não relacionados ainda conseguem passar. Portanto, para resolver isso, um novo algoritmo de aprendizagem supervisionada pode ser treinado para identificar corpos de texto relacionados usando a vetorização TF-IDF. O algoritmo pode ser treinado rotulando os dados que já foram coletados. Além disso, os algoritmos de PNL de artigo longo/postagem curta também podem ser otimizados ainda mais. Embora Flair já possa fornecer resultados satisfatórios, alguns artigos parecem estar mal classificados, o que pode ser uma fonte de erro para o algoritmo. Ao criar um algoritmo de análise de sentimento especificamente adaptado à classificação ESG, a precisão do algoritmo PNL de artigos longos e de pós curtos pode ser melhorada ainda mais. Isso pode ser feito criando um léxico ESG personalizado com pesos ou treinando um novo algoritmo de PNL com base em dados ESG classificados.
Finalmente, outra área a melhorar é a credibilidade pós-venda: embora pequenas quantidades de desinformação não alterem significativamente os resultados, ainda assim é melhor mitigar este risco tanto quanto possível. Há um crescente corpo de literatura que explora a identificação de notícias falsas nas redes sociais. Portanto, essas abordagens podem ser potencialmente usadas para identificar postagens/artigos falsos (de Beer et al., 2020). Além disso, adicionar dados quantitativos “concretos” de registros de empresas ao algoritmo pode ser usado como uma proteção adicional. Finalmente, o algoritmo pode priorizar atores mais centralizados/credíveis em detrimento de outros para produzir resultados mais seguros.
No geral, esta pesquisa fornece uma estrutura de prova de conceito para um sistema de avaliação ESG baseado em redes sociais. Este trabalho pode servir como lógica de back-end para um produto ESG de sentimento social que pode eventualmente ser usado por executivos. Embora bibliotecas pré-empacotadas tenham sido utilizadas para fins de prototipagem, em trabalhos futuros, esses aspectos do projeto podem ser otimizados. Ao contrário dos quadros existentes que se baseiam em registos auto-relatados pelas empresas, os modelos propostos assumem uma visão mais equilibrada dos aspectos positivos e negativos do ESG da empresa. Em geral, isto pode ajudar a abordar uma verdade básica ESG que pode influenciar melhor as práticas da empresa para serem mais sustentáveis.
Este artigo está disponível no arxiv sob licença CC BY-NC-ND 4.0 DEED.