La semaine dernière, le New York Times a rapporté que Google testait un outil d'IA qui permet aux organes de presse de créer du contenu à l'aide de l'IA. On ne sait pas quelles sont les capacités exactes du produit, mais sur la base d'un commentaire de Google, cela aide avec des tâches telles que les titres et la modification des styles d'écriture. Au milieu des craintes de l'impact que cela pourrait avoir sur les emplois des journalistes, Google a rapidement publié une déclaration de clarification :
Notre objectif est de donner aux journalistes le choix d'utiliser ces technologies émergentes d'une manière qui améliore leur travail et leur productivité. Tout simplement, ces outils ne sont pas destinés à, et ne peuvent pas, remplacer le rôle essentiel que jouent les journalistes dans le reportage, la création et la vérification des faits de leurs articles.
Cela a déclenché une conversation animée sur l'avenir des nouvelles avec l'IA générative. Les entreprises fabriquant des produits d'IA affirment que cette technologie permettra aux médias et aux journalistes d'être plus efficaces, tandis que les critiques affirment qu'elle pourrait potentiellement nuire aux emplois des journalistes, accroître la désinformation et inonder le marché de contenus générés par l'IA de mauvaise qualité.
Dans cet article, nous analysons l' impact de l'IA générative sur l'avenir de l'actualité en explorant quelques éléments :
Il existe plusieurs types de contenu d'information sur Internet, chacun avec différents niveaux de complexité dans leur production. La complexité découle généralement de facteurs tels que l'opportunité, la quantité de recherche requise et l'histoire racontée.
Nouvelles factuelles/données (par exemple, article répertoriant les taux hypothécaires à San Francisco, article avec les chiffres de l'appel sur les bénéfices d'une entreprise) - elles sont relativement simples avec un minimum d'opinions ou de perspectives subjectives.
Nouvelles basées sur les intérêts / informatives (par exemple, recettes d'été publiées sur NY Times Cooking, un article expliquant ce que signifie le taux d'intérêt de la Fed) - il y a une certaine créativité dans la sélection des sujets, mais l'accent est davantage mis sur l'information et répond à des intérêts spécifiques.
Dernières nouvelles (par exemple, un article sur la démission d'un PDG, un article décrivant un événement météorologique actif) - il s'agit généralement de courts articles sur un événement qui se déroule rapidement, avec des informations initiales limitées et des faits émergents.
Couverture de l'actualité (avec contexte, recherche et faits) - ceux-ci fournissent une explication plus détaillée de l'actualité étayée par des recherches, un contexte supplémentaire et souvent des entretiens avec des personnes, ce qui nécessite plus de temps et d'efforts pour être produit ; ils sont également largement vérifiés.
Nouvelles interprétatives - cela comprend des articles d'opinion, des éditoriaux et des analyses (comme celui-ci) qui fournissent des interprétations/perspectives/opinions sur des questions d'actualité ; ils sont souvent subjectifs et nécessitent des recherches approfondies pour étayer les perspectives.
Articles de fond - il s'agit généralement de plongées approfondies sur des sujets qui ne sont peut-être pas vraiment d'actualité en ce moment, mais des questions importantes, le journalisme d'investigation entrerait dans cette catégorie ; ceux-ci nécessitent des recherches approfondies et des entretiens s'étalant sur plusieurs mois, ainsi qu'une narration créative.
J'évoque cette catégorisation parce que le but et le processus impliqués dans la production de ces deux types d'articles sont très différents, et par conséquent évolueront différemment avec l'utilisation de l'IA générative. Dans cet esprit, parlons de la façon dont les nouvelles rapportent de l'argent.
Le secteur de l'actualité est délicat - la plupart des organes de presse fonctionnent sur un modèle de média financé par la publicité, et un petit sous-ensemble a réussi à basculer vers les abonnements. Cela a des implications majeures pour le type de contenu qu'un organe de presse produit.
Les entreprises d'actualités par abonnement (NYTimes tire désormais environ 70 % des revenus des abonnements) ont une stratégie de contenu directement liée à la valeur pour le consommateur : concentrez-vous sur un contenu de haute qualité + un contenu diversifié basé sur les intérêts pour rendre l'abonnement intéressant. Par exemple, parmi les types de contenu ci-dessus, NYT fait principalement une couverture de l'actualité (qui est bien documentée), des nouvelles interprétatives et des articles de fond pour leur offre de nouvelles de base, soutenue par un contenu basé sur les intérêts comme NYT Cooking et Wirecutter . Certaines autres publications comme le Wall Street Journal et le Washington Post ont fait des progrès avec les abonnements en utilisant une approche similaire.
Cependant, la plupart des publications sont toujours financées par la publicité et continueront de l'être dans un avenir prévisible. Cela signifie qu'ils se concentrent sur la génération d'un engagement élevé : plus de globes oculaires → plus d'inventaire publicitaire → plus de revenus. La stratégie qui a été la plus efficace pour eux consiste à augmenter le contenu à haute complexité (comme la couverture de l'actualité, les nouvelles interprétatives) avec une tonne de contenu à volume élevé et à faible complexité (comme les nouvelles factuelles/données, les nouvelles basées sur les intérêts/informatives).
Cette stratégie fonctionne parce que le contenu à haute complexité aide à offrir une valeur à long terme aux consommateurs, tandis que la tonne de contenu à faible complexité aide à attirer l'attention et à gagner le jeu du référencement . La boucle SEO ressemble à quelque chose comme : un volume élevé de contenu qui obtient des clics → les moteurs de recherche pensent que votre contenu est précieux → tout votre contenu est mieux classé → plus de globes oculaires.
Ce n'est pas une critique de la stratégie et la nécessité de jouer le jeu du référencement est une nécessité pour les médias financés par la publicité. La réalité est que les médias d'information sont une entreprise terrible - Internet a perturbé la façon dont le contenu a été créé et distribué (principalement via Google Search / Meta aujourd'hui), et les organes de presse ne se sont pas remis de l'impact de cette perturbation. Il y a des tentatives pour corriger le déséquilibre, qui évoluent encore : le Canada et l'Australie ont adopté des lois qui obligent Google/Meta à payer ce qui est essentiellement une « taxe perturbatrice » pour soutenir le bon journalisme, certaines organisations comme NPR sont partiellement soutenues par un financement fédéral et d'autres des journaux comme le Washington Post sont subventionnés par des milliardaires (généralement bien intentionnés) .
Tout cela pour dire que les médias d'information/journalisme sont un service public absolument essentiel pour une démocratie qui fonctionne bien, mais une entreprise pas si formidable. Par conséquent, plus ces entreprises de presse peuvent être autonomes (sans avoir à dépendre de la réglementation ou des milliardaires), plus elles peuvent être efficaces pour accomplir leur mission. L'IA générative ne peut pas résoudre tous ces défis structurels (en particulier la distribution de contenu), mais elle peut certainement rendre la création de contenu plus efficace sans nécessairement compromettre la qualité.
Pour comprendre sur quelle partie de la production de nouvelles l'IA générative aura le plus d'impact, il est utile de comprendre les différentes étapes nécessaires à la publication d'un article de presse.
Nous pouvons décomposer l'effort en quelques éléments séquentiels :
Sur la base de certaines recherches et également influencé par mon expérience d'écriture, j'estime l'effort de production d'un article en quelque chose comme : Recherche (30 %), Narration (20 %), Écriture (20 %), Édition (20 %) et Distribution (10%) . Prenez les chiffres réels avec un grain de sel, mais ils sont précis dans la direction.
Maintenant, notez que tous les formats d'articles de presse ne nécessitent pas toutes les étapes - les articles à faible complexité n'ont peut-être pas besoin de passer rigoureusement par toutes les étapes du cycle de vie ci-dessus, mais les articles à haute complexité le font.
Par exemple, cet article m'a pris environ 8 à 9 heures pour terminer (tout comme la plupart des autres articles de ma newsletter Substack ), et j'aimerais penser que mes articles relèvent de l'actualité interprétative. Si j'écrivais un article peu complexe, je pourrais probablement le faire en environ 2 heures. Un autre point de données - ce journaliste du NYT dit qu'il peut généralement rédiger un article de presse en quelques heures, tandis qu'un article de fond peut prendre jusqu'à 6 mois.
Alors, à quoi l'IA générative peut-elle réellement aider ? Il s'agit essentiellement de savoir quelles étapes du processus de production de nouvelles peuvent bien réussir les produits actuels (et futurs).
Voici mon avis sur chaque étape. Spoiler - ils sont quelque peu efficaces pour l'écriture et l'édition, ils peuvent être efficaces pour la recherche si les bons produits sont construits, et ils continueront à être mauvais pour la narration.
La plupart des produits d'IA générative actuels (comme ChatGPT et Google Bard) ont une capacité étonnamment faible en matière de recherche :
Il y a certainement certaines capacités pour lesquelles ils sont bons. Par exemple, ils sont bons pour donner des arguments pour un point de vue particulier ou pour inspirer de nouveaux sujets.
Ils sont moyens à bons pour résumer le contenu et en particulier pour répondre aux questions basées sur la lecture d'un article. Par exemple, vous pouvez leur demander de lire cet article et d'énumérer les différentes étapes impliquées dans la production de nouvelles.
Cependant, ils produisent souvent des informations factuellement incorrectes ("hallucinations"), ne fournissent pas de liens/sources vers ce qu'ils prétendent être la vérité et ont des données dont la source est douteuse avec une violation potentielle du droit d'auteur. Voir la capture d'écran ci-dessous.
Pour un cas d'utilisation générique (par exemple, vous souhaitez rédiger un e-mail pour une future connexion LinkedIn), ces problèmes n'ont pas d'importance. Mais lorsque vous écrivez un article de presse, ne pas vérifier les faits peut gravement nuire à la perception de votre marque.
Bien que les outils de recherche puissent être utilisés pour des recherches utiles sur le plan directionnel (par exemple, vous voulez savoir quelle part de marché Bing et Yahoo recherche ont), les écrivains/journalistes doivent encore faire un travail supplémentaire pour trouver une nouvelle source à lier parce que les outils actuels ni fournir des liens ni disposer de données totalement exactes.
Utiliser des données provenant de sources propres + être en mesure de fournir des réponses avec des liens fiables est une grande opportunité pour quiconque crée un produit de recherche pour les écrivains, et il est très probable que de nouvelles entreprises émergeront ici.
Les capacités de narration de l'IA générative sont assez faibles aujourd'hui. Voici un exemple : j'ai fait un tas de recherches pour cet article, j'ai rassemblé la recherche dans un format organisé et j'ai demandé à ChatGPT de me donner un scénario. Voir la capture d'écran ci-dessous pour les résultats.
À première vue, on dirait qu'ils « ont du sens ». Mais c'est littéralement tout ce que c'est - cela a du sens à un niveau superficiel. En réalité, aucun de ces scénarios n'est très convaincant et les notes de recherche que j'ai fournies contenaient beaucoup plus de détails et de nuances au-delà des résultats de surface fournis ici. Vous pouvez faire valoir que ceux-ci sont toujours décents, mais dans le contexte de la rédaction d'un article, cela m'était complètement inutile - au mieux, c'était de l'inspiration / des idées, pas un scénario basé sur les recherches que j'ai soumises.
Si vous avez une histoire peu complexe, elle fera le travail pour vous. Si vous construisez une histoire nuancée, ou si vous disposez des données et avez besoin d'aide pour construire une histoire, les produits actuels ne font pas le travail. Compte tenu de la grande part de subjectivité impliquée, je ne suis pas optimiste, cela ira mieux et cela continuera d'être la partie où les écrivains peuvent ajouter le plus de valeur.
Si vous fournissez aux produits actuels un scénario détaillé de ce que vous voulez dire, cela peut générer une v1 à peine décente du contenu. La sortie est encore assez simple et il est assez difficile d'instruire les modèles actuels pour créer le langage de manière à ce qu'il raconte une histoire. Voir la capture d'écran pour un exemple de sortie après avoir fourni des notes détaillées à ChatGPT sur le scénario de cet article.
À première vue, vous pourriez penser que cela semble correct pour un brouillon v1. Ce n'est pas le cas - le ton n'est pas juste, l'histoire ne coule pas et on dirait toujours qu'elle a été écrite par un bot. C'est très générique et n'articule pas l'histoire bien qu'il soit nourri d'un récit très spécifique. Si je publiais cet article, vous ne le liriez pas. Et c'est le défi avec la capacité d'écriture aujourd'hui - cela peut fonctionner pour des articles peu complexes, mais pour tout ce qui est plus complexe, vous devez essentiellement réécrire tout le brouillon.
Le gros déblocage de produit ici permettrait une instruction humaine efficace - les écrivains ne veulent pas prendre de terribles versions à l'emporte-pièce et refaire le tout ligne par ligne. Ce qu'ils aimeraient, c'est une forme de construction d'interaction utilisateur qui permette à un rédacteur d'alimenter un scénario et de rédiger séquentiellement l'article section par section, tout en donnant un retour actif à l'outil d'IA. La cerise sur le gâteau serait de pouvoir personnaliser le style d'écriture en alimentant des articles antérieurs écrits par le même écrivain.
Je pense que les modèles sous-jacents ont aujourd'hui la capacité de le faire et qu'il y a un besoin d'innovation au niveau de l'interface utilisateur , ce qui, je pense, se produira à court terme.
Les outils d'aujourd'hui ont une bonne capacité de révision d'articles, de recherche d'erreurs et de corrections. Ces outils sont également très bons pour les tâches cosmétiques, comme proposer des idées de titres accrocheurs ou des titres de section qui pourraient bien fonctionner.
Cependant, il reste encore du travail à faire au niveau de l'interface utilisateur pour le rendre utilisable pour l'édition - il existe aujourd'hui des solutions partielles comme Notion AI qui vous permet d'améliorer le langage et de raccourcir / allonger les phrases à partir d'une page Notion, mais cela ne capture pas le contexte complet de la page. ChatGPT fait un bon travail pour apporter des modifications à un article complet, mais n'a pas la capacité de prendre des instructions pour modifier facilement des sections spécifiques et ne peut pas non plus prendre en charge les liens (c'est-à-dire que je lui donne un texte de présentation avec du texte contenant des hyperliens, je récupère du texte sans aucun lien) .
Je déteste absolument la partie édition du processus d'écriture, et je suis sûr que plusieurs écrivains et journalistes le font aussi - l'IA générative peut très certainement minimiser une partie de ce travail d'édition à court terme.
Il existe des outils qui arrivent ici aujourd'hui qui, par exemple, vous aident à générer des extraits sociaux ou à identifier les parties de votre histoire qui pourraient devenir plus virales. Cela continuera probablement à s'améliorer à l'avenir.
Sur la base de l'analyse ci-dessus, vous pouvez voir émerger une dualité claire :
Les formats peu complexes , qui nécessitent une recherche et une narration plus simples, et peuvent être écrits et édités facilement, commenceront à être de plus en plus générés par l'IA (ou fortement assistés par l'IA).
Les formats très complexes , qui nécessitent des capacités de recherche et de narration plus complexes qui n'existent pas aujourd'hui, continueront d'être principalement créés par des journalistes, mais l'IA générative peut apporter une bonne dose d' efficacité en minimisant le travail d'écriture et d'édition.
Bien que le contenu peu complexe généré par l'IA semble mauvais à première vue, ces articles sont principalement écrits à des fins de référencement ou pour augmenter le contenu de haute qualité existant, et la course à la banalisation avait commencé bien avant la vague générative de l'IA. Par exemple, l'Associated Press utilise des bots pour publier des articles rapportant les revenus de l'entreprise depuis 2014. L'avantage ici - ce n'est pas le genre de contenu que les journalistes veulent passer du temps à créer et l'automatisation de cela libérera leur temps pour un contenu très complexe.
De plus en plus de contenu hautement complexe émergera. Les capacités de recherche et de narration des produits sont aujourd'hui limitées, ce qui signifie que la capacité à construire une histoire captivante basée sur des informations et à raconter d'une manière unique continuera d'être la plus grande devise des journalistes . Ceci, accéléré par les outils d'écriture et d'édition de l'IA qui simplifient la publication de contenu de qualité, sera une aubaine pour les journalistes.
Qu'en est-il de certaines des préoccupations soulevées concernant l'utilisation de l'IA pour les actualités ? Certains sont justes mais je crois qu'ils sont pour la plupart solubles:
Une vague de contenu SEO indésirable - Google a pris la position de ne pas pénaliser le contenu généré par l'IA et a été critiqué pour avoir ouvert un monde de contenu indésirable, y compris des articles factuellement incorrects. C'est une critique assez juste, mais je pense que Google va sévir contre cela - pas par bonté de cœur, mais parce que l'essentiel d'un produit de recherche est de donner aux utilisateurs des résultats utiles. Google prévoit déjà des sanctions pour les pratiques de piratage SEO (comme le bourrage de mots clés et l'agriculture de liens) et il serait facile d'étendre ce cadre au contenu de l'IA.
Les journalistes perdront leur emploi — Certains ont exprimé la crainte que les journalistes ne perdent leur emploi ou ne soient dans une position moins avantageuse (comme les écrivains à Hollywood qui sont actuellement en grève) ; la grande différence ici est que bien qu'il y ait un grand nombre d'écrivains à Hollywood, l'emploi dans les salles de rédaction aux États-Unis a chuté de 26 % depuis 2008, non pas parce que nous n'avons pas besoin de journalistes, mais parce que l'information est une mauvaise affaire ; L'IA générative peut aider à améliorer l'économie de l'entreprise tout en continuant à donner aux journalistes les moyens de faire ce qu'ils aiment.
Je ne suis en aucun cas un maximaliste de l'IA et je pense absolument qu'il existe des risques réels pour l'IA qui doivent être pris en compte à mesure que nous développons la technologie. Cependant, je pense qu'il est important d'analyser chaque marché/situation touchés par l'IA séparément et de ne pas les regrouper en un seul gros problème d'impact de l'IA.
Dans le cas des nouvelles, l'IA générative peut considérablement améliorer l'économie des entreprises de presse. Les produits ne sont pas là aujourd'hui - il y a un besoin évident de produits d'IA qui résolvent de manière réfléchie les besoins des écrivains sans une interface de modèle de langage basée sur la force brute, basée sur le chat, mais je suis convaincu qu'ils émergeront à court terme.
L'écriture de faible complexité sera de plus en plus générée par l'IA et ce n'est pas grave - cela peut aider les entreprises à gérer une machine de référencement efficace, tandis que les journalistes (assistés par l'IA pour le travail de grognement) donnent vie à un contenu beaucoup plus complexe qui élève le discours public.
Merci pour la lecture!
Publié à l'origine ici.