paint-brush
Si les données d'entraînement sont nulles, l'IA craint aussipar@mytiki
751 lectures
751 lectures

Si les données d'entraînement sont nulles, l'IA craint aussi

par mytiki.com5m2023/05/31
Read on Terminal Reader

Trop long; Pour lire

Beaucoup de données d'entraînement, c'est nul. Je n'ai pas trouvé la corrélation entre l'aspiration des données d'entraînement et les ventes de rasoirs Gillette, mais j'imagine qu'il y a quelque chose là-dedans. En plus de sucer, c'est cher.
featured image - Si les données d'entraînement sont nulles, l'IA craint aussi
mytiki.com HackerNoon profile picture
0-item
1-item
2-item

Un homme fait des compromis avec l'insomnie et sort du lit à 4h30. Le soleil est à quelques heures de faire ses débuts quotidiens, mais cela n'a pas d'importance pour cet homme. Il n'est pas nécessaire de se raser. Il ne l'a pas fait depuis quatre jours. Il allume immédiatement une cigarette - une cigarette roulée à la main d'origine inconnue (pour vous). Il tourne à la radio. L'éteint immédiatement. Ce moment mérite le silence. Se regarde dans le miroir. Nu. Buck nu. Regarde en lui-même. Au plus profond de lui-même. Il éteint la cigarette sur le dos de sa main et la jette dans les toilettes. Enfin, les mots qui crépitent dans son cerveau glissent sur ses lèvres dans un murmure exaspéré - "Nos données d'entraînement, c'est nul."


Et c'est cher aussi !


Écoutez, tout le monde et leur grand-mère savent que l'IA est énorme. Peut-être que votre grand-mère parle probablement plus à Snapchat AI qu'à vous. Quoi qu'il en soit, bien que l'IA fournisse certainement un facteur de divertissement, plus que tout, elle peut être carrément utile . Et les entreprises adoptent des initiatives d'IA à un rythme sans précédent. Je sais que le monde n'a pas besoin d'un autre blog sur la croissance de l'IA, mais je vais le mélanger dans une seconde.


Tout d'abord, comprenez ceci : en 1923, seulement 0 % des entreprises considéraient l'intelligence artificielle comme une priorité élevée pour leur organisation. Ouah. En 2020, 54 % des professionnels de l'informatique interrogés accordaient une grande priorité à l'IA. À la fin de 2022, ce nombre était passé à 69 % (agréable), soit une augmentation de 15 % en seulement deux ans.


Mais près de la moitié (47 %) des utilisateurs d'IA/ML ont commencé leurs initiatives au cours des deux dernières années et 78 % des personnes interrogées sont passées du stade de l'idéation à celui de l'exécution. Qu'est-ce que cela signifie? Statistiquement parlant, il y a beaucoup d'entreprises qui gèrent des programmes et des initiatives d'IA qui sont totalement novices dans le domaine et n'ont probablement aucune idée de ce qu'elles font. Quel pourcentage des 47 % sont ce vieux mème de chimiste pour chiens ? Eh bien, je ne peux pas répondre à votre place. Ce que je peux vous dire, c'est que le plus grand défi signalé dans les parcours IA/ML des entreprises est la pénurie de talents qualifiés (67 %), suivi de l'échec des algorithmes et des modèles (61 %). Lorsqu'il s'agit d'adopter l'IA, l'obstacle le plus signalé est le coût de la mise en œuvre. Et qu'est-ce qui absorbe la plus grande partie des budgets d'IA ? Recherche et mise en œuvre des données de formation, vérification à 13 % des budgets.


Beaucoup de données sont carrément mauvaises . Il n'est pas fiable, difficile à gérer et il est tout à fait possible que l'IA soit formée sur des données blanchies , ce qui signifie que les données utilisées pour former le modèle proviennent d'un autre modèle d'IA qui a déjà été formé sur des données sommaires. Criez à Olga Mack pour l'introduction à cette terminologie.


Donc, les données sont mauvaises, elles coûtent cher, cela pourrait être l'équivalent d'un t-shirt avec des fautes de frappe acheté dans un magasin d'aubaines (merci au t-shirt Nomar "Garciapara" Red Sox de mon ami), et un nombre gigantesque d'entreprises mettant en œuvre l'IA sont nouvelles et manquent de ressources et de talents pour faire fonctionner les choses, sans parler de les maintenir durables.


À cette fin, 87 % des cadres sont prêts à payer plus pour des données de formation de meilleure qualité , tandis que 66 % prévoient que leur besoin de données de formation ne fera qu'augmenter, contre 0 % d'entre eux qui prévoient qu'il diminuera. Il s'agit d'une augmentation de 0 % par rapport à mon enquête fictive de 1923.


Plus de chiffres vous dites ? Plus de numéros que vous recevrez. En 2022, les dépenses mondiales en intelligence artificielle s'élevaient à environ 118 milliards de dollars . D'ici 2026, ce chiffre devrait atteindre 300 milliards de dollars. 13 % de 300 milliards de dollars représentent… 39 milliards de dollars. Maintenant, je sais que ce n'est pas exactement comme ça que les statistiques fonctionnent, alors ne me grillez pas. Mais en bref : les dépenses mondiales en données de formation pour l'IA représentent une industrie de plusieurs milliards de dollars. Tenez compte du fait que 66 % de ces cadres s'attendent à ce que le besoin de données de formation augmente et 87 % sont prêts à dépenser plus pour des données de meilleure qualité alors... eh bien, vous avez compris.

Plus de facteurs

De plus, la capacité à obtenir des données fiables est bien plus difficile en 2023 qu'elle ne l'était par le passé. Les initiatives de confidentialité telles que GDPR et CCPA visent à protéger les données des consommateurs. Les principaux acteurs technologiques comme Google et Apple rendent de plus en plus difficile la collecte de données par des tiers. Les batailles juridiques en cours placent les données de formation à l'IA au premier plan, le sentiment populaire étant que le grattage des données Web pour former l'IA et la revendication d'une «utilisation équitable» risquent de devenir une chose du passé. Une comparaison appropriée pourrait être les retombées de Napster au début des années 2000. S'il était alors clairement évident que Napster était alimenté par le partage illégal de matériel protégé par le droit d'auteur et de propriété intellectuelle, une trajectoire similaire est quelque chose que les entreprises utilisant l'IA sont obligées d'envisager. Le sable peut filtrer à travers le sablier, et "À qui sonne le glas" de Metallica est susceptible de jouer pour ceux qui n'ont pas fait l'effort de pérenniser leurs initiatives d'IA.

Un nouveau Spotify

Alors, quelle est la solution? Eh bien, c'est compliqué. Mais des cendres de Napster, Kazaa et Limewire est né Spotify, qui a fonctionné sur le principe de construire quelque chose de "mieux que le piratage". Cela impliquait de conclure des accords avec des maisons de disques et des agences pour autoriser correctement le contenu diffusé sur les plateformes Spotify. La même chose est-elle possible pour l'IA ? Nous le pensons. 85 % des consommateurs échangeront des données contre des coupons ou des remises. Cela ouvre la voie à un modèle d'acquisition de données qui incite les utilisateurs à participer, générant de précieuses données de partie nulle qui peuvent être utilisées pour une multitude de choses, y compris la formation à l'IA. Nous avons conçu quelque chose pour autoriser les données de partie zéro, et même créé une fonctionnalité en partenariat avec Snowflake pour permettre aux entreprises de réinscrire les données de partie zéro sous licence. Basé sur le désir de données de formation de meilleure qualité, cela pourrait s'avérer être une opportunité gigantesque pour un flux de revenus supplémentaire qui peut également fidéliser la clientèle. Mais assez de trucs de marque. Vous pouvez en savoir plus ici .

En résumé…

Beaucoup de données d'entraînement, c'est nul. Je n'ai pas trouvé la corrélation entre l'aspiration des données d'entraînement et les ventes de rasoirs Gillette, mais j'imagine qu'il y a quelque chose là-dedans. En plus de sucer, c'est cher. De plus en plus d'entreprises consacrent du temps et des ressources à la mise en œuvre de l'IA, mais nombre d'entre elles sont nouvelles dans le jeu et manquent de l'équipe, de l'infrastructure et des données de qualité appropriées pour optimiser leurs initiatives. Les batailles juridiques ont jeté une clé dans les «anciennes méthodes» de recherche et de collecte de données de formation à l'IA, et les initiatives de confidentialité ont rendu de plus en plus difficile pour les entreprises la collecte des données nécessaires pour alimenter leur entreprise. En regardant vers des entreprises comme Spotify pour s'inspirer, il est connu qu'il est possible de surmonter l'aspect juridique. Compte tenu du sentiment des consommateurs sur le partage de données associé à un désir de plus de personnalisation et de personnalisation dans leurs expériences de marque, nous avons identifié un marché géant pour l'octroi de licences de données zéro partie pour la revente (parmi de nombreux autres cas d'utilisation). Hé, qu'est-ce que 13 % de 300 milliards de dollars ?


Écrit par Shane Faria, co-fondateur @TIKI