Dans son livre L’intelligence artificielle n’existe pas (First Editions), Luc Julia, cocréateur de Siri, l’assistant vocal d’Apple, et vice-président innovation de Samsung monde, raconte l’invention du ePrint d’une imprimante HP dans la Silicon Valley. Il écrit qu’il y avait 250 personnes sous ses ordres, une vingtaine à Salt Lake City, 10 à Portland, 10 à Boston, 10 à San Francisco et un peu de moins de 200 en Inde. Il décrit le travail de ses employés aux États-Unis, mais ne dit mot des quelques 200 en Inde. Que faisaient-ils donc?
La réponse se trouve dans le livre En Attendant les robots. Enquête sur le travail du clic (Seuil), d’Antonio A. Casilli. Il raconte que, très souvent, l’intelligence artificielle (IA) n’est pas ce robot intelligent qui collecte sur le web des informations qu’il restitue sous forme d’algorithme, mais des données collectées à la main par des centaines, des milliers, voire des millions de petites mains aux Philippines, en Afrique ou… en Inde !
Ces petites mains annotent des vidéos, trient des tweets, retranscrivent des documents scannés, répondent à des questionnaires en ligne, corrigent des valeurs dans une base de données, mettent en relation deux produits similaires dans un catalogue de vente en ligne, etc.
Ce microtravail peut aussi consister à lire une page web et noter toutes les adresses e-mail dans un fichier .txt; concocter une playlist de morceaux reggae; regarder une vidéo de quinze secondes et choisir trois mots pour la décrire; retranscrire le contenu d’un ticket de caisse à partir de la photo de celui-ci; identifier toutes les personnes cagoulées dans une séquence tournée par une caméra de surveillance; sélectionner les images de hot-dogs dans une série de dix images de produits alimentaires; à l’occasion d’un visionnage d’un film, prendre une capture écran d’un acteur hollywoodien exprimant de la peur ou du dégoût.
En fait, la supposée intelligence artificielle est moins intelligente qu’on le laisse croire. Luc Julia en donne un exemple éclairant. Pour qu’une machine reconnaisse un chat avec une précision de 95%, on a besoin d’environ 100 000 images de chats. C’est beaucoup plus qu’il en faut à un être humain pour reconnaître un chat. Les machines sont incapables de contextualiser. Si, lors de la phase d’apprentissage, on n’a pas fourni d’images de chats prises de nuit, il y a peu de chance que le système reconnaisse un chat dans la nuit.
Casilli décrit le fonctionnement d’Amazon Mechanical Turk, une filiale du géant Amazon, à partir de l’exemple d’une entreprise ayant scanné ses archives comptables des cinquante dernières années dont les logiciels de reconnaissance textuelle n’arriveraient qu’à interpréter que partiellement une masse de pages manuscrites. Pour corriger ce travail, il faudrait vingt ans à un salarié équipé d’un ordinateur, une année à vingt salariés, six mois à quarante stagiaires, et ainsi de suite. Sur Amazon Mechanical Turk, l’entreprise peut publier une annonce pour demander à 500 000 personnes de transcrire deux lignes chacune, et celui lui coûte infiniment moins cher que vingt ans de salaire.
Il arrive aussi qu’un contrôle des connaissances soit nécessaire. Par exemple, quelle est la traduction anglaise la plus adéquate du mot français « devoir »? Duty ou homework? Le contexte nous le dira, et les humains, au contraire des machines, excellent pour estimer le contexte. Ce sont eux, finalement, qui décident quel algorithme a donné la meilleure réponse.
Dans des cas semblables, les microtâches doivent être effectuées par des travailleuses et des travailleurs experts. Il en coûtera 5% de plus au client. Si on veut qu’elles soient exécutées par des segments précis de la population, il devra choisir entre 132 critères de sélection : âge, sexe, formation, langue, etc.
Cela pourrait être le cas des 200 000 microtâcherons de la firme Might AI d’IBM qui réalisent sur leurs mobiles des tâches consistant à écouter une conversation et à la caractériser (la langue, le sujet, les interlocuteurs) ou à regarder l’image d’un paysage pour en donner les diverses composantes (des nuages, une montagne, un lac, etc.)
Il y a également toute l’industrie des faux followers regroupés dans des « fermes à clic », chargés de produire des vagues de trafic pour lancer des campagnes marketing, de propagande politique ou de rumeurs. En 2013, la vente de faux followers sur Twitter représentait un chiffre d’affaires de 360 millions $, alors que, sur Facebook, les faux clics auraient généré 200 millions $ par an.
Selon Antoine A. Casilli, certaines « fermes à clic » lisent et partagent des contenus à longueur de journée, à des rythmes et dans des conditions bien souvent inacceptables, que certains n’hésitent pas à assimiler à de l’esclavage.
Au terme de son enquête sur le travail du clic, Casilli affirme qu’on assiste à une nouvelle division internationale du travail, encore plus inégalitaire, entre les pays du Nord et du Sud. Depuis le début des années 2000, la majorité des requérants du digital labor est concentrée aux États-Unis, au Canada, en Australie, en France et au Royaume-Uni, tandis que l’essentiel des exécutants de microtâches et les prestataires de clics microrénumérés résident aux Philippines, au Pakistan, en Inde, en Indonésie, au Bangladesh et en Roumanie, ainsi que dans d’autres pays d’Afrique et du Moyen-Orient.
Un des grands mérites de son livre est d’avoir mis en lumière l’existence de ces centaines de millions de microtâcherons et de leur exploitation éhontée. Plutôt qu’à la disparition programmée du travail, on assiste, explique-t-il, à son déplacement ou à sa dissimulation hors du champ de vision des citoyens, mais aussi des analystes et des décideurs politiques, prompts à adhérer aux beaux discours des capitalistes des plateformes.