{"id":2805,"date":"2021-09-01T17:33:35","date_gmt":"2021-09-01T12:03:35","guid":{"rendered":"https:\/\/www.datalabelify.com\/?p=2805"},"modified":"2023-11-03T11:50:39","modified_gmt":"2023-11-03T06:20:39","slug":"annotating-data-can-make-a-significant-impact","status":"publish","type":"post","link":"https:\/\/www.datalabelify.com\/fr\/lannotation-des-donnees-peut-avoir-un-impact-significatif\/","title":{"rendered":"Annoter des donn\u00e9es, aussi petites soient-elles, peut avoir un impact significatif"},"content":{"rendered":"<h5><em>Annoter des donn\u00e9es, aussi petites soient-elles, peut avoir un impact significatif<\/em><\/h5>\n<p>C&#039;est le <a href=\"https:\/\/www.datalabelify.com\/fr\/\">\u00e9l\u00e9ment cl\u00e9<\/a> dans l&#039;efficacit\u00e9 de tout mod\u00e8le d&#039;IA, car le seul moyen pour une IA de d\u00e9tection d&#039;image d&#039;identifier le visage sur une photographie est qu&#039;un grand nombre de photos \u00e9tiquet\u00e9es avec le mot \u00ab visage \u00bb soient \u00e9tiquet\u00e9es comme telles. S&#039;il n&#039;y a pas de donn\u00e9es annot\u00e9es, alors il n&#039;existe aucun mod\u00e8le d&#039;apprentissage automatique.<\/p>\n<p>&nbsp;<\/p>\n<h3>Quel est le but de l\u2019annotation des donn\u00e9es ?<\/h3>\n<p>L\u2019objectif principal des informations d\u2019annotation est de les \u00e9tiqueter. L&#039;\u00e9tiquetage des donn\u00e9es est l&#039;une des toutes premi\u00e8res \u00e9tapes de tout flux de donn\u00e9es. De plus, le processus d\u2019\u00e9tiquetage des donn\u00e9es aboutit g\u00e9n\u00e9ralement \u00e0 des donn\u00e9es plus rationalis\u00e9es ainsi qu\u2019\u00e0 des opportunit\u00e9s suppl\u00e9mentaires.<\/p>\n<p>Donn\u00e9es d&#039;\u00e9tiquetage<\/p>\n<p>Il est important de garder \u00e0 l\u2019esprit deux choses essentielles lors de l\u2019annotation d\u2019informations\u00a0:<\/p>\n<p><span style=\"text-decoration: underline;\"><strong>Donn\u00e9es<\/strong><\/span><\/p>\n<ul>\n<li>Une convention de nom coh\u00e9rente<\/li>\n<li>\u00c0 mesure que les projets de labellisation progressent, les conventions des labels vont probablement devenir plus complexes.<\/li>\n<\/ul>\n<p>Parfois, apr\u00e8s avoir pr\u00e9par\u00e9 un mod\u00e8le ML \u00e0 l&#039;aide de votre <a href=\"https:\/\/www.tesladigitalhq.com\/\" target=\"_blank\" rel=\"noopener\">donn\u00e9es<\/a> vous r\u00e9aliserez peut-\u00eatre que les conventions de d\u00e9nomination n&#039;\u00e9taient pas suffisantes pour produire le type de mod\u00e8le ML ou de pr\u00e9dictions que vous aviez en t\u00eate. Ensuite, vous devez retourner aux planches \u00e0 dessin et repenser les balises pour les donn\u00e9es.<\/p>\n<p><span style=\"text-decoration: underline;\"><strong>Nettoyer les donn\u00e9es<\/strong><\/span><\/p>\n<ul>\n<li>Des donn\u00e9es propres cr\u00e9ent des mod\u00e8les de ML plus fiables. Pour d\u00e9terminer si les donn\u00e9es sont exemptes de contamination\u00a0:<\/li>\n<li>Examinez les donn\u00e9es pour trouver des valeurs aberrantes.<\/li>\n<li>Testez les donn\u00e9es pour d\u00e9terminer s&#039;il existe des valeurs manquantes ou des valeurs non valides.<\/li>\n<li>Assurez-vous que les \u00e9tiquettes sont conformes aux conventions.<\/li>\n<\/ul>\n<p>L&#039;annotation est un moyen d&#039;am\u00e9liorer la qualit\u00e9 des donn\u00e9es. Cela pourrait combler les lacunes des donn\u00e9es l\u00e0 o\u00f9 elles existent. Lors de l&#039;exploration de l&#039;ensemble de donn\u00e9es, il est possible de d\u00e9couvrir des donn\u00e9es m\u00e9diocres ou des donn\u00e9es aberrantes. L&#039;annotation des donn\u00e9es pourrait \u00eatre utilis\u00e9e pour\u00a0:<\/p>\n<ul>\n<li>Les donn\u00e9es ne sont pas correctement \u00e9tiquet\u00e9es ou les donn\u00e9es comportent des \u00e9tiquettes manquantes.<\/li>\n<li>Rendre de nouvelles donn\u00e9es disponibles \u00e0 utiliser dans le mod\u00e8le ML \u00e0 utiliser<\/li>\n<\/ul>\n<p><span style=\"text-decoration: underline;\"><strong>Annotation humaine ou automatis\u00e9e<\/strong><\/span><\/p>\n<p>L&#039;annotation des donn\u00e9es peut \u00eatre co\u00fbteuse selon la m\u00e9thode utilis\u00e9e.<\/p>\n<p>Certains types de donn\u00e9es peuvent \u00eatre not\u00e9s ou, \u00e0 tout le moins, annot\u00e9s de mani\u00e8re automatis\u00e9e avec un certain degr\u00e9 de pr\u00e9cision. Par exemple, voici quelques exemples simples d\u2019annotation\u00a0:<\/p>\n<ul>\n<li>Recherchez une image d&#039;un cheval sur Google, puis t\u00e9l\u00e9chargez les 1 000 meilleures photos pour cr\u00e9er une image de cheval.<\/li>\n<li>Supprimer les sites m\u00e9diatiques pour tout le contenu sportif, puis \u00e9tiqueter les articles comme des articles sur le sport.<\/li>\n<li>Il est facile de collecter des informations sur les chevaux et les sports ; cependant, le degr\u00e9 d&#039;exactitude de ces donn\u00e9es n&#039;est pas connu avant une enqu\u00eate plus approfondie. Il est possible que certaines des photos de chevaux t\u00e9l\u00e9charg\u00e9es ne soient pas de vraies photos de chevaux, mais c&#039;est une possibilit\u00e9.<\/li>\n<\/ul>\n<p>L&#039;automatisation r\u00e9duit les co\u00fbts, mais peut compromettre la pr\u00e9cision. L&#039;annotation humaine co\u00fbte cher, mais elle est plus pr\u00e9cise.<\/p>\n<p>Les annotateurs de donn\u00e9es peuvent annoter les donn\u00e9es en fonction de l&#039;exactitude de leurs informations. S\u2019il s\u2019agit d\u2019une image d\u2019un cheval, les humains peuvent le v\u00e9rifier. Lorsque le sujet conna\u00eet bien les races de chevaux, les informations peuvent en outre \u00eatre ajout\u00e9es \u00e0 la race de cheval. Il est \u00e9galement possible de dessiner un contour de l&#039;image du cheval pour indiquer pr\u00e9cis\u00e9ment quels pixels appartiennent \u00e0 l&#039;image du cheval. Pour les articles sur le sport, il est possible de diviser l&#039;article en rapport de match, analyse sportive des joueurs, pronostics de match. Si les informations sont class\u00e9es exclusivement par sports alors le tag est moins pr\u00e9cis.<\/p>\n<p>En fin de compte, les donn\u00e9es sont annot\u00e9es pour\u00a0:<\/p>\n<ul>\n<li>Un certain degr\u00e9 de pr\u00e9cision<\/li>\n<li>Un certain degr\u00e9 de pr\u00e9cision<\/li>\n<li>Quel est le plus important ? Mais cela d\u00e9pend de la mani\u00e8re dont le probl\u00e8me d&#039;apprentissage automatique est d\u00e9termin\u00e9.<\/li>\n<\/ul>\n<p>Apprentissage humain dans la boucle<\/p>\n<p>En informatique, la mentalit\u00e9 \u00ab distribu\u00e9e \u00bb consiste \u00e0 diriger les emplois vers un seul endroit pour se d\u00e9barrasser d\u2019\u00e9normes quantit\u00e9s de travail empil\u00e9es sur un seul endroit. C&#039;est le cas de l&#039;architecture Kubernetes ainsi que des id\u00e9es d&#039;IA de pointe sur l&#039;infrastructure de traitement informatique, de l&#039;architecture des microservices et c&#039;est vrai pour l&#039;annotation des donn\u00e9es.<\/p>\n<p>L&#039;annotation des donn\u00e9es peut \u00eatre moins co\u00fbteuse et m\u00eame gratuite lorsque l&#039;annotation a lieu pendant la proc\u00e9dure de l&#039;utilisateur.<\/p>\n<p>C&#039;est un travail inint\u00e9ressant et ennuyeux pour un individu que d&#039;avoir la possibilit\u00e9 d&#039;\u00e9tiqueter des donn\u00e9es pendant des heures. Si l&#039;\u00e9tiquetage est naturel dans l&#039;exp\u00e9rience utilisateur, ou peut-\u00eatre occasionnellement par diverses personnes plut\u00f4t que par une seule personne, alors le travail peut \u00eatre effectu\u00e9 plus facilement et la possibilit\u00e9 de recevoir des annotations pourrait \u00eatre r\u00e9alisable.<\/p>\n<p>C&#039;est ce qu&#039;on appelle l&#039;humain dans la boucle (HITL) et c&#039;est g\u00e9n\u00e9ralement l&#039;une des fonctions d&#039;un mod\u00e8le d&#039;apprentissage automatique bien \u00e9tabli.<\/p>\n<p>Par exemple, Google a inclus HITL et l&#039;annotation de donn\u00e9es dans son application Google Docs. Lorsque l&#039;utilisateur clique sur le mot en utilisant la ligne ondul\u00e9e en dessous, puis s\u00e9lectionne un autre mot ou un mot dont l&#039;orthographe est corrig\u00e9e, Google Docs obtient un morceau de donn\u00e9es balis\u00e9 pour confirmer que le mot pr\u00e9dit est le remplacement correct du mot qui a le erreur.<\/p>\n<p>Google Docs a inclus ses utilisateurs dans le processus en introduisant une fonctionnalit\u00e9 simple de l&#039;application qui permet aux utilisateurs de recevoir des donn\u00e9es r\u00e9elles et des donn\u00e9es annot\u00e9es de ses utilisateurs.<\/p>\n<p>De cette mani\u00e8re, Google s&#039;approprie en quelque sorte son probl\u00e8me d&#039;annotation de donn\u00e9es et n&#039;a pas besoin d&#039;embaucher des \u00e9quipes de travailleurs qui restent assis \u00e0 leur bureau toute la journ\u00e9e \u00e0 lire la mauvaise orthographe des mots.<\/p>\n<p>Outils d&#039;aide \u00e0 l&#039;annotation des donn\u00e9es<\/p>\n<p>Les outils d&#039;annotation sont des instruments cr\u00e9\u00e9s pour faciliter l&#039;annotation de parties sp\u00e9cifiques de donn\u00e9es. Les types de donn\u00e9es qu&#039;ils peuvent accepter sont\u00a0:<\/p>\n<ul>\n<li>Texte<\/li>\n<li>Image<\/li>\n<li>l&#039;audio<\/li>\n<\/ul>\n<p>Le logiciel dispose g\u00e9n\u00e9ralement d&#039;une interface qui permet aux utilisateurs de faire facilement des annotations puis d&#039;exporter les donn\u00e9es dans diff\u00e9rents formats. Les donn\u00e9es export\u00e9es peuvent \u00eatre enregistr\u00e9es sous forme de fichier .CSV sous forme de document texte, de fichier photo, ou m\u00eame transformer les donn\u00e9es au format JSON sp\u00e9cifiquement adapt\u00e9 au standard utilis\u00e9 pour entra\u00eener les donn\u00e9es \u00e0 utiliser dans une Machine. Mod\u00e8le d&#039;apprentissage.<\/p>\n<p>Il existe deux outils largement utilis\u00e9s pour l&#039;annotation\u00a0:<\/p>\n<ul>\n<li>Prodige<\/li>\n<li>Studio d&#039;\u00e9tiquettes<\/li>\n<\/ul>\n<p>Cependant, ce n\u2019est pas la majorit\u00e9 d\u2019entre eux. Awesome-data-annotation est un r\u00e9f\u00e9rentiel Labelify avec une excellente liste d&#039;outils d&#039;annotation de donn\u00e9es \u00e0 utiliser.<\/p>\n<h3>L&#039;annotation des donn\u00e9es et son r\u00f4le dans l&#039;apprentissage automatique<\/h3>\n<ul>\n<li>L&#039;annotation de donn\u00e9es est un business<\/li>\n<li>L&#039;annotation des donn\u00e9es est vitale pour l&#039;IA et l&#039;apprentissage automatique et les deux ont apport\u00e9 une immense valeur \u00e0 l&#039;humanit\u00e9.<\/li>\n<\/ul>\n<p>Afin de continuer \u00e0 se d\u00e9velopper dans le secteur de l\u2019IA, davantage d\u2019experts en annotation de donn\u00e9es sont n\u00e9cessaires, et ils le seront pendant longtemps. L&#039;annotation de donn\u00e9es est une industrie en plein essor et devrait se d\u00e9velopper \u00e0 mesure que des ensembles de donn\u00e9es plus nombreux et plus riches sont n\u00e9cessaires pour r\u00e9soudre les probl\u00e8mes les plus complexes de l&#039;apprentissage automatique.<\/p>","protected":false},"excerpt":{"rendered":"<p>Annotating data, no matter how small, can make a significant impact It is the key element in the effectiveness for any AI model, as the only way for an image-detection AI to identify the face in a photograph is to have a large number of photos labeled with the word &#8220;face&#8221; have been tagged as [&hellip;]<\/p>","protected":false},"author":3,"featured_media":14340,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"inline_featured_image":false,"footnotes":""},"categories":[1,7,12,15],"tags":[],"class_list":["post-2805","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-annotation","category-image-annotation","category-image-segmentation","category-machine-learning"],"blocksy_meta":[],"featured_image_urls":{"full":["https:\/\/www.datalabelify.com\/wp-content\/uploads\/2021\/09\/Annotating-data.jpg",2240,1260,false],"thumbnail":["https:\/\/www.datalabelify.com\/wp-content\/uploads\/2021\/09\/Annotating-data-150x150.jpg",150,150,true],"medium":["https:\/\/www.datalabelify.com\/wp-content\/uploads\/2021\/09\/Annotating-data-300x169.jpg",300,169,true],"medium_large":["https:\/\/www.datalabelify.com\/wp-content\/uploads\/2021\/09\/Annotating-data-768x432.jpg",768,432,true],"large":["https:\/\/www.datalabelify.com\/wp-content\/uploads\/2021\/09\/Annotating-data-1024x576.jpg",1024,576,true],"1536x1536":["https:\/\/www.datalabelify.com\/wp-content\/uploads\/2021\/09\/Annotating-data-1536x864.jpg",1536,864,true],"2048x2048":["https:\/\/www.datalabelify.com\/wp-content\/uploads\/2021\/09\/Annotating-data-2048x1152.jpg",2048,1152,true],"trp-custom-language-flag":["https:\/\/www.datalabelify.com\/wp-content\/uploads\/2021\/09\/Annotating-data-18x10.jpg",18,10,true],"ultp_layout_landscape_large":["https:\/\/www.datalabelify.com\/wp-content\/uploads\/2021\/09\/Annotating-data-1200x800.jpg",1200,800,true],"ultp_layout_landscape":["https:\/\/www.datalabelify.com\/wp-content\/uploads\/2021\/09\/Annotating-data-870x570.jpg",870,570,true],"ultp_layout_portrait":["https:\/\/www.datalabelify.com\/wp-content\/uploads\/2021\/09\/Annotating-data-600x900.jpg",600,900,true],"ultp_layout_square":["https:\/\/www.datalabelify.com\/wp-content\/uploads\/2021\/09\/Annotating-data-600x600.jpg",600,600,true],"yarpp-thumbnail":["https:\/\/www.datalabelify.com\/wp-content\/uploads\/2021\/09\/Annotating-data-120x120.jpg",120,120,true]},"post_excerpt_stackable":"<p>Annotating data, no matter how small, can make a significant impact It is the key element in the effectiveness for any AI model, as the only way for an image-detection AI to identify the face in a photograph is to have a large number of photos labeled with the word &#8220;face&#8221; have been tagged as such. If there&#8217;s no annotated data, then there exists no model for machine-learning. &nbsp; What is the purpose of data annotation? The main purpose of annotation information is labeling it. Labeling data is one of the very first steps of every data flow. Additionally, the\u2026<\/p>\n","category_list":"<a href=\"https:\/\/www.datalabelify.com\/fr\/category\/annotation-de-donnees\/\" rel=\"category tag\">Data Annotation<\/a>, <a href=\"https:\/\/www.datalabelify.com\/fr\/category\/annotation-dimage\/\" rel=\"category tag\">Image Annotation<\/a>, <a href=\"https:\/\/www.datalabelify.com\/fr\/category\/segmentation-dimage\/\" rel=\"category tag\">Image Segmentation<\/a>, <a href=\"https:\/\/www.datalabelify.com\/fr\/category\/apprentissage-automatique\/\" rel=\"category tag\">Machine Learning<\/a>","author_info":{"name":"Parth P","url":"https:\/\/www.datalabelify.com\/fr\/author\/soeuidhae\/"},"comments_num":"0 comments","_links":{"self":[{"href":"https:\/\/www.datalabelify.com\/fr\/wp-json\/wp\/v2\/posts\/2805","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.datalabelify.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.datalabelify.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.datalabelify.com\/fr\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/www.datalabelify.com\/fr\/wp-json\/wp\/v2\/comments?post=2805"}],"version-history":[{"count":7,"href":"https:\/\/www.datalabelify.com\/fr\/wp-json\/wp\/v2\/posts\/2805\/revisions"}],"predecessor-version":[{"id":3108,"href":"https:\/\/www.datalabelify.com\/fr\/wp-json\/wp\/v2\/posts\/2805\/revisions\/3108"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.datalabelify.com\/fr\/wp-json\/wp\/v2\/media\/14340"}],"wp:attachment":[{"href":"https:\/\/www.datalabelify.com\/fr\/wp-json\/wp\/v2\/media?parent=2805"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.datalabelify.com\/fr\/wp-json\/wp\/v2\/categories?post=2805"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.datalabelify.com\/fr\/wp-json\/wp\/v2\/tags?post=2805"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}