Données, modèles et apprentissage

L’apprentissage est associé à l’acquisition et à la modification de connaissances et à la transformation de compétences et d’aptitudes, de comportements et de valeurs. Cette notion peut s’étendre à des domaines aussi variés que l’apprentissage humain, animal, ou encore celui relevant des systèmes artificiels, comme l’intelligence artificielle (IA) et l’apprentissage automatique. Dans ce dernier domaine, l’apprentissage comme processus d’acquisition de connaissances est indissociable de trois aspects majeurs : l’extraction de connaissances, l’exploration de données et le mécanisme propre à l’apprentissage automatique.

Traitement des données et extraction de connaissances d’information

Les sources de la connaissance sont principalement le résultat d’informations acquises soit par l’expérience, soit par la formation. L’extraction de connaissances se conçoit comme un processus systématique d’identification de modèles qui sont à la fois valides, nouveaux, utiles et compréhensibles, à partir de bases de données. La valeur des données informatives n’est pertinente qu’a posteriori, à la lumière des connaissances qu’elles fournissent.

Le traitement des données informatives s’appuie sur une méthodologie procédurale dont l’application permet d’obtenir des connaissances à partir des caractéristiques informatives contenues dans les données. Cette extraction s’effectue en suivant une méthodologie spécifique qui peut être décomposée en trois étapes essentielles :

  • Le prétraitement de l’information : qui consiste en la préparation et le nettoyage des données.
  • L’extraction de modèles : identification et sélection des structures pertinentes dans les données.
  • Le post-traitement ou l’évaluation des connaissances : évaluation et validation des modèles extraits pour en vérifier la pertinence et l’utilité.

Il convient de souligner que ce schéma méthodologique n’est pas strictement linéaire. En effet, il est souvent nécessaire de revenir à des étapes antérieures pour affiner les modèles, une caractéristique qui augmente le temps nécessaire pour arriver à des conclusions mais qui améliore la qualité des résultats obtenus.

Le résultat d’une étape ne doit pas nécessairement conduire à l’étape suivante, puisqu’il existe une possibilité de rétroaction avec une étape antérieure, avec la possibilité de modifier l’une ou l’autre, ou les deux. Cette caractéristique peut permettre d’améliorer les résultats et la qualité des modèles ou des schémas identifiés, bien qu’elle soit coûteuse en termes de temps ou d’indétermination des résultats. La représentation proposée n’épuise pas l’interactivité possible. Le risque maximal est un blocage et la paralysie de la procédure.

L’interactivité du processus d’extraction des connaissances

L’interactivité du processus d’extraction des connaissances découle de la possibilité pour l’utilisateur de déterminer les modes d’action dans chacune des étapes. La validité des modèles obtenus, l’étude de leur utilité et les orientations futures dépendent de l’interactivité du processus avec l’utilisateur.

L’établissement de différentes interactions et d’itinéraires de va-et-vient peut constituer des sources importantes de nouvelles connaissances. Les nouvelles connaissances peuvent provenir de nouvelles sources de données d’information, mais aussi d’une approche ou d’une modélisation différente de données d’information déjà disponibles. Le prétraitement est donc une étape extrêmement importante. Le traitement des données avant d’essayer d’en extraire des modèles n’est pas une étape sans conséquences pour la génération de connaissances. Au contraire, la manière dont les données informatives sont organisées peut être cruciale pour la génération de connaissances.

Exploration de Données et Défis de la Modélisation

L’exploration de données repose sur l’établissement de modèles. Or, il est crucial de comprendre que l’établissement de ces modèles est une étape fondamentale, mais peut également introduire des biais dans l’organisation des données. Ces biais peuvent à la fois faciliter et entraver l’acquisition de nouvelles connaissances. le modèle lui-même peut apparaître comme un obstacle à l’acquisition de nouvelles connaissances et, partant, comme une impossibilité de comprendre correctement les informations. Le modèle peut induire des biais dans l’organisation des données et rendre difficile l’élargissement des connaissances. La question de la modélisation est donc délicate.

Cependant, nous avons toujours besoin de modéliser les données, en particulier lorsqu’elles sont nombreuses. La modélisation peut être aprioristique ou nous pouvons essayer de la faire émerger des données elles-mêmes (bien que cela soit difficile). Dans ce contexte, l’automatisation du processus de modélisation devient particulièrement pertinente L’augmentation de la quantité de données donne une grande importance au data mining, dont l’objectif est d’extraire des informations de l’ensemble des données afin de les transformer en une structure compréhensible en vue d’une utilisation ultérieure. Cependant, comme nous l’avons dit, la structuration n’apparaît pas seulement a posteriori, mais aussi avant (consciemment ou inconsciemment).

L’Impact de l’Apprentissage Automatique

L’apprentissage automatique joue un rôle capital dans la reformulation des données en modèles conceptuels, ce qui facilite non seulement l’acquisition mais aussi la compréhension des connaissances. Dans ce domaine, la possibilité de détecter des éléments nouveaux ou inattendus revêt une importance particulière, étendant ainsi notre base de connaissances existante.

Apprentissage Progressif et Évaluation des Modèles

L’apprentissage progressif se caractérise par sa capacité à intégrer les informations fournies par de nouvelles expériences dans un modèle ou un schéma existant. Il contribue également à l’évolution de ce modèle inductif. Les nouvelles informations peuvent facilement s’articuler avec le modèle préexistant en manifestant une séquentialité. Mais elle peut aussi entraîner des changements significatifs dans le modèle et le modifier radicalement. Deux situations se présentent : l’apprentissage séquentiel et l’apprentissage temporel par lots. Ce dernier se caractérise par la destruction du modèle induit à chaque fois que de nouvelles expériences arrivent, dont l’incorporation nécessite des changements significatifs dans le modèle. En ce sens, il n’y a pas d’évolution incrémentale du modèle dans lequel les informations provenant de nouvelles expériences sont intégrées. Les besoins en mémoire ne dépendent pas du nombre d’expériences dans l’ensemble de données, mais de la structure induite.

  • L’apprentissage progressif est défini par sa faculté à intégrer continuellement de nouvelles données ou expériences dans un modèle préexistant. Deux situations peuvent alors se présenter :
  • L’apprentissage séquentiel : où les nouvelles données sont intégrées graduellement sans remettre en cause la structure du modèle.
  • L’apprentissage par lots : qui implique une révision complète du modèle existant chaque fois que de nouvelles données significatives sont ajoutées.

 

Esta entrada ha sido publicada en Aprendizaje, Formation y etiquetada como , , . Guarda el enlace permanente.