![]() |
Cartes auto-organisatrices et perception musicaleL’utilisation des réseaux de neurones dans le champ des neurosciences constitue un outil puissant pouvant aider à la compréhension des mécanismes neuronaux sous-tendants une fonction cognitive précise, à condition que son emploi reste pertinent face au problème posé. Nous verrons au cours de ce bref exposé quelles peuvent être les applications de réseaux de neurones tels que les cartes auto-organisatrices (Self-Organizing Maps ou SOM) dans la compréhension des mécanismes neuronaux impliqués dans la perception musicale chez l’homme. Dans un premier temps nous aborderons les principes de base régissant le fonctionnement de ces réseaux de neurones puis nous nous appuierons sur une étude de Tillmann et al. (2000) pour illustrer l’apport de ces modèles connexionnistes à la compréhension des phénomènes biologiques. Nous verrons alors comment un modèle mathématique peut rendre compte de mécanismes a priori complexes tels que la perception musicale. Les modèles de réseaux de neurones sont nombreux, possédant chacun une philosophie propre se traduisant par des architectures et des algorithmes différents (réseaux récurrents, apprentissages supervisés, etc.). Le réalisme neurobiologique sous-jacent à ces différents modèles ne constitue pas la contrainte prioritaire, néanmoins, les cartes auto-organisatrices inventées par Teuvo Kohonen (Kohonen, 1995) possèdent comme atout majeur d’être directement inspirées de l’organisation topologique de certaines structures neuronales. 1 Cartes topologiques auto-organisatricesEn effet, les cartes auto-organisatrices (encore appelées cartes de Kohonen) sont des réseaux de neurones directement inspirés de la biologie, plus particulièrement de l’organisation neuro-anatomique des projections des aires primaires sensorielles du cortex. Teuvo Kohonen s’est appuyé sur ces constatations neurobiologiques pour argumenter en faveur du bio-réalisme de son modèle. L’organisation topologique des aires sensorielles primaires se définit sur la base de la conservation des relations logiques entre d’une part les entrées issues de l’espace de perception (le monde physique) et d’autre part leur représentation au sein des aires sensorielles primaires (le monde représenté). Autrement dit, ‘les terminaisons perceptives (visuelles, auditives, tactiles) se répartissent sur des zones du cortex, telles que des stimulations voisines dans l’espace de perception se trouvent projetées au voisinage l’une de l’autre dans ces zones.’ (Weinfeld, 1995). Les SOM sont typiquement des réseaux de neurones à apprentissage non-supervisé, c’est-à-dire pour lesquels il n’existe aucune information explicite fournie au système sur la manière d’organiser ces différentes données dans les représentations graphiques (la plupart du temps bidimensionnelles) produites par ces modèles. En général, pour les réseaux de neurones, les capacités de classification des stimuli d’entrée reposent essentiellement sur des règles algorithmiques régissant la nature et la force (les poids) des connexions synaptiques entre les neurones de la couche d’entrée (ceux recevant les entrées sensorielles) et les neurones des couches supérieures (opérant les premières étapes de classification). Intéressons nous maintenant aux mécanismes d’apprentissage utilisés pour les cartes auto-organisatrices. Notre exemple sera basé sur une carte en deux dimensions, de forme rectangulaire, disposant de N neurones chacun relié aux M entrées. Les différentes composantes du réseau sont caractérisées par deux dimensions qui prennent la forme d’un vecteur. Les vecteurs de poids définissent la force des différentes connexions au sein du réseau et s’écrivent de la manière suivante, pour chaque neurone i : Wi = [Wi1,...,WiM]T. Les vecteurs d’entrée définissent quant à eux les stimuli présentés à l’entrée du réseau et s’écrivent comme suit : I = [I1,...,IM].
Pour résumer, du fait de l’absence de superviseur, l’exploitation du système ne peut se faire qu’après une longue étape d’apprentissage. Les stimuli sont ainsi présentés au réseau de nombreuses fois de manière à ce que les vecteurs de poids approchent progressivement les vecteurs d’entrée. La nature des relations entre les différents neurones des différentes couches s’affinent au cours du temps jusqu’à ce que l’ensemble des connexions du réseau atteignent un équilibre. Une fois le réseau stabilisé la présentation d’un stimulus particulier entraînera l’activation du neurone dont le vecteur de poids se rapproche le plus du vecteur d’entrée. Nous pouvons alors tester les capacités du réseau et observer les solutions proposées pour différents contextes expérimentaux. 2 Modèles de la perception musicaleUne faculté comme le langage possède une structure précise obéissant à des règles grammaticales. Il en va de même pour la musique. Dans les deux cas, l’agencement séquentiel des différents éléments de ces systèmes détermine une signification particulière. Dans le cas de la musique occidentale, ces règles déterminent les relations existantes entre les trois niveaux fondamentaux musicaux que sont les notes, les accords et les clefs. Le premier niveau est composé d’un
ensemble de 12 notes (C, C Pour introduire un degré supplémentaire de subtilité dans l’expression musicale, les notes peuvent être combinées entre elles par sous-sensemble de 7 pour former ce que l’on appelle les échelles diatoniques. Les notes composant ces échelles sont alors appelées degrés. Suivant les intervalles séparant chaque degré, les échelles peuvent s’écrire selon un mode mineur ou bien un mode Majeur. C’est à partir de ces deux types d’échelle diatonique que l’on peut distinguer les clefs mineures des clefs Majeures. Une autre distinction porte sur les accords, par exemple au sein d’une clef Majeure, les accords construits sur des degrés particuliers tels que le premier (aussi appelé tonique), le quatrième et le cinquième degrés (I, IV et V) sont dits accords Majeurs, tandis que ceux construits sur les second, troisième et sixième degrés (ii, iii, vi) sont dits mineurs. Comme nous le disions un peu plus haut, l’enchaînement de ces différents accords peut donner une signification particulière à l’ensemble musical, par exemple, un accord dominant (accord construit sur le cinquième degré de l’échelle diatonique) suivi d’un accord tonique (accord construit sur le premier degré) à l’intérieur d’une même clef, marque la fin d’une pièce musicale. Autre exemple, un accord sous-dominant (construit sur le quatrième degré) suivi d’un accord dominant marque une fin temporaire, comme si le motif général n’était pas tout à fait exposé. D’un point de vue
psycho-acoustique,
certaines clefs semblent plus proches que d’autres ;
les transitions entre clefs peuvent paraître plus ou moins
cohérentes. Ceci s’explique par le fait que certaines clefs
présentent des caractéristiques communes, comme par exemple la clef
de C Majeur, qui partage avec la clef de G Majeur 4 accords et 6
notes, avec D Majeur, 2 accords et 5 notes, et enfin avec F Autre phénomène qu’il est important de noter, à l’intérieur d’une même clef musicale, les notes qui la composent ont statistiquement plus de chances d’apparaître relativement proches dans le temps que n’importe quelle autre note appartenant à une autre clef. Tous ces éléments pris dans leur ensemble font qu’il est possible de prédire ou de juger de la cohérence d’une pièce musicale. Le modèle de Tillmann et al. (2000) a donc pour but dans un premier temps d’apprendre les règles grammaticales propres à la musique occidentale (phase d’apprentissage), puis dans un deuxième temps, de présenter des résultats proches de ceux observés chez l’homme en neuropsychologie (phase d’exploitation du réseau). Le modèle repose sur l’implémentation des différents niveaux d’organisation que nous avons vus précédemment, chacun d’entre eux étant représenté par une couche bidimensionnelle dans le réseau de neurones. La couche d’entrée représente les 12 notes de base, chacune connectée aux différents accords représentés eux mêmes sur deux autres couches (une pour les accords mineurs, une autre pour les accords Majeurs). Une quatrième et dernière couche représente les clefs. A l’exception des accords (distinction entre mineur et Majeur) les trois principaux niveaux d’organisation musicaux sont représentés par trois couches de neurones. Comme nous l’avons vu précedemment, c’est durant la phase d’apprentissage que les relations entre les neurones des différentes couches sont déterminées. Au cours de cette étape, la présentation séquentielle de différents stimuli (par exemple une suite d’accords) entraîne dans un premier temps l’activation des neurones représentant les différentes notes qui composent l’accord en question, cette activation entraînant à son tour l’activation des neurones représentant l’accord et par la suite l’activation des neurones représentant la clef à laquelle appartient la suite d’accords. Lorsque le réseau atteint un équilibre, la simple présentation d’une suite d’accord entraîne l’activation des neurones clefs susceptibles de correspondre à la clef réelle à laquelle appartient la suite d’accords. A partir d’une suite d’accord minimum, le réseau est ainsi capable de prédire quelle est la clef d’appartenance de ces différents accords et donc de prédire la suite d’accords potentiellement acceptable pour assurer une harmonie. Première constation : Le modèle est capable d’apprendre de manière implicite les règles de hiérarchisation de la musique occidentale sans aucune intervention extérieure, simplement sur la base des probabilités statistiques d’occurence entre les unités représentant les notes, accords et clefs. Ainsi, les accords qui ne possèdent aucune note en commun ne sont pas représentés par des unités voisines. Dans le même esprit, les unités représentant les clefs se retrouvent organisées de manière à reproduire une topologie similaire à celle du cycle des quintes, c’est-à-dire que les clefs ayant en commun certains accords et certaines notes se trouvent spatialement proches sur la carte. Deuxième constation : Ce même modèle rend compte de nombreux résultats neuropsychologiques observés chez l’homme. Par exemple, le réseau est capable d’inférer la clef correcte à laquelle appartient une suite d’accords sans que l’accord tonique, l’accord le plus déterminant dans l’identification d’une clef, n’ait été présenté (perception des clefs musicales et de leur modulation au cours du temps), ou encore, le réseau est capable de modifier son activité en fonction du contexte musical précédent le stimulus en cours de traitement (expectation harmonique). 3 ConclusionEn résumé, nous avons vu que le modèle connexionniste proposé par Tillmann et al. (2000) est capable de simuler l’apprentissage des connaissances musicales et leur influence sur la perception. Ce modèle repose sur un apprentissage non-supervisé (il n’existe pas de professeur pour apprendre au réseau comment discriminer les différents systèmes de tonalité) et montre que ce type de connaissance émerge d’une classification auto-organisée des éléments d’entrée du réseau (apprentissage implicite de la tonalité). Un des arguments allant à l’encontre du réalisme biologique des cartes auto-organisatrices est que le temps nécessaire pour stabiliser le réseau (marquant ainsi la fin de l’apprentissage) peut-être très long, ce qui est incompatible avec notre capacité à apprendre la forme d’un stimulus en une seule présentation. Au contraire dans notre cas particulier, cet argument peut être vu comme un avantage, un temps de convergence long étant pleinement compatible avec un apprentissage latent et implicite de la hiérachisation musicale occidentale. Nous avons vu au cours de ce bref exposé comment un concept mathématique tel que les cartes auto-organisatrices de Kohonen peuvent permettre de comprendre des phénomènes biologiques complexes. Dans le cas très particulier des SOM, il est assez amusant de constater qu’un tel modèle d’inspiration biologique, revient dans le champ de la biologie alors qu’il est aujourd’hui très largement utilisé dans l’ingénierie (commande de processus, traitement du signal, robotique). Même si ce type de modèle connexionniste ne prétend pas expliciter totalement les mécanismes neurobiologiques complexes à la base de la perception musicale, il apporte des arguments forts en faveur d’une hypothèse fonctionnelle non-supervisée et auto-organisée (à l’échelle de populations neuronales) sur ce type de traitement perceptif. Références |