Jeu non supervisé: Une Boîte à outils d'apprentissage automatique (machine learning) pour Max
Benjamin D. SMITH, Guy E. GARNETT

RÉSUMÉ: Les modèles d'apprentissage automatique sont des outils utiles et attrayants pour le musicien “interactif”, permettant un large éventail d'interfaces et d'instruments. Avec le matériel grand public actuel, il devient possible d'exécuter des algorithmes avancés d'apprentissage automatique dans des situations de performances exigeantes, mais l'expertise reste une barrière d'entrée contraignante pour la plupart des utilisateurs potentiels. Les implémentations actuellement disponibles utilisent principalement des techniques d'apprentissage automatique supervisé, tandis que les capacités adaptatives et d'auto-organisation des modèles non supervisés ne sont généralement pas disponibles. Nous présentons une nouvelle boîte à outils gratuite d'algorithmes d'apprentissage automatique non supervisés implémentés dans Max 5, pour traiter la musique et la vidéo interactives en temps réel, à l'intention de l'artiste informaticien non expert.

Mots-clés NIME, apprentissage automatique non supervisé, théorie de la résonance adaptative, cartes auto-organisatrices, Max 5

1. INTRODUCTION
Alors que les applications ML (machine learning) fournissent des développements et des avancées significatives dans les performances musicales interactives, les outils continuent d'exiger un haut niveau d'expertise. Les applications typiques d'aujourd'hui sont soit conçues par un seul technicien / artiste [10, 12] ou par une équipe de développeurs et de créateurs artistiques [9]. Cependant, les bibliothèques et les boîtes à outils ready made pour les environnements de développement deviennent de plus en plus répandues [3, 4], ouvrant la voie à une adoption plus large de ces techniques. Les techniques de ML à disposition de l'artiste interactif se composent aujourd'hui principalement de modèles et d'algorithmes supervisés. Cette approche permet à l'utilisateur de sélectionner soigneusement les données d'entraînement (training data) afin d'atteindre des degrés élevés de précision et de répétabilité dans le fonctionnement du système. De plus, des limitations communes, telles que des périodes d’entraînement extrêmement longues et des exigences de calcul élevées, sont surmontées dans les réalisations récentes [3], permettant un apprentissage interactif en direct et la construction de modèles.

Les techniques adaptatives ou non supervisées, qui sont largement absentes des packages disponibles, peuvent offrir un certain nombre d'avantages dans certaines situations [8]. Contrairement aux techniques supervisées, les modèles adaptatifs apprennent progressivement et l’entraînement est toujours additif, évitant d’avoir à cesser l'ensemble de l'entraînement à chaque itération ou époque. Ils apprennent également immédiatement, tandis que les techniques supervisées nécessitent souvent des milliers d'époques avant de converger vers une tolérance appropriée. Les algorithmes non supervisés correspondent sans doute bien aux modèles de perception humaine et sont auto-organisés, pouvant fonctionner sans aucune intervention extérieure.

Afin de mettre l’ensemble des modèles ML à la disposition du musicien et artiste interactif, nous avons développé et publié une petite bibliothèque de techniques non supervisées pour l'environnement Max1 . Les cartes auto-organisées (SOM - self organizing maps) [6], la théorie de la résonance adaptative (ART) [1], les réseaux de perceptrons multicouches (MLP Multi-layer Perceptron) et les techniques d'encodage spatial [2] sont tous disponibles sous forme précompilée et/ou d'objets java pour Max. La bibliothèque est distribuée gratuitement pour des applications non commerciales. Nous présentons une discussion sur les avantages et les limites de ces modèles en ce qui concerne la musique interactive pour servir de bref tutoriel à l'utilisateur non expert sur l'utilisation de techniques de ML non supervisées pour des performances en temps réel.

2. ML.SOM
La carte auto-organisée (SOM) [6] fournit un regroupement et une classification non supervisés, mappant les données d'entrée de haute dimension (à n-dimensions) sur un espace de sortie bidimensionnel, préservant les relations topologiques entre les éléments de données d'entrée aussi fidèlement que possible. La principale force du SOM est sa métaphore fondamentalement visuelle, traduisant des données en hautes dimensions en une carte facilement représentable. En d'autres termes, la SOM produit une projection de l'espace de données d'entrée sur une carte bidimensionnelle de telle sorte que la proximité sur la carte est parallèle à une sorte de similitude (ou proximité) dans l'espace de données source (à n-dimensions). La visualisation de la carte peut conduire à un aperçu rapide et intuitif de l'organisation des données sources, révélant des clusters d'importance et d'intérêt. Il s'agit d'un modèle peu coûteux en termes de calcul et qui imite sans doute les modèles cognitifs humains conduisant à des résultats qui mettent en parallèle la perception et les décisions humaines à un niveau de base. En son cœur, le SOM est un réseau de neurones connectés dans une configuration bidimensionnelle (bien que des dispositions dimensionnelles plus élevées soient possibles) dans lesquelles chaque nœud représente une catégorie possible dans l'entrée. Le SOM peut également être considéré comme une généralisation non linéaire de l'analyse en composantes principales (PPA) sur laquelle le SOM offre sans doute de nombreux avantages [7]. Lorsqu'une entrée est présentée au SOM, une recherche est effectuée pour localiser le nœud le plus similaire (c'est-à-dire le plus proche, en utilisant une mesure de distance conventionnelle) ou gagnant sur la carte. L'apprentissage est ensuite effectué, en adaptant le nœud gagnant et ses voisins pour représenter de manière plus appropriée cette nouvelle entrée. L'apprentissage est calculé comme une réduction progressive de la distance entre l'entrée et le nœud de carte correspondant (le processus peut être compris comme un simple filtre passe-bas), et ce taux d'adaptation est contrôlé par le taux d'apprentissage de la carte. L'apparence topographique caractéristique du SOM est le résultat de l'adaptation des nœuds dans un voisinage progressivement décroissant autour du gagnant. Cet effet est contrôlé par un paramètre de rayon de voisinage et l'adaptation déplace les nœuds adjacents au nœud gagnant avec une proportion décroissante vers le bord du voisinage (nous utilisons une gradation linéaire). Le SOM est généralement initialisé avec des valeurs aléatoires, mais cela peut produire des classifications nettement divergentes (également dépendant de l'ordre d'analyse d'entrée). D'autres alternatives consistent à initialiser la carte de manière uniforme ou à utiliser une certaine forme de prédiction (comme l'analyse des composants principaux ou un SOM plus ancien sur un ensemble de données - dataset - précédent et exemplaire).

Enfin, le SOM peut prendre en compte l'âge de la carte et devenir progressivement plus résistant au changement, s'installant éventuellement sur une représentation permanente des données. L'avantage et l'inconvénient de cela sont que les données jusqu'à un certain point sont conservées comme base pour la cartographie, en restant à l'abri (c'est-à-dire en ignorant) les nouvelles données divergentes (contrôlées avec la propriété de solidification du ml.som). Les résultats du regroupement SOM peuvent être vus sur la fig. 1, où la carte s'entraîne sur une sélection de couleurs. Celle de droite utilise trois couleurs (cyan, magenta et jaune) qui se déposent à trois extrémités de la carte, se chevauchant pour produire la gamme de couleurs entièrement saturées. L'autre - à gauche - utilise huit couleurs (les trois initiales plus le rouge, le vert, le bleu, le blanc et le noir). Le noir et le blanc sont poussés dans les coins (la sélection des coins supérieurs coïncide avec l'ensemencement aléatoire de la carte) et les six couleurs restantes s'organisent selon un motif de roue chromatique classique. Le SOM dépend fortement de l'état d'initialisation et l'ordre des données d'entrée et l'importance des relations perçues résultantes dans la carte peuvent varier en conséquence. Randomiser et recycler le SOM produit différentes orientations des couleurs (et différents coins pour le noir et le blanc), mais le motif dominant reste cohérent.


Figure 1: SOM avec 64x64 nœuds formés sur huit couleurs (à gauche) et trois couleurs (à droite).

2.1 Exemple
Comme exemple d'application, nous décrivons un système minimal pour regrouper des exemples de timbre à partir d'un flux audio live (voir fig. 2). L'objectif est de permettre à un artiste en direct de jouer une gamme de matériel et de demander au SOM de rassembler des échantillons de sons similaires (en timbre) sur la carte. Ceci est un exemple utile car les mesures de similitude de timbre restent un problème ouvert dans la théorie de la perception musicale. Ml.som vise à fournir une interface robuste et facile à utiliser, et les listes de paramètres reçues par l'objet sont traitées comme de nouvelles entrées résultant en une correspondance et un apprentissage immédiats.

Nous partons de l'hypothèse que l'audio numérique est traité dans Max et qu'il a été analysé selon ses caractéristiques saillantes (centroïde spectral, intensité, bruit, bandes d'écorce, etc.). Ces fonctionnalités, garantissant que chaque valeur est mise à l'échelle sur (0-1), sont ensuite transmises directement au SOM. Nous configurons le SOM avec les arguments suivants:

• 64 nœuds en largeur et en hauteur
• 24 éléments en entrée, vecteur d'entités (24 paramètres)
• taux d'apprentissage de 0,1 (ou 10%)
• taux de solidification de 0,01 (ou 1%)
• rayon de voisinage de 8 nœuds.


Figure 2: correctif SOM minimal pour classer les fonctionnalités d'entrée (à l'aide de l'objet som java ml).

Dans la figure 2 le message randomize initialise la carte dans un état aléatoire et doit être utilisé avant le début de l'opération. Une fois le jeu en cours, les emplacements 2D qui sont entraînés seront affichés dans les cases numériques descendant de la sortie la plus à gauche. Nous laissons à l'utilisateur final le soin de définir une fonction pour l'utilisation de ces données (peut-être: enregistrer les coordonnées à certains points pendant la performance, calculer une mesure de distance, reflétant un degré de similitude ou de différence de timbre, et utiliser ce résultat pour conduire un moteur de synthèse). La sortie droite du ml.som (sortie médiane de l'objet java) produit l'état modifié et entraîné du nœud correspondant (basé sur l'entrée la plus récente ou le message Get). Cela permet une analyse algorithmique et / ou l'affichage des données de la carte. Il est prévu que le jeu du musicien en direct trace des formes ou des motifs sur la surface de la carte, traversant des figures qui correspondent de manière fiable à des déclarations musicales données (telles que des articulations, des registres et des changements dynamiques). Ceux-ci pourraient facilement être rendus visuellement (en utilisant un objet lcd, par exemple), pour donner à l'utilisateur une idée de la nature du mapping. Une fois qu'une régularité est observée, elle peut être connectée à une autre couche d'apprentissage automatique (en utilisant un autre ml.som ou un ml.art) pour apprendre ces modèles de niveau supérieur et mapper vers des fonctions analogues dans le système de performance.

3. Les algorithmes ML.ART
Les algorithmes Adaptive Resonance Theory [1] ont été initialement proposés comme modèle de calcul de l'attention humaine, utilisant un réseau de neurones. Comme le SOM, ART compare les nouveaux vecteurs de caractéristiques d'entrée avec les nœuds de catégorie connus et forme le réseau de manière adaptative. Cependant, les nœuds ART ne s'influencent pas mutuellement pendant l'entraînement (ils ne sont pas connectés au sens où le SOM les emploie), et la métaphore spatiale n’est pas significative. Alors que les cartes SOM présentent l'espace de manière continue sur la carte (c'est-à-dire que les points intermédiaires entre les nœuds du réseau SOM peuvent être interpolés), l'ART code une zone continue d'espace de fonctionnalité dans chaque nœud (ml.art implémente la version ART floue ou “fuzzy”). Lorsqu'un nœud de catégorie gagnant est identifié lors de la présentation d'entrée, le nœud doit passer un test de vigilance avant que l'apprentissage ne puisse commencer. Le processus de vigilance vérifie la zone que représenterait la catégorie gagnante si l'entraînement devait se poursuivre et garantir que la catégorie ne dépasse pas une limite prédéfinie (définie avec le paramètre de vigilance). Si la catégorie reste dans la limite, il est permis de s'adapter et d'apprendre la nouvelle entrée, de la même manière que le SOM (en utilisant un paramètre de taux d'apprentissage). Cependant, si la catégorie s'étendait pour englober une trop grande partie de l'espace des fonctionnalités, le nœud est supprimé de la considération et la recherche d'un nœud gagnant est effectuée à nouveau.

Ainsi, l'ART est idéal pour localiser des catégories dans des flux de données continus et la granularité de l'analyse peut être facilement ajustée. Comme pour le SOM, la sélection des caractéristiques est importante mais dans l'ART, la dimensionnalité complète des relations de catégorie est préservée, permettant une analyse plus approfondie des résultats de l'ART à tout moment (voir [11], par exemple).

L'ART est efficace en termes de calcul et, parce que de nouveaux nœuds peuvent être ajoutés au besoin, capable de classer des ensembles de données étendus avec un large éventail de spécificités (limité uniquement par le hardware). C'est sans doute un modèle approprié de processus de mémoire à long terme humains [5, 10] et il est donc utile dans les modèlisations informatiques de perception. Alors que l'indice de nœud de l'ART n'a qu'une signification interne, il est trivial d'obtenir la résonance (c'est-à-dire la mesure de distance) de chaque catégorie avec chaque entrée. Cette résonance, ou ajustement, peut décrire de nombreux aspects utiles de l'entrée, tels que la clarté de l'ajustement (différence entre le pic et la résonance moyenne), la signification de l'entrée (somme de toutes les résonances) et la comparaison de cet ajustement aux ajustements précédents (indiquant le mouvement dans l'espace de classification). Cette dernière mesure peut potentiellement donner un fort sentiment de mouvement en coupe dans une pièce, indiquant des passages de transition ou des changements soudains.

Bien que l'ART ne soit pas sensible aux divergences d'initialisation (tous les nœuds non formés sont considérés comme nuls), il dépend fortement de l'ordre des données d'entrée. Les classifications, et en particulier les limites définies par les nœuds ART, peuvent être radicalement différentes si les entrées sont présentées dans une séquence différente. Cela peut être à la fois une force, dans le cas de l'analyse musicale où l'identité d'une pièce ou de l'improvisation exige une certaine séquence, et une faiblesse, semblant incohérente lorsque les modèles supervisés sont cohérents.

Ml.art a une entrée et deux sorties et accepte des listes qui sont traitées comme des vecteurs de caractéristiques d'entrée. Ici, la taille du vecteur d'entité en entrée n'a pas besoin d'être spécifiée à l'avance car les nœuds ne sont remplis que lorsque les données sont reçues et le réseau continuera de croître au besoin pour coder toutes les données reçues. Par défaut, l'ART fera toujours correspondre la meilleure catégorie de sous-ensemble à l'entrée reçue, bien que ce comportement puisse être annulé en définissant le paramètre de choix > 0, où des valeurs plus élevées imposent des correspondances plus restrictives. Tous les paramètres peuvent être définis dynamiquement avec les messages appropriés et le ml.art peut être effacé à tout moment. Lors de l'apprentissage réussi d'un nouveau noeud ml.art sort l'ID de catégorie gagnante ainsi que les résonances de toutes les catégories entraînées.

3.1 Exemple
Nous décrivons maintenant la construction d'un petit système pour analyser, apprendre et identifier des séquences de hauteur mélodique (sur le modèle de [5, 10], voir fig. 3). Outre ml.art, cela nécessitera une méthode pour produire une séquence de données de hauteur. Une fois qu'une séquence de pitch est disponible, elle est réduite à ses “pitch classes” (en prenant la hauteur modulo % 12).

Afin d'effectuer l'extraction et la mise en correspondance de motifs sur cette séquence de hauteurs, l'ART a besoin d'une représentation uniformément dimensionnée qui capture à la fois les classes de hauteurs et l'ordre des notes. Ceci est accompli en utilisant ml.spatial, décrit ci-dessous. Pour l'instant, nous plaçons un objet ml.spatial au bas de la courte chaîne de traitement (le vecteur caractéristique résultant pour une mélodie descendant chromatiquement est affiché dans le graphique au milieu à droite de la figure 3). Maintenant, nous ajoutons un objet ml.art avec les paramètres «0 0,5 0,85» (correspondant respectivement au choix, au taux d'apprentissage et à la vigilance). Celles-ci sont définies pour encourager la recherche d’ensemble de sous-ensembles profonds,


Figure 3: Max 5 patch utilisant ml.art et ml.spatial pour identifier les modèles mélodiques. recherche,

une vitesse d'apprentissage moyenne et une génération de catégories assez serrée, respectivement. Le ml.spatial se connecte directement au ml.art. Enfin, l'indice de catégorie pour une entrée donnée est affiché dans la zone numérique en bas à gauche. En jouant dans le système, l'ART extrait et apprend des motifs mélodiques. Par exemple, un musicien pourrait choisir plusieurs courts fragments mélodiques (5 à 7 notes de long) et noter les numéros d'index de catégorie produits pour chacun. Lors d'une performance improvisée, l'occurrence de ces indices pourrait alors être utilisée pour déclencher les actions souhaitées. Ce modèle d'interaction orienté événement peut être encore augmenté pour incorporer une variation continue en mesurant la résonance relative de chaque nœud cible pour n'importe quelle entrée donnée. La sortie droite de ml.art produit le vecteur de résonance résultant de chaque entrée tel qu'il est présenté à l'ART (illustré graphiquement dans le tableau en bas à droite de la figure 3). Le décompactage de cette liste et l'observation de la valeur à la position corrélée avec les indices cibles donneront une mesure de la mesure dans laquelle l'entrée actuelle correspond ou résonne avec les catégories de modèles entraînés (sur la figure 3, par exemple, l'entrée la plus récente correspond à la catégorie 8), indiqué dans la case numérique, résonne fortement avec les catégories 1 et 2, mais beaucoup moins avec les catégories 4, 5, 7 et 9). Ainsi, une mélodie ou une séquence de hauteur souhaitée, une fois apprise par l'ART, peut être utilisée comme référence lors d'une performance répondant continuellement "à quel point le matériau actuel est-il proche de ce que j'ai déjà appris?"

4. ML.SPATIAL
Comme cela a été mentionné, l'identification, la sélection et l'encodage des caractéristiques (features) est un élément clé des techniques de Machine Learning. De nombreux traits souhaitables peuvent simplement être mis à l'échelle dans une plage appropriée et introduits directement dans l'un des modèles décrits ci-dessus, mais ce n'est pas toujours le cas. Par exemple, le simple fait de traiter la hauteur comme une valeur de fréquence continue passe à côté des relations fonctionnelles inhérentes aux musiques tonales. La technique de codage spatial fournit une solution prête à l’emploi, permettant au modèle ML d'apprendre les relations entre les éléments dans une séquence ordonnée dans le temps.

Le codage spatial est apparu dans l'analyse en langage naturel où les lettres de mots sont codées en vecteurs et utilisées comme modèles de classification [2]. Le même principe peut être appliqué à la musique, en utilisant tous les jetons d'un ensemble (tels que les degrés d'échelle ou les classes de hauteur) [5]. Le codage est réalisé en utilisant un modèle de réseau neuronal à couche unique avec une composante de rétroaction d'atténuation. Chaque échantillon de l'ensemble de données (dataset) donné est attribué à un nœud du réseau (c'est-à-dire que douze nœuds seraient utilisés pour coder des classes de hauteur). Lorsqu'un échantillon est présenté au réseau, le nœud associé est entièrement alimenté (valeur définie sur 1) et un suppresseur est appliqué à tous les autres nœuds, modélisant l'attention du réseau en se concentrant sur l'entrée la plus récente (voir fig. 4). Ceci est généralement accompli en réduisant l'énergie de chaque nœud d'une petite quantité (de manière linéaire, par exemple de 0,15), ou en amortissant le réseau dans son ensemble (de façon exponentielle, en multipliant chaque nœud par, par exemple, 0,85). Le produit du codage est une représentation vectorielle de dimensions uniformes de l'ordre des échantillons les plus récents (généralement 7 ± 2 lors de la modélisation d'une mémoire humaine à court terme typique).

 


Figure 4: Codage spatial de courts fragments mélodiques.

Une fois l'encodage terminé, le vecteur peut être traité par un modèle ML. Une chaîne d’échantillons codée spatialement rend les comparaisons ensemble-sous-ensemble triviales et rend également possible l'identification des ensembles réorganisés (rétrograde, extension, contraction et ornementation deviennent ainsi transparents pour le classificateur). Chacun de ceux-ci se traduira par des vecteurs codés qui ont des éléments similaires, permettant une identification facile par un SOM ou ART, par exemple.

Cependant, des ambiguïtés peuvent se produire, par exemple lorsqu'un échantillon apparaît plusieurs fois dans une chaîne et que les apparitions antérieures sont remplacées par les suivantes. L'effet de cet échantillon précédent est toujours présent dans la désintégration des autres nœuds, mais en fonction de la précision requise du système, cela peut avoir un effet néfaste.

Un mode d'activation dynamique [11], incorporé dans ml.spatial, tente de réduire cet aspect négatif. Ce mode active un nœud d'une quantité proportionnelle au mérite d'attention calculé pour l’échantillon présenté (la valeur de mérite doit être entrée avec l’échantillon). Cette méthode masque l'ordre des échantillons, mais elle permet à un l’échantillon proéminent de recevoir une grande attention tandis que les échantillons insignifiants ne sont que peu représentés (ce mode est activé avec un message approprié à l'objet ml.spatial). Les paramètres de contrôle de ml.spatial sont: le nombre d’échantillons dans le jeu de données d'entrée (26 pour le texte anglais, 12 pour les classes de hauteur, etc.), le taux de décroissance (force d'atténuation) et le choix d'une décroissance linéaire ou exponentielle modèle. Le taux de décroissance contrôle la longueur de la mémoire du réseau et peut être calculé comme un sur la longueur souhaitée (pour conserver 7 échantillons, le taux de décroissance doit être réglé sur 1/7 ou 0,143). Le modèle linéaire soustrait cette quantité de chaque nœud à chaque pas de temps (nouvelle présentation d'entrée) tandis que le modèle exponentiel multiplie chaque nœud par un moins le taux de décroissance. L'opération dans Max consiste simplement à saisir un entier représentant l’échantillon considéré et à recevoir le vecteur d'entités en sortie (sous forme de liste de flottants). Cela peut ensuite être directement acheminé vers les objets ml.som ou ml.art. Les cas éprouvés pour le codage spatial comprennent les degrés d'échelle mélodique, les intervalles tonaux, les classes de hauteur et les classes d'intervalle [5, 10, 11]. L'espace timbral et la modélisation rythmique peuvent également être des zones prêtes pour l'encodage. De plus, il devient possible d'acheminer la sortie d'un ART (l'ID de catégorie gagnante) dans un codeur spatial et de créer un système ART multicouche [5, 12], qui sert à suivre la structure hiérarchique au sein de l'entrée.

5. CONCLUSION
Actuellement, aucun des objets ml.x ne prend explicitement en charge la conservation de l'état entre les sessions.2 Nous prévoyons de mettre en œuvre des capacités d'exportation de modèles pour permettre une sauvegarde et un chargement rapides des états pré-formés. De plus, nous avons l'intention d'étendre la bibliothèque pour inclure plus de techniques à mesure qu'elles sont identifiées ou demandées et une version PD de cette bibliothèque est également à l'étude. Nous avons décrit la fonctionnalité et la théorie derrière plusieurs techniques ML puissantes implémentées dans une nouveau package pour Max. Des exemples simples mais pertinents ont été décrits dans le but de fournir un accès à ces outils pour les utilisateurs non experts, sous la forme de programmes rapidement et facilement mis en œuvre. Nous espérons que ce travail contribuera et permettra d'explorer davantage les nouvelles possibilités esthétiques offertes par les techniques de machine learning en informatique musicale interactive.

6. REMERCIEMENTS Les auteurs remercient eDream et le National Center for Supercomputing Applications de l'Université de l'Illinois à Urbana-Champaign.

7. RÉFÉRENCES
[1] GA Carpenter, S. Grossberg et DB Rosen. ART flou: apprentissage stable rapide et catégorisation des motifs analogiques par un système de résonance adaptative. Neural Networks, 4: 759–771, 1991.

[2] CJ Davis et JS Bowers. Contrastant cinq théories différentes du codage de position des lettres: preuves des effets de similitude orthographique. Journal of Experimental Psychology: Human Perception and Performance, 32 (3): 535–557, 2006.

[3] R. Fiebrink, PR Cook et D. Trueman. Cartographie Play-along des contrôleurs musicaux. Dans Actes de la Conférence internationale sur la musique informatique, 2009.

[4] N. Gillian, R. Knapp et S. O'Modhrain. Une boîte à outils d'apprentissage automatique pour l'interaction ordinateur musicien. Actes de la Conférence internationale de 2011 sur les nouvelles interfaces pour l'expression musicale (NIME11), 2011.

[5] RO Gjerdingen. Catégorisation des modèles musicaux par des réseaux neuronaux auto-organisés. Perception musicale, 1990.

[6] T. Kohonen. La carte auto-organisée. Actes de l'IEEE, 78 (9): 1464–1480, 1990. [7] Y. Liu, R. Weisberg et C. Mooers. Évaluation des performances de la carte auto-organisée pour l'extraction d'entités. Journal of Geophysical Research-Oceans, 111 (C5), 2006.

[8] Page MPA. Modélisation de la perception des séquences musicales avec des réseaux de neurones auto-organisés. Connection Science, 6 (2 & 3): 223–246, 1994.

[9] M. Schedel et R. Fiebrink. Une démonstration de la reconnaissance de l'articulation de l'arc avec wekinator et k-bow. Dans Proc. Conférence internationale de musique informatique, 2011.

[10] B. Smith et G. Garnett. La machine auto-surveillée. Dans Proc. of New Interfaces for Musical Expression, 2011.

[11] B. Smith et G. Garnett. Écoute machine: Interface acoustique avec l'art. Dans Proc. of SIGCHI Intelligent User Interfaces, 2012.

[12] B. Smith et G. Garnett. Apprentissage par renforcement et improvisateur musical créatif et automatisé. Dans Proc. d'EVOMUSART, 2012.

------------------
1 http://cycling74.com
2 Note du traducteur : l’auteur décrit la version de 2012, celle de 2019 bénéficie de nombreuses améliorations, dont la sauvegarde de presets etc...

"Cet article est traduit des proceedings de la conférence NIME 2012 https://www.nime.org/proceedings/2012/nime2012_68.pdf"

Benjamin D. SMITH, Guy E. GARNETT (traduction Jonathan BELL)

 

© L'ÉDUCATION MUSICALE 2020