Doctorante à l’IRCAM et chercheuse en intelligence artificielle appliquée à la musique, Ninon Devis est à l’origine du Neurorack, premier synthétiseur modulaire exploitant la synthèse neuronale. Et si la spécialiste avait compris comment rendre l’IA créative ?
La complexité des algorithmes d’IA réside dans leur capacité à fonctionner sur des instruments qui ne dépendent pas des ordinateurs. Est-ce dans cette idée que vous avez développé Neurorack ?
Ninon Devis : Quand j’ai commencé mon master en 2019 à l’IRCAM, l’IA n’avait pas encore atteint les performances qu’on connaît aujourd’hui. Pourtant, ma première impulsion, c’était déjà ça : embarquer du deep learning dans un synthétiseur pour créer un véritable instrument autonome, sans ordinateur, sans cloud, sans connexion extérieure.
L’un des grands défis, c’était bien sûr le hardware : il fallait faire tourner des modèles de deep learning sur une machine embarquée, ultra compacte, avec une puissance de calcul limitée. Impossible d’utiliser des modèles massifs comme ceux de type LLM ou diffusion – et honnêtement, ce n’était pas mon intention. Les modèles que j’utilise sont plus légers, rapides à entraîner, et surtout très peu énergivores. Cet aspect écologique est fondamental dans ma démarche : je crois qu’on peut faire des choses puissantes, inspirantes, sans démesure technologique.
« Avec le Neurorack, j’avais envie de redonner la main aux artistes, de proposer un instrument avec lequel on dialogue, qu’on manipule, qu’on comprend. »
Un autre point essentiel était la génération en temps réel. Le Neurorack est un instrument qui doit réagir instantanément à ce que fait le musicien. Dans une performance, il n’y a pas de place pour l’attente ou le délai de traitement : le flux créatif se construit dans l’interaction directe avec le son. C’est cette immédiateté qui fait naître les idées musicales. Or, cette exigence de réactivité est pratiquement irréalisable avec des modèles trop lourds, qui nécessitent des ressources importantes ou des phases de calcul asynchrones. L’embarqué, c’était donc un choix technique, mais aussi profondément artistique.
Au-delà des aspects technologiques, il y a une vraie réflexion sur la place de l’IA dans l’acte musical. Dans le monde des synthétiseurs modulaires, la norme n’est pas encore à l’intégration d’intelligences connectées. Et personnellement, en tant que musicienne, je ne prends pas de plaisir à générer des sons à partir de simples prompts textuels, en lançant une commande dans une « boîte noire ». J’avais envie de redonner la main aux artistes, de proposer un instrument avec lequel on dialogue, qu’on manipule, qu’on comprend. Et je pense que c’est un point clé : créer un langage commun entre l’artiste et l’IA, pour que l’intention artistique puisse encore s’exprimer.
Une partie de votre travail consiste à concevoir des instruments interactifs mêlant expressivité humaine et génération neuronale. Pensez-vous que ces derniers peuvent se démocratiser ces prochaines années ?
Ninon Devis : L’IA se faufile dans toutes les couches de la production musicale, souvent de façon invisible. Mais dans le monde de l’instrument tangible, celui qu’on manipule réellement en jouant, on en est encore aux tout débuts. Cela dit, plusieurs artistes commencent à explorer ces terrains hybrides. Je pense à Holly Herndon, qui travaille notamment avec des modèles neuronaux de voix, ou à Benoît Carré et ses recherches avec Flow Machines. Il y a aussi Portrait XO, qui intègre l’apprentissage machine dans ses processus de création vocale. Nao Tokui, créateur de Neutone, développe des performances live où l’IA agit comme un co-performeur dans des DJ sets en temps réel.
Et puis il y a les DadaBots, qui poussent le concept à fond, avec des réseaux de neurones entraînés sur du metal, du free jazz, ou des systèmes de DJ automatisés basés sur des prompts textuels – une sorte d’algorithme-curateur qui brouille les frontières entre humain et machine. Sans compter une scène plus underground encore, où des artistes intègrent l’IA de manière quasi imperceptible dans leurs performances, sans nécessairement en faire un argument visible.
Quant à la question de la démocratisation, je pense qu’elle dépendra énormément du design des interfaces. Aujourd’hui, utiliser une IA dans un cadre créatif demande encore des compétences techniques, voire un abandon total de contrôle. Prenons l’exemple de Suno ou d’outils similaires : les interfaces sont ultra simplifiées, souvent textuelles, pensées pour être accessibles à tous. On entre quelques mots, on obtient une chanson. C’est séduisant, mais à mon sens, ce n’est pas un instrument. Il n’y a pas d’espace d’expressivité, pas de réponse en temps réel, pas de relation profonde entre le geste et le son. C’est une illusion de contrôle : on déclenche quelque chose, mais on ne le joue pas, on ne le façonne pas.
« Créativité artificielle » est un terme qui revient régulièrement ces derniers temps. Quels enjeux artistiques renferme-t-il ?
Ninon Devis : Le terme « créativité artificielle » est fascinant, mais aussi profondément ambivalent. Il est à la fois une provocation philosophique et une simplification médiatique. Ce qu’il désigne oscille entre une simulation de créativité – générée par des systèmes statistiques entraînés sur d’énormes volumes de données – et une réelle transformation de notre rapport à l’acte de création lui-même.
Aujourd’hui, les modèles d’IA sont capables de générer des résultats surprenants, stylistiquement riches, parfois même émotionnellement saisissants. Mais cela suffit-il pour parler de « créativité » ? À mon sens, non – du moins pas dans le sens plein du terme. Ce que je défends, c’est une distinction fondamentale entre ce qu’on appelle la créativité combinatoire ou exploratoire (ce que les modèles savent bien faire), et ce qu’on appelle la créativité transformationnelle, c’est-à-dire la capacité à réinventer les règles du jeu, à redéfinir les cadres esthétiques et culturels eux-mêmes. Et c’est là que l’IA, aujourd’hui, atteint ses limites. L’IA, en l’état, n’a ni subjectivité, ni affects, ni culture vécue. Elle génère, mais elle ne choisit pas. Elle juxtapose, mais elle ne signifie pas.
« En modifiant un modèle, en l’entraînant sur des corpus non conventionnels ou en l’exposant à des instructions contradictoires, on peut obtenir des résultats profondément singuliers. »
L’IA pose évidemment des questions sur le processus créatif, mais également sur l’émergence de nouvelles esthétiques. Selon vous, les modèles génératifs, qui ne sont pas capables pour le moment d’initiatives créatives, peuvent-ils faire naître de nouveaux genres musicaux ? Ou du moins, renouveler en profondeur les codes de genres préexistants ?
Ninon Devis : Je pense que les modèles génératifs peuvent tout à fait jouer un rôle de catalyseur esthétique. Même s’ils ne « créent » pas au sens intentionnel du terme, ils produisent des combinaisons, des glissements, des erreurs heureuses qui, pour un esprit humain, peuvent être le point de départ d’une vraie exploration artistique. Ce sont souvent les accidents générés qui déclenchent quelque chose : une intuition, une ambiance, un contrepied inattendu. Et c’est précisément là que l’artiste entre en jeu – pour capter ces instabilités, les transformer, les faire résonner dans un contexte plus large.
Un aspect encore peu exploité – mais que je trouve extrêmement prometteur – est celui de la divergence active. L’idée, ce n’est pas seulement de laisser le modèle faire, mais d’intervenir directement dans sa logique, ses paramètres, sa structure. En d’autres termes : hacker un peu l’outil. En modifiant un modèle, en l’entraînant sur des corpus non conventionnels ou en l’exposant à des instructions contradictoires, on peut obtenir des résultats profondément singuliers – des espèces de glitchs esthétiques qui n’auraient jamais vu le jour autrement. Ce genre de démarche rejoint d’ailleurs des pratiques expérimentales déjà présentes dans les musiques électroniques ou le noise, où le détournement technique devient un geste créatif à part entière.
Est-ce à dire que l’IA est plus intéressante dès lors qu’elle est intégrée à des processus traditionnels, et non pensée pour les remplacer ?
Ninon Devis : L’émergence de nouveaux genres viendra, à mon sens, de l’hybridation : le croisement entre des méthodes éprouvées – composition, improvisation, jeu instrumental – et des formes de génération algorithmique. C’est dans cette tension, cet aller-retour entre contrôle et surprise, que peuvent naître des esthétiques inédites. On l’a déjà vu par le passé : les samplers, les boîtes à rythmes, les DAW ont tous transformé la musique, non pas en remplaçant l’humain, mais en l’obligeant à penser autrement.
Un autre point à ne pas négliger : l’IA nous oblige à réinterroger nos catégories esthétiques. Beaucoup de modèles sont entraînés à « imiter » des styles existants, mais justement, c’est en forçant cette imitation qu’ils peuvent finir par dérégler les codes. Quand un modèle mélange plusieurs styles de manière maladroite ou imprévisible, il génère parfois des objets sonores non-identifiables – et c’est dans ces « ratures » que peut naître quelque chose de neuf.
« L’émergence de nouveaux genres viendra, à mon sens, de l’hybridation. »
Il y a aussi cette idée selon laquelle l’IA pourrait déconstruire les hiérarchies culturelles…
Ninon Devis : En théorie, en brassant librement des musiques issues de cultures diverses, en ignorant les classifications commerciales ou académiques, l’IA pourrait faire émerger des formes esthétiques inattendues, des mélanges marginaux, des hybridations libérées du « bon goût » dominant. Mais dans la pratique actuelle, cette promesse est largement compromise par les biais des datasets utilisés pour entraîner les modèles. Les corpus d’apprentissage sont souvent issus de plateformes populaires, de bases de données très occidentalo-centrées, normées, et souvent surreprésentant certains genres au détriment d’autres. En l’état, ces systèmes reproduisent – voire amplifient – des logiques d’uniformisation esthétique.
On est loin d’une réelle diversité culturelle ou d’une remise en question des normes dominantes. Cela dit, il y a une évolution en cours. On voit apparaître de plus en plus de datasets « exotiques » ou spécialisés, construits avec des corpus rares, expérimentaux, ou issus de traditions musicales sous-représentées. Le jour où l’on pourra entraîner des modèles sur des données réellement variées, respectueuses des contextes culturels, et pensées en collaboration avec des artistes, alors là, oui – on pourra parler de déconstruction des hiérarchies culturelles par l’IA. Mais pour l’instant, il faut rester lucide : tant que l’IA sera nourrie par les algorithmes de recommandation de Spotify, on ne risque pas de sortir des sentiers battus.
- Cette interview est en partie extraite du 49e numéro de notre newsletter éditoriale.