Le traitement automatique
du langage naturel (TALN)

Le traitement automatique du langage naturel (TALN), ou Natural Language Processing (NLP) en anglais, est une branche de l’intelligence artificielle. Cette discipline, au croisement de la linguistique et des sciences informatiques, aide les ordinateurs à déchiffrer et à comprendre le langage naturel. Elle a pour but de faciliter la communication entre humains et machines.

Fonctionnement du traitement automatique du langage naturel

Le TALN utilise des modèles algorithmiques, pour identifier et extraire les éléments et les règles du langage naturel non structuré, afin de le transformer en données exploitables par un système informatique.

De façon générale, le TALN décompose le langage en « morceaux » élémentaires. Il tente ensuite d’identifier ces « morceaux » et de comprendre leurs relations et interactions pour créer du sens. Pour cela, il s’appuie sur diverses techniques d’analyse : syntaxique, sémantique et pragmatique.

Application du TALN aux robots conversationnels

Les capacités des robots conversationnels ont beaucoup progressé. De programmes limités, produisant des interactions souvent impersonnelles et frustrantes pour leurs utilisateurs, ils deviennent, chaque jour, plus à même de prendre en charge des problématiques complexes et de produire des conversations fluides et agréables. Cette transformation récente repose principalement sur l’intégration croissante de technologies de TALN aux robots conversationnels, et aux avancées dans ce domaine de l’IA.

Le TALN des robots conversationnels s’appuie sur la reconnaissance et l’analyse des éléments suivants pour traiter les demandes :

L’intention : la tâche que les utilisateurs veulent accomplir ou le problème qu’ils cherchent à résoudre.

Les formulations : la façon dont les utilisateurs énoncent une intention spécifique.

Les entités : les caractéristiques pertinentes liées à l’intention de l’utilisateur (un horaire, lieu, etc.).

Le contexte : il aide à enregistrer et réutiliser des paramètres, tout au long de la session, pour fluidifier la conversation.

La session : l’intégralité de la conversation (même si elle est interrompue et reprise).

Pour identifier et manipuler ces éléments, différentes techniques de TALN sont déployées, dont notamment :

La tokenisation. Le découpage d’un texte en unités plus petites (mots ou groupe de mots) appelées « tokens ».

L’étiquetage morpho-syntaxique (Part-Of-Speech Tagging). Un processus qui labellise chaque mot d’une phrase avec sa catégorie grammaticale et ses informations morphologiques (genre, nombre, etc.).

La racinisation (Stemming) et lemmatisation. Des processus qui réduisent un terme à sa racine ou à sa forme la plus simple (infinitif, masculin, singulier).

La reconnaissance d’entités nommées (Named Entity Recognition). Elle permet d’identifier et de catégoriser des mots ou groupes de mots dans des classes (noms de famille, lieux, horaires, dates…).

D’autres techniques telles la suppression des mots vides (Stopword Removal) ou le Dependency Parsing sont également couramment utilisées.

Robo Fabrica et le traitement automatique du langage naturel

Le TALN de la solution Robo Fabrica repose sur deux technologies complémentaires : les arbres déterministes et les modèles de prédictions stochastiques.

Arbres déterministes

Les arbres déterministes permettent de définir un vocabulaire, dont les éléments sont couplés à une priorité. Cette liste de mots-clés permet de modéliser les intentions auxquels un robot doit répondre.

Les avantages de cette technologie sont :

sa simplicité,

son fonctionnement déterministe,

sa rapidité de mise en place.

Son facteur investissement/performance est donc avantageux. Cette technologie obtient globalement des taux de bonnes réponses > 90 %.

Modèles de prédictions stochastiques

La seconde technologie proposée par Robo Fabrica peut être enclenchée lorsque le robot conversationnel a suffisamment interagit avec des utilisateurs. Il dispose alors d’assez de phrases issues de conversations réelles pour construire un modèle statistique. Ce dernier sera représentatif des formulations couramment utilisées par les usagers pour s’exprimer sur les thématiques prises en charge par le robot. Le robot dispose alors de capacités de compréhension du langage précisément ajustées aux problématiques qu’il doit résoudre, lui permettant ainsi d’augmenter son taux de bonnes réponses.

Bien que très performantes, ces technologies ne sont cependant que le support du résultat de la réflexion qui doit être menée sur les besoins auxquels un robot doit répondre. La définition du périmètre du robot reste le facteur le plus déterminant de la réussite d’un projet de mise en place d’un robot conversationnel.