Serveur vocal interactif

Un serveur vocal interactif ou SVI (en anglais, interactive voice response ou IVR) est un système informatique capable de dialoguer avec un utilisateur par téléphone. Il est capable de recevoir et d'émettre des appels téléphoniques, de réagir aux actions de l'utilisateur (appui sur des touches du téléphone, reconnaissance vocale ou reconnaissance de son numéro téléphonique d'appel) selon une logique préprogrammée, de diffuser des messages préenregistrés ou en synthèse vocale, et d'accéder à des bases de données d'autre part. Un serveur vocal interactif est généralement capable de traiter de nombreux appels simultanés indépendants[1],[2].

Schéma de principe d'un système de serveur vocal interactif

Historique et technologies initiales modifier

L'IBM 1750 conçu à La Gaude est la première messagerie vocale commercialisée en 1982 (prix minimum de 2,5 millions de francs pour quelques accès). Le tout premier serveur vocal interactif pour des services grand public est apparu en France en 1983. Il servait pour l'horoscope de Madame Soleil et les résultats des courses de chevaux. Il avait été mis en place par la Société du Journal Télévisé, une société ad-hoc créée par France-Telecom et deux de ses ingénieurs Alain Bernard et Didier Dupraz, qui pour cela avait créé le système "kiosque téléphonique" qui facturait chaque appel en fonction du numéro appelé avec des tranches de tarifs différentes. Ce système existe toujours avec ce couple technique+facturation qui est à la base de l'importante industrie de fournisseurs de SVI qui s'est alors créée en France, les plus notables étant FERMA, Alcatel TITN, XCOM utilisant la base d'un serveur du commerce et des cartes électroniques spéciales ("cartes vocales"). FERMA a été le premier à fournir des systèmes où la parole était créée par Text To Speech ("synthèse à partir du texte")[3] avec la technologie de diphones du CNET développée à Lannion et aussi donnant la possibilité de dialogue à partir à la fois de "postes à cadran" [4] et de postes à touche DTMF. La technologie originale de traitement des signaux transitoires envoyés par les cadrans était importante compte-tenu du parc limité des postes DTMF et de l'absence de reconnaissance de parole multi-locuteur de performance suffisante, les utilisateurs en étaient si convaincus cette fonctionnalité "reconnaissance décimale" faisait partie des obligations dans les appels d'offres publics audiotels de la fin des années 1990. De nombreuses applications vocales basées sur l'interactivité par "téléphone décimal" ont pu se développer à Taïwan et en Chine,pays où il y avait très peu de DTMF à cette époque.

Cette technologie de SVI était cependant considérée comme complexe et coûteuse pour l’automatisation des tâches en centres d’appels[5]. En 1990 le prix moyen par ligne d'accès à un service vocal était en effet de 1 200 euros actuels. Les premiers systèmes de réponse vocale de forte capacité avec la parole enregistrée sur disque dur sont apparus en France en 1987 (les machines Divaphone de FERMA poussées par la demande pour le kiosque Audiotel de Météo-France [6] . À l'époque la technologie des disques durs (de la mémoire vive en lecture/écriture aux données vocales numérisées) avait le niveau nécessaire. Un système pouvait stocker un discours numérisé sur disque, diffuser le message vocal correspondant et traiter la réponse de la personne par codes DTMF (dual-tone multi-frequency). Un 2e élan a été la création des 2 premiers opérateurs GSM en France au début 1990 (Itineris de France-Telecom et SFR) avec raccordement ISUP 2 Mbits/s, puis l'éphémère Bi-Bop de France-Telecom en technologie CT0 et son concurrent le système DECT de St-Maur[7] installé par SFR en 1995, ces systèmes mobiles nécessitant des grosses Messageries Vocales basées sur la technologie des SVIs, FERMA étant le fournisseur majeur[8]. . La capacité des plus gros SVI Divaphone 3 [9] à base d'UNIX standard utilisés dans les messageries vocales en 1995 atteignait 480 accès simultanés (16 faisceaux 2Mbits/s) dans le projet Organe Serveur Vocal(OSV) de France Telecom. En 1997, il existait des cartes vocales à interfaces numériques 2 Mbits/s E1(4 MIC dans EPONINE 120 était le maximum atteint pour 120 accès dans une seule carte de PC au format PCI), équipées d'un processeur de traitement du signal TMS 320 le plus puissant de l'époque; elles suivaient les premières cartes à un seul accès téléphonique analogique de 1985 (Cosette, EPONINE/FXT, cartes LSI, cartes Brooktrout, Elan Informatique, Acsys, Dialogic).

Durant la deuxième moitié des années 1990, avec la multiplication des ventes de modems bas débit, le serveur vocal amateur s'est démocratisé. Ceci parce que certains des modems étaient livrés avec des logiciels outils, dont une minorité était capable de faire office de répondeur téléphonique évolué, plus exactement de serveur vocal miniature (sur une seule ligne téléphonique, celle du modem). ex. : Infoback pro, FotoWin Pro de RTE Software. Ce logiciel avait pour principales utilités de permettre au modem d'assurer les fonctions de fax (télécopieur), d'accès au mode terminal (pour accès à des Bulletin board system), et en France de Minitel. Dès 2012, la plupart de ces logiciels ont cessé d'être commercialisés. Il existe quelques logiciels permettant de faire fonction de serveur vocal via le modem : IVRPhone (2008)[10].

Évolution vers la VoIP sans cartes vocales modifier

À partir des années 2000, la réponse vocale est devenue de plus en plus courante, et moins coûteuse à développer du fait de l’amélioration de la puissance des cartes vocales et de la migration des applications de reconnaissance et de synthèse vocale d’un code propriétaire à des standards, notamment VoiceXML.

Le passage à la téléphonie VoIP (plus d'accès analogique ni RNIS offert commercialement) à partir de 2010 et l'augmentation de puissance des serveurs ont supprimé le besoin de cartes vocales spécifiques pour les SVIs tant du point de vue accès au réseau (tous les serveurs ont une interface IP) que traitement du signal ou traitement de codage de parole vocal.

Même chez les opérateurs mobiles très conservateurs, les messageries vocales traditionnelles avec raccordement ISUP par des MICs à 2Mbits/s sont en voie de disparition complète remplacée par de la VoIP en SIP. Il n'y a plus besoin de cartes vocale: le DTMF est remplacé par des messages de signalisation SIP ou "in band" dans le flux RTCP traité par les processeurs principaux du serveur.

Logique de fonctionnement modifier

Les entrées modifier

Un serveur vocal interactif peut utiliser de nombreuses données selon les besoins. Le premier type d'entrée utilisé très tôt dans leur histoire est la détection de l'appui de l'utilisateur sur des touches de son téléphone. Ces appuis génèrent des fréquences sonores qui correspondent à des codes DTMF, qui sont le plus souvent utilisées pour matérialiser des choix de l'utilisateur parmi un certain nombre de propositions pré-enregistrées[11],[12],[13]. Répondre à des questions simples comme communiquer un solde de compte peut être fait sans l’intervention d’un opérateur, de même que donner une information préenregistrée. Les numéros de compte du SVI sont souvent comparés aux données d’identification de l’utilisateur pour des raisons de sécurité, et d’autres réponses du SVI sont nécessaires si l’identifiant de l’utilisateur ne correspond pas au relevé de compte.

Plus récemment, la maturité croissante des technologies de reconnaissance vocale permettent des interactions plus simples pour les utilisateurs qui peuvent dialoguer oralement avec le serveur, en se limitant généralement à des mots ou des commandes simples. La reconnaissance vocale de langues naturelles sert à interpréter les choix hors liste (réponses ouvertes) et les questions auxquelles l'interlocuteur désire des réponses. Un des derniers développements, appelé Guided speech IVR, intègre à la fois un système informatique et des agents humains.

La reconnaissance vocale apporte un mode d'interaction à la fois plus naturel et plus pratique, mais surtout autorise la création de serveurs interactifs nettement plus riches. Ainsi, on voit apparaître des services de recherche pour les annuaires, à partir de la ville et du nom d'une personne, ce qui demeure impensable avec les codes DTMF.

Au-delà des données fournies explicitement par les utilisateurs, les serveurs vocaux interactifs sont capables d'utiliser des données implicites, comme le numéro de téléphone de l'utilisateur distant, le numéro composé par l'utilisateur (dans l'hypothèse où le SVI répond sur plusieurs lignes distinctes) grâce au DNIS (Dialed Number Identification Service). Il peut aussi tenir compte de l'heure, du jour de la semaine, la durée d'attente de l'utilisateur. ou de sa géolocalisation..

Enfin, un SVI dispose souvent d'un accès à une base de données, ou à un système d'information, qui lui permet de mettre en corrélation des informations en provenance de l'utilisateur et des données de l'entreprise ou de l'organisation qui l'a déployé. La plupart des SVI récents s'interfacent nativement avec les principaux logiciels de gestion de la relation client (CRM, en anglais).

La programmation des applications vocales modifier

Sur la base des données fournies en entrées, le serveur vocal interactif est capable de suivre une logique préprogrammée, le plus souvent sous la forme d'un arbre de décision qui permet par étapes successives d'atteindre le résultat souhaité par l'utilisateur ou par l'organisation qui a déployé le SVI.

Certains SVI peuvent être programmés visuellement, en dessinant ces arbres à l'aide de composants simples (message vocal, appui sur une touche, comparaison avec une valeur de la base de données...) avec une aide graphique (LSAV) [14] . Dans d'autres cas, des scripts de programmation ou des fichiers XML de configuration sont nécessaires.

Le serveur vocal interactif est utilisé pour dialoguer avec des utilisateurs dont les besoins sont potentiellement nombreux et complexes. Parfois la logique de programmation de ces SVI peut donc elle-même devenir très complexe, et faire appel à des notions d'algorithmique avancée ou même d'intelligence artificielle.

Une nouvelle génération de serveurs vocaux interactifs permet de traiter et de publier tous types de médias (sons, images, vidéos) et de données (base de données, fichiers textes, xml, pages web). Le VoiceXML, langage reconnu par le W3C, standardise les développements sans apporter de progrès majeurs par rapport à l'IPAV [15] dont France Telecom avait désiré et dirigé la standardisation.

Les sorties modifier

La sortie principale d'un SVI est le message audio préenregistré (bande magnétique ou fichier audio).

Les dernières générations de systèmes utilisent la synthèse vocale pour générer dynamiquement certains énoncés, particulièrement s'ils sont simples, comme des montants, dates, heures ou autres valeurs numériques. Un autre système utilisé sont les chaînes concaténées de fichiers audio, dont la qualité reste supérieure mais qui ne permettent pas de traiter tous les textes. Le plus souvent, les systèmes utilisent un mélange des deux techniques.

De la même façon qu'un SVI est capable d'accéder à une base de données, il est capable d'y écrire, par exemple pour enregistrer une transaction ou pour conserver la trace d'une interaction avec l'utilisateur.

Enfin, le SVI peut être intégré à d'autres systèmes qui étendent ses capacités, comme un centre d'appel (le SVI peut alors transférer certains appels à certains opérateurs), un SMS Center (le SVI peut alors envoyer des SMS, voire réagir à la réception de SMS), un serveur mail (le SVI peut alors envoyer des email, voire réagir à la réception d'emails contenant des données spécifiques).

Utilisation modifier

Les serveurs vocaux interactifs sont utilisés dans le but de traiter de grands volumes d'appels, de réduire les coûts et d'améliorer l'expérience client. L'utilisation des SVI et de l'automatisation vocale permet de répondre aux questions des utilisateurs sans les mettre en attente ni supporter le coût d'un véritable agent. Si les utilisateurs n'obtiennent pas l'information qu'ils cherchent ou s'ils ont besoin d'une assistance supplémentaire, les appels sont généralement transférés à un agent. Cette combinaison constitue un système efficace qui permet aux agents de disposer de plus de temps pour gérer les interactions complexes. Lorsqu'un serveur vocal interactif répond à de multiples numéros de téléphone simultanément, l'utilisation du service d'identification du numéro composé permet de garantir que l'application et le langage utilisés sont les bons. Un seul SVI de grande capacité est capable de traiter des appels pour des milliers d'applications, chacune d'entre elles comportant ses propres numéros de téléphone et script.

Les centres d'appels utilisent des serveurs vocaux interactifs afin d'identifier et de segmenter les utilisateurs. Leur capacité à identifier les clients permet de mettre en place des services sur mesure en fonction du profil du client. Il peut lui être proposé d’être mis en attente, de choisir un service automatisé ou de demander à être rappelé plus tard. Le système peut obtenir des informations d'identification de la ligne appelante (ILA) par le réseau, afin de l'aider à identifier ou authentifier le client. Le numéro de compte, le mot de passe ainsi que des données personnelles et biométriques (notamment l'empreinte vocale) peuvent constituer d'autres données d'authentification de l'utilisateur. Un SVI permet également d'établir des priorités entre les clients. Dans un système où chaque client peut avoir un statut différent, le service établira automatiquement des priorités en matière d'appels et pourra passer certains clients en tête de certaines listes particulières de mise en attente.

Les serveurs vocaux interactifs consigneront également dans leur propre base de données les informations détaillées relatives aux appels, à des fins d'audit, de création de rapports de performance et de futures améliorations des SVI. Le couplage téléphonie-informatique (CTI) permet à une organisation ou un centre de contact de collecter des informations sur l'utilisateur afin de s'en servir pour guider la requête et la transmettre à l'agent compétent. Le CTI peut transférer, du SVI à l'agent, des informations importantes concernant le client ainsi que le dialogue par SVI, à l'aide d'une remontée de fiches rendant le service plus efficace. Les serveurs vocaux interactifs à numérotation vocale (voice-activated dialing, VAD) sont utilisés pour automatiser les demandes courantes adressées aux standardistes ou opérateurs PBX (autocommutateur téléphonique privé, private automatic branch exchange), et sont employés dans de nombreux hôpitaux et grandes entreprises dans le but de réduire le temps d'attente de l'utilisateur. Une fonction supplémentaire permet aux correspondants externes d'appeler un membre de l'équipe et de transférer l'appel entrant à la personne concernée. Les serveurs vocaux interactifs peuvent aussi être utilisés afin de proposer une expérience client plus sophistiquée en matière de messagerie vocale.

Identification de l'éditeur du numéro modifier

Le SVI permet à l'appelant de confirmer l'identité de la société derrière ce numéro sans parler à un téléconseiller.

Banque modifier

Les institutions bancaires s'appuient sur les serveurs vocaux interactifs pour la fidélisation clients et pour étendre leurs horaires d'ouverture jusqu'à une disponibilité 24 h/24, 7 j/7. Les services bancaires téléphoniques permettent aux clients de vérifier leurs comptes et l'historique de leurs transactions ainsi que d'effectuer des paiements et des virements. L'apparition des services bancaires en ligne a toutefois réduit la satisfaction client en matière de services bancaires téléphoniques[16].

Médecine modifier

Les serveurs vocaux interactifs sont utilisés par les entreprises pharmaceutiques et les organisations de recherche contractuelle afin de mener des essais cliniques et de gérer les importants volumes de données générés. L'utilisateur répond aux questions dans la langue de son choix et les réponses sont consignées dans une base de données ; ces réponses peuvent en même temps être enregistrées afin d'en confirmer l'authenticité. Les applications comprennent la randomisation des patients et la gestion de l'approvisionnement en médicaments. Ils sont également utilisés pour l'enregistrement des journaux de bord et des questionnaires des patients[17].

Les serveurs vocaux interactifs permettent aux utilisateurs d'obtenir des informations de façon relativement anonyme. Les hôpitaux et cliniques utilisent les serveurs vocaux interactifs afin de permettre aux utilisateurs d'avoir accès, de façon anonyme, aux résultats de leurs examens. Ces informations pourraient certes être traitées facilement par un individu, mais le serveur vocal interactif permet de préserver la vie privée de chacun et d'éviter une éventuelle gène concernant certaines informations ou résultats délicats. Un code d'accès est transmis aux utilisateurs afin qu'ils aient accès à leurs résultats.

Sondages modifier

Certaines des plus grandes plateformes de SVI installées sont utilisées pour les votes par téléphone dans le cadre des émissions de télévision telles que Nouvelle Star ou Secret Story, qui peuvent générer des pics d'appels considérables. Le fournisseur de réseau met souvent en place des espacements des appels sur le RTC afin de prévenir la saturation du réseau. Les serveurs vocaux interactifs peuvent également être utilisés par des organismes d'enquête dans le cadre de questions plus délicates pour lesquelles l'enquêteur peut penser que le sondé se sentira moins à l'aise s'il s'agit de donner certaines réponses à un interlocuteur humain (questions portant par exemple sur la consommation de drogues ou sur le comportement sexuel). Dans certains cas, un serveur vocal interactif peut être employé en association avec un intervenant humain, dans le cadre d'une même enquête.

Critiques modifier

Les SVI peuvent être frustrants pour les utilisateurs qui doivent écouter de nombreux menus avant de faire leur choix. Certains services clients l'affichent directement sur leur page de contact.

Perspectives modifier

Malgré les critiques portées à l'encontre des SVI depuis leur apparition (impersonnels, obtus, compliqués), les serveurs vocaux interactifs sont tirés par plusieurs forces puissantes qui expliquent leur croissance constante :

  • la croissance du secteur de la téléphonie partout dans le monde, tirée par la baisse des coûts des appareils, du temps de communication, et la culture du temps réel
  • la démocratisation du téléphone mobile dans les pays en développement, où l'alphabétisation est encore faible et où la capacité à interagir oralement est une contrainte forte
  • leur capacité à être une source importante d'économie en remplaçant une part significative des opérateurs humains dédiés aux interactions téléphoniques pour les organisations en contact avec de nombreux interlocuteurs
  • leur intelligence croissante, leur permettant de rendre de plus en plus de services, et donc d'être plus en plus présents dans la vie de chacun. À ce titre, Siri ou Google Now sont des formes de serveurs vocaux interactifs directement embarqué dans des smartphones, qui fonctionnent sur une connexion 3G/4G/5G au lieu d'une connexion GSM.

Le serveur vocal interactif, à condition d'être réellement abouti pour ce qui est de la reconnaissance vocale, de l'intelligence artificielle et de la synthèse vocale, est donc une interface homme-machine intéressante, offrant une convivialité naturelle sans nécessiter d'affichage, et donc particulièrement adaptée aux environnements nécessitant de laisser libre les mouvements et la vue des utilisateurs, comme la conduite de véhicule ou d'engin, ou les déplacements en règle générale.

Notes et références modifier

  1. (en) « Enhancing customer engagement with interactive voice response », sur The Next Web (consulté le )
  2. (en) « Implementing Voice Over IP », sur Wiley Online Library (consulté le )
  3. Florence Goulet, « L'aveugle et l'ordinateur », Sciences et Techniques, no 32,‎ , p. 28-29
  4. A.Henry-Labordère, « Dispositif de dialogue vocal entre un ordinateur et un poste téléphonique et procédé de mise en œuvre », WIPO Patentscope, FR8320141,‎ (lire en ligne)
  5. (en) « History of a business revolution at the end of a phone », sur Easy IVR (consulté le )
  6. Marc Feretti, « La Télématique prend la parole », Sciences et Techniques, no 34,‎ , p. 41-46
  7. https://www.usinenouvelle.com/article/quel-systeme-de-communication-mobile-choisir.N76466
  8. Hugues Jardel, « FERMA, 90% du marché français des serveurs vocaux », Videotex & RNIS magazine, no 53,‎ , p. 12-13
  9. (en) A.Henry-Labordère, « Method and installation for analysis of a series of pulse responses, especially for recognition of ancillary decimal dialing over the telephone network », WIPO Patentscope, FR9302061,‎ (lire en ligne)
  10. IVRPhone - IVR 2008
  11. (en) « How Interactive Voice Response (IVR) Works », sur How Stuff Works (consulté le )
  12. « Serveur Vocal Interactif », sur Genesys (consulté le )
  13. « What is an IVR and 6 Benefits of Using One », sur Talkdesk (consulté le )
  14. « De 15000F à 1 million de francs: Dix serveurs vocaux interactifs », Décision, no 275,‎ , p. 14
  15. R.Péron, « Les serveurs vocaux interactifs », Commutation et Transmission, no 3,‎
  16. « Interactive Voice Response (IVR): The missing link », sur IT Pro Protal
  17. « Validation of interactive voice response system administration of the Short Inflammatory Bowel Disease Questionnaire », sur Inflammatory Bowel Disease

Articles connexes modifier

Sources modifier

  • La Dépêche du Midi,"Blagnac, le deuxième souffle de la télématique",
  • Télématique Magazine, "L'explosion du vocal", N°27,Dec.1988,pp46-48
  • Videotex & RNIS Magazine, "Telematique vocale", N°54, p22
  • Banque&Informatique,"L'audiotex bancaire",Hors série,
  • Voice Processing Newsletter, "France Telecom chooses local voice partners",Vol 10,N°19,Jul 1,1991