Reconnaissance vocale

C'est un excellent article qui vaut la peine d'être lu.
Un article de Wikipédia, l'encyclopédie libre
Aller à la navigation Aller à la recherche

La reconnaissance vocale ou reconnaissance automatique de la parole est un processus et un sous-domaine de l' informatique appliquée , de l'ingénierie et de la linguistique informatique . Elle s'occupe de l'investigation et du développement de méthodes qui rendent les automates, en particulier les ordinateurs , accessibles au langage parlé d' acquisition automatique de données . Par exemple, des transcriptions consultables peuvent être créées à partir de pistes audio .

La reconnaissance vocale est à distinguer de la reconnaissance vocale ou du locuteur, procédé biométrique d'identification personnelle. Cependant, les réalisations de ces méthodes sont similaires.

développement historique

Les recherches sur les systèmes de reconnaissance vocale ont commencé dans les années 1960, mais ont été largement infructueuses à l'époque : les systèmes développés par des entreprises privées permettaient de reconnaître quelques dizaines de mots individuels dans des conditions de laboratoire . D'une part, cela était dû aux connaissances limitées dans ce nouveau domaine de recherche, mais aussi aux possibilités techniques limitées à l'époque.

Il a fallu attendre le milieu des années 1980 pour que le développement progresse davantage. C'est à cette époque qu'on a découvert que les homophones pouvaient être distingués par des vérifications de contexte. En créant et en évaluant des statistiques sur la fréquence de certaines combinaisons de mots, il a été possible de décider lequel des mots qui semblaient similaires ou identiques était signifié. Ces statistiques dites de trigrammes sont devenues par la suite une partie importante de tous les systèmes de reconnaissance vocale. En 1984, IBM a introduit le premier système de reconnaissance vocale capable de reconnaître environ 5 000 mots anglais individuels. Cependant, le système nécessitait plusieurs minutes de temps de calcul sur un ordinateur central pour un processus de reconnaissance. En revanche, un système développé par Dragon Systems était plus avancé : il pouvait être utilisé sur un PC portable.

Entre 1988 et 1993, le projet européen SUNDIAL [1] a également démontré la reconnaissance vocale des horaires de train en allemand. [2] SUNDIAL a également étudié les scores de reconnaissance vocale. [3] [4] [5]

En 1991, IBM a présenté pour la première fois au CeBIT un système de reconnaissance vocale capable de reconnaître 20 000 à 30 000 mots allemands. Cependant, la présentation du système appelé TANGORA 4 devait avoir lieu dans une salle spécialement blindée, faute de quoi le bruit de la foire commerciale aurait perturbé le système.

Fin 1993, IBM a présenté le premier système de reconnaissance vocale développé pour le marché de masse : le système appelé IBM Personal Dictation System fonctionnait sur des PC normaux et coûtait moins de 1000 dollars. Lorsqu'il a été présenté sous le nom de système de dictée IBM VoiceType au CeBIT 1994, il a rencontré un vif intérêt auprès des visiteurs et de la presse spécialisée.

En 1997, le logiciel IBM ViaVoice (successeur d'IBM VoiceType) et la version 1.0 du logiciel Dragon NaturallySpeaking ont été lancés pour l'utilisateur final du PC . En 1998, Philips Speech Recognition Systems a lancé FreeSpeech 98, un système de reconnaissance vocale pour les utilisateurs finaux de PC dont le contrôle a été adapté au propre appareil de dictée numérique de l'entreprise SpeechMike, mais a interrompu la gamme de produits après la deuxième version, FreeSpeech 2000. En 2004, IBM a publié des parties de ses applications de reconnaissance vocale en open source , ce qui a fait sensation. Les experts de l'industrie soupçonnaient des mesures tactiques contre Microsoft comme raison, qui est également actif dans ce domaine et, depuis 2007, avec la sortie de son système d'exploitation Windows Vista pour PC, a proposé pour la première fois des fonctions de reconnaissance vocale pour le contrôle et la dictée en tant que partie intégrante , qui ont été développées dans Windows 10 pour date .

Alors que le développement d'IBM ViaVoice a été interrompu, Dragon NaturallySpeaking est devenu aujourd'hui le logiciel de reconnaissance vocale tiers dépendant du locuteur le plus largement utilisé pour les PC Windows et est fabriqué et distribué par Nuance Communications depuis 2005.

En 2008, avec l'acquisition de Philips Speech Recognition Systems, Vienne, Nuance a également acquis les droits du kit de développement logiciel (SDK) SpeechMagic , particulièrement populaire dans le secteur de la santé. Pour les ordinateurs personnels iMac d' Apple , MacSpeech vend depuis 2006 un logiciel tiers de reconnaissance vocale sous le nom d'iListen, basé sur des composants Philips. En 2008, il a été remplacé par MacSpeech Dictate utilisant les composants de base de Dragon NaturallySpeakingremplacé et renommé Dragon Dictate (version 2.0 - la version 3.0 est distribuée depuis 2012) après l'acquisition de MacSpeech par Nuance Communications en 2010.

Siri Inc. a été fondée en 2007 et rachetée par Apple en avril 2010. En octobre 2011, Apple a présenté le logiciel de reconnaissance vocale Siri pour l'iPhone 4s, qui permet de reconnaître et de traiter naturellement le langage parlé (à l'aide des serveurs Apple) et est destiné à remplir les fonctions d'un assistant personnel.

Statut actuel

Actuellement, une distinction approximative peut être faite entre deux types de reconnaissance vocale :

  • Reconnaissance vocale indépendante du locuteur
  • Reconnaissance vocale dépendante du locuteur

La caractéristique de la reconnaissance vocale "indépendante du locuteur" est la propriété que l'utilisateur peut démarrer la reconnaissance vocale immédiatement sans phase d'apprentissage préalable. Cependant, le vocabulaire est limité à quelques milliers de mots.

Les reconnaissances vocales "dépendantes du locuteur" sont formées par l'utilisateur avant utilisation (dans les systèmes plus récents : pendant l'utilisation) sur leurs propres particularités de prononciation. Un élément central est l'option d'interaction individuelle avec le système afin d'obtenir un résultat optimal en fonction du locuteur (propre terminologie, abréviations, abréviations, etc.). L'utilisation dans des applications avec des utilisateurs changeant fréquemment (par exemple, des centres d'appels) n'a pas de sens. En comparaison, le vocabulaire est beaucoup plus large que celui des reconnaisseurs indépendants du locuteur. Les systèmes actuels contiennent plus de 300 000 formes de mots. Il faut également distinguer :

  • systèmes frontaux et
  • systèmes dorsaux.

Dans les systèmes frontaux , la langue est traitée et convertie en texte immédiatement, de sorte que le résultat peut être lu pratiquement sans délai digne d'être mentionné. L'implémentation peut être effectuée sur l'ordinateur de l'utilisateur ou sur le cloud. La qualité de reconnaissance la plus élevée est obtenue ici grâce à l'interaction directe entre l'utilisateur et le système. Le système peut également être contrôlé via des commandes et l'intégration d'autres composants tels que des systèmes d'assistance en temps réel. Dans les systèmes back-end , en revanche, la conversion est effectuée avec un délai. Cela se produit généralement sur un serveur distant. Le texte n'est disponible qu'avec un délai. De tels systèmes sont encore répandus dans le domaine médical. Puisqu'il n'y a pas d'interaction directe entre le locuteur et le résultat de la reconnaissance, une qualité exceptionnelle ne peut être attendue que si l'utilisateur a déjà une expérience de la reconnaissance vocale.

La reconnaissance vocale "indépendante du locuteur" est de préférence utilisée dans des applications techniques, par exemple dans des systèmes de dialogue automatique tels que des informations d'horaire. Partout où seul un vocabulaire limité est utilisé, la reconnaissance vocale indépendante du locuteur est pratiquée avec succès. Les systèmes de reconnaissance des chiffres anglais parlés de 0 à 9 atteignent un taux de reconnaissance de près de 100 %.

Lors de l'utilisation de la reconnaissance vocale "dépendante du locuteur", des taux de reconnaissance très élevés peuvent être atteints. Cependant, même une précision de 95 % peut être perçue comme trop faible, car trop de choses doivent être améliorées. Le facteur décisif pour le succès de la reconnaissance vocale "dépendante du locuteur" est l'interaction entre l'utilisateur et le système, qui permet à l'utilisateur d'influencer directement ou indirectement le résultat de la reconnaissance personnelle.

Entre-temps, les systèmes actuels ont atteint des taux de reconnaissance d'environ 99 % lors de la dictée de textes continus sur des ordinateurs personnels et répondent ainsi aux exigences pratiques de nombreux domaines d'application, par ex. B. pour les textes scientifiques, la correspondance commerciale ou les mémoires juridiques. Son utilisation atteint ses limites où l'auteur respectif a constamment besoin de nouveaux mots et formes de mots qui ne sont pas initialement reconnaissables par le logiciel, dont l'ajout manuel est possible mais pas efficace s'il n'intervient qu'une seule fois dans les textes d'un même locuteur. Par conséquent, par ex. B. les poètes utilisent moins la reconnaissance vocale que z. B. Médecins et avocats . [6]

Outre la taille et la flexibilité du dictionnaire, la qualité de l'enregistrement acoustique joue également un rôle crucial. Avec des microphones placés directement devant la bouche (par exemple dans des casques ou des téléphones), une précision de détection nettement plus élevée est obtenue qu'avec des microphones de pièce plus éloignés.

Cependant, les facteurs d'influence les plus importants dans la pratique sont une prononciation précise et une dictée cohérente et fluide, de sorte que les connexions de mots et les probabilités d'ordre des mots peuvent être intégrées de manière optimale dans le processus de reconnaissance.

La reconnaissance vocale se développe très rapidement. Aujourd'hui (à partir de 2016), les systèmes de reconnaissance vocale sont utilisés, entre autres, utilisé dans les smartphones B. avec Siri , Google Now , Cortana et S Voice de Samsung . Les systèmes de reconnaissance vocale actuels n'ont plus besoin d'être entraînés. La plasticité du système est déterminante pour un haut degré de précision en dehors du langage courant. Afin de pouvoir répondre aux exigences élevées, les systèmes professionnels offrent à l'utilisateur la possibilité d'influencer le résultat personnel en prescrivant ou en auditionnant. [sept]

lecture sur les lèvres

Afin d'augmenter encore la précision de la reconnaissance, on tente parfois de filmer le visage du locuteur à l'aide d'une caméra vidéo et d'en lire les mouvements des lèvres . En combinant ces résultats avec les résultats de la reconnaissance acoustique, un taux de reconnaissance significativement plus élevé peut être atteint, en particulier avec des enregistrements bruyants. [8ème]

Cela correspond à des observations faites dans la reconnaissance de la parole humaine : Harry McGurk a découvert en 1976 que les gens déduisent aussi le langage parlé du mouvement de leurs lèvres ( effet McGurk ).

sortie vocale

Étant donné que la communication avec la parole humaine est principalement un dialogue entre deux interlocuteurs, la reconnaissance vocale est souvent associée à la synthèse vocale . De cette manière, l'utilisateur du système peut recevoir un retour acoustique sur le succès de la reconnaissance vocale et des informations sur toutes les actions qui ont pu être effectuées. De la même manière, l'utilisateur peut également être invité à effectuer une autre saisie vocale.

problème

Pour comprendre comment fonctionne un système de reconnaissance vocale, il faut d'abord être clair sur les défis qui doivent être surmontés.

Langage discret et continu

Dans une phrase du langage courant, les mots individuels sont prononcés sans pause notable entre les deux. En tant qu'être humain, vous pouvez vous orienter intuitivement sur les transitions entre les mots - les systèmes de reconnaissance vocale antérieurs n'étaient pas capables de le faire. Ils nécessitaient un discours discret (interrompu) qui nécessitait des pauses artificielles entre les mots.

Cependant, les systèmes modernes sont également capables de comprendre la parole continue (fluide).

Langage discret

Graphique de la phrase : "L'encyclopédie libre", prononcée discrètement

Dans le langage discret, vous pouvez clairement voir les pauses entre les mots, qui sont plus longues et plus claires que les transitions entre les syllabes dans l' encyclopédie de mots .

Discours continu

Graphique de la phrase : "The Free Encyclopedia", prononcée en continu

Dans le discours continu, les mots individuels se fondent les uns dans les autres, aucune pause n'est reconnaissable.

taille du vocabulaire

Par inflexion , c'est-à-dire la flexion d'un mot en fonction de sa fonction grammaticale, les radicaux de mots ( lexèmes ) aboutissent à un grand nombre de formes de mots. Ceci est important pour la taille du vocabulaire, puisque toutes les formes de mots doivent être considérées comme des mots indépendants dans la reconnaissance vocale.

La taille du dictionnaire dépend fortement de la langue. D'une part, le locuteur allemand moyen a un vocabulaire nettement plus large avec environ 4000 mots que les anglophones avec environ 800 mots. De plus, l'inflexion dans la langue allemande se traduit par environ dix fois plus de formes de mots que dans la langue anglaise , où il n'y a que quatre fois plus de formes de mots. (préciser les sources)

homophones

De nombreuses langues ont des mots ou des formes de mots qui ont des significations différentes mais qui se prononcent de la même manière. Les mots « mer » et « plus » semblent identiques, mais n'ont toujours rien à voir l'un avec l'autre. De tels mots sont appelés homophones . Étant donné qu'un système de reconnaissance vocale, contrairement aux humains, n'a généralement aucune connaissance du monde , il ne peut pas différencier les différentes options en fonction de la signification.

La question des majuscules ou des minuscules relève également de ce domaine.

formants

Au niveau acoustique, la localisation des formants joue un rôle particulièrement important : les composantes fréquentielles des voyelles parlées sont typiquement concentrées à certaines fréquences différentes appelées formants. Les deux formants les plus bas sont particulièrement importants pour distinguer les voyelles : la fréquence la plus basse est comprise entre 200 et 800 Hertz , la plus élevée entre 800 et 2400 Hertz. Les voyelles individuelles peuvent être distinguées par l'emplacement de ces fréquences.

les consonnes

"parler" parlé, original
"p" caché

Les consonnes sont relativement difficiles à reconnaître; les consonnes individuelles (appelées plosives ), par exemple, ne peuvent être identifiées que par la transition vers les sons voisins, comme le montre l'exemple suivant :

On reconnaît qu'au sein du mot parler la consonne p (plus précisément : la phase de fermeture du phonème p ) n'est en fait que du silence et n'est reconnue qu'à travers les transitions vers les autres voyelles - la suppression ne provoque donc pas de différence audible.

D'autres consonnes sont définitivement reconnaissables par leurs motifs spectraux caractéristiques. Par exemple, le son s et le son f ( sons de frottement ) sont caractérisés par une forte proportion d'énergie dans les bandes de fréquences supérieures. Il est à noter que les informations pertinentes pour distinguer ces deux sons sont largement en dehors du domaine spectral (jusqu'à environ 3,4 kHz) transmis dans les réseaux téléphoniques. Cela explique pourquoi l'orthographe au téléphone sans utiliser un alphabet d'orthographe spécial est également extrêmement fastidieuse et sujette aux erreurs dans la communication entre deux personnes.

dialectes et sociolectes

Même si un programme de reconnaissance vocale est déjà bien adapté à un langage de haut niveau , cela ne signifie pas qu'il peut comprendre toutes les variantes de ce langage. De tels programmes atteignent souvent leurs limites, notamment dans le cas des dialectes et des sociolectes . Les gens sont généralement capables de s'adapter rapidement au dialecte éventuellement inconnu de leur homologue - les logiciels de reconnaissance ne sont pas facilement capables de le faire. Les dialectes doivent d'abord être enseignés au programme dans des processus complexes. [9]

De plus, il faut également noter que le sens des mots peut changer occasionnellement et selon les régions. Par exemple, les Bavarois et les Berlinois entendent des desserts différents lorsqu'ils parlent de "crêpes". Grâce à leurs connaissances culturelles, les gens peuvent éviter et dissiper de tels malentendus plus facilement que les logiciels ne sont actuellement capables de le faire.

Stratégies pour résoudre les problèmes de communication

S'il y a des problèmes pour comprendre une communication, les gens ont naturellement tendance à parler particulièrement fort ou à décrire plus en détail les termes mal compris. Cependant, cela peut avoir un effet contre-productif sur un ordinateur, car il est entraîné pour un volume de conversation normal et fonctionne également davantage avec des mots-clés qu'avec des contextes de capture.

la concrétisation

Structure d'un système de reconnaissance vocale selon Alexander Waibel

Un système de reconnaissance vocale comprend les composants suivants : Le prétraitement, qui décompose les signaux vocaux analogiques en fréquences individuelles . La reconnaissance proprement dite s'effectue ensuite à l'aide de modèles acoustiques, de dictionnaires et de modèles de langage.

prétraitement

Le prétraitement consiste essentiellement en les étapes d' échantillonnage , de filtrage, de transformation du signal dans le domaine fréquentiel et de création du vecteur caractéristique .

balayage

Lors de l'échantillonnage , le signal analogique (continu) est numérisé , c'est-à-dire décomposé en une séquence de bits exploitable électroniquement afin de pouvoir le traiter plus facilement.

filtration

La tâche la plus importante de l'étape de filtrage est de faire la distinction entre les bruits ambiants tels que le bruit ou par ex. B. bruit et parole du moteur. A cet effet, par exemple, l'énergie du signal ou le taux de passage par zéro est utilisé.

transformation

Ce n'est pas le signal temporel qui est pertinent pour la reconnaissance vocale, mais le signal dans la gamme de fréquences. Pour ce faire, il est transformé à l'aide de FFT . Les composantes de fréquence présentes dans le signal peuvent être lues à partir du résultat, le spectre de fréquence .

vecteur de caractéristique

Un vecteur de caractéristiques est créé pour la reconnaissance vocale réelle. Il s'agit de caractéristiques interdépendantes ou indépendantes qui sont générées à partir du signal vocal numérique. En plus du spectre déjà mentionné, cela inclut surtout le cepstre. Les vecteurs de caractéristiques peuvent z. B. au moyen d'une métrique préalablement définie .

cepstre

Le cepstre est obtenu à partir du spectre en formant la FFT du spectre d'amplitude logarithmique. De cette manière, les périodicités dans le spectre peuvent être reconnues. Ceux-ci sont dans le tractus vocal humainet généré par la stimulation des cordes vocales. Les périodicités dues à l'excitation des cordes vocales prédominent et se retrouvent donc dans la partie supérieure du cepstre, tandis que la partie inférieure reflète la position du conduit vocal. Ceci est pertinent pour la reconnaissance vocale, de sorte que seules ces parties inférieures du cepstre sont incluses dans le vecteur de caractéristiques. Étant donné que la fonction de transfert d'espace - c'est-à-dire la variation du signal z. B. par des réflexions sur les murs - non modifiées dans le temps, cela peut être représenté par la valeur moyenne du cepstre. Celui-ci est donc souvent soustrait au cepstre afin de compenser les échos. La première dérivation du cepstre, qui peut également être incluse dans le vecteur caractéristique, doit également être utilisée pour compenser la fonction de transfert spatial.

reconnaissance

Modèle de reconnaissance vocale basé sur un modèle de Markov caché

Modèles de Markov cachés

Dans la suite, les modèles de Markov cachés (HMM) jouent un rôle important. Ceux-ci permettent de trouver les phonèmes qui correspondent le mieux aux signaux d'entrée. Pour ce faire, le modèle acoustique d'un phonème est décomposé en différentes parties : le début, un nombre différent de parties médianes selon la longueur, et la fin. Les signaux d'entrée sont comparés à ces sections mémorisées et les combinaisons possibles sont recherchées à l'aide de l' algorithme de Viterbi .

Pour la détection de la parole interrompue (discrète) (où une pause est faite après chaque mot), il suffisait de calculer un mot à la fois avec un modèle de pause dans le HMM. Cependant, étant donné que la capacité de calcul des PC modernes a considérablement augmenté, il est désormais également possible de reconnaître la parole fluide (continue) en formant des modèles de Markov cachés plus grands composés de plusieurs mots et des transitions entre eux.

Les réseaux de neurones

Alternativement, des tentatives ont déjà été faites pour utiliser des réseaux de neurones pour le modèle acoustique. Avec les réseaux de neurones à temporisation , les changements du spectre de fréquences dans le temps doivent être utilisés pour la détection en particulier. Le développement a d'abord donné des résultats positifs, mais a ensuite été abandonné au profit des HMM. Ce n'est que ces dernières années que ce concept a été redécouvert dans le contexte des réseaux de neurones profonds. Les systèmes de reconnaissance vocale basés sur l'apprentissage en profondeur offrent des taux de reconnaissance dans la gamme humaine. [10] Coqui STT est un outil open source gratuit. [11] [12]STT signifie Speech To Text.

Cependant, il existe également une approche hybride dans laquelle les données obtenues à partir du prétraitement sont pré-classifiées par un réseau de neurones et la sortie du réseau est utilisée comme paramètre pour les modèles de Markov cachés. Cela présente l'avantage que vous pouvez également utiliser des données juste avant et juste après la période qui vient d'être traitée sans augmenter la complexité des HMM. De plus, la classification des données et la composition contextuelle (formation de mots/phrases significatifs) peuvent être séparées l'une de l'autre.

modèle de langage

Le modèle linguistique tente alors de déterminer la probabilité de certaines combinaisons de mots et ainsi d'écarter des hypothèses erronées ou improbables. Un modèle de grammaire utilisant des grammaires formelles ou un modèle statistique utilisant des n-grammes peut être utilisé à cette fin.

Une statistique bigramme ou trigramme stocke la probabilité d'occurrence de combinaisons de mots de deux mots ou plus. Ces statistiques sont obtenues à partir de grands corpus de textes (exemples de textes). Chaque hypothèse déterminée par la reconnaissance vocale est alors vérifiée et, le cas échéant, écartée si sa probabilité est trop faible. Cela signifie que les homophones, c'est-à-dire des mots différents avec la même prononciation, peuvent également être distingués. « Merci beaucoup » serait donc plus probable que « Merci beaucoup », bien que les deux se prononcent de la même manière.

Avec les trigrammes, par rapport aux bigrammes, des estimations théoriquement plus précises de la probabilité d'occurrence des combinaisons de mots sont possibles. Cependant, les exemples de bases de données de textes à partir desquels les trigrammes sont extraits doivent être beaucoup plus volumineux que pour les bigrammes, car toutes les combinaisons légales de trois mots doivent y apparaître en nombre statistiquement significatif (c'est-à-dire chacun beaucoup plus d'une fois). Les combinaisons de quatre mots ou plus n'ont pas été utilisées pendant longtemps, car en général, il n'est plus possible de trouver des exemples de bases de données de textes contenant un nombre suffisant de toutes les combinaisons de mots. Une exception est Dragon, qui à partir de la version 12 utilise également des pentagrammes - ce qui augmente la précision de la reconnaissance dans ce système.

Lorsque des grammaires sont utilisées, il s'agit principalement de grammaires sans contexte . Cependant, chaque mot doit se voir attribuer sa fonction dans la grammaire. Pour cette raison, de tels systèmes ne sont généralement utilisés que pour un vocabulaire limité et des applications spéciales, mais pas dans les logiciels de reconnaissance vocale courants pour PC.

évaluation

La qualité d'un système de reconnaissance vocale peut être spécifiée avec différents nombres. En plus de la vitesse de reconnaissance - généralement spécifiée en tant que facteur temps réel (RTF) - la qualité de la reconnaissance peut être mesurée en termes de précision des mots ou de taux de reconnaissance des mots .

vocabulaires

Il existe déjà des vocabulaires prédéfinis pour l'intégration de systèmes de reconnaissance vocale professionnels, ce qui devrait faciliter le travail avec la reconnaissance vocale. Ces vocabulaires sont appelés, par exemple, dans le contexte de SpeechMagic ConText et dans le domaine de Dragon Datapack . Plus le vocabulaire est adapté au vocabulaire et au style de dictée (fréquence des séquences de mots) utilisé par le locuteur, plus la précision de la reconnaissance est élevée. En plus du lexique indépendant du locuteur (vocabulaire spécialisé et de base), un vocabulaire comprend également un modèle de séquence de mots individuel (modèle de langue). Dans le vocabulaire, tous les mots connus du logiciel sont en phonétiqueet l'orthographe stockée. De cette façon, un mot prononcé est reconnu par le système par son son. Lorsque les mots ont un sens et une orthographe différents mais se prononcent de la même manière, le logiciel utilise le modèle d'ordre des mots. Il définit la probabilité qu'un mot suive un autre pour un utilisateur spécifique. La reconnaissance vocale dans les smartphones utilise les mêmes concepts techniques, mais sans que l'utilisateur n'ait d'influence sur le vocabulaire prédéfini. Les nouvelles technologies s'éloignent de l'idée d'une liste de mots stockée rigide, car des mots composés peuvent être formés. Ce que tous les systèmes ont en commun, c'est qu'ils n'apprennent que des mots individuels et des séquences de mots grâce aux corrections apportées par l'utilisateur respectif.

Exemples d'applications

La reconnaissance vocale est utilisée de nos jours, par ex. utilisé dans les smartphones B. avec Siri , Google Now , Cortana , Echo/Alexa d'Amazon , S Voice de Samsung ou l' assistant vocal open source gratuit Mycroft . Avec la fiabilité désormais élevée dans le langage courant (par exemple les smartphones) ou dans le langage technique (systèmes professionnels personnalisables), la parole peut être convertie en texte (speech to text) , des commandes et des contrôles peuvent être exécutés (command and control) ou des analyses sémantiques peuvent être réalisé (compréhension du langage) .

Avec la qualité croissante de la reconnaissance vocale, de nouveaux domaines d'application sont constamment ajoutés. Les solutions avec smartphones, entre autres, offrent plus de confort lorsqu'il s'agit d'utiliser des systèmes hi-fi ou des systèmes d'éclairage dans votre propre maison. L'exemple de la régulation du chauffage par commandes vocales montre également que des problématiques techniquement complexes peuvent ainsi être exploitées très facilement. Aujourd'hui, une commande vocale suffit pour régler les courbes de chauffe , programmer les profils de température ou passer le système de chauffage en mode vacances réduites pendant un certain temps. Un effet secondaire positif : les gens profitent plus souvent des possibilités d'économies et économisent de l'énergie. [13]

La reconnaissance vocale assure également plus de sécurité. Un exemple en est le contrôle des systèmes de navigation, des radios ou des smartphones dans les voitures. Les utilisateurs n'ont plus à quitter la route des yeux. Vous pouvez garder les mains sur le volant et rester concentré sur la route. [14]

Un autre domaine d'application important pour la reconnaissance vocale est la médecine. Ici, la technologie permet aux chirurgiens d'utiliser des appareils sans les mains et de créer des protocoles sur le côté. Les solutions augmentent la qualité du travail et permettent de gagner beaucoup de temps, ce qui profite aussi bien aux médecins qu'aux patients. [15]

Voir également

Littérature

  • Pirani, Giancarlo, éd. : Algorithmes et architectures avancés pour la compréhension de la parole. Tome 1. Springer Science & Business Media, 2013. ISBN 978-3-642-84341-9 .
  • Lawrence R Rabiner, Ronald W Schafer : Traitement numérique des signaux vocaux , 1978, ISBN 0-13-213603-1 .
  • Matthias Woelfel, John McDonough : Reconnaissance vocale à distance , 2009, ISBN 0-470-51704-2 .
  • Lawrence R. Rabiner, Biing-Hwang Juang Juang : Principes fondamentaux de la reconnaissance vocale , 1993, ISBN 0-13-015157-2 .
  • Ernst Günter Schukat-Talamazzini : Reconnaissance vocale automatique. Fondamentaux, modèles statistiques et algorithmes efficaces , Vieweg, Braunschweig/Wiesbaden 1995, ISBN 3-528-05492-1 .

liens web

Wiktionnaire : Reconnaissance vocale  - explications du sens, origine des mots, synonymes, traductions

Sources

  1. Compréhension de la parole et dialogue. Consulté le 22 mai 2020 .
  2. Peckham, Jeremy : Compréhension de la parole et dialogue au téléphone : un aperçu du projet ESPRIT SUNDIAL. SDJ. 1991
  3. Danieli, Morena ; Elisabetta Gerbino : Métriques pour l'évaluation des stratégies de dialogue dans un système de langue parlée.Actes du symposium de printemps 1995 de l'AAAI sur les méthodes empiriques dans l'interprétation et la génération du discours. Tome 16. 1995.
  4. Ciaramella, Alberto : Un prototype de rapport d'évaluation des performances. Cadran solaire paquet de travail 8000 (1993).
  5. Charpentier F, Micca G, Schukat-Talamazzini E, Thomas T (1995) : Le volet reconnaissance du projet SUNDIAL. Dans : Reconnaissance et codage de la parole (pp. 345–348). Springer Berlin Heidelberg.
  6. Michael Spehr : Dicter est beaucoup plus rapide que taper. Dans : FAZ.net . 22 septembre 2010, récupéré le 13 octobre 2018 .
  7. L. Lamel, J.-L. Gauvain : Reconnaissance vocale. Manuels d'Oxford en ligne (Vol. 14) . Oxford University Press, 2005. doi:10.1093/oxfordhb/9780199276349.013.0016
  8. Malaka, Rainer ; Butz, Andreas; Hussmann, Heinrich : Informatique des médias : Une introduction. Pearson Studies, Munich 2009, ISBN 978-3-8273-7353-3 , page 263.
  9. Ulf Schoenert : Reconnaissance vocale : La normalité de parler aux machines. Dans : Temps en ligne. 14 février 2012, récupéré le 6 février 2016 .
  10. Srini Penchikala : Utilisation des technologies d'apprentissage en profondeur IBM franchit une nouvelle étape dans la reconnaissance vocale. 31 mars 2017, consulté le 27 janvier 2022 (en anglais).
  11. Accueil - Documentation Coqui STT 1.1.0. Consulté le 27 janvier 2022 (anglais).
  12. coqui-ai/STT. Dans : GitHub . coqui, 27 janvier 2022, consulté le 27 janvier 2022 (anglais).
  13. Commande vocale : comment ça marche concrètement ? Récupéré le 30 juin 2022 .
  14. Fabian Hoberg : Commande vocale pour les voitures : Conduite plus sûre avec les systèmes d'assistance . Dans : LE MONDE . 11 décembre 2020 ( welt.de [consulté le 30 juin 2022]).
  15. Que peut faire la reconnaissance vocale ? Statut actuel et futur. 6 mai 2021, consulté le 30 juin 2022 (allemand).