Talesyntese
Talesyntese er den kunstige generering af den menneskelige talestemme . Et tekst-til-tale-system ( TTS ) (eller automatisk læser ) konverterer kontinuerlig tekst til et akustisk taleoutput .
I princippet kan der skelnes mellem to tilgange til generering af talesignaler. På den ene side kan den såkaldte signalmodellering bruges til at få adgang til stemmeoptagelser ( samples ). På den anden side kan signalet også genereres fuldstændigt i computeren ved såkaldt fysiologisk (artikulatorisk) modellering. Mens de første systemer var baseret på formantsyntese , er de systemer, der i øjeblikket anvendes industrielt, hovedsageligt baseret på signalmodellering.
Et særligt problem for talesyntese er skabelsen af en naturlig talemelodi ( prosodi ).
historie
Længe før opfindelsen af elektronisk signalbehandling forsøgte videnskabsmænd at bygge maskiner, der kunne producere menneskelig tale. Et 'Talking Head' i bronze tilskrives Gerbert af Aurillac (1003), som blev rapporteret at kunne sige 'ja' og 'nej'. Apparaterne af Albertus Magnus (1198-1280) og Roger Bacon (1214-1294) hører formentlig mere til i sagnets rige .
I 1779 byggede den tyske videnskabsmand Christian Kratzenstein , der arbejdede i København, et "taleorgel" til en konkurrence ved Sankt Petersborg Akademi, som kunne syntetisere fem lange vokaler (a, e, i, o og u) gennem fri- vibrerende linguale rør med resonatorer efter den menneskelige stemmekanal . Wolfgang von Kempelen udviklede en talemaskine allerede omkring 1760, som han præsenterede i sin udgivelse fra 1791 "Mechanism of human language together with the description of his speaking machine". Ligesom Kratzensteins var denne syntese baseret på en bælg som lungeækvivalent, men selve excitationen foregik meget mere anatomisk af et enkelt, bankende lingualt rør. Dette gjorde nogle vokaler og plosiver mulige. Derudover kunne nogle frikativer være repræsenteret af forskellige mekanismer. Et læderrør var fastgjort til stemmebåndene, som kunne deformeres med den ene hånd og dermed efterligne stemmekanalens variable geometri og resonansadfærd. Von Kempelen skrev:
"at tilegne sig, i løbet af tre uger, en beundringsværdig færdighed i at spille, især når man skifter til latin, fransk eller italiensk, for tysk er meget vanskeligere [på grund af de hyppige konsonantklynger] ."
Charles Wheatstone byggede en talemaskine baseret på dette design i 1837 , en kopi kan findes i Deutsches Museum . I 1857 byggede Joseph Faber Euphonia , som også følger dette princip.
I slutningen af det 19. århundrede udviklede interessen sig væk fra at replikere menneskelige taleorganer (genetisk talesyntese) til at simulere akustisk rum (gennematisk talesyntese). For eksempel var Hermann von Helmholtz den første til at syntetisere vokaler ved hjælp af stemmegafler indstillet til resonansfrekvenserne i stemmekanalen i specifikke vokalpositioner. Disse resonansfrekvenser kaldes formanter . Talesyntese ved at kombinere formanter var teknisk mainstream indtil midten af 1990'erne.
I 1930'erne udviklede Bell Labs vocoderen , en tastaturdrevet elektronisk talesynthesizer, som siges at være klart forståelig. Homer Dudley forbedrede denne maskine til Voder , der blev præsenteret på verdensudstillingen i 1939 . Voderen brugte elektriske oscillatorer til at generere formant-frekvenserne.
De første computerbaserede talesyntesesystemer blev udviklet i slutningen af 1950'erne, og det første komplette tekst-til-tale system blev færdiggjort i 1968. Fysiker John Larry Kelly, Jr. udviklede talesyntese på Bell Labs i 1961 ved hjælp af en IBM 704 og fik ham til at synge sangen Daisy Bell . Instruktør Stanley Kubrick var så imponeret over den, at han inkorporerede den i filmen 2001: A Space Odyssey .
Til stede
Mens tidlig elektronisk talesyntese stadig lød meget robotagtig og nogle gange var svær at forstå, har den siden årtusindskiftet nået en kvalitet, hvor det nogle gange er svært at skelne den fra menneskelige talere. Dette skyldes i høj grad, at teknologien har bevæget sig væk fra faktisk at syntetisere talesignalet og fokusere på optimalt sammenkædning af optagede talesegmenter. [1] [2] [3]
syntese
Talesyntese kræver en analyse af det menneskelige sprog, både hvad angår fonemer og prosodi, fordi en sætning kan have forskellige betydninger blot gennem sætningens melodi.
Hvad angår selve synteseprocessen, er der forskellige metoder. Fælles for alle metoder er, at de tilgår en database, hvori karakteristisk information om sprogsegmenter er gemt. Varer fra denne opgørelse er knyttet til den ønskede ytring. Talesyntesesystemer kan klassificeres baseret på databasens inventar og især metoden til at linke. Signalsyntese har en tendens til at være lettere, jo større databasen er, da den allerede indeholder elementer, der er tættere på den ønskede ytring, og mindre signalbehandling er nødvendig. Af samme grund lykkes en mere naturligt klingende syntese normalt med en stor database.
En vanskelighed ved syntesen ligger i sammenføjningen af inventarelementer. Da disse kommer fra forskellige ytringer, er de også forskellige i volumen, grundfrekvens og formanternes position. Når databasen er forbehandlet, eller når inventarelementerne kombineres, skal disse forskelle kompenseres så godt som muligt (normalisering) for ikke at forringe syntesens kvalitet.
Valg af enhed
Enhedsvalget giver den bedste kvalitet, især i et begrænset domæne . Syntesen bruger en stor taledatabase, hvor hver optaget ytring er segmenteret i nogle eller alle af følgende enheder:
Disse segmenter er gemt med et kort over en række akustiske og fonetiske egenskaber såsom tonehøjde, varighed eller naboer.
Til syntesen bruges specielle søgealgoritmer , vægtede beslutningstræer , til at bestemme en række segmenter, der er så store som muligt, og som kommer så tæt som muligt på den ytring, der skal syntetiseres med hensyn til disse egenskaber. Da denne serie udsendes med ringe eller ingen signalbehandling, bevares naturligheden af det talte sprog, så længe der kræves få sammenkædningspunkter.
difon syntese
Eksperimenter udført i begyndelsen af det 21. århundrede har vist, at korrekt gengivelse af fonetiske overgange er afgørende for forståeligheden af talesyntese. En database med omkring 2500 poster bruges til at gemme alle fonetiske overgange. Den gemmer tidsintervallet for den stationære del, fonem midt i et fonem, op til den stationære del af det følgende fonem. Til syntesen er informationen sat sammen i overensstemmelse hermed ( sammenkædet ).
Flere koartikulationseffekter , som bidrager meget til talens naturlighed, kan tages i betragtning ved at bruge mere omfattende databaser. Et eksempel på dette er Hadifix , som omfatter halvstavelser , difon og suffiks e .
signalgenerering
Signalgenereringen gengiver de ønskede segmenter fra databasen med den specificerede grundfrekvenskurve. Denne karakteristik af den fundamentale frekvenskurve kan udføres på forskellige måder, hvor de følgende metoder er forskellige.
Kildefiltermodel
I synteser, der bruger kilde-filter-separation, bruges en signalkilde med en periodisk bølgeform. Deres periodelængde er indstillet til at matche grundfrekvensen af den ytring, der skal syntetiseres. Afhængigt af fonemtypen tilføjes yderligere støj til denne excitation. Den endelige filtrering præger de lydkarakteristiske spektre. En fordel ved denne klasse af metoder er den simple grundlæggende frekvensstyring af kilden. En ulempe skyldes filterparametrene gemt i databasen, som er svære at bestemme ud fra taleeksempler. Afhængig af typen af filter eller det underliggende taleperspektiv, skelnes der mellem følgende metoder:
formant syntese
Formantsyntese er baseret på den observation, at det er tilstrækkeligt at gengive de to første formanter korrekt for at kunne skelne mellem vokaler. Hver formant simuleres af et båndpasfilter , et andenordens polariserende filter, hvis centerfrekvens og kvalitet kan kontrolleres . Formantsyntesen kan implementeres forholdsvis let ved hjælp af analoge elektroniske kredsløb.
akustisk model
Den akustiske model gengiver stemmekanalens overordnede resonansegenskaber gennem et passende filter. Forenklet set ses stemmekanalen ofte som et rør med et variabelt tværsnit, hvor tværgående tilstande forsømmes, da den laterale udstrækning af stemmekanalen er lille. Tværsnitsændringerne tilnærmes yderligere ved ækvidistante tværsnitsspring. En almindeligt valgt type filter er crosslink-kædefilteret , hvor der er en direkte sammenhæng mellem tværsnit og filterkoefficient. [4]
Disse filtre er tæt knyttet til Linear Predictive Coding (LPC), som også bruges til talesyntese. LPC'en tager også højde for hele resonansegenskaberne, men der er ingen direkte sammenhæng mellem filterkoefficienterne og tværsnitsformen af stemmekanalen.
Artikulatorisk syntese
I modsætning til den akustiske model etablerer den artikulatoriske syntese et forhold mellem artikulatorernes position og det resulterende tværsnitsforløb af stemmekanalen. Her anvendes, udover tidsdiskrete krydskædefiltre, løsninger af den tidskontinuerlige Horn-ligning til at simulere resonanskarakteristikken, hvorfra tidssignalet opnås ved Fourier-transformation .
overlap tilføje
Pitch Synchronous Overlap Add, forkortet PSOLA, er en syntesemetode, hvor databasen indeholder optagelser af talesignalet. Hvis signalerne er periodiske, forsynes de med information om grundfrekvensen (pitch), og begyndelsen af hver periode markeres. I syntesen kortlægges disse perioder med et specifikt miljø ved hjælp af en vinduesfunktionklippet ud og tilføjet til signalet, der skal syntetiseres på det passende sted: Afhængigt af om den ønskede grundfrekvens er højere eller lavere end databaseindgangen, er de sat sammen mere eller mindre tæt end i originalen. Perioder kan udelades eller udsendes to gange for at justere varigheden af lyden. Denne metode er også kendt som TD-PSOLA eller PSOLA-TD (TM), hvor TD står for Time Domain og understreger, at metoderne virker i tidsdomænet.
En videreudvikling er Multi Band Resynthesis OverLap Add-metoden, forkortet MBROLA . Her forbehandles segmenterne i databasen til en ensartet grundfrekvens, og harmoniske faseposition normaliseres. Som et resultat, når der syntetiseres en overgang fra et segment til det næste, er der færre perceptuelle forstyrrelser, og den opnåede stemmekvalitet er højere.
Disse syntesemetoder er relateret til granulær syntese , som bruges i lydgenerering og fremmedgørelse i elektronisk musikproduktion.
Parametrisk talesyntese fra Hidden Markov Models (HMM) og/eller Stokastiske Markov-grafer (SMG)
Parametrisk talesyntese er en gruppe af metoder baseret på stokastiske modeller. Disse modeller er enten Hidden Markov Models (HMM) , stokastiske Markov Graphs (SMG), eller for nylig en kombination af de to. Grundprincippet er, at de symbolske fonemsekvenser opnået fra tekstforbehandling gennemgår statistisk modellering ved først at opdele dem i segmenter og derefter tildele en specifik model fra en eksisterende database til hvert af disse segmenter. Hver af disse modeller er igen defineret af en række parametrebeskrevet og til sidst knyttet til de øvrige modeller. Bearbejdningen til et kunstigt talesignal, som er baseret på de nævnte parametre, fuldender derefter syntesen. Hvis der anvendes mere fleksible, stokastiske Markov-grafer, kan en sådan model endda optimeres i det omfang, at en vis grundlæggende naturlighed kan trænes på forhånd og ved at levere eksempler på naturligt sprog. Statistiske metoder af denne type kommer fra det modsatte område af talegenkendelse og er motiveret af viden om sammenhængen mellem sandsynligheden for en bestemt talt sekvens af ord og den omtrentlige talehastighed, der kan forventes, eller dens prosodi. [5] [6] [7]
Mulig anvendelse af tekst-til-tale-software
Brug af talesyntesesoftware behøver ikke at være et mål i sig selv. Mennesker med synshandicap – f.eks. B. grå stær eller aldersrelateret makuladegeneration - brug TTS-softwareløsninger til at få tekster læst direkte på skærmen. Blinde kan betjene en computer ved hjælp af skærmlæsersoftware og er informeret om betjeningselementer og tekstindhold. Undervisere bruger også talesyntese til at optage forelæsninger. Forfattere bruger også TTS-software til at kontrollere selvskrevne tekster for fejl og forståelighed.
Et andet anvendelsesområde er i form af software, der tillader oprettelse af MP3-filer . Dette gør det muligt at bruge talesyntesesoftware til at skabe simple podcasts eller lydblogs . Erfaring har vist, at produktionen af podcasts eller lydblogs kan være meget tidskrævende.
Når du arbejder med amerikansk software, skal det bemærkes, at de eksisterende stemmer er af forskellig kvalitet. Engelske stemmer er af højere kvalitet end tyske. En årsag er den reducerede tilgængelighed af større tyske sprogdatabaser, som er nødvendige som grundlag for at træne en kunstig model. Det tysktalende projekt Thorsten (stemme)forsøger at udfylde dette hul. En 1:1 kopi af teksterne i en TTS-software kan ikke anbefales, efterbehandling er under alle omstændigheder nødvendig. Det handler ikke kun om at udskifte forkortelser og tal i skrevet tekst, men også at indsætte tegnsætningstegn – selvom de ikke er grammatisk korrekte – kan være med til at påvirke sætningstempoet. Tyske "oversættelser" med anglicismer udgør normalt et uoverstigeligt problem for talesyntese.
Hyppige applikationer er meddelelser i telefon- og navigationssystemer, automatiske stopmeldinger i transportmidler.
software til talesyntese
- AnalogX Sig det
- Aristech
- Audiodizer
- Balabolka (Freeware, 26 sprog, SAPI4 og SAPI5 )
- BOSS, udviklet ved Institut for Kommunikationsvidenskab ved Universitetet i Bonn
- Gennemse højt ved hjælp af tekstHJÆLP
- Cepstral tekst til tale
- CereProc
- Coqui AI [8]
- DeskBot
- espeak (open source, mange sprog, SAPI5)
- festival
- Festvox
- FreeTTS (Open Source)
- GhostReader
- Gnuspeech
- Infovox
- IVONA tekst til tale
- Linguatec Voice Reader 15
- Logox kliplæser
- Loquendo TTS
- MacinTalk og narrator.device af SoftVoice
- MARY Tekst-til-tale udviklet af DFKI Language Technology Lab
- MBROLA [9] forskellige stemmer (fremstillede fonemer) på forskellige sprog, der kan bruges af talesyntesesoftware som eSpeak eller Festival. [10]
- Modulate [11] Stemmekonverteringssoftware, bruger Generative Adversarial Networks [12]
- Mozilla TTS [13]
- NaturalReader fra NaturalSoft
- OnScreenVoices af tom weber software
- ReadSpeaker: Læsning af hjemmesider og podcasting
- Realspeak af Nuance (tidligere ScanSoft), nu Kobaspeech 3
- SAM fra Don't Ask Software [14]
- SpeechConcept
- talemaskine
- libttspico-utils fra SVOX (kommandolinjestyret talesyntese på tysk, engelsk (GB og USA), spansk, fransk og italiensk) [15]
- syntese 2
- syntetisk 3
- SYNVO
- Tacotron (Google) [16]
- Tekst højt MP3
- Toshiba ToSpeak
- TTS Robot
- virsyn CANTOR vokalsyntese
- Virtuel stemme
hardware til talesyntese
- Votrax
- SC-01A (analog formant)
- SC-02 / SSI-263 / "Arctic 263"
- General Instrument Speech Processor
- SP0250
- SP0256-AL2 "Orator" (CTS256A-AL2)
- SP0264
- SP1000
- Mullard MEA8000 [17]
- National Semiconductor DT1050 Digital Core (Mozer)
- Silicon Systems SSI 263 (analog formant)
- Texas Instruments
- Oki Semiconductor
- MSM5205
- MSM5218RS (ADPCM)
- Toshiba T6721A C²MOS Voice Synthesizing LSI
Se også
litteratur
- Karlheinz Stöber, Bernhard Schröder, Wolfgang Hess: Fra tekst til talesprog. I: Henning Lobin , Lothar Lemnitzer (red.): Tekstteknologi . perspektiver og anvendelser. Stauffenburg, Tübingen 2004, ISBN 3-86057-287-3 , s. 295-325.
- Jessica Riskin: Vådtøj fra det attende århundrede. I: Repræsentationer. Vol. 83, nr. 1, 2003, ISSN 0734-6018 , s. 97-125, doi : 10.1525/rep.2003.83.1.97 .
- James L. Flanagan: Speech Analysis, Synthesis and Perception (= kommunikation og kybernetik i individuelle repræsentationer. Vol. 3). 2. udgave. Springer, Berlin et al., 1972, ISBN 3-540-05561-4 . 1. udgave 1965, 3. udgave 2008 [18]
- Ville Pulkki, Matti Karjalainen : Kommunikationsakustik: En introduktion til tale, lyd og psykoakustik. John Wiley & Sons, 2015, ISBN 978-1-118-86654-2 .
weblinks
historie
- Historie om talesyntese med eksempler. Studieopgave (PDF; 480 kB).
- Magic Voice Speech Module til C64
systemer
- Produkttest og detaljeret information om læsesystemer i INCOBS
- Produkttest og detaljeret information om skærmlæsere i INCOBS
- Liste over talesyntesesystemer med eksempler
webgrænseflader
- Pædiafon – Taleoutput til tysksprogede Wikipedia-artikler
- Online demo af tekst-til-tale talesynteseprogram MARY - tekst-til-tale output i forskellige formater.
- Tekst-til-tale online demo via Google Chrome.
fodnoter
- ↑ Dennis Klatt's History of Speech Synthesis ( Memento af 4. juli 2006 på Internet Archive )
- ↑ Sami Lemmetty: Historie og udvikling af talesyntese. I: Review of Speech Synthesis Technology. HELSINKI UNIVERSITY OF TECHNOLOGY, 1. juni 1999, tilgået 14. marts 2019 (engelsk).
- ↑ Arne Hoxbergen: Talesyntesens historie ved hjælp af nogle få udvalgte eksempler (PDF; 490 kB). Berlin 2005.
- ↑ Karl Schnell: Rørmodeller af talekanalen. Frankfurt 2003.
- ↑ Patent DE10040991C1 : Proces til parametrisk syntese af tale. Indleveret 18. august 2000 , offentliggjort 27. september 2001 , Ansøger: Technische Universität Dresden, Opfindere: Matthias Eichner, Matthias Wolf.
- ↑ Siden er ikke længere tilgængelig , søg i webarkiver: Diplomarbeit_Breitenbuecher
- ↑ Arkiveret kopi ( Memento af 21. juli 2014 på Internet Archive )
- ↑ Hjemmeside Coqui AI - https://coqui.ai
- ↑ Velkommen til MBROLA-projektet. I: GitHub . UMONS Institute for Creative Technologies, 30. januar 2022. Hentet 30. januar 2022 .
- ↑ Stemmeoutput . I: Wiki.ubuntuusers.de. Hentet 30. januar 2022 .
- ↑ Moduler: Lås din stemme op. Hentet 14. marts 2019 .
- ↑ Teknologianmeldelse: Tal som Barack Obama. 14. marts 2019, hentet 14. marts 2019 .
- ↑ mozilla/TTS. Mozilla 7. februar 2021, hentet 7. februar 2021 .
- ↑ https://simulationcorner.net/index.php?page=sam
- ↑ libttspico-utils - Pakkebeskrivelse hos Debian
- ↑ Sebastian Grüner: Tacotron 2: Googles talesyntese når næsten menneskelig kvalitet - Golem.de. I: golem.de. 21. december 2017, hentet 14. marts 2019 .
- ↑ http://vesta.homelinux.free.fr/wiki/le_synthetiseur_vocal_mea_8000.html
- ↑ Indholdsfortegnelse (pdf)