Text till tal-omvandling är en del av en syntetisk datavetenskap som kallas talgenerering. Genom att använda vissa algoritmer kan datorer bli programmerade att omvandla textdata till uttalat tal. På en grundläggande nivå fungerar detta genom att processorn tar in text, som sedan bearbetas genom flera lager av omvandlare (kalkylatorer) för att slutligen skapa ljud.
TTS använder sig av två huvudsakliga metoder för att omvandla text till tal: ”formant syntes” och ”samtalsinspelning”. Formant syntes skapar det artificiella ljudsystemet genom att använda resonanta frekvenser. Samtalsinspelning använder förinspelade röstsamplingar som sätts ihop för att framkalla texten i dess hörbara form. För att lyssna på texten, behöver du bara skriva in texten i ett program som stöder TTS, och den kommer vara redo att tala för dig.
Trots att denna teknik låter simpel, kräver utformningen av en effektiv TTS-omvandlare kunskap inom många områden såsom lingvistik (för att kunna förstå grammatikregler och syntax), datavetenskap (för den tekniska programmeringen och implementeringen), och akustik (för att kunna skapa en trovärdig röst). Genom att använda TTS-teknik, kan man omvandla eBöcker till ljudböcker, hjälpa de som har lässvårigheter, eller för att bara göra multitasking enklare när du lyssnar på en rapport eller ett dokument istället för att läsa det.