Program se primenjuje od 01.10.2009..
Govorne tehnologije predstavljaju osnovu za razvoj novog interfejsa između čoveka i pametnih telefona, računara i uređaja u pametnim kućama. Cilj ovog kursa je da proširi multidisciplinarna znanja na kojima se bazira govorna komunikacija čoveka i mašine. U cilju razumevanja algoritama za automatsko prepoznavanje govora, govornika i emocija, kao i sintezu govora na osnovu teksta, potrebno je detaljnije upoznati karakteristike govornog signala i njegove akustičke i lingvističke modele. Cilj je da se ovlada primenom softverskih alata za obradu govornih signala i praktično upozna sa govornim tehnologijama na kojima se bazira govorna komunikacija čovek-mašina.
Studenti na ovom predmetu upoznaju osnovne algoritme koji se koriste pri automatskom prepoznavanju govora (ASR) i pri sintetizovanju govora na osnovu teksta (TTS). Na taj način stiču osnovna predznanja potrebna za rad na razvoju i primeni ASR i TTS. Stiču znanja potrebna za snimanje i obradu baza govornih signala i razumevanje algoritama za automatsko prepoznavanje i sintezu govora, ali i prepoznavanja govornika i emocija, kao i jezičkih modula i dijaloških sistema. Na kraju kursa studenti poznaju mogućnosti govornih tehnologija, kao i alata za razvoj aplikacija baziranih na ovim novim tehnologijama i spremni su da daju stručne doprinose u ovoj oblasti.
• Uvod u ASR i TTS: hronologija razvoja, terminologija, perspektive
• Govor: produkcija i percepcija, priroda i karakteristike (t-f prikaz + labeliranje (AlfaNum))
• Govorni signal: analiza i prikaz na računaru (LPC, MFCC, PLP + vizualizacija (Matlab))
• Obrada prirodnog jezika: modelovanje jezika (n-grami) + HMM (HTK)
• Pristupi ASR-u (DTW, ANN, HMM), akustički, leksički i lingvistički modeli
• Procedure ASR obuke: GMM, k-means, VQ, Baum-Welch, ML MMI, MWE MPE (HTK)
• Algoritmi ASR dekodovanja: Viterbi, Token-passing, N-best (HTK)
• Robustne ASR metode: VTN, CMN, potiskivanje šuma
• Sinteza govora na osnovu teksta (TTS): jezička obrada teksta, sinteza (konkatenativna i HMM)
• Prepoznavanje govornika i emocija u govoru
• Modelovanje dijaloga, razumevanje govora (SLU) i dijaloški sistemi
Predavanja su praćena Power Point prezentacijama koje su dostupne u .pdf formatu. Ključni detalji se demonstriraju i ilustruju na predavanjima pomoću odabranih audio priloga i animacija. Deo gradiva praćen je zajedničkim projektnim radovima (predispitne obaveze), dok je drugi deo kursa podržan vežbama u Laboratoriji za akustiku i govorne tehnologije i u govornom studiju na UNS. Deo ispita vezan je za izradu semestralnog rada čija odbrana je jedna od predispitnih obaveza i može da predstavlja osnovu za izradu diplomskog-master rada. Samostalni deo rada studenta podržan je preko web portala Katedre za telekomunikacije i obradu signala - www.ktios.net.
Autori | Naziv | Godina | Izdavač | Jezik |
---|
L. Rabiner and B-H. Juang | Fundamentals of Speech Recognition | 1993 | Prentice Hall | Engleski |
T. Dutoit | An Introduction to Text-to-Speech Synthesis | 1997 | Kluwer | Engleski |
Vlado Delić, Milan Sečujski, Nikša Jakovljević | Skripta sa predavanja | 2012 | www.ktios.net | Srpski jezik |
Predmetna aktivnost | Predispitna | Obavezna | Broj poena |
---|
Predmetni projekat | da | da | 30.00 |
Pismeni deo ispita - kombinovani zadaci i teorija | ne | da | 70.00 |
| Ime i prezime | Vid nastave |
---|
| | Predavanja |
| | Predavanja |
| | Auditorne vežbe |
| | Auditorne vežbe |
| | Auditorne vežbe |
| | Laboratorijske vežbe |
| | Laboratorijske vežbe |
| | Organizacija izvođenja laboratorijskih vežbi-laboranti |