Predmet: Govorne tehnologije
(12 -
EK550) Osnovne informacije
Program predmeta
Program se primenjuje od 01.10.2009.. Govorne tehnologije predstavljaju osnovu za razvoj novog interfejsa između čoveka i pametnih telefona, računara i uređaja u pametnim kućama. Cilj ovog kursa je da proširi multidisciplinarna znanja na kojima se bazira govorna komunikacija čoveka i mašine. U cilju razumevanja algoritama za automatsko prepoznavanje govora, govornika i emocija, kao i sintezu govora na osnovu teksta, potrebno je detaljnije upoznati karakteristike govornog signala i njegove akustičke i lingvističke modele. Cilj je da se ovlada primenom softverskih alata za obradu govornih signala i praktično upozna sa govornim tehnologijama na kojima se bazira govorna komunikacija čovek-mašina. Studenti na ovom predmetu upoznaju osnovne algoritme koji se koriste pri automatskom prepoznavanju govora (ASR) i pri sintetizovanju govora na osnovu teksta (TTS). Na taj način stiču osnovna predznanja potrebna za rad na razvoju i primeni ASR i TTS. Stiču znanja potrebna za snimanje i obradu baza govornih signala i razumevanje algoritama za automatsko prepoznavanje i sintezu govora, ali i prepoznavanja govornika i emocija, kao i jezičkih modula i dijaloških sistema. Na kraju kursa studenti poznaju mogućnosti govornih tehnologija, kao i alata za razvoj aplikacija baziranih na ovim novim tehnologijama i spremni su da daju stručne doprinose u ovoj oblasti. • Uvod u ASR i TTS: hronologija razvoja, terminologija, perspektive
• Govor: produkcija i percepcija, priroda i karakteristike (t-f prikaz + labeliranje (AlfaNum))
• Govorni signal: analiza i prikaz na računaru (LPC, MFCC, PLP + vizualizacija (Matlab))
• Obrada prirodnog jezika: modelovanje jezika (n-grami) + HMM (HTK)
• Pristupi ASR-u (DTW, ANN, HMM), akustički, leksički i lingvistički modeli
• Procedure ASR obuke: GMM, k-means, VQ, Baum-Welch, ML MMI, MWE MPE (HTK)
• Algoritmi ASR dekodovanja: Viterbi, Token-passing, N-best (HTK)
• Robustne ASR metode: VTN, CMN, potiskivanje šuma
• Sinteza govora na osnovu teksta (TTS): jezička obrada teksta, sinteza (konkatenativna i HMM)
• Prepoznavanje govornika i emocija u govoru
• Modelovanje dijaloga, razumevanje govora (SLU) i dijaloški sistemi Predavanja su praćena Power Point prezentacijama koje su dostupne u .pdf formatu. Ključni detalji se demonstriraju i ilustruju na predavanjima pomoću odabranih audio priloga i animacija. Deo gradiva praćen je zajedničkim projektnim radovima (predispitne obaveze), dok je drugi deo kursa podržan vežbama u Laboratoriji za akustiku i govorne tehnologije i u govornom studiju na UNS. Deo ispita vezan je za izradu semestralnog rada čija odbrana je jedna od predispitnih obaveza i može da predstavlja osnovu za izradu diplomskog-master rada. Samostalni deo rada studenta podržan je preko web portala Katedre za telekomunikacije i obradu signala - www.ktios.net.
|