Predmet: Govorne tehnologije (12 - EK550)


Osnovne informacije

KategorijaNaučno-stručni
Naučna oblastTelekomunikacije i obrada signala
MultidisciplinarnaNe
ESPB4
Matične organizacione jedinice predmeta

Departman za energetiku, elektroniku i telekomunikacije
Program predmeta

Program se primenjuje od 01.10.2009..

Govorne tehnologije predstavljaju osnovu za razvoj novog interfejsa između čoveka i pametnih telefona, računara i uređaja u pametnim kućama. Cilj ovog kursa je da proširi multidisciplinarna znanja na kojima se bazira govorna komunikacija čoveka i mašine. U cilju razumevanja algoritama za automatsko prepoznavanje govora, govornika i emocija, kao i sintezu govora na osnovu teksta, potrebno je detaljnije upoznati karakteristike govornog signala i njegove akustičke i lingvističke modele. Cilj je da se ovlada primenom softverskih alata za obradu govornih signala i praktično upozna sa govornim tehnologijama na kojima se bazira govorna komunikacija čovek-mašina.
Studenti na ovom predmetu upoznaju osnovne algoritme koji se koriste pri automatskom prepoznavanju govora (ASR) i pri sintetizovanju govora na osnovu teksta (TTS). Na taj način stiču osnovna predznanja potrebna za rad na razvoju i primeni ASR i TTS. Stiču znanja potrebna za snimanje i obradu baza govornih signala i razumevanje algoritama za automatsko prepoznavanje i sintezu govora, ali i prepoznavanja govornika i emocija, kao i jezičkih modula i dijaloških sistema. Na kraju kursa studenti poznaju mogućnosti govornih tehnologija, kao i alata za razvoj aplikacija baziranih na ovim novim tehnologijama i spremni su da daju stručne doprinose u ovoj oblasti.
• Uvod u ASR i TTS: hronologija razvoja, terminologija, perspektive • Govor: produkcija i percepcija, priroda i karakteristike (t-f prikaz + labeliranje (AlfaNum)) • Govorni signal: analiza i prikaz na računaru (LPC, MFCC, PLP + vizualizacija (Matlab)) • Obrada prirodnog jezika: modelovanje jezika (n-grami) + HMM (HTK) • Pristupi ASR-u (DTW, ANN, HMM), akustički, leksički i lingvistički modeli • Procedure ASR obuke: GMM, k-means, VQ, Baum-Welch, ML MMI, MWE MPE (HTK) • Algoritmi ASR dekodovanja: Viterbi, Token-passing, N-best (HTK) • Robustne ASR metode: VTN, CMN, potiskivanje šuma • Sinteza govora na osnovu teksta (TTS): jezička obrada teksta, sinteza (konkatenativna i HMM) • Prepoznavanje govornika i emocija u govoru • Modelovanje dijaloga, razumevanje govora (SLU) i dijaloški sistemi
Predavanja su praćena Power Point prezentacijama koje su dostupne u .pdf formatu. Ključni detalji se demonstriraju i ilustruju na predavanjima pomoću odabranih audio priloga i animacija. Deo gradiva praćen je zajedničkim projektnim radovima (predispitne obaveze), dok je drugi deo kursa podržan vežbama u Laboratoriji za akustiku i govorne tehnologije i u govornom studiju na UNS. Deo ispita vezan je za izradu semestralnog rada čija odbrana je jedna od predispitnih obaveza i može da predstavlja osnovu za izradu diplomskog-master rada. Samostalni deo rada studenta podržan je preko web portala Katedre za telekomunikacije i obradu signala - www.ktios.net.
AutoriNazivGodinaIzdavačJezik
L. Rabiner and B-H. JuangFundamentals of Speech Recognition1993Prentice HallEngleski
T. DutoitAn Introduction to Text-to-Speech Synthesis1997KluwerEngleski
Vlado Delić, Milan Sečujski, Nikša JakovljevićSkripta sa predavanja2012www.ktios.net Srpski jezik
Predmetna aktivnostPredispitnaObaveznaBroj poena
Predmetni projekatdada30.00
Pismeni deo ispita - kombinovani zadaci i teorijaneda70.00
Ime i prezimeVid nastave
Nedostaje slika

Delić dr Vlado
Redovni profesor

Predavanja
Nedostaje slika

Sečujski dr Milan
Redovni profesor

Predavanja
Nedostaje slika

Milić Miodrag

Auditorne vežbe
Nedostaje slika

Jakovljević dr Nikša
Vanredni profesor

Auditorne vežbe
Nedostaje slika

Gnjatović dr Milan
Vanredni profesor

Auditorne vežbe
Nedostaje slika

Milić Miodrag

Laboratorijske vežbe
Nedostaje slika

Suzić Siniša
Docent

Laboratorijske vežbe
Nedostaje slika

Nikolić Dušan
Laborant

Organizacija izvođenja laboratorijskih vežbi-laboranti