Govorne tehnologije | Obrada signala | Fakultet tehničkih nauka

Govorne tehnologije predstavljaju osnovu za razvoj novog interfejsa između čoveka i pametnih telefona, računara i uređaja u pametnim kućama. Cilj ovog kursa je da proširi multidisciplinarna znanja na kojima se bazira govorna komunikacija čoveka i mašine. U cilju razumevanja algoritama za automatsko prepoznavanje govora, govornika i emocija, kao i sintezu govora na osnovu teksta, potrebno je detaljnije upoznati karakteristike govornog signala i njegove akustičke i lingvističke modele. Cilj je da se ovlada primenom softverskih alata za obradu govornih signala i praktično upozna sa govornim tehnologijama na kojima se bazira govorna komunikacija čovek-mašina.

Studenti na ovom predmetu upoznaju osnovne algoritme koji se koriste pri automatskom prepoznavanju govora (ASR) i pri sintetizovanju govora na osnovu teksta (TTS). Na taj način stiču osnovna predznanja potrebna za rad na razvoju i primeni ASR i TTS. Stiču znanja potrebna za snimanje i obradu baza govornih signala i razumevanje algoritama za automatsko prepoznavanje i sintezu govora, ali i prepoznavanja govornika i emocija, kao i jezičkih modula i dijaloških sistema. Na kraju kursa studenti poznaju mogućnosti govornih tehnologija, kao i alata za razvoj aplikacija baziranih na ovim novim tehnologijama i spremni su da daju stručne doprinose u ovoj oblasti.

• Uvod u ASR i TTS: hronologija razvoja, terminologija, perspektive • Govor: produkcija i percepcija, priroda i karakteristike (t-f prikaz + labeliranje (AlfaNum)) • Govorni signal: analiza i prikaz na računaru (LPC, MFCC, PLP + vizualizacija (Matlab)) • Obrada prirodnog jezika: modelovanje jezika (n-grami) + HMM (HTK) • Pristupi ASR-u (DTW, ANN, HMM), akustički, leksički i lingvistički modeli • Procedure ASR obuke: GMM, k-means, VQ, Baum-Welch, ML MMI, MWE MPE (HTK) • Algoritmi ASR dekodovanja: Viterbi, Token-passing, N-best (HTK) • Robustne ASR metode: VTN, CMN, potiskivanje šuma • Sinteza govora na osnovu teksta (TTS): jezička obrada teksta, sinteza (konkatenativna i HMM) • Prepoznavanje govornika i emocija u govoru • Modelovanje dijaloga, razumevanje govora (SLU) i dijaloški sistemi

Predavanja su praćena Power Point prezentacijama koje su dostupne u .pdf formatu. Ključni detalji se demonstriraju i ilustruju na predavanjima pomoću odabranih audio priloga i animacija. Deo gradiva praćen je zajedničkim projektnim radovima (predispitne obaveze), dok je drugi deo kursa podržan vežbama u Laboratoriji za akustiku i govorne tehnologije i u govornom studiju na UNS. Deo ispita vezan je za izradu semestralnog rada čija odbrana je jedna od predispitnih obaveza i može da predstavlja osnovu za izradu diplomskog-master rada. Samostalni deo rada studenta podržan je preko web portala Katedre za telekomunikacije i obradu signala - www.ktios.net.

Autori	Naziv	Godina	Izdavač	Jezik
L. Rabiner and B-H. Juang	Fundamentals of Speech Recognition	1993	Prentice Hall	Engleski
T. Dutoit	An Introduction to Text-to-Speech Synthesis	1997	Kluwer	Engleski
Vlado Delić, Milan Sečujski, Nikša Jakovljević	Skripta sa predavanja	2012	www.ktios.net	Srpski jezik

Predmetna aktivnost	Predispitna	Obavezna	Broj poena
Predmetni projekat	da	da	30.00
Pismeni deo ispita - kombinovani zadaci i teorija	ne	da	70.00

	Ime i prezime	Vid nastave
	Delić dr Vlado Redovni profesor	Predavanja
	Sečujski dr Milan Redovni profesor	Predavanja
	Milić Miodrag	Auditorne vežbe
	Jakovljević dr Nikša Vanredni profesor	Auditorne vežbe
	Gnjatović dr Milan Vanredni profesor	Auditorne vežbe
	Milić Miodrag	Laboratorijske vežbe
	Suzić Siniša Docent	Laboratorijske vežbe
	Nikolić Dušan Laborant	Organizacija izvođenja laboratorijskih vežbi-laboranti