Програм се примењује од 01.10.2009..
Говорне технологије представљају основу за развој новог интерфејса између човека и паметних телефона, рачунара и уређаја у паметним кућама. Циљ овог курса је да прошири мултидисциплинарна знања на којима се базира говорна комуникација човека и машине. У циљу разумевања алгоритама за аутоматско препознавање говора, говорника и емоција, као и синтезу говора на основу текста, потребно је детаљније упознати карактеристике говорног сигнала и његове акустичке и лингвистичке моделе. Циљ је да се овлада применом софтверских алата за обраду говорних сигнала и практично упозна са говорним технологијама на којима се базира говорна комуникација човек-машина.
Студенти на овом предмету упознају основне алгоритме који се користе при аутоматском препознавању говора (ASR) и при синтетизовању говора на основу текста (TTS). На тај начин стичу основна предзнања потребна за рад на развоју и примени ASR и TTS. Стичу знања потребна за снимање и обраду база говорних сигнала и разумевање алгоритама за аутоматско препознавање и синтезу говора, али и препознавања говорника и емоција, као и језичких модула и дијалошких система. На крају курса студенти познају могућности говорних технологија, као и алата за развој апликација базираних на овим новим технологијама и спремни су да дају стручне доприносе у овој области.
• Увод у ASR и TTS: хронологија развоја, терминологија, перспективе
• Говор: продукција и перцепција, природа и карактеристике (t-f приказ + лабелирање (AlfaNum))
• Говорни сигнал: анализа и приказ на рачунару (LPC, MFCC, PLP + визуализација (Matlab))
• Обрада природног језика: моделовање језика (n-grami) + HMM (HTK)
• Приступи ASR-у (DTW, ANN, HMM), акустички, лексички и лингвистички модели
• Процедуре ASR обуке: GMM, k-means, VQ, Baum-Welch, ML MMI, MWE MPE (HTK)
• Алгоритми ASR декодовања: Viterbi, Token-passing, N-best (HTK)
• Робустне ASR методе: VTN, CMN, потискивање шума
• Синтеза говора на основу текста (TTS): језичка обрада текста, синтеза (конкатенативна и HMM)
• Препознавање говорника и емоција у говору
• Моделовање дијалога, разумевање говора (SLU) и дијалошки системи
Предавања су праћена Power Point презентацијама које су доступне у .pdf формату. Кључни детаљи се демонстрирају и илуструју на предавањима помоћу одабраних аудио прилога и анимација. Део градива праћен је заједничким пројектним радовима (предиспитне обавезе), док је други део курса подржан вежбама у Лабораторији за акустику и говорне технологије и у говорном студију на УНС. Део испита везан је за израду семестралног рада чија одбрана је једна од предиспитних обавеза и може да представља основу за израду дипломског-мастер рада. Самостални део рада студента подржан је преко web портала Катедре за телекомуникације и обраду сигнала - www.ktios.net.
Аутори | Назив | Година | Издавач | Језик |
---|
L. Rabiner and B-H. Juang | Fundamentals of Speech Recognition | 1993 | Prentice Hall | Енглески |
T. Dutoit | An Introduction to Text-to-Speech Synthesis | 1997 | Kluwer | Енглески |
Владо Делић, Милан Сечујски, Никша Јаковљевић | Скрипта са предавања | 2012 | www.ktios.net | Српски језик |
Предметна активност | Предиспитна | Обавезна | Број поена |
---|
Предметни пројекат | да | да | 30.00 |
Писмени део испита - комбиновани задаци и теорија | не | да | 70.00 |
| Име и презиме | Вид наставе |
---|
| | Предавања |
| | Предавања |
| | Аудиторне вежбе |
| | Аудиторне вежбе |
| | Аудиторне вежбе |
| | Лабораторијске вежбе |
| | Лабораторијске вежбе |
| | Организација извођења лабораторијских вежби-лаборанти |