Предмет: Говорне технологије
(12 -
EK550) Основне информације
Програм предмета
Програм се примењује од 01.10.2009.. Говорне технологије представљају основу за развој новог интерфејса између човека и паметних телефона, рачунара и уређаја у паметним кућама. Циљ овог курса је да прошири мултидисциплинарна знања на којима се базира говорна комуникација човека и машине. У циљу разумевања алгоритама за аутоматско препознавање говора, говорника и емоција, као и синтезу говора на основу текста, потребно је детаљније упознати карактеристике говорног сигнала и његове акустичке и лингвистичке моделе. Циљ је да се овлада применом софтверских алата за обраду говорних сигнала и практично упозна са говорним технологијама на којима се базира говорна комуникација човек-машина. Студенти на овом предмету упознају основне алгоритме који се користе при аутоматском препознавању говора (ASR) и при синтетизовању говора на основу текста (TTS). На тај начин стичу основна предзнања потребна за рад на развоју и примени ASR и TTS. Стичу знања потребна за снимање и обраду база говорних сигнала и разумевање алгоритама за аутоматско препознавање и синтезу говора, али и препознавања говорника и емоција, као и језичких модула и дијалошких система. На крају курса студенти познају могућности говорних технологија, као и алата за развој апликација базираних на овим новим технологијама и спремни су да дају стручне доприносе у овој области. • Увод у ASR и TTS: хронологија развоја, терминологија, перспективе
• Говор: продукција и перцепција, природа и карактеристике (t-f приказ + лабелирање (AlfaNum))
• Говорни сигнал: анализа и приказ на рачунару (LPC, MFCC, PLP + визуализација (Matlab))
• Обрада природног језика: моделовање језика (n-grami) + HMM (HTK)
• Приступи ASR-у (DTW, ANN, HMM), акустички, лексички и лингвистички модели
• Процедуре ASR обуке: GMM, k-means, VQ, Baum-Welch, ML MMI, MWE MPE (HTK)
• Алгоритми ASR декодовања: Viterbi, Token-passing, N-best (HTK)
• Робустне ASR методе: VTN, CMN, потискивање шума
• Синтеза говора на основу текста (TTS): језичка обрада текста, синтеза (конкатенативна и HMM)
• Препознавање говорника и емоција у говору
• Моделовање дијалога, разумевање говора (SLU) и дијалошки системи Предавања су праћена Power Point презентацијама које су доступне у .pdf формату. Кључни детаљи се демонстрирају и илуструју на предавањима помоћу одабраних аудио прилога и анимација. Део градива праћен је заједничким пројектним радовима (предиспитне обавезе), док је други део курса подржан вежбама у Лабораторији за акустику и говорне технологије и у говорном студију на УНС. Део испита везан је за израду семестралног рада чија одбрана је једна од предиспитних обавеза и може да представља основу за израду дипломског-мастер рада. Самостални део рада студента подржан је преко web портала Катедре за телекомуникације и обраду сигнала - www.ktios.net.
|