Предмет: Говорне технологије (12 - EK550)


Основне информације

КатегоријаНаучно-стручни
Научна областТелекомуникације и обрада сигнала
МултидисциплинарнаНе
ЕСПБ4
Матичне организационе јединице предмета

Департман за енергетику, електронику и телекомуникације
Програм предмета

Програм се примењује од 01.10.2009..

Говорне технологије представљају основу за развој новог интерфејса између човека и паметних телефона, рачунара и уређаја у паметним кућама. Циљ овог курса је да прошири мултидисциплинарна знања на којима се базира говорна комуникација човека и машине. У циљу разумевања алгоритама за аутоматско препознавање говора, говорника и емоција, као и синтезу говора на основу текста, потребно је детаљније упознати карактеристике говорног сигнала и његове акустичке и лингвистичке моделе. Циљ је да се овлада применом софтверских алата за обраду говорних сигнала и практично упозна са говорним технологијама на којима се базира говорна комуникација човек-машина.
Студенти на овом предмету упознају основне алгоритме који се користе при аутоматском препознавању говора (ASR) и при синтетизовању говора на основу текста (TTS). На тај начин стичу основна предзнања потребна за рад на развоју и примени ASR и TTS. Стичу знања потребна за снимање и обраду база говорних сигнала и разумевање алгоритама за аутоматско препознавање и синтезу говора, али и препознавања говорника и емоција, као и језичких модула и дијалошких система. На крају курса студенти познају могућности говорних технологија, као и алата за развој апликација базираних на овим новим технологијама и спремни су да дају стручне доприносе у овој области.
• Увод у ASR и TTS: хронологија развоја, терминологија, перспективе • Говор: продукција и перцепција, природа и карактеристике (t-f приказ + лабелирање (AlfaNum)) • Говорни сигнал: анализа и приказ на рачунару (LPC, MFCC, PLP + визуализација (Matlab)) • Обрада природног језика: моделовање језика (n-grami) + HMM (HTK) • Приступи ASR-у (DTW, ANN, HMM), акустички, лексички и лингвистички модели • Процедуре ASR обуке: GMM, k-means, VQ, Baum-Welch, ML MMI, MWE MPE (HTK) • Алгоритми ASR декодовања: Viterbi, Token-passing, N-best (HTK) • Робустне ASR методе: VTN, CMN, потискивање шума • Синтеза говора на основу текста (TTS): језичка обрада текста, синтеза (конкатенативна и HMM) • Препознавање говорника и емоција у говору • Моделовање дијалога, разумевање говора (SLU) и дијалошки системи
Предавања су праћена Power Point презентацијама које су доступне у .pdf формату. Кључни детаљи се демонстрирају и илуструју на предавањима помоћу одабраних аудио прилога и анимација. Део градива праћен је заједничким пројектним радовима (предиспитне обавезе), док је други део курса подржан вежбама у Лабораторији за акустику и говорне технологије и у говорном студију на УНС. Део испита везан је за израду семестралног рада чија одбрана је једна од предиспитних обавеза и може да представља основу за израду дипломског-мастер рада. Самостални део рада студента подржан је преко web портала Катедре за телекомуникације и обраду сигнала - www.ktios.net.
АуториНазивГодинаИздавачЈезик
L. Rabiner and B-H. JuangFundamentals of Speech Recognition1993Prentice HallЕнглески
T. DutoitAn Introduction to Text-to-Speech Synthesis1997KluwerЕнглески
Владо Делић, Милан Сечујски, Никша ЈаковљевићСкрипта са предавања2012www.ktios.net Српски језик
Предметна активностПредиспитнаОбавезнаБрој поена
Предметни пројекатдада30.00
Писмени део испита - комбиновани задаци и теоријанеда70.00
Име и презимеВид наставе
Недостаје слика

Делић др Владо
Редовни професор

Предавања
Недостаје слика

Сечујски др Милан
Редовни професор

Предавања
Недостаје слика

Милић Миодраг

Аудиторне вежбе
Недостаје слика

Јаковљевић др Никша
Ванредни професор

Аудиторне вежбе
Недостаје слика

Гњатовић др Милан
Ванредни професор

Аудиторне вежбе
Недостаје слика

Милић Миодраг

Лабораторијске вежбе
Недостаје слика

Сузић Синиша
Доцент

Лабораторијске вежбе
Недостаје слика

Николић Душан
Лаборант

Организација извођења лабораторијских вежби-лаборанти