References

책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017

핵심 아이디어

텍스트 → 음성 Task

기존의 방법론은 텍스트 → 토큰화 → 운율분석 → 검색 + 합성 or 모델 → 음성의 단계로 변환을 수행

tacotron에서는 중간 단계를 모두 생략하고 바로 텍스트 → 모델을 통해 음성을 출력

아키텍쳐

인코더

입력 text를 character embedding으로 변환하고 이후 network를 거쳐 feature를 추출

character embedding

pre-net

간단한 fc 기반의 feature 추출

CBHG

1D Convolutional Bank + Highway Network + Bidirectional GRU

→ Text Embedding 출력