References

핵심 아이디어

기존의 방법론은 텍스트 → 토큰화 → 운율분석 → 검색 + 합성 or 모델 → 음성의 단계로 변환을 수행

tacotron에서는 중간 단계를 모두 생략하고 바로 텍스트 → 모델을 통해 음성을 출력

입력 text를 character embedding으로 변환하고 이후 network를 거쳐 feature를 추출

간단한 fc 기반의 feature 추출

1D Convolutional Bank + Highway Network + Bidirectional GRU

→ Text Embedding 출력