References

책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017

핵심 아이디어

텍스트 → 음성 Task

기존의 방법론은 텍스트 → 토큰화 → 운율분석 → 검색 + 합성 or 모델 → 음성의 단계로 변환을 수행

tacotron에서는 중간 단계를 모두 생략하고 바로 텍스트 → 모델을 통해 음성을 출력

아키텍쳐

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/28645d20-362c-4afd-bc44-21f42e751834/Untitled.png

인코더

입력 text를 character embedding으로 변환하고 이후 network를 거쳐 feature를 추출

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/aaa32bb4-2668-435e-acf4-78dd3c6d87cf/Untitled.png

character embedding

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/5d5be679-d329-4290-83f1-80581ef89732/Untitled.png

pre-net

간단한 fc 기반의 feature 추출

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/655be234-73a3-4458-8726-466fc1790a15/Untitled.png

CBHG

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/60d4df24-f276-41b4-b394-af0fec837005/Untitled.png

1D Convolutional Bank + Highway Network + Bidirectional GRU

→ Text Embedding 출력