코로나가 터지며 현재 우리나라의 음식점들은 새로운 국면을 맞고 있습니다. 이전에 비해 폭발적으로 배달 주문이 늘어나고 아예 배달 전문인 음식점들이 계속해서 증가하고 있습니다. 사람 수를 파악해 대략적인 주문 양을 예측하고 매장 크기에 따라 주문 규모의 제한이 있었던 매장 주문과 달리 이러한 배달 주문은 주문을 직접 확인하기 전에는 어떤 주문인지 전혀 알 수 없습니다.
음식점에서 주문에 따라 음식을 만들다보면, 현재 들어온 주문의 음식이 무엇인지 직접 일일히 확인해야 합니다. 현재는 대부분 주문 알림이 들어오지만 알림 만으로는 해당 주문에 음식이 한 개인지, 10개 단체 주문인지 알 수 없습니다. 그렇기에 이를 자동화하여 주문이 들어왔을 때, 들어온 주문의 메뉴와 수량을 불러주어 보지 않고도 어느정도 주문의 규모를 파악할 수 있는 서비스를 만드려 합니다. 이를 통해 음식점 주인은 빠르게 요리를 시작할 수 있으며 요리 중에도 들어온 주문을 쉽게 확인해 작업 속도를 조절할 수 있습니다.
- fastspeech2
- espnet
- Swift
음식 메뉴를 불러주기 위해선 음성 합성기가 필요합니다. 음성합성기란, Text-to-Speech로 문장을 입력으로 받아 이를 합성해 적절한 소리를 출력해주는 프로그램입니다. 현재 네이버 클로바, 카카오 음성합성 등의 다양한 회사에서 서비스를 제공하고 있습니다. 인공지능의 성능이 점차 발전해나감에 따라 이제는 한국어로도 정말 많은 문장을 자연스럽게 합성할 수 있습니다.
하지만, 현재는 세계화 라는 단어가 어색해질 정도로 정말 다양한 나라의 음식을 우리나라에서 접할 수 있게되어 그만큼 발음하기도 생소한 다양한 외래어 메뉴들이 많아지고 있습니다. 이전 음성합성기는 외래어에 대해 어느정도 자연스러운 발음을 제공하지만, 계속해서 늘어나는 외래어 음식 메뉴에 대해선 약간의 억양 부자연스러움이 존재합니다.
그렇기에 음식 메뉴에 집중한 음성 합성기를 개발하여 자연스러운 주문 음성을 제공하고자 합니다.
합성 기술은 fastspeech2를 활용하며 espnet이라는 end-to-end 오픈소스 소프트웨어를 통해 직접 음성 합성기를 개발합니다. 이를 ios 앱에 삽입하여 편리하게 사용할 수 있도록 합니다.