Компания Google уже давно занимается изучением искусственного интеллекта в различных его проявлениях. Но ей, как и остальным игрокам рынка, не удалось сделать так, чтобы компьютерная речь была более живой и человечной. Если воспользоваться голосовым поиском или озвучиванием слов в переводчике от Google, то слышно, что голос очень роботизированный. Для решения этой проблемы Google DeepMind разработала новый искусственный интеллект WaveNet, способный имитировать человеческую речь. Произношение всё ещё не идеальное, но оно на 50% лучше того, что существует на сегодняшний день. Данный искусственный интеллект может даже создавать собственную музыку на основе изученных классических произведений на фортепиано.
Для достижения более человечной речи WaveNet использует обучение с помощью нейронных сетей и фрагменты реальных человеческих голосов. Кроме того, система подбирает правила лингвистики и фонетики для каждой отдельной фразы. Но что более важно - для синтеза такой речи WaveNet ежесекундно обрабатывает 16 000 образцов звука, что и позволяет сделать компьютерный голос более человечным.
К сожалению, ожидать использования WaveNet в сервисах Google в ближайшее время не стоит, так как на обработку такого аудио необходимо слишком много вычислительной мощности. Послушать примеры произношения WaveNet можно в официальном блоге DeepMind.
Источник: androidauthority.com