2662d545

Baidu продемонстрировала технологию оперативного синтеза нашей речи

Baidu не объявляет работу над определенными собственными проектами, проводимую в центре изучения синтетического разума в Кремниевой равнине, но по меньшей мере некоторые из них несут внутри себя большой потенциал. Не так давно японский технический великан рассказал об одном подобном плане аудитории — а конкретнее о технологии переустройства текста в речь под наименованием Deep Voice, не менее оперативной и действенной, чем WaveNet от Google. Разработка Baidu вполне может быть выучена речи за пару часов почти без нашего вмешательства. И так как организация может контролировать передаваемые технологией чувства, система может оперативно обобщать речь, которая звучит достаточно гармонично и жизненно.

WaveNet от Google также может обобщать реальную нашу речь, однако требует огромных вычисляемых мощностей — кроме того на данный момент её сложно применять в связке с существующими дополнениями. Baidu сообщила, что решила дилемму WaveNet, задействовав технологии бездонного изучения для переустройства текста в минимальные воспринимаемые единицы речи — феномы. Система потом обращает их в звуки, применяя свою сеть синтеза речи.

В обоих этапах применяются технологии бездонного изучения, при этом наше вмешательство не требуется. Все-таки, система не может устанавливать, на какие феномы либо слоги должны устанавливаться ударения и как продолжительно они обязаны звучать. Потому Baidu нужно вручную устанавливать эти характеристики для передачи тех либо других чувств.

Организация говорит, что решила дилемму технологии Google, однако для функционирования Deep Voice, все-таки, как и прежде необходимы огромные вычисляемые производительности. Для имитации нашего говорения персональный компьютер должен производить 1 пример речи не более чем за 20 микросекунд. Со слов специалистов Baidu, они обязаны быть весьма аккуратны, чтобы им никогда в жизни не оставалось обрабатывать итоги заново, и должны держать модель полностью в кеше микропроцессора и нормально применять подходящие вычисляемые средства.

Тем не менее, ученые убеждены, что синтез речи в живую вполне вероятен. Они обнародовали ряд образцов работы Deep Voice в сервисе Mechanical Turk компании Amazon, попросив огромную компанию людей расценить качество примеров. Судя по итогам, система управляется с преображением текста в речь замечательно.

Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий