Сбер открывает доступ к датасету Golos
22.05.2021Сбер открывает доступ к датасету Golos. Этот набор в Сбере называют самым большим размеченным вручную набору речевых данных на русском языке. Он включает 1240 часов аудиоданных, а также обученную на них модель распознавания речи. В Сбере утверждают, что точность этой модели "сравнима с человеческой". Датасет можно скачать на
Датасет можно использовать для обучения своей модели распознавания и синтеза речи. Лицензия Сбера разрешает использование данных не только в исследовательских, но и в коммерческих целях.
Базу удалось создать после разработки семейства виртуальных ассистентов Салют. Было сгенерировано более 1240 часов речи, похожей на запросы пользователей. Аудиофайлы записаны при помощи краудсорсинговой платформы и специальной студии. Датасет - это обезличенные данные, прослушанные и размеченные вручную. Точность разметки обеспечена благодаря тройному перекрытию. В общем сделано многое для того, чтобы на основе этих данных создавать речевые технологии и продукты.
Модель распознавания речи обучали с использованием мощностей суперкомпьютера "Кристофари" от Сбера на 16 видеокартах NVidia Tesla V100 в течение 8 дней. Доступная для использования акустическая модель QuartzNet 15x5 была обучена на данных датасетов Golos и Common Voice, а языковая модель KenLM построена на Common Crawl и аннотациях Golos.
Денис Филиппов, CTO SberDevices:
Открытие датасета Golos — это очень важный шаг для развития речевых технологий в России, и мы в Сбере рады, что можем применить свой опыт в этой области и продолжить наш тренд делиться своими наработками и технологиями с разработчиками и научным сообществом. Речевые технологии сейчас очень активно внедряются во всех сферах. При этом уже существует масса открытых данных на английском языке, но такого качественного русскоязычного датасета не было. Теперь же есть доступные данные и на русском языке, которые можно использовать для распознавания и синтеза речи, а обученная на них модель показывает очень высокое качество. Мы верим, что датасет Golos даст возможность научному сообществу России двигаться ещё быстрее в совершенствовании русскоязычных речевых технологий.
--