Яндекс представил голосового помощника Алису - чуда не произошло
10.10.2017Сегодня Яндекс представил голосового помощника Алису, построенного на технологиях SpeechKit.
При первом быстром знакомстве обнаружилось, что Алиса не понимает англоязычные названия сайтов, а также периодически зависает в режиме "говорите, я слушаю". Скажем, на запрос - "Алиса открой сайт RoboTrends.ru" ответом было "Ищу для вас ответ" и открылось следующее окно:
Безусловно с Алисой нельзя говорить, как с человеком, хотя в пресс-релизе и утверждается обратное. Она не понимает смысл того, что ей говорят, кроме самых простых фраз. Например, она не смогла ответить на вопрос "Лондон - это столица чего?".
Алиса не способна решить даже простейшую задачку, например: "Алиса, мне 40 лет, сколько лет мне было 10 лет тому назад?"
Ответ: "Отлично выглядите" - это безусловно то, что человек хочет услышать в ответ.
Хотя на вопрос "Сколько будет 2 плюс 2" помощник уверенно отвечает "4". Справляется система и просьбой умножить одно число на другое, даже если это многозначные числа.
Но уже на вопрос "Сколько углов у треугольника" выдает "Найдется все" и открывает страницу браузера с этим запросом.
Много других "шероховатостей" в работе. Скажем, при первом запросе Алиса попросила выбрать браузер, через который она зайдет в интеренет. После того, как был выбран браузер Opera, она открыла в нем новую вкладку. Но при отработке следующего запроса вкладка открылась в браузере Chrome.
Есть множественные ошибки в распознавании даже русских слов.
Я попытался старательно надиктовать Алисе фрагмент текста из пресс-релиза:
"С Алисой можно разговаривать так же, как с человеком: она поймёт. Например, у неё можно спросить: «Где поблизости выпить кофе?» — а не диктовать что-то вроде «кофейня улица космонавтов». Алиса заглянет в Яндекс.Справочник и предложит подходящее место. А в ответ на «Отлично, а как туда пройти?» — даст ссылку на уже построенный маршрут в Яндекс.Картах."
Во-первых, продиктовать его целиком мне не удалось, сработало ограничение по времени, выделенному на запрос. Во-вторых, вот, что "услышала" Алиса:
"с алисой можно разговаривать также как с человеком оно поймет на премирование можно спросить где поблизости выпить кофе они диктовать что то вроде кофейни улица космонавтов алиса заглянет в яндекс справочник и предложит походящее место ответ на отлично"
Ответом на этот обрывок было "Не знаю, что ответить. Такие дела".
На вопрос "Как ты относишься к ИГИЛ?" (организацией, запрещенной в России Роскомзазором),
Алиса выдала: "пересекались пару раз" - мне кажется у кого-нибудь могут возникнуть вопросы к искину :)
На вопрос "Чей Крым", "голосовой помощник" дипломатично ответил "Ваш".
Я не нашел, как сделать так, чтобы Алиса при поиске пользовалась поисковиком не Яндекса, а Google. Либо плохо искал, либо Яндекс пристегнут к Алисе по-дефолту.
Наверняка кто-то из особенно подозрительных людей может заподозрить, что пуская Алису на компьютер, вы по-сути даете Яндексу или кому-то еще постоянный доступ к данным, получаемым с микрофона, ведь онлайн-помощник всегда в ожидании вопроса, адресованного ему. Это подозрение прокомментировать не берусь - нужно спрашивать у специалистов по компьютерной безопасности, а они наверняка скажут, что уже само наличие компьютера с подключенным к нему микрофоном - это возможность прослушивания помещения, где стоит компьютер.
В целом, я не разочарован результатами, поскольку не ждал от "голосового помощника" ничего хорошего. Каждая такая система - это результат интеграции трех основным подсистем: speech-to-text (преобразования устной речи в текст), анализ текста (который в идеале должен быть когнитивным анализом текста), а также системы text-to-speech (синтеза речи). Любая из этих задач на сегодня решается компьютерными технологиями слабо.
Процент распознавания речи при ее преобразовании в текст не достигает 100%, причем ошибки, которые делает компьютер, зачастую полностью меняют смысл запросов. Очень слаб анализ распознанного текста. Пока речь о запросе адреса, курса валюты или погоды, машина еще справляется, но любой шаг в сторону вводит ее в ступор, как я показал выше. Синтез речи пока что весьма далек от совершенства. Голос Алисы - это даже не голос человека, плохо говорящего на языке, это голос инопланетянина, странно искажающего фонемы. И пока не будут достигнуты новые рубежи в совершенствовании этих трех систем, не ждите возможности приятного разговора, ни с "голосовыми помощниками", ни с роботами со встроенными в них интерфейсами к тем же голосовым помощникам.
Полезна ли Алиса? Если не ожидать от "голосового помощника" слишком многого, она может быть полезна, например, когда вы не за клавиатурой компьютера, а хочется узнать, например погоду или перевести мили в километры. Но поговорить с ней, "как с человеком", как заявляет Яндекс в пресс-релизе, в ближайшие годы будет невозможно.
+
+ +