Исследователи из Google Brain обнаружили ахиллесову пяту систем машинного зрения
23.07.2016По данным тестирования на больших базах с фотографиями различных объектов, системы машинного зрения лучше справляются с их распознаванием, чем человек. Вот только исследователи обнаружили класс "состязательных изображений", которые вводят систему в заблуждение.
Одно из наиболее существенных достижений в области современной науки - это успехи в области машинного зрения. Всего за несколько лет, несколько поколений технологий машинного обучения практически полностью изменили способы, которыми компьютеры "видят".
Машины уже превосходят людей по части распознавания лиц и различных объектов. Это позволило буквально революционировать множество областей применения, опирающихся на машинное зрение, такие - как вождение автомобиля, мониторинг безопасности и т.п. Машинное зрение на сегодня обеспечивает сверхчеловеческие способности.
На этом благостном фоне торжества науки неожиданно вырисовалась серьезная проблема. Исследователи систем машинного зрения начали замечать некоторые неприятные недочеты. Похоже, что современные алгоритмы машинного зрения имеют Ахиллесову пяту, - их легко обмануть, если слигка модифицировать предъявляемое машине изображение. Интересно, что человек по-прежнему без особого труда справился бы с распознаванием объекта на модифицированной картинке.
Такого рода модифицированные изображения уже окрестили "состязательными". И они представляют собой существенную угрозу для систем машинного зрения. "Достаточно нанести на лицо человека небольшие помарки и система машинного зрения "узнает" в нем другого человека. Если эту же "задачку" предъявить человеку, он легко справится с правильным распознаванием", - рассказывают исследователи: Алексей Куракин и Samy Bengio из Google Brain и Jan Goodfellow из OpenAI.
Область машинного зрения - сравнительно молодая ветвь науки, не удивительно, что о "состязательных изображениях" пока что известно немного. Пока что никто не знает, как создавать их оптимальным образом, почему они обманывают системы машинного зрения, как защитить роботов от такого рода атак.
Сегодня проблему начали изучать благодаря работам Куракина и ко., которые провели систематический анализ конкурентных изображений. Исследование показало, насколько уязвимы современные системы машинного зрения к такого рода атакам.
Команда начала работать со стандартной базой данных, предназначенной для тестирования систем машинного зрения, известной как ImageNet. Это корпус изображений, классифицированных согласно изображенным на них объектам. Стандартная практика машинного обучения предусматривает, что часть этой базы данных "скармливается" алгоритму распознавания в качестве обучающей выборки, а на оставшейся части проверяется качество работы обученного алгоритма.
Качество алгоритмов измеряется путем подсчета того, насколько часто алгоритм корректно справляется с классификацией - выдавая верный ответ в составе 5 вариантов, или точный ответ в виде одного-единственного варианта (это называют top 5 accuracy или top 1 accuracy).
Одна из лучших систем машинного зрения на сегодня - это Google Inception v3, который дает уровень ошибок top 5 accuracy около 3.46%. У среднего человека этот показатель находится на уровне около 5%, поэтому принято говорить о Inception v3, как об алгоритме, возможности которого превосходят человеческие.
Куракин и ко. создали базу данных "конкурентных" изображений, модифицировав 50 тысяч изображений из ImageNet тремя различными способами. Они основаны на той идее, что нейронные сети обрабатывают информацию с тем, чтобы "привязать" каждую следующую картинку к какому-то классу изображений. Объем информации, которая для этого необходима, называют кросс-энтропией, которая характеризует степень сложности распознавания.
Первый алгоритм вносит небольшие изменения в картинку способом, который пытается максимизировать ее кросс-энтропию. Второй алгоритм - это просто итерации первого алгоритма для дальнейшего искажения первичного изображения.
Оба этих алгоритма вносят такие изменения в картинку, которые затрудняют ее корректную классификацию. "Эти методы могут приводить к несущественным ошибкам классификации, например, путать один подвид хаски с другим подвидом", - говорят исследователи.
Третий алгоритм призван внести в каждую картинку еще один вид искажений. Он модифицирует изображение так, чтобы система машинного зрения ошиблась с классификацией так, чтобы картинка была отнесена к классу, который наиболее далек от истинного класса. "Наименее похожий класс обычно мало чем похож на истинный класс, поэтому данный метод атаки приводит к более интересным ошибкам, например, система может идентифицировать собаку, как самолет", - рассказывают Куракин и ко.
Они проверили, насколько хорошо алгоритм Google Inception v3 справляется с классификацией 50 тысяч конкурентных изображений.
Два простых алгоритма, вносящих искажения, обеспечили существенное снижение показателей top 5 и top 1 accuracy. А третий алгоритм - "метод наименьшего подобия" быстро снизил точность узнавания изображений до 0 для всех 50 тысяч предъявленных системе картинок. (Не указывается, насколько успешными были попытки заставить алгоритм приходить к тому или иному "заданному" неверному выводу).
В любом случае, конкурентные картинки - это существенная угроза для существующих систем компютерного зрения. Единственное, что может успокаивать, так это то, что конкурентые изображения в экспериментах поступали в систему машинного зрения уже в готовом "предобработанном" виде.
В реальных условиях, система цифровых камер также вносит изменения в наблюдаемую картину. Не может ли быть так, что вносимые прохождением тракта цифровой камеры искажения будут нейтрализовывать искажения, внесенные в картинку для того, чтобы сделать ее конкурентной? Насколько надежны эти алгоритмы к тем трансформациям, которые осуществляются в реальном мире?
Для того, чтобы протестировать это, Куракин и его коллеги распечатали все конкурентные изображения, а также их оригиналы и сфотографировали их вручную смартфоном Nexus 5. Затем они "скормили" преобразованные конкурентные изображения системе машинного зрения.
Куракин и его коллеги рассказывают, что метод наименьшего сходства достаточно уязвим для такого рода преобразований, тогда как другие оказываются вполне устойчивыми. Другими словами, алгоритмы конкурентных изображений действительно являются угрозой системам компьютерного зрения в реальном мире. "Существенная часть конкурентных изображений, созданных с использованием нашей сети неверное классифицируется системой даже после прохождения через цифровую камеру".
Интересная работа, которая выявила уязвимость используемых алгоритмов машинного зрения. И впереди еще немало работы. Куракин и его коллеги планируют разработать методы создания конкурентных картинок и для других систем машинного видения.
Все это заставляет задуматься людей, занятых в области компьютерной безопасности. Системы машинного зрения сегодня лучше людей справляются с распознаванием лиц, поэтому естественно, что ожидается их повсеместное использование - от разблокирования смартфонов и входных дверей до замены паспортов и получения доступа к банковскому счету. Но работы группы Куракина показывают, что есть возможность без особого труда обмануть такие системы.
За несколько последних лет мы узнали, насколько хорошо могут работать системы машинного зрения. А теперь стоит отметить, насколько легко они могут быть обмануты.
+ +
Статью Алексея Куракина и его соавторов можно найти здесь: