Вещи разные на другой стороне зеркала.
Текст обратный. Часы идут против часовой стрелки. Автомобили едут не по той стороне дороги. Правые руки становятся левыми руками.
Заинтригованная тем, как отражение меняет образы тонкими и не очень тонкими способами, команда исследователей из Корнельского университета использовала искусственный интеллект для исследования того, что отличает оригиналы от их отражений. Их алгоритмы научились распознавать неожиданные подсказки, такие как части волос, направление взгляда и, что удивительно, бороды — результаты, имеющие значение для обучения машинному обучению.
«Вселенная не является симметричной. Если вы перевернете изображение, есть различия», — сказал Ноа Снейвли, доцент кафедры компьютерных наук в Cornell Tech и старший автор исследования «Visual Chirality», представленного на конференции по компьютерному зрению в 2020 году. «Я заинтригован открытиями, которые вы можете сделать с помощью новых способов сбора информации».
Жики Лин — первый автор статьи; соавторами являются Эйб Дэвис, доцент кафедры информатики, и докторская диссертация Cornell Tech Джин Сан.
По словам Снейвли, различие между исходными изображениями и отражениями является удивительно простой задачей — базовый алгоритм глубокого обучения может быстро научиться классифицировать, если изображение перевернуто с точностью от 60% до 90%, в зависимости от типов изображений, используемых обучить алгоритм. Многие из улик, которые он обнаруживает, трудно заметить людям.
Для этого исследования команда разработала технологию создания тепловой карты, которая указывает части изображения, которые представляют интерес для алгоритма, чтобы понять, как он принимает эти решения.
Неудивительно, что они обнаружили, что наиболее часто используемым ключом был текст, который выглядит по-разному в каждом письменном языке. Чтобы узнать больше, они удалили изображения с текстом из своего набора данных и обнаружили, что следующий набор характеристик, которые модель сфокусировала на себе, включают в себя наручные часы, воротники рубашки (кнопки, как правило, на левой стороне), лица и телефоны — что большинство людей, как правило, держат в правой руке, а также другие факторы, раскрывающие праворукость.
Исследователи были заинтригованы тенденцией алгоритма фокусироваться на лицах, которые не кажутся явно асимметричными. «В некотором смысле, это оставило больше вопросов, чем ответов», — сказал Снейвли.
Затем они провели еще одно исследование, сосредоточенное на лицах, и обнаружили, что тепловая карта освещается в таких областях, как часть волос, глаза, — большинство людей по причинам, которые не известны исследователям, смотрят влево на портретных фотографиях.
«Это форма визуального открытия», — сказал Снейвли. «Если вы можете запустить машинное обучение в масштабе на миллионах и миллионах изображений, возможно, вы сможете начать открывать новые факты о мире».
Результаты показали, что каждый из этих ключей в отдельности может быть ненадежным, но алгоритм может обеспечить большую уверенность путем объединения нескольких ключей. Исследователи также обнаружили, что алгоритм использует сигналы низкого уровня, вытекающие из способа обработки изображений камерами, для принятия своих решений.
Понимание того, как отражение отражается на изображении, также может помочь AI использовать для идентификации изображений, которые были сфальсифицированы — проблема растущей озабоченности в Интернете.
«Возможно, это новый инструмент или понимание, которое можно использовать во вселенной криминалистической экспертизы изображений, если вы хотите сказать, реально ли что-то или нет», — сказал Снейвли.