Компьютеры теперь могут водить машины, побеждать чемпионов мира в настольных играх, таких как шахматы и го, и даже писать прозу. Революция в области искусственного интеллекта происходит в значительной степени от силы одного конкретного вида искусственной нейронной сети, дизайн которой вдохновлен связанными слоями нейронов в зрительной коре млекопитающих. Эти «сверточные нейронные сети» (CNN) оказались удивительно искусными в изучении шаблонов двумерных данных - особенно в задачах компьютерного видения, таких как распознавание рукописных слов и объектов в цифровых изображениях.
Проблема распознавания
Она заключалась в том, что при применении к наборам данных без встроенной плоской геометрии - скажем, моделей неправильной формы, используемых в трехмерной компьютерной анимации, или облаков точек, генерируемых самоходными автомобилями для отображения своего окружения - эта мощная архитектура машинного обучения не работает. Примерно в 2016 году возникла новая дисциплина под названием «Глубокое геометрическое обучение», целью которой было вывести CNN из плоскости.
Теперь исследователи создали новую теоретическую основу для построения нейронных сетей, которые могут изучать шаблоны на любой геометрической поверхности. Эти «калибровочно-эквивариантные сверточные нейронные сети», или калибровочные CNN, разработанные в Университете Амстердама и Qualcomm AI Research Тако Коэном, Морисом Вейлером, Беркаем Киканаоглу и Максом Веллингом, могут обнаруживать закономерности не только в двумерных массивах пикселей, но и на сферах и асимметрично изогнутых предметах.
Решение этой проблемы имеет глубокие связи с физикой. Физические теории, описывающие мир, такие как общая теория относительности Альберта Эйнштейна и стандартная модель физики элементарных частиц, обладают свойством, называемым калибровочной эквивалентностью. Это означает, что величины в мире и их отношения не зависят от произвольных систем отсчета; они остаются неизменными независимо от того, движется ли наблюдатель или стоит на месте, и независимо от того, насколько далеко друг от друга находятся числа на линейке. Измерения, сделанные в этих различных датчиках, должны быть конвертируемыми друг в друга таким образом, чтобы сохранять основные взаимосвязи между вещами.
Например, представьте, что вы измеряете длину футбольного поля в ярдах, а затем в метрах. Числа изменятся, но предсказуемо. Точно так же два фотографа, снимающие объект с двух разных точек обзора, будут создавать разные изображения, но эти изображения могут быть связаны друг с другом. Калибровочная эквивалентность гарантирует, что физические модели реальности остаются последовательными, независимо от их перспективы или единиц измерения. И калибровочные CNN делают то же самое предположение о данных.
Уйти с двухмерного пространства
Майкл Бронштейн, специалист по вычислительной технике в Имперском колледже Лондона, ввел термин «геометрическое глубокое обучение» , чтобы описать возникающие усилия по выходу из плоскости при проектировании нейронных сетей, которые могли бы изучать шаблоны в непланарных данных.
Бронштейн и его сотрудники знали, что выход за пределы евклидовой плоскости потребует от них переосмысления одной из базовых вычислительных процедур, которые сделали нейронные сети эффективными в первую очередь для распознавания 2D-изображений. Эта процедура, называемая «сверткой», позволяет слою нейронной сети выполнять математическую операцию над небольшими участками входных данных, а затем передавать результаты на следующий уровень в сети.
Бронштейн и его сотрудники нашли решение проблемы свертки над неевклидовыми многообразиями в 2015 году, представив скользящее окно как нечто, похожее на круглую паутину, чтобы его можно было соотнести с любой изогнутой поверхностью без сжатия, растяжения или разрыва.
Изменение свойств скользящего фильтра таким образом сделало CNN намного лучше в «понимании» определенных геометрических отношений. Например, сеть может автоматически распознавать, что трехмерная фигура, согнутая в две разные позы - например, фигура человека, стоящего на ногах, и фигура человека, поднимающего одну ногу, - была экземплярами одного и того же объекта, а не двумя совершенно разными объектами. Изменение также сделало нейронную сеть значительно более эффективной в обучении.
В то же время Тако Коэн и его коллеги в Амстердаме начали подходить к той же проблеме с противоположной стороны. В 2015 году Коэн интересовался практической инженерной проблемой: эффективность данных или обучение нейронных сетей с использованием меньшего количества примеров, чем обычно требовалось.
Коэн знал, что одним из способов повысить эффективность данных нейронной сети было снабжение ее заранее определенными предположениями о данных. Обычно сверточная сеть должна изучать эту информацию с нуля, обучаясь на многих примерах одного и того же шаблона в разных ориентациях. В 2016 году Коэн и Веллинг в соавторстве написали статью, рассказывающую, как кодировать некоторые из этих предположений в нейронную сеть в виде геометрических симметрий. Этот подход был настолько хорош, что к 2018 году Коэн в соавторстве с Марысей Винкельс обобщили его еще больше, продемонстрировав многообещающие результаты при распознавании рака легких в компьютерной томографии: их нейронная сеть могла бы идентифицировать визуальные признаки заболевания, используя только одну десятую часть данных, используемых для обучения других сетей.
Расширение эквивариантности
Эквивариантность (или «ковариация», термин, который предпочитают использовать физики) - это предположение, на которое физики со времен Эйнштейна полагались для обобщения своих моделей. Это означает, что если вы правильно описываете какой-то физический объект, то он не должна зависеть от того, как вы его наблюдаете. Или, как сам Эйнштейн сказал в 1916 году: «Общие законы природы должны выражаться уравнениями, которые справедливы для всех систем координат».
Сверточные сети стали одним из наиболее успешных методов в глубоком обучении благодаря использованию простого примера этого принципа, называемого «эквивалентность перевода». Фильтр окна, который обнаруживает определенную особенность в изображении - скажем, вертикальные края - будет скользить над плоскостью пикселей и кодировать расположение всех таких вертикальных краев; затем он создает «карту объектов», отмечающую эти местоположения, и передает ее на следующий уровень в сети. Создание карт объектов возможно из-за эквивалентности перевода: нейронная сеть «предполагает», что один и тот же объект может появляться в любом месте 2D-плоскости, и может распознавать вертикальный край как таковой, независимо, находится ли он в правом верхнем или в левом нижнем углу.
«Суть эквивариантных нейронных сетей состоит в том, чтобы [взять] эти очевидные симметрии и поместить их в сетевую архитектуру, чтобы это было своего рода бесплатным обедом», - сказал Вейлер.
К 2018 году Вейлер, Коэн и их руководитель Макс Веллинг расширили этот «бесплатный обед», включив в него другие виды эквивалентности. Их «эквивариантные» группы CNN могли обнаруживать повернутые или отраженные элементы на плоских изображениях, не тренируясь на конкретных примерах элементов в этих ориентациях; сферические CNN могут создавать карты объектов из данных на поверхности сферы, не искажая их в виде плоских проекций.
Коэн, Вейлер и Веллинг закодировали эквивалентность калибровки в сверточную нейронную сеть в 2019 году. Они сделали это, наложив математические ограничения на то, что нейронная сеть могла «видеть» в данных через свои свертки; только калибровочно-эквивариантные пропускались через слои этой сети. «По сути, вы можете дать ему любую поверхность - от евклидовых плоскостей до произвольно изогнутых объектов, включая экзотические многообразия, такие как бутылки Кляйна или четырехмерное пространство-время - и сверточная сеть сможет обучаться на этой поверхности», - сказал Веллинг.
Рабочая теория
Теория калибровочно-эквивариантных CNN настолько обобщена, что она автоматически включает в себя встроенные допущения предыдущих геометрических подходов к глубокому обучению - например, вращательную эквивалентность и смещающие фильтры на сферах. Даже более ранний метод Майкла Бронштейна, который позволял нейронным сетям распознавать одну трехмерную фигуру, согнутую в разные позы, вписывается в нее.
Датчик CNN теоретически будет работать на любой изогнутой поверхности любой размерности, но Коэн и его соавторы проверили его на глобальных климатических данных, которые имеют базовую трехмерную сферическую структуру. Они использовали свою калибровочно-эквивариантную структуру для построения CNN, обученного обнаружению экстремальных погодных явлений, таких как тропические циклоны, по данным климатического моделирования. В 2017 году правительственные и академические исследователи использовали стандартную сверточную сеть для обнаружения циклонов в данных с точностью 74 %; в прошлом году датчик CNN обнаружил циклоны с точностью 97,9 %.
Между тем, калибровочные CNN набирают популярность среди физиков, которые планируют использовать их для работы с данными моделирования взаимодействия субатомных частиц.
Уже сегодня калибровочные CNN значительно превзошли своих предшественников по моделям обучения в смоделированных глобальных климатических данных, которые естественным образом отображаются на сфере. Алгоритмы могут также оказаться полезными для улучшения зрения дронов и автономных транспортных средств, которые видят объекты в 3D, и для обнаружения закономерностей в данных, собранных с неравномерно изогнутых поверхностей сердца, мозга или других органов.
А ЧТО ВЫ ДУМАЕТЕ ОБ ЭТОМ?