Свежие идеи компьютерного зрения — в сегодняшней подборке интересных статей с конференции CVPR 2020.

Роботы и ИИ

Технологии / Роботы и ИИ 27 Просмотров

Свежие идеи компьютерного зрения — в сегодняшней подборке интересных статей с конференции CVPR 2020. Это вторая часть списка от исследовательской команды Яндекса.

1. FDA: Fourier Domain Adaptation for Semantic Segmentation

https://openaccess.thecvf.com/content_CVPR_2020/papers/Yang_FDA_Fourier_Domain_Adaptation_for_Semantic_Segmentation_CVPR_2020_paper.pdf

Простой и недорогой способ доменной адаптации — подмена части Фурье-спектра одного домена Фурье-спектром другого. Обмен идет низкими частотами, которые мало влияют на объекты/текстуры. Это показывает хорошие результаты на задаче сегментации.

2. Single-Image HDR Reconstruction by Learning to Reverse the Camera Pipeline

https://openaccess.thecvf.com/content_CVPR_2020/papers/Liu_Single-Image_HDR_Reconstruction_by_Learning_to_Reverse_the_Camera_Pipeline_CVPR_2020_paper.pdf

Авторы берут процесс преобразования HDR (High Dynamic Range) в LDR (Low Dynamic Range) и разбивают его на части: клип сигнала, нелинейное преобразование, квантизация. Для преобразования LDR в HDR они пытаются приблизить сетками каждый из этих шагов в обратном порядке. В части сетапов получают state-of-the-art результаты.

3. A Multigrid Method for Efficiently Training Video Models

https://openaccess.thecvf.com/content_CVPR_2020/papers/Wu_A_Multigrid_Method_for_Efficiently_Training_Video_Models_CVPR_2020_paper.pdf

В статье анализируют, как эффективнее обучать модели для видео. Есть компромисс между разрешением видео, размером мини-батча и качеством модели. Большие батчи нельзя брать при высоком разрешении кадров, но при маленьком разрешении модели становится плохо. Авторы вдохновляются идеей из multigrid-методов в численной оптимизации и в процессе обучения динамически меняют разрешение: например, стартуют с большого батча и маленького разрешения и постепенно снижают размер батча, повышая разрешение. Также здесь рассматриваются и другие схемы.

4. Towards Robust Image Classification Using Sequential Attention Models

https://openaccess.thecvf.com/content_CVPR_2020/papers/Zoran_Towards_Robust_Image_Classification_Using_Sequential_Attention_Models_CVPR_2020_paper.pdf

Статья про новый вид моделей, которые по построению устойчивее для adversarial-атак. Это микс CNN, LSTM и аттеншена. Авторы из DeepMind вдохновлялись двумя идеями.

Во-первых, feedforward-архитектуры не совсем полностью соответствуют тому, как люди смотрят на картинку — вместо одного взгляда на картинку целиком мы много раз смотрим на её разные части. Во-вторых, у adversarial-атак обычно «глобальная» структура, то есть они атакуют одновременно по всем пространственным координатам. Если наша модель будет смотреть на части картинки и агрегировать информацию, то по идее она станет более робастной.

Авторы реализовывают свою идею с помощью LSTM-сети, которая последовательно обрабатывает результат аттеншена выхода с последнего сверточного слоя ResNet на себя (делим его вдоль каналов на две части: одна часть выступает в роли ключей, вторая — в роли значений).

Дальше несколько суток идет обучение на 150 TPU, сеть показывает хорошую робастность, плюс adversarial-атаки теперь выглядят не просто как шум, а имеют смысл (например, когда делаем таргетированную атаку на класс «змея», на картинке появляются контуры змеи).

5. Adversarial Vertex Mixup: Toward Better Adversarially Robust Generalization

https://openaccess.thecvf.com/content_CVPR_2020/papers/Lee_Adversarial_Vertex_Mixup_Toward_Better_Adversarially_Robust_Generalization_CVPR_2020_paper.pdf

Здесь предлагается новый подход к тренировке сетей, которые устойчивы к adversarial-атакам. Одна из целей — уменьшить generalization gap при adversarial training (где разница между трейном и тестом может быть порядка 40%). Основная идея в том, чтобы скомбинировать два подхода.

— Mixup — берем линейную комбинацию двух семплов и их лейблов в качестве обучающего примера.

— Label smoothing — учим кросс-энтропию не с one-hot target, а сглаженным (показателем u), у правильного класса вероятность u, а (1-u) размазывается по остальным классам равномерно.

Алгоритм получается следующий: по входу x генерируем адверсариальную картинку x*, например PGD-атакой, и строим adversarial vertex kx* с тем же классом, что x. Делаем им обоим label smoothing с разными коэффициентами, и для обучения делаем mixup этих двух точек (x и kx*).

Есть теоретический анализ через робастные (полезные для классификации) и неробастные (по сути, ненужные для классификации) фичи.

Результаты довольно впечатляют, особенно когда они применяют технику к предыдущему state-of-the-art подходу и получают практически полностью робастную к PGD-атаке сеть.



Source: https://openaccess.thecvf.com/content_CVPR_2020/papers/Lee_Adversarial_Vertex_Mixup_Toward_Better_Adversarially_Robust_Generalization_CVPR_2020_paper.pdf

Комментарии