Неопознанный объект: как «сомневающаяся» нейросеть SDDE обрабатывает изображения точнее своих аналогов

Студенты Университета МИСИС и МФТИ совместно с учеными лаборатории исследований искусственного интеллекта T-Bank AI Research предложили новую ансамблевую нейросеть SDDE (Saliency Diversified Deep Ensembles), которая с большей точностью определяет объекты на изображениях, не загруженных в базы данных. В перспективе новый алгоритм поможет развить сферу беспилотных транспортных средств и медицинской диагностики, где важно различать неопознанные элементы и графические артефакты. Исследователи представили свою работу в октябре на международной конференции по обработке изображений ICIP 2024 в г. Абу-Даби (ОАЭ).

С увеличением объема данных возникает потребность в более надежных нейросетях, способных не только классифицировать новые объекты, но и распознавать технические помехи, которые неизбежно возникают при получении изображения. Совокупность всей неизвестной информации называют данными вне распределения (ДВР). Человеческий фактор при обнаружении ДВР может привести к нежелательным последствиям. Создатели алгоритма решили эту задачу с помощью разнообразия ансамблевой модели, которое снизило корреляцию между вхождениями и повысило общую точность системы.

Ансамблевая нейросеть SDDE состоит из нескольких моделей, которые обучаются на подмножествах отдельно взятых баз данных, что позволяет каждой из них фокусироваться на уникальных характеристиках изображений. Это достигается с помощью диверсификации карт внимания каждой модели — концепта, позволяющего понять, куда смотрит нейросеть. В результате повышается разнообразие ансамбля и нейросеть определяет объекты на изображениях с минимальной погрешностью. Для оценки эффективности нейросети исследователи провели испытания на нескольких базах данных: CIFAR10, CIFAR100 и ImageNet-1K. Ансамблевая нейросеть SDDE продемонстрировала наилучшие результаты по сравнению со схожими алгоритмами, такими как Negative Correlation Learning и Adaptive Diversity Promoting.

«Одной из важнейших задач при разработке моделей машинного обучения является соответствие реальной вероятности той, которую выдает нейросеть. То есть нейросеть уверена настолько, насколько ей легко предсказать таргет для данного образца. Обычно сети вообще не сомневаются в своих предсказаниях. В рамках данного исследования мы предложили новый метод диверсификации ансамблей, основанный на логитах — то есть, значениях, которые нейросеть выдает перед тем, как превратить их в вероятности. Это нововведение позволило повысить точность „мнения“ нейросети при обнаружении данных вне распределения, что критично для применения моделей в реальных условиях. Например, в режиме автономного вождения необходимо безошибочно определять объекты на дороге, чтобы предотвращать аварии. В медицинской диагностике же требуется обширная база данных для правильной постановки диагноза. Неоткалиброванные модели могут быть чрезмерно уверены в своих неверных предположениях. У нашей нейросети излишняя уверенность отсутствует, что позволяет ей более адекватно оценивать свои расчеты», — рассказал студент 3 курса Института компьютерных наук НИТУ МИСИС Максим Жданов.

Для лучшего обнаружения помех-артефактов исследователи использовали подход Outlier Exposure, который заключается в обучении модели на специальных наборах данных, содержащих примеры ДВР.

Ранее ученые Университета МИСИС и НИУ ВШЭ представили новую нейросеть LAPUSKA, которая справляется с улучшением качества изображений в 2 раза быстрее по сравнению с аналогичными продуктами.