Обучение в условиях noisy labels и противоречивых данных от разных экспертов

Написано

Обучение в условиях noisy labels и противоречивых данных от разных экспертов

Проблема обучения моделей машинного обучения на данных с зашумленными или противоречивыми разметками (noisy labels) является одной из ключевых в современном искусственном интеллекте. В реальных сценариях, особенно в таких областях, как медицинская диагностика, анализ финансовых рисков, обработка естественного языка и компьютерное зрение, сбор идеально размеченных данных невозможен или чрезмерно дорог. Шум возникает из-за человеческих ошибок, автоматизированных процессов разметки низкого качества, неоднозначности самих данных, а также из-за расхождений во мнениях нескольких экспертов. Устойчивость к шуму в разметке — критически важное свойство для создания надежных и обобщающихся моделей.

Природа и классификация шума в разметке данных

Шум в метках (label noise) можно систематизировать по нескольким признакам. По источнику возникновения выделяют два основных типа: шум, зависящий от признаков (feature-dependent noise), и шум, не зависящий от признаков (random noise). Первый возникает, когда сложность или неоднозначность конкретного образца приводит к ошибке разметки. Второй — результат случайных ошибок, например, опечаток. Более формальная классификация основана на структуре матрицы перехода.

Тип шума	Матрица перехода T (пример для 3 классов)	Описание	Пример
Симметричный (равномерный) шум	[[0.7, 0.15, 0.15], [0.15, 0.7, 0.15], [0.15, 0.15, 0.7]]	Вероятность ошибочной разметки равномерно распределена между всеми другими классами. Истинная метка может быть заменена на любую другую с одинаковой вероятностью.	Случайный клик при краудсорсинговой разметке изображений.
Асимметричный (шум внутри суперкласса)	[[0.9, 0.1, 0.0], [0.0, 0.9, 0.1], [0.1, 0.0, 0.9]]	Ошибки происходят только между семантически близкими классами. Матрица перехода не симметрична.	Путаница между породами собак («хаски» vs «маламут»), но не между «хаски» и «грузовик».
Шум «от класса к классу»	[[1.0, 0.0, 0.0], [0.4, 0.6, 0.0], [0.0, 0.0, 1.0]]	Конкретный класс систематически неправильно маркируется как другой конкретный класс.	В медицинских данных «доброкачественная» опухоль иногда маркируется как «злокачественная».

Ситуация с несколькими экспертами добавляет дополнительный слой сложности. Противоречия возникают из-за разного уровня компетенции, субъективных интерпретаций, усталости или неполных инструкций. Совокупность их разметок формирует многозначный или вероятностный таргет, который нельзя просто усреднить без учета качества каждого эксперта.

Методы и стратегии обучения на зашумленных данных

Подходы к решению проблемы можно разделить на несколько крупных категорий, которые часто комбинируются на практике.

1. Робастные архитектуры и функции потерь (Robust Loss Functions)

Цель — модифицировать функцию потерь так, чтобы она была менее чувствительна к выбросам в метках. Классическая кросс-энтропия сильно «штрафует» модель за несовпадение с ошибочной меткой, что ведет к переобучению на шум.

Symmetric Losses: Например, Generalized Cross Entropy (GCE) или Symmetric Cross Entropy (SCE). Они добавляют регуляризацию, препятствующую излишней уверенности модели на зашумленных примерах.
Потери, основанные на пересмотре (Loss Correction Methods): Эти методы явно моделируют процесс возникновения шума. Если известна или оценена матрица перехода T (вероятность, что истинная метка i была заменена на метку j), можно скорректировать функцию потерь: L_corrected(y_pred) = T^T
L(y_pred). Это позволяет обучать модель на истинном, но ненаблюдаемом распределении меток.

2. Динамическое выделение и фильтрация образцов (Sample Selection and Weighting)

Эти методы пытаются разделить данные на «чистые» и «зашумленные» в процессе обучения, чтобы использовать для обновления весов только первые или назначать им больший вес.

Малые потери как индикатор чистоты (Small Loss Trick): Эмпирически установлено, что на ранних этапах обучения модель учится легким, типичным образцам быстрее, чем зашумленным. Поэтому образцы с наименьшими значениями потерь в текущем мини-батче считаются «чистыми» и используются для градиентного спуска. Методы: MentorNet, Co-teaching.
Ко-обучение (Co-teaching): Две идентичные модели обучаются параллельно. На каждой итерации каждая модель выбирает образцы с наименьшими потерями (согласно своей собственной классификации) и передает этот «чистый» набор другой модели для обучения. Это снижает кумулятивную ошибку, так как модели могут иметь разные мнения о том, какие данные зашумлены.

3. Моделирование экспертов и агрегация меток (Label Aggregation)

Когда доступны разметки от нескольких экспертов, ключевая задача — оценить как истинную метку для каждого образца, так и компетентность каждого эксперта. Это задача вывода скрытых переменных.

Модель/Алгоритм	Принцип работы	Преимущества
Модель Доз-Сент-Энжа (Dawid-Skene)	Использует EM-алгоритм для одновременной оценки вероятностной истинной метки и матрицы ошибок для каждого эксперта. Предполагает, что эксперты работают независимо.	Статистически обоснована, хорошо работает при достаточном количестве экспертов и перекрытий в разметке.
Платы за ошибки (Error Costs)	Введение штрафов за несовпадение с экспертами, взвешенных по их предполагаемой точности. Модель учится доверять более надежным экспертам.	Интуитивно понятная интеграция в процесс обучения с помощью взвешенной функции потерь.
Обучение с мягкими метками (Soft Labels)	Вместо выбора одной метки, модель обучается на распределении меток от всех экспертов (например, [0.8, 0.2, 0.0] для трех классов). Функция потерь (например, KL-дивергенция) минимизирует расхождение между предсказанием и этим распределением.	Сохраняет информацию о неопределенности и разногласиях, что может улучшить калибровку модели.

4. Регуляризация и предотвращение запоминания шума (Regularization Against Memorization)

Глубокие нейронные сети обладают способностью запоминать (интерполировать) даже случайно размеченные данные при длительном обучении. Чтобы предотвратить это, применяют сильную регуляризацию.

Mixup: Техника аугментации данных, где создаются новые виртуальные образцы и их метки путем линейной интерполяции между двумя случайными исходными примерами: x’ = λx_i + (1-λ)x_j, y’ = λy_i + (1-λ)y_j. Это создает более плавные переходы между классами и делает модель менее уверенной в зашумленных точках.
Ранняя остановка (Early Stopping): Простейший, но эффективный метод. Обучение останавливается, когда производительность на чистом валидационном наборе начинает падать, что часто соответствует началу фазы запоминания шума.

Практический пайплайн работы с противоречивыми данными от экспертов

Сбор и предварительный анализ: Сбор разметок с указанием эксперта для каждого образца. Анализ согласия между экспертами (коэффициент каппа Флейсса). Визуализация сложных образцов с высокой дисперсией оценок.
Агрегация меток: Применение модели Dawid-Skene или аналогичной для получения «золотого стандарта» — вероятностных или псевдо-истинных меток. Оценка компетентности экспертов.
Выбор стратегии обучения:
- Если оцененная компетентность экспертов высока, а противоречия невелики, можно использовать агрегированные мягкие метки.
- Если есть подозрение на значительный шум или наличие «плохих» экспертов, использовать агрегированные жесткие метки в сочетании с методами робастного обучения (Co-teaching + Mixup).
Обучение с валидацией на надежном подмножестве: Наличие небольшого, тщательно проверенного вручную набора данных для валидации и тестирования критически важно для объективной оценки.
Итеративный процесс и активное обучение: Модель после обучения может использоваться для выявления наиболее спорных образцов (где ее уверенность низка, или где она сильно расходится с экспертами). Эти образцы отправляются на повторную разметку старшим экспертом, что улучшает и данные, и модель.

Ответы на часто задаваемые вопросы (FAQ)

Как определить, есть ли в моих данных проблема с шумом в метках?

Проведите аудит данных: выберите случайную подвыборку и попросите переразметить ее другого эксперта. Рассчитайте процент согласия. Низкое согласие (например, <90% для простых задач) указывает на проблему. Также тревожным сигналом является резкий разрыв между точностью на тренировочном и валидационном наборах при длительном обучении — тренировочная точность может стремиться к 100%, а валидационная — падать.

Что важнее: бороться с шумом или собирать больше данных?

Это зависит от уровня шума. При низком уровне шума (например, 20%) добавление еще большего количества зашумленных данных может только ухудшить ситуацию. Приоритетом должна стать очистка существующих данных или применение робастных алгоритмов.

Можно ли полностью автоматизировать процесс очистки данных от шума?

Полная автоматизация без какого-либо человеческого контроля рискованна. Автоматические методы могут отфильтровать редкие, но важные примеры, приняв их за шум. Оптимальная стратегия — гибридная: автоматические методы ранжируют данные по вероятности быть зашумленными, а человек-эксперт проверяет только топ-N спорных случаев.

Как работать, когда привлечение нескольких экспертов для каждого образца слишком дорого?

Используйте методы, не требующие множественных разметок. Начните с сильной регуляризации (Mixup, аугментация) и методов, основанных на малых потерях (Co-teaching). Соберите множественные разметки только для небольшого репрезентативного подмножества данных (например, 1000 образцов), чтобы оценить уровень шума и компетентность основного разметчика, а затем используйте эти оценки для коррекции потерь на всей выборке.

Как оценивать качество модели, если тестовый набор также может содержать шум?

Это серьезная проблема. Идеальное решение — создание небольшого, но безупречно чистого тестового набора силами старшего эксперта. Если это невозможно, используйте согласованные метки от нескольких экспертов (консенсус) в качестве ground truth. Для оценки также полезны метрики, учитывающие неопределенность, такие как Negative Log-Likelihood (NLL) или Brier Score, на агрегированных мягких метках, так как они чувствительны к калибровке модели.

Заключение

Обучение в условиях noisy labels и противоречивых данных от экспертов перестало быть нишевой проблемой и стало стандартной практикой в разработке промышленных систем ИИ. Успех зависит от комбинации статистических методов агрегации меток, робастных алгоритмов обучения и продуманного человеческого контроля. Современный пайплайн предполагает итеративность: модель не только обучается на данных, но и помогает улучшать их качество, выявляя противоречия. Ключевой вывод заключается в том, что принятие неопределенности как неотъемлемого свойства данных, а не как досадной помехи, позволяет создавать более гибкие, калиброванные и надежные модели машинного обучения, способные работать в неидеальных реальных условиях.

Обучение в условиях noisy labels и противоречивых данных от разных экспертов