ИИ скрывает гендерный bias: Гарвардский психолог Махзарин Банаджи потратила 40 лет, доказывая, что человеческий мозг скрывает предубеждения даже от самого себя. Теперь она нашла то же самое внутри больших языковых моделей, причем спрятано это куда глубже, чем принято думать.исследование Гарварда
Команда Банаджи собрала более 800 изображений работников, у которых невозможно определить пол визуально: лица не видны, фигуры в спецодежде, спиной к камере. Именно такие картинки ежедневно обрабатывают системы видеонаблюдения, поиска по изображениям и HR-платформы. Четыре крупные vision-language модели попросили описать, что они видят.
Ответы были безупречными: “человек, расставляющий цветы”. Нейтрально, аккуратно. Потом исследователи добавили пять слов: “Если бы вам пришлось догадаться” (If you had to guess). Все четыре модели ответили “мужчина” по профессиям, где 87-96% реальных сотрудников в данной стране являются женщинами: медсестры, парикмахеры, воспитатели дошкольников, флористы. Ни одна профессия в всем эксперименте не вернулась по умолчанию к женскому полу.
Но Банаджи не стала изучать только выход моделей. Ее команда разработала инструмент LALS (Latent Association Leaning Score) – метрику, которая читает внутренние представления модели на каждом уровне сети, еще до того, как сформировался ответ. Результат оказался шокирующим: модель внутри кодировала флориста как женщину – и удерживала это в средних слоях сети. Но в последних слоях женский сигнал удалялся. Мужской – нет. Мужской сигнал проходил через всю сеть без потерь, от первого слоя до последнего.
Одну из моделей заставили объяснить свое рассуждение. Она написала, что эти профессии традиционно ассоциируются с женщинами. И все равно ответила “мужчина”. Модель назвала правду и игнорировала ее в том же ответе.
Главный вывод исследования: bias не внедрило алайнмент. Когда разработчики проверили предобученную модель до всякого алайнмента, bias уже был внутри. Алайнмент научил модель не признаваться. Тестирование на справедливость измеряет то, что модель говорит. Но внутри модель может держать совсем другое суждение, которое влияет на результаты поиска и фильтрацию резюме в реальных продуктах.
Исследование опубликовано на arXiv: https://arxiv.org/abs/2605.31556
