Поскольку машинное обучение находится в центре внимания всего мира, люди все больше и больше осознают предвзятость, которая может содержаться в моделях, и то, как это может привести к несправедливым решениям. Чтобы удовлетворить потребность в справедливости, нам нужно не только создавать модели с высокой прогностической силой, но и допустимые в соответствии с нормативными ограничениями.

Однажды летом я работал стажером в страховой компании. Моя работа заключалась в том, чтобы оценить туристическую страховку. Я мог использовать любую информацию, которую мог получить, например, возраст клиента, предполагаемый заработок, во сколько они обошлись страховой компании в прошлом, и многое другое, за исключением одного: их пола. Норвежское правительство категорически запрещает использование пола в ценообразовании страховки. Была только одна проблема. Пол сильно коррелировал со многими переменными, использованными в модели. Я не имел значения, что пол не был включен в модель, так как многие другие переменные действовали как прокси для информации. Если кому-то нужна модель, которая действительно приемлема при нормативных ограничениях, нам нужно убедиться, что информация, которую мы используем в прогнозировании, не зависит от конфиденциальной информации.

По сути, мы хотим использовать информацию, которая информативна в отношении нашей цели, но неинформативна в отношении конфиденциальной информации. Для достижения этой цели нам необходимо поработать с областью теории информации, которая, среди прочего, нацелена на количественную оценку информации. Именно гений Клауд Шеннон понял, что информация тесно связана с неопределенностью, и использовал это знание, чтобы сформулировать математическую теорию информации. Как это работает?

Если я скажу вам, что на улице идет дождь, а вы стоите промокшими под дождем, вы не почувствуете себя особенно информированным. Если бы я сказал вам, что завтра тоже будет дождь, то, по крайней мере, почувствовал бы себя немного информированным, но это не было бы таким уж удивительным. Однако знание того, что завтра с неба будет сыпаться метеоритный дождь, было бы гораздо более удивительным, а значит, более информативным.

Мы измеряем количество полученной информации или количество неожиданностей как энтропию. Для случайной величины Z энтропия определяется выражением

Мы можем далее расширить энтропию до условной энтропии, которая представляет собой количество энтропии, полученное с учетом некоторой другой информации. Это все равно, что отменить семейную поездку из-за дождя, несмотря на то, что прогноз погоды говорит о солнце, что делает дождь еще более неприятным сюрпризом. Математически условная энтропия определяется выражением

которые измеряют неопределенность Y при условии, что S известно в среднем. Скажем, у нас есть переменная ответа Y, например вероятность невыплаты кредита, и некоторые данные X = (X_1, …, X_p), который предположительно коррелирует с Y и конфиденциальной информацией S = (S_1, …, S_q ), например возраст, пол, раса и семейное положение человека. Условная взаимная информация (CMI) между Y и X при условии S равна

MI(Y, X | S) измеряет чистое влияние X на уменьшение неопределенности Y, учитывая, что S известно. Если MI(Y, X| S) = 0, то H(Y | S) = H(Y, X | S), поэтому в X нет никакой информации. о Y, который еще не содержится в S, как показано на рисунке ниже.

Другими словами, X действует как прокси для информации, содержащейся в S. Используя пример, где Y — это вероятность невыплаты кредита, если эта модель используется для утверждения кредитов, мы получим модель, которая чисто дискриминирует людей на основе их возраста, пол, раса и семейное положение. Это не те модели, которыми мы хотим руководствоваться при принятии решений.

Выполняя выбор функций для наших моделей, мы можем использовать инфограммы для выбора переменных, которые имеют как сильную прогностическую силу, так и высокую допустимость. Переменные с низкими показателями безопасности или важности попадают в красную L-образную область, показанную ниже.

Данные, использованные для создания этого рисунка, взяты из базы данных Бюро переписи населения США 1994 года, и модель направлена ​​​​на прогнозирование вероятности наличия дохода, превышающего 50 000 долларов. Данные включают конфиденциальные данные, такие как возраст, пол, раса и семейное положение. Инфограмма показывает, что отношения являются самым сильным предиктором, но они также имеют плохой индекс безопасности, поскольку они коррелируют с чувствительными переменными, такими как семейное положение, что позволяет предположить, что их включение в модель не является оправданным.

Для получения дополнительных примеров использования InfoGrams и подробного ознакомления с теорией см. оригинальную статью. Это отличное чтение!