Вероятностный взгляд на L1 и L2-регуляризаторы

На предыдущем занятии мы с вами сделали первый шаг в вероятностную интерпретацию задач машинного обучения. Увидели, как с помощью модели под названием логистическая регрессия, можно не только делать прогноз класса, но и вычислять уверенность (вероятность) классификатора в этом прогнозе. Вообще вероятностный (точнее, байесовский) подход к машинному обучению – это большая, объемная научная область, которую мы лишь слегка коснемся. В частности, посмотрим на уже знакомые нам L1 и L2-регуляризаторы с вероятностной точки зрения.

Начнем с того, что я напомню, мы строили прогноз в логистической регрессии, как вероятность правильной классификации:

При этом метки для классов должны принадлежать множеству . Так вот, эту формулу условной вероятности я, фактически записал, исходя из интуитивных соображений. Я полагал, что выходное вероятностное значение  может зависеть только от входного образа  и вектора весов . Но насколько все же верна эта формула? Ошибиться здесь очень просто. В действительности, мы должны исходить из общего совместного распределения вероятностей входов и выходов рассматриваемой задачи:

И, так как мы предполагаем, что выходы зависят от настраиваемого вектора параметров , то в нашем конкретном случае эта плотность запишется в виде:

А задача поиска оптимального вектора  в соответствии с методом максимального правдоподобия – это максимум данной совместной плотности распределения вероятностей (ПРВ):

Это и есть общая вероятностная постановка задачи для оптимизации (нахождения) коэффициентов  для выбранной параметрической модели. Однако, на практике вычислить или подобрать такую многомерную ПРВ очень сложно. Поэтому давайте попробуем ее упростить. Распишем, следующим образом:

Я здесь учитываю тот факт, что входные объекты (наблюдения)  не зависят от параметров . Из этого выражения следует, что:

Это есть не что иное, как теорема Байеса для условной ПРВ. Она позволяет выполнять пересчет вероятностей выходов  при предъявлении наблюдений  с заданным вектором параметров . И здесь мы сразу видим, что правильно было бы записывать задачу оптимизации в виде:

Однако, на предыдущем занятии нам повезло, так как  не зависит от вектора  и при поиске точки максимума может быть отброшен, то есть:

Эти небольшие теоретические выкладки, что я привел, показывают, как важно опираться на строгие математические выводы, а не просто на «здравый смысл».

Но я все это привел еще и для того, чтобы вы увидели ключевой вероятностный элемент задач машинного обучения – формулу Байеса. Часто, именно она является отправной точкой для решения оптимизационных задач с позиции теории вероятностей. В частности, так обстоит дело с L1 и L2-регуляризаторами.

Давайте вспомним, что регуляризация – это ограничения, накладываемые на значения вектора коэффициентов  в функциях потерь:

А как можно в вероятностном смысле интерпретировать эти ограничения? Да, через априорную ПРВ для параметров ω. В частности, L2-регуляризатор соответствует нормальному распределению:

,

где ;  - дисперсия компонент вектора . В данном случае полагаем, что все элементы вектора  имеют равную дисперсию, нулевое математическое ожидание и некоррелированы между собой. Это довольно строгие ограничения, но вы сейчас увидите, почему я их ввел.

Теперь, с учетом наличия априорной ПРВ для вектора параметров, нам следует рассматривать оптимизацию следующей совместной ПРВ:

Снова распишем эту формулу, получим:

и алгоритм поиска наилучших параметров, будет иметь вид:

Мы здесь отбросили , т.к. он не зависит от .

Что же в итоге имеем? Давайте предположим, что у нас имеется некая обучающая выборка для задачи бинарной классификации:

Тогда подбор параметров по обучающей выборке можно записать так, как мы это делали на предыдущем занятии:

То есть, мы здесь используем логарифм правдоподобия. Это эквивалентно, следующей функции потерь:

В свою очередь:

(здесь const=0, т.к. не влияет на оптимизацию). И, как раз, приходим к выражению L2-регуляризации, которое мы ранее с вами вводили из некоторых эвристических соображений. Здесь же мы точно, математически показали, что L2-регуляризатор эквивалентен введению нормального априорного распределения на вектор настраиваемых параметров. Причем, предполагается, что элементы вектора  независимы между собой, имеют равную дисперсию и нулевое среднее. Кстати, в ряде задач, эти предположения могут оказаться неверными и тогда, опираясь на формулу многомерного нормального распределения:

можно определять L2-регуляризатор с произвольной корреляционной матрицей  и вектором МО . Как видите, вероятностная интерпретация дает нам здесь большую гибкость в подборе гиперпараметров для L2-регуляризатора.

По аналогии распишем вероятностно L1-регуляризатор. Там используется сумма модулей и это приводит нас к распределению Лапласа:

где . В этом случае функция потерь принимает тот же вид:

но второе слагаемое будет несколько иным:

(здесь также const=0). В приведенной формуле распределения Лапласа мы также полагаем независимость элементов вектора параметров, нулевое среднее и постоянную дисперсию. Если же это не так, то опираясь на формулу, всегда можем скорректировать поведение L1-регуляризатора.

Видео по теме