# Обход защитных мер - Mutation XSS Когда мы ранее говорили о санитизации, я напомнил всем не пытаться реализовать её самостоятельно, а использовать существующие библиотеки. Это связано с тем, что при реализации фильтраций существует много подводных камней. Но есть ли у этих библиотек проблемы? Это возможно, и на самом деле это уже происходило. Одна из распространенных атак на санитайзеры называется **мутационный XSS**, также известный как **mXSS**. Прежде чем понять **mXSS**, давайте посмотрим, как обычно работают санитайзеры. ### **Basic Flow of Sanitizers** Исходя из нашего предыдущего опыта, входными данными для санитайзера является строка, содержащая **HTML**, и выходными данными также является строка, содержащая **HTML**. Вот пример того, как это используется: **const inputHtml = '\

hello\

'const safeHtml = sanitizer.sanitize(inputHtml)document.body.innerHTML = safeHtml** Итак, как работает санитайзер внутри? На самом деле его внутренняя работа очень похожа на санитайзер, который мы реализовали с использованием **BeautifulSoup**: **1. Преобразовать inputHtml в DOM-дерево.**\ **2. Удалить недопустимые узлы и атрибуты на основе файла конфигурации.**\ **3. Преобразовать DOM-дерево обратно в строку.**\ **4. Вернуть строку.** Этот процесс, кажется, не вызывает проблем, но дьявол кроется в деталях. Что, если "HTML, который кажется безопасным, на самом деле таковым не является"? Подождите, разве мы уже не санитизировали его? Как он может быть небезопасен? Давайте сначала рассмотрим пример. ### **Browser's "Considerate" Feature** Браузер - это внимательное программное обеспечение, которое, чтобы справиться с различными ситуациями и соответствуя спецификациям, может не отображать **HTML** именно так, как вы его видите. Например, рассмотрим следующий пример: {% code overflow="wrap" %} ```html

``` {% endcode %} Поместить **\

внутрь \ кажется нормальным, но если вы откроете эту веб-страницу, заметите:
Структура HTML изменилась! Она становится: ```html
hello
``` \

, который должен был быть внутри \, "выпрыгивает" из него. Это происходит, потому что браузер, исходя из спецификации HTML, определяет, что \
не должен быть внутри \
, поэтому он любезно убирает его. Исходя из истории развития веба, для браузеров нормально пытаться исправить недействительный HTML. В конце концов, это лучше, чем выбрасывание ошибки или отображение пустой страницы. Это поведение "HTML-строки изменяются браузером при рендеринге" называется мутацией. И XSS, достигнутый за счет использования этого поведения, естественно, называется мутационным XSS. Рассмотрим еще один пример: {% code overflow="wrap" %} ```html
``` {% endcode %} Результат рендеринга:
Браузер считает, что \
не должен быть внутри \
из \
. А как насчет этого еще более странного примера? На этот раз, вместо \
, это \
: {% code overflow="wrap" %} ```html
``` {% endcode %} Результат: ```html
hello ``` Браузер автоматически исправляет \
, добавляя перед ним \
, но тег все равно остается внутри \
\
hello. Поэтому, в настоящее время, мы не можем воспроизвести эту ситуацию, но продолжим.) Теперь, происходит что-то интересное. Если мы берем \
\
hello\ и передаем его innerHTML, каков будет результат? {% code overflow="wrap" %} ```html
``` {% endcode %} Результат: ```html
hello ``` Не только \
, но даже следующий "hello" выпрыгивает. Все, что было первоначально внутри \
hello\. Первый шаг санитайзера - преобразовать его в DOM-дерево. Исходя из предыдущего эксперимента, это становится: ```html
hello ``` Он выглядит абсолютно нормально, ничего не нужно фильтровать. Следующий шаг - преобразовать DOM-дерево обратно в строку, что дает: \
\
hello\. Далее, команда фронтенд-разработчиков получает safeHtml и выполняет document.body.innerHTML = safeHtml. Получающийся HTML выглядит следующим образом: ```html
hello ``` Для санитайзера \
и "hello" находятся внутри SVG, но финальный результат другой. Они размещены снаружи. Таким образом, через этую мутацию мы можем заставить любой элемент выпрыгнуть из \ ``` Интерпретируется как:
Черный текст соответственно представляет собой текст . Но вот интересная часть. Если мы добавим внешний \ ``` {% endcode %} В результате интерпретируется:
Тег \ внутри \"> ``` И это будет отображаться как:
Здесь мы просто добавили идентификатор \ со значением \\. Хотя он содержит \, он не закрывает предыдущий \"> ``` Поскольку \ больше не является элементом, а просто текстом, у него нет атрибутов. Таким образом, \ здесь закроет предыдущий \, он представлен как собственный HTML элемент. Исходя из приведенных выше экспериментов, можно сделать вывод, что наличие \
"> ``` После преобразования этого в DOM-древо, структура становится: {% code overflow="wrap" %} ```html
"> ``` {% endcode %} Браузер делает здесь несколько вещей: 1. Преобразует \
в \
\
\ 2. Автоматически закрывает теги \
, \"> ``` {% endcode %} Затем пользовательская программа передает эту строку в innerHTML, и происходят вышеупомянутые мутации. Все теги выбрасываются из \
"> ``` Поскольку \ преждевременно закрывается, что приводит к тому, что скрытый \ становится настоящим HTML-элементом внутри содержимого атрибута. Это в конечном итоге приводит к XSS. ### Решение проблемы Чтобы исправить эту проблему, DOMPurify добавил [проверку](https://github.com/cure53/DOMPurify/commit/ae16278018e7055c82d6a4ec87132fea3e236e30#diff-ac7cd96b8f4b994868af43ac8aff25573dd7cede1aab33fdcfd438811c7e853d) в код, чтобы предотвратить подверженность mXSS. В то же время, эта проблема была также сообщена в Chromium, потому что она была связана с ошибкой парсера, которая вызывала эту странную мутацию:[Issue 1005713: Security: Parser bug can introduce mXSS and HTML sanitizers bypass](https://bugs.chromium.org/p/chromium/issues/detail?id=1005713#c_ts1574850321). В результате, в ходе обсуждения разработчики обнаружили, что это поведение вполне соответствует спецификации, что означает, что это была ошибка в спецификации HTML! Таким образом, эта проблема стала вопросом исправления самой спецификации, и они открыли вопрос в репозитории спецификации: [Unmatched p or br inside foreign context needs a special parser rule #5113](https://github.com/whatwg/html/issues/5113) Конечный результат заключался в том, что в спецификацию было добавлено новое правило, и Chromium исправил эту уязвимость на основе нового правила. Так что потом похожие уязвимости больше не встречались, и все жили счастливо и долго… или все же нет? Нет, позже было обнаружено, что у DOMPurify был более сложный метод обхода, но после его исправления он стал ещё сильнее и проблемы в основном не возникали. Человек, который обнаружил эту проблему, был Michał Bentkowski, старший эксперт по безопасности в области разработки веб-безопасности. Он сообщал о различных больших и маленьких проблемах и имеет глубокое понимание парсинга HTML и различных механизмов. Позже мы увидим некоторые из классических уязвимостей, которые он сообщал. Если вы хотите углубиться в эту проблему, вы можете обратиться к статьям, которые он написал ранее. Мои знания о mXSS происходят от него: 1\. [Write-up of DOMPurify 2.0.0 bypass using mutation XSS](https://research.securitum.com/dompurify-bypass-using-mxss/)\ 2.[ Mutation XSS via namespace confusion – DOMPurify < 2.0.17 bypass](https://research.securitum.com/mutation-xss-via-mathml-mutation-dompurify-2-0-17-bypass/)\ 3\. [HTML sanitization bypass in Ruby Sanitize < 5.2.1](https://research.securitum.com/html-sanitization-bypass-in-ruby-sanitize-5-2-1/) ### Заключение Когда я впервые столкнулся с mXSS, я был запутан и не полностью его понял. Для написания этой статьи я снова прошёл через контекст и попробовал сам, и тогда мне показалось, что я понял, что происходит. Понимание его концепции не сложно, но вникнуть во все детали потребует немного больше времени. Более того, обнаруженные уязвимости уже были исправлены, поэтому их невозможно воспроизвести в текущих браузерах, что немного проблематично. Но в целом, я думаю, что mXSS - это более продвинутая тема внутри XSS. Она включает в себя спецификацию HTML, парсинг браузера и работу санитайзеров. Это нормально, что на её понимание требуется немного больше времени.

hello\

** внутрь **\** кажется нормальным, но если вы откроете эту веб-страницу, заметите: Структура HTML изменилась! Она становится: ```html hello ``` **\

hello

** не должен быть внутри **\

внутрь \ кажется нормальным, но если вы откроете эту веб-страницу, заметите:
Структура HTML изменилась! Она становится: ```html
hello
``` \

не должен быть внутри \