Небольшая онлайн утилита по очистке HTML

Статус
В этой теме нельзя размещать новые ответы.

xenator

Создатель
Регистрация
6 Июл 2009
Сообщения
46
Реакции
4
Привет,

Предлагаю оценить небольшую онлайн утилиту позволяющую очистить HTML код от вредного мусора. Делается все просто, копируете HTML который сгенерировал Word в окно и нажимаете кнопку "Зачистить". Получаете чистый HTML, без лишнего мусора и небезопасных внедрений.

Как вариант можно включить визуальный редактор и вставить туда Rich Text из редактора или приложения (тот же ворд, страница сайта или Open Office).

Наверное есть какие-то онлайн и оффлайн аналоги, мне нужен был такой сервис для сотрудников, а единственная альтернатива которую они предлагали был Adobe Dreamweaver.

Страница утилиты: Для просмотра ссылки Войди или Зарегистрируйся

Сообщайте об ошибках и пожеланиях, буду признателен. Может быть было бы удобнее дать возможность показывать diff между тем что было и что стало?

P.S. Не обращайте внимание, на другие подразделы сайта, это пока куцая версия нашей внутренней системы мы ее постепенно решили открывать в общий доступ.
 
хм, интересно, вставил из дле код шаблона main.tpl, так он у меня зачистил весь шаблон, оставил только <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">. Жесть
 
  • Заблокирован
  • #3
Хм...Интересно :)
Скажите, а под Seven пашет?
 
хм, интересно, вставил из дле код шаблона main.tpl, так он у меня зачистил весь шаблон, оставил только <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">. Жесть


Шаблоны не очистит это точно. Внутри находится парсер который пытается считывать только HTML документ, строит дерево, после проходит по дереву копируя только разрешенные теги и их атрибуты.

Вот теги которые считаются допустимыми: 'a', 'abbr', 'acronym', 'address', 'area', 'b', 'big', 'blockquote', 'br', 'button', 'caption', 'center', 'cite', 'code', 'col', 'colgroup', 'dd', 'del', 'dfn', 'dir', 'div', 'dl', 'dt', 'em', 'font', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'hr', 'i', 'img', 'ins', 'kbd', 'label', 'legend', 'li', 'map', 'menu', 'ol', 'p', 'pre', 'q', 's', 'samp', 'small', 'span', 'strike', 'strong', 'sub', 'sup', 'table', 'tbody', 'td', 'tfoot', 'th', 'thead', 'tr', 'tt', 'u', 'ul', 'var'

Атрибуты: 'abbr', 'accept', 'accept-charset', 'accesskey', 'action', 'align', 'alt', 'axis', 'border', 'cellpadding', 'cellspacing', 'char', 'charoff', 'charset', 'checked', 'cite', 'clear', 'cols', 'colspan', 'color', 'compact', 'coords', 'datetime', 'dir', 'enctype', 'for', 'headers', 'height', 'href', 'hreflang', 'hspace', 'id', 'ismap', 'label', 'lang', 'longdesc', 'maxlength', 'method', 'multiple', 'name', 'nohref', 'noshade', 'nowrap', 'prompt', 'rel', 'rev', 'rows', 'rowspan', 'rules', 'scope', 'shape', 'size', 'span', 'src', 'start', 'summary', 'tabindex', 'target', 'title', 'type', 'usemap', 'valign', 'value', 'vspace', 'width'

Как видно тут нет ничего специфического за пределами HTML спецификации. В принципе можно подумать о том, чтобы включить поддержку каких-то изысканных DTD, но это может оказаться overkill если это никому не нужно :)

Добавлено через 5 минут
Хм...Интересно :)
Скажите, а под Seven пашет?

Сайт хостится на Google App Engine которы возмоляет хостить только python и java. В остальном наверное да :)
 
Плагин HTML Validator, может чистить
 
хм, интересно, вставил из дле код шаблона main.tpl, так он у меня зачистил весь шаблон, оставил только <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">. Жесть
Аналогично.

Открываем страницу с тулзой, исходный код этой же страницы и запускаем его "очистку". Результат - только первая строчка. Ниже форма с другим результатом - там удален весь head и много разных других тэгов...
 
Аналогично.
Открываем страницу с тулзой, исходный код этой же страницы и запускаем его "очистку". Результат - только первая строчка. Ниже форма с другим результатом - там удален весь head и много разных других тэгов...

Дошло в чем суть, спасибо за разъяснение.

Проблема была в том, что теги html и body не были внесены в список разрешенных. Специально для таких случаев я их добавил, но в целом основной use case на который рассчитывал это не очистка целого HTML файла, а только кода находящегося в видимой части.

Сейчас можно копировать и вставлять HTML файл полностью, но head в результате уже не появится.

Заодно добавил дополнительную фичу, теперь можно убирать дополнительные пробелы между тегами. Немного экономит место.
 
Чистка кода - вещь полезная. Я ее в некоторых своих скриптах использую... класс от некоего luciansabo@gmail.com.
 

Вложения

  • HTMLCleaner.rar
    3 KB · Просмотры: 13
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху