1. Начата процедура восстановления социальных групп. Лидерам старых и новых групп обязательно ознакомиться с регламентом проведения работ.

Очистка Word to HTML конвертирования

Тема в разделе 'Регулярные выражения', создана пользователем drawing4, 20 май 2011.

  1. Наверно я не понимаю что нужна сделать.
    как ни крути, если есть sql база,зогоняем её в Dreamweaver чистим,и получаем чистую sql базу.
    залил на сайт,все работает.
  2. Есть несколько тысяч файлов которые нужно загнать в базу, но удаляя только часть кода. Ворд создает классы вроде <p class="MsoNormal" style="text-align: left;"><strong><span и т.д. которые нужно удалить, одновременно не тронув нужные классы, нужно очистить все лишнее от ворда, и не тронуть то что не надо трогать. Уже регулярка готова, спасибо zzallexx, осталось немножко дописать и сделать. Впринципе вопрос уже решен. Дело техники только.
  3. Парни, еще одна подсказка нужна. Образуются теги вида <p > <br /> как поудалять эти лишние пробелы?

    Сделал вот так
    PHP:

     $html 
    ereg_replace("/<(\w+)\s/","<$1",$html);
    Но по-видимому где-то ошибся, уже три часа сижу над перебором вариантов.
  4. а что конкретно удалить -то надо <br />? а <p> оставить? или оба удалить? или ты имеешь ввиду пробел в тегах в br он не лишний он так и должен быть или <br> или <br /> а <p > попробуй просто
    PHP:
    $html str_replace('<p >','<p>',$html);
  5. нет, пробелы внутри тегов удалить, тегов масса просто, все перебирать не хочется. Т.е. пробелы во всех тегах одной регуляркой
  6. PHP:
    $html preg_replace("'(<\w+)\s{1,}((?:/)?>)'""$1$2"$html); 
    drawing4 нравится это.
  7. Получилось, но как-то очень сложно. Я даже не берусь понять что здесь: ((?:/)?>) делается
  8. Выкладываю для нужд общественности созданную совместными усилиями функцию. Убирает мусор который ворд добавляет в HTML
    zzallexx нравится это.