Семантический анализ html-страницы

Тема в разделе ".:: Алгоритмы", создана пользователем Jeurey, 21 май 2008.

Статус темы:
Закрыта.
  1. Jeurey

    Jeurey

    Регистр.:
    13 сен 2006
    Сообщения:
    419
    Симпатии:
    576
    Вопрос от sw04, переформулированный Dogmat:

    Наиболее простой вариант видится следующим: необходимо проанализировать N страниц сайта. Из каждой страницы выкинуть повторяющиеся элементы (например, футер).

    Сразу же встает вопрос - что делать с сайтами, торгующими ссылками - ведь из количество весьма велико и они могут смазать похожесть блоков html-кода. Решается эта проблема путем добавления знака вопроса к URL-страницы. (например, Перейти по ссылке) - логика бирж ссылок не рассчитана на такие "трюки" и выдадут себя.

    Предположим, что нам удалось "откинуть" блоки "футер", "правое меню", "левое меню" и т.п. Скорее всего, останутся элементы, которые к контенту никакого отношения не имеют. Однако, объем анализируемой информации существенно уменьшится.

    Следующим шагом стоит искать разные элементы в одинаковых контейнерах. Очень большая вероятность того, что контент страницы (основной) всегда находится в одном-и том же контейнере (например, <div ... [id|class]="content" ... >). Если размер этого блока достаточно велик (не менее половины всего "оставшегося" после первичного анализа), то с определенной долей вероятности можно утверждать о том, что это и есть искомый текст. Отметаем все, что находится "выше" и "ниже" данных блоков - получаем второсортный контент, который стоит еще избавить от ссылок, баннеров и т.д
     
    xpert13, 8LADIMIR, phillip и 8 другим нравится это.
Статус темы:
Закрыта.