Оптимальный парсер для разных сайтов

Статус
В этой теме нельзя размещать новые ответы.

dmsoh

Профессор
Регистрация
27 Янв 2007
Сообщения
192
Реакции
44
Стоит задача собирать новости с разных новостных порталов. Сайт СДЛ, но на наполнение некоторых разделов просто нет времени.

Насколько я понимаю написание с нуля скрипта, который бы выкачивал контент с другого сайта может занять прилично времени, поэтому может есть в природе парсер или граббер незнаю как правильно, чтобы можно задавать критерии парсинга, url, ограничивающие теги и т.п.
 
Стоит задача собирать новости с разных новостных порталов. Сайт СДЛ, но на наполнение некоторых разделов просто нет времени.
Насколько я понимаю написание с нуля скрипта, который бы выкачивал контент с другого сайта может занять прилично времени, поэтому может есть в природе парсер или граббер незнаю как правильно, чтобы можно задавать критерии парсинга, url, ограничивающие теги и т.п.
есть спец либы для парсинга ХТМЛ и ХМЛ, на выходе они дают тебе структуру данных из которой ты можешь легко, чаще всего при помощи ХPath выбирать нужные тебе элементы. обычно юзают их когда влом писать регулярные выражения. на пыхе это PHPdom вроде как: Для просмотра ссылки Войди или Зарегистрируйся тут вот есть пример неплохой. на питоне я юзаю lxml она очень шустрая - Для просмотра ссылки Войди или Зарегистрируйся в итоге после загрузки страницы ты можешь обращаться к данным по виду: result.xpath("//a[@target='_blank']") типа выбрать из ХТМЛ страницв все ссылки у которых таргет свойство БЛЭНК, у тебя же это будет типа выбрать содержимое дива с такимто ИД. вобщем я бы копал в эту сторону - и удобно и быстро писать новые правила, но учти что все эти либы весьма ресурсоемкие поэтому если это нужно делать сразу в сотни конектов то лучше поискать другие варианты.
 
Лучше дома под пыхом ничего нету
 
LWP использовать не советую для парсеров. Дело в том, что lwp реально мощный пакет и который пытается объять необъятное. Если в хидере респонса выдаются нестандартные данные (серв глючит, скрипты выдают левые заголовки и т.д.) то LWP пытается их обработать, пытается найти нужный пакет, естественно не находит и скрипт останавливается....а так lwp мне очень нравится, но когда работаю с известным сайтом и за скоростью не гонюсь.

p.s. для сканеров/парсеров советую либвискер...имхо достойная обертка сокетам.
 
  • Заблокирован
  • #8
кто поможет тоже нужно (чтобы можно задавать критерии парсинга, url, ограничивающие теги и т.п. )
 
  • Заблокирован
  • #9
Кто-нибудь пробовал парсить с помощью проги NEW WRITER? Она работает под windows.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху