[Ищу] Ищу скрипт/паук для парсинга страниц сайта

Статус
В этой теме нельзя размещать новые ответы.
Ничего путного я вам предложить не могу, но мой долг Вам намекнуть об огромных ресурсных затратах, которые должны присутствовать у Вашего сервера для этих маневров.

Офф_топик: Я когда спарсил порядка 10 сайтов (тестировал на локальном сервере) на глубину в 4 шага от главной страницы, из которых 4 сайта были большие порталы с форумами, то у меня контента получилось ~250Мб. Это учитывая, что происходила вырезка рекламы, тэгов, коротких слов... А машина тормозила - ужас как...
В общем в свое время хотел сделать мини_яндекс для сайтов своего района. Что бы по крону их переиндексировал, осуществлял поиск по своей набранной БД.
В общем я отказался от столь безумной идеи...

с сервом проблемм нет.
и к тому же мне вообще не нужен контнт мне нужны только урлы и всё

Добавлено через 1 минуту
wget тебе поможет. :)

ага и как?

Добавлено через 3 минуты
А вообще, вообще, если умеете парсить гуглю, то вот мой совет:
Забейте с поисковую строку запрос вида: site:требуемый_сайт.com.

И наш гугля отдаст на растерзнание все линки, которые есть у него в БД, собственно именно, о чем Вы просили в первом посте...

к примеру взять да любой mp3 сайт там страниц ну уж точно больше 100k. а в google есть только 16 - 20k.

в том то и дело что мне нужны остальные 80k.

Добавлено через 7 минут
да затраты точно не маленькие будут

затраты меня не волнуют
к тому ж файло с 1kk. урлов на выходе обычно весит метров 50
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху