[Архив] Парсер Google

Статус
В этой теме нельзя размещать новые ответы.
Спасибо. Работает. Но только с 127.0.0.1:3128. В моем случае это Глобакс. Подсовываю любые прокси, даже заведомо рабочие, пишет плохая база.....:)
Ну дык и дергай через Глобакс, это будет быстрей и дешевле (по трафу). А прокси может быть и рабочей, но медленной слишком или забаненой Гуглом или...
Вот сейчас еще раз , специально для тебя, проверил с локалки - из 5 рабочих проксей две не прошли. Хз почему. Тут еще может быть причиной то, что НТТР заголовки формируются не по стандарту (т.е. не все, что посылает обычный браузер), может прокси не хочет такие запросы пропускать.
Там еще в файле proxy.php (стр. 31)
PHP:
fputs($pxc, "GET http://yandex.ru HTTP/1.0\r\nHost: $ip\r\n\r\n");
желательно изменить на:
PHP:
fputs($pxc, "GET http://www.google.com HTTP/1.0\r\nHost: www.google.com\r\n\r\n");
Тогда скрипт, еще при добавлении проксей, должен, по идее, отбраковать не понравившиеся Гуглю.

Добавлено через 12 минут
А у меня в логах пишет:
................................................................
=====================
это из за плохих проксей?
Скорее всего да (если ты имеешь ввиду поправленный мною скрипт).
"Соединение...ok " значит к проксе приконнектились
"Скачивание...1FAILED" - значит или с Гугля ничего не получили, или что-то получили, но не с 200 кодом.
"Соединение...2FAILED" - значит не смогли сконнектиться с прокси.
 
Ну дык и дергай через Глобакс, это будет быстрей и дешевле (по трафу). А прокси может быть и рабочей, но медленной слишком или забаненой Гуглом или...
Вот сейчас еще раз , специально для тебя, проверил с локалки - из 5 рабочих проксей две не прошли. Хз почему. Тут еще может быть причиной то, что НТТР заголовки формируются не по стандарту (т.е. не все, что посылает обычный браузер), может прокси не хочет такие запросы пропускать.
Там еще в файле proxy.php (стр. 31)
PHP:
fputs($pxc, "GET http://yandex.ru HTTP/1.0\r\nHost: $ip\r\n\r\n");
желательно изменить на:
PHP:
fputs($pxc, "GET http://www.google.com HTTP/1.0\r\nHost: www.google.com\r\n\r\n");
Тогда скрипт, еще при добавлении проксей, должен, по идее, отбраковать не понравившиеся Гуглю.

Через Глобакс конечно дешевле, только как менять прокси?)
 
Через Глобакс конечно дешевле, только как менять прокси?)
Хм... Ну а **х их менять, если через них у тя все равно не работает? :) А те, через которые будет работать, можно загонять через скрипт...
И, кстати, ща пришла идея: ты же, надеюсь умеешь Глобакс через внешний прокси пускать?
Так вот, в конфиге Глобакса прописываешь проксики, с разными локальными портами только, а потом подсовываешь их скрипту. Должно пахать.
Геморно, конечно, но, если нет альтернативы, можно и пободаться. :)
 
2 Anubis555: ну как там - пошло через Глобакс? нормально бегает?
 
2 Anubis555: ну как там - пошло через Глобакс? нормально бегает?
В принципе да, правда гемор руками прокси вбивать:) Поэтому я его выложил на хост) Не знаю почему, но на денвере скрипт быстрее работает....
 
В принципе да, правда гемор руками прокси вбивать:) Поэтому я его выложил на хост) Не знаю почему, но на денвере скрипт быстрее работает....
Странно, а у меня как раз наоборот, на денвере очень медленно, пров SkyDSL, Globox все дела. Вылажил на хост в нет и блин как с пушки (не если можно так назвать :D )
 
Странно, а у меня как раз наоборот, на денвере очень медленно, пров SkyDSL, Globox все дела. Вылажил на хост в нет и блин как с пушки (не если можно так назвать :D )
Я думаю, это завивсит от качества хостинга.
 
Мой вариант. Парсит в один поток и прокси не перебирает (но есть таймаут). Зато с исходниками.
Пробуем...
 

Вложения

  • JS_UrlGrabber_and_Checker.zip
    33,7 KB · Просмотры: 45
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху