[Архив] Парсер ad.rambler.ru swrds

Статус
В этой теме нельзя размещать новые ответы.
L

Leonline

Прохожие
Привет всем!
Помогите плиз написать парсер кеев из рамблера.
Я сам немного шарю в hph парсеры уже писал себе под яшу и майл, начал под раму и сталкнулся с траблами...
1) там выдача через жаба скрипт
2)если глянуть html код страници с выдачей там в место ссылок с кеями какаято хрень закодированная.
В общем я не смог с этим разобраться.
Если кто может помогите плиз.
ICQ 244334956

З.Ы. Вобще знаю что ето реально, один прогер писал недавно парсер под раму и он работает тока выдачу на монитор выводит, а я хочу себе в дорген вкрутить чтоб парсил и файлики куда надо слаживал...
З.Ы.Ы. Сервис этот вот Для просмотра ссылки Войди или Зарегистрируйся
 
Парсер рамы работа движется.

Ну раз некому по теме что сказать буду сам топик вести.
Посидел поразбирался с cUrl'ом и сделал два шага в перед...
1) Зародыш парсера уже умеет логиниться и переходить на страницу статистики запросов...
2) Делать первый запрос по указанному кею и ваводить распарсившуюся пагу на монитор...
Далее идет самое сложное (по крайней мере для меня)...
Выдача кеев в раме замучена через JavaScript и имеет такой вид
<script type="text/javascript">
xx('&v114D&v1185&v1183&v114F&v114D&v1185&v1175&v1131&v1174&v117D&v1172&v1184&v1184&v114E&v1175&v1185&v116G&v1178&v1183&v1172&v118:&v1131&v1172&v117D&v117:&v1178&v117F&v114E&v117D&v1176&v1177&v1185');
...и еще 336 таких строчек начинающихся с xx
</script>
А как их преобразовать в кеи чтоб записать в файл...?
Вот ветом и загвоздка.
Кто знает подскажите пожалуйста.
 
Вот функция xx через которую идет выдача:
eval(unescape("var a = new RegExp('rambler\.ru');var d = location.href;c = d.search(a); function xx(n) {b = d.search(/^http.?:/);if (c > 0 && b == 0) {z = unescape(n);var y = '';for (i=0;i<z.length;i++) {y += String.fromCharCode(z.charCodeAt(i)+1);}document.write(unescape(y));}} if (c < 0) {top.location = 'https://ad.rambler.ru/swrds/'}"));
И шифруется там очень просто - к коду символа добавляется 1. Теперь тебе надо проделать все тоже, только наоборот и получишь на выходе готовый кейворд.
Но парсить рамблер очень геморно. Без проксей больше 10 страниц не получишь, да и с проксями тоже не особо выходит.
 
Вот функция xx через которую идет выдача:
eval(unescape("var a = new RegExp('rambler\.ru');var d = location.href;c = d.search(a); function xx(n) {b = d.search(/^http.?:/);if (c > 0 && b == 0) {z = unescape(n);var y = '';for (i=0;i<z.length;i++) {y += String.fromCharCode(z.charCodeAt(i)+1);}document.write(unescape(y));}} if (c < 0) {top.location = 'https://ad.rambler.ru/swrds/'}"));
И шифруется там очень просто - к коду символа добавляется 1. Теперь тебе надо проделать все тоже, только наоборот и получишь на выходе готовый кейворд.
Но парсить рамблер очень геморно. Без проксей больше 10 страниц не получишь, да и с проксями тоже не особо выходит.

Благодарю за помощь...
Я хоть Java не заю но хоть теперь ясно в какой стороне рыть... скачал учебник по Java буду разбираться.
СПС!

Добавлено через 7 минут
Andrey Malosolniy если можешь стукни в асю 244334956
что то у меня не получается с етой Jav'ой... если ты говоришь что для тебя просто может подскажешь
 
Как успехи? Я мог бы помочь.
 
интересует тоже самое - парсер кеев с рамблера с частотой...если есть что-то стоящее - напишите, даже если платное..
 
кароче добил я рамный парсер вот тока еси савторизацией парсить то дает мало(как и через браузер 30-40 страниц) а через прокси можно больше и быстрей(паузу ненадо ставить) но вапрос где стока проксей с поддержкой SSL взять...
 
есть такая тулза - prioxy finder... поищи, я свою снесла. и к ней поищи прокси чекер какойнить. они обычно рядом с прокси файндером валяются. хинт: смотри на форумах асечников, часто это юзается для брута асек.
 
Как дела с парсером - у меня СТРИМ - и мне больше 1-2 страниц Рамблер не дает...
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху