Парсер Datacol

APSALIM · 3 Май 2013

таблетка парсера контента датакол 4

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

датакол объявление 2,0

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

скачать с офф сайта демо и положть таблетки в папку с прогой и их запускать

Скрытое содержимое доступно для зарегистрированных пользователей!

1md · 17 Авг 2017

mr.skyer написал(а):
Кто знает, Datacol в виртуальной машине запускается?

Запускается.

leoNeo · 18 Авг 2017

mr.skyer написал(а):
Кто знает, Datacol в виртуальной машине запускается?

Да, виртуалка 7

mary-n1 · 19 Авг 2017

Добрый день. Прошу знающих помочь.
Делаю парсер сайта Для просмотра ссылки Войди или Зарегистрируйся
Не могу справиться со сбором ссылок.
X-path подобран верно, но в ссылках, которые он собирает идет задвоение данных
Например,
Для просмотра ссылки Войди или Зарегистрируйся
подобран X-path //div[@class="item"]/a
в итоге в ссылках появляется 2 раза katalog/
Для просмотра ссылки Войди или Зарегистрируйсяkatalog/katalog/ukrasheniya-iz-stekla/rossiya
что является ошибкой. Должна быть ссылка такой
Для просмотра ссылки Войди или Зарегистрируйся
Можно конечно же поставить Regex замены katalog/ но работает только для сбора с этой страницы. При переходе программы на подстраницу
Для просмотра ссылки Войди или Зарегистрируйся и сборе ссылок с нее задваивается уже
Для просмотра ссылки Войди или Зарегистрируйсяkatalog/ukrasheniya-iz-stekla/katalog/ukrasheniya-iz-stekla/rossiya/nabory-ukrashenii
То есть Regex замены должен быть уже такой katalog/ukrasheniya-iz-stekla/
И так на всех подстраницах, данные в адресе конечно же у каждой подстраницы свои.
Какой Regex замены мне поставить, чтобы убирались дубли из адреса?
Я же замучилась с этим вопросом. Каталог надо срочно сделать, а он не поддается.
Подозреваю, что это сайт так настроен. Но должно же быть решение проблемы.

D'Jack · 19 Авг 2017

mary-n1 написал(а):
Добрый день. Прошу знающих помочь.
Делаю парсер сайта Для просмотра ссылки Войди или Зарегистрируйся Не могу справиться со сбором ссылок.

Сбор ссылок:

Код:

Начальная страница: http://www.eli-opt.ru/katalog
---------------------------------------------------------
//div[@class='rContent']/ul/li/ul/li/a
//p[@class='name']/a
//a[@class='page_num']

mary-n1 · 19 Авг 2017

Вопрос был не в верном X-path
А что поставить в качестве Regex замены, чтобы в ссылках не здваивались значения.

D'Jack · 20 Авг 2017

mary-n1 написал(а):
Вопрос был не в верном X-path
А что поставить в качестве Regex замены, чтобы в ссылках не здваивались значения.

Я не много не понял, о чем ты говоришь, но у меня все собрало без дублей.

Скрытое содержимое для пользователя(ей): mary-n1

mary-n1 · 20 Авг 2017

D'Jack написал(а):
Я не много не понял, о чем ты говоришь, но у меня все собрало без дублей.

У меня тоже собирается 380 позиций. Но это те позиции, которые представлены в категориях как хиты продаж. А все остальное, что должно парсится при проходе на сайт в подкатегорию не собирается, так как ссылки получаются не верные и программа их обходит. На самом сайте порядка 4000 наименований. Хотелось бы, чтобы программа их собирала все

D'Jack · 20 Авг 2017

mary-n1 написал(а):
У меня тоже собирается 380 позиций. Но это те позиции, которые представлены в категориях как хиты продаж. А все остальное, что должно парсится при проходе на сайт в подкатегорию не собирается, так как ссылки получаются не верные и программа их обходит. На самом сайте порядка 4000 наименований. Хотелось бы, чтобы программа их собирала все

А где эта категория "хиты продаж"? Тут Для просмотра ссылки Войди или Зарегистрируйся ее я не вижу.

mary-n1 · 20 Авг 2017

D'Jack написал(а):
А где эта категория "хиты продаж"? Тут Для просмотра ссылки Войди или Зарегистрируйся ее я не вижу.

Такой категории и нет. Прсто когда программ начинает сбор и попадает в подкатегорию, она собирает ссылки на ходовые товары, выложенные под перечнем категорий
Для просмотра ссылки Войди или Зарегистрируйся
Вот тут под перечнем категории представлены популярные товары, которые программа собирает, а в сами категории зайти не может, так как ссылка не верная образуется.
Я пошарилась в коде страницы и увидела, что сайт устроен так, что вначале он присваивает ссылке имя категории <a href="наименование категории,
а потом при создании ссылок прохода вставляет эту часть в начало - поэтому ссылка получается некорректная - вместо Для просмотра ссылки Войди или Зарегистрируйся получается Для просмотра ссылки Войди или Зарегистрируйся
И так везде.
Вот потому и ищу Regex замены универсальный, чтобы он отсекал задвоение

leoNeo · 20 Авг 2017

/sitemap.xml рулит, и не надо ссылки собирать

Парсер Datacol

APSALIM

Постоялец

1md

Постоялец

leoNeo

Профессор

mary-n1

Писатель

D'Jack

Постоялец

mary-n1

Писатель

D'Jack

Постоялец

mary-n1

Писатель

D'Jack

Постоялец

mary-n1

Писатель

leoNeo

Профессор