Парсинг на Питоне с имитацией действий пользователя

Тема в разделе "Perl, Python, Ruby", создана пользователем FidaSa, 31 окт 2017.

  1. FidaSa

    FidaSa

    Регистр.:
    1 мар 2013
    Сообщения:
    510
    Симпатии:
    133
    Привет, не подскажите на Питоне можно парсить вэбсайты (сделать паука) с имитация действий пользователя в браузере.

    Допустим пропарсить сайт, периодически нажимать кнопки в браузере надо, вызывать события JS, вводить данные в поля форм , то есть имитировать работу юзера в браузере.

    При помощи Питона или каких либо его либ или модулей можно такую работу организовать или нет ?
     
  2. zabolots

    zabolots Постоялец

    Регистр.:
    11 сен 2012
    Сообщения:
    55
    Симпатии:
    21
    Имитация действий - это не парсинг. Парсинг - это выкачивание контента и извлечение нужных данных (scrapping); это pithon может делать хорошо. Но pithon не будет выполнять клиентский js.
    Может быть (в зависимости от конкретной задачи) проще это решить разработкой расширения для браузера.
     
  3. Acider

    Acider Писатель

    Регистр.:
    5 ноя 2014
    Сообщения:
    1
    Симпатии:
    2
    Я использую Python + Selenuim.
    Связка как раз для тестирования веб-приложений\сайтов и выполнения на них действий имитирующих поведение обычного юзера.
    В кратце это просто движок для удаленного управления браузером так сказать.
    На машине открывается браузер и выполняет то что вы написали в .py скрипте.
    Соответственно JS & другое полнофункционально так как вы используете реальный браузер.
    При этом вы конечно же можете получить любые данные со страницы хоть по классу, хоть по css-selector'у.
    http://selenium-python.readthedocs.io/installation.html
     
    Цуиьфыеук и FidaSa нравится это.
  4. FidaSa

    FidaSa

    Регистр.:
    1 мар 2013
    Сообщения:
    510
    Симпатии:
    133
    Я как бя написала, что парсить С ИМИТАЦИЕЙ! тоесть и то и другое, так как мне по сути надо парсить результат, того что получилось после иммитации!
     
  5. Andreychik321

    Andreychik321 Создатель

    Регистр.:
    8 июл 2013
    Сообщения:
    10
    Симпатии:
    2
    Ну сказали же, что Python и Selenium для этого подходят. Сам, кстати, таким образом делал выкачиватель ссылок на фото из вк по ссылке на альбом (тогда в апи этого ещё не было). Полезная вещь.

    К слову, драйвер использовал PhantomJS.
     
  6. FidaSa

    FidaSa

    Регистр.:
    1 мар 2013
    Сообщения:
    510
    Симпатии:
    133
    Я поняла, питон уже смотрела, по селениуму на ютюбе смотрела но чета не поняла, там на английском много.
    Есть может тренинг на русском по селениуму + питону, как парсить в связке ?
     
  7. cocs

    cocs

    Регистр.:
    5 дек 2009
    Сообщения:
    513
    Симпатии:
    214
    Может вы не с того языка начали изучать программирование?
     
    2cher777 нравится это.
  8. Andreychik321

    Andreychik321 Создатель

    Регистр.:
    8 июл 2013
    Сообщения:
    10
    Симпатии:
    2
    В программировании, к сожалению, без английского никак. Единственное, что порекомендую, раз с английским плохо - почитать документацию (http://selenium-python.readthedocs.io/), используя гугл-переводчик.
    Знания Python тоже необходимы.

    А вообще - прогуглите "parsing web pages using python and selenium" - я лично так и делал.
     
    FidaSa нравится это.
  9. yurgan

    yurgan Создатель

    Регистр.:
    15 дек 2015
    Сообщения:
    13
    Симпатии:
    2
    Очень хорошо себя показал вот этот питоновский парсер - https://scrapy.org/
     
  10. mozal

    mozal Постоялец

    Регистр.:
    24 окт 2011
    Сообщения:
    60
    Симпатии:
    8
    Скрапи хорош, но это тяжелая артиллерия. Библиотека beautifulsoup попроще в освоении.