1. Начата процедура восстановления социальных групп. Лидерам старых и новых групп обязательно ознакомиться с регламентом проведения работ.

Php + curl парсинг выдачи гугла

Тема в разделе 'PHP', создана пользователем O Z, 23 янв 2012.

  1. TO dexgun
    Вы снова поспешны с кодом.... Вы хоть проверяете код при постинге ? Если я не проверяю код я об этом предупреждаю но вы не только этого не делаете но ещё и выдаете код который неверен! Следите пожалуйста за этим... Иначе в данном разделе вы только запутаете людей...
  2. TopicStarter Overlay

    O Z

    Да, вот такая получается:
    http://www.google.com.ua/sorry/Captcha?continue=http://www.google.com.ua/search?sourceid=chrome&ie=UTF-8&q=Повышение по службе&num=20&id=&captcha=xymerth&submit=S

    Так как я искомое слово подставляю в ссылку:
    $link = "http://www.google.com.ua/search?sourceid=chrome&ie=UTF-8&q=$word&num=$count";
    может мне лучше использовать $word = str_replace(' ', '+', $word)?
    А потом уже при надобности urlencode($link).

    Вот что есть (сначала первая капча на которую меня отправляет гугл, потом вторая, после парсинга id капчи, получения ответа от антигейта:(
    HTML:
    <html dir="LTR"><head><meta http-equiv="content-type" content="text/html; charset=utf-8"><title>http://www.google.com.ua/search?sourceid=chrome&amp;ie=UTF-8&amp;q=%D0%9F%D0%BE%D0%B2%D1%8B%D1%88%D0%B5%D0%BD%D0%B8%D0%B5+%D0%BF%D0%BE+%D1%81%D0%BB%D1%83%D0%B6%D0%B1%D0%B5&amp;num=20</title></head>
    <body style="font-family: arial, sans-serif; background-color: #fff; color: #000; padding:20px; font-size:18px;" onload="e=document.getElementById('captcha');if(e){e.focus();}">
    <div style="max-width:400px;">
    <hr noshade="" size="1" style="color:#ccc; background-color:#ccc;"><br>
     
    Щоб продовжити, введіть зображені нижче символи:<br><br>
    <img src="/sorry/image?id=11974691493924419143&amp;hl=uk" border="1" alt="Увімкніть показ зображень"><br><br><form action="Captcha" method="get"><input type="hidden" name="continue" value="http://www.google.com.ua/search?sourceid=chrome&amp;ie=UTF-8&amp;q=%D0%9F%D0%BE%D0%B2%D1%8B%D1%88%D0%B5%D0%BD%D0%B8%D0%B5+%D0%BF%D0%BE+%D1%81%D0%BB%D1%83%D0%B6%D0%B1%D0%B5&amp;num=20"><input type="hidden" name="id" value="11974691493924419143"><input type="text" name="captcha" value="" id="captcha" size="12" style="font-size:16px; padding:3px 0 3px 5px; margin-left:0px;"><input type="submit" name="submit" value="Надіслати" style="font-size:18px; padding:4px 0;"><br><br><br></form>
    <hr noshade="" size="1" style="color:#ccc; background-color:#ccc;">
    <div style="font-size:13px;">
    <b>Про цю сторінку</b><br><br>Наші системи виявили нетиповий трафік із вашої комп'ютерної мережі. Ця сторінка перевіряє, чи запити дійсно надсилаються вами, а не роботом. <a href="#" onclick="document.getElementById('infoDiv').style.display='block';">Чому це сталося?</a><br><br>
    <div id="infoDiv" style="display:none; background-color:#eee; padding:10px; margin:0 0 15px 0; line-height:1.4em;">
    Ця сторінка з'являється, коли Google автоматично виявляє запити, надіслані з вашої комп'ютерної мережі, які, ймовірно, порушують <a href="http://www.google.com/accounts/TOS">Загальні положення та умови Google</a>. Блокування закінчиться після припинення таких запитів. А тим часом проходження тесту CAPTCHA дозволить вам і надалі користуватися нашими службами.<br><br>Такий трафік може бути спричинений зловмисним програмним забезпеченням, плагіном у веб-переглядачі чи сценарієм, що надсилає автоматичні запити. Якщо це підключення до мережі є в спільному доступі, зверніться до свого адміністратора по допомогу – можливо, відповідальність лежить на іншому комп'ютері, що використовує цю ж ІР-адресу. <a href="http://www.google.com/support/bin/answer.py?answer=86640">Докладніше</a><br><br>Іноді від вас може вимагатися пройти тест CAPTCHA, якщо ви використовуєте розширені пошукові терміни, які зазвичай застосовуються роботами, або дуже швидко надсилаєте запити.
     
     
    </div><br>
    IP-адреса: 81.222.215.83<br>Час: 2012-01-30T13:49:35Z<br>URL-адреса: http://www.google.com.ua/search?sourceid=chrome&amp;ie=UTF-8&amp;q=%D0%9F%D0%BE%D0%B2%D1%8B%D1%88%D0%B5%D0%BD%D0%B8%D0%B5+%D0%BF%D0%BE+%D1%81%D0%BB%D1%83%D0%B6%D0%B1%D0%B5&amp;num=20<br>
    </div></div>
    <!-- Конец первой капчи -->
     
    snedumsi // Ответ от антигейта
    http://www.google.com.ua/sorry/Captcha?continue=http://www.google.com.ua/search?sourceid=chrome&amp;ie=UTF-8&amp;q=Повышение+по+службе&amp;num=20&amp;id=11974691493924419143&amp;captcha=snedumsi&amp;submit=Submit // Слепленная ссылка с ответом
     
    <!-- Новая капча -->
    <meta http-equiv="content-type" content="text/html; charset=utf-8"><title>http://www.google.com.ua/search?sourceid=chrome</title>
     
    <div style="max-width:400px;">
    <hr noshade="" size="1" style="color:#ccc; background-color:#ccc;"><br>
     
    Щоб продовжити, введіть зображені нижче символи:<br><br>
    <img src="/sorry/image?id=6514054992814924198&amp;hl=uk" border="1" alt="Увімкніть показ зображень"><br><br><form action="Captcha" method="get"><input type="hidden" name="continue" value="http://www.google.com.ua/search?sourceid=chrome"><input type="hidden" name="id" value="6514054992814924198"><input type="text" name="captcha" value="" id="captcha" size="12" style="font-size:16px; padding:3px 0 3px 5px; margin-left:0px;"><input type="submit" name="submit" value="Надіслати" style="font-size:18px; padding:4px 0;"><br><br><br></form>
    <hr noshade="" size="1" style="color:#ccc; background-color:#ccc;">
    <div style="font-size:13px;">
    <b>Про цю сторінку</b><br><br>Наші системи виявили нетиповий трафік із вашої комп'ютерної мережі. Ця сторінка перевіряє, чи запити дійсно надсилаються вами, а не роботом. <a href="#" onclick="document.getElementById('infoDiv').style.display='block';">Чому це сталося?</a><br><br>
    <div id="infoDiv" style="display:none; background-color:#eee; padding:10px; margin:0 0 15px 0; line-height:1.4em;">
    Ця сторінка з'являється, коли Google автоматично виявляє запити, надіслані з вашої комп'ютерної мережі, які, ймовірно, порушують <a href="http://www.google.com/accounts/TOS">Загальні положення та умови Google</a>. Блокування закінчиться після припинення таких запитів. А тим часом проходження тесту CAPTCHA дозволить вам і надалі користуватися нашими службами.<br><br>Такий трафік може бути спричинений зловмисним програмним забезпеченням, плагіном у веб-переглядачі чи сценарієм, що надсилає автоматичні запити. Якщо це підключення до мережі є в спільному доступі, зверніться до свого адміністратора по допомогу – можливо, відповідальність лежить на іншому комп'ютері, що використовує цю ж ІР-адресу. <a href="http://www.google.com/support/bin/answer.py?answer=86640">Докладніше</a><br><br>Іноді від вас може вимагатися пройти тест CAPTCHA, якщо ви використовуєте розширені пошукові терміни, які зазвичай застосовуються роботами, або дуже швидко надсилаєте запити.
     
     
    </div><br>
    IP-адреса: 81.222.215.83<br>Час: 2012-01-30T13:49:58Z<br>URL-адреса: http://www.google.com.ua/search?sourceid=chrome<br>
    </div></div>
     
    </body></html>
    Вот еще куки, может быть Вы заметите что-то полезное:
    .google.com TRUE/FALSE 1327940604 GDSESS ID=ec64973b62885acf:TM=1327929804:C=c:IP=81.222.215.83-:S=ADSvE-drGsMBqKL4ascf9ogExTye1mnSWg
  3. TopicStarter Overlay

    O Z

    Выдает ошибку:
    400.
    That’s an error.
    Your client has issued a malformed or illegal request.
  4. :eek:
    Добился капчи в браузере....
    эээээ а веть и руками не проходит !
    Он тупо просит и просит и просит капчу. У них походу чет напутано там изначально. Потому как даже руками через бравзер не проходит.
  5. + Заметил вот что...
    он делает 2 редиректа и в итоге 503 ошибка....

    Вот итог работы моей либы....
  6. Пля.... :crazy: Такое очючение бут то мне интереснее данная тема чем ТС
    Писал писал... и пропал....
    Хоть бы тему закрыл, мол все достало бросил к чертям... или все все спс я разобрался и реализовал.
    А так... печаль...