Сканирование опубликованного контента с помощью Nutch on LinkedIn

Я новичок в обходе, и можете ли вы сообщить мне, если мы сможем обходить опубликованный контент (а не данные пользователя) в LinkedIn с Apache Nutch?

У меня есть настройка Nutch с Solr, и я успешно могу обходить сайты, но когда я пытаюсь просканировать LinkedIn, я получаю сообщение "Больше URL-адресов для извлечения". Это должно быть потому, что LinkedIn запретил сканирование своих страниц, я полагаю. Есть ли другой способ сделать это?.

1 ответ

Nutch не имеет белого цвета в своем файле Robots.txt, и по умолчанию используется

User-agent: *
Disallow: /

Это означает, что нет ползания.

У них есть комментарий в файле robots.txt

Примечание. Если вы хотите просканировать LinkedIn, пожалуйста, напишите [removed_email], чтобы подать заявку на белую распечатку.

Однако я не думаю, что они согласятся с белым списком Nutch. Вы должны были бы

  1. Установите другой UA на Nutch
  2. Отправьте им электронное письмо и объясните, почему вы хотите его обходить и получить свой белый список.

licensed under cc by-sa 3.0 with attribution.