Высокое использование процессора Scrapy

У меня очень простой тестовый паук, который не разбирает. Однако я передаю большое количество URL-адресов (500 тыс.) Для паука в методе start_requests и вижу очень высокий (99/100%) процессор. Это ожидаемое поведение? если да, то как я могу это оптимизировать (возможно, доработать и использовать ***********?)

class **********(******):
 name = '***********'
 allowed_domains = 'mydomain.com'
 def __init__(self, **kw):
 super(******, self).__init__(**kw)
 urls_list = kw.get('urls')
 if urls_list:
 self.urls_list = urls_list
 def parse(self, response):
 pass
 def start_requests(self):
 with open(self.urls_list, 'rb') as urls:
 for url in urls:
 yield Request(url, self.parse)
1 ответ

Я думаю, что главная проблема здесь в том, что вы очищаете слишком много ссылок, попробуйте добавить правило, чтобы избежать очищения ссылок, которые не содержат того, что вы хотите.

Scrapy предоставляет действительно полезные документы, проверяйте их!: http://doc.scrapy.org/en/latest/topics/*******.html

licensed under cc by-sa 3.0 with attribution.