Содержание
python — Ошибка запроса или функция не может найти элемент, в Scrapy
написал часть парсера, но при работе вылетает ошибка которую не могу понять как решить.
Парсер работает так — сначала он собирает все ссылки с внешних страниц на внутренние страницы с резюме и собирает их в список. Собрав все ссылки, он начинает их обходить и собирать с них данные.
Проблема возникает при разборе страниц резюме.
импортный скрепер
импортировать повторно
импортировать CSV
из scrapy.linkextractors импортировать LinkExtractor
список_ссылка = []
list_link_page = []
класс hh(scrapy.Spider):
имя = 'чх'
разрешенные_домены = ["krasnoyarsk.hh.ru"]
start_urls = [
'https://krasnoyarsk.hh.ru/resumes/menedzher_po_prodazham',
]
деф синтаксический анализ (я, ответ):
экстрактор = LinkExtractor(allow_domains='krasnoyarsk.hh.ru')
ссылки = Extractor.extract_links(ответ)
для ссылки в ссылках:
ссылка = ул(ссылка.url)
append_link = re.
search(re.escape('https://krasnoyarsk.hh.ru/resume/') + '.*', ссылка)
если append_link:
list_link.append(append_link.group())
для ссылки в ссылках:
ссылка = ул(ссылка.url)
append_page_link = re.search(re.escape('https://krasnoyarsk.hh.ru/resumes/менеджер_по_продажам?page=') + '.*', ссылка)
если len(list_link_page) < 10:
если append_page_link:
list_link_page.append(append_page_link.group())
еще:
перерыв
для ссылки в list_link_page:
если ссылка == response.url:
list_link_page.remove(ссылка)
еще:
следующая_страница = response.urljoin(ссылка)
yield scrapy.Request (следующая_страница, обратный вызов = self.parse)
если response.url == list_link_page[-1]:
для страницы в list_link_page:
запрос = response.urljoin(страница)
вернуть scrapy.
Request (запрос, обратный вызов = self.ParsingResume)
def ParsingResume (я, ответ):
пол = response.css('span.resume-block__salary').getall()
печать (пол)
возвращаться
Ошибка — Терминал (Linux):
2020-11-14 22:51:27 [scrapy.utils.log] ИНФОРМАЦИЯ: запущен Scrapy 2.4.0 (бот: hh)
2020-11-14 22:51:27 [scrapy.utils.log] ИНФОРМАЦИЯ: Версии: lxml 4.6.1.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0 , Python 3.7.6 (по умолчанию, 8 января 2020 г., 19:59:22) — [GCC 7.3.0], pyOpenSSL 19.1.0 (OpenSSL 1.1.1d 10 сентября 2019 г.), криптография 2.8, платформа Linux-5.4.0- 48-общий-x86_64-с-debian-buster-sid
2020-11-14 22:51:27 [scrapy.utils.log] ОТЛАДКА: использование реактора: twisted.internet.epollreactor.EPollReactor
2020-11-14 22:51:27 [scrapy.crawler] ИНФОРМАЦИЯ: Переопределенные настройки:
{'BOT_NAME': "чч",
'NEWSPIDER_MODULE': 'hh.spiders',
'SPIDER_MODULES': ['hh.spiders']}
2020-11-14 22:51:28 [scrapy.extensions.
telnet] ИНФОРМАЦИЯ: Пароль Telnet: 414a5184ce320dc3
2020-11-14 22:51:28 [scrapy.middleware] ИНФОРМАЦИЯ: Включенные расширения:
['scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.memusage.MemoryUsage',
'scrapy.extensions.logstats.LogStats']
2020-11-14 22:51:28 [scrapy.middleware] ИНФОРМАЦИЯ: включено промежуточное ПО загрузчика:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.
httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2020-11-14 22:51:28 [scrapy.middleware] ИНФОРМАЦИЯ: включено промежуточное ПО для пауков:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2020-11-14 22:51:28 [scrapy.middleware] ИНФОРМАЦИЯ: Включенные конвейеры элементов:
[]
2020-11-14 22:51:28 [scrapy.core.engine] ИНФОРМАЦИЯ: Паук открыт
2020-11-14 22:51:28 [scrapy.extensions.logstats] ИНФОРМАЦИЯ: просканировано 0 страниц (со скоростью 0 страниц/мин), извлечено 0 элементов (со скоростью 0 элементов/мин)
2020-11-14 22:51:28 [scrapy.extensions.telnet] ИНФОРМАЦИЯ: консоль Telnet прослушивает 127.0.0.1:6026
14.11.2020, 22:51:30 [scrapy.core.engine] DEBUG: Просканировано (200) (referer: None)
14.
11.2020 22:51:31 [scrapy.core.engine] DEBUG: Просканировано (200) (реферер: https:// krasnoyarsk.hh.ru/resumes/менеджер_по_продажам)
2020-11-14 22:51:31 [py.warnings] ПРЕДУПРЕЖДЕНИЕ: /home/user/miniconda3/lib/python3.7/site-packages/scrapy/core/scraper.py:149: UserWarning: Метод "hh.parse" является генератором и включает оператор "return" со значением, отличным от None. Это может привести к неожиданному поведению. См. https://docs.python.org/3/reference/simple_stmts.html#the-return-statement для получения подробной информации о семантике оператора «return» в генераторах.
warn_on_generator_with_return_value (паук, обратный вызов)
2020-11-14 22:51:32 [scrapy.dupefilters] DEBUG: Отфильтрован дублирующий запрос: - дубликаты больше показываться не будут (см. DUPEFILTER_DEBUG, чтобы показать все дубликаты)
14.11.2020, 22:51:33 [scrapy.core.engine] DEBUG: Просканировано (200) hh.ru/resumes/menedzher_po_prodazham?page=249> (ссылка: https://krasnoyarsk.hh.ru/resumes/menedzher_po_prodazham)
14.11.2020 22:51:33 [scrapy.core.engine] DEBUG: Просканировано (200) (реферер: https:// krasnoyarsk.hh.ru/resumes/менеджер_по_продажам)
14.11.2020 22:51:33 [scrapy.core.engine] DEBUG: Просканировано (200) (реферер: https:// krasnoyarsk.hh.ru/resumes/менеджер_по_продажам?page=1)
14.11.2020 22:51:36 [scrapy.core.engine] DEBUG: Просканировано (200) (реферер: https:// krasnoyarsk.hh.ru/resumes/менеджер_по_продажам)
2020-11-14 22:51:39[scrapy.core.engine] DEBUG: Просканировано (200) (реферер: https://krasnoyarsk.hh.ru/resumes/menedzher_po_prodazham)
2020-11-14 22:51:39 [scrapy.core.engine] ИНФОРМАЦИЯ: закрывающий паук (закончено)
2020-11-14 22:51:39 [scrapy.
statscollectors] ИНФОРМАЦИЯ: Сброс статистики Scrapy:
{'загрузчик/request_bytes': 4030,
'загрузчик/количество_запросов': 7,
'загрузчик/request_method_count/GET': 7,
'загрузчик/response_bytes': 1397853,
'загрузчик/счет_ответов': 7,
'загрузчик/response_status_count/200': 7,
'dupefilter/отфильтровано': 35,
'прошедшее_время_секунд': 11.247191,
'finish_reason': 'завершено',
'finish_time': datetime.datetime(2020, 11, 14, 15, 51, 39, 905080),
'log_count/DEBUG': 8,
'log_count/INFO': 10,
'log_count/ПРЕДУПРЕЖДЕНИЕ': 1,
'memusage/макс': 53489664,
'memusage/startup': 53489664,
'запрос_глубина_макс.': 3,
'response_received_count': 7,
'планировщик/удален из очереди': 7,
'планировщик/выведен из очереди/память': 7,
'планировщик/в очереди': 7,
'планировщик/в очереди/память': 7,
'start_time': datetime.datetime(2020, 11, 14, 15, 51, 28, 657889)}
2020-11-14 22:51:39 [scrapy.core.engine] ИНФОРМАЦИЯ: Паук закрыт (закончено)
НАСА и российские ученые наблюдают за изменениями почвенного покрова, землепользования и углерода в лесах России | Журнал лесного хозяйства
Фильтр поиска панели навигации
Journal of ForestryЭтот выпускSAF JournalsЛесное хозяйство и лесоводствоНауки о растениях и лесное хозяйствоКнигиЖурналыOxford Academic
Мобильный телефон Введите поисковый запрос
Закрыть
Фильтр поиска панели навигации
Journal of ForestryЭтот выпускSAF JournalsЛесное хозяйство и лесоводствоНауки о растениях и лесное хозяйствоКнигиЖурналыOxford Academic
Введите поисковый запрос
Расширенный поиск
Журнальная статья
К.
М. Берген,
К.М. Берген
Ищите другие работы этого автора на:
Оксфордский академический
Google Scholar
С. Г. Конард,
С. Г. Конард
Ищите другие работы этого автора на:
Оксфордский академический
Google Scholar
Р.А. Хоутон,
Р.А. Хоутон
Ищите другие работы этого автора на:
Оксфордский академический
Google Scholar
Э.С. Касишке,
Э.С. Касишке
Ищите другие работы этого автора на:
Оксфордский академический
Google Scholar
В.
И. Харук,
В.И. Харук
Ищите другие работы этого автора на:
Оксфордский академический
Google Scholar
О.Н. Кранкина,
НА. Кранкина
Ищите другие работы этого автора на:
Оксфордский академический
Google Scholar
К.Дж. Рэнсон,
К.Дж. Рэнсон
Ищите другие работы этого автора на:
Оксфордский академический
Google Scholar
Х. Х. Шугарт,
HH Шугарт
Ищите другие работы этого автора на:
Оксфордский академический
Google Scholar
А.
И. Сухинин,
А.И. Сухинин
Ищите другие работы этого автора на:
Оксфордский академический
Google Scholar
Р.Ф. Трейфельд
РФ Трейфельд
Ищите другие работы этого автора на:
Оксфордский академический
Google Scholar
Journal of Forestry , том 101, выпуск 4, июнь 2003 г., страницы 34–41, https://doi.org/10.1093/jof/101.4.34
Опубликовано:
01 июня 2003 г.
Фильтр поиска панели навигации
Journal of ForestryЭтот выпускSAF JournalsЛесное хозяйство и лесоводствоНауки о растениях и лесное хозяйствоКнигиЖурналыOxford Academic
Мобильный телефон Введите поисковый запрос
Закрыть
Фильтр поиска панели навигации
Journal of ForestryЭтот выпускSAF JournalsЛесное хозяйство и лесоводствоНауки о растениях и лесное хозяйствоКнигиЖурналыOxford Academic
Введите поисковый запрос
Расширенный поиск
В 1997 году несколько проектных групп Программы НАСА по изменению земного покрова и землепользования начали работать с российскими организациями, чтобы попытаться количественно оценить и понять прошлые, настоящие и будущие тенденции земного покрова и землепользования в Русские бореальные леса.
Отдельные результаты завершенных и текущих исследовательских проектов обсуждаются в четырех категориях: динамика лесов, пожары и поведение пожаров, углеродные балансы и новые методы анализа дистанционного зондирования. Это исследование помогло проложить путь к сотрудничеству с международными организациями и другими сетями, а сотрудничество в нескольких масштабах теперь позволяет российским и американским ученым работать вместе, чтобы углубить наши знания о влиянии изменения земного покрова и землепользования. По всему миру.
международное лесное хозяйство, дистанционное зондирование, Россия, природопользование, лес, лесопользование, лесные ресурсы, лесное хозяйство, лесохозяйственные исследования, лесоведение, природные ресурсы, природопользование
Этот контент доступен только в формате PDF.
© 2003 Society of American Foresters
Раздел выпуска:
РАЗНОЕ
Скачать все слайды
Реклама
Цитаты
Альтметрика
Дополнительная информация о метриках
Оповещения по электронной почте
Оповещение об активности статьи
Предварительные уведомления о статьях
Оповещение о новой проблеме
Получайте эксклюзивные предложения и обновления от Oxford Academic
Ссылки на статьи по телефону
Последний
Самые читаемые
Самые цитируемые
Недавняя смертность дугласовой пихты в экорегионе Кламатских гор штата Орегон: свидетельство спирали упадка
Важность последовательности и стандартизации при оценке экономического вклада лесной промышленности на юге США
Критические рыночные переломные моменты для сокращения запасов высококачественного белого дуба в центральном лиственном регионе США
Географические различия в выживании и росте атлантического белого кедра (Chamaecyparis Thyoides [L.

search(re.escape('https://krasnoyarsk.hh.ru/resume/') + '.*', ссылка)
если append_link:
list_link.append(append_link.group())
для ссылки в ссылках:
ссылка = ул(ссылка.url)
append_page_link = re.search(re.escape('https://krasnoyarsk.hh.ru/resumes/менеджер_по_продажам?page=') + '.*', ссылка)
если len(list_link_page) < 10:
если append_page_link:
list_link_page.append(append_page_link.group())
еще:
перерыв
для ссылки в list_link_page:
если ссылка == response.url:
list_link_page.remove(ссылка)
еще:
следующая_страница = response.urljoin(ссылка)
yield scrapy.Request (следующая_страница, обратный вызов = self.parse)
если response.url == list_link_page[-1]:
для страницы в list_link_page:
запрос = response.urljoin(страница)
вернуть scrapy.
Request (запрос, обратный вызов = self.ParsingResume)
def ParsingResume (я, ответ):
пол = response.css('span.resume-block__salary').getall()
печать (пол)
возвращаться
telnet] ИНФОРМАЦИЯ: Пароль Telnet: 414a5184ce320dc3
2020-11-14 22:51:28 [scrapy.middleware] ИНФОРМАЦИЯ: Включенные расширения:
['scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.memusage.MemoryUsage',
'scrapy.extensions.logstats.LogStats']
2020-11-14 22:51:28 [scrapy.middleware] ИНФОРМАЦИЯ: включено промежуточное ПО загрузчика:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.
httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2020-11-14 22:51:28 [scrapy.middleware] ИНФОРМАЦИЯ: включено промежуточное ПО для пауков:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2020-11-14 22:51:28 [scrapy.middleware] ИНФОРМАЦИЯ: Включенные конвейеры элементов:
[]
2020-11-14 22:51:28 [scrapy.core.engine] ИНФОРМАЦИЯ: Паук открыт
2020-11-14 22:51:28 [scrapy.extensions.logstats] ИНФОРМАЦИЯ: просканировано 0 страниц (со скоростью 0 страниц/мин), извлечено 0 элементов (со скоростью 0 элементов/мин)
2020-11-14 22:51:28 [scrapy.extensions.telnet] ИНФОРМАЦИЯ: консоль Telnet прослушивает 127.0.0.1:6026
14.11.2020, 22:51:30 [scrapy.core.engine] DEBUG: Просканировано (200)
11.2020 22:51:31 [scrapy.core.engine] DEBUG: Просканировано (200)
statscollectors] ИНФОРМАЦИЯ: Сброс статистики Scrapy:
{'загрузчик/request_bytes': 4030,
'загрузчик/количество_запросов': 7,
'загрузчик/request_method_count/GET': 7,
'загрузчик/response_bytes': 1397853,
'загрузчик/счет_ответов': 7,
'загрузчик/response_status_count/200': 7,
'dupefilter/отфильтровано': 35,
'прошедшее_время_секунд': 11.247191,
'finish_reason': 'завершено',
'finish_time': datetime.datetime(2020, 11, 14, 15, 51, 39, 905080),
'log_count/DEBUG': 8,
'log_count/INFO': 10,
'log_count/ПРЕДУПРЕЖДЕНИЕ': 1,
'memusage/макс': 53489664,
'memusage/startup': 53489664,
'запрос_глубина_макс.': 3,
'response_received_count': 7,
'планировщик/удален из очереди': 7,
'планировщик/выведен из очереди/память': 7,
'планировщик/в очереди': 7,
'планировщик/в очереди/память': 7,
'start_time': datetime.datetime(2020, 11, 14, 15, 51, 28, 657889)}
2020-11-14 22:51:39 [scrapy.core.engine] ИНФОРМАЦИЯ: Паук закрыт (закончено)
М. Берген, С.Г. Конард, Р.А. Хоутон, Э.С. Касище, В.И. Харук, О.Н. Кранкина, К.Ю. Рэнсон, Х.Х. Шугарт, А.И. Сухинин, Р.Ф. Трейфельд, НАСА и российские ученые наблюдают за изменениями почвенного покрова и землепользования, а также углерода в российских лесах, Journal of Forestry , том 101, выпуск 4, июнь 2003 г., страницы 34–41, https://doi.org/10.1093/jof/101.4.34