Назад к вопросам
СБЕР
Middle+
2
Занимался парсингом страниц? Знаком со Scrapy, Playwright?
Компании, где спрашивали
Ответ от нейросети
sobes.tech AI
Да, занимался парсингом веб-страниц. Scrapy — это мощный фреймворк на Python для написания пауков, которые обходят сайты и извлекают данные. Он хорошо подходит для структурированного сбора информации с множества страниц, поддерживает асинхронность и удобное управление очередью запросов.
Playwright — это инструмент для автоматизации браузера, который позволяет взаимодействовать с динамическими сайтами, где контент загружается через JavaScript. Он полезен, когда нужно получить данные, которые не видны в исходном HTML, а появляются после выполнения скриптов.
Пример использования Scrapy для парсинга заголовков новостей:
import scrapy
class NewsSpider(scrapy.Spider):
name = 'news'
start_urls = ['https://example.com/news']
def parse(self, response):
for article in response.css('div.article'):
yield {
'title': article.css('h2::text').get(),
'link': article.css('a::attr(href)').get(),
}
Для Playwright пример на Python:
from playwright.sync_api import sync_playwright
with sync_playwright() as p:
browser = p.chromium.launch()
page = browser.new_page()
page.goto('https://example.com/dynamic')
content = page.content()
print(content)
browser.close()