Sobes.tech
Back to questions
Middle+
3

Занимался парсингом страниц? Знаком со Scrapy, Playwright?

Companies where asked
СБЕРСБЕР

Answer from AI

sobes.tech AI

Да, занимался парсингом веб-страниц. Scrapy — это мощный фреймворк на Python для написания пауков, которые обходят сайты и извлекают данные. Он хорошо подходит для структурированного сбора информации с множества страниц, поддерживает асинхронность и удобное управление очередью запросов.

Playwright — это инструмент для автоматизации браузера, который позволяет взаимодействовать с динамическими сайтами, где контент загружается через JavaScript. Он полезен, когда нужно получить данные, которые не видны в исходном HTML, а появляются после выполнения скриптов.

Пример использования Scrapy для парсинга заголовков новостей:

import scrapy

class NewsSpider(scrapy.Spider):
    name = 'news'
    start_urls = ['https://example.com/news']

    def parse(self, response):
        for article in response.css('div.article'):
            yield {
                'title': article.css('h2::text').get(),
                'link': article.css('a::attr(href)').get(),
            }

Для Playwright пример на Python:

from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch()
    page = browser.new_page()
    page.goto('https://example.com/dynamic')
    content = page.content()
    print(content)
    browser.close()