Назад к вопросам
СБЕР
Middle
2
from fastapi import FastAPI, UploadFile, Response from fastapi.responses import StreamingResponse from pydantic import BaseModel, field_validator import base64 app = FastAPI() class PdfSchema(BaseModel): filename: str content_type: str data: str # base64 pdf 10мб @app.get("/data", response_model=PdfSchema) async def get_data(): return await service.get_big_data() @app.get("/download") async def download(): with open("big.pdf", "rb") as f: data = f.read() return Response(content=data, media_type="application/pdf") def heavy_pdf_parse(data: bytes) -> dict: # CPU-heavy логика return {"size": len(data)} @app.post("/parse") async def parse(file: UploadFile): content = await file.read() result = heavy_pdf_parse(content) return result @app.get("/users") async def get_users(): users = await repo.get_users() result = [] for u in users: posts = await repo.get_posts(u["id"]) result.append({"user": u, "posts": posts}) return result @app.get("/download-two") async def download_two(): def iterfile(): with open("big.pdf", "rb") as f: yield from f return StreamingResponse(iterfile(), media_type="application/pdf") class service: @staticmethod async def get_big_data(): return { "filename": "file.pdf", "content_type": "application/pdf", "data": base64.b64encode(b"fake").decode(), } class repo: @staticmethod async def get_users(): return [{"id": 1}, {"id": 2}] @staticmethod async def get_posts(user_id: int): return [{"id": 1, "user id": user_id}]
Компании, где спрашивали
Ответ от нейросети
sobes.tech AI
В представленном коде есть несколько важных моментов, которые стоит обсудить:
-
Передача больших PDF в base64 в JSON (
PdfSchema):- Кодирует PDF в base64 и передаёт как строку. Это неэффективно для больших файлов (10 Мб и больше), так как base64 увеличивает размер примерно на 33%.
- Лучше отдавать файлы напрямую через
StreamingResponse, как в/downloadи/download-two.
-
Отдача файла через
ResponseиStreamingResponse:- В
/downloadфайл читается целиком в память, что плохо для больших файлов. - В
/download-twoиспользуется генераторiterfile(), который читает файл по частям и отдаёт потоково — это более оптимально.
- В
-
CPU-heavy функция
heavy_pdf_parse:- Если парсинг занимает много CPU, стоит рассмотреть вынесение этой логики в отдельный воркер или использовать асинхронные очереди, чтобы не блокировать event loop.
-
Асинхронные запросы в
/users:- В цикле для каждого пользователя вызывается
await repo.get_posts(u["id"]), что последовательно и может быть медленно. - Лучше запускать все запросы параллельно через
asyncio.gatherдля ускорения:
- В цикле для каждого пользователя вызывается
import asyncio
@app.get("/users")
async def get_users():
users = await repo.get_users()
async def get_user_posts(u):
posts = await repo.get_posts(u["id"])
return {"user": u, "posts": posts}
result = await asyncio.gather(*(get_user_posts(u) for u in users))
return result
- Валидация входных данных:
- В коде нет валидации входящих данных, например, для
/parseможно добавить Pydantic-модель или проверку типа файла.
- В коде нет валидации входящих данных, например, для
В целом, код демонстрирует базовые приёмы работы с FastAPI, но для продакшена стоит улучшить обработку больших файлов, параллелизм запросов и валидацию.