Ты проходишь собеседование на должность senior ML infrastructure инженера. Интервьюер описывает сервис для real-time inference, который сейчас сериализует входные данные модели как Python списки в JSON, десериализует их на сервере и пропускает через цепочку preprocessing перед подачей в PyTorch модель. На пиковой нагрузке сервис обрабатывает 10,000 запросов в секунду, и команда заметила, что bottleneck — не сама инференция модели, а именно preprocessing.