Спроектируй масштабируемую инфраструктуру для обслуживания больших языковых моделей, которая эффективно обрабатывает миллионы запросов инференса, оптимизируя при этом задержку, стоимость и использование ресурсов. — ДейлиПреп