Спроектируй масштабируемую распределённую систему хранения объектов со следующими требованиями: поддержка операций PUT, GET и DELETE; реplication данных между несколькими availability zones; использование consistent hashing для распределения данных; управление metadata объектов и контролем доступа на уровне bucket и object; поддержка versioning и lifecycle policies; обработка eventual consistency; поддержка multipart uploads для больших файлов; и достижение durability 99.999999999% (11 девяток).

Question

Accepted Answer

## Архитектура ядра

Масштабируемая система распределённого хранилища объектов строится вокруг трёх основных слоёв: **stateless API gateway**, **сервиса метаданных** и **слоя хранилища**, распределённого по нескольким зонам доступности (AZs).

## Распределение данных

Используй **consistent hashing** для отображения объектов на узлы хранилища. Каждый объект идентифицируется уникальным ключом, а виртуальные узлы на кольце хэша обеспечивают сбалансированное распределение нагрузки. Это минимизирует перемещение данных при добавлении или удалении узлов.

## Стратегия репликации

Чтобы достичь **11 девяток надёжности**, реплицируй каждый объект минимум по трём AZs с помощью `replication factor 3+`. Применяй **erasure coding** (например, Reed-Solomon) для сокращения затрат на хранение при сохранении отказоустойчивости. **Quorum-based write** (`W + R > N`) гарантирует согласованность между репликами.

## Метаданные и контроль доступа

Храни метаданные объектов — включая владельца, временные метки и идентификаторы версий — в **распределённой БД** типа Cassandra или DynamoDB. Применяй контроль доступа как на уровне **bucket** (policies), так и на уровне **объекта** (ACLs), поддерживая разграничение прав на основе ролей.

## Версионирование и политики жизненного цикла

Включи **версионирование объектов**, сохраняя каждую версию с уникальным `version_id`. Определи **lifecycle policies** для автоматического перемещения объектов между уровнями хранилища (например, hot → cold → archival) или удаления через заданный период.

## Многочастные загрузки

Для больших объектов разбивай загрузки на **параллельные части** (например, минимум 5 МБ на одну часть). Каждая часть хранится независимо и собирается на сервере при завершении, что улучшает *надёжность и пропускную способность* при передаче больших файлов.

## Итоговая согласованность

Используй модель **asynchronous replication** с разрешением конфликтов через *last-write-wins* или vector clocks. Фоновые процессы reconciliation обнаруживают и исправляют несогласованности, обеспечивая сходимость всех реплик со временем.

## Гарантия надёжности

- Реплицируй по ≥ 3 AZs
- Применяй erasure coding
- Запускай постоянные **проверки целостности данных** с использованием checksums
- Автоматизируй обнаружение сбоев и самовосстановление

Ответ

Архитектура ядра

Распределение данных

Стратегия репликации

Метаданные и контроль доступа

Версионирование и политики жизненного цикла

Многочастные загрузки

Итоговая согласованность

Гарантия надёжности

Проверочные вопросы

Помогите улучшить этот вопрос

Обсуждение