Какой самый эффективный способ в SQL найти и удалить дублирующиеся строки из таблицы, и можешь ли ты показать этот подход, используя оконные функции?

Question

Accepted Answer

## Обзор

Наиболее эффективный способ найти и удалить дублирующиеся строки в SQL — это использование **ROW_NUMBER()** вместе с **Common Table Expression (CTE)**. Этот подход чистый, читаемый и точный.

## Как это работает

- `ROW_NUMBER()` присваивает **порядковый номер** каждой строке в группе дубликатов
- `PARTITION BY` определяет, какие столбцы считаются *дубликатом*
- `ORDER BY` контролирует, какая строка-дубликат *сохранится* (обычно та, у которой самый низкий `id`)
- Любая строка с номером **больше 1** считается дубликатом и может быть безопасно удалена

## Реализация

```sql
WITH CTE AS (
    SELECT *,
           ROW_NUMBER() OVER (
               PARTITION BY col1, col2
               ORDER BY id
           ) AS row_num
    FROM table_name
)
DELETE FROM CTE WHERE row_num > 1;
```

## Ключевые моменты

- Замени `col1, col2` на **столбцы, которые определяют уникальность** в твоих данных
- Строка с `row_num = 1` *сохраняется*; все остальные удаляются
- Всегда **сначала запусти `SELECT`** вместо `DELETE`, чтобы посмотреть, какие строки будут удалены
- Этот метод поддерживается в **SQL Server** и **PostgreSQL**; MySQL требует обходного решения через подзапрос

## Почему этот подход

- *Читается и поддерживается лучше*, чем коррелированные подзапросы
- Даёт тебе **полный контроль** над тем, какой дубликат сохранить, через `ORDER BY`
- Легко адаптируется под разную бизнес-логику — достаточно изменить столбцы в `PARTITION BY`

Какой самый эффективный способ в SQL найти и удалить дублирующиеся строки из таблицы, и можешь ли ты показать этот подход, используя оконные функции?

Ответ

Обзор

Как это работает

Реализация

Ключевые моменты

Почему этот подход

Проверочные вопросы

Помогите улучшить этот вопрос

Обсуждение