Sobes.tech
Back to questions
Middle
11

Были ли данные анонимизированы?

Companies where asked
нетология

Answer from AI

sobes.tech AI

Что хотят услышать интервьюеры:

Ожидают, что будет понятно, были ли в датасете удалены или преобразованы персональные данные так, чтобы человека нельзя было идентифицировать напрямую. Важно уметь отличать анонимизацию от псевдонимизации и понимать ограничения по безопасности. Хороший ответ показывает, что есть контроль рисков повторной идентификации и соблюдение требований к данным.

Определение:

Анонимизация данных — это процесс, при котором из набора данных убирают или изменяют сведения, позволяющие идентифицировать человека, чтобы вернуть конкретную личность было практически невозможно. Обычно для этого удаляют прямые идентификаторы, обобщают чувствительные признаки, маскируют значения или добавляют шум. Важно: если данные можно обратно связать с человеком через ключ или дополнительную таблицу, это уже скорее псевдонимизация, а не полноценная анонимизация.

Пример использования:

Например, перед передачей датасета в команду анализа из него удаляют ФИО, email и телефон, а дату рождения заменяют на возрастную группу. Геолокацию обобщают до уровня города, а уникальные ID пользователей заменяют случайными токенами без обратного соответствия.

import pandas as pd

df = pd.DataFrame({
    "name": ["Иван Петров", "Анна Смирнова"],
    "email": ["ivan@mail.ru", "anna@mail.ru"],
    "age": [34, 27],
    "city": ["Москва", "Москва"]
})

# Анонимизация: удаляем прямые идентификаторы
df = df.drop(columns=["name", "email"])

# Обобщаем возраст
df["age_group"] = pd.cut(df["age"], bins=[0, 18, 30, 45, 100],
                         labels=["0-18", "19-30", "31-45", "46+"])
df = df.drop(columns=["age"])

print(df)

Пояснение кода:

Код показывает базовый сценарий анонимизации перед анализом данных. Сначала удаляются прямые идентификаторы — имя и email, потому что они сразу раскрывают личность. Затем точный возраст заменяется на возрастную группу, чтобы сохранить полезность данных для анализа, но снизить риск идентификации. В результате остаются только обезличенные признаки, которые можно использовать для статистики или ML.

Ключевые моменты:

  • Анонимизация — это не просто скрытие, а снижение или исключение возможности идентифицировать человека.
  • Псевдонимизация не равна анонимизации: если есть ключ сопоставления, данные всё ещё потенциально восстановимы.
  • Для ML часто сохраняют полезность данных через обобщение, маскирование и удаление прямых идентификаторов.
  • Нужно учитывать риск re-identification, особенно при сочетании нескольких косвенных признаков.
  • Правильный ответ на собеседовании должен показывать баланс между приватностью, качеством данных и требованиями бизнеса.