Sobes.tech
Назад к вопросам
Senior
8

Что такое redaction и токенизация PII в датасетах?

Компании, где спрашивали
VisionLabs
Альфа-БанкАльфа-Банк
МТС AI

Ответ от нейросети

sobes.tech AI

Что хотят услышать интервьюеры:

Redaction и токенизация PII — это два разных способа снизить риск утечки персональных данных в датасетах. Redaction полностью скрывает или удаляет чувствительные фрагменты, а токенизация заменяет их псевдонимами, сохраняя структуру данных. Обычно ожидают, что будет понятно, когда нужен каждый подход и какие у них ограничения.

Определение:

PII (Personally Identifiable Information) — это данные, по которым можно идентифицировать человека: имя, телефон, email, адрес, паспортные данные и т. п.

Redaction — это полное удаление или маскирование PII в тексте или записи, чтобы исходное значение нельзя было восстановить.
Пример: Иванов Иван, +7 999 123-45-67[REDACTED], [REDACTED].

Токенизация PII — это замена чувствительного значения на устойчивый surrogate token, который сам по себе не раскрывает исходные данные.
Пример: ivanov@example.comEMAIL_TOKEN_4821.

Разница в том, что redaction уничтожает исходную идентичность поля, а токенизация позволяет сохранить связь между записями и при этом не хранить сами PII в открытом виде.

Пример использования:

В датасете для обучения LLM есть обращения в поддержку с адресами, телефонами и именами клиентов.
Перед загрузкой в тренировочный контур:

  • email заменяют на токены, чтобы один и тот же адрес в разных сообщениях совпадал по идентификатору;
  • номера карт и паспортные данные полностью редактируют, если они не нужны для задачи;
  • имя пользователя могут токенизировать, если важно сохранить связь между сообщениями одного клиента.
Оригинал:
"Здравствуйте, меня зовут Иван Петров. Мой email ivan.petrov@mail.com, номер заказа 12345."

После redaction:
"Здравствуйте, меня зовут [NAME]. Мой email [EMAIL]. Номер заказа 12345."

После tokenization:
"Здравствуйте, меня зовут NAME_TOKEN_17. Мой email EMAIL_TOKEN_42. Номер заказа 12345."

Пояснение кода:

Код не требуется. Важно понимать логику обработки по шагам:

  1. Сначала система находит PII в тексте с помощью правил, NER-модели или гибридного подхода.
  2. Затем для каждого типа данных выбирается стратегия:
    • redaction — если значение не нужно для аналитики или обучения;
    • tokenization — если нужна стабильная ссылка на сущность без раскрытия исходника.
  3. При токенизации обычно используется хранилище соответствий, доступ к которому строго ограничен.
  4. При редактировании исходное значение не сохраняется в рабочем датасете.
  5. Для ML-задач важно, чтобы обработка была консистентной: один и тот же email или телефон должны всегда получать один и тот же токен, если это требуется для анализа связей.

Ключевые моменты:

  • Redaction удаляет или скрывает PII без возможности восстановить значение из самого датасета.
  • Tokenization заменяет PII на псевдонимы и может сохранять согласованность между записями.
  • Токенизация не равна шифрованию: это не защита криптографией, а средство уменьшения раскрытия данных в рабочем контуре.
  • Для ML важно не ломать полезный контекст: иногда лучше токенизировать, чем полностью вырезать сущность.
  • Выбор подхода зависит от цели: compliance, аналитика, обучение модели, аудит или расследование инцидентов.
  • Нужны контроль доступа, журналирование и политика, определяющая, какие поля редактируются, а какие токенизируются.