Что такое redaction и токенизация PII в датасетах?
Ответ от нейросети
sobes.tech AI
Что хотят услышать интервьюеры:
Redaction и токенизация PII — это два разных способа снизить риск утечки персональных данных в датасетах. Redaction полностью скрывает или удаляет чувствительные фрагменты, а токенизация заменяет их псевдонимами, сохраняя структуру данных. Обычно ожидают, что будет понятно, когда нужен каждый подход и какие у них ограничения.
Определение:
PII (Personally Identifiable Information) — это данные, по которым можно идентифицировать человека: имя, телефон, email, адрес, паспортные данные и т. п.
Redaction — это полное удаление или маскирование PII в тексте или записи, чтобы исходное значение нельзя было восстановить.
Пример: Иванов Иван, +7 999 123-45-67 → [REDACTED], [REDACTED].
Токенизация PII — это замена чувствительного значения на устойчивый surrogate token, который сам по себе не раскрывает исходные данные.
Пример: ivanov@example.com → EMAIL_TOKEN_4821.
Разница в том, что redaction уничтожает исходную идентичность поля, а токенизация позволяет сохранить связь между записями и при этом не хранить сами PII в открытом виде.
Пример использования:
В датасете для обучения LLM есть обращения в поддержку с адресами, телефонами и именами клиентов.
Перед загрузкой в тренировочный контур:
- email заменяют на токены, чтобы один и тот же адрес в разных сообщениях совпадал по идентификатору;
- номера карт и паспортные данные полностью редактируют, если они не нужны для задачи;
- имя пользователя могут токенизировать, если важно сохранить связь между сообщениями одного клиента.
Оригинал:
"Здравствуйте, меня зовут Иван Петров. Мой email ivan.petrov@mail.com, номер заказа 12345."
После redaction:
"Здравствуйте, меня зовут [NAME]. Мой email [EMAIL]. Номер заказа 12345."
После tokenization:
"Здравствуйте, меня зовут NAME_TOKEN_17. Мой email EMAIL_TOKEN_42. Номер заказа 12345."
Пояснение кода:
Код не требуется. Важно понимать логику обработки по шагам:
- Сначала система находит PII в тексте с помощью правил, NER-модели или гибридного подхода.
- Затем для каждого типа данных выбирается стратегия:
- redaction — если значение не нужно для аналитики или обучения;
- tokenization — если нужна стабильная ссылка на сущность без раскрытия исходника.
- При токенизации обычно используется хранилище соответствий, доступ к которому строго ограничен.
- При редактировании исходное значение не сохраняется в рабочем датасете.
- Для ML-задач важно, чтобы обработка была консистентной: один и тот же email или телефон должны всегда получать один и тот же токен, если это требуется для анализа связей.
Ключевые моменты:
- Redaction удаляет или скрывает PII без возможности восстановить значение из самого датасета.
- Tokenization заменяет PII на псевдонимы и может сохранять согласованность между записями.
- Токенизация не равна шифрованию: это не защита криптографией, а средство уменьшения раскрытия данных в рабочем контуре.
- Для ML важно не ломать полезный контекст: иногда лучше токенизировать, чем полностью вырезать сущность.
- Выбор подхода зависит от цели: compliance, аналитика, обучение модели, аудит или расследование инцидентов.
- Нужны контроль доступа, журналирование и политика, определяющая, какие поля редактируются, а какие токенизируются.