Sobes.tech
Назад к вопросам
Senior
10

Что такое KG completion?

Компании, где спрашивали
Тинькофф

Ответ от нейросети

sobes.tech AI

Что хотят услышать интервьюеры:

KG completion — это задача заполнения пропусков в knowledge graph: предсказать недостающие сущности или связи между ними. Обычно это сводится к поиску новых фактов на основе уже известных тройек. Важны понимание постановки задачи, типичных моделей и ограничений качества.

Определение:

KG completion, или completion knowledge graph, — это процесс дополнения графа знаний новыми триплетами вида (head, relation, tail). Если часть факта отсутствует, модель должна предсказать недостающую сущность или отношение, например восстановить (Paris, capital_of, France) или вывести, что между двумя сущностями может существовать определённая связь.

На практике это задача link prediction в графе знаний: по имеющимся фактам и их структуре нужно оценить вероятность отсутствующей связи. Решение строится на эмбеддингах сущностей и отношений, графовых нейросетях или правилах вывода.

Пример использования:

В графе знаний есть факты:

(Albert_Einstein, born_in, Ulm)
(Albert_Einstein, profession, physicist)
(Ulm, located_in, Germany)

Если известен фрагмент (Albert_Einstein, born_in, ?) и модель предсказывает Ulm, это и есть completion. Аналогично можно дополнить граф новыми связями, например выявить, что Ulm находится в Germany, если этого факта не хватает.

Пояснение кода:

Код не требуется. На практике процесс выглядит так:

  1. Из графа берут известные тройки.
  2. Для каждой тройки скрывают head, relation или tail.
  3. Модель ранжирует кандидатов на место пропуска.
  4. Лучшие кандидаты проверяют по метрикам вроде MRR или Hits@K.
  5. Если качество достаточное, предсказанные факты добавляют в граф или используют как подсказки для downstream-задач.

Ключевые моменты:

  • KG completion обычно = link prediction в knowledge graph.
  • Предсказываются недостающие сущности или отношения в триплетах.
  • Частые подходы: embedding-based модели, GNN, rule-based inference.
  • Качество оценивают ранжированием кандидатов, а не только binary accuracy.
  • Задача полезна для поиска скрытых фактов, рекомендаций и интеграции данных.
  • Основная сложность — шум, неполнота и неоднозначность графа знаний.