Перейти к основному содержимому
Версия: Next

Матчинг

Матчинг - это процесс выполняемый автоматически в случаях:

note

Алгоритм матчинга применяется при каждом взаимодействии с данными, поскольку в течение времени между работы с данными состав данных может измениться.

note

Выбранная стратегия матчинга в витрине не влияет на результат матчинга. В целях ускорения расчета матчрейта система учитывает только согласия и атрибуты матчинга из датасетов. В результате матчрейта выдается количество уникальных строк (по номеру строки) из базового датасета, для которых было найдено соответствие по атрибутам матчинга.

Схема алгоритма матчинга датасетов

Далее на схеме описывается как именно происходит матчинг данных

Untitled

Минимальные правила матчинга

Минимальные правила матчинга указываются в настройках организации

Смысл указываемых полей:

Я, как владелец данных, допускаю, что при матчинге партнера с моими данными будут применяться правила матчинга, заданные мной для данного партнера.

Указанные правила проверяются при настройке группы матчинга в конструкторе. Порядок подсчета правил указан на схеме ниже:

Untitled

Описание порядка:

  1. При регулярной синхронизации данных проводится проверка на наличие в датасетах атрибутов матчинга. Если какого-то из атрибутов не хватает, то датасет становится неопубликованным и не доступен для выбора в маркетплейсе и конструкторе групп матчинга.

  2. Первым в конструкторе матчинга выбирается базовый датасет, на основе которого будет происходить матчинг.

  3. Последующие датасеты доступны для выбора при формировании группы, только в случае совпадения минимальных правил матчинга между владельцами датасетов.

    Например, у локального провайдера выбраны минимальные правила матчинга с провайдером 2: Номер телефона и Паспорт.

  4. Далее, при настройке условий матчинга проверяется установка весов между минимальными атрибутами матчинга и дополнительными. В рамках минимальных атрибутов матчинга выделяется атрибут с наименьшим указанным весом. Подсчитывается сумма весов для дополнительных атрибутов матчинга. Если сумма весов дополнительных атрибутов больше, чем вес минимального атрибута матчинга, то параметры принимаются.

> Например указан вес для обязательных атрибутов:
- Номер телефона = 0,5
- Паспорт = 0,4
вес для дополнительных атрибутов:
- Дата рождения = 0,1
- Пол = 0,2
Сумма дополнительных весов = 0,3
Минимальный вес обязательного атрибута = 0,4 → Выбранный датасет допускается к матчингу по указанным весам.
>
  1. Далее проверяется сумма весов минимальных атрибутов матчинга и сравнивается с указанным пороговым значением в группе. Если пороговое значение больше или равно сумме весов минимальных атрибутов, то параметры принимаются, переходим к следующему шагу.

    Если указано пороговое значение 1. А сумма весов минимальных атрибутов матчинга 0,9, то значения допускаются.

  2. Проверяется соответствие двум условиям выполняемым в п.4 и п.5, если они выполнены, то датасет с указанными параметрами матчинга может быть использован в группе матчинга. Если же условия не выполняются, то нельзя провести матчинг по указанным параметрам. Важно понимать, что минимальные атрибуты матчинга могут быть изменены. Соответственно уже созданная группа матчинга может стать невалидной, поскольку при каждом обращении к группе матчинга выполняется проверка на наличие минимальных атрибутов матчинга.

note

Ознакомиться со списком доступных атрибутов матчинга возможно в разделе Создание и публикация бизнес терминов

Стратегии объединения результирующей витрины

Для витрин выделяется стратегия объединения результата и стратегия попарного матчинга.

Общий процесс формирования витрины отражен на рисунках ниже.

Этап 1 блок 2 отражает стратегию попарного матчинга.

Этап 1 блок 3 отражает стратегию объединения резульата.

Untitled

Стратегии попарного матчинга

Данные стратегии распространяются на то, как будут объединены Базовый датасет в витрине с отдельным партнерским датасетом.

Один ко многим

Один-ко-многим – сохраняет уникальные атрибуты матчинга, по которым производился матчинг, из наборов данных реквестора и провайдера, к которым привязан термин канонической модели «Справочник клиентов». Матчинг происходит к Справочнику клиентов реквестора.

Использует базовый датасет в качестве главного. То есть сохраняет внутренние уникальные ID клиентов из этого файла и оставляет все сматченные записи, которые прошли пороговое значение.

При этом строки базового датасета не схлопываются. Если в других датасетах на один ключ из базового датасета приходится несколько сматченных записей, то он выбирает максимальное из них или если такого нет, то есть несколько записей имеют максимальное значение, то одно случайное из них.

Ниже приведен пример промежуточного результата:

Untitled

Многие ко многим

Многие-ко-многим – сохраняет все возможные комбинации уникальных атрибутов матчинга, по которым производился матчинг, из датасетов реквестора и провайдера, к которым привязан термин канонической модели «Справочник клиентов», которые прошли пороговое значение.

MatchRate может быть больше 100% Ниже приведен пример промежуточного результата:

Untitled

Один к одному

Один-к-одному – сохраняет уникальные атрибуты матчинга, по которым производился матчинг, из наборов данных реквестора и провайдера, к которым привязан термин канонической модели «Справочник клиентов». В отличие от Один ко многим объединяет клиентов, у которых совпадают значения атрибутов матчинга. Матчинг происходит к Справочнику клиентов реквестора.

Строки базового датасета схлопываются, то есть берутся уникальные строки по атрибутам матчинга. Если в остальных датасетах на один ключ из базового датасета приходится более одного значения, то выбирается запись с максимальным значением или случайная при совпадении значений.

Ниже приведен пример промежуточного результата:

Untitled

Объединение результата

В случае, когда витрина состоит из более, чем 2х датасетов, возникает необходимость объединения результатов в единую витрину. То есть как промежуточные результаты Базовый+Датасет1 и Базовый+Датасет2 будут объединены. Правило объединения результата важно выбирать и применять исходя из стратегий, используемых при объдинении промежуточного результата.

note

В случае, если витрина состоит из 2х датасетов, базового и любого второго, то правила объединения результата не используются.

Дедубликация проходит в рамках описанных стратегий матчинга.

На схеме ниже отражен процесс сборки итоговой витрины:

Untitled

Правило объединения результата И/ИЛИ

Первой при объединении результирующих файлов применяется правило И/ИЛИ для объединения результата.

Объединение результата И

В итоговую витрину попадут строки, которые совпали по атрибутам матчинга в Первом промежуточном результате И во втором.

Пример ниже:

Untitled

Объединение результата ИЛИ

В итоговую витрину попадут строки, которые есть в обоих промежуточных результатах.

Пример ниже:

Untitled

Стратегия объединения результата

Влияет на то, как будут обрабатываться дублирующиеся или частично дублирующиеся записи при формировании итоговой витрины.

Один ко многим

При наличии нескольких значений с одинаковыми матчинг атрибутами, берется первое значение среди совпавших по ключам.

Многие ко многим

При наличии нескольких значений с одинаковыми матчинг атрибутами, берутся все возможные комбинации как по CrossJoin.

Один к одному

При наличии нескольких значений с одинаковыми матчинг атрибутами, берется последнее значение среди совпавших по ключам.