Подбор данных для исполнения целей проекта
Подбор данных для исполнения целей проекта проводит Тимлид и участвующие в проекте Датасаентисты. Для подбора данных они могут воспользоваться компонентами
- Маркетплейс
- Выбор данных в маркетплейсе (см в разделе Публикация данных - Описание Маркетплейса - Маркетплейс)
- При работе с витринами данных:
- Формирование витрины данных
- Матчинг
- Согласование групп матчинга
- При работе с отдельным датасетом:
- Согласование датасета
- Глоссарий Описание работы с глоссарием см. в разделе Публикация данных - Описание Маркетплейса - Глоссарий
Формирование витрины данных
Добавление датасета в витрину данных
- Чтобы добавить датасет в витрину данных, нажмите на его название.
- В открывшейся карточке просмотра датасета, нажмите кнопку “Добавить в витрины данных”.
- Если вы хотите удалить из витрины данных добавленный ранее датасет, нажмите кнопку “Убрать с витрин данных”.
В витрины данных необходимо обязательно добавить базовый набор. В качестве базового набора может быть выбран набор текущего партнера. Базовый набор - один из наборов группы матчинга, по которому будет проводиться матчинг остальных.
Работа с витринами данных
- Перейти в “Витрины данных” можно двумя способами:
нажмите на иконку в правом верхнем углу
нажмите на раздел "Витрины данных” в левой панели
В “Витринах данных” отображается следующая информация о каждом добавленном датасете:
- название добавленного датасета,
- базовый датасет (отмечен зеленым квадратом с буквой В).
В карточке витрины данных в столбцах выводится следующая информация:
- "Статус" добавленного датасета. У базового датасета всегда будет выводится прочерк ("-"),
- "Строки". Выводится информация о количестве строк в исходном датасете,
- "Атрибуты",
- "Время матчинга", которое потребовалось на данную часть датасета,
- "Матчрейт".
В правой части карточки витрины данных представлена информация о:
- номере витрины,
- владельце витрины,
- дате создания,
- дате обновления,
- общей длительности матчинга,
- название проекта, если он уже был добавлен,
- статусе витрины,
- статусе матчинга,
- общем матчрейте.
Для витрины данных в статусе "Новая" доступны следующие действия:
- запуск подсчета матчрейта (пункт 1 на рисунке ниже),
- редактирование витрины (пункт 2 на рисунке ниже),
- удаление витрины (пункт 3 на рисунке ниже).note
Указанные действия доступны, если все датасеты в витрине доступны для использования. То есть, опубликованы с подходящими параметрами конфиденциальности, матчинг атрибуты доступны для работы по минимальным атрибутам матчинга.
Для удобства просмотра витрин данных, можно воспользоваться фильтром. Для этого нажмите на иконку "Воронка".
Витрины данных можно отфильтровать по следующим параметрам:
- владелец витрины (1 на рисунке ниже). Можно выбрать свои, чужие или все витрины данных, которые есть на инстансе. Витрины доступны только для просмотра.
- поставщик данных (2 на рисунке ниже);
- статус витрины (3 на рисунке ниже);
- статус матчинга (4 на рисунке ниже).
Добавление витрин данных и расчет матчрейта
Для того чтобы сформировать витрину данных и использовать данные по ней в проекте, необходимо выбрать базовый датасет и дополнительные датасеты в группе. В качестве базового датасета должен использоваться датасет локального провайдера, так как по отношению к нему будет происходить матчинг остальных датасетов.
В качестве дополнительных датасетов могут быть использованы любые доступные датасеты, которые отвечают требованиям минимальных правил матчинга.
Для создания витрины данных нажмите на иконку, указанную черной стрелкой на рисунке ниже.
Задайте настройку "Расширенные согласия", если вы хотите учитывать при матчинге согласия из датасетов согласий партнеров, с которыми указано взаимодействие в настройках организации.
В списке добавленных датасетов передвиньте бегунок вправо в столбце “Базовый датасет”.
Укажите название витрины данных. Название сохранится автоматически.
Установите галочку в чекбоксе рядом с датасетом, с которым будет производиться матчинг. Набор, в котором отсутствуют минимальные правила матчинга, будет недоступен для выбора.
Если выбрано три и более датасетов, то можно выбрать правило объединения результата, нажав на стрелку вниз.
Более подробно о стратегиях матчинга
Вы можете объединить результат нескольких групп по "ИЛИ", для этого передвиньте ползунок вправо, как показано на рисунке ниже. Если не включить данный ползунок, то объединение будет происходить по "И".
Чтобы установить фильтры и поля, которые будут использоваться в итоговом файле, нажмите на иконку “Воронка”.
Минимальные правила матчинга будут выбраны по умолчанию. С них нельзя снять галочку, так как они должны участвовать в матчинге. В выгрузку эти поля не попадут.
Во всплывающем окне с фильтрами по умолчанию выбраны все поля без фильтрации.
Чтобы убрать атрибут целиком из результата матчинга, снимите галочку рядом с его названием.
Каждый атрибут можно отфильтровать по индивидуальным условиям. Установите галочку рядом с нужным атрибутом, чтобы выбрать условия (п.1 на рисунке ниже). Выберите “Условие” из выпадающего списка (п.2 на рисунке ниже) и добавьте информацию в поле “Значение” (п.3 на рисунке ниже). Типы доступных фильтров зависят от типа данных выбранного поля. Тип данных получается исходя из таблицы в базе данных для выбранного датасета. Поля матчинга вносятся в виде хешированной строки, поэтому фильтровать по ним не рекомендуется.
Когда все необходимые фильтры добавлены и заполнены, нажмите кнопку "Применить". В вашем запросе на набор зафиксируются только выбранные атрибуты.
Чтобы выбрать условия для матчинга, кликните на иконку, указанную на рисунке ниже.
Обязательно должен быть выбран один из наборов текущего партнера, как Базовый набор. Остальные наборы выбираются из тех, которые содержат минимальные атрибуты матчинга (иконка “Пересечение” яркая и на нее можно кликнуть и рядом с этим набором можно установить галочку в чекбоксе).
В появившемся окне выберите из выпадающего списка "Набор условий матчинга", то есть какой набор минимальных правил матчинга будет использоваться для данного датасета в витрине.
В появившемся окне выберите из выпадающего списка “Минимальное условие матчинга” (1 на рисунке ниже) и укажите его “Вес” (2 на рисунке ниже).
Выберите из выпадающего списка “Атрибут”, по которому будет производиться матчинг (1 на рисунке ниже). Укажите “Вес” для выбранного атрибута (2 на рисунке ниже). Нажмите на кнопку “Добавить атрибут”, чтобы выбрать еще один атрибут (3 на рисунке ниже). Нажмите на иконку “Корзина” напротив атрибута, чтобы удалить его из списка атрибутов (4 на рисунке ниже).
Выводятся минимальные атрибуты матчинга, которые были заданы в разделе “Партнеры”. Эти атрибуты обязательно используются в группе. Доступно только редактирование весов и дополнительных атрибутов.
Вес каждого минимального атрибута должен быть больше суммы весов дополнительных атрибутов.
- Укажите “Пороговое значение” (от 0 до 1 с двумя знаками после запятой), при достижении которого считается, что клиент сопоставился с клиентом Партнера (1 на рисунке ниже).
В выпадающем списке выберите “Стратегию матчинга” (2 на рисунке ниже).
После указания всех необходимых условий матчинга, нажмите кнопку “Подтвердить” (3 на рисунке ниже).
Пороговое значение должно быть больше или равно сумме весов минимальных атрибутов матчинга.
Чтобы завершить создание витрины данных, нажмите кнопку “Создать”.
В “Витринах данных” выберите созданную витрину и нажмите “Посчитать матчрейт” (1 на рисунке ниже). Произойдет матчинг выбранных датасетов для получения количества пересечений по выбранным атрибутам матчинга. Если матчрейт подходит для дальнейшей работы с группой, то после того, как будет посчитан “Общий матчрейт” (2 на рисунке ниже), нажмите кнопку “Запросить данные” (3 на рисунке ниже). Если матчрейт не подходит, то произведите редактирование витрины (4 на рисунке ниже).
Для витрин, содержащих один или более датасет стороннего Партнера, запрос на доступ к данным возможен только после подсчета матчрейта. После завершения подсчета матчрейта, в правом верхнем углу появится уведомление об окончании процесса.
Нажмите “Остановить подсчет” (1 на рисунке ниже), чтобы остановить подсчет матчрейта группы. Данное действие доступно для статусов “В очереди” и “В процессе”. Статус можно посмотреть в одноименном столбце (2 на рисунке ниже).
После нажатия на кнопку "Запросить данные", в появившемся окне в выпадающем списке выберите название проекта, в который нужно добавить витрину данных (1 на рисунке ниже). После этого нажмите “Отправить” (2 на рисунке ниже). Нажмите “Отменить”, чтобы отменить выбор (3 на рисунке ниже).
Если проект еще не создан, перейдите в раздел “DataLab” для создания проекта.
Более подробное описание алгоритма матчинга описано в разделе Матчинг
Формирование запроса на одиночный датасет
При работе с одиночным датасетом пользователю доступен ограниченный список возможностей: выгрузка данных на виртуальную машину, работа с данными в рамках инструментов, представленных на виртуальной машине.
Для того, чтобы сформировать запрос на одиночный датасет, необходимо выбрать датасет и отправить по нему запрос на данные.
- Перейти в карточку датасета.
- Нажать на кнопку "Единичная загрузка"
- В окне запроса необходимо указать:
- проект, в который нужно добавить датасет
- выбрать нужные атрибуты
- при необходимости задать условия для выбранных атрибутов
- Нажать на кнопку "Отправить запрос"
После отправки запроса на согласование датасета он будет доступен для отображения в проекте.
Одобрение запроса на данные
Данное действие доступно для сотрудников с ролями "Владелец информационного актива", "Распорядитель данных" и "Технический стюард данных".
Просмотреть все ваши запросы требующие одобрения вы можете в разделе "Маркетплейс" в подразделе "Запросы:Входящие". Для этого наведите курсор на боковую панель и выберите соответствующий подраздел.
Сверху в списке запросов отображаются те, в которых есть наборы, ожидающие модерации.
Нажмите на название проекта, чтобы раскрыть информацию о запросе (п.1 на рисунке ниже).
Чтобы отклонить запрос на набор, нажмите крестик в столбце "Действие" (п.2 на рисунке ниже).
Чтобы одобрить запрос на набор, нажмите галочку в столбце "Действие" (п.3 на рисунке ниже).
Для подробного просмотра набора нажмите на его Название (п.4 на рисунке ниже).
На экране просмотра запроса вы можете ознакомиться с информацией о запрашиваемых данных и нажать в правом верхнем углу "Одобрить заявку" или "Отклонить заявку".