Создание и публикация датасетов
Для того чтобы датасеты, заведенные в Каталоге данных, стали опубликованными в маркетплейсе, необходимо выполнить ряд требований к датасетам. В этом разделе будут рассмотрено, что необходимо сделать, чтобы создать и опубликовать датасет, как управлять доступностью датасета и его полей.
В рамках платформы датасет является надстройкой над таблицей ClickHouse. Все основные средства управления датасетами такие как:
- Создание
- Редактирование
- Управление доступностью и конфиденциальностью
Датасет, как и бизнес-термин, возможно создать или отредактировать 2-мя способами:
- Вручную, используя интерфейс Каталога данных
- С помощью загрузки Excel-файла
Требования к публикации датасетов
Для того чтобы ваш датасет был опубликован, после создания он должен соответствовать следующим критериям ниже. Эти требования необходимо учитывать при создании или редактировании ваших датасетов. В случае если эти требования не будут выполнены, датасет будет отображаться в системе как неопубликованный и им будет невозможно воспользоваться для работы с данными.
- К датасету должна быть привязана существующая таблица данных с хотя бы одним полем. В случае удаления таблицы, датасет будет распубликован.
- Все выбранные в датасете поля должны присутствовать в таблице.
- К выбранным в датасете полям таблицы должны быть привязаны бизнес-термины. В случае, если хотя бы одному полю, выбранному в датасете, не привязан бизнес-термин, то датасет будет неопубликован.
Требования к матчингу датасетов
Данные требования необходимо соблюдать наряду с общими требованиями к публикации датасетов, описанные в пункте выше, в случае если вы планируете использовать датасет для матчинга в рамках витрины данных.
В датасете обязательно должен быть валидный атрибут “Согласия” и минимум 1 валидный атрибут матчинга
В рамках одного Датасета не должны повторяться значения атрибутов матчинга (например, у датасета не может быть 2-х полей с атрибутом матчинга
phone
).Бизнес-термин с назначенным атрибутом матчинга должен привязываться к полю таблицы определенного типа:
Бизнес-термины с атрибутами матчинга:
- last_name
- first_name
- patronymic
- phone
- passport
- birthday
- gender
Должны привязываться к полям с типом строка.
Бизнес-термины с атрибутами матчинга:
- agreement
Должны привязываться к полям с типом число. Допустимые значения 0 и 1.
При публикации датасета, обратите внимание на область видимости и конфиденциальность атрибутов матчинга. В случае если используемые в датасете бизнес-термины с атрибутами матчинга будут не общедоступными (конфиденциальность = не конфиденциально и область видимости = доступно партнерам в группе компаний) ваши партнеры не смогут воспользоваться вашими опубликованными датасетами
Правила публикации распространяются на все датасеты, вне зависимости от выбранного метода создания датасета
Далее будут рассмотрены все 2 способа создания датасетов:
- Создание и публикация датасетов в интерфейсе Каталога данных
- Создание и публикация датасетов при помощи загрузки Excel-файлов
Создание и публикация датасетов в интерфейсе Каталога данных
Создание датасета
Чтобы создать новый датасет, проделайте следующие шаги:
В левой части экрана выберите раздел "Каталог данных".
Перейдите во вкладку "Датасеты".
Нажмите на кнопку "Создать датасет"
Для выбора нужной таблицы можно воспользоваться поиском (1 на рисунке ниже). Выберите таблицу (2 на рисунке ниже). Нажмите кнопку "Далее" (3 на рисунке ниже).
Для выбора нужных полей воспользуйтесь поиском по имени (1 на рисунке ниже). Для выбора нужного поля установите галочку в чекбоксе рядом с его названием (2 на рисунке ниже). Если все поля выбраны, нажмите кнопку "Далее" (3 на рисунке ниже). Для возврата на предыдущий шаг нажмите кнопку "Назад" (4 на рисунке ниже).
Убедитесь, что к выбранным в датасете полям привязаны доступные бизнес-термины. Бизнес-термины, которые более неактуальны, помечены восклицательным знаком (1 на рисунке). Бизнес-термины, являющиеся матчинг-атрибутами, помечены серой иконкой в соответствии с типом атрибута матчинга (2 на рисунке).
Заполните поля:
- Название датасета,
- Описание датасета,
- Конфиденциальность - указание уровня конфиденциальности датасета,
- Видимость - указание уровня видимости датасета среди компаний партнеров,
- Частота обновления - частота обновления, то с какой частотой планируется обновлять данные в датасете,
- Детализация - уровень детализации датасета. Указывается, насколько детальные данные в таблице, например, когда каждая строка датасета относится к одному клиенту, nо в детализации указывается “Клиент”.
Для возврата на предыдущие шаги нажмите кнопку "Назад" (1 на рисунке ниже). Для завершения процесса сохранения нового датасета, нажмите кнопку "Сохранить" (2 на рисунке ниже).
Создание и публикация датасетов при помощи загрузки Excel-файлов
Бизнес-термины возможно создать с помощью экспорта Excel-Файла, в формате предоставленного шаблона.
Для этого необходимо:
Создать датасет
Указать связь таблиц и датасетов, полей таблиц и бизнес-терминов
Далее в инструкциях описана загрузка каждой страницы отдельно, на практике, вы можете единожды заполнить все страницы Excel-файла и загрузить всю информацию единожды.
Создание датасетов
Для того чтобы создать датасет, необходимо:
В шаблоне Excel-файла, на странице Набор данных заполнить поля соответствующие полям датасета и его классификатора:
Наименование поля Значение поля Обязательное поле Возможные значения Наименование (Рус) Наименование датасета на русском, которое будет отображаться в маркетплейсе да Транзакции клиентов Наименование (Eng) Наименование датасета на английском, которое будет отображаться в маркетплейсе да Client transactions Описание Краткое описание содержимого датасета, позволяющее понять возможности его применения да Информация о среднем чеке покупок клиентов Детализация Уровень детализации датасета. Указывается насколько детальные данные в таблице, например когда каждая строка датасета относится к одному клиенту, но в детализации указывается “Клиент” да Клиент Конфиденциальность Используется для указания уровня конфиденциальности датасета да 1 - «Доступно», 2 - «Конфиденциально», 3 - «Строго-конфиденциально» Область видимости Используется для указания уровня видимости датасета среди компаний партнеров да 1 - Частные данные, 22 - Метаданные видимы только внутри экосистемы (группы компаний) Организация-владелец Используется для указания уровня конфиденциальности датасета нет Vaultee Владелец данных Указывается имя владельца данных - человека ответственого за датасет и его содержание нет Сергей Петров Частота обновления Частота обновления, то с какой частотой планируется обновлять данные в датасете. да Еженедельно Бизнес-сущность Ссылка на бизнес термин который может описать датасет нет Клиент В интерфейсе ADCP перейти в раздел Каталог данных.
В верхнем правом углу нажать на кнопку загрузки.
В открывшемся модальном окне нажать на кнопку “Загрузить”.
Найти на вашем локальном компьютере файл с заполненным шаблоном и загрузить его.
Дождаться завершения загрузки. В случае возникновения ошибок при загрузке файла с шаблоном, есть возможность скачивания файла с ошибками, с помощью которого будет возможно определить место, в котором была допущена ошибка при заполнении.
Связь таблиц и датасетов, полей таблиц и бизнес-терминов
Для того чтобы связать датасеты с бизнес-терминами и таблицами и как следствие, опубликовать датасет необходимо:
В шаблоне Excel-файла, на странице связь НД с бизнес-термином заполнить соответствующие поля, описав какой датасет с какой таблицей ассоциировать и каким полям таблицы назначить бизнес-термины:
Наименование поля Значение поля Обязательное поле Возможные значения Наименование набора данных Русское наименование датасета, который необходимо привязать к таблице да Транзакции клиентов Наименование физической таблицы Наименование таблицы, которая уже добавлена в Каталог данных, в том виде, в котором она хранится в ClickHouse да some_table Поле набора данных Наименование поля, которая уже добавлена в Каталог данных, в том виде, в котором оно хранится в ClickHouse да some_field Наименование бизнес-термина Русское наименование бизнес-термина, который уже заведен в Каталог данных да Клиент Организация Наименование вашей организации нет Aггрегион Поскольку в таблице содержится несколько полей, необходимо создавать в файле строки по количеству полей в таблице, иными словами, дублировать наименование набора данных и таблицы для каждого поля таблицы.
В интерфейсе ADCP перейти в раздел “Глоссарий”.
В верхнем правом углу нажать на кнопку загрузки.
В открывшемся модальном окне нажать на кнопку “Загрузить”.
Найти на вашем локальном компьютере файл с заполненным шаблоном и загрузить его.
Дождаться завершения загрузки. В случае возникновения ошибок при загрузке файла с шаблоном, есть возможность скачивания файла с ошибками, с помощью которого будет возможно определить место, в котором была допущена ошибка при заполнении.
Матрица доступа к данным
Поскольку на доступность данных в датасете и сам датасет влияют атрибуты "Конфиденциальность" и "Область видимости" как самого датасета, так и его полей, понять как именно эти факторы влияют, может быть затруднительно.
Ниже приведена матрица соответствия взаимодействия этих атрибутов, описывающая их взаимодействие, как для компании-владельца датасета, так и для партнеров: