Skip to main content
Version: Next

Создание и публикация датасетов

Для того чтобы датасеты, заведенные в Каталоге данных, стали опубликованными в маркетплейсе, необходимо выполнить ряд требований к датасетам. В этом разделе будут рассмотрено, что необходимо сделать, чтобы создать и опубликовать датасет, как управлять доступностью датасета и его полей.

В рамках платформы датасет является надстройкой над таблицей ClickHouse. Все основные средства управления датасетами такие как:

  • Создание
  • Редактирование
  • Управление доступностью и конфиденциальностью

Датасет, как и бизнес-термин, возможно создать или отредактировать 2-мя способами:

  • Вручную, используя интерфейс Каталога данных
  • С помощью загрузки Excel-файла

Требования к публикации датасетов

Для того чтобы ваш датасет был опубликован, после создания он должен соответствовать следующим критериям ниже. Эти требования необходимо учитывать при создании или редактировании ваших датасетов. В случае если эти требования не будут выполнены, датасет будет отображаться в системе как неопубликованный и им будет невозможно воспользоваться для работы с данными.

  1. К датасету должна быть привязана существующая таблица данных с хотя бы одним полем. В случае удаления таблицы, датасет будет распубликован.
  2. Все выбранные в датасете поля должны присутствовать в таблице.
  3. К выбранным в датасете полям таблицы должны быть привязаны бизнес-термины. В случае, если хотя бы одному полю, выбранному в датасете, не привязан бизнес-термин, то датасет будет неопубликован.

Требования к матчингу датасетов

Данные требования необходимо соблюдать наряду с общими требованиями к публикации датасетов, описанные в пункте выше, в случае если вы планируете использовать датасет для матчинга в рамках витрины данных.

  1. В датасете обязательно должен быть валидный атрибут “Согласия” и минимум 1 валидный атрибут матчинга

  2. В рамках одного Датасета не должны повторяться значения атрибутов матчинга (например, у датасета не может быть 2-х полей с атрибутом матчинга phone).

  3. Бизнес-термин с назначенным атрибутом матчинга должен привязываться к полю таблицы определенного типа:

    1. Бизнес-термины с атрибутами матчинга:

      • last_name
      • first_name
      • patronymic
      • phone
      • passport
      • birthday
      • email
      • gender

      Должны привязываться к полям с типом строка.

    2. Бизнес-термины с атрибутами матчинга:

      • agreement

      Должны привязываться к полям с типом число. Допустимые значения 0 и 1.

danger

При публикации датасета, обратите внимание на область видимости и конфиденциальность атрибутов матчинга. В случае если используемые в датасете бизнес-термины с атрибутами матчинга будут не общедоступными (конфиденциальность = не конфиденциально и область видимости = доступно партнерам в группе компаний) ваши партнеры не смогут воспользоваться вашими опубликованными датасетами

note

Правила публикации распространяются на все датасеты, вне зависимости от выбранного метода создания датасета

Далее будут рассмотрены все 2 способа создания датасетов:

  • Создание и публикация датасетов в интерфейсе Каталога данных
  • Создание и публикация датасетов при помощи загрузки Excel-файлов

Создание и публикация датасетов в интерфейсе Каталога данных

Создание датасета

Чтобы создать новый датасет, проделайте следующие шаги:

  1. В левой части экрана выберите раздел "Каталог данных".

    Untitled

  2. Перейдите во вкладку "Датасеты".

    Untitled

  3. Нажмите на кнопку "Создать датасет"

    Untitled

  4. Для выбора нужной таблицы можно воспользоваться поиском (1 на рисунке ниже). Выберите таблицу (2 на рисунке ниже). Нажмите кнопку "Далее" (3 на рисунке ниже).

    Untitled

  5. Для выбора нужных полей воспользуйтесь поиском по имени (1 на рисунке ниже). Для выбора нужного поля установите галочку в чекбоксе рядом с его названием (2 на рисунке ниже). Если все поля выбраны, нажмите кнопку "Далее" (3 на рисунке ниже). Для возврата на предыдущий шаг нажмите кнопку "Назад" (4 на рисунке ниже).

    Untitled

  6. Убедитесь, что к выбранным в датасете полям привязаны доступные бизнес-термины. Бизнес-термины, которые более неактуальны, помечены восклицательным знаком (1 на рисунке). Бизнес-термины, являющиеся матчинг-атрибутами, помечены серой иконкой в соответствии с типом атрибута матчинга (2 на рисунке).

    Untitled

  7. Заполните поля:

    • Название датасета,
    • Описание датасета,
    • Конфиденциальность - указание уровня конфиденциальности датасета,
    • Видимость - указание уровня видимости датасета среди компаний партнеров,
    • Частота обновления - частота обновления, то с какой частотой планируется обновлять данные в датасете,
    • Детализация - уровень детализации датасета. Указывается, насколько детальные данные в таблице, например, когда каждая строка датасета относится к одному клиенту, nо в детализации указывается “Клиент”.

    Для возврата на предыдущие шаги нажмите кнопку "Назад" (1 на рисунке ниже). Для завершения процесса сохранения нового датасета, нажмите кнопку "Сохранить" (2 на рисунке ниже).

    Untitled

Создание и публикация датасетов при помощи загрузки Excel-файлов

Бизнес-термины возможно создать с помощью экспорта Excel-Файла, в формате предоставленного шаблона.

Для этого необходимо:

  1. Создать датасет

  2. Указать связь таблиц и датасетов, полей таблиц и бизнес-терминов

Далее в инструкциях описана загрузка каждой страницы отдельно, на практике, вы можете единожды заполнить все страницы Excel-файла и загрузить всю информацию единожды.

Шаблон файла для загузки

Создание датасетов

Для того чтобы создать датасет, необходимо:

  1. В шаблоне Excel-файла, на странице Набор данных заполнить поля соответствующие полям датасета и его классификатора:

    Наименование поляЗначение поляОбязательное полеВозможные значения
    Наименование (Рус)Наименование датасета на русском, которое будет отображаться в маркетплейседаТранзакции клиентов
    Наименование (Eng)Наименование датасета на английском, которое будет отображаться в маркетплейседаClient transactions
    ОписаниеКраткое описание содержимого датасета, позволяющее понять возможности его применениядаИнформация о среднем чеке покупок клиентов
    ДетализацияУровень детализации датасета. Указывается насколько детальные данные в таблице, например когда каждая строка датасета относится к одному клиенту, но в детализации указывается “Клиент”даКлиент
    КонфиденциальностьИспользуется для указания уровня конфиденциальности датасетада1 - «Доступно», 2 - «Конфиденциально», 3 - «Строго-конфиденциально»
    Область видимостиИспользуется для указания уровня видимости датасета среди компаний партнеровда1 - Частные данные, 22 - Метаданные видимы только внутри экосистемы (группы компаний)
    Организация-владелецИспользуется для указания уровня конфиденциальности датасетанетVaultee
    Владелец данныхУказывается имя владельца данных - человека ответственого за датасет и его содержаниенетСергей Петров
    Частота обновленияЧастота обновления, то с какой частотой планируется обновлять данные в датасете.даЕженедельно
    Бизнес-сущностьСсылка на бизнес термин который может описать датасетнетКлиент
  2. В интерфейсе ADCP перейти в раздел Каталог данных.

  3. В верхнем правом углу нажать на кнопку загрузки.

  4. В открывшемся модальном окне нажать на кнопку “Загрузить”.

  5. Найти на вашем локальном компьютере файл с заполненным шаблоном и загрузить его.

  6. Дождаться завершения загрузки. В случае возникновения ошибок при загрузке файла с шаблоном, есть возможность скачивания файла с ошибками, с помощью которого будет возможно определить место, в котором была допущена ошибка при заполнении.

Связь таблиц и датасетов, полей таблиц и бизнес-терминов

Для того чтобы связать датасеты с бизнес-терминами и таблицами и как следствие, опубликовать датасет необходимо:

  1. В шаблоне Excel-файла, на странице связь НД с бизнес-термином заполнить соответствующие поля, описав какой датасет с какой таблицей ассоциировать и каким полям таблицы назначить бизнес-термины:

    Наименование поляЗначение поляОбязательное полеВозможные значения
    Наименование набора данныхРусское наименование датасета, который необходимо привязать к таблицедаТранзакции клиентов
    Наименование физической таблицыНаименование таблицы, которая уже добавлена в Каталог данных, в том виде, в котором она хранится в ClickHouseдаsome_table
    Поле набора данныхНаименование поля, которая уже добавлена в Каталог данных, в том виде, в котором оно хранится в ClickHouseдаsome_field
    Наименование бизнес-терминаРусское наименование бизнес-термина, который уже заведен в Каталог данныхдаКлиент
    ОрганизацияНаименование вашей организациинетAггрегион

    Поскольку в таблице содержится несколько полей, необходимо создавать в файле строки по количеству полей в таблице, иными словами, дублировать наименование набора данных и таблицы для каждого поля таблицы.

  2. В интерфейсе ADCP перейти в раздел “Глоссарий”.

  3. В верхнем правом углу нажать на кнопку загрузки.

  4. В открывшемся модальном окне нажать на кнопку “Загрузить”.

  5. Найти на вашем локальном компьютере файл с заполненным шаблоном и загрузить его.

  6. Дождаться завершения загрузки. В случае возникновения ошибок при загрузке файла с шаблоном, есть возможность скачивания файла с ошибками, с помощью которого будет возможно определить место, в котором была допущена ошибка при заполнении.

Матрица доступа к данным

Поскольку на доступность данных в датасете и сам датасет влияют атрибуты "Конфиденциальность" и "Область видимости" как самого датасета, так и его полей, понять как именно эти факторы влияют, может быть затруднительно.

Ниже приведена матрица соответствия взаимодействия этих атрибутов, описывающая их взаимодействие, как для компании-владельца датасета, так и для партнеров:

Untitled