Перейти к основному содержимому
Версия: 1.1.0

Публикация данных

Загрузка данных в ClickHouse

Цель: Загрузить данные таким образом, чтобы с ними можно было работать в рамках платформы согласно всех правил публикации.

Результат: В ClickHouse загружены данные, пригодные для работы

Роли участников процесса: Распорядитель данных (РД), Технический стюард данных (ТСД), Специалист не имеющий доступ в платформу, но отвечающий за наполнение данных

Последовательность пользовательских действий:

Шаг 1. РД или ТСД изучает содержание данных внутренних ИС

Шаг 2. РД или ТСД подготавливают ETL-процесс по загрузке данных из внутренних ИС для загрузки в ClickHouse

Шаг 3. РД или ТСД настраивают расписание запуска ETL таким образом, чтобы данные в ClickHouse поддерживались в актуальном состоянии, выполняли поставленные бизнес-цели, учитывали согласия клиентов на обработку персональных данных таким образом, чтобы не нарушать их.

Используемые в процессе компоненты системы:

1) ClickHouse

Опубликовать Бизнес-термин

Цель: Сделать доступные для работы на платформе Бизнес-термины

Результат: В Глоссарии отображаются добавленные Бизнес-термины.

Роли участников процесса: Распорядитель данных (РД) или Технический стюард данных (ТСД)

Последовательность пользовательских действий:

Сценарий 1. Создание Бизнес-термина в Apache Atlas

Шаг 1. РД или ТСД переходит в интерфейс Apache Atlas

Шаг 2. РД или ТСД создает Бизнес-термин, заполняя его Наименование и Описание

Шаг 3. РД или ТСД привязывает к созданному Бизнес-термину классификатор, типизирующий Бизнес-термин и заполняет все поля классификации.

Шаг 4. РД или ТСД ожидает синхронизацию Apache Atlas и ADCP и проверяет что добавленный Бизнес-термин добавлен в Глоссарий.

Сценарий 2. Создание Бизнес-термина использованием Excel-шаблона.

Шаг 1. РД или ТСД подготавливает Excel-файл согласно шаблону. Заполняет вкладку “Бизнес-термин”

Шаг 2. РД или ТСД переходит в раздел Глоссарий в платформе и открывает меню загрузки файла.

Шаг 3. РД или ТСД загружает файл и ожидает завершения загрузки файла.

Шаг 4. РД или ТСД ожидает синхронизацию Apache Atlas и ADCP и проверяет что добавленный Бизнес-термин добавлен в Глоссарий.

Используемые в процессе компоненты системы:

1) Apache Atlas

2) DataService

3) Front-end

4) Back-end

5) Metadata Seed

Опубликовать Датасеты

Цель: Сделать доступные для работы на платформе датасеты

Результат: В маркетплейсе отображается новый датасет

Роли участников процесса: Распорядитель данных (РД) или Технический стюард данных (ТСД)

Предварительные условия:

1) Должны быть добавлены данные в ClickHouse

2) База данных должна быть добавлена в Apache Atlas и таблицы должны быть синхронизированными между ADCP и Атлас.

3) Уже должны быть добавлены Бизнес-термины

Последовательность пользовательских действий:

Сценарий 1. Создание датасета в Apache Atlas

Шаг 1. РД или ТСД переходит в интерфейс Apache Atlas

Шаг 2. РД или ТСД создает entity с типом “agg_dataset”

Шаг 3. РД или ТСД создает entity с типом “agg_dataset” и заполняет все обязательные поля и связывает entity c таблицей

Шаг 4. РД или ТСД привязывает к созданной entity классификатор “agg_dataset_classification” и заполняет все поля классификации. Опционально назначает датасету Бизнес-термин.

Шаг 5. РД или ТСД переходит к таблице и открывает по очереди каждое поле таблицы.

Шаг 6. РД или ТСД привязывает к каждому полю таблицы Бизнес-термин.

Шаг 7. РД или ТСД ожидает синхронизацию Apache Atlas и ADCP и проверяет, что добавленный датасет добавлен в маркетплейс, всем полям назначен соответствующий Бизнес-термин.

Сценарий 2. Создание датасета с использованием Excel-шаблона.

Шаг 1. РД или ТСД подготавливает Excel-файл согласно шаблону. Заполняет вкладки “связь НД с бизнес-термином” и “Набор данных”

Шаг 2. РД или ТСД переходит в раздел Глоссарий в платформе и открывает меню загрузки файла.

Шаг 3. РД или ТСД загружает файл и ожидает завершения загрузки файла.

Шаг 4. РД или ТСД ожидает синхронизацию Apache Atlas и ADCP и проверяет что добавленный датасет добавлен в маркетплейс, всем полям назначен соответствующий Бизнес-термин.

Используемые в процессе компоненты системы:

1) Apache Atlas

2) DataService

3) Front-end

4) Back-end

5) Metadata Seed