Перейти к основному содержимому
Версия: 1.1.0

Работа с данными

Вся работа с данными в рамках платформы, подразумевает работу над ними в рамках проекта. Далее раздел поделен на подготовительный этап "Подготовка к работе" и непосредственно на "Работа с данными"

Подготовка к работе

Выполнить подготовительные действия к работе необходимо, поскольку в рамках системы Тимлид обязан предоставить возможность своим подчиненным вести работу над конкретным проектом, обозначив цели проекта, как своим подчиненным, так и всем будущим участникам обмена данными.

Создание проекта

Цель: Создать проект, в рамках которого будет происходить работа над бизнес-задачей.

Результат: Создан проект, в который можно запросить данные, выгрузить их на VM, произвести обработку данных на VM

Роли участников процесса: Тимлид

Последовательность пользовательских действий:

Шаг 1. Перейти в раздел “Datalab”

Шаг 2. Нажать на кнопку “+ Создать”

Шаг 3. В появившемся окне указать наименование проекта, бизнес-цель проекта, участников проекта.

Шаг 4. Создать VM для работы над проектом.

Используемые в процессе компоненты системы:

1) Front-end

2) Back-end

3) Blockchain

4) Deploy Controller

Добавление/удаление участников проекта

Цель: Изменения состава участников проекта.

Результат: Пользователь системы приобретает или теряет возможность совершать действия в проекте.

Роли участников процесса: Тимлид

Последовательность пользовательских действий:

Шаг 1. Перейти в раздел “Datalab”

Шаг 2. Перейти в существующий проект

Шаг 3. В окне проекта, в списке участников проекта удалить одного из участников или добавить нового участника

Используемые в процессе компоненты системы:

1) Front-end

2) Back-end

Создание VM

Цель: В рамках проекта создать ВМ для работы над данными.

Результат: В рамках проекта создана ВМ, на которую можно загрузить и обработать данные. Есть возможность открыть удаленный рабочий стол созданной ВМ

Роли участников процесса: Тимлид

Последовательность пользовательских действий:

Шаг 1. Перейти в раздел “Datalab”

Шаг 2. Перейти в существующий проект или создать новый

Шаг 3. В окне проекта, в блоке VM, нажать на кнопку “+ Добавить VM”

Шаг 4. В появившемся блоке ввести наименование ВМ, нажать на кнопку “Play”.

Шаг 5. Дождаться создания ВМ.

Шаг 6. Нажать на иконку “компьютер” для проверки того что удаленный рабочий стол запущен

Используемые в процессе компоненты системы:

1) Front-end

2) Back-end

3) Blockchain

4) Deploy Controller

Работа с данными

Найти данные для создания скоринговой модели

Цель: Найти датасеты, которые можно использовать для достижения бизнес-цели

Результат: Датасаентист имеет представление о том, с какими датасетами он хочет поработать

Роли участников процесса: Датасаентист

Последовательность пользовательских действий:

Поиск через датасеты

Шаг 1. Датасаентист открывает маркетплейс

Шаг 2. Датасаентист открывает список датасетов одной из компании

Шаг 3. Датасаентист поочередно открывает каждый датасет, изучает набор полей и атрибутов у каждого датасета, тем самым формируя своё представление о данных, с которыми возможно поработать

Поиск через бизнес-термины

Шаг 1. Датасаентист открывает глоссарий

Шаг 2. Датасаентист изучает список представленных бизнес-терминов, находит интересующие его метрики по их названию

Шаг 3. Датасаентист открывает интересующий его термин и изучает информацию об этом термине, смотрит в каких датасетах используется этот термин

Шаг 4. Датасаентист открывает датасет, к которому привязан интересующий его термин, изучает набор полей и атрибутов датасета, тем самым формируя своё представление о данных, с которыми возможно поработать

Используемые в процессе компоненты системы:

1) Front-end

2) Back-end

3) DataService

Посчитать матчрейт

Цель: Выяснить какое пересечение аудитории у нескольких датасетов с учетом пользовательских согласий.

Результат: Получено число строк, пересекающихся с базовым датасетом

Роли участников:

Предварительные условия:

1) Должен быть опубликован как минимум 1 собственный датасет и 1 любой другой датасет.

2) Должны быть настроены минимальные правила матчинга с провайдером, с которым должен производиться матчинг.

Последовательность пользовательских действий:

Шаг 1. Датасаентист выбирает в маркетплейсе интересные ему датасеты и добавляет их в “Конструктор”, переходит в конструктор

Шаг 2. Датасаентист выбирает базовый датасет и нажимает кнопку “Создать группу”

Шаг 3. Датасаентист выбирает дополнительные датасеты из списка возможных для матчинга

Шаг 4. Датасаентист выбирает в выбранных датасетах интересующие его фичи и фильтрует по ним.

Шаг 5. Датасаентист выбирает для каждого дополнительного датасета атрибуты и веса, по которым необходимо сматчится.

Шаг 6. Датасаентист сохраняет группу матчинга.

Шаг 7. Датасаентист нажимает кнопку “Посчитать матчрейт”

Шаг 8. Датасаентист ожидает получение результата.

Шаг 9. Датасаентист видит результат матчинга для каждого датасета и группы в целом.

Запросить данные на выгрузку

Цель: Запросить у компаний разрешение на обработку данных.

Результат: В компании, чьи датасеты запрашиваются, отправлен запрос на выгрузку данных на ВМ. По окончанию процесса согласования всеми компаниями получена возможность скачать датасеты на ВМ

Роли участников процесса: Датасаентист

Последовательность пользовательских действий:

Шаг 1. Создать группу для матчинга, выбрав все необходимые фильтры и атрибуты матчинга, произвести матчинг.

Шаг 2. В сматченой группе нажать на кнопку “Запросить данные”

Шаг 3. В модальном окне выбрать проект для реализации которого необходимы данные

Шаг 4. Нажать на кнопку “Запросить”

Шаг 5. Ожидать согласования на выгрузку всех датасетов используемых в группе матчинга

Используемые в процессе компоненты системы:

1) Front-end

2) Back-end

3) Blockchain

Согласовать выгрузку данных

Цель: Согласовать выгрузку данных на ВМ.

Результат: Сотрудник компании партнера может загрузить данные датасета, с учетом согласий, на ВМ для обработки данных в рамках проекта

Роли участников процесса: Распорядитель данных

Последовательность пользовательских действий:

Шаг 1. Распорядитель данных компании открывает раздел “Запросы: Входящие”

Шаг 2. Распорядитель данных компании открывает проект компании запрашивающей данные.

Шаг 3. Распорядитель данных компании открывает просматривает список запрашиваемых датасетов в проекте.

Шаг 4. Распорядитель данных компании нажимает на запрашиваемый датасет в проекте и в модальном окне просматривает детали запроса: датасет и фильтры применяемые к датасету.

Шаг 5. Распорядитель данных компании нажимает кнопку “согласовать”

Используемые в процессе компоненты системы:

1) Front-end

2) Back-end

3) Blockchain

Загрузка данных на VM

Цель: Получить данные на VM на которых можно будет построить модель

Результат: На VM, в папке Import есть файл с сматченными данными

Роли участников процесса: Датасаентист

Последовательность пользовательских действий:

Шаг 1. Датасаентист открывает маркетплейс и добавляет в конструктор необходимые ему датасеты

Шаг 2. Датасаентист, создает матчинг группу и рассчитывает матчрейт

Шаг 3. Датасаентист, запрашивает выгрузку данных в проект у компаний-владельцев датасетов

Шаг 4. Распорядители данных, компаний-владельцев согласовывают выгрузку

Шаг 5. Датасаентист переходит в проект в который запрашивал данные, и нажимает кнопку “Загрузить данные”

Шаг 6. Датасаентист выбирает VM на которую необходимо загрузить сматченный датасет и нажимает кнопку “Выгрузить”

Шаг 7. Датасаентист ожидает загрузку данных на VM

Используемые в процессе компоненты системы:

1) Front-end

2) Back-end

3) Blockchain

4) DataService

5) Deploy Controller

6) Datalab VM Set

Подготовить данные для скоринговой модели

Цель: Иметь возможность преобразовать данные сматченого датасета таким образом, чтобы данные было возможно подавать в модель в автоматическом режиме

Результат: Написан скрипт подготовки данных для модели

Роли участников процесса: Датасаентист

Последовательность пользовательских действий:

Шаг 1. Датасаентист загружает данные сматченного датасета на VM

Шаг 2. Датасаентист изучает результат выгрузки и данные которые были выгружены, на предмет содержания датасета

Шаг 3. Датасаентист пишет скрипт приводящий данные из датасета в формат пригодный для работы модели

Шаг 4. Датасаентист пушит свой скрипт в репозиторий Gitlab

Используемые в процессе компоненты системы:

1) VM

2) GitLab

Написать скоринговую модель

Цель: Подготовить модель данных, которая будет удовлетворять поставленные бизнес-цели

Результат: Написана модель которая может получать на вход данные и отдавать результат скоринга

Роли участников процесса: Датасаентист

Последовательность пользовательских действий:

Шаг 1. Датасаентист загружает данные сматченного датасета на VM

Шаг 2. Датасаентист пишет скрипт подготовки данных

Шаг 3. Датасаентист пишет скрипт обучения модели и получает бинарный файл модели

Шаг 4. Датасаентист пишет скрипт обрабатывающий данные и запускающий обученную модель данных

Шаг 5. Датасаентист запускает скрипт подготовки данных и запуска модели на VM, на данных сматченного датасета, проверяет что скрипт и модель отрабатывают корректно, результат работы формирует необходимый файл.

Шаг 6. Датасаентист пушит свой скрипт в репозиторий Gitlab

Используемые в процессе компоненты системы:

1) VM

2) GitLab

Создать скоринговую модель в платформе

Цель: На сматченной аудитории создать скоринговую модель

Результат: Получен скоринг по пользователям

Роли участников процесса: Датасаентист, Тимлид

Последовательность пользовательских действий:

Шаг 1. Тимлид создает проект и ВМ в нем

Шаг 2. Датасаентист находит интересующие датасеты и загружает их на VM

Шаг 3. Датасаентист создает скоринговую модель, отлаживает в Cleanroom и передает её на ревью Тимлиду

Шаг 4. Тимлид проверяет модель и запускает процесс согласования между компаниями участниками

Шаг 5. Тимлиды компаний участников производят ревью скрипта и согласовывают скрипт

Используемые в процессе компоненты системы:

1) Front-end

2) Back-end

3) Data-service

4) Enclave

5) CleanRoom

6) Blockchain

Отладить скоринговую модель

Цель: Проверить что написанная модель успешно отрабатывает при запуске в Анклаве

Результат: Скрипт завершился с exit code 0, и отправлен на согласование

Роли участников процесса: Датасаентист

Последовательность пользовательских действий:

Шаг 1. Датасаентист переходит в проект в ADCP

Шаг 2. Датасаентист открывает вкладку модели

Шаг 3. Датасаентист нажимает на кнопку “+” и создает новую модель с указанием своего скрипта

Шаг 4. Датасаентист нажимает кнопку “создать”

Шаг 5. Датасаентист нажимает на кнопку запустить отладку (кнопка с жуком)

Шаг 6. Датасаентист дожидается завершения работы скрипта

Шаг 7. Датасаентист нажимает на кнопку смотреть лог и изучает лог.

Шаг 8. Если Датасаентист видит что в логе нет ошибок то отправляет скрипт на модерацию; Если Датасаентист видит в логе ошибку (стек-трейс кода), то анализирует ошибку и дорабатывает скрипт или модель, пушит изменения в Gitlab и запускает модель повторно

Используемые в процессе компоненты системы:

1) Front-end

2) Back-end

3) DataService

4) Enclave

5) CleanRoom

Согласовать скоринговую модель

Цель: Ознакомиться с со скриптом, убедиться что его можно использовать в промышленном режиме

Результат: Скрипт согласован

Роли участников процесса: Распорядитель данных

Последовательность пользовательских действий:

Шаг 1. После того, как одной из компаний был отправлен скрипт на согласование всем компаниям, на чьих данных используется модель,эти компании получают копию скрипта на согласование.

Шаг 2. Распорядитель данных переходит в раздел “Запросы: входящие”

Шаг 3. Распорядитель данных переходит на вкладку скрипты

Шаг 4. Распорядитель данных находит скрипт который необходимо согласовать и нажимает на кнопку скачать. Ему выгружается архив с Скриптом

Шаг 5. Распорядитель данных изучает скрипт на своем локальном компьютере и согласовывает скрипт

Используемые в процессе компоненты системы:

1) Back-end

2) Front-end

3) Blockchain

Выбрать и запустить скоринговую модель для получения результата

Цель: Получить список клиентов со скор баллами

Результат: Таблица с перечнем клиентов со скор баллами получена Тимлидом из ClickHouse

Роли участников процесса: Тимлид

Предварительные условия: Должна быть создана и согласованна скоринговая модель

Последовательность пользовательских действий:

Шаг 1. Тимлид переходит к списку проектов

Шаг 2. Тимлид выбирает интересующий его проект и переходит в проекте на вкладку “модели”

Шаг 3. Тимлид запускает согласованную модель и ожидает её исполнение в Cleanroom

Шаг 4. Тимлид получает результаты скоринговой модели в ClickHouse

Используемые в процессе компоненты системы:

1) Front-end

2) Back-end

3) Data-service

4) Enclave

5) CleanRoom

6) Blockchain

7) ClickHouse