З.П. Договорная

Программист

2023-08-18 в 21:18
Описание проекта: Разрабатываемый проект является системой для аналитики данных ресторанов, использующих платформы IIKO и Absolut. В процессе разработки будет создана Data Warehouse (DWH) на базе Clickhouse для агрегации данных из тысяч заведений. В рамках проекта также планируется обогащение данных из внешних источников, таких как погода, праздники и мероприятия. Также необходимо подключить собственные источники данных, включая статистику из социальных сетей и рекламных платформ. Цели проекта: 1. Возможность хранить, обрабатывать данные из различных источников данных 2. Возможность работать с новыми источниками данных без постоянного участия разработки 3. Отделить аналитические и операционные данные для обеспечения надежности, стабильности и скорости работы с данными 4. Возможность формировать новые отчеты по клиентам средствами BI-инструментов без участия разработки Требования к Clickhouse: 1. Установить и настроить Clickhouse для работы с большими объемами данных. 2. Создать структуру базы данных для хранения данных, включая таблицы, индексы и связи между таблицами. 3. Разработать процессы ETL для загрузки данных из платформ IIKO и Absolut в DWH. 4. Обеспечить производительность запросов к данным, включая использование оптимизированных запросов и индексов. Требования к Airflow: 1. Установить и настроить Airflow для автоматизации процессов ETL. 2. Создать DAG (Directed Acyclic Graph) для описания процессов ETL, включая выгрузку данных из платформ, обогащение данных из внешних источников и загрузку данных в Clickhouse DWH. 3. Разработать и настроить расписания выполнения задач в DAG в соответствии с требованиями и конкретными потребностями аналитического отдела. Результаты проекта: 1. Данные из платформ IIKO и Absolut загружены и хранятся в Clickhouse DWH. 2. Данные из внешних источников (погода, праздники, мероприятия) обогащаются и доступны для анализа. 3. Данные из собственных источников (статистика из социальных сетей, рекламных платформ) подключены и доступны для анализа. 4. Разработаны и настроены процессы ETL для загрузки и обработки данных. 5. Автоматизированы процессы ETL с использованием Airflow. План минимум: 1. Установить и настроить Clickhouse. 2. Создать структуру базы данных в Clickhouse. 3. Разработать процессы ETL для загрузки данных из платформ IIKO и Absolut в Clickhouse DWH. План максимум: 1. Установить и настроить Clickhouse. 2. Создать структуру базы данных в Clickhouse. 3. Разработать процессы ETL для загрузки данных из платформ IIKO и Absolut в Clickhouse DWH. 4. Интегрировать данные о погоде, праздниках и мероприятиях из внешних источников. 5. Разработать процессы ETL для загрузки и обработки данных из внешних источников. 6. Подключить статистику из собственных социальных сетей и рекламных платформ. 7. Разработать процессы ETL для загрузки и обработки данных из собственных источников. 8. Настроить расписание выполнения процессов ETL с использованием Airflow. 9. Протестировать и оптимизировать процессы ETL и производительность запросов к данным. 10. Завершить проект, предоставив работающую систему для аналитики данных ресторанов. Технические сведения: 1. Разворачивать инфраструктуру с нуля на базе Яндекс Облака 2. Источники данных 3. API IIKO — Python-итеграция с прокси-базой SQL 4. Absolut — PostgreSQL (основное) и немного Mongo DB (складские операции) 5. Объем данных 6. На текущий момент — 11 тыс. чеков в сутки 7. К концу 2023 года — до 45 тыс. чеков в сутки 8. К концу 2024 года — до 450 тыс. чеков в сутки Данные можно обновлять с задержкой. Условно: 1. Операционные данные текущего дня мы можем тащить из нашей базы 2. Данные аналитические (более 7 дней назад) уже из аналитической базы В идеале добиться, конечно, синхронизации в реальном времени
Контакты работодателя
  • Контакт Камилла
  • E-mail kyarullina@nomia.net
Просмотров: 55 | Размещено до: 2023-09-18
Поделитесь вакансией
0.0 / 0

Добавьте первый комментарий к записи

Ваш комментарий