З.П. Договорная
Программист
2023-08-18 в 21:18
Описание проекта:
Разрабатываемый проект является системой для аналитики данных ресторанов, использующих платформы IIKO и Absolut. В процессе разработки будет создана Data Warehouse (DWH) на базе Clickhouse для агрегации данных из тысяч заведений.
В рамках проекта также планируется обогащение данных из внешних источников, таких как погода, праздники и мероприятия. Также необходимо подключить собственные источники данных, включая статистику из социальных сетей и рекламных платформ.
Цели проекта:
1. Возможность хранить, обрабатывать данные из различных источников данных
2. Возможность работать с новыми источниками данных без постоянного участия разработки
3. Отделить аналитические и операционные данные для обеспечения надежности, стабильности и скорости работы с данными
4. Возможность формировать новые отчеты по клиентам средствами BI-инструментов без участия разработки
Требования к Clickhouse:
1. Установить и настроить Clickhouse для работы с большими объемами данных.
2. Создать структуру базы данных для хранения данных, включая таблицы, индексы и связи между таблицами.
3. Разработать процессы ETL для загрузки данных из платформ IIKO и Absolut в DWH.
4. Обеспечить производительность запросов к данным, включая использование оптимизированных запросов и индексов.
Требования к Airflow:
1. Установить и настроить Airflow для автоматизации процессов ETL.
2. Создать DAG (Directed Acyclic Graph) для описания процессов ETL, включая выгрузку данных из платформ, обогащение данных из внешних источников и загрузку данных в Clickhouse DWH.
3. Разработать и настроить расписания выполнения задач в DAG в соответствии с требованиями и конкретными потребностями аналитического отдела.
Результаты проекта:
1. Данные из платформ IIKO и Absolut загружены и хранятся в Clickhouse DWH.
2. Данные из внешних источников (погода, праздники, мероприятия) обогащаются и доступны для анализа.
3. Данные из собственных источников (статистика из социальных сетей, рекламных платформ) подключены и доступны для анализа.
4. Разработаны и настроены процессы ETL для загрузки и обработки данных.
5. Автоматизированы процессы ETL с использованием Airflow.
План минимум:
1. Установить и настроить Clickhouse.
2. Создать структуру базы данных в Clickhouse.
3. Разработать процессы ETL для загрузки данных из платформ IIKO и Absolut в Clickhouse DWH.
План максимум:
1. Установить и настроить Clickhouse.
2. Создать структуру базы данных в Clickhouse.
3. Разработать процессы ETL для загрузки данных из платформ IIKO и Absolut в Clickhouse DWH.
4. Интегрировать данные о погоде, праздниках и мероприятиях из внешних источников.
5. Разработать процессы ETL для загрузки и обработки данных из внешних источников.
6. Подключить статистику из собственных социальных сетей и рекламных платформ.
7. Разработать процессы ETL для загрузки и обработки данных из собственных источников.
8. Настроить расписание выполнения процессов ETL с использованием Airflow.
9. Протестировать и оптимизировать процессы ETL и производительность запросов к данным.
10. Завершить проект, предоставив работающую систему для аналитики данных ресторанов.
Технические сведения:
1. Разворачивать инфраструктуру с нуля на базе Яндекс Облака
2. Источники данных
3. API IIKO — Python-итеграция с прокси-базой SQL
4. Absolut — PostgreSQL (основное) и немного Mongo DB (складские операции)
5. Объем данных
6. На текущий момент — 11 тыс. чеков в сутки
7. К концу 2023 года — до 45 тыс. чеков в сутки
8. К концу 2024 года — до 450 тыс. чеков в сутки
Данные можно обновлять с задержкой. Условно:
1. Операционные данные текущего дня мы можем тащить из нашей базы
2. Данные аналитические (более 7 дней назад) уже из аналитической базы
В идеале добиться, конечно, синхронизации в реальном времени
Контакты работодателя
Просмотров:
37
| Размещено до: 2023-09-18
Поделитесь вакансией