Аналитические движки и платформы

Apache Spark
- Самый популярный и универсальный движок Big Data.
- Batch и Streaming обработка.
- Поддержка ML и аналитики (Spark SQL, MLlib).
Apache Flink
- Продвинутый движок real-time обработки потоков.
- Поддерживает stateful-процессы, event-driven аналитику, и Complex Event Processing (CEP).
Apache Beam
- Универсальный фреймворк потоковой и пакетной обработки.
- Поддерживает несколько движков (Spark, Flink, Google Cloud Dataflow).

Presto / Trino
- Интерактивные SQL-запросы к различным источникам (Data Lake, базы данных, S3).
- Высокая производительность, разработан для быстрого интерактивного анализа данных.
Apache Drill
- SQL-запросы по NoSQL и файловым источникам.
- Поддержка JSON, CSV, Parquet, ORC и др.
Amazon Athena
- Serverless SQL-движок для интерактивной аналитики в AWS (основан на Presto).
Apache Druid
- Высокопроизводительный OLAP движок для real-time аналитики и визуализации данных.
ClickHouse
- Columnar аналитическая БД, идеально подходит для интерактивной аналитики больших объемов данных.

Apache Hive
- SQL-интерфейс для Hadoop и больших объёмов данных в формате файлов (Parquet, ORC и др.).
- Подходит для batch-аналитики и интеграции с Hadoop-экосистемой.
Apache Impala
- Интерактивный SQL-движок от Cloudera.
- Эффективен для быстрого SQL-анализа данных в Hadoop.

Google BigQuery
- Полностью управляемая аналитическая база данных в Google Cloud.
- Serverless, подходит для масштабной аналитики.
Amazon Redshift
- Cloud Data Warehouse на AWS.
- Оптимизирован под аналитику, интеграция с экосистемой AWS.
Azure Synapse Analytics
- Аналитический сервис в Azure, совмещает Big Data и DWH.
- Встроенная интеграция со Spark и Azure Data Lake.
Snowflake
- Cloud-native Data Warehouse.
- Поддержка мультиоблачных решений и разделение хранения и вычисления.
Databricks
- Облачная платформа обработки и анализа данных, основанная на Apache Spark.
- Предлагает аналитические возможности, ML, Delta Lake и Lakehouse-архитектуру.

📌 Краткая таблица: Для чего используются движки

Аналитический движок	Основное применение
Apache Spark	Универсальный, Batch и Streaming, ML, ETL
Apache Flink	Real-time аналитика, stateful-streaming, CEP
Presto/Trino	Интерактивный SQL-анализ, Data Lake query
Apache Hive	Batch-аналитика Hadoop, SQL-интерфейс
ClickHouse	Real-time аналитика, OLAP, быстрая агрегация данных
Apache Drill	SQL на любых данных (JSON, NoSQL, Parquet, CSV)
Google BigQuery	Cloud-native аналитика, serverless аналитика в GCP
Amazon Redshift	Data Warehouse в AWS, SQL-анализ
Azure Synapse Analytics	Комплексная аналитика, Data Lake и DWH в Azure
Snowflake	Облачный DWH, аналитика, мультиоблачные сценарии
Databricks	Cloud-платформа Spark, ML и Lakehouse

Для комплексной аналитики и Machine Learning чаще всего выбирают:
Spark, Databricks, Flink
Для интерактивных SQL-запросов по большим данным (Data Lake):
Presto (Trino), Athena, Drill, Druid, ClickHouse
Для Hadoop-экосистемы и batch-аналитики:
Hive, Impala
Для Cloud-native аналитики и облачных сценариев:
BigQuery, Snowflake, Redshift, Synapse Analytics