🔸 Движки пакетной и потоковой обработки (Batch & Streaming):

  • Apache Spark

    • Самый популярный и универсальный движок Big Data.
    • Batch и Streaming обработка.
    • Поддержка ML и аналитики (Spark SQL, MLlib).
  • Apache Flink

    • Продвинутый движок real-time обработки потоков.
    • Поддерживает stateful-процессы, event-driven аналитику, и Complex Event Processing (CEP).
  • Apache Beam

    • Универсальный фреймворк потоковой и пакетной обработки.
    • Поддерживает несколько движков (Spark, Flink, Google Cloud Dataflow).

🔸 Интерактивные SQL движки (SQL-on-anything):

  • Presto / Trino

    • Интерактивные SQL-запросы к различным источникам (Data Lake, базы данных, S3).
    • Высокая производительность, разработан для быстрого интерактивного анализа данных.
  • Apache Drill

    • SQL-запросы по NoSQL и файловым источникам.
    • Поддержка JSON, CSV, Parquet, ORC и др.
  • Amazon Athena

    • Serverless SQL-движок для интерактивной аналитики в AWS (основан на Presto).
  • Apache Druid

    • Высокопроизводительный OLAP движок для real-time аналитики и визуализации данных.
  • ClickHouse

    • Columnar аналитическая БД, идеально подходит для интерактивной аналитики больших объемов данных.

🔸 Hadoop-ориентированные движки:

  • Apache Hive

    • SQL-интерфейс для Hadoop и больших объёмов данных в формате файлов (Parquet, ORC и др.).
    • Подходит для batch-аналитики и интеграции с Hadoop-экосистемой.
  • Apache Impala

    • Интерактивный SQL-движок от Cloudera.
    • Эффективен для быстрого SQL-анализа данных в Hadoop.

🔸 Облачные платформы аналитики (Managed):

  • Google BigQuery

    • Полностью управляемая аналитическая база данных в Google Cloud.
    • Serverless, подходит для масштабной аналитики.
  • Amazon Redshift

    • Cloud Data Warehouse на AWS.
    • Оптимизирован под аналитику, интеграция с экосистемой AWS.
  • Azure Synapse Analytics

    • Аналитический сервис в Azure, совмещает Big Data и DWH.
    • Встроенная интеграция со Spark и Azure Data Lake.
  • Snowflake

    • Cloud-native Data Warehouse.
    • Поддержка мультиоблачных решений и разделение хранения и вычисления.
  • Databricks

    • Облачная платформа обработки и анализа данных, основанная на Apache Spark.
    • Предлагает аналитические возможности, ML, Delta Lake и Lakehouse-архитектуру.

🔸 Движки для Machine Learning и Data Science:

  • Spark ML (MLlib) — машинное обучение на основе Apache Spark.
  • TensorFlow — платформа от Google для ML/AI задач.
  • PyTorch — open-source платформа от Meta (Facebook) для ML/AI.

📌 Краткая таблица: Для чего используются движки

Аналитический движокОсновное применение
Apache SparkУниверсальный, Batch и Streaming, ML, ETL
Apache FlinkReal-time аналитика, stateful-streaming, CEP
Presto/TrinoИнтерактивный SQL-анализ, Data Lake query
Apache HiveBatch-аналитика Hadoop, SQL-интерфейс
ClickHouseReal-time аналитика, OLAP, быстрая агрегация данных
Apache DrillSQL на любых данных (JSON, NoSQL, Parquet, CSV)
Google BigQueryCloud-native аналитика, serverless аналитика в GCP
Amazon RedshiftData Warehouse в AWS, SQL-анализ
Azure Synapse AnalyticsКомплексная аналитика, Data Lake и DWH в Azure
SnowflakeОблачный DWH, аналитика, мультиоблачные сценарии
DatabricksCloud-платформа Spark, ML и Lakehouse

🚩 Итоговое резюме

  • Для комплексной аналитики и Machine Learning чаще всего выбирают:
    Spark, Databricks, Flink

  • Для интерактивных SQL-запросов по большим данным (Data Lake):
    Presto (Trino), Athena, Drill, Druid, ClickHouse

  • Для Hadoop-экосистемы и batch-аналитики:
    Hive, Impala

  • Для Cloud-native аналитики и облачных сценариев:
    BigQuery, Snowflake, Redshift, Synapse Analytics