Apache Hive

Apache Hive
Логотип программы Apache Hive
Тип Система управления базами данных
Автор Facebook
Разработчик Apache Software Foundation
Написана на Java
Операционная система Кроссплатформенное программное обеспечение
Языки интерфейса Английский
Первый выпуск 9 ноября 2011
Аппаратная платформа Java Virtual Machine
Последняя версия
Состояние Активный
Лицензия Apache License 2
Сайт hive.apache.org

Apache Hive — система управления базами данных на основе платформы Hadoop. Позволяет выполнять запросы, агрегировать и анализировать данные, хранящиеся в Hadoop.

Apache Hive был создан корпорацией Facebook и передан под открытой лицензией в собственность фонду Apache Software Foundation. На сегодняшний день эта система используется компанией Netflix и доступна в Amazon Web Services через Amazon Elastic MapReduce.

Возможности

  • Работа с данными используя SQL-подобный язык запросов;
  • Поддержка различных форматов хранения данных;
  • Работа напрямую с HDFS и Apache HBase;
  • Выполнение запросов через Apache Tez, Apache Spark или MapReduce.

HiveQL

Apache Hive поддерживает язык запросов Hive Query Language, который основан на языке SQL, но не имеет полной поддержки стандарта SQL-92. HiveQL имеет функции для работы с форматами XML и JSON, поддержку нескалярных типов данных, таких как массивы, структуры, ассоциативные массивы, поддерживает широкий набор агрегирующих функций, определяемые пользователем функции (User Defined Functions), блокировки.

Пример

Подсчёт количества слов

Запрос подсчитывает, сколько раз каждое слово встречалось в файле:

DROP TABLE IF EXISTS docs;
CREATE TABLE docs (line STRING);
LOAD DATA INPATH 'input_file' OVERWRITE INTO TABLE docs;
CREATE TABLE word_counts AS
SELECT word, count(1) AS count FROM
 (SELECT explode(split(line, '\s')) AS word FROM docs) temp
GROUP BY word
ORDER BY word;

Примечания

Внешние ссылки


Материал из Википедии, свободной энциклопедии · Старая версия: оригинальная статья