Arhn - архитектура программирования

Predicate Pushdown vs On Clause

При выполнении соединения в Hive и последующей фильтрации вывода с помощью предложения where компилятор Hive попытается отфильтровать данные перед объединением таблиц. Это называется раскрытием предиката (http://allabouthadoop.net/what-is-predicate-pushdown-in-hive/)

Например:

SELECT * FROM a JOIN b ON a.some_id=b.some_other_id WHERE a.some_name=6

Строки из таблицы a, которые имеют some_name = 6, будут отфильтрованы перед выполнением соединения, если включены предикаты push down (hive.optimize.ppd).

Однако недавно я узнал, что есть еще один способ фильтрации данных из таблицы перед объединением ее с другой таблицей ( https://vinaynotes.wordpress.com/2015/10/01/hive-tips-joins-occur-before-where-clause/ ).

Можно указать условие в предложении ON, и таблица a будет отфильтрована перед выполнением соединения.

Например:

SELECT * FROM a JOIN b  ON a.some_id=b.some_other_id AND a.some_name=6

Обеспечивают ли оба эти действия оптимизацию предиката с раскрытием вниз?

Спасибо


Ответы:


1

Оба действительны, и в случае INNER JOIN и PPD оба будут работать одинаково. Но в случае ВНЕШНИХ СОЕДИНЕНИЙ эти методы работают иначе.

Условие соединения ON работает до соединения.

ГДЕ применяется после соединения.

Оптимизатор решает, применимо ли раскрытие предикатов или нет, и он может работать, но в случае LEFT JOIN, например, с фильтром WHERE в правой таблице, фильтр WHERE

SELECT * FROM a 
             LEFT JOIN b ON a.some_id=b.some_other_id 
 WHERE b.some_name=6 --Right table filter

будет ограничивать значения NULL, а LEFT JOIN будет преобразовано в INNER JOIN, потому что, если b.some_name = 6, оно не может быть NULL.

И PPD не меняет этого поведения.

Вы все еще можете выполнить LEFT JOIN с фильтром WHERE, если вы добавите дополнительное условие OR, разрешающее NULL в правой таблице:

SELECT * FROM a 
             LEFT JOIN b ON a.some_id=b.some_other_id 
 WHERE b.some_name=6 OR b.some_other_id IS NULL --allow not joined records

И если у вас есть несколько объединений с множеством таких условий фильтрации, подобная логика затрудняет понимание вашего запроса и устраняет ошибки.

LEFT JOIN с фильтром ON не требует дополнительного условия OR, потому что он фильтрует правую таблицу перед объединением, этот запрос работает так, как ожидалось, и его легко понять:

SELECT * FROM a 
             LEFT JOIN b ON a.some_id=b.some_other_id and b.some_name=6

PPD по-прежнему работает с фильтром ON, и если таблица b является ORC, PPD подтолкнет предикат к самому низкому возможному уровню для считывателя ORC и будет использовать встроенные индексы ORC для фильтрации на трех уровнях: строки, полосы и файлы.

Подробнее на ту же тему и некоторые тесты: https://stackoverflow.com/a/46843832/2700344

Итак, PPD или не PPD, лучше использовать явный синтаксис ANSI с условием ON и фильтрацией ON, если это возможно, чтобы сделать запрос как можно более простым и избежать непреднамеренного преобразования во INNER JOIN.

28.04.2019
Новые материалы

Коллекции публикаций по глубокому обучению
Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita
Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2
1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -
1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame
Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии
КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..