Arhn - архитектура программирования

накопление файлов tmp в fs.s3.buffer.dir

Я запускаю кластер EC2 с s3 (файловая система s3://). Здесь, когда я запускаю любой запрос hive или какую-либо команду hadoop, которая работает с очень большими данными, она копирует файлы tmp на локальный диск на узлах до/после их копирования в/из s3. Я знаю, что это можно настроить с помощью свойства fs.s3.buffer.dir. В идеале он должен удалять, и он это делает, но в некоторых случаях он не удаляет эти файлы, что приводит к накоплению большого количества файлов .tmp (в ГБ). что приводит к космическим проблемам.

Можно ли вообще избежать создания файлов .tmp? Или как-нибудь, если мы сможем определить, почему в некоторых случаях он не удаляет эти файлы .tmp и исправляет это?

Подскажите пожалуйста, что может быть лучшим решением в данном случае.


Ответы:


1

Есть несколько вещей, которые вы можете сделать, чтобы помочь.

Лучше всего включить автоматическую очистку каталога /tmp, см. ответ здесь: https://serverfault.com/questions/377348/when-does-tmp-get-cleared

Ссылка https://issues.apache.org/jira/browse/HADOOP-10610 и включите автоматическое использование нескольких каталогов для данных tmp, чтобы решить проблему с большими файлами.

Создайте JIRA для проекта Hadoop, чтобы данные tmp хранились в HDFS, а не в локальной файловой системе.

В настоящее время я также изучаю это и попытаюсь обновить, если смогу найти другой механизм для решения этой проблемы.

30.11.2015
  • Спасибо, Шон, за ваши ценные предложения. Моя проблема не в больших файлах, а в том, что файлы tmp не удаляются после завершения задания (в очень немногих случаях). Использование нескольких каталогов не помогло бы в моем случае. Но да, задание Cron для регулярной очистки может помочь. 02.12.2015
  • Новые материалы

    Коллекции публикаций по глубокому обучению
    Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

    Представляем: Pepita
    Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

    Советы по коду Laravel #2
    1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

    Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
    Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

    3 способа решить квадратное уравнение (3-й мой любимый) -
    1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

    Создание VR-миров с A-Frame
    Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

    Демистификация рекурсии
    КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..