Я запускаю кластер EC2 с s3 (файловая система s3://). Здесь, когда я запускаю любой запрос hive или какую-либо команду hadoop, которая работает с очень большими данными, она копирует файлы tmp на локальный диск на узлах до/после их копирования в/из s3. Я знаю, что это можно настроить с помощью свойства fs.s3.buffer.dir. В идеале он должен удалять, и он это делает, но в некоторых случаях он не удаляет эти файлы, что приводит к накоплению большого количества файлов .tmp (в ГБ). что приводит к космическим проблемам.
Можно ли вообще избежать создания файлов .tmp? Или как-нибудь, если мы сможем определить, почему в некоторых случаях он не удаляет эти файлы .tmp и исправляет это?
Подскажите пожалуйста, что может быть лучшим решением в данном случае.