Arhn - архитектура программирования

Является ли это подходящим (или возможным) использованием HBase?

Я хочу использовать HBase в качестве хранилища, куда я могу добавить несколько миллионов записей в формате {document => {term => weight}}, например. «Вставьте термин X в документ Y с весом Z», а затем введите команду, например «Выберите 1000 лучших терминов для этого документа» или «Выберите 1000 лучших терминов для каждого документа». Это работает в моей текущей реализации MySQL, но, возможно, домен больше подходит для HBase. Отмечу, что HBase и BigTable используются для полнотекстового индексирования, что является похожей проблемной областью.

Вы можете сказать, что я не сделал больше, чем прочитал несколько страниц на HBase, но я надеюсь, что вы понимаете суть моего вопроса. Это связано с этим вопросом.

Среди возможных барьеров может быть HBase, не разрешающий запросы с эквивалентом предложения LIMIT. Учитывая, что я хочу запрашивать по весу, я хотел бы связать {weight => term}, что было бы проблематично для двух терминов с одинаковым весом (я предполагаю, что HBase допускает только уникальные ключи). В качестве альтернативы мне пришлось бы хранить набор терминов для заданного веса, но это ограничило бы мою способность точно ограничивать количество возвращаемых терминов.

05.11.2009

Ответы:


1

Простой ответ да.

Более сложный ответ: прямо сейчас сегодня каждое из этих хранилищ данных «без sql» реализует свой собственный интерфейс программиста, и, поскольку «без sql» подразумевает, что они не основаны на SQL. Так что будьте готовы к некоторому кодированию, хотя это не сложно. В основном эти хранилища данных представляют собой просто хранилища пар «имя-значение», доступ к которым осуществляется через REST или SOAP (в HBase также есть концепция семейств столбцов). Тем не менее, они подходят для Map Reduce, очень интересной области запроса, и ее стоит прочитать.

05.11.2009
Новые материалы

Коллекции публикаций по глубокому обучению
Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita
Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2
1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -
1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame
Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии
КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..