Arhn - архитектура программирования

Есть ли ограничение на количество текста, которое я бросаю в Lucene.NET?

Я собираюсь использовать Lucene.NET после прочтения некоторых плохих отзывов о полнотекстовой обработке SQL Server.

Следует ли мне быть осторожным с тем, сколько данных я передаю Lucene.NET для индексации?

Кроме того, чтобы избежать дополнительных обращений к базе данных, как лучше всего хранить данные в индексе, такие как идентификатор записи, заголовок и т. Д.?

РЕДАКТИРОВАТЬ: это также объясняет сколько данных может обрабатывать lucene.


  • Сколько данных мы говорим? 20.03.2012
  • Где-то в районе от 500 до 1000 слов на запись, не включая заголовок и точность. 20.03.2012

Ответы:


1

В наши дни нередки веб-сайты, управляемые поиском, где поисковый индекс действует как база данных репозитория / документа и обслуживает данные не только при поиске, но и для создания навигации и / или фасетов. Lucene хорошо подходит для этой цели, Solr даже лучше. Используйте данные базы данных SQL в качестве основных данных и заполняйте / перестраивайте индекс с частотой, которая вам подходит.

Чем больше индекс, тем медленнее будут запросы, но Lucene может многое проглотить, прежде чем будет обременена размером индекса.

Индекс должен состоять из всех доступных для поиска данных. Если вы индексируете людей, это могут быть их имя и адрес электронной почты. Вы можете вообще не касаться базы данных, если вы также включите в индекс все свойства, из которых состоит сущность People, даже если они не должны быть доступны для поиска. Другой подход состоял бы в том, чтобы включить имя, адрес электронной почты и peopleID и ничего больше, а также запросить базу данных по идентификатору, чтобы получить сущность People.

20.03.2012
  • Итак, какой контент вы бы поместили в основную базу данных, а что в индекс Lucene? Спасибо за быстрый ответ. 20.03.2012
  • Отредактировано, чтобы ответить на ваш вопрос. 20.03.2012
  • Спасибо, Маркус, это то, что я надеялся услышать. 20.03.2012
  • Должен ли я гарантировать, что доступный для поиска контент находится в базе данных, а также в индексе, даже если я могу легко получить контент из индекса? Спасибо 21.03.2012
  • Если вы индексируете что-то, кроме данных в базе данных, тогда нет, не обязательно. 21.03.2012
  • Новые материалы

    Коллекции публикаций по глубокому обучению
    Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

    Представляем: Pepita
    Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

    Советы по коду Laravel #2
    1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

    Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
    Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

    3 способа решить квадратное уравнение (3-й мой любимый) -
    1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

    Создание VR-миров с A-Frame
    Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

    Демистификация рекурсии
    КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..