Arhn - архитектура программирования

Объект документа Lucene дублирует его неизмененные поля

Я работаю над lucene около года и внезапно сегодня я обнаружил в нем что-то странное.

Я обновлял свою индексацию, используя обычный механизм lucene: извлекал документ и удалял старый, а затем переиндексировал документ. Итак: 1. Получил документ для обновления из индекса lucene и сохранил этот документ в списке 2. Удалил документ из индекса. 3. Используя документ из списка, обновили некоторые из его полей, а затем повторно проиндексировали этот документ.

Но когда я обнаружил, что этот обновленный документ, который был проиндексирован, имел повторяющиеся значения для исходного поля документа.

Например, предположим, что существует поле id: 1, и я не обновлял это поле и не обновлял другое содержимое документа, а затем индексировал этот документ. Я обнаружил, что этот id: 1 встречается два раза в одном и том же документе. И даже больше, если я переиндексирую один и тот же документ, одно и то же поле будет создаваться много раз в одном документе.

Как мне избавиться от этого дублирования?

17.01.2014

Ответы:


1

Мне нужно внести некоторые изменения в документ, который был переиндексирован. Означает, что документ, который я извлек из проиндексированного, с помощью этого я вынул все поля, а затем создал новый свежий документ и добавил это поле в этот документ, а затем повторно проиндексировал этот новый документ, который был проиндексирован правильно без какого-либо дублирования. Не удалось найти причину, но документ, полученный из индекса, имел docId, и из-за этого при внутреннем повторном индексировании могло иметь место некоторое дублирование, которое должно было вызвать проблему.

23.01.2014
Новые материалы

Коллекции публикаций по глубокому обучению
Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita
Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2
1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -
1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame
Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии
КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..