У меня есть текстовый файл, содержащий сообщения на английском/итальянском языках. Я хотел бы прочитать сообщения в матрице данных, чтобы каждая строка представляла сообщение, а каждый столбец - слово. Ячейки в матрице — это подсчет того, сколько раз каждое слово появляется в сообщении. Словарь должен состоять из всех слов всего файла или неполного англо-итальянского словаря.
Я знаю, что это общий важный шаг предварительной обработки для НЛП. И я знаю, что кодировать его довольно тривиально, но я хотел бы использовать какой-нибудь инструмент, специфичный для предметной области NLP, чтобы обрезать стоп-слова и т. Д.
Кто-нибудь знает об инструменте\проекте, который может выполнить эту задачу?
Кто-то упомянул apache lucene, знаете ли вы, можно ли сериализовать индекс lucene в структуру данных, аналогичную моим потребностям?