Arhn - архитектура программирования

RegEx медленно, когда не совпадает

Этот запрос регулярного выражения выполняется нормально, когда я не вставляю какой-либо знак, который не находится в [,.] перед словом «здесь»:

RegEx.Replace("My products or something / else here ", "My ((?:[a-z']* ??)*?)\s*([,.]|$| here)", "")

Но это будет очень-очень медленно (остановится примерно на 3-5 секунд или больше), если я вставлю знак, который не находится в [,.] перед словом «здесь». Например, я вставляю знак «/» перед словом «здесь»:

RegEx.Replace("My products or something / else here ", "My ((?:[a-z']* ??)*?)\s*([,.]|$| here)", "")

Проблема исчезла, когда я добавил / к моему шаблону [,.]:

RegEx.Replace("My products or something / else here ", "My ((?:[a-z']* ??)*?)\s*([/,.]|$| here)", "")

Но я хочу, чтобы мое регулярное выражение игнорировало знак / вместо того, чтобы сопоставлять знак / в конце моего предложения. Почему возникает эта проблема и как ее решить?

22.09.2013

Ответы:


1

Вы стали жертвой катастрофического возврата. Эта часть:

(?:[a-z']* ??)*?

может соответствовать словам в экспоненциальном количестве возможных комбинаций. Поскольку пробел необязателен, во всех этих вариантах может быть сопоставлено только слово else (где скобки указывают, что соответствует одному «экземпляру» внутренней группы):

(else)
(els)(e)
(el)(se)
(el)(s)(e)
(e)(lse)
(e)(l)(se)
(e)(ls)(e)
(e)(l)(s)(e)

И это взрывается для более длинных слов, и особенно для всего предложения. Обычно проблема возникает всякий раз, когда у вас есть вложенные повторения, и неясно, где заканчивается одно повторение и начинается другое. Затем, если совпадений нет, движку необходимо пройти через все эти случаи, прежде чем он сможет объявить об отказе. Если есть совпадение, поиск с возвратом обычно не требуется, и проблема остается незамеченной. Лучшее решение — использовать " "развертывание цикла", чтобы сделать пробел в повторении обязательным:

"My ([a-z']*(?: [a-z']*)*?)\s*([,.]|$| here)"

Теперь, когда пробел является обязательным, каждый «экземпляр» повторяющегося должен соответствовать целому слову, что должно решить проблему.

22.09.2013
Новые материалы

Коллекции публикаций по глубокому обучению
Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita
Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2
1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -
1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame
Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии
КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..