'22 Rue Morgue', '33 Rue St. Denis',
'44 Rue Zeeday', '55 Santa Monica Blvd.',
'123 Main St., Apt. 234', '123 Main St., #234',
'345 Euneva Avenue, Suite 23', '678 Euneva Ave, Suite A']
Здесь каждый адрес состоит из трех частей: номер дома, название улицы и необязательный номер квартиры. Я предполагаю, что перед числом может быть необязательная строка No.
, а точку в ней можно опускать. Еще предположим, что название улицы может включать символы, обычно входящие в состав слова, а также апостроф, дефис и точку. Наконец, если адрес содержит необязательный номер квартиры, то ему должны предшествовать запятая и одна из строк Apt.
, Suit
e или #
(знак номера).
Вот какое регулярное выражение я составил для разбора адреса. Обратите внимание, насколько подробно оно прокомментировано (может быть, даже излишне подробно):
regex = / ^ # Начало строки.
((No.?)s+)? # Необязательно: No[.]
d+ s+ # Цифры и пробелы.
((w|[.'-])+ # Название улицы... может
s* # состоять из нескольких слов.
)+
(,s* # Необязательно: запятая и т.д.
(Apt.?|Suite|#) # Apt[.], Suite, #
s+ # Пробелы.
(d+|[A-Z]) # Цифры или одна буква.
)?
$ # Конец строки.
/x
Идея понятна. Когда сложность регулярного выражения достигает некоего порога (какого именно — дело вкуса), делайте его обобщенным, чтобы можно было добавить форматирование и комментарии.
Возможно, вы заметили, что я пользовался обычными комментариями Ruby (# ...
), а не специальными, применяемыми в регулярных выражениях ((?#...)
). Почему? Просто потому, что это разрешено! Специальный комментарий необходим только тогда, когда его следует закончить раньше конца строки (например, если в той же строке за комментарием продолжается регулярное выражение).
3.10. Сопоставление точки символу конца строки
Обычно точка соответствует любому символу, кроме конца строки. Если задан модификатор многострочности m, точка будет сопоставляться и с этим символом. Другой способ — задать флаг Regexp::MULTILINE
при создании регулярного выражения:
str = 'Rubies are red
And violets are blue.
'
pat1 = /red./
pat2 = /red./m
str =~ pat1 # nil
str =~ pat2 # 11
Этот режим не оказывает влияния на то, где устанавливается соответствие якорям (^
, $
, A
, ). Изменяется только способ сопоставления с точкой.
3.11. Внутренние модификаторы
Обычно модификаторы (например, i
или m
) задаются после регулярного выражения. Но что если мы хотим применить модификатор только к части выражения?
Существует специальная нотация для включения и выключения модификаторов. Заключенный в круглые скобки вопросительный знак, за которым следует один или несколько модификаторов, «включает» их до конца регулярного выражения. А если некоторым модификаторам предшествует минус, то соответствующие режимы «выключаются»:
/abc(?i)def/ # Соответствует abcdef, abcDEF, abcDef,
# но не ABCdef.
/ab(?i)cd(?-i)ef/# Соответствует abcdef, abCDef, abcDef, ...,
# но не ABcdef или abcdEF.
/(?imx).*/ # To же, что /.*/imx
/abc(?i-m).*/m # Для последней части регулярного выражения включить
# распознавание регистра, выключить многострочный
# режим.
При желании можно поставить перед подвыражением двоеточие, и тогда заданные модификаторы будут действовать только для этого подвыражения:
/ab(?i:cd)ef/ # То же, что /ab(?i)cd(?-i)ef/
По техническим причинам использовать таким образом модификатор о
нельзя. Модификатор x
— можно, но я не знаю, кому бы это могло понадобиться.
3.12. Внутренние подвыражения
Для указания подвыражений применяется нотация ?>
:
re = /(?>abc)(?>def)/ # То же, что /abcdef/
re.match('abcdef').to_a # ['abcdef']
Отметим, что наличие подвыражения еще не означает группировки. С помощью дополнительных скобок их, конечно, можно превратить в запоминаемые группы.
Еще обратим внимание на то, что эта конструкция собственническая, то есть жадная и при этом не допускает возврата в подвыражение.
str = 'abccccdef'
re1 = /(abc*)cdef/
re2 = /(?>abc*)cdef/
re1 =~ str # 0
re2 =~ str # nil
re1.match(str).to_a # ['abccccdef', 'abccc']
re2.match(str).to_a # []
В предыдущем примере подвыражение abc*
выражения re2
поглощает все вхождения буквы с
и (в соответствии с собственническим инстинктом) не отдает их назад, препятствуя возврату.
3.13. Ruby и Oniguruma