Алгоритм Клини - Kleene's algorithm

В теоретической информатике , в частности в теории формального языка , алгоритм Клини преобразует данный недетерминированный конечный автомат (NFA) в регулярное выражение . Вместе с другими алгоритмами преобразования он устанавливает эквивалентность нескольких форматов описания для обычных языков . Альтернативные представления того же метода включают «метод исключения», приписываемый Бжозовскому и МакКласки , алгоритм Макнотона и Ямады и использование леммы Ардена .

Описание алгоритма

Согласно Гроссу и Йеллен (2004), алгоритм восходит к Клини (1956). Описание алгоритма в случае детерминированных конечных автоматов (ДКА) дано в работе Хопкрофта и Ульмана (1979). Представление алгоритма для NFA ниже следует Gross and Yellen (2004).

Для недетерминированного конечного автомата M = ( Q , Σ, δ, q ₀ , F ) с набором состояний Q = { q ₀ , ..., q _n } алгоритм вычисляет

множества R ^k
_ij всех строк, которые переводят M из состояния q _i в q _j, не проходя через какое-либо состояние с номером выше k .

Здесь «прохождение состояния» означает вход в него и выход из него, поэтому и i, и j могут быть выше k , но никакое промежуточное состояние не может. Каждый набор R ^k
_ij представлен регулярным выражением; алгоритм вычисляет их шаг за шагом для k = -1, 0, ..., n . Поскольку нет состояний с номерами выше n , регулярное выражение R ^п
_0j представляет набор всех строк, которые переводят M из начального состояния q ₀ в q _j . Если F = { q ₁ , ..., q _f } - это набор состояний принятия , регулярное выражение R ^п
₀₁ | ... | р ^п
_0f представляет собой язык , принятый на M .

Исходные регулярные выражения для k = -1 вычисляются для i ≠ j следующим образом :

р ⁻¹
_ij = a ₁ | ... | a _m, где q _j ∈ δ ( q _i , a ₁ ), ..., q _j ∈ δ ( q _i , a _m )

и следующим образом для i = j :

р ⁻¹
_ii = a ₁ | ... | а _м | ε, где q _i ∈ δ ( q _i , a ₁ ), ..., q _i ∈ δ ( q _i , a _m )

Другими словами, R ⁻¹
_ij упоминает все буквы, обозначающие переход от i к j , и мы также включаем ε в случае, когда i = j .

После этого на каждом шаге выражения R ^k
_ij вычисляются из предыдущих

р ^k
_ij = R ^{k -1}
_ik ( R ^{к -1}
_кк ) ^* R ^{к -1}
_кДж | р ^{k -1}
_ij

Другой способ понять работу алгоритма - это «метод исключения», при котором последовательно удаляются состояния от 0 до n : при удалении состояния k регулярное выражение R ^{k -1}
_ij , который описывает слова, обозначающие путь от состояния i > k к состоянию j > k , переписывается в R ^k
_ij чтобы учесть возможность перехода через «исключенное» состояние k .

Индукцией по k можно показать, что длина каждого выражения R ^k
_ij самое большее 1 / 3 (4 ^{k +1} (6 s +7) - 4) символов, где s обозначает количество символов в Σ. Следовательно, длина регулярного выражения, представляющего язык, принятый M , не превышает 1 / 3 (4 ^{n +1} (6 s +7) f - f - 3) символов, где f обозначает количество конечных состояний. Этот экспоненциальный взрыв неизбежен, потому что существуют семейства DFA, для которых любое эквивалентное регулярное выражение должно иметь экспоненциальный размер.

На практике размер регулярного выражения, полученного при запуске алгоритма, может сильно отличаться в зависимости от порядка, в котором состояния рассматриваются процедурой, т. Е. Порядка, в котором они пронумерованы от 0 до n .

пример

Пример DFA для алгоритма Клини

Автомат, изображенный на рисунке, можно описать как M = ( Q , Σ, δ, q ₀ , F ) с

множество состояний Q = { q ₀ , q ₁ , q ₂ },
входной алфавит Σ = { a , b },
функция перехода δ с δ ( q ₀ , a ) = q ₀ , δ ( q ₀ , b ) = q ₁ , δ ( q ₁ , a ) = q ₂ , δ ( q ₁ , b ) = q ₁ , δ ( q ₂ , a ) = q ₁ и δ ( q ₂ , b ) = q ₁ ,
начальное состояние q ₀ , и
набор состояний приема F = { q ₁ }.

Алгоритм Клини вычисляет исходные регулярные выражения как

р ⁻¹ ₀₀	= а \| ε
р ⁻¹ ₀₁	= b
р ⁻¹ ₀₂	= ∅
р ⁻¹ ₁₀	= ∅
р ⁻¹ ₁₁	= b \| ε
р ⁻¹ ₁₂	= а
р ⁻¹ ₂₀	= ∅
р ⁻¹ ₂₁	= а \| б
р ⁻¹ ₂₂	= ε

После этого R ^k
_ij вычисляются из R ^{k -1}
_ij шаг за шагом для k = 0, 1, 2. Равенства алгебры Клини используются для максимального упрощения регулярных выражений.

Шаг 0

р ⁰ ₀₀	= R ⁻¹ ₀₀ ( R ⁻¹ ₀₀ ) ^* R ⁻¹ ₀₀ \| р ⁻¹ ₀₀	= ( а \| ε)	( а \| е) ^*	( а \| е)	\| а \| ε	= а ^*
р ⁰ ₀₁	= R ⁻¹ ₀₀ ( R ⁻¹ ₀₀ ) ^* R ⁻¹ ₀₁ \| р ⁻¹ ₀₁	= ( а \| ε)	( а \| е) ^*	б	\| б	= а ^* б
р ⁰ ₀₂	= R ⁻¹ ₀₀ ( R ⁻¹ ₀₀ ) ^* R ⁻¹ ₀₂ \| р ⁻¹ ₀₂	= ( а \| ε)	( а \| е) ^*	∅	\| ∅	= ∅
р ⁰ ₁₀	= R ⁻¹ ₁₀ ( R ⁻¹ ₀₀ ) ^* R ⁻¹ ₀₀ \| р ⁻¹ ₁₀	= ∅	( а \| е) ^*	( а \| е)	\| ∅	= ∅
р ⁰ ₁₁	= R ⁻¹ ₁₀ ( R ⁻¹ ₀₀ ) ^* R ⁻¹ ₀₁ \| р ⁻¹ ₁₁	= ∅	( а \| е) ^*	б	\| б \| ε	= b \| ε
р ⁰ ₁₂	= R ⁻¹ ₁₀ ( R ⁻¹ ₀₀ ) ^* R ⁻¹ ₀₂ \| р ⁻¹ ₁₂	= ∅	( а \| е) ^*	∅	\| а	= а
р ⁰ ₂₀	= R ⁻¹ ₂₀ ( R ⁻¹ ₀₀ ) ^* R ⁻¹ ₀₀ \| р ⁻¹ ₂₀	= ∅	( а \| е) ^*	( а \| е)	\| ∅	= ∅
р ⁰ ₂₁	= R ⁻¹ ₂₀ ( R ⁻¹ ₀₀ ) ^* R ⁻¹ ₀₁ \| р ⁻¹ ₂₁	= ∅	( а \| е) ^*	б	\| а \| б	= а \| б
р ⁰ ₂₂	= R ⁻¹ ₂₀ ( R ⁻¹ ₀₀ ) ^* R ⁻¹ ₀₂ \| р ⁻¹ ₂₂	= ∅	( а \| е) ^*	∅	\| ε	= ε

Шаг 1

р ¹ ₀₀	= R ⁰ ₀₁ ( R ⁰ ₁₁ ) ^* R ⁰ ₁₀ \| р ⁰ ₀₀	= а ^* б	( b \| ε) ^*	∅	\| а ^*	= а ^*
р ¹ ₀₁	= R ⁰ ₀₁ ( R ⁰ ₁₁ ) ^* R ⁰ ₁₁ \| р ⁰ ₀₁	= а ^* б	( b \| ε) ^*	( b \| ε)	\| а ^* б	= а ^* б ^* б
р ¹ ₀₂	= R ⁰ ₀₁ ( R ⁰ ₁₁ ) ^* R ⁰ ₁₂ \| р ⁰ ₀₂	= а ^* б	( b \| ε) ^*	а	\| ∅	= а ^* б ^* ба
р ¹ ₁₀	= R ⁰ ₁₁ ( R ⁰ ₁₁ ) ^* R ⁰ ₁₀ \| р ⁰ ₁₀	= ( Ь \| ε)	( b \| ε) ^*	∅	\| ∅	= ∅
р ¹ ₁₁	= R ⁰ ₁₁ ( R ⁰ ₁₁ ) ^* R ⁰ ₁₁ \| р ⁰ ₁₁	= ( Ь \| ε)	( b \| ε) ^*	( b \| ε)	\| б \| ε	= Ь ^*
р ¹ ₁₂	= R ⁰ ₁₁ ( R ⁰ ₁₁ ) ^* R ⁰ ₁₂ \| р ⁰ ₁₂	= ( Ь \| ε)	( b \| ε) ^*	а	\| а	= б ^* а
р ¹ ₂₀	= R ⁰ ₂₁ ( R ⁰ ₁₁ ) ^* R ⁰ ₁₀ \| р ⁰ ₂₀	= ( а \| б )	( b \| ε) ^*	∅	\| ∅	= ∅
р ¹ ₂₁	= R ⁰ ₂₁ ( R ⁰ ₁₁ ) ^* R ⁰ ₁₁ \| р ⁰ ₂₁	= ( а \| б )	( b \| ε) ^*	( b \| ε)	\| а \| б	= ( а \| б ) Ь ^*
р ¹ ₂₂	= R ⁰ ₂₁ ( R ⁰ ₁₁ ) ^* R ⁰ ₁₂ \| р ⁰ ₂₂	= ( а \| б )	( b \| ε) ^*	а	\| ε	= ( a \| b ) b ^* a \| ε

Шаг 2

р ² ₀₀	= R ¹ ₀₂ ( R ¹ ₂₂ ) ^* R ¹ ₂₀ \| р ¹ ₀₀	= а ^* б ^* ба	(( a \| b ) b ^* a \| ε) ^*	∅	\| а ^*	= а ^*
р ² ₀₁	= R ¹ ₀₂ ( R ¹ ₂₂ ) ^* R ¹ ₂₁ \| р ¹ ₀₁	= а ^* б ^* ба	(( a \| b ) b ^* a \| ε) ^*	( а \| б ) б ^*	\| а ^* б ^* б	= a ^* b ( a ( a \| b ) \| b ) ^*
р ² ₀₂	= R ¹ ₀₂ ( R ¹ ₂₂ ) ^* R ¹ ₂₂ \| р ¹ ₀₂	= а ^* б ^* ба	(( a \| b ) b ^* a \| ε) ^*	(( a \| b ) b ^* a \| ε)	\| а ^* б ^* ба	= a ^* b ^* b ( a ( a \| b ) b ^* ) ^* a
р ² ₁₀	= R ¹ ₁₂ ( R ¹ ₂₂ ) ^* R ¹ ₂₀ \| р ¹ ₁₀	= б ^* а	(( a \| b ) b ^* a \| ε) ^*	∅	\| ∅	= ∅
р ² ₁₁	= R ¹ ₁₂ ( R ¹ ₂₂ ) ^* R ¹ ₂₁ \| р ¹ ₁₁	= б ^* а	(( a \| b ) b ^* a \| ε) ^*	( а \| б ) б ^*	\| б ^*	= ( а ( а \| б ) \| б ) ^*
р ² ₁₂	= R ¹ ₁₂ ( R ¹ ₂₂ ) ^* R ¹ ₂₂ \| р ¹ ₁₂	= б ^* а	(( a \| b ) b ^* a \| ε) ^*	(( a \| b ) b ^* a \| ε)	\| б ^* а	= ( а ( а \| б ) \| б ) ^* а
р ² ₂₀	= R ¹ ₂₂ ( R ¹ ₂₂ ) ^* R ¹ ₂₀ \| р ¹ ₂₀	= (( a \| b ) b ^* a \| ε)	(( a \| b ) b ^* a \| ε) ^*	∅	\| ∅	= ∅
р ² ₂₁	= R ¹ ₂₂ ( R ¹ ₂₂ ) ^* R ¹ ₂₁ \| р ¹ ₂₁	= (( a \| b ) b ^* a \| ε)	(( a \| b ) b ^* a \| ε) ^*	( а \| б ) б ^*	\| ( а \| б ) б ^*	= ( a \| b ) ( a ( a \| b ) \| b ) ^*
р ² ₂₂	= R ¹ ₂₂ ( R ¹ ₂₂ ) ^* R ¹ ₂₂ \| р ¹ ₂₂	= (( a \| b ) b ^* a \| ε)	(( a \| b ) b ^* a \| ε) ^*	(( a \| b ) b ^* a \| ε)	\| ( a \| b ) b ^* a \| ε	= (( a \| b ) b ^* a ) ^*

Поскольку q ₀ - начальное состояние, а q ₁ - единственное принимаемое состояние, регулярное выражение R ²
₀₁ обозначает набор всех строк, принимаемых автоматом.

Смотрите также

Алгоритм Флойда – Уоршалла - алгоритм на взвешенных графах, который может быть реализован алгоритмом Клини с использованием определенной алгебры Клини.
Проблема высоты звезды - какова минимальная глубина вложенности звезд для всех регулярных выражений, соответствующих заданному DFA?
Обобщенная проблема высоты звезды - если в регулярных выражениях дополнительно разрешен оператор дополнения, может ли глубина вложенности звезд в выходных данных алгоритма Клини быть ограничена фиксированной границей?
Алгоритм построения Томпсона - преобразует регулярное выражение в конечный автомат

р ² ₀₀	= R ¹ ₀₂ ( R ¹ ₂₂ ) ^* R ¹ ₂₀ \| р ¹ ₀₀	= а ^* б ^* ба	(( a \| b ) b ^* a \| ε) ^*	∅	\| а ^*	= а ^*
р ² ₀₁	= R ¹ ₀₂ ( R ¹ ₂₂ ) ^* R ¹ ₂₁ \| р ¹ ₀₁	= а ^* б ^* ба	(( a \| b ) b ^* a \| ε) ^*	( а \| б ) б ^*	\| а ^* б ^* б	= a ^* b ( a ( a \| b ) \| b ) ^*
р ² ₀₂	= R ¹ ₀₂ ( R ¹ ₂₂ ) ^* R ¹ ₂₂ \| р ¹ ₀₂	= а ^* б ^* ба	(( a \| b ) b ^* a \| ε) ^*	(( a \| b ) b ^* a \| ε)	\| а ^* б ^* ба	= a ^* b ^* b ( a ( a \| b ) b ^* ) ^* a
р ² ₁₀	= R ¹ ₁₂ ( R ¹ ₂₂ ) ^* R ¹ ₂₀ \| р ¹ ₁₀	= б ^* а	(( a \| b ) b ^* a \| ε) ^*	∅	\| ∅	= ∅
р ² ₁₁	= R ¹ ₁₂ ( R ¹ ₂₂ ) ^* R ¹ ₂₁ \| р ¹ ₁₁	= б ^* а	(( a \| b ) b ^* a \| ε) ^*	( а \| б ) б ^*	\| б ^*	= ( а ( а \| б ) \| б ) ^*
р ² ₁₂	= R ¹ ₁₂ ( R ¹ ₂₂ ) ^* R ¹ ₂₂ \| р ¹ ₁₂	= б ^* а	(( a \| b ) b ^* a \| ε) ^*	(( a \| b ) b ^* a \| ε)	\| б ^* а	= ( а ( а \| б ) \| б ) ^* а
р ² ₂₀	= R ¹ ₂₂ ( R ¹ ₂₂ ) ^* R ¹ ₂₀ \| р ¹ ₂₀	= (( a \| b ) b ^* a \| ε)	(( a \| b ) b ^* a \| ε) ^*	∅	\| ∅	= ∅
р ² ₂₁	= R ¹ ₂₂ ( R ¹ ₂₂ ) ^* R ¹ ₂₁ \| р ¹ ₂₁	= (( a \| b ) b ^* a \| ε)	(( a \| b ) b ^* a \| ε) ^*	( а \| б ) б ^*	\| ( а \| б ) б ^*	= ( a \| b ) ( a ( a \| b ) \| b ) ^*
р ² ₂₂	= R ¹ ₂₂ ( R ¹ ₂₂ ) ^* R ¹ ₂₂ \| р ¹ ₂₂	= (( a \| b ) b ^* a \| ε)	(( a \| b ) b ^* a \| ε) ^*	(( a \| b ) b ^* a \| ε)	\| ( a \| b ) b ^* a \| ε	= (( a \| b ) b ^* a ) ^*

Languages

In other projects

Алгоритм Клини - Kleene's algorithm

Содержание

Описание алгоритма

пример

Смотрите также

Рекомендации