いろはちゃんコンテスト Day2 H - 根室の巫女
お題箱より。
解法
Morris-Pratt法について
まず、公式解説(?)にも書いてあるMorris-Pratt法(MP)について触れておきます。私も実戦で使ったことはないのですが…ある長さ の文字列 があったときに、全ての に対して以下の値を求めた数列 を求めるアルゴリズムです。
- の先頭 文字だけからなる文字列を とする。 未満の整数 であって、「 の先頭 文字と末尾 文字が一致する。」という条件を満たす の最大値を とする。
としてしまうと先頭 文字と末尾 文字は当然一致してしまうので、それ以外で最大のものを求めることに注意してください。
この数列は文字列検索を高速に行う際などに使うようです。丁寧な解説と具体的な実装は以下のブログ記事が分かりやすいです。
※今回の「Morris-Pratt法とは何か」という説明は、上記記事に準じて書いています。Morris-Pratt法で調べると「上記の数列を活用して文字列検索を行うこと」をMorris-Pratt法と呼んでいたり、色々違ったことが書いていて私もよく分かりません…。
さて、上記の数列の定義はそのまま今回の問題で与えられる の定義になっています。文字列から数列を求めるMP法とは逆に、この問題ではこのような数列を満たす元の文字列(数列ですが)を構成することになります。
解き方について
さて解き方ですが…公式解説(?)はよく分からないので、私が解いた(コンテスト後にTwitterで見た)解法ベースで書きたいと思います。
以降、数列 を単に 、数列 を単に と表記します。
最初にこの解法の大まかな流れを書いておきます。
- として与えられた条件を満たすような解 が存在すると仮定し、その必要条件を用いて数列 を構成する。
- 構成した数列 に対してMorris-Pratt法を適用し、本当に条件を満たしているかを判定する。
必要条件を考える
まず条件を満たすような解 が存在すると仮定して、 が満たすべき必要条件を考えます。具体的には の「最大の」という条件を考えないことにすると、以下の必要条件が得られます。
- の先頭 要素だけからなる配列を とする。 の先頭 要素と末尾 要素は一致する。
これを元に、「同じ値である必要がある要素」をまとめていくことを考えましょう。例えば各インデックスを頂点とみなして、Union-Findを用いて以下のように辺を張れば、どの要素の値が同じ必要があるかを管理できます。
ただしこの辺は合計で 本あり、全て処理していると計算が間に合いません。
繋ぐべき辺を削減する
繋ぐ辺を削減しましょう。実は、「各 に対して、上記の両文字列の末尾だけを繋ぐ」という処理だけで、結果的にこれら全てのペアが同じ連結成分に属してくれることを示すことができます。その理由を説明します。
端的に言うと、「末尾以外のところは他のインデックスが繋いでくれる」というのが理由になっています。例えば1つ前のインデックス について考えると、これがちゃんとインデックス と連結になって欲しいです。
ここで少なくとも以下の図の赤いところについては値が一致していることから、必ず が成立します。
これがもし だった場合は簡単で、インデックス に対して「末尾同士を繋ぐ」という処理をしたときにインデックス と繋がれます。
もし だった場合、直接繋がれることはありません。ですがこの場合、以下の図のようになっているはずです。
図中の赤いところは全て一致しているので、そのインデックスを辿っていくことで必ず 文字目に辿り着きます。つまりこれらの辺を張っていくことで同じ連結成分に属するようにできます。
このように考えると、「各インデックスに対して一致してほしい部分数列の末尾同士を繋ぐ」という操作を全てのインデックスにすることで、末尾以外についても一致してほしいところは最終的に同じ連結成分に属してくれることが分かります。
数字を割り当てる
…というわけで、必要条件から「一致してほしいインデックス」が連結成分として求められました。これらに対して適当に数字を割り振っていきましょう。
このとき、違う連結成分なのに同じ数を割り当てることにメリットはありません。何故なら先ほどの必要条件は について「最大の」という条件を考えないようにしたものであり、より長い長さで の先頭と末尾が一致してしまうとアウトです。つまり「これ以上はなるべく一致してほしくない」わけです。それなら違う連結成分には違う数字を割り当てるほうが良いですね。
Moris-Pratt法で検証する
これで解の「候補」ができました。これまで見てきたように、作ってきた数列は必要条件を満たし、かつ十分性を最も満たしやすいように作ったものです。
これをMoris-Pratt法で検証し、得られた数列が と一致していればそれが答えです。一致しなかった場合は解がないと判定して良いです。