はじめに
このテキストが投稿されている「小説家になろう」にはHTMLのruby要素を使ったルビを使用できる。また、そのための記法も用意されている。
ルビ記法についてはマニュアルの「ルビを振る」に記載されている。
参照:https://syosetu.com/man/ruby/
このマニュアルだが、気になる箇所がある。
> また、ルビを振る文字が漢字であり、ルビがひらがなもしくはカタカナである場合、ルビを《 》ではなく()内に入力するだけで、ルビとして表示されます。
つまり本来は
|漢字《かんじ》
と入力する必要があっても、漢字に対してひらがなやカタカナでは
漢字(かんじ)
と入力すればよいのだ。
私個人としては使いにくい機能だと感じるが、そこは重要ではない。
このマニュアルにおける「漢字」とはどこからどこまでなのか。小説家になろう記法の漢字用正規表現が公開されていればよいのだが、そうではなさそうだ。
ルビを調査しているユーザーは存在したが、そのものを私は見つけられなかった。
それならば力技で調査するしかないと判断し、このUnicodeで漢字として扱われている文字を総当りで調査することにした。
丁(あ)
のような文字列を作って投稿する。
漢字ならば次のように表示されるはずだ。
丁
これでルビが振られなければ、その文字は小説家になろうにおいて漢字として扱われていないことがわかる。
次回以降で調査用テキストを投稿する。
私の予想では、よくある
[一-龠]
の正規表現を用いているのではないかと思う。
それとしても、例外的に追加されている文字があるかもしれないので調査しておくべきだろう。