ツールを使って、『なろう』に投稿した自分の小説を評価してみた件
私が『なろう』に12年ぶりに戻ってから、1ヶ月程経過した。少しずつではあるが、何とか読者様に自分の小説を読んでいただけるようになってきたと勝手に思っている。
そうなると、人間欲が出てくるもので、読みやすく、適切な硬さの作品を作りたいと思うようになってくる。通常、このような作品を作るには、様々な作品を拝読し、意見等を交換することで、自らの技能を向上させていくことが近道だ。
しかし、自分では読みやすいと思って文章を書いても、他の人には読みにくいとの評価を受けることがある。これは、書き手の方であれば、誰しも一度は通る道のはずだ。
それ故、読者の目に入る前に、自分の作品の文章評価が可能であれば、書き手にとっては非常にありがたい。
唐突な話で本当に申し訳ないが、実は私は、現在工学系の職業に就いている。
勿論一口に工学系と言ってもその職種は様々だ。しかし、実はどの工学系の人間も、データの解析・評価方法は概ね同じと言う面白い特徴がある。
ちなみに、ざっくりとしたデータの解析・評価のポイントは下記の2つになる。
まず1つ目であるが、検証データを扱う時は、必ず『比較対象』を設定する必要がある。
例えば、測定によって新しいデータが得られたとしよう。しかしそのデータだけを見せられても、それがどの程度優れたデータなのか分からない。数値が100だ、1000だなどと言われても、それが高いのか低いのか判断できない。即ち、新たに得られたデータ単体では、全く意味をなさないのである。
そこで工学系の人間は、必ず何らかのデータを『比較対象』として設定する。仮に旧データを『比較対象』と設定したとする。旧データが10であり、新データが1000と言う結果が得られた。この場合、少なくとも、新データは旧データと比較し、大幅に値が増加したと言うことは分かる。これが『比較対象』を設定した効果だ。
2つ目は、データの評価には数値を用いると言うところである。
ポイントの1つ目とも関連するが、データの評価は数値でその良し悪しを評価するのが基本だ。意外に思われるかもしれないが、『感覚的に~』とか『経験的に~』と言う論理でデータ評価を進めようとする方も、実は稀にいらっしゃる。しかし、生粋の工学者は数値で語る人が多い。何故なら、数値であれば経験や感覚と言った主観的な要素が混じらず、客観的要素で評価が可能だからだ。
従って、自分が書いた文章を何らかの方法で数値化し、『比較対象』を設定することはできれば、工学的な観点から文章の解析・評価が可能なのではないかと推察される。
つい先日のことであるが、私は『文体診断ロゴーン』と言うサイトを見つけた。これは、文章を打ち込めば、その文章の『読みやすさ』や『硬さ』等をA~Eのランクで評価してくれるサイトだ。ランクAが最も評価が高く、B、C、D、Eの順に評価が下がっていく。後書きにURLを記載させていただいたので、興味のある方はぜひご覧になっていただきたい。
ただ当然のことであるが、このサイトの信憑性や精度は現状不明である。そのため、これ以降の話はあくまで参考程度に留めて欲しい。
さて、それでは本題に入らせていただく。繰り返しになるが、『文体診断ロゴーン』と言うサイトに文章を打ち込めば、A~Eに評価される。そのため、自分が書いた小説の文章をこちらに打ち込めば、その文章の『読みやすさ』や『硬さ』と言った特性が、大まかな数値を用いて評価可能なはずである。
今回私は、自分がこれまでに『なろう』に投稿した代表小説6作品に対し、『文体診断ロゴーン』を用いて簡易的な評価を試みた。今回選出した作品は、『サイコパスの道化師』、『サイコパス学園』、『活動停止。~負け犬達の道化芝居~』、『他人のチョコは秘密の味。』、『いつか君と、空を歩けたら。』、『森のクマさん』になる。いずれの作品も、サンプルとしては名称が長いため、今後はそれぞれを『道化師』、『学園』、『活動停止。』、『チョコ』、『いつか』、『森クマ』と省略させていただく。
続いて『比較対象』を設定する。今回私は、『道化師』を比較対象とした。これを『比較対象』に設定した理由は、以前読者様の感想において、文章の『硬さ』が適切で丁寧との評価を頂戴したためだ。従って、基本的にはこれを基準として、文章の『読みやすさ』と『硬さ』を評価したいと思う。
文章の数値化、及び『比較対象』が設定できたので、早速各作品の評価を試みた。
今回開始500文字と中盤の1000文字を抜き出して、各々の作品を評価している。書き出しは読者様を惹きつける必要があるため、文章の『読みやすさ』や『硬さ』は特に大事であると予想した。中盤の1000文字はちょうど作品の折り返し付近になるため、開始500文字との比較目的として用いた。
評価した結果を下の図に示す。
まず開始500文字に関して検証した。文章の『読みやすさ』評価においては、『森クマ』以外はA~B評価であり、概ね読者様への最初のアプローチが成功していることがうかがえる。『森クマ』の作品のみ、三人称視点、かつ地の文で説明を行うため、文章が読みづらいと判断された可能性がある。
続いて、開始500文字における文章の『硬さ』であるが、各作品で評価のバラツキが見られた。
読者様から文章の『硬さ』が適切との評価を頂戴した『道化師』であるが、開始500文字の文章は『硬め』との評価になった。現段階では、はっきりした理由は分からないが、地の文が多く、会話文が少ないことが要因かもしれない。
一方『学園』は、『硬さ』としては若干軟らかめであるが、適切との評価になっている。本作品は、ライトノベルを目指して作成しているため、この結果は狙い通りと言える。
『活動停止。』においても、同様の結果が見られる。ジャンルとして純文学を目指しているため、全体的に硬めの表現を用いていることに起因し、やや硬めと言う評価になっていると考えられる。
この傾向は『森クマ』にも見られている。この作品は童話であるため、表現を軟らかめにしたことにより、それが評価に反映されたと推察される。
しかし意外にも、恋愛作品である『チョコ』と『いつか』の2作品において、文章が『硬め』という評価を得てしまった。この原因は不明であるが、『道化師』と同じく、地の文が多く、会話文が少ないことが理由の一つと想定している。
開始500文字の評価が終わったため、続いて中盤の1000文字の検証を行った。文章の『読みやすさ』であるが、500文字の結果と比較し、『学園』と『チョコ』の評価が下がってしまった。この原因は不明である。ただし、『森クマ』の『読みやすさ』が向上している点に関しては、中盤に進んだことで会話文が増え、一文が短くなったことに起因すると推察される。
中盤1000文字における文章の『硬さ』に関しても、同様に検証を行った。『道化師』であるが、文章の『硬さ』の評価が適切へと向上した。これは、中盤に進むにつれ、会話文と地の文の割合が増えるため、表現が軟らかくなったことに由来すると考えている。また、開始500文字においては、確かに文章が少し硬いとされていた。しかし、物語のクライマックスは通常中盤以降であるため、読者様は中盤以降の文章を評価してくださった可能性がある。そう考えれば、これは読者様の見解と一致する結果とも言える。
問題は『学園』、『チョコ』、『いつか』の3作品だ。『学園』の評価は両結果間で大きく異なっている。『チョコ』と『いつか』に至っては、開始500文字の時と比較し、評価が軟らかいに反転してしまっている。また、この結果は、文章が硬すぎるだけでなく、軟らか過ぎても『硬さ』評価が下がることを示唆している。
何故このような結果になったのかは分からないが、私があまり文章の『硬さ』を安定して書けていないことを反映していると思われる。ここまで極端に『硬さ』の変動があると、場合によっては読者様を混乱させかねないので、注意が必要かもしれない。
ここまでで、概ねの作品評価は完了した。しかし、これまでの結果では、文章の『読みやすさ』や『硬さ』が、何に起因して変動しているのかが分からない。文章の『読みやすさ』や『硬さ』を制御するためには、それらを制御するであろう変数を探す必要がある。
変数と聞くと、少し難しそうに感じる。だが、実際はそれほど難しいことではない。
例えば、100m走のタイムを何人かで競ったとしよう。そうすると、必ず100m走のタイムに個人差が生じる。動きにくい人はどうしてもタイムが遅くなるし、動きやすい人はタイムが早くなる。即ち、100m走のタイムには、その人の動きにくさ、体重が関与していると予想できる。従って、100m走のタイムを制御する変数の一つである体重を制御すれば、ある程度100m走のタイムが制御できることが期待される。
今回の文章の『読みやすさ』と『硬さ』を制御する変数に関しても、同じように考える。『文章診断ロゴーン』は、A~E評価以外に『平均文長』、『平均句読点間距離』、『特殊語出現率』、『名詞出現率』、『動詞出現率』、『助詞出現率』、『助動詞出現率』、『ひらがな出現率』、『カタカナ出現率』、『異なり形態素比率』と言った変数を算出してくれる。今回この中から、特に影響を与えているであろう変数を抽出することとした。
重要な変数を抽出する方法として、回帰分析と言う方法を使うことにした。この分析手法の詳細な説明は省かせていただくが、興味のある方は統計学の本を手に取って勉強していただきたい。ちなみに私は、この手法をそこまで詳しく分かっていない。
話がそれてしまったが、この分析結果で重要なものは、係数の値である。一般に、この値が大きい変数は、今回で言う文章の『読みやすさ』や『硬さ』と言った特性に大きな影響を与えることが知られている。そのため、この値を用いれば、特に影響を与える変数を抽出することが可能となる。
今回『文体診断ロゴーン』に打ち込んだ12検体を用いて、回帰分析を行った結果を以下の図に示す。
図中の表に示した変数の中で、各特性に影響を与える変数に黄色ハッチ、文章の『読みやすさ』と『硬さ』の両方に影響を与える変数にオレンジハッチを掛けさせていただいた。
この結果を見ると、次のことが分かる。
まず、文章の『読みやすさ』と『硬さ』のどちらに対しても、『平均句読点間隔』、『動詞出現率』、『助詞出現率』、『助動詞出現率』と言った変数が大きな影響を与えることが分かる。同時に、これらの変数が両者ともに関与していることから、文章の『読みやすさ』と『硬さ』の間には、相関があると言うことが示唆される。
『平均句読点間隔』は、文字通り句読点の間隔であると想定される。一文中に全く読点が無い文章は、息継ぎなどもできないため、確かに読みづらくなる。そう思うと、確かに理にかなった結果と言える。
『動詞出現率』、『助詞出現率』、『助動詞出現率』は、文章中の動詞、助詞、助動詞の割合と推定している。漢字ばかり羅列されて、動詞や助詞、助動詞が全く無いと、明らかに読みづらい。確かに、これらも重要な変数であると言えよう。
次に、文章の『硬さ』に関しては、『ひらがな出現率』や『カタカナ出現率』も大きな影響を与える変数であることが分かる。この2つの面白いところは、『ひらがな出現率』と『カタカナ出現率』のそれぞれで符号が異なるところだ。この結果は、文章中のひらがなとカタカナの比率を調整することで、文章の『硬さ』が調整できることを示唆している。
以上を要し、文章の『読みやすさ』と『硬さ』の制御には、句読点間隔の調整と動詞、助詞、助動詞の比率変更が有効であり、『硬さ』のみの制御には、ひらがなとカタカナの比率変更が有効と言うことを今回の結論としたい。
しかし、本件においては検体数が少ないため、今回の結論に対し、異議や助言がある方もいらっしゃると想定している。そのような方は、ぜひ感想欄にご意見を記載していただきたい。
それでは、次作の執筆にとりかかろうと思うので、私はこれにて失礼させていただく――。
文体診断ロゴーンは下記のサイトになります。
http://logoon.org/
※繰り返しになりますが、上記結論に関しては、
明確な根拠がないため、参考程度に留めていただけると幸いです。