『なろう』のPV数に関して真面目に考えてみた件(短編版、前編、初版)
私は今年の1月からTwitterに参加しているが、そこでは様々なことが話題に上がる。
特に最近、私が目にするのはPV数と言うものだ。PV数とは、作品を訪問してくださった読者の皆様方が、どのくらいページをめくってくださったかを示す数値である。それ故、作品の話数が多ければ多い程、比較的PV数は増える傾向がある。ちなみに、短編であればページが1ページしか存在しないため、PV数と訪問者数は等しくなる。
このPV数であるが、書き手にとって、とても重要な意味を持つ。
PV数は上述の通り、読者の皆様がページをめくってくださった数値を示している。従って、PV数が増えると言うことは、訪問してくださった読者様、もしくは読者様がめくってくださったページ数が増えることを意味するため、書き手としては単純に嬉しい。
書き手の方であれば、PV数がどのようにして決まるのかと言うことに興味を持つだろう。少なくとも私は、PV数と言うものにとても興味が沸いた。
唐突な話になってしまい大変申し訳ないが、著者である私は工学屋である。
我々工学屋が課題に直面した際、解決する手段として、品質工学と呼ばれる方法を用いることが多い。詳細に関しては割愛するが、課題解決に向けての流れは決まっている。①『課題の明確化』、②『課題の要因を分析』、③『分析結果から改善手法を検討』、④『課題の制御』という順番で、解決に落とし込む。今回の課題に関しても、同様の手順で解決できるのではないかと考えた。
一般に、書籍化されている小説は、10万文字以上の長編である。それ故、長編である連載作品のPV数を調査することが本来は望ましい。しかし、連載作品のPV数は要因が複雑に絡み合うため、初回の検討としては難易度が高くなることが予想される。従って、本報告では短編作品について考えていきたい。
それではまず、①『課題の明確化』について考える。今回の目的は、『短編におけるPV数を制御する変数の抽出と最適化』としたい。また、PV数に関しては、下記の図に定義を示した。
上記は一日当たりのPV数があり、それらを全て足し合わせることで総PV数になると言う考えである。
課題の明確化と定義が終わったので、続いて②『課題の要因を分析』を行う。繰り返しになるが、今回は短編を取り扱うため、一日当たりのPV数は一日当たりの訪問者数と等しくなる。従って、総PV数は一日当たりの訪問者数と投稿日からの経過日数の積で決まる。
この考えを踏まえた上で、総PV数に関する特性要因図の作成を試みた。特性要因図とは、ある問題に対してその要因を分析した図であり、課題解決の整理に非常に有効な方法である。今回作成した特性要因図を下図に示す。
今回考えているのは、総PV数であるため、総PV数について考えた特性要因図となっている。前述の通り、総PV数は一日当たりの訪問者数と時間の積で決まるため、大項目は一日当たりの訪問者数と時間とした。それぞれの大項目に対して、影響のある変数を抽出し、付随させる形でまとめている。
特性要因図にまとめた通り、一日当たりの訪問者数の変数はとても多いが、時間に関する変数は比較的少ない。従って、総PV数を制御するには、一日当たりの訪問者数の変数が重要になる。訪問者数に影響を与えるアイテムとしては、『あらすじ』、『タグ』、『ブクマ等』、『レビュー数』、『外部宣伝』、『無意識クリック』、『タイトル』、『なろうによるランキング・宣伝』、『小説ジャンル』、『作品の評価』等が考えられたため、それらを記載している。
それらアイテムをより細かく突き詰め、上図に示したような変数で表現した。
小説の『あらすじ』においては、『文字数』、『構成・内容』、『文体表現』がPV数に影響を及ぼすと考えた。『あらすじ』の『文字数』が多い場合、少ない場合と比較して、読者の目を引きやすい。また、当然のことであるが、読者の方々を惹きつけるための『構成・内容』も重要である。更に、『あらすじ』の文章の読みやすさも読者様に与える印象に直結するため、影響度は大きいと考えられる。
『タグ』に関しては、その『数』と流行りの『キーワード数』が影響を与えると想定した。『タグ』の『数』が多い方が目に付きやすくなり、更に『キーワード』が入っている方がより目に付きやすいという考えである。なお、ここで記述する『キーワード』は、『悪役令嬢』や『婚約破棄』等の流行の単語を意味する。
『タイトル』についても同様に推察した。『タイトル』は、『長さ』、『キーワード数』、『主語述語関係』、『末尾』、『。の有無』等が影響を与えると考えた。『長さ』が長い方が作品としては目を引くので、今回影響を与える変数として抽出している。前述の通り、『キーワード数』は流行りの単語を示すので、タイトルに含まれると目を引くはずである。『主語述語関係』、『末尾』、『。の有無』に関しては、PV数に対しての影響度が全く不明であるが、作品の印象に影響があると予想し、今回抽出した。
『レビュー数』や『ブクマ』、『外部宣伝』、『作品の評価』、『なろうによるランキング・宣伝』に関しては、新たに訪問してくださった方もいらっしゃるようなので、今回変数とした。『後書き』が『ブクマ』に影響を及ぼすと言う報告を見たことがあったため、こちらも抽出している。
また、『小説ジャンル』も変数として抽出している。現在『異世界恋愛』等が特に人気なので、PV数は非常に多いという話を良く聞く。そのため、『小説ジャンル』は、抽出した変数の中でも特に影響を与えると考えられる。
ここまで抽出した変数に対し、各々を抽出した理由に関して説明してきた。続いて、これら抽出した変数達に対して、CN分類を行った。CN分類とは、抽出した変数に関して、精密に制御できる変数と制御できない変数を示す。図中に示したCは制御できる変数、Nは制御できない変数を示している。なお、自分達で精密に制御できる変数のことを『制御因子』、制御できない変数のことを『非制御因子』と呼ぶ。
今回『あらすじ』、『後書き』、『タグ』、『タイトル』、『小説ジャンル』関係は、基本的に『制御因子』、それ以外は精密に制御できないため『非制御因子』とした。
特性要因図とCN分類が完了したため、続いてPV数に与える重要な変数の調査を行うこととした。いきなり総PV数についての調査は難航することが予想されるため、まずは一日当たりのPV数について考えたい。
繰り返しになるが、一日当たりのPV数に影響を与える変数として、『あらすじ』、『後書き』、『タグ』、『タイトル』、『小説ジャンル』が考えられる。しかし、これはあくまで仮説であるため、本当に影響を与えるかどうかは、現段階では分からない。そのため、これら変数が本当に影響を与える変数であるかどうかを検証しなければならない。更に言えば、抽出した変数が多過ぎるため、絞り込みも同時に行う必要がある。
抽出した変数の検証と絞り込みのため、回帰分析という手法を用いて確認を行った。回帰分析とは、多数の変数と特性値の関係を調査する統計学的手法の一つである。
今回は各々の変数に関して、交互作用が考えられたため、それを考慮してモデルの作成を行った。ちなみに交互作用とは、所謂相乗効果のことである。
例えば、腕の良いシェフと腕の悪いシェフ、最高の食材と最低の食材があったとしよう。こう考えた場合、最高の食材を使った腕の良いシェフは、最高の食材の良さを十分に引き立たせるであろうから非常に美味な料理を作るだろう。一方腕が悪いシェフが最高の食材を使ったとしても、美味な料理は作れない。そもそものシェフ自身の腕が悪いため、食材の良さを引き出すことができないからである。
そう。これが交互作用だ。それぞれの変数が影響し合うことで、特性値に対して変動をもたらすことを示している。
この考えを踏まえた上で、『なろう』から無作為に作品を抽出し、回帰分析を行った。そのまとめを下の図に示す。
回帰分析によって、PV数と関係があると予想される制御因子をオレンジハッチを掛けた『あらすじの文体表現』、『小説ジャンル、タグ中のキーワード数、タイトル中のキーワード数の積』の2つに絞り込んだ。これらに絞り込んだ根拠は、同じくオレンジハッチで囲んだtとP-値に起因する。P-値は特性値と変数の相関性を示す指標であり、0.05より小さければ、相関があるとされている。また、t値は特性に対する変数の影響度を示す指標であり、絶対値で2より大きければ、影響があるとされている。今回絞り込んだ変数は両方を満たしているため、統計学的な観点から見て重要な変数であると判断した。
今回の分析結果の確からしさとモデルの精度についても考える。
得られたモデルに対して意味のある結果が得られたかどうかは、水色ハッチを掛けた有意Fで評価を行う。この値が0.05より小さければ、意味がある結果が得られたと判断できる。今回の結果は0.05より小さいため、今回のモデルは統計学的に意味のあるものと言える。
次にモデルの精度を確認する。黄色ハッチを掛けた各々の値が、いずれも1に近い程、今回立てたモデルの精度が高いことを意味する。各指標を確認すると、いずれも1よりもはるかに小さいことが分かる。従って、今回のモデルの精度はとても悪いと言うことになった。これは、非制御因子の中にPV数を左右する重要な変数が存在し、その変数が影響を及ぼしているためと推察される。
以上の結果より、モデルの精度は悪いものの、『あらすじの文体表現』、『小説ジャンル』、『タグ中のキーワード数』、『タイトルのキーワード数』が重要な制御因子であることが確認された。また、上記の通り、『小説ジャンル』と『タグ中のキーワード数』と『タイトルのキーワード数』に関しては、各々の積とPV数の間に相関が確認されている。このことから、それぞれは相互作用し合うことでPV数に影響を与える変数であることが示唆された。
ここまでの検討から、『あらすじの文体表現』、『小説ジャンル』、『タグ中のキーワード数』、『タイトルのキーワード数』が重要な制御因子であることを確認した。しかしこれまでの検討では、精度の良いモデルが作成できていないため、PV数を予測できるとは言い難い。
そこで更に、③『分析結果から改善手法を検討』のステップに進むため、タグチメソッドによる各変数の制御を試みた。タグチメソッドは、各変数の最適値を見つけることができる強力な手法であり、工学屋であれば製品設計をする際、ほぼ間違いなく使用する。
本手法の詳細は今回割愛するが、一般には下のような図を作成し、最適化を目指すことになる。興味のある方は専門書を手に取っていただきたい。
この図を用いて、再度『なろう』作品を無作為に抽出し、タグチメソッドを実行した。その結果を下の図に示す。
一般にタグチメソッドを実行すると、SN比と感度に関する情報が入手できる。SN比は非制御因子の影響の受けにくさを示す指標であり、感度はPV数に与える影響の度合いを表す指標を示している。
『あらすじの文体表現』を確認すると、文体表現を変化させた場合でも、SN比には影響していないことが分かる。このことから、『あらすじの文体表現』は非制御因子の影響を受けない変数であることが分かる。また、感度においては極大値を示しており、適切な文体がPV数に対して影響を与えると推察される。ちなみに、今回『あらすじの文体表現』に関する評価は、文体診断ロゴーンを用いて行っている。
『タグ中のキーワード数』においては、キーワード数が2個の場合で、SN比も感度も高くなることが分かった。一方『タイトルに含まれるキーワード数』においては、感度が極大値を持っており、キーワード数が1個の場合に、SN比も感度も高くなることが確認された。
『小説ジャンル』においては、各ジャンルに対してSN比も感度も明らかに反応を示している。SN比も感度も高いのは、『異世界恋愛』のジャンルであり、現在の人気ジャンルとも一致している。
これら分析結果を踏まえると、『適切な文体』、『タイトルに含むキーワードを1個』、『タグに含むキーワードを2個』、『異世界恋愛』の組み合わせを選択することで、最良のPV数になることが予想される。
そこで、今回得られた結果を元に、組み合わせによって得られる感度とSN比を予測し、再度検証を行った。その結果を下の図に示す。
上の図に示した通り、実験値のSN比は予測値より高いが、感度は予測通りとなった。『小説ジャンル』を『コメディー』にした場合の検証も行っているが、SN比は同様に高いものの、感度は予測通りである。
この結果より、『あらすじの文体表現』、『タイトルに含むキーワード数』、『タグに含むキーワード数』、『小説ジャンル』の組み合わせを用いて、一日当たりのPV数がある程度予測できることが明らかとなった。
今回は一日当たりのPV数までの考察を行ったが、想定より文章が長くなってしまったので、一旦ここまでとさせていただきたい。次回は総PV数やモデルの数式化についても考えていきたいと思う。
なお、本報告に関してご意見などあったら、ぜひ感想欄にご意見を入れて欲しい。初版としているので、ご意見を取り入れて改訂をしていきたいと考えている。
自分はこれから別作品の執筆に移らせていただく。それでは――。
文体診断ロゴーンは下記のサイトになります。
http://logoon.org/