1. ここで扱うデータについて
まずはこのエッセイで扱うデータについて大雑把に説明します。
『小説家になろう』の小説データは『小説を読もう』のサイトの検索機能で提供されているものです。普段読者はなろう小説を読みたい時にこの検索機能を使用するのは一般的でしょう。
>> https://yomou.syosetu.com/search.php/
『小説を読もう』は一般の読者には便利ですが、大量の小説データをプログラミングとかで一気取得して分析したい場合は『なろうAPI』を使うのが便利です。
>> https://api.syosetu.com/novelapi/api/
使い方の説明はここに書いてあるので、ここでは詳しく説明しません。
>> https://dev.syosetu.com/man/api/
実はこのAPIの使い方は『小説を読もう』の検索機能とよく似ています。例えば『ブックマーク登録の多いTS作品』を検索したい場合、『小説を読もう』こんなURLになるでしょう。
>> https://yomou.syosetu.com/search.php?word=TS&order=favnovelcnt
図1.1
『なろうAPI』を使う場合、ただ『https://api.syosetu.com/novelapi/api/』を『https://dev.syosetu.com/man/api/』に書き換えればいいです。
>> https://api.syosetu.com/novelapi/api/?word=TS&order=favnovelcnt
出てくるデータはほとんど検索機能と同じですが、Javascript, PHP, Ruby, Python, Perlなどのプログラミング言語でコードを書いてこのURLからデータを入手して分析することができます。
このエッセイではこのなろうAPIからデータを取得して、そのデータをグラフなどで可視化したり分析したりしていきます。
以前このAPIを使って小説データを色々分析してここでエッセイを書いて投稿した人もいるので、ここでもちょっと紹介しておきます。おすすめはこれらです。
小説家になろうを知ろう(夕月 悠里、2018年)
>> https://ncode.syosetu.com/n3630fb/
小説家になろうをデータ分析してみた(佐々木尽左、2020年)
>> https://ncode.syosetu.com/n4996gb/
なろう感想件数の考察(軽石、2019年)
>> https://ncode.syosetu.com/n3976fs/
アクセス数と日時の関係(真咲 タキ、2019年)
>> https://ncode.syosetu.com/n3994eq/
ブックマーク獲得条件の考察(中村にこ、2018年)
>> https://ncode.syosetu.com/n2628fr/
異世界ものの考察(音寝 あきら、2016年)
>> https://ncode.syosetu.com/n3526dd/
グラフで分かる人気・不人気キーワード(軽石、2019年)
>> https://ncode.syosetu.com/n4440fk/
今回私も似ているようなことをやってみます。ただし主な対象はTS作品となります。
小説データに踏み込む前に、まずはここで扱う『TS作品』の定義について説明して理解させておかなければならないと思います。
TS作品を探す時に、普通は『TS』か『性転換』で検索すれば結果は最もたくさん出ますね。
実際にジャンルとしての呼び方は『TSF』ですが、普通は単なる『TS』って書いたものの方が多い。『TSF』を書いてあるものが少ないが、『TSF』だけ書いて『TS』と書かない場合もあるので、『TSF』というキーワードも検索します。
『女体化』と『男体化』もほとんどTSものです。もちろん全然TSじゃない意味の『女体化』もあるかもしれませんが、このサイトでの『女体化』はほとんどTSものなので、違うものは少ししか出てこないはずだからとりあえず大目に見てもいいと思います。
それと、ほんの少数ですが、『転性』っていう言葉が使われる作品もあります。(注意:『転生』ではなく『転性』です)
ということで、ここで扱う作品は『TS』と『TSF』と『性転換』と『女体化』と『男体化』と『転性』で検索して出てきた結果です。
ただし普段『小説を読もう』で検索したらデフォルトで検索対象は『作品タイトル』と『あらすじ』と『キーワード』と『作者名』全部となりますが、ここではただ『あらすじ』と『キーワード』だけで検索します。
『小説を読もう』の検索機能で説明するならこの画像です。
図1.2
検索結果は時間によって変わっていくものですが、最新の結果を見たいならこのリンクです。
>> https://yomou.syosetu.com/search.php?word=TS&order=favnovelcnt&keyword=1&ex=1
2022年1月1日時点の検索結果で出てくる作品の数は……
『TS』:6007
『性転換』:3257
『女体化』:800
『TSF』:772
『転性』:78
『男体化』:62
これらの結果を一つのデータセットに収集して重複するものを除いたら、全部は『8174』作品となります。
当然ですが、こうやって出てきた作品リストはここの全てのTS作品とは言えません。実際に適切なキーワードを書いていない作品もあるかもしれませんが、これは仕方ないようなので割愛します。
更に、実はこの検出結果の中には本当にTSではない作品も多少含まれるでしょう。例えば『TSではない』か『非TS』というキーワードが付いているものも、本来ならTSであるわけではないのに、この中に含まれてしまいます。それを『除外ワード』にすることもできますが、調べてみればこういうのはあまり多くないようです。しかも書き方とかは色々あり得てかなり複雑です。
それに、大体わざわざその作品に『TSではない』とか『非TS』とかそんなキーワードを付ける時点で、少なくともその作者さんはTSの存在を意識しているはずです。つまり、たとえ本当の意味のTSではなくてもTSに近いもの或いはTSに関わるものである可能性が高い。なのでわざわざ除外する必要はないと思います。
手動でいちいち調べて判断するには数は多すぎて現実的ではないです。それともAI(人工知能)を使って検索するという方法も考えてみたが、まだ難易度が高いです。
大体『TSかどうか』を判断するのは結構難しいことです。このジャンルの範囲の定義も人によってバラバラ違って一致していないようですし。
というわけで、ここで扱う『TS作品』は実際に該当しないものは混じったり、該当するべき作品が入らなかったりすることは多少あるしもしれませんが、これは仕方ないことなので、これからの分析は、こんな『不確定性』も含まれることを納得した上で実行するという前提です。
その他に、『検索システムから除外』と設定される作品や削除された作品はもちろん検索の結果に出ないので、ここに含まれません。
以上説明した方法で検索して出てきたこの『8174』作品はこれから『TS作品』と呼びます。
無条件で全部の作品を検索したら、出てきた作品の数は『857930』となります。(2022年1月1日時点)
つまりTS作品は全部の作品の『8174/857930 ≈ 0.95%』。約10000分の95程度です。なろう作品をランダムで100作くらい読めば大体その中の1つはTSものであるというわけですね。
ここではまず今持っているTS作品のデータ全体を手短にまとめてみます。細かなまとめや分析は後で書いていきます。
出てきた作品のデータは『連載か短編か』及び『完結したかどうか』も含まれます。調べてその中の作品の数をまとめてみたらこうなります。
連載作品の数:6786
短編作品の数:1388
連載完結作品の数:1583
連載未完結作品の数:5203
大体は連載作品と短編作品の比率は5:1くらいですね。そして完結済みは連載作品の1/4くらい。
この8174作から短編作品と連載作品の割合を円グラフで表示すればこうなります。
図1.3
連載未完結は多いですね。その中にはエタった作品も含まれますが、エタったかどうかの分析は4話で行います。
それぞれの『登録必須キーワード』が付いているかどうかという情報も入っています。ここはまずそのキーワードが付いている作品の数をまとめておきます。
R15作品数:5313
残酷な描写あり作品数:4144
ガールズラブ作品数:2082
ボーイズラブ作品数:1118
異世界転生作品数:2428
異世界転移作品数:1324
この数を全部のTS作品の割合にしたら……
R15作品数:65.00%
残酷な描写あり作品数:50.70%
ガールズラブ作品数:25.47%
ボーイズラブ作品数:13.68%
異世界転生作品数:29.70%
異世界転移作品数:16.20%
やはりTS作品の大半はR15ですね。残酷な作品も半分くらい。
そしてこれから頻繁に使用していくのは作品の『総合ポイント、ブックマーク数、感想数』です。このデータはまずここで簡単なヒストグラムで表示しておきます。
図1.4
ほとんどは0に近いところに多いので、ここでy軸は対数スケール(log10)にしています。そうしなければ0に近いところばかり圧倒的に高い数字になって右の方はほとんど見えなくなります。
それでもまだちょっとわかりにくいかもしれません。もっと見えやすいようにx軸も対数でヒストグラムの区切りにしたらこうなります。
図1.5
結果はさっきの図よりはっきり見えてきましたね。ただ、こんな表示は数学が苦手な人にはわかりにくいかもしれません。それでもここでいちいち数学を説明したら手間はかかりすぎるので割愛します。
このようなヒストグラムや対数について夕月悠里さんのこのエッセイにも説明してあるので、ご参考に。
>> https://ncode.syosetu.com/n3630fb/6/
もっと詳しい解説や他の詳細やデータの考察は後で書いていきますが、ここでまず『最小値、最大値、総計、平均値、中央値、標準偏差』だけまとめておきます。
総合ポイント:
最小値 :0
最大値 :280796
総計 :11836290
平均値 :1448.041
中央値 :112.0
標準偏差:7898.317
ブックマーク数:
最小値 :0
最大値 :90344
総計 :3611946
平均値 :441.882
中央値 :31.0
標準偏差:2458.813
感想数:
最小値 :0
最大値 :15334
総計 :282784
平均値 :34.596
中央値 :1.0
標準偏差:302.334
その他に『タイトル、作者名、ジャンル、初回掲載日、キーワード』などのデータも含まれます。
例えばTSのトップの作品の情報を調べてみましょう。
タイトル:
賢者の弟子を名乗る賢者
作者名:
りゅうせんひろつぐ
総合ポイント:
280796
ブクマ数:
90344
感想数:
15334
初回掲載日:
2012-04-04 12:37:30
キーワード:
残酷な描写あり 異世界転移 冒険 VRMMO ファンタジー 異世界 性転換 MMO ロリババア TS ロリジジイ?
この作品はもちろん、TS好きなら誰でも知っているはずですね。連載し始めてからもう10年経って、やっとアニメ化された作品ですから。最大の総合ポイントもブクマ数も感想数も、全部この作品のものです。
それ以外にも『あらすじ、レビュー数、評価ポイント、評価者数、挿絵の数、読了時間、最終掲載日、日間ポイント、週間ポイント、月間ポイント、四半期ポイント、年間ポイント』など色々あります。これらも後で使っていきます。
次回はまずなろうの作品が投稿された年によって変化していく小説データの傾向の分析から始めます。時間が経てばなろうのTS作品はどのように変化していくか見ていきましょう。