117/140

第117話：「AI評価基準の最適化」

模擬試験の結果、最も高評価を得たのは「AIとディスカッションを行うスタイル」だった。受験者がAIとの対話を通じて論理性と創造性を高めていたことが評価された。一方、AIに全てを委ねた受験者は論理構成の精度は高いものの、批判的思考が欠けていた。本試験では異なる傾向が出る可能性があり、評価基準の最適化が求められる。

模擬試験の結果を受け、修士郎は橘教授と共に評価基準の見直しに取り組んでいた。AIとのディスカッションを行うスタイルが最も高評価を得たものの、AIに完全に依存する受験者と適切に活用しながら最終判断を下す受験者との差異が浮き彫りになった。今後の本試験では、受験者のAI活用のスタイルに対する評価基準の明確化が求められる。

「AIを活用するのは前提として、問題はどこまで人間が介在するべきか、ということですね」と橘教授が言う。

修士郎は考え込んだ。本試験では単なる論理構成の正確性だけではなく、思考のプロセスそのものも評価しなければならない。しかし、AIと協働するスタイルと、AIに完全に委ねるスタイルのどちらが本質的に優れているかの判断は難しい。

「たとえば、AIが最適解を導き出すプロセスの中で、人間がどの程度介入しているかを数値化できれば、評価の軸が作れるのでは？」修士郎はふと口に出した。

橘教授は頷きながら、「受験者がどのようにAIと対話しているか、ログを分析するのも一つの手かもしれませんね。ただ、問題は何をもって『優れたAI活用』とするかです」と指摘する。

「AIの提案を鵜呑みにせず、適切なフィードバックを行い、対話を通じて結論を導く能力こそが重要だと思います」と修士郎は続けた。「単なるアウトプットの質ではなく、プロンプトの質、AIの出力への修正回数、受験者の判断の入り方を評価指標に組み込むのはどうでしょう？」

「面白いアプローチですね。単に正しい答えを出すのではなく、その過程を評価する。つまり、AIと共に思考を深める姿勢こそが求められるというわけか」と橘教授は納得した様子だった。

評価基準を見直し、AI活用スタイルごとの違いを明確にした修士郎たちは、本試験へ向けた最終調整を進めることにした。果たして、本試験ではどのような結果が出るのか。