評価基準
- 予選において,対話システムは,「どれくらいまた話したいと思うか」という1つの評価軸にて5段階で評価されます.
- これは抽象的な評価軸であり,評価者は対話が面白かったか/役に立ったか/自然だったか,などの様々な観点を考慮して評価することを想定しています.
- 評価者には,対話の相手がシステムであることはあらかじめ通知されます.
- つまり,ローブナー賞に代表されるチューリングテストのように,相手が人間と見分けが付かないかという観点は用いません.
- この評価軸は,Alexa Prize と同等のものです.
評価方法
予選
- 予選は,クラウドソーシングを用いて評価を行います.
- 一つのシステムは,20人のワーカーにより主観評価されます.
- 対話はシステム発話から始まり,システムとユーザは交互に発話するものとします.
- また,それぞれ15発話ずつ行った時点で対話は終了することとします.(※発話数については変更の可能性があります)
- なお,20人による評価の前に,疎通に問題ないか,最低限の対話ができるかなどを確認するためのスクリーニングを,オーガナイザと数名のクラウドワーカーにより実施します.
- 本スクリーニングを通過しなかったシステムは,その時点で評価の対象外とします.
ライブイベント
- 予選で好成績を収めたシステムが,ライブイベントに参加できます(上位3チームを想定していまが,変更になる可能性があります).
- ライブイベントでは,リアルタイムでシステムとシンポジウム参加者が対話し,その状況を対話システムシンポジウムの参加者全員で鑑賞・評価します.