対話システムライブコンペティション

評価基準

予選において，対話システムは，「どれくらいまた話したいと思うか」という1つの評価軸にて5段階で評価されます．
これは抽象的な評価軸であり，評価者は対話が面白かったか／役に立ったか／自然だったか，などの様々な観点を考慮して評価することを想定しています．
評価者には，対話の相手がシステムであることはあらかじめ通知されます．
つまり，ローブナー賞に代表されるチューリングテストのように，相手が人間と見分けが付かないかという観点は用いません．
この評価軸は，Alexa Prize と同等のものです．

評価方法

予選

予選は，クラウドソーシングを用いて評価を行います．
一つのシステムは，20人のワーカーにより主観評価されます．
対話はシステム発話から始まり，システムとユーザは交互に発話するものとします．
また，それぞれ15発話ずつ行った時点で対話は終了することとします．（※発話数については変更の可能性があります）
なお，20人による評価の前に，疎通に問題ないか，最低限の対話ができるかなどを確認するためのスクリーニングを，オーガナイザと数名のクラウドワーカーにより実施します．
本スクリーニングを通過しなかったシステムは，その時点で評価の対象外とします．

ライブイベント

予選で好成績を収めたシステムが，ライブイベントに参加できます（上位３チームを想定していまが，変更になる可能性があります）．
ライブイベントでは，リアルタイムでシステムとシンポジウム参加者が対話し，その状況を対話システムシンポジウムの参加者全員で鑑賞・評価します．