対話システムライブコンペティション

評価基準


  • 予選において,対話システムは,「どれくらいまた話したいと思うか」という1つの評価軸にて5段階で評価されます.
  • これは抽象的な評価軸であり,評価者は対話が面白かったか/役に立ったか/自然だったか,などの様々な観点を考慮して評価することを想定しています.
  • 評価者には,対話の相手がシステムであることはあらかじめ通知されます.
  • つまり,ローブナー賞に代表されるチューリングテストのように,相手が人間と見分けが付かないかという観点は用いません.
  • この評価軸は,Alexa Prize と同等のものです.

評価方法


予選

  • 予選は,クラウドソーシングを用いて評価を行います.
  • 一つのシステムは,20人のワーカーにより主観評価されます.
  • 対話はシステム発話から始まり,システムとユーザは交互に発話するものとします.
  • また,それぞれ15発話ずつ行った時点で対話は終了することとします.(※発話数については変更の可能性があります)
  • なお,20人による評価の前に,疎通に問題ないか,最低限の対話ができるかなどを確認するためのスクリーニングを,オーガナイザと数名のクラウドワーカーにより実施します.
  • 本スクリーニングを通過しなかったシステムは,その時点で評価の対象外とします.

ライブイベント

  • 予選で好成績を収めたシステムが,ライブイベントに参加できます(上位3チームを想定していまが,変更になる可能性があります).
  • ライブイベントでは,リアルタイムでシステムとシンポジウム参加者が対話し,その状況を対話システムシンポジウムの参加者全員で鑑賞・評価します.