オープントラックのシステム仕様・評価について
- オープントラックでは,雑談対話システムとどのくらいまた話したくなるかどうかを競います.
- 本トラックは昨年度のライブコンペ1の設定と同じです.対話の状況は特に指定しません.
- システム仕様・評価基準は本ページに則るものとします.シチュエーショントラックはこちらのページをご覧ください
満たすべきシステムの仕様
- 評価の観点から,ボットは以下の仕様を満たすように作成してください.
- ※Getting Startedで使用しているsamplebot9.pyのボットでは,これらを満たすように実装されています.
評価の都合上,システムからの発話は1ターンあたり1発話とし,発話内には改行を含めないようにしてください.
対話以外の要素に評価が左右されることを防ぐために,Telegram上のアイコン画像や発話外でのプロフィール提示は使用しないでください.
システム発話はテキストのみとし,絵文字・顔文字・スタンプは不可とします.
ユーザからの発話もテキストのみが渡される前提でシステムを用意してください.
16発話以上システム発話が継続するようにしてください.
※オーガナイザが判断した場合は,より長い対話とする可能性もあります.
ユーザからの 15発話目を受け取り,システムが 16発話目を発話した後に,
"_FINISHED_:"に続けてユニークIDを発話として出力してください.ユニークIDは "unixtime:ユーザID:ボットのusername"から生成する文字列とします.
(例:_FINISHED_:1536932911:654708492:LiveCompetition2018_bot)
※"unixtime:ユーザID"は IDをユニークにするために,またボットのusernameは対話システムを識別するために用います.
"_FINISHED_:[unixtime]:[ユーザID]:[ボットのusername]"を出力後,アノテータへの指示として以下の発話を出力してください.
"対話終了です.エクスポートした「messages.html」ファイルを,フォームからアップロードしてください."
評価基準
- 予選において,対話システムは,「どれくらいまた話したいと思うか」という1つの評価軸にて5段階で評価されます.
- これは抽象的な評価軸であり,評価者は対話が面白かったか/役に立ったか/自然だったか,などの様々な観点を考慮して評価することを想定しています.
- 評価者には,対話の相手がシステムであることはあらかじめ通知されます.
- つまり,ローブナー賞に代表されるチューリングテストのように,相手が人間と見分けが付かないかという観点は用いません.
- この評価軸は,Alexa Prize と同等のものです.
評価方法
予選
- 予選は,クラウドソーシングを用いて評価を行います.
- 一つのシステムは,20人のワーカー(変更の可能性あり)により主観評価されます.
- 対話はシステム発話から始まり,システムとユーザは交互に発話するものとします.
- また,それぞれ15発話ずつ行った時点で対話は終了することとします.(※発話数については変更の可能性があります)
- なお,20人による評価の前に,疎通に問題ないか,最低限の対話ができるかなどを確認するためのスクリーニングを,オーガナイザと数名のクラウドワーカーにより実施します.
- 本スクリーニングを通過しなかったシステムは,その時点で評価の対象外とします.
ライブイベント
- 予選で好成績を収めたシステムが,ライブイベントに参加できます(上位3チームを想定していまが,変更になる可能性があります).
- ライブイベントでは,リアルタイムでシステムとシンポジウム参加者が対話し,その状況を対話システムシンポジウムの参加者全員で鑑賞・評価します.
- 昨年度のライブイベントの様子は,ライブコンペ1のサイトをご覧ください.