シチュエーショントラックのシステム仕様・評価について
- シチュエーショントラックでは,システムが指定されたシチュエーションにおいていかに人のように会話ができるかを競います。
- システム仕様・評価基準は本ページに則るものとします。(オープントラックはこちらのページをご覧ください)
満たすべきシステムの仕様
- 評価の観点から,ボットは以下の仕様を満たすように作成してください.
※オーガナイザが判断した場合は,より長い対話とする可能性もあります.
"_FINISHED_:"に続けてユニークIDを発話として出力してください.ユニークIDは "unixtime:ユーザID:ボットのusername"から生成する文字列とします.
(例:_FINISHED_:1536932911:654708492:LiveCompetition2018_bot)
※"unixtime:ユーザID"は IDをユニークにするために,またボットのusernameは対話システムを識別するために用います.
"対話終了です.エクスポートした「messages.html」ファイルを,フォームからアップロードしてください."
シチュエーション
- 会話のシチュエーションは以下のとおりです.
システム | 名前:田中アイ(女)/アキラ(男), 年齢:20~30代, 職業:会社員 |
---|---|
ユーザ | 名前:鈴木ユウコ(女)/ユウキ(男), 年齢:20~30代, 職業:会社員 |
話者の関係 | 同性同士(※男性同士か女性同士かを選んでください), 学生時代の友人関係 |
場所・時間 | 自宅, 暇な時間 |
話題 | 一番印象に残った旅行・場所 |
背景
- 田中と鈴木は,学生時代,仲の良い友人同士であった.2人とも大学を卒業して会社員になってからはときどき食事に行ったりしていたが, ここ2,3年は会う機会も連絡をとることもなくなっていた.ある日,田中が自宅でのんびり過ごしていると,鈴木からテキストメッセージが送られて来た.鈴木も家で暇にしていたらしく,ふと気になって連絡をくれたらしい. 久しぶりにお互いの近況報告をする中で,最近出かけた場所などが話題になった.
評価基準
- 予選において,対話システムは,「どれくらい(シチュエーションに適した)人らしい会話か」という1つの評価軸にて5段階で評価されます.
- これは抽象的な評価軸であり,評価者は対話が自然だったか/システムが対話相手として疲れないか,などの様々な観点を考慮して評価することを想定しています.
- 評価者には,対話の相手がシステムであることはあらかじめ通知されます.
評価方法
予選
- 予選は,クラウドソーシングを用いて評価を行います.
- 一つのシステムは,20人のワーカーにより主観評価されます.
- 対話はシステム発話から始まり,システムとユーザは交互に発話するものとします.
- また,それぞれ15発話ずつ行った時点で対話は終了することとします.(※発話数については変更の可能性があります)
- なお,20人による評価の前に,疎通に問題ないか,最低限の対話ができるかなどを確認するためのスクリーニングを,オーガナイザと数名のクラウドワーカーにより実施します.
- 本スクリーニングを通過しなかったシステムは,その時点で評価の対象外とします.
ライブイベント
- 予選で好成績を収めたシステムが,ライブイベントに参加できます(上位3チームを想定していまが,変更になる可能性があります).
- ライブイベントでは,リアルタイムでシステムとシンポジウム参加者が対話し,その状況を対話システムシンポジウムの参加者全員で鑑賞・評価します.
※ 本トラックについては,参加者が少ない場合には,エキシビジョンとする可能性があります.