オープントラックのシステム仕様・評価について
- 任意の話題について(オープンドメインで)ユーザと雑談を行う能力を競います.
- 評価基準は「対話システムとどのくらいまた話したくなるかどうか」です.ライブコンペ1や2と同じです.システム発話はテキストのみとし,絵文字・顔文字・STICKERS(LINEでいうスタンプ)は不可とします.システムと評価者は一度のみ対話するものとし,ターン数は15(システムとユーザの発話を合わせて全部で30発話)とします.
- 予選・本選における,評価手順がライブコンペ1や2から変わります.この変更は,オープンドメインでユーザと雑談を行う能力を,より適切に評価するためのものです.
- 今回用いる評価基準については評価基準を参照ください.
- システム仕様・評価基準は本ページに則るものとします.シチュエーショントラックはこちらのページをご覧ください
満たすべきシステムの仕様
- 評価の観点から,ボットは以下の仕様を満たすように作成してください.
- ※Getting Startedで使用しているsamplebot9.pyのボットでは,これらを満たすように実装されています.
評価の都合上,システムからの発話は1ターンあたり1発話とし,発話内には改行を含めないようにしてください.
対話以外の要素に評価が左右されることを防ぐために,Telegram上のアイコン画像や発話外でのプロフィール提示は使用しないでください.
システム発話はテキストのみとし,絵文字・顔文字・スタンプは不可とします.
ユーザからの発話もテキストのみが渡される前提でシステムを用意してください.
16発話以上システム発話が継続するようにしてください.
※オーガナイザが判断した場合は,より長い対話とする可能性もあります.
ユーザからの 15発話目を受け取り,システムが 16発話目を発話した後に,
"_FINISHED_:"に続けてユニークIDを発話として出力してください.ユニークIDは "unixtime:ユーザID:ボットのusername"から生成する文字列とします.
(例:_FINISHED_:1536932911:654708492:LiveCompetition2018_bot)
※"unixtime:ユーザID"は IDをユニークにするために,またボットのusernameは対話システムを識別するために用います.
"_FINISHED_:[unixtime]:[ユーザID]:[ボットのusername]"を出力後,アノテータへの指示として以下の発話を出力してください.
"対話終了です.エクスポートした「messages.html」ファイルを,フォームからアップロードしてください."
評価方法・基準
- 評価者は,対話の前に,オーガナイザが準備する所定の名詞リスト(Wikipediaの見出し語から作成)から話題として名詞を2つ選択し,それらを話したい話題として対話します.また,対話中に一つの話題からもう一つの話題に切り替えるものとします.自然,かつ,ユーザが話したい話題について情報交換が可能なシステムがよいと考え,以下の3つの観点のそれぞれについて,5段階評価を行います.これらの合計(もしくは平均)を評価の得点とします.
-
- ・自然性:対話が自然かどうか
- ・話題追随:システムはユーザが選択した話題に関して適切に応答できたかどうか
- ・話題提供:システムはユーザが選択した話題に関して新たな情報を提供できたかどうか
評価の流れ
- 評価者には,対話の相手がシステムであることはあらかじめ通知されます.対話はシステム発話から始まり,システムとユーザは交互に発話するものとし,それぞれ15発話ずつ(※発話数については変更の可能性があります)行った時点で対話は終了することとします.対話システムはトラックそれぞれの評価基準・手順に基づき評価されます.
- 予選では,クラウドソーシングを用いて,50人程度のワーカーにより主観評価されます.予選で高い評価を得たシステムが,ライブイベントに参加できます.ライブイベントでは対話システムがシンポジウム参加者と対話し,その状況をシンポジウムの参加者全員でそれぞれのトラックの基準により鑑賞・評価します.なお,予選の前に疎通に問題ないか,最低限の対話ができるかなどを確認するためのスクリーニングを,オーガナイザと数名のクラウドワーカーにより実施します.本スクリーニングを通過しなかったシステムはその時点で評価の対象外となります.
- 本選の実施の方法については,評価方法・基準をご覧ください.