オープントラックのシステム仕様・評価について
- 任意の話題について(オープンドメインで)ユーザと雑談を行う能力を競います.
-
評価基準はライブコンペ3と同じです.「また話したくなる」ためにシステムが備えるべき条件を分解した,3つの観点(自然性,話題追随,話題提供)で評価します.
- 今回用いる評価基準については
評価基準
を参照ください.予選は従来通り実施します.本選の実施方法についてはオーガナイザが選定した対話者以外の対話による評価も検討しています.
- システム仕様・評価基準は本ページに則るものとします.シチュエーショントラックは
こちらのページ
をご覧ください
-
システム発話はテキストのみとし,絵文字・顔文字・STICKERS(LINEでいうスタンプ)は不可とします.システムと評価者は一度のみ対話するものとし,ターン数は15(システムとユーザの発話を合わせて全部で30発話)とします.
満たすべきシステムの仕様
- 評価の観点から,ボットは以下の仕様を満たすように作成してください.
- ※
Getting Started
で使用している
samplebot9.py
のボットでは,これらを満たすように実装されています.
評価の都合上,システムからの発話は1ターンあたり1発話とし,発話内には改行を含めないようにしてください.
対話以外の要素に評価が左右されることを防ぐために,Telegram上のアイコン画像や発話外でのプロフィール提示は使用しないでください.
システム発話はテキストのみとし,絵文字・顔文字・スタンプは不可とします.
ユーザからの発話もテキストのみが渡される前提でシステムを用意してください.
16発話以上システム発話が継続するようにしてください.
※オーガナイザの判断により,継続すべき発話数は変更となる場合があります.
ユーザからの 15発話目を受け取り,システムが 16発話目を発話した後に,
"_FINISHED_:"に続けてユニークIDを発話として出力してください.ユニークIDは "unixtime:ユーザID:ボットのusername"から生成する文字列とします.
(例:_FINISHED_:1536932911:654708492:LiveCompetition2018_bot)
※"unixtime:ユーザID"は
IDをユニークにするために,またボットのusernameは対話システムを識別するために用います.
"_FINISHED_:[unixtime]:[ユーザID]:[ボットのusername]"を出力後,アノテータへの指示として以下の発話を出力してください.
"対話終了です.エクスポートした「messages.html」ファイルを,フォームからアップロードしてください."
評価方法・基準
-
評価者は,対話の前に,オーガナイザが準備する所定の名詞リスト(Wikipediaの見出し語から作成)から話題として名詞を2つ選択し,それらを話したい話題として対話します.また,対話中に一つの話題からもう一つの話題に切り替えるものとします.自然,かつ,ユーザが話したい話題について情報交換が可能なシステムがよいと考え,以下の3つの観点のそれぞれについて,5段階評価を行います.これらの合計(もしくは平均)を評価の得点とします.
-
- ・自然性:対話が自然かどうか
- ・話題追随:システムはユーザが選択した話題に関して適切に応答できたかどうか
- ・話題提供:システムはユーザが選択した話題に関して新たな情報を提供できたかどうか
-
これらの3つの観点は,「また話したくなる」ための十分条件ではないかもしれませんが,オープンドメインでの雑談という目標を踏まえた場合の必要条件であるとオーガナイザは考えています.
-
なお,名詞リストは事前に公開いたしません.また,対話者が選んだ名詞についてもシステムに事前に通知されませんのでご了承ください.
評価の流れ
-
評価者には,対話の相手がシステムであることはあらかじめ通知されます.対話はシステム発話から始まり,システムとユーザは交互に発話するものとし,それぞれ15発話ずつ(※発話数については変更の可能性があります)行った時点で対話は終了することとします.対話システムはトラックそれぞれの評価基準・手順に基づき評価されます.
-
予選では,クラウドソーシングを用いて,50人程度のワーカーにより主観評価されます.予選で高い評価を得たシステムが,ライブイベントに参加できます.ライブイベントでは対話システムがシンポジウム参加者と対話し,その状況をシンポジウムの参加者全員でそれぞれのトラックの基準により鑑賞・評価します.なお,今年度は,オーガナイザが選定した対話者以外の対話による評価も検討しています.詳細が決まりましたら追ってお知らせいいたします.また,予選の前に疎通に問題ないか,最低限の対話ができるかなどを確認するためのスクリーニングを,オーガナイザと数名のクラウドワーカーにより実施します.本スクリーニングを通過しなかったシステムはその時点で評価の対象外となります.
- 本選の実施の方法については,
評価方法・基準
をご覧ください.