対話システムライブコンペティション3

オープントラックのシステム仕様・評価について

  1. 任意の話題について(オープンドメインで)ユーザと雑談を行う能力を競います.
  2. 評価基準は「対話システムとどのくらいまた話したくなるかどうか」です.ライブコンペ1や2と同じです.システム発話はテキストのみとし,絵文字・顔文字・STICKERS(LINEでいうスタンプ)は不可とします.システムと評価者は一度のみ対話するものとし,ターン数は15(システムとユーザの発話を合わせて全部で30発話)とします.
  3. 予選・本選における,評価手順がライブコンペ1や2から変わります.この変更は,オープンドメインでユーザと雑談を行う能力を,より適切に評価するためのものです.
  4. 今回用いる評価基準については評価基準を参照ください.
  5. システム仕様・評価基準は本ページに則るものとします.シチュエーショントラックはこちらのページをご覧ください

満たすべきシステムの仕様

  1. 評価の観点から,ボットは以下の仕様を満たすように作成してください.
  2. Getting Startedで使用しているsamplebot9.pyのボットでは,これらを満たすように実装されています.

  • 評価の都合上,システムからの発話は1ターンあたり1発話とし,発話内には改行を含めないようにしてください.
  • 対話以外の要素に評価が左右されることを防ぐために,Telegram上のアイコン画像や発話外でのプロフィール提示は使用しないでください.
  • システム発話はテキストのみとし,絵文字・顔文字・スタンプは不可とします.
      ユーザからの発話もテキストのみが渡される前提でシステムを用意してください.

  • 16発話以上システム発話が継続するようにしてください.
      ※オーガナイザが判断した場合は,より長い対話とする可能性もあります.
  • ユーザからの 15発話目を受け取り,システムが 16発話目を発話した後に,
      "_FINISHED_:"に続けてユニークIDを発話として出力してください.ユニークIDは "unixtime:ユーザID:ボットのusername"から生成する文字列とします.
      (例:_FINISHED_:1536932911:654708492:LiveCompetition2018_bot)
      ※"unixtime:ユーザID"は IDをユニークにするために,またボットのusernameは対話システムを識別するために用います.
  • "_FINISHED_:[unixtime]:[ユーザID]:[ボットのusername]"を出力後,アノテータへの指示として以下の発話を出力してください.
      "対話終了です.エクスポートした「messages.html」ファイルを,フォームからアップロードしてください."
  • 評価方法・基準

    • 評価者は,対話の前に,オーガナイザが準備する所定の名詞リスト(Wikipediaの見出し語から作成)から話題として名詞を2つ選択し,それらを話したい話題として対話します.また,対話中に一つの話題からもう一つの話題に切り替えるものとします.自然,かつ,ユーザが話したい話題について情報交換が可能なシステムがよいと考え,以下の3つの観点のそれぞれについて,5段階評価を行います.これらの合計(もしくは平均)を評価の得点とします.
      • ・自然性:対話が自然かどうか
      • ・話題追随:システムはユーザが選択した話題に関して適切に応答できたかどうか
      • ・話題提供:システムはユーザが選択した話題に関して新たな情報を提供できたかどうか

    評価の流れ