対話システムライブコンペティション4

オープントラックのシステム仕様・評価について

  1. 任意の話題について(オープンドメインで)ユーザと雑談を行う能力を競います.
  2. 評価基準はライブコンペ3と同じです.「また話したくなる」ためにシステムが備えるべき条件を分解した,3つの観点(自然性,話題追随,話題提供)で評価します.
  3. 今回用いる評価基準については 評価基準 を参照ください.予選は従来通り実施します.本選の実施方法についてはオーガナイザが選定した対話者以外の対話による評価も検討しています.
  4. システム仕様・評価基準は本ページに則るものとします.シチュエーショントラックは こちらのページ をご覧ください
  5. システム発話はテキストのみとし,絵文字・顔文字・STICKERS(LINEでいうスタンプ)は不可とします.システムと評価者は一度のみ対話するものとし,ターン数は15(システムとユーザの発話を合わせて全部で30発話)とします.

満たすべきシステムの仕様

  1. 評価の観点から,ボットは以下の仕様を満たすように作成してください.
  2. Getting Started で使用している samplebot9.py のボットでは,これらを満たすように実装されています.

  • 評価の都合上,システムからの発話は1ターンあたり1発話とし,発話内には改行を含めないようにしてください.
  • 対話以外の要素に評価が左右されることを防ぐために,Telegram上のアイコン画像や発話外でのプロフィール提示は使用しないでください.
  • システム発話はテキストのみとし,絵文字・顔文字・スタンプは不可とします.
      ユーザからの発話もテキストのみが渡される前提でシステムを用意してください.

  • 16発話以上システム発話が継続するようにしてください.
      ※オーガナイザの判断により,継続すべき発話数は変更となる場合があります.
  • ユーザからの 15発話目を受け取り,システムが 16発話目を発話した後に,
      "_FINISHED_:"に続けてユニークIDを発話として出力してください.ユニークIDは "unixtime:ユーザID:ボットのusername"から生成する文字列とします.
      (例:_FINISHED_:1536932911:654708492:LiveCompetition2018_bot)
      ※"unixtime:ユーザID"は IDをユニークにするために,またボットのusernameは対話システムを識別するために用います.
  • "_FINISHED_:[unixtime]:[ユーザID]:[ボットのusername]"を出力後,アノテータへの指示として以下の発話を出力してください.
      "対話終了です.エクスポートした「messages.html」ファイルを,フォームからアップロードしてください."
  • 評価方法・基準

    • 評価者は,対話の前に,オーガナイザが準備する所定の名詞リスト(Wikipediaの見出し語から作成)から話題として名詞を2つ選択し,それらを話したい話題として対話します.また,対話中に一つの話題からもう一つの話題に切り替えるものとします.自然,かつ,ユーザが話したい話題について情報交換が可能なシステムがよいと考え,以下の3つの観点のそれぞれについて,5段階評価を行います.これらの合計(もしくは平均)を評価の得点とします.
      • ・自然性:対話が自然かどうか
      • ・話題追随:システムはユーザが選択した話題に関して適切に応答できたかどうか
      • ・話題提供:システムはユーザが選択した話題に関して新たな情報を提供できたかどうか
    • これらの3つの観点は,「また話したくなる」ための十分条件ではないかもしれませんが,オープンドメインでの雑談という目標を踏まえた場合の必要条件であるとオーガナイザは考えています.
    • なお,名詞リストは事前に公開いたしません.また,対話者が選んだ名詞についてもシステムに事前に通知されませんのでご了承ください.

    評価の流れ