対話システムライブコンペティション3

シチュエーショントラックのシステム仕様・評価について

  1. シチュエーショントラックでは,オープンな雑談とは異なり,設定された状況の中で状況にあった人らしい対話を行う能力を競います.
  2. シチュエーションはライブコンペ2のものと異なります.今回,「依頼を断る」というシチュエーションを設定しました.参加者は,ユーザの依頼を人間関係を考慮したうえで断る対話システムを作成します.
  3. 今回用いるシチュエーションについてはシチュエーションを参照ください.
  4. 予選では,上記の評価基準を用い,クラウドワーカーによる評価を実施します.
  5. 本選では,まず開発者自身がシステムと対話をし,参加者全員が評価します.次に,その対話を見ていない対話者がそのシステムと会話をし,参加者全員が評価します.これらの2つの対話の点数の合計(もしくは平均)をシステムの点数とします.この評価方法は,シチュエーションに適した人らしい会話を実現するためのアイデア自身とその工学的な有効性をそれぞれ評価するために採用しました.
  6. システム仕様・評価基準は本ページに則るものとします。(オープントラックはこちらのページをご覧ください)

満たすべきシステムの仕様

  1. 評価の観点から,ボットは以下の仕様を満たすように作成してください.

  • 後述のシチュエーションで行われる会話(テキストチャット)であること.
  • 評価の都合上,システムからの発話は1ターンあたり1発話とし,発話内には改行を含めないようにしてください.
  • 対話以外の要素に評価が左右されることを防ぐために,Telegram上のアイコン画像や発話外でのプロフィール提示は使用しないでください.
  • 発話として入力できるのはテキストに加え,Telegramで利用可能な絵文字・顔文字です.画像は不可とします.STICKERS(LINEでいうスタンプ)の利用も不可とします.

  • 16発話以上システム発話が継続するようにしてください.
      ※オーガナイザが判断した場合は,より長い対話とする可能性もあります.
  • ユーザからの 15発話目を受け取り,システムが 16発話目を発話した後に,
      "_FINISHED_:"に続けてユニークIDを発話として出力してください.ユニークIDは "unixtime:ユーザID:ボットのusername"から生成する文字列とします.
      (例:_FINISHED_:1536932911:654708492:LiveCompetition2018_bot)
      ※"unixtime:ユーザID"は IDをユニークにするために,またボットのusernameは対話システムを識別するために用います.
  • "_FINISHED_:[unixtime]:[ユーザID]:[ボットのusername]"を出力後,アノテータへの指示として以下の発話を出力してください.
      "対話終了です.エクスポートした「messages.html」ファイルを,フォームからアップロードしてください."
  • シチュエーション

    システム名前: 清水シズカ(女)/シンジ(男), 年齢:22歳前後, 職業:大学4年生
    ユーザ名前: 湯川ユウコ(女)/ユウキ(男), 年齢:25歳前後, 職業:会社員
    話者の関係同性同士(※男性同士か女性同士かを選んでください),学生時代のサークルの先輩後輩の関係.学生時代は親しかったが,先輩が卒業してからは,連絡を取り合っていない.
    場所・時間それぞれの自宅,清水が卒業の年,春休みの夜の暇な時間
    状況・話題先輩からの「同窓会の幹事の依頼」を断りたい状況

    背景

    1. 清水(システム)と湯川(ユーザ)は,学生時代,同じサークルの先輩・後輩の関係であった.清水にとって湯川は,いろんなことについて相談しやすい先輩であり,湯川にとって清水は自分を頼ってくるかわいい後輩であった.ただ,湯川が大学を卒業して会社員になってからは,会う機会も連絡をとることもなくなっていた.清水も就職が決まり,自宅でくつろいでいた春休みのある日の夜,久しぶりに湯川からテキストメッセージが送られて来た.卒業式の時期を迎え,清水も卒業の年になったということを思い出してくれたようで,連絡をくれたらしい.久しぶりにお互いの近況報告をしたあと,湯川がおもむろに頼み事をしたいと言ってきた.どうやらサークルの同窓会の幹事を,特に清水に任せたいらしい.清水としては決して暇がないわけではないのだけれど,日程調整やら出欠の確認やらは非常に面倒だ.とはいえ湯川は非常にお世話になった先輩であり,失礼な態度もとりづらい.なんとか頼みを断りたいけれど,さてどう言って断ろうか.

    インストラクション

      • ・システム(清水)は,ユーザ(湯川)からの依頼を断ってください. つまりあなたの作るシステムはユーザからの依頼を断るシステムです.
      • ・ユーザ(湯川)が「ところでさ,ちょっと頼みたいことがあるんだけど...」という発話を行った直後の状況から会話はスタートです.システム(清水)は,ユーザのこの発話に答えることから会話を始めてください.
      • ・ユーザ(湯川)はシステム(清水)に依頼を断られても,依頼を繰り返すものとします.依頼が断念されることは想定しなくて構いません.
      • ・開発者はシステムの性別を決め,その性別同士(男性同士,もしくは,女性同士)の対話ができるようにしてください.

    評価方法・基準

    • 対話システムは,「どれくらいシチュエーションに適しており,かつ,人らしい会話か」という1つの評価軸を用いて5段階で総合的に評価されます.「シチュエーションに適している」とは,所定の状況に鑑み「人らしい会話」であると直感的に思えることです.
    • 「人らしい会話」とは,具体的には以下のような特徴を含みます.
      • ・言いにくいことを言わなければならない場合は,相手との社会的な関係性を考慮して,相手に失礼にならないように内容を伝えられること.
      • ・適当な「間」や「あいづち」,「フィラー」,「言い淀み」などが用いられていること.
      • ・一つの話題に固執することなく,会話の流れに沿って,別の話題に自然に推移できること.
    • これらは,「シチュエーションに適しており,かつ,人らしい会話」というもののイメージを喚起する参考であり,すべてを満たす必要があるということではありません.

    • 予選は,クラウドソーシングを用いて評価を行います.
    • 本選では,まず開発者自身がシステムと対話をし,参加者全員が評価します.次に,その対話を見ていない対話者がそのシステムと会話をし,参加者全員が評価します.これらの2つの対話の点数の合計(もしくは平均)をシステムの点数とします.

    評価の流れ