シチュエーショントラックのシステム仕様・評価について
- シチュエーショントラックでは,オープンな雑談とは異なり,設定された状況の中で状況にあった人らしい対話を行う能力を競います.
- シチュエーションはライブコンペ2のものと異なります.今回,「依頼を断る」というシチュエーションを設定しました.参加者は,ユーザの依頼を人間関係を考慮したうえで断る対話システムを作成します.
- 今回用いるシチュエーションについてはシチュエーションを参照ください.
- 予選では,上記の評価基準を用い,クラウドワーカーによる評価を実施します.
- 本選では,まず開発者自身がシステムと対話をし,参加者全員が評価します.次に,その対話を見ていない対話者がそのシステムと会話をし,参加者全員が評価します.これらの2つの対話の点数の合計(もしくは平均)をシステムの点数とします.この評価方法は,シチュエーションに適した人らしい会話を実現するためのアイデア自身とその工学的な有効性をそれぞれ評価するために採用しました.
- システム仕様・評価基準は本ページに則るものとします。(オープントラックはこちらのページをご覧ください)
満たすべきシステムの仕様
- 評価の観点から,ボットは以下の仕様を満たすように作成してください.
※オーガナイザが判断した場合は,より長い対話とする可能性もあります.
"_FINISHED_:"に続けてユニークIDを発話として出力してください.ユニークIDは "unixtime:ユーザID:ボットのusername"から生成する文字列とします.
(例:_FINISHED_:1536932911:654708492:LiveCompetition2018_bot)
※"unixtime:ユーザID"は IDをユニークにするために,またボットのusernameは対話システムを識別するために用います.
"対話終了です.エクスポートした「messages.html」ファイルを,フォームからアップロードしてください."
シチュエーション
システム | 名前: 清水シズカ(女)/シンジ(男), 年齢:22歳前後, 職業:大学4年生 |
---|---|
ユーザ | 名前: 湯川ユウコ(女)/ユウキ(男), 年齢:25歳前後, 職業:会社員 |
話者の関係 | 同性同士(※男性同士か女性同士かを選んでください),学生時代のサークルの先輩後輩の関係.学生時代は親しかったが,先輩が卒業してからは,連絡を取り合っていない. |
場所・時間 | それぞれの自宅,清水が卒業の年,春休みの夜の暇な時間 |
状況・話題 | 先輩からの「同窓会の幹事の依頼」を断りたい状況 |
背景
- 清水(システム)と湯川(ユーザ)は,学生時代,同じサークルの先輩・後輩の関係であった.清水にとって湯川は,いろんなことについて相談しやすい先輩であり,湯川にとって清水は自分を頼ってくるかわいい後輩であった.ただ,湯川が大学を卒業して会社員になってからは,会う機会も連絡をとることもなくなっていた.清水も就職が決まり,自宅でくつろいでいた春休みのある日の夜,久しぶりに湯川からテキストメッセージが送られて来た.卒業式の時期を迎え,清水も卒業の年になったということを思い出してくれたようで,連絡をくれたらしい.久しぶりにお互いの近況報告をしたあと,湯川がおもむろに頼み事をしたいと言ってきた.どうやらサークルの同窓会の幹事を,特に清水に任せたいらしい.清水としては決して暇がないわけではないのだけれど,日程調整やら出欠の確認やらは非常に面倒だ.とはいえ湯川は非常にお世話になった先輩であり,失礼な態度もとりづらい.なんとか頼みを断りたいけれど,さてどう言って断ろうか.
インストラクション
-
- ・システム(清水)は,ユーザ(湯川)からの依頼を断ってください. つまりあなたの作るシステムはユーザからの依頼を断るシステムです.
- ・ユーザ(湯川)が「ところでさ,ちょっと頼みたいことがあるんだけど...」という発話を行った直後の状況から会話はスタートです.システム(清水)は,ユーザのこの発話に答えることから会話を始めてください.
- ・ユーザ(湯川)はシステム(清水)に依頼を断られても,依頼を繰り返すものとします.依頼が断念されることは想定しなくて構いません.
- ・開発者はシステムの性別を決め,その性別同士(男性同士,もしくは,女性同士)の対話ができるようにしてください.
評価方法・基準
- 対話システムは,「どれくらいシチュエーションに適しており,かつ,人らしい会話か」という1つの評価軸を用いて5段階で総合的に評価されます.「シチュエーションに適している」とは,所定の状況に鑑み「人らしい会話」であると直感的に思えることです.
- 「人らしい会話」とは,具体的には以下のような特徴を含みます.
-
- ・言いにくいことを言わなければならない場合は,相手との社会的な関係性を考慮して,相手に失礼にならないように内容を伝えられること.
- ・適当な「間」や「あいづち」,「フィラー」,「言い淀み」などが用いられていること.
- ・一つの話題に固執することなく,会話の流れに沿って,別の話題に自然に推移できること.
- これらは,「シチュエーションに適しており,かつ,人らしい会話」というもののイメージを喚起する参考であり,すべてを満たす必要があるということではありません.
- 予選は,クラウドソーシングを用いて評価を行います.
- 本選では,まず開発者自身がシステムと対話をし,参加者全員が評価します.次に,その対話を見ていない対話者がそのシステムと会話をし,参加者全員が評価します.これらの2つの対話の点数の合計(もしくは平均)をシステムの点数とします.
評価の流れ
- 評価者には,対話の相手がシステムであることはあらかじめ通知されます.対話はシステム発話から始まり,システムとユーザは交互に発話するものとし,それぞれ15発話ずつ(※発話数については変更の可能性があります)行った時点で対話は終了することとします.対話システムはトラックそれぞれの評価基準・手順に基づき評価されます.
- 予選では,クラウドソーシングを用いて,50人程度のワーカーにより主観評価されます.予選で高い評価を得たシステムが,ライブイベントに参加できます.ライブイベントでは対話システムがシンポジウム参加者と対話し,その状況をシンポジウムの参加者全員でそれぞれのトラックの基準により鑑賞・評価します.なお,予選の前に疎通に問題ないか,最低限の対話ができるかなどを確認するためのスクリーニングを,オーガナイザと数名のクラウドワーカーにより実施します.本スクリーニングを通過しなかったシステムはその時点で評価の対象外となります.
- 本選の実施の方法については,評価方法・基準をご覧ください.