公開データ
- 予選のために収集した対話ログおよび評価値を公開します。
公開データの詳細説明
対話システムライブコンペティション3では、オープントラックとシチュエーショントラックの2種類のトラックがありました。参加したチームのうちデータ公開に同意していただいたチーム(オープントラック:5チーム、シチュエーショントラック:6チーム)の予選のデータを公開します。
このデータはクラウドソーシングによって作られました。作業者は1つのシステムとは1度だけ対話することができます。各システム毎に約50対話を収集しましたが、不適切な対話を削除したことにより対話数はシステム毎に異なっています(38〜53)。
すべての対話ログはシステム発話から始まっています。対話ログは"log.json"という拡張子を持ちます。対話ログ内の"speaker"という属性の値を見ることによって、システム発話とユーザ発話(クラウドワーカーによる発話)を識別できます。"S"がシステム発話を表し、"U"がユーザ発話を表します。シチュエーショントラックのFCLを除いたすべてのシステムにおいて各対話は 15のシステム発話と15のユーザ発話の合計30発話を含んでいます。シチュエーショントラックのFCLだけは最終発話として発話以外を出力していたためデータに含めておらず、14のシステム発話と15のユーザ発話の合計29発話となっています。
発話ログに加えて、ユーザによるシステムの評価値を公開します。openおよびsituationというディレクトリの直下に、???_score.csvというファイル名でシステム毎の評価値を置いています。評価値のファイルはCSV形式となっており、最初の要素が対話のファイル名に対応し、後ろに続く要素が評価値を表します。評価方法はそれぞれ以下です。
<オープントラック>
評価者は、対話の前に、オーガナイザが準備する所定の名詞リスト(Wikipediaの見出し語から作成)から話題として名詞を2つ選択し、それらを話したい話題として対話します。また、対話中に一つの話題からもう一つの話題に切り替えるものとします。自然、かつ、ユーザが話したい話題について情報交換が可能なシステムがよいと考え、以下の3つの観点のそれぞれについて、5段階評価を行います。これらの合計(もしくは平均)を評価の得点とします。
- ・自然性:対話が自然かどうか
- ・話題追随:システムはユーザが選択した話題に関して適切に応答できたかどうか
- ・話題提供:システムはユーザが選択した話題に関して新たな情報を提供できたかどうか
評価値のファイルの第2〜4要素には順に、自然性、話題追随、話題提供の3指標に関するスコアで、1~5点(5点が最高点)です。(本来整数値のスコアですが、話題追随・提供のスコアに関しては1.5など実数値になっている場合があります。これはクラウドソーシングの設定ミスにより、評価点を複数選択可能にしてしまっていたために起こりました。複数の評点が選択された場合は、それらの平均値をスコアとしましたので、整数値になっていない場合が生じています。)評価値のファイルの第5,6要素には、選択された2つの名詞を記載しています。
<シチュエーショントラック>
対話システムは、「どれくらいシチュエーションに適しており、かつ、人らしい会話か」という1つの評価軸を用いて5段階で総合的に評価されます。「シチュエーションに適している」とは、所定の状況に鑑み「人らしい会話」であると直感的に思えることです。評価値ファイルの第2要素が評価値です。「人らしい会話」とは、具体的には以下のような特徴を含みます。
- ・言いにくいことを言わなければならない場合は、相手との社会的な関係性を考慮して、相手に失礼にならないように内容を伝えられること。
- ・適当な「間」や「あいづち」、「フィラー」、「言い淀み」などが用いられていること。
- ・一つの話題に固執することなく、会話の流れに沿って、別の話題に自然に推移できること。
これらは、「シチュエーションに適しており、かつ、人らしい会話」というもののイメージを喚起する参考であり、すべてを満たす必要があるということではありません。
引用
本データを利用した研究を発表する場合は、以下の論文の引用をお願いします。
@inproceedings{livecompe3, title = {対話システムライブコンペティション3}, author = {東中 竜一郎 and 船越 孝太郎 and 高橋 哲朗 and 稲葉 通将 and 角森 唯子 and 赤間 怜奈 and 宇佐美 まゆみ and 川端 良子 and 水上 雅博 and 小室 允人 and Dol\c{c}a Tellols}, booktitle={第90回人工知能学会 言語・音声理解と対話処理研究会(第11回対話システムシンポジウム)}, year = "2020" }
ライセンス
本データはMITライセンスで公開します。
Copyright (c) 2021 対話システムライブコンペティション3オーガナイザー
以下に定める条件に従い、本ソフトウェアおよび関連文書のファイル(以下「ソフトウェア」)の複製を取得するすべての人に対し、ソフトウェアを無制限に扱うことを無償で許可します。 これには、ソフトウェアの複製を使用、複写、変更、結合、掲載、頒布、サブライセンス、および/または販売する権利、およびソフトウェアを提供する相手に同じことを許可する権利も無制限に含まれます。 上記の著作権表示および本許諾表示を、ソフトウェアのすべての複製または重要な部分に記載するものとします。
ソフトウェアは「現状のまま」で、明示であるか暗黙であるかを問わず、何らの保証もなく提供されます。 ここでいう保証とは、商品性、特定の目的への適合性、および権利非侵害についての保証も含みますが、それに限定されるものではありません。 作者または著作権者は、契約行為、不法行為、またはそれ以外であろうと、ソフトウェアに起因または関連し、あるいはソフトウェアの使用またはその他の扱いによって生じる一切の請求、損害、その他の義務について何らの責任も負わないものとします。