評価手法としてではない評価手法

本記事は,GEC (Grammatical Error Correction) Advent Calendar 2021 の18日目の記事です.

はじめに

評価手法は,基本的に「評価手法を提案した」ことをメインに発表されることが多いです.一方で,それ以外の主張をメインとするときでも,評価手法(とみなせるもの)が含まれることがあります.この記事では前者を「評価手法としての評価手法」,後者のことを「評価手法としてではない評価手法」と呼び,後者にフォーカスします.こうした話は,「良い訂正文とは何か」とか,「Grammaticalとは何か」という話題について,他の研究者がどう考えているかを知ることにつながると思っています.

ひとまず概要として「評価手法としてではない評価手法」がどういうものに該当するかを書きます.その後,具体的な手法をつらつらと書きたいと思います.

概要

ひとまずどういうものが「評価指標としてではない評価手法」になりうるか,というと

  • リランキング手法
  • 強化学習のリワード計算手法
  • データクリーニング手法

あたりがあると思っています.

リランキングはGECモデルに複数の訂正文を生成させて,それらの文を別のモジュールで並び替えることです.この処理においては「別のモジュール」が複数の訂正文をそれぞれ評価し,順位をつけているとみなせます.

強化学習のリワードも評価手法として捉えられます.例えばSakaguchi+ 2016はGLEUをリワード計算手法として用いています.そういう意味では,既存の評価手法がリワード計算に用いられるケースが多い気もしますが,リワード計算手法を独自に設計した場合は「評価手法としてではない評価手法」に該当します.

データのクリーニングもある種の評価手法が使われていると思います.クリーニングすべき文を判断するときや,クリーニング後の文を採用するかどうかに関する意思決定においては,文を特定の観点で評価する必要があります.

逆に考えると,評価手法は単にベンチマーク上でシステムの順位づけをするだけではなく,上のことにも応用できると思っています.そういう意味でも,評価って面白いですよね(僕だけかも).

以下には具体的な手法を列挙しますが,基本的に上の3つの文脈に当てはまると思います.このテーマについて腰を据えてサーベイしたわけではないので雑かもしれませんが,ご容赦ください(あまり時間がなかった...).

評価手法としてではない評価手法

R2L(Right to Left)

文の末尾からの確率で評価する方法です.リランキングの文脈で使われています.GECではKiyono+ 2019で使われている印象が強いです.評価軸は文の最もらしさでしょう.おそらく初出はLiu+ 2016で,ほぼ同時にSennrich+ 2016も試していたという感じだと思います.

誤り検出器

GECの訂正結果を誤り検出器の検出結果と比べて評価する方法です.リランキングの文脈で使われています.代表的なのはYuan+ 2021です.誤り検出ラベルを定義しており,検出器と訂正器のラベルの近さで並び替えます.検出はFalse Positive(モデルが修正したけど間違い)を減らすというモチベーションで導入されることが多い印象です.つまり,評価軸は誤検出が少ないかどうかになると思います.

ちなみに,「評価手法としての評価手法」ではNapoles+ 2016が誤り検出に基づいています.

入力文と生成文を用いた文ペア分類

GECの生成文を入力文(ソース)と一緒にニューラルベースの評価器に入力し,評価する方法です.Raheja+ 2020強化学習のリワード計算の文脈で提案しています.特にこの研究では,文ペア分類器は生成文を「人が訂正したものか?Generatorが訂正したものか?」という観点で分類するように学習します.ですので,評価軸は人間らしい訂正かどうかになると思います.

LM-Critic

評価対象の文に対する近傍の文を多数生成し,評価対象の文のPPLが一番低ければOKみたいな評価方法です.Yasunaga+ 2021が,BIFIという手法をGECに適用するために提案しました.BIFIの詳細は11日目の記事で触れましたが,主にデータクリーニングの文脈で使われていると思っています.評価軸は文がGrammaticalかどうかです(著者らはGrammaticalにおける前提をけっこう強く置いていて,だからこそなせる技かもしれない).

PPLの比較(2文に対する比較)

ある2文が存在するときにPPLを比べて優劣をつけるための評価方法です.Mita+ 2020はデータのデノイズの文脈で,PPLを比べることで文の優劣を評価しています.PPLは文の尤度に絡むものなので,評価軸はR2Lと同様,文の最もらしさです.

上で述べたLM-CriticもPPLに基づきますが,入力が1文です.ここでは2文を比べて何かモノをいう場面を想定していて,項目を分けました.

「評価手法としての評価手法」では,参照なし評価手法であるScribendi Score(Islam+ 2021)がPPLの比較に基づいています.

おわりに

「評価手法としてではない評価手法」にフォーカスしました.個人的には,評価手法はベンチマークの評価以外にも応用できるということが再確認できました.また,今回紹介したように,モデルを提案する手法の中にも評価を独自の視点で組み込んでいることがあるので,今後も注目すると面白いかもしれません.