[논문리뷰] Hurdles to Progress in Long-form Question Answering

들어가며

오늘 포스팅은 ELI5 (Explain I am Five) 데이터셋에서 SOTA (State-of-the-art)를 기록한 LFQA 논문리뷰를 하겠습니다. 해당 논문은 ELI5 데이터셋 대회에서 SOTA를 기록 하였지만, 여러가지 문제점을 포함합니다. 해당 논문은 이러한 문제점에 대해 분석한 논문이며 포스팅 시작하겠습니다.

Abstract

Introduction

diagram

LFQA 시스템

Retriever

\[\text { loss }=-\sum_{\left(q_{i}, a_{i}\right) \in B} \log \frac{\exp \mathbf{q}_{i} \cdot \mathbf{a}_{i}}{\sum_{a_{j} \in B} \exp \mathbf{q}_{i} \cdot \mathbf{a}_{j}}\]

Generator

Experiments

Dataset & Eval Settings

Baseline

Generation task의 모델만을 비교 실험으로 사용

Result

image-20220116113835753

Analysis

Are generators grounded in retrieval?

본 논문에서 제안한 모델이 SOTA를 기록 하였지만, Retriever의 결과를 매우 적게 반영된 점을 발견

이를 확인 하기 위해 위키 문서에서 랜덤으로 Retriever한 후에 생성 결과를 확인함

Generations are similar irrespective of type of retrievals

image-20220116114934980

predicted: Retriever를 사용한 문서 예측, random: 무작위 샘플로 수집한 문서

Human evaluation validates our findings:

image-20220116122758294

Other systems also have this issue, possibly due to source-reference divergence and train/validation overlap:

Why does our model do well compared to other systems despite not using retrievals?

Takeaway (better evaluation of grounding):

Training / Validation Overlap

image-20220119124333791

Finding similar questions & measuring overlap:

Using retrieved QA for generation

ELI5 performance on overlapping QA

image-20220119140259534

We see the overlap subset has much better retrieval performance and slightly better generation performance.

6.6 RPrec, 8.1 R@5 in retrieval performance favoring the overlap subset, but only a small generation score gain of 0.8 F1, 0.4 R-L

Takeaway

ROUGE-L Bounds on ELI5 Performance

훈련 세트에서 가까운 질문의 답을 복사하는 것만으로도 검색된 질문 중에서 최적의 선택으로 28.5 ROUGE-L을 달성하고 모든 계산 모델을 능가하는 것을 보았습니다.

그러나 이 절대 수치가 얼마나 “좋은” 것입니까? ELI5의 ROUGE-L 점수에 대한 적절한 상한 및 하한은 무엇입니까? ROUGE-L은 LFQA에 대한 유익한 지표입니까?

Lower Bound

  1. 더 긴 출력이 더 높은 ROUGE-L 점수을 기록 하기 때문에 질문을 5번 복사하고 연결합니다(부록 A.6).
  2. 무작위로 training set의 answer를 Retriever함

(1)의 baseline은 Gold answer에 자주 나타나지만, 실제로 질문에 답변하지 않은 엔터티가 포함됨

(2)는 답변의 “스타일”이지만 완전히 주제에서 벗어남

Upper Bound

평균적으로 질문당 12개의 gold answer이 있으므로, 다른 골드 답변에 대해 가장 긴 골드 답변의 ROUGE-L을 측정합니다.

또한 동일한 질문에 대한 두 개의 골드 답변 간의 최대 쌍별(overlap) ROUGE-L을 측정합니다.

KILT test 세트의 gold answer가이 숨겨져 있기 때문에 valid 세트의 상한만 계산합니다.

Lower bounds beat prior work, upper bounds have low ROUGE-L

image-20220119143559825

Takeaway

better automatic metrics needed!

골드 응답에 대해 Generation의 ROUGE-L을 계산하는 것이 valid/invalid 응답을 구별하기에 충분히 선택적이지, 않기 때문에 LFQA 시스템을 평가하는 의미 있는 방법이 아님을 주장

Difficulty of Human Evaluation

ELI5에서 평가의 고유한 어려움을 더 잘 이해하기 위해 인간 주석가(표 3)를 인터뷰하고 두 가지 문제를 발견했습니다.

(1) Unfamiliarity with question topics

(2) Length of Answers:

Conclusion

Ethical Considerations

우리 시스템은 사실 조작(Zellers et al., 2019), 오용 가능성(Brown et al., 2020) 및 Reddit에 만연한 편견 반영(ELI5)과 같은 대부분의 현대 텍스트 생성 기술과 유사한 일련의 문제에 직면해 있습니다. 데이터 세트는 r/ELI5 하위 레딧을 사용하여 구축되었습니다. 우리의 작업에서 우리는 사실 조작을 줄이기 위해 검색된 Wikipedia 기사에 세대를 조건화하여 텍스트 생성기를 보다 사실적으로 만들려고 시도했습니다. 불행히도, 철저한 분석(섹션 3.1)에 따르면 우리 시스템은 여전히 검색에서 해당 세대를 기반으로 하지 않으며 이 문제를 해결하기 위해 사실적 정확성을 측정하기 위해 더 나은 메트릭을 설계할 것을 권장했습니다.