ROUGE는 자동 생성된 텍스트의 품질을 평가하는 중요한 지표로, 특히 텍스트 요약이나 기계 번역 같은 자연어 생성 작업에서 널리 사용됩니다.
ROUGE의 기본 원리는 매우 직관적입니다.
기계가 생성한 텍스트를 사람이 직접 작성한 '정답' 텍스트와 비교하여, 둘 사이의 유사도를 측정합니다.
이때 여러 가지 관점(다양한 종류의 ROGUE 점수)에서 평가를 진행하는데, 각각의 평가 방식이 서로 다른 특징을 가지고 있어 함께 사용될 때 더욱 의미 있는 평가가 가능합니다.
가장 기본이 되는 ROUGE-1(R1)부터 살펴보겠습니다.
ROUGE-1 (R1)
ROUGE-1(R1)은 개별 단어의 일치도를 측정합니다. 예를 들어, 생성된 요약문과 참조 요약문에서 같은 단어가 얼마나 많이 등장하는지를 확인합니다. 이는 가장 단순하지만 중요한 평가 방식으로, 핵심 단어들이 제대로 포함되었는지를 확인할 수 있습니다.
ROGUE-2 (R2)
ROUGE-2(R2)는 한 단계 더 나아가 연속된 두 단어의 일치도를 측정합니다. 예를 들어 "인공 지능"이라는 구절이 있다면, "인공"과 "지능"이 정확히 이 순서로 붙어있는지를 확인합니다. 이는 단순히 개별 단어의 존재 여부를 넘어서, 단어 한개 한개 평가 했더라면 손실 되었을 문맥과 의미의 보존을 평가할 수 있게 해줍니다.
이처럼 ROGUE-N 평가 지표들은 N에 숫자를 넣어서
연속된 N개의 단어들을 한 쌍으로 평가 할 수 있습니다
ROUGE-L (RL)
ROUGE-L(RL)은 더욱 정교한 평가 방식을 제공합니다. 최장 공통 부분조합 LCM (Longest Common Subsequence)이라는 개념을 사용하여, 두 텍스트 간의 구조적 유사성을 측정합니다. 단어들이 반드시 연속적일 필요는 없지만, 순서는 유지되어야 합니다. 이는 문장 구조와 아이디어의 흐름을 평가하는 데 특히 유용합니다.
https://tonnykang.tistory.com/228
LCM에 대한 개념과 구하는 알고리즘은 위 글에 상세하게 설명되어있습니다!
ROUGE-W (RW)
ROUGE-W는 ROUGE-L을 발전시킨 형태입니다. 연속된 단어 매칭에 더 높은 가중치를 부여함으로써, 문장의 자연스러움과 응집성을 더 잘 평가할 수 있습니다. 예를 들어, 네 단어가 연속으로 일치하는 경우가 두 단어씩 떨어져서 일치하는 경우보다 더 높은 점수를 받게 됩니다.
ROUGE-S (RS)
ROUGE-S는 건너뛰기 가능한 단어쌍(skip-bigram)을 사용합니다. 예를 들어 "오늘 날씨가 좋다"라는 문장에서 "오늘"과 "좋다"는 비록 떨어져 있지만 하나의 단어쌍으로 인정됩니다. 이는 문장의 구조가 약간 다르더라도 본질적인 의미가 보존되었는지를 평가하는 데 도움이 됩니다.
ROUGE-SU
ROUGE-SU는 ROUGE-S에 단일 단어 평가를 추가한 것입니다. 이는 건너뛰기 단어쌍으로 포착되지 않는 중요한 개별 단어들도 평가에 포함시킬 수 있게 해줍니다.
모든 ROUGE 지표는 재현율(Recall), 정밀도(Precision), F1 점수라는 세 가지 관점에서 측정됩니다:
Ground Truth가 되는 글과 생성된 글을 비교할 때
Recall은 Ground Truth에 사용된 단어 몇개를 생성된 글에서 사용했는지
Precision은 생성된 글의 단어들 중에서 몇개가 Ground Truth에서 사용됐는지 이다
- 재현율은 참조 텍스트의 내용이 얼마나 많이 생성된 텍스트에 포함되었는지를 나타냅니다.
- 정밀도는 생성된 텍스트의 내용 중 얼마나 많은 것이 참조 텍스트와 관련이 있는지를 보여줍니다.
- F1 점수는 재현율과 정밀도의 조화평균(Harmonic Mean)으로, 둘 사이의 균형을 나타냅니다.
이러한 다양한 ROUGE 지표들을 함께 사용하는 것이 중요한 이유는, 각각이 텍스트의 다른 측면을 평가하기 때문입니다. ROUGE-1이 기본적인 내용 포함 여부를 확인한다면, ROUGE-2는 구절 수준의 정확성을, ROUGE-L은 전체적인 구조를, ROUGE-W는 문장의 자연스러움을, ROUGE-S와 ROUGE-SU는 유연한 구조 보존을 평가합니다.
이러한 종합적인 평가를 통해, 우리는 자동 생성된 텍스트가 단순히 올바른 단어를 포함하고 있는지를 넘어서, 문맥을 제대로 이해하고 자연스러운 문장을 만들어내는지까지 평가할 수 있게 됩니다.
'컴퓨터공학 > 인공지능' 카테고리의 다른 글
분류기 성능지표들과 ROC Curve, Confusion Matrix (1) | 2024.12.06 |
---|---|
저수지 샘플링 Reservoir Sampling (2) | 2024.10.23 |
Leetcode Introduction to Pandas 기본 문법 정리 (2) | 2024.10.10 |
Custom Convnets 특수 제작 Convnet (79) | 2024.08.14 |
Stride CNN, 보폭 (82) | 2024.08.13 |