각 질문에 연결되는 정답 문서의 수를 의미합니다. 이 값은 항상 1개로 고정되어 있으며, 변경할 수 없습니다. 질문마다 하나의 정답 문서만 학습에 사용되어 모델이 명확한 정답 매핑을 학습하도록 설계되었습니다.
일반 난이도 오답 데이터 개수
정답 및 질문과 전혀 관련없는 무작위 문서의 데이터를 샘플링하여 일반 난이도 오답 데이터로 추가하여 학습합니다. 모델이 다양한 데이터에 대응하는 일반화 성능을 높이는 역할을 합니다. 값이 너무 작으면 일반화 성능이 떨어지고, 너무 크면 학습 효율이 저하될 수 있습니다.
고난이도 오답 데이터 개수
하나의 질문에 대해, 정답을 제외한 같은 맥락의 문서 중에서 모델이 헷갈려하는 고난이도의 오답 데이터를 몇개나 학습에 사용할지 결정합니다. 이 값을 높이면 모델이 정답과 오답 간의 미세한 차이를 더 잘 학습하게 되지만, 학습 시간과 난이도가 증가합니다.
오답 데이터 제외 기준
일반 난이도 오답 데이터는 무작위 문서에서 데이터를 샘플링하여 추출합니다. 만약 이렇게 샘플링한 데이터가 정답과 너무 비슷하다면, 사실상 정답에 가까운 거짓 오답일 수 있습니다. 이를 방지하기 위해 자카드(Jaccard) 유사도를 기준으로 정답과 지나치게 유사한 오답 후보를 학습에서 제외하여 모델의 혼란을 방지합니다. 값을 낮출수록 일반 난이도 오답 데이터로 판단하는 기준이 엄격해집니다.
학습 시 한 번의 업데이트(스텝)에서 동시에 처리할 데이터 샘플의 개수를 의미합니다. 배치 사이즈가 크면 GPU/TPU 자원을 효율적으로 활용하여 학습 속도를 높일 수 있지만, 메모리 사용량이 급격히 증가합니다. 반대로 배치 사이즈가 작으면 메모리 부담은 줄어들지만, 학습이 불안정하거나 시간이 오래 걸릴 수 있습니다. 일반적으로 자원 상황과 모델의 안정성을 고려해 적절한 값을 선택하는 것이 중요합니다.
학습 레이어 개수
사전 학습된 모델의 전체 레이어 중 초기 일부 레이어만 학습 대상으로 지정합니다(미세조정). 레이어 수를 적게 설정하면 기존 모델의 안정성을 유지하며 학습할 수 있고, 레이어 수를 많게 설정하면 모델을 더 크게 변화시킬수 있습니다. 레이어 수를 많게 설정하는 경우 과적합의 위험이 있을 수 있으니 주의가 필요하며, 학습 시간과 비용이 증가할 수 있습니다.
반복 학습 횟수
전체 학습 데이터를 몇 번의 횟수로 반복하여 학습할지를 결정합니다. 반복 횟수가 늘어날수록 모델의 성능이 향상될 수 있지만, 학습 시간이 길어지고 과적합의 가능성도 함께 높아질 수 있으니 주의가 필요합니다.
질문과 문서의 유사도 점수를 확률로 변환할 때, 분포를 얼마나 뾰족하게 만들지 결정합니다. 값이 낮을수록 가장 높은 점수를 받은 정답 문서에 확률을 집중시켜 '정답과 나머지'의 대비를 극대화합니다. 단, 너무 낮으면 학습이 불안정해질 수 있으니 주의가 필요합니다.
고난이도 문제 집중 정도
모델이 예측한 정답 확률에 따라 손실(loss)의 가중치를 조절할 수 있습니다. 1보다 작으면 모델이 맞히기 어려워하는(확률이 낮은) 데이터의 학습 가중치를 높여 어려운 문제에 더 집중하도록 유도합니다. 반대로 1보다 크면, 이미 잘 맞히는(확률이 높은) 데이터에 집중하게 됩니다.
최소 학습 비중
고난이도 문제 집중 정도(alpha)에 의해 특정 데이터의 학습 가중치가 0에 가까줘져 학습에서 완전히 무시되는 것을 방지하는 안전장치입니다. 아무리 어려운 문제라도 최소한 이 값만큼의 가중치를 보장하여 학습 기회를 부여합니다. 해당 값이 0이면 이 기능을 사용하지 않습니다.