Storm OpenAPI
  1. 관리자 도구
Storm OpenAPI
  • Welcome to STORM
    • STORM 소개
  • Quickstart
    • 시작하기
      • 계정 생성
      • 에이전트 생성
    • 주요 활용 시나리오
      • 문서 업로드
      • 워크플로우 설계
      • 테스트
      • 배포
      • 채널 연동
  • Feature Guide
    • 콘솔
      • 에이전트 관리
      • 대시보드
      • 권한 설정
    • 에이전트 템플릿
      • 지식 탐색
      • 캐릭터 대화
      • 상담기록 분석
      • 기사 작성
      • SQL문 작성
    • 에이전트 빌더
      • 지식
        • 문서
        • 폴더
        • 피드백
      • 워크플로우
        • 노드 설명
          • LLM
          • 검색(RAG)
          • API
          • IF ELSE
          • 변수 선언과 할당
          • 후처리
      • 테스트
      • 로그
      • 대시보드
    • 관리자 도구
      • 배포 관리
      • 채널 연동
      • 모델 파인튜닝
      • 학습 데이터 품질 관리
      • 기타 설정
      • Teams 채널 연동
  • Apis
    • 에이전트
      • 에이전트 조회
      • 에이전트 배포
      • 에이전트 배포 이력 조회
    • 버킷
      • 버킷 생성
      • 버킷 조회
    • 문서
      • 문서 학습 요청 by file
      • 문서 학습 요청 by url
      • 문서 조회
      • 문서 삭제
    • 채팅
      • 채팅 전송 (non-stream)
      • 채팅 전송 (stream)
      • 컨텍스트 검색
    • STORM Parse
      • /convert/md
  • Learn More
    • 자주 묻는 질문
    • 과금 플랜
  1. 관리자 도구

모델 파인튜닝

모델 파인튜닝#

모델 파인튜닝 페이지에서는 에이전트의 검색 모델을 추가로 학습하고 성능을 고도화하여 관리할 수 있습니다. 에이전트가 고객과 대화한 이전 활동 기록을 토대로 학습할 데이터를 자동으로 생성하여 검색 모델을 학습하는데 활용합니다.
파인튜닝은 엔터프라이즈 고객 전용 기능입니다. 자세한 안내가 필요하다면  영업팀에 문의해주시기 바랍니다.
Group 633225.jpg
파인튜닝하기 버튼을 클릭하여 학습에 필요한 정보를 설정합니다.
image.png

학습 데이터 선택#

검색 모델을 파인튜닝할 때에 활용할 데이터를 설정할 수 있습니다.
날짜 범위를 선택하시면, 해당 기간에 발생한 대화 로그를 활용하여 학습을 진행합니다.
데이터의 양에 따라 필요한 학습 시간이 추가될 수 있습니다. 일반적인 경우 15분 이상의 학습 시간이 필요합니다.
특정 폴더의 문서와 관련된 데이터만 필터하여 학습을 진행할 수도 있습니다.
예를 들어, “제품 가이드” 폴더를 선택하면 해당 폴더의 문서와 연관된 대화 로그만 추출되어 모델이 제품 관련 질의응답 성능을 향상시키도록 학습됩니다.

학습 데이터 셋 구성#

정답 데이터 개수
각 질문에 연결되는 정답 문서의 수를 의미합니다. 이 값은 항상 1개로 고정되어 있으며, 변경할 수 없습니다. 질문마다 하나의 정답 문서만 학습에 사용되어 모델이 명확한 정답 매핑을 학습하도록 설계되었습니다.
일반 난이도 오답 데이터 개수
정답 및 질문과 전혀 관련없는 무작위 문서의 데이터를 샘플링하여 일반 난이도 오답 데이터로 추가하여 학습합니다. 모델이 다양한 데이터에 대응하는 일반화 성능을 높이는 역할을 합니다. 값이 너무 작으면 일반화 성능이 떨어지고, 너무 크면 학습 효율이 저하될 수 있습니다.
고난이도 오답 데이터 개수
하나의 질문에 대해, 정답을 제외한 같은 맥락의 문서 중에서 모델이 헷갈려하는 고난이도의 오답 데이터를 몇개나 학습에 사용할지 결정합니다. 이 값을 높이면 모델이 정답과 오답 간의 미세한 차이를 더 잘 학습하게 되지만, 학습 시간과 난이도가 증가합니다.
오답 데이터 제외 기준
일반 난이도 오답 데이터는 무작위 문서에서 데이터를 샘플링하여 추출합니다. 만약 이렇게 샘플링한 데이터가 정답과 너무 비슷하다면, 사실상 정답에 가까운 거짓 오답일 수 있습니다. 이를 방지하기 위해 자카드(Jaccard) 유사도를 기준으로 정답과 지나치게 유사한 오답 후보를 학습에서 제외하여 모델의 혼란을 방지합니다. 값을 낮출수록 일반 난이도 오답 데이터로 판단하는 기준이 엄격해집니다.

학습 방식 설정#

배치 사이즈
학습 시 한 번의 업데이트(스텝)에서 동시에 처리할 데이터 샘플의 개수를 의미합니다. 배치 사이즈가 크면 GPU/TPU 자원을 효율적으로 활용하여 학습 속도를 높일 수 있지만, 메모리 사용량이 급격히 증가합니다. 반대로 배치 사이즈가 작으면 메모리 부담은 줄어들지만, 학습이 불안정하거나 시간이 오래 걸릴 수 있습니다. 일반적으로 자원 상황과 모델의 안정성을 고려해 적절한 값을 선택하는 것이 중요합니다.
학습 레이어 개수
사전 학습된 모델의 전체 레이어 중 초기 일부 레이어만 학습 대상으로 지정합니다(미세조정). 레이어 수를 적게 설정하면 기존 모델의 안정성을 유지하며 학습할 수 있고, 레이어 수를 많게 설정하면 모델을 더 크게 변화시킬수 있습니다. 레이어 수를 많게 설정하는 경우 과적합의 위험이 있을 수 있으니 주의가 필요하며, 학습 시간과 비용이 증가할 수 있습니다.
반복 학습 횟수
전체 학습 데이터를 몇 번의 횟수로 반복하여 학습할지를 결정합니다. 반복 횟수가 늘어날수록 모델의 성능이 향상될 수 있지만, 학습 시간이 길어지고 과적합의 가능성도 함께 높아질 수 있으니 주의가 필요합니다.

학습 비중 조절#

학습 강도
질문과 문서의 유사도 점수를 확률로 변환할 때, 분포를 얼마나 뾰족하게 만들지 결정합니다. 값이 낮을수록 가장 높은 점수를 받은 정답 문서에 확률을 집중시켜 '정답과 나머지'의 대비를 극대화합니다. 단, 너무 낮으면 학습이 불안정해질 수 있으니 주의가 필요합니다.
고난이도 문제 집중 정도
모델이 예측한 정답 확률에 따라 손실(loss)의 가중치를 조절할 수 있습니다. 1보다 작으면 모델이 맞히기 어려워하는(확률이 낮은) 데이터의 학습 가중치를 높여 어려운 문제에 더 집중하도록 유도합니다. 반대로 1보다 크면, 이미 잘 맞히는(확률이 높은) 데이터에 집중하게 됩니다.
최소 학습 비중
고난이도 문제 집중 정도(alpha)에 의해 특정 데이터의 학습 가중치가 0에 가까줘져 학습에서 완전히 무시되는 것을 방지하는 안전장치입니다. 아무리 어려운 문제라도 최소한 이 값만큼의 가중치를 보장하여 학습 기회를 부여합니다. 해당 값이 0이면 이 기능을 사용하지 않습니다.
Modified at 2025-10-17 08:39:55
Previous
채널 연동
Next
학습 데이터 품질 관리
Built with