AI 작업 성능 평가하기

AI 작업 성능 평가하기


aidoc
에서는 자체 성능 평가를 통해 AI 작업의 성능을 실시간으로 확인하고 기준 치에 미달한 AI 작업을 튜닝하여 정확도를 개선하는데 활용할 수 있습니다.

시스템 관리자는 도메인별 AI 작업 성능을 측정하고 측정한 결과와 성능 평가 이력을 확인할 수 있습니다. 또한 성능 평가의 기준(측정 기준)을 변경할 수도 있습니다.

성능 평가 대상이 되는 AI 작업은 다음과 같습니다.

  1. 유사 문서 추천

  1. 해시태그 전문가 DB 생성 학습

  1. 카테고리 전문가 DB 생성 학습

  1. 주기 문서 추천

  1. 유저 프로파일 학습

  1. 카테고리 학습
Notes위의 AI 작업별로 시스템에서 사용되는 성능 측정 기준 및 측정 방식은 아래 목차 [참고] AI 작업 성능 측정 방법을 참고합니다.

AI 작업 성능 평가 현황 확인하기

1.     AI 작업 – AI 성능 평가 현황을 선택합니다. 이전에 실행된 측정 결과가 있을 경우, 최근 결과가 표시됩니다.


  1. 작업명: 성능 평가 대상 AI 작업의 이름

  1. 측정 건수: 성능 평가에 사용된 작업 건수

  1. 측정 기준(정확도): 성공/실패의 기준이 되는 정확도

  1. 측정 값: 실제로 측정된 성능 값(정확도)

  1. 측정 상태: 성능 평가 작업의 수행 상태(준비/대기/진행) 또는 이전 작업의 결과(성공/실패/중지)

  1. 측정 완료 시간: 측정이 완료된 시간

  1. 측정 로그: 상세보기 버튼을 클릭하여 과거 성능 평가 이력 조회 가능
Notes
멀티도메인 환경에서는 AI 성능 평가 현황 메뉴 선택 시 다음 화면에서 도메인을 먼저 선택해야 합니다.



도메인을 선택하면 도메인별 AI 성능 평가 현황 페이지로 이동하며, 싱글도메인에서와 달리 페이지의 우측 상단에 도메인 변경 버튼이 추가로 표시됩니다. 이 버튼을 클릭하여 필요 시 도메인을 변경할 수 있습니다.



AI 작업 성능 측정하기

1.     AI 성능 평가 현황 페이지 우측 상단의 측정 버튼을 클릭합니다. 

Notes이미 성능 평가 작업이 진행 중이거나 대기 중인 경우에는 측정 버튼 대신 측정 중지 버튼이 표시됩니다.

2.   
‘AI 성능 평가 측정’ 창에서 성능 측정을 원하는 AI 작업 항목을 체크하고 측정 건수를 입력한 후 하단의 측정 버튼을 클릭합니다.


 
3.  측정이 실행되면 선택한 작업들의 측정 상태가 일괄적으로 대기로 변경되고 하나씩 차례로 측정이 진행됩니다.

Idea
  1. 새로고침 버튼을 클릭하면 해당 시점의 측정 상태를 반영하므로 실시간 평가 현황을 확인할 수 있습니다.
  2. 측정을 중지하고 싶다면 우측 상단에 있는 측정 중지 버튼을 클릭합니다. 측정 중지 시 대기 또는 진행 중인 성능 평가 작업이 일괄 취소됩니다.  

4.  
측정이 완료되면 측정 값측정 완료 시간이 생성되고 측정 결과에 따라 측정 상태 값이 성공/실패로 변경됩니다.


AI 성능 평가 기준 변경하기

1.     AI 성능 평가 현황 페이지에서 성능 평가 대상인 AI 작업 우측의 아이콘을 클릭합니다.

 
2.     측정 기준 수정창에서 측정 기준(정확도)을 변경하려는 기준으로 입력합니다.

 

3.    하단의 변경 버튼을 클릭하여 측정 기준을 변경합니다.


AI 성능 평가 결과 상세 로그 보기

1.     AI 성능 평가 현황 페이지에서 성능 평가 이력을 확인할 AI 작업의 측정 로그 항목에 있는 상세보기 버튼을 클릭합니다. 

 
2.     과거에 측정했던 성능 평가 이력의 로그 시간, 작업명, 측정 건수, 측정 값, 측정 결과, 실패 원인을 확인할 수 있습니다.


  1. 실패 원인
    1. 데이터 없음: 측정할 데이터가 부족하다는 의미로 성능 평가를 진행할 문서나 사용자 이력이 부족한 상태입니다.
    1. 데이터 이상: 측정할 데이터는 있지만 데이터나 학습 모델 이상으로 성능 평가가 진행되지 않은 상태입니다. 해당 실패 원인이 나타나면 데이터 검토가 필요합니다.
    1. 서버 이상: 성능 평가가 진행되는 AI 서버에 문제가 발생한 상태입니다. 해당 실패 원인이 나타나면 서버 검토가 필요합니다.
 

[참고] AI 작업 성능 측정 방법

유사 문서 추천

  1. 측정 기준치
    1. 문자열 비교 알고리즘 중 하나인 레벤슈타인 거리(Levenshtein Distance)를 사용하여 두 문자열의 일치 비율을 측정합니다.
    1. 레벤슈타인 거리는 편집 거리라고도 하며 특정 문자열을 다른 문자열로 변경하는데 필요한 최소 작업, 편집 수를 측정하는 수치로 두 문자열의 일치 비율을 알 수 있습니다.
  1. 측정 방식
①    임베딩 벡터가 존재하는 문서들을 확장자 별로 그룹화한 후 문서 제목에서 키워드를 추출하여 확장자별 상위 키워드 리스트를 생성합니다.

②    상위 키워드 리스트에 포함된 문서 제목을 가진 문서들 중 일정한 비율로 무작위 문서를 추출하여 유사 문서 추천을 진행합니다.

③    유사 문서 추천 목록 중 첫번째 문서의 문서 내용과 추천을 요청한 문서 내용의 유사도를 레벤슈타인 거리를 사용하여 수치로 평가합니다.
 

해시태그 전문가 DB 생성 학습

  1. 측정 기준치       
  1. 랭킹 기반 추천 시스템 평가 방법 중 하나인 Mean Average Precision@K (MAP@K)를 사용하여 측정합니다.
  1. MAP@K는 추천 결과의 순서를 고려한 평가 방식으로 관련도가 높은 문서가 상위에 추천되고 있는지 평가할 수 있는 평가 지표입니다.
  1. 측정 방식
①   해시 태그가 존재하는 문서를 일정한 비율로 무작위 추출하여 유사 문서 추천을 진행합니다.

②   유사 문서 추천 목록 내 문서들의 작성자가 해당 문서의 해시 태그 전문가인지 확인합니다.

③   해시 태그 전문가가 작성한 문서가 있다면 추천 목록 중 몇 번째로 추천되었는지 순서를 수치로 평가합니다.

카테고리 전문가 DB 생성 학습

  1. 측정 기준치     
  1. 랭킹 기반 추천 시스템 평가 방법 중 하나인 Mean Average Precision@K (MAP@K)를 사용하여 측정합니다.
  1. MAP@K는 추천 결과의 순서를 고려한 평가 방식으로 관련도가 높은 문서가 상위에 추천되고 있는지 평가할 수 있는 평가 지표입니다.
  1. 측정 방식
①   카테고리가 존재하는 문서를 일정한 비율로 무작위 추출하여 유사 문서 추천을 진행합니다.

②   유사 문서 추천 목록 내 문서들의 작성자가 해당 문서의 카테고리 전문가인지 확인합니다.

③   카테고리 전문가가 작성한 문서가 있다면 추천 목록 중 몇 번째로 추천되었는지 순서를 수치로 평가합니다.

주기 문서 추천

  1. 측정 기준치
  1. 추천 시스템 평가 방법 중 하나인 Precision@K를 사용하여 측정합니다.
  1. Precision@K는 추천한 문서 목록 상위 K개 중 실제 사용자가 관심을 보인 문서의 비율을 평가할 수 있는 평가 지표입니다.
  1. 측정 방식
①   일주일에 생성된 주기 문서 추천 목록과 문서 작성 및 열람 이력을 조회합니다.

②   조회된 문서 작성 및 열람 이력과 주기 문서 추천 목록 중 서로 일치하는 추천이 있는지 확인합니다.

③   일치하는 추천이 있다면, 주기 추천 목록 중 사용자의 문서 작성 및 열람 이력과 일치하는 비율을 수치로 평가합니다.

 

유저 프로파일 학습

  1. 측정 기준치       
    1. 분류 모델 성능 평가 지표인 confusion matrix를 활용하여 아래와 같은 지표를 측정합니다.
용어
설명
정확도 (accuracy)
전체 샘플 중 올바르게 분류된 샘플의 비율
정밀도 (precision)
모델이 양성으로 예측한 샘플 중 실제로 양성인 샘플의 비율
재현율 (recall)
실제로 양성인 샘플 중 모델이 정확하게 양성으로 예측한 샘플의 비율
F1 점수 (F1score)
정밀도와 재현율의 조화 평균으로 계산
  1. 측정 방식

①   무작위로 문서 열람 이력을 선정한 후, 절반은 실제 존재하는(선정된) 문서 열람 이력, 나머지 절반은 존재하지 않는(조작된) 문서 열람 이력으로 구성된 문서 열람 이력을 생성합니다.

②   생성된 열람 이력에 대한 모델의 예측 결과를 앞서 제시한 측정 지표로 평가합니다.
 

카테고리 학습

  1. 측정 기준치

  1. 군집 분석에서 클러스터링 결과의 품질을 평가하기 위한 지표 중 하나인 실루엣 계수(Silhouette Coefficient) 지표를 사용하여 측정합니다.

  1. 이 지표는 각 샘플이 속한 클러스터 내의 응집력과 다른 클러스터 간의 분리도를 고려하여 계산됩니다.

  1. 측정 방식

①   카테고리가 존재하는 문서를 일정한 비율로 무작위 추출합니다.

②   동일한 카테고리 내의 모든 다른 문서 간의 거리를 평균 내어 응집력을 계산합니다.

③   가장 가까운 다른 카테고리의 모든 문서와의 거리를 평균 내어 분리도를 계산합니다.

④   (분리도-응집력)으로 실루엣 계수를 계산합니다.


 



    • Related Articles

    • AI 작업 소개

      AI 작업 종류 추천서비스와 같은 AI 서비스를 제공하기 위해 aidoc 시스템은 문서 벡터화, 카테고리 생성 및 문서 분류, 연관 검색어 학습 등의 AI 작업을 수행합니다. aidoc 시스템에서 수행되는 AI 작업의 종류는 아래의 표와 같으며 다음의 특징을 갖습니다. 작업의 종류에 따라 CPU 또는 GPU 자원이 요구되며, 해당 작업에 필요한 자원을 보유한 AI 서버에 할당되어 수행됩니다. 연관 검색어 학습은 모든 고객사(도메인)에 대해 ...
    • AI 작업 현황 확인하기

      서비스 관리자는 해당 도메인에서 발생하는 AI 작업의 수행 상태를 AI 작업 스레드 단위로 확인하고, 일부 수동으로 실행되는 스레드(예: 문서 벡터화 스레드)를 실행할 수 있습니다. AI 작업 상태를 확인하기 위해서는 관리자 웹페이지에서 AI 작업 – 작업 현황 메뉴를 선택합니다. AI 작업 스레드의 종류와 구성 작업, 작업 상태에 대한 설명은 AI 작업 소개를 참고합니다. 멀티도메인 환경의 시스템 관리자 페이지에서는 ‘작업 현황’ 대신 ‘전체 ...
    • 새 추천 문서 확인하기

      aidoc 웹 서비스 화면의 우측 상단에는 새로운 문서 추천(열람 유사 문서와 주기 문서) 알림이 수신되었음을 알려주는 문서 추천 수신 알림 아이콘이 있습니다. 아이콘 위에 표시된 숫자는 새로 수신된 문서 추천 알림의 개수를 나타내며, 9개가 넘으면 9+로 표시됩니다. 이 아이콘을 클릭하면 다음과 같은 ‘문서 추천 알림 창’이 나타납니다. 문서 추천 알림 창 살펴보기 문서 추천 알림 창은 다음 항목들로 구성됩니다. 새 문서 추천 알림 개수 ...
    • AI 작업 스레드 실행 스케줄 설정하기

      AI 작업 스레드는 종류에 따라 관리자가 수동으로 실행하거나 미리 설정된 주기에 따라 자동으로 실행됩니다. 주기적으로 자동 실행되는 스레드는 다음과 같습니다 카테고리 전문가 DB 생성 스레드 주기 문서 생성 스레드 신규 문서 벡터화 스레드 유저 프로파일 학습 스레드 해시태그 전문가 DB 생성 스레드 연관 검색어 학습 스레드 AI 작업 스레드의 종류 및 실행 방법에 대한 설명은 AI 작업 소개 를 참고합니다. 연관 검색어 학습 스레드는 수동 ...
    • 유저 프로파일 설정

      메뉴 경로: 환경 설정 – 유저 프로파일 유저 프로파일 학습 시 필요한 가중치 및 유사도 기준 점수 등의 설정을 관리합니다. 학습 관련 설정 값 수정 시 연관된 학습이 진행중이면 다음 학습부터 적용됩니다. AI 유저 프로파일 옵션 내용 기본값 범위 카테고리 가중치 • 유저 프로파일 학습에 적용될 열람 카테고리 정보에 부여할 가중치입니다. • 최근 자주 접근한 카테고리에 속하는 문서가 추천 목록에 포함될 때 추가되는 점수입니다. 0.05 0.01 ...