Auc 곡선하면적 - auc gogseonhamyeonjeog

...

목차 Show

저널정보
저자정보
초록·키워드
참고문헌 (14)
함께 읽어보면 좋을 논문
이 논문의 저자 정보
이 논문과 함께 이용한 논문
최근 본 자료
로지스틱 회귀 분류에 대한 ROC 곡선 플로팅하기
ROC 곡선을 사용하여 분류 방법 비교하기
사용자 지정 커널 함수에 대한 모수 값 결정하기
분류 트리에 대한 ROC 곡선 플로팅하기
ROC 곡선에 대한 점별(Pointwise) 신뢰구간 계산하기
입력 인수
labels — 실제 클래스 레이블 숫자형 벡터 | 논리형 벡터 | 문자형 행렬 | string형 배열 | 문자형 벡터로 구성된 셀형 배열 | categorical형 배열
scores — 분류기에서 반환되는 점수 부동소수점으로 구성된 벡터
posclass — 양성 클래스 레이블 숫자형 스칼라 | 논리형 스칼라 | 문자형 벡터 | string형 스칼라 | 문자형 벡터를 포함하는 셀 | categorical형 스칼라
이름-값 인수
NegClass — 음성 클래스 목록 'all' (디폴트 값) | 숫자형 배열 | categorical형 배열 | string형 배열 | 문자형 벡터로 구성된 셀형 배열
XCrit — X 계산 기준 'fpr' (디폴트 값) | 'fnr' | 'tnr' | 'ppv' | 'ecost' | ...
YCrit — Y 계산 기준 'tpr' (디폴트 값) | X의 경우와 동일한 기준 옵션
XVals — X 기준에 대한 값 'all' (디폴트 값) | 숫자형 배열
TVals — 양성 클래스 점수에 대한 분계점 'all' (디폴트 값) | 숫자형 배열
UseNearest — 데이터에서 가장 가까운 값을 사용할지에 대한 표시자 'on' (디폴트 값) | 'off'
ProcessNaN — NaN 점수를 처리하는 데 사용할 perfcurve 방법 'ignore' (디폴트 값) | 'addtofalse'
Prior — 양성 클래스와 음성 클래스에 대한 사전 확률 'empirical' (디폴트 값) | 'uniform' | 두 요소를 가진 배열
Cost — 오분류 비용 [0 1;1 0] (디폴트 값) | 2×2 행렬
Alpha — 유의수준 0.05 (디폴트 값) | 범위 0~1에 속하는 스칼라 값
Weights — 관측값 가중치 음이 아닌 스칼라 값으로 구성된 벡터 | 음이 아닌 스칼라 값으로 구성된 벡터로 구성된 셀형 배열
NBoot — 부트스트랩 복제 개수 0 (디폴트 값) | 양의 정수
BootType — bootci에 대한 신뢰구간 유형 'bca' (디폴트 값) | 'norm | 'per' | 'cper' | 'stud'
BootArg — bootci에 대한 선택적 입력 인수 [ ] (디폴트 값) | {'Nbootstd',nbootstd}
Options — 신뢰구간의 계산을 제어하는 옵션 [] (디폴트 값) | statset에서 반환되는 구조체형 배열
출력 인수
X — 성능 곡선의 x 좌표 벡터, fpr (디폴트 값) | m×3 행렬
Y — 성능 곡선의 y 좌표 벡터, tpr (디폴트 값) | m×3 행렬
T — 분류기 점수에 대한 분계점 벡터 | m×3 행렬
AUC — 곡선 아래 면적 스칼라 값 | 3×1 벡터
OPTROCPT — ROC 곡선의 최적 조작점 1×2 배열
SUBY — 음성 서브클래스의 값 배열
SUBYNAMES — 음성 클래스 이름 셀형 배열
알고리즘
점별 신뢰한계
대체 기능
참고 문헌
확장 기능
자동 병렬 지원 Parallel Computing Toolbox™를 사용해 자동 병렬 계산을 실행하여 코드 실행 속도를 높일 수 있습니다.
버전 내역
R2022a: 디폴트 Cost 값이 변경됨

저널정보

한국데이터정보과학회
한국데이터정보과학회지 학술저널
한국데이터정보과학회지 제26권 제6호
2015.12 1,367 - 1,375 (9page)

저자정보

양대순

이용수

내서재

내서재에 추가
되었습니다. 내서재에서
삭제되었습니다.

초록·키워드

경시적자료의 분석으로 선형성장모형을 고려한다. 시간효과를 고려하는 모형과 임의효과를 추가하는 모형 그리고 가변수가 추가된 모형을 설정한다. 본 연구는 정규분포로 가정한 다양한 자료를생성하고, 다양한 선형성장모형에 대하여 binormal ROC 곡선과 AUC 통계량을 여러 시점에서 구하여 비교 분석하였다. 공분산의 크기가 증가할수록 그리고 시간이 경과할수록 ROC 곡선은 다른형태로 나타나며 AUC 값은 서서히 증가한다. 반대로 공분산이 작아질수록 시간이 경과함에 따라AUC의 증가폭이 커진다. 임의효과모형에서 공분산이 양인 경우에 시간이 경과할수록 임의효과모형의 분산이 증가하며 AUC의 증가량은 시간효과모형의 AUC의 증가량보다 작다. 그리고 시간효과모형의 AUC의 증가량보다 임의효과모형의 증가량이 더 크다는 것을 탐색하였다.

Consider the linear growth models for longitudinal data analysis. Several kind of linear growth models are selected such as time-effect and random-effect models as well as a dummy variable included model. In this work, simulation data are generated with normality assumption, and both binormal ROC curve and AUC are obtained and compared for various linear growth models. It is found that ROC curves have different shapes and AUC increase slowly, as values of the covariance increase and the time passes for random-effect models. On the other hand, AUC increases very fast as values of covariance decrease. When the covariance has positive value, we explored that the variances of random-effect models increase and the increment of AUC is smaller than that of AUC for time-effect models. And the increment of AUC for time-effect models is larger than the increment for random-effect models.

참고문헌 (14)

함께 읽어보면 좋을 논문

논문 유사도에 따라 DBpia 가 추천하는 논문입니다. 함께 보면 좋을 연관 논문을 확인해보세요!

ROC 곡선 길이의 판단기준
홍종선 , 장동환
한국데이터정보과학회지
2020.09
판별모형의 평가에서 ROC 곡선과 AUC의 활용에 대한 사례 연구
김지현 , 신선화 , 강현철
Journal of The Korean Data Analysis Society
2018
절단함수를 이용한 AUC와 VUS
홍종선 , 홍성혁
응용통계연구
2019
부분 AUC와 VUS를 최대화하는 선형결합 스코어에 대한 최적분류점 구간
홍종선 , 전해선 , 신혜수
한국데이터정보과학회지
2019.07
AUC 최적화를 이용한 낮은 부도율 자료의 모수추정
홍종선 , 원치환
응용통계연구
2016

이 논문의 저자 정보

홍종선

소속기관 성균관대학교

주요연구분야 자연과학 > 수학/통계학 TOP 5% 예술체육학 > 체육

논문수 51 이용수 2,873

양대순

소속기관 한국데이터정보과학회

주요연구분야 자연과학 > 수학/통계학

논문수 1 이용수 76

이 논문과 함께 이용한 논문

최근 본 자료

전체보기

UCI(KEPA) : I410-ECN-0101-2018-041-001377180

perfcurve

분류기 출력값에 대한 ROC(수신자 조작 특성) 곡선 또는 기타 성능 곡선

구문

설명

예제

[X,Y] = perfcurve(labels,scores,posclass)는 실제 클래스 레이블 labels 및 양성 클래스 레이블 posclass가 주어진 경우 분류기 예측 변수로 구성된 벡터 scores에 대한 ROC 곡선의 X, Y 좌표를 반환합니다. plot(X,Y)를 사용하여 성능 곡선을 시각화할 수 있습니다.

[___] = perfcurve(labels,scores,posclass,Name,Value)는 하나 이상의 Name,Value 쌍 인수로 지정된 추가 옵션을 사용하여 ROC 곡선의 좌표와 함께 위에 열거된 구문에 나와 있는 다른 출력 인수를 반환합니다.

예를 들어, 음성 클래스 목록을 제공하거나, X 또는 Y 기준을 변경하거나, 교차 검증 또는 부트스트랩을 사용하여 점별(Pointwise) 신뢰한계를 계산하거나, 오분류 비용을 지정하거나, 신뢰한계를 병렬로 계산할 수 있습니다.

예제

모두 축소

로지스틱 회귀 분류에 대한 ROC 곡선 플로팅하기

표본 데이터를 불러옵니다.

처음 두 특징만 예측 변수로 사용합니다. 종 versicolor 및 virginica에 대응되는 측정값만 사용하여 이진 분류 문제를 정의합니다.

이진 응답 변수를 정의합니다.

resp = (1:100)'>50;  % Versicolor = 0, virginica = 1

로지스틱 회귀 모델을 피팅합니다.

mdl = fitglm(pred,resp,'Distribution','binomial','Link','logit');

ROC 곡선을 계산합니다. 로지스틱 회귀 모델의 확률 추정값을 점수로 사용합니다.

scores = mdl.Fitted.Probability;
[X,Y,T,AUC] = perfcurve(species(51:end,:),scores,'virginica');

perfcurve는 배열 T에 분계점 값을 저장합니다.

곡선 아래 면적을 표시합니다.

곡선 아래 면적은 0.7918입니다. 최대 AUC 값은 1이고, 이는 완벽한 분류기에 해당합니다. AUC 값이 클수록 더 나은 분류기 성능을 나타냅니다.

ROC 곡선을 플로팅합니다.

plot(X,Y)
xlabel('False positive rate') 
ylabel('True positive rate')
title('ROC for Classification by Logistic Regression')

rocmetrics 객체를 생성하고 plot 객체 함수를 사용하여 ROC 곡선을 계산하고 플로팅할 수 있습니다.

rocObj = rocmetrics(species(51:end,:),scores,'virginica');
plot(rocObj)

plot 함수가 채워진 원을 모델 동작점에 표시하며 곡선에 대한 클래스 이름 및 AUC 값을 범례에 표시합니다.

ROC 곡선을 사용하여 분류 방법 비교하기

표본 데이터를 불러옵니다.

X는 예측 변수로 구성된 351x34 실수 값 행렬입니다. Y는 나쁜 레이다 반환값에 대해서는 'b'를, 좋은 레이다 반환값에 대해서는 'g'를 클래스 레이블로 갖는 문자형 배열입니다.

응답 변수의 형식을 다시 지정하여 로지스틱 회귀를 피팅합니다. 예측 변수 3~예측 변수 34를 사용합니다.

resp = strcmp(Y,'b'); % resp = 1, if Y = 'b', or 0 if Y = 'g' 
pred = X(:,3:34);

레이다 반환값에 대한 사후 확률을 나쁜 레이다 반환값으로 추정하도록 로지스틱 회귀 모델을 피팅합니다.

mdl = fitglm(pred,resp,'Distribution','binomial','Link','logit');
score_log = mdl.Fitted.Probability; % Probability estimates

점수에 대한 확률을 사용하여 표준 ROC 곡선을 계산합니다.

[Xlog,Ylog,Tlog,AUClog] = perfcurve(resp,score_log,'true');

동일한 표본 데이터에 대해 SVM 분류기를 훈련시킵니다. 데이터를 표준화합니다.

mdlSVM = fitcsvm(pred,resp,'Standardize',true);

사후 확률(점수)을 계산합니다.

mdlSVM = fitPosterior(mdlSVM);
[~,score_svm] = resubPredict(mdlSVM);

score_svm의 두 번째 열은 나쁜 레이다 반환값에 대한 사후 확률을 포함합니다.

SVM 모델에서 얻은 점수를 사용하여 표준 ROC 곡선을 계산합니다.

[Xsvm,Ysvm,Tsvm,AUCsvm] = perfcurve(resp,score_svm(:,mdlSVM.ClassNames),'true');

동일한 표본 데이터에 대해 나이브 베이즈 분류기를 피팅합니다.

mdlNB = fitcnb(pred,resp);

사후 확률(점수)을 계산합니다.

[~,score_nb] = resubPredict(mdlNB);

나이브 베이즈 분류에서 얻은 점수를 사용하여 표준 ROC 곡선을 계산합니다.

[Xnb,Ynb,Tnb,AUCnb] = perfcurve(resp,score_nb(:,mdlNB.ClassNames),'true');

동일한 그래프에 ROC 곡선을 플로팅합니다.

plot(Xlog,Ylog)
hold on
plot(Xsvm,Ysvm)
plot(Xnb,Ynb)
legend('Logistic Regression','Support Vector Machines','Naive Bayes','Location','Best')
xlabel('False positive rate'); ylabel('True positive rate');
title('ROC Curves for Logistic Regression, SVM, and Naive Bayes Classification')
hold off

SVM은 분계점이 높을수록 더 나은 ROC 값을 생성하지만, 로지스틱 회귀가 일반적으로 좋은 레이다 반환값에서 나쁜 레이다 반환값을 구분하는 데 더 적합합니다. 나이브 베이즈에 대한 ROC 곡선은 전반적으로 다른 두 ROC 곡선보다 낮으며, 이는 다른 두 분류기 방법보다 표본내 성능이 낮다는 것을 나타냅니다.

세 가지 분류기에 대한 곡선 아래 면적을 비교합니다.

로지스틱 회귀가 분류에 대해 가장 높은 AUC 측정값을 가지며, 나이브 베이즈가 가장 낮은 값을 가집니다. 이 결과는 로지스틱 회귀가 이 표본 데이터에 대해 더 나은 표본내 평균 성능을 제공한다는 것을 나타냅니다.

사용자 지정 커널 함수에 대한 모수 값 결정하기

이 예제에서는 ROC 곡선을 사용하여 분류기의 사용자 지정 커널 함수에 대해 더 적합한 모수 값을 결정하는 방법을 보여줍니다.

단위원 내부 임의의 점으로 구성된 집합을 생성합니다.

rng(1);  % For reproducibility
n = 100; % Number of points per quadrant

r1 = sqrt(rand(2*n,1));                     % Random radii
t1 = [pi/2*rand(n,1); (pi/2*rand(n,1)+pi)]; % Random angles for Q1 and Q3
X1 = [r1.*cos(t1) r1.*sin(t1)];             % Polar-to-Cartesian conversion

r2 = sqrt(rand(2*n,1));
t2 = [pi/2*rand(n,1)+pi/2; (pi/2*rand(n,1)-pi/2)]; % Random angles for Q2 and Q4
X2 = [r2.*cos(t2) r2.*sin(t2)];

예측 변수를 정의합니다. 제1사분면과 제3사분면의 점은 양성 클래스에 속하는 것으로 레이블을 지정하고 제2사분면과 제4사분면의 점은 음성 클래스에 속하는 것으로 레이블을 지정합니다.

pred = [X1; X2];
resp = ones(4*n,1);
resp(2*n + 1:end) = -1; % Labels

특징 공간의 두 행렬을 입력값으로 받아 시그모이드 커널을 사용하여 이들 입력값을 그람 행렬(Gram Matrix)로 변환하는 함수 mysigmoid.m을 생성합니다.

function G = mysigmoid(U,V)
% Sigmoid kernel function with slope gamma and intercept c
gamma = 1;
c = -1;
G = tanh(gamma*U*V' + c);
end

시그모이드 커널 함수를 사용하여 SVM 분류기를 훈련시킵니다. 데이터를 표준화하는 것이 좋습니다.

SVMModel1 = fitcsvm(pred,resp,'KernelFunction','mysigmoid',...
				'Standardize',true);
SVMModel1 = fitPosterior(SVMModel1);
[~,scores1] = resubPredict(SVMModel1);

mysigmoid.m에서 gamma = 0.5를 설정하고 mysigmoid2.m으로 저장합니다. 또한, 조정된 시그모이드 커널을 사용하여 SVM 분류기를 훈련시킵니다.

function G = mysigmoid2(U,V)
% Sigmoid kernel function with slope gamma and intercept c
gamma = 0.5;
c = -1;
G = tanh(gamma*U*V' + c);
end

SVMModel2 = fitcsvm(pred,resp,'KernelFunction','mysigmoid2',...
				'Standardize',true);
SVMModel2 = fitPosterior(SVMModel2);
[~,scores2] = resubPredict(SVMModel2);

두 모델 모두에 대한 ROC 곡선과 곡선 아래 면적(AUC)을 계산합니다.

[x1,y1,~,auc1] = perfcurve(resp,scores1(:,2),1);
[x2,y2,~,auc2] = perfcurve(resp,scores2(:,2),1);

ROC 곡선을 플로팅합니다.

plot(x1,y1)
hold on
plot(x2,y2)
hold off
legend('gamma = 1','gamma = 0.5','Location','SE');
xlabel('False positive rate'); ylabel('True positive rate');
title('ROC for classification by SVM');

감마 모수가 0.5로 설정된 커널 함수가 더 나은 표본내 결과를 제공합니다.

AUC 측정값을 비교합니다.

auc1 =

    0.9518


auc2 =

    0.9985

감마가 0.5로 설정된 곡선 아래 면적은 감마가 1로 설정된 곡선 아래 면적보다 큽니다. 이는 또한 감마 모수 값이 0.5인 경우 더 나은 결과를 생성함을 확인합니다. 이러한 두 감마 모수 값을 갖는 분류기 성능을 시각적으로 비교한 것을 보려면 사용자 지정 커널을 사용하여 SVM 분류기 훈련시키기 항목을 참조하십시오.

분류 트리에 대한 ROC 곡선 플로팅하기

표본 데이터를 불러옵니다.

열 벡터 species는 세 가지 붓꽃 종인 setosa, versicolor, virginica로 구성됩니다. double형 행렬 meas는 꽃에 대한 네 가지 측정값 유형인 꽃받침 길이, 꽃받침 너비, 꽃잎 길이, 꽃잎 너비로 구성됩니다. 모든 측정값은 센티미터 단위입니다.

꽃받침 길이와 너비를 예측 변수로 사용하여 분류 트리를 훈련시킵니다. 클래스 이름을 지정하는 것이 좋습니다.

Model = fitctree(meas(:,1:2),species, ...
    'ClassNames',{'setosa','versicolor','virginica'});

트리 Model을 기반으로 하여 종에 대한 클래스 레이블과 점수를 예측합니다.

[~,score] = resubPredict(Model);

점수는 하나의 관측값(데이터 행렬의 한 행)이 하나의 클래스에 속할 사후 확률입니다. score의 열은 'ClassNames'로 지정된 클래스에 대응됩니다. 따라서, 첫 번째 열은 setosa에 대응되고, 두 번째 열은 versicolor에 대응되며, 세 번째 열은 virginica에 대응됩니다.

실제 클래스 레이블 species가 주어진 경우 어떤 관측값이 versicolor에 속한다는 예측에 대한 ROC 곡선을 계산합니다. 또한, 음성 서브클래스에 대한 최적 조작점과 y 값을 계산합니다. 음성 클래스의 이름을 반환합니다.

이는 다중클래스 문제이므로 score(:,2)를 단순히 perfcurve에 대한 입력값으로 제공할 수는 없습니다. 그렇게 하는 경우 perfcurve에 두 음성 클래스(setosa 및 virginica)에 대한 점수와 관련한 충분한 정보가 제공되지 않습니다. 이 문제는 한 클래스의 점수만 파악해도 다른 클래스의 점수를 충분히 판단할 수 있는 이진 분류 문제와는 다릅니다. 따라서, perfcurve에 두 음성 클래스의 점수를 고려하는 함수를 제공해야 합니다. 이러한 함수 중 하나는 score(:,2)-max(s core(:,1),score(:,3))이며, 이는 일대전부(OVA) 코딩 설계에 대응합니다.

diffscore1 = score(:,2) - max(score(:,1),score(:,3));

diffscore의 값은 이진 문제에 대한 분류 점수로, 두 번째 클래스를 양성 클래스로 처리하고 나머지를 음성 클래스로 처리합니다.

[X,Y,T,~,OPTROCPT,suby,subnames] = perfcurve(species,diffscore1,'versicolor');

X는 기본적으로 거짓양성률(부적합률 또는 1-특이도)이고, Y는 기본적으로 참양성률(재현율 또는 민감도)입니다. 양성 클래스 레이블은 versicolor입니다. 음성 클래스가 정의되지 않은 경우 perfcurve는 양성 클래스에 속하지 않는 관측값들이 한 클래스 내에 있다고 가정합니다. 이 함수는 이를 음성 클래스로 받습니다.

OPTROCPT = 1×2

    0.1000    0.8000

suby = 12×2

         0         0
    0.1800    0.1800
    0.4800    0.4800
    0.5800    0.5800
    0.6200    0.6200
    0.8000    0.8000
    0.8800    0.8800
    0.9200    0.9200
    0.9600    0.9600
    0.9800    0.9800
      ⋮

subnames = 1x2 cell
    {'setosa'}    {'virginica'}

ROC 곡선을 플로팅하고 ROC 곡선에 최적 조작점을 플로팅합니다.

plot(X,Y)
hold on
plot(OPTROCPT(1),OPTROCPT(2),'ro')
xlabel('False positive rate') 
ylabel('True positive rate')
title('ROC Curve for Classification by Classification Trees')
hold off

최적 조작점에 대응되는 분계점을 구합니다.

T((X==OPTROCPT(1))&(Y==OPTROCPT(2)))

virginica를 음성 클래스로 지정하고 versicolor에 대한 ROC 곡선을 계산하고 플로팅합니다.

즉, perfcurve에 음성 클래스의 점수를 고려하는 함수를 제공해야 합니다. 사용할 함수를 예로 들면 score(:,2)-score(:,3)입니다.

diffscore2 = score(:,2) - score(:,3);
[X,Y,~,~,OPTROCPT] = perfcurve(species,diffscore2,'versicolor', ...
    'negClass','virginica');
OPTROCPT

OPTROCPT = 1×2

    0.1800    0.8200

figure, plot(X,Y)
hold on
plot(OPTROCPT(1),OPTROCPT(2),'ro')
xlabel('False positive rate') 
ylabel('True positive rate')
title('ROC Curve for Classification by Classification Trees')
hold off

또는 rocmetrics 객체를 사용하여 ROC 곡선을 생성할 수 있습니다. rocmetrics는 일대전부(OVA) 코딩 설계를 사용하여 다중클래스 분류 문제를 지원하며, 해당 설계는 다중클래스 문제를 이진 문제의 집합으로 축소합니다. 각 클래스에 대한 일대전부(OVA) ROC 곡선을 플로팅하여 각 클래스에 대한 다중클래스 문제의 성능을 검토할 수 있습니다.

rocmetrics 객체를 생성하여 성능 메트릭을 계산합니다. 실제 레이블, 분류 점수 및 클래스 이름을 지정합니다.

rocObj = rocmetrics(species,score,Model.ClassNames);

rocmetrics의 plot 함수를 사용하여 각 클래스에 대한 ROC 곡선을 플로팅합니다.

plot 함수가 채워진 원을 각 클래스에 대한 모델 동작점에 표시하며, 각 곡선에 대한 클래스 이름 및 AUC 값을 범례에 표시합니다. rocmetrics 객체 rocObj에 저장된 속성을 사용하여 최적의 동작점을 찾을 수 있습니다. 예제는 Find Model Operating Point and Optimal Operating Point 항목을 참조하십시오.

ROC 곡선에 대한 점별(Pointwise) 신뢰구간 계산하기

표본 데이터를 불러옵니다.

처음 두 특징만 예측 변수로 사용합니다. versicolor 종과 virginica 종에 대응되는 측정값만 사용하여 이진 문제를 정의합니다.

이진 응답 변수를 정의합니다.

resp = (1:100)'>50;  % Versicolor = 0, virginica = 1

로지스틱 회귀 모델을 피팅합니다.

mdl = fitglm(pred,resp,'Distribution','binomial','Link','logit');

세로 평균화(VA)와 부트스트랩을 사용한 표본추출을 사용하여 참양성률(TPR)에 대한 점별 신뢰구간을 계산합니다.

[X,Y,T] = perfcurve(species(51:end,:),mdl.Fitted.Probability,...
       'virginica','NBoot',1000,'XVals',[0:0.05:1]);

'NBoot',1000은 부트스트랩 복제 개수를 1000으로 설정합니다. 'XVals','All'은 perfcurve가 모든 점수에 대한 X 값, Y 값, T 값을 반환하도록 요청하고 세로 평균화를 사용하여 모든 X 값(거짓양성률)에서 Y 값(참양성률)의 평균을 구하도록 합니다. XVals를 지정하지 않으면 perfcurve가 기본적으로 분계점 평균화를 사용하여 신뢰한계를 계산합니다.

점별 신뢰구간을 플로팅합니다.

errorbar(X,Y(:,1),Y(:,1)-Y(:,2),Y(:,3)-Y(:,1));
xlim([-0.02,1.02]); ylim([-0.02,1.02]);
xlabel('False positive rate') 
ylabel('True positive rate')
title('ROC Curve with Pointwise Confidence Bounds')
legend('PCBwVA','Location','Best')

항상 거짓양성률(FPR, 이 예제에서는 X 값임)을 제어할 수 있는 것은 아닙니다. 따라서 분계점 평균화를 통해 참양성률(TPR)에 대한 점별 신뢰구간을 계산해야 할 수 있습니다.

[X1,Y1,T1] = perfcurve(species(51:end,:),mdl.Fitted.Probability,...
    'virginica','NBoot',1000);

'TVals'를 'All'로 설정하거나 'TVals' 또는 'Xvals'를 지정하지 않는 경우, perfcurve는 모든 점수에 대해 X 값, Y 값, T 값을 반환하고 분계점 평균화를 사용하여 X와 Y에 대한 점별 신뢰한계를 계산합니다.

신뢰한계를 플로팅합니다.

figure()
errorbar(X1(:,1),Y1(:,1),Y1(:,1)-Y1(:,2),Y1(:,3)-Y1(:,1));
xlim([-0.02,1.02]); ylim([-0.02,1.02]);
xlabel('False positive rate')
ylabel('True positive rate')
title('ROC Curve with Pointwise Confidence Bounds')
legend('PCBwTA','Location','Best')

고정할 분계점 값을 지정하고 ROC 곡선을 계산합니다. 그런 다음 곡선을 플로팅합니다.

[X1,Y1,T1] = perfcurve(species(51:end,:),mdl.Fitted.Probability,...
    'virginica','NBoot',1000,'TVals',0:0.05:1);
figure()
errorbar(X1(:,1),Y1(:,1),Y1(:,1)-Y1(:,2),Y1(:,3)-Y1(:,1));
xlim([-0.02,1.02]); ylim([-0.02,1.02]);
xlabel('False positive rate')
ylabel('True positive rate')
title('ROC Curve with Pointwise Confidence Bounds')
legend('PCBwTA','Location','Best')

입력 인수

모두 축소

labels — 실제 클래스 레이블 숫자형 벡터 | 논리형 벡터 | 문자형 행렬 | string형 배열 | 문자형 벡터로 구성된 셀형 배열 | categorical형 배열

실제 클래스 레이블로, 숫자형 벡터, 논리형 벡터, 문자형 행렬, string형 배열, 문자형 벡터로 구성된 셀형 배열 또는 categorical형 배열로 지정됩니다. 자세한 내용은 그룹화 변수 항목을 참조하십시오.

예: {'hi','mid','hi','low',...,'mid'}

예: ['H','M','H','L',...,'M']

scores — 분류기에서 반환되는 점수 부동소수점으로 구성된 벡터

일부 표본 데이터에 대해 분류기에서 반환되는 점수로, 부동소수점으로 구성된 벡터로 지정됩니다. scores는 labels와 같은 개수의 요소를 가져야 합니다.

데이터형: single | double

posclass — 양성 클래스 레이블 숫자형 스칼라 | 논리형 스칼라 | 문자형 벡터 | string형 스칼라 | 문자형 벡터를 포함하는 셀 | categorical형 스칼라

양성 클래스 레이블로, 숫자형 스칼라, 논리형 스칼라, 문자형 벡터, string형 스칼라, 문자형 벡터를 포함하는 셀 또는 categorical형 스칼라로 지정됩니다. 양성 클래스는 입력 레이블의 일원이어야 합니다. 지정할 수 있는 posclass의 값은 labels의 값에 따라 다릅니다.

`labels` 값	`posclass` 값
숫자형 벡터	숫자형 스칼라
논리형 벡터	논리형 스칼라
문자형 행렬	문자형 벡터
string형 배열	string형 스칼라
문자형 벡터로 구성된 셀형 배열	문자형 벡터 또는 문자형 벡터를 포함하는 셀
categorical형 벡터	categorical형 스칼라

예를 들어, 암 진단 문제에서 악성 종양이 양성 클래스이면 posclass를 'malignant'로 지정하십시오.

이름-값 인수

선택적 인수 쌍을 Name1=Value1,...,NameN=ValueN으로 지정합니다. 여기서 Name은 인수 이름이고 Value는 대응값입니다. 이름-값 인수는 다른 인수 뒤에 와야 하지만, 인수 쌍의 순서는 상관없습니다.

R2021a 이전 릴리스에서는 쉼표를 사용하여 각 이름과 값을 구분하고 Name을 따옴표로 묶으십시오.

예: 'NegClass','versicolor','XCrit','fn','NBoot',1000,'BootType','per'는 versicolor 종을 음성 클래스로 지정하고, X 좌표에 대한 기준을 거짓음성으로 지정하고, 부트스트랩 표본의 개수를 1000으로 지정합니다. 또한, 점별(Pointwise) 신뢰한계가 백분위수 방법을 사용하여 계산된다고 지정합니다.

NegClass — 음성 클래스 목록 'all' (디폴트 값) | 숫자형 배열 | categorical형 배열 | string형 배열 | 문자형 벡터로 구성된 셀형 배열

음성 클래스 목록으로, 'NegClass'와 함께 숫자형 배열, categorical형 배열, string형 배열 또는 문자형 벡터로 구성된 셀형 배열이 쉼표로 구분되어 지정됩니다. 기본적으로, perfcurve는 NegClass를 'all'로 설정하고 레이블로 구성된 입력 배열 내 비양성 클래스를 모두 음성으로 간주합니다.

NegClass가 레이블로 구성된 입력 배열의 일부 클래스인 경우 perfcurve는 양성 클래스 또는 음성 클래스에 속하지 않는 레이블을 갖는 인스턴스를 버립니다.

예: 'NegClass',{'versicolor','setosa'}

XCrit — X 계산 기준 'fpr' (디폴트 값) | 'fnr' | 'tnr' | 'ppv' | 'ecost' | ...

X 계산 기준으로, 'XCrit'와 함께 다음 중 하나가 쉼표로 구분되어 지정됩니다.

기준	설명
`tp`	참양성 인스턴스의 개수입니다.
`fn`	거짓음성 인스턴스의 개수입니다.
`fp`	거짓양성 인스턴스의 개수입니다.
`tn`	참음성 인스턴스의 개수입니다.
`tp+fp`	참양성 인스턴스와 거짓양성 인스턴스의 합입니다.
`rpp`	양성 예측 변수의 비율입니다. `rpp = (tp+fp)/(tp+fn+fp+tn)`
`rnp`	음성 예측 변수의 비율입니다. `rnp = (tn+fn)/(tp+fn+fp+tn)`
`accu`	정확도입니다. `accu = (tp+tn)/(tp+fn+fp+tn)`
`tpr` 또는 `sens` 또는 `reca`	참양성률, 즉 민감도 또는 재현율입니다. `tpr= sens = reca = tp/(tp+fn)`
`fnr` 또는 `miss`	거짓음성률 또는 오측률입니다. `fnr = miss = fn/(tp+fn)`
`fpr` 또는 `fall`	거짓양성률, 즉 부적합률 또는 1 – 특이도입니다. `fpr = fall = fp/(tn+fp)`
`tnr` 또는 `spec`	참음성률 또는 특이도입니다. `tnr = spec = tn/(tn+fp)`
`ppv` 또는 `prec`	양성예측도 또는 정밀도입니다. `ppv = prec = tp/(tp+fp)`
`npv`	음성예측도입니다. `npv = tn/(tn+fn)`
`ecost`	예상된 비용입니다. `ecost = (tpCost(P\|P)+fnCost(N\|P)+fp* Cost(P\|N)+tn*Cost(N\|N))/(tp+fn+fp+tn)`
사용자 지정 기준	입력 인수 `(C,scale,cost)`를 갖는 사용자 정의 함수입니다. 여기서 `C`는 2×2 혼동행렬이고, `scale`은 클래스 스케일로 구성된 2×1 배열이며, `cost`는 2×2 오분류 비용 행렬입니다.

주의

이러한 기준 중 일부는 두 개의 특수 분계점 'reject all'이나 'accept all' 중 하나에서 NaN 값을 반환합니다.

예: 'XCrit','ecost'

YCrit — Y 계산 기준 'tpr' (디폴트 값) | X의 경우와 동일한 기준 옵션

Y 계산 기준으로, 'YCrit'와 함께 X의 경우와 동일한 기준 옵션 중 하나가 쉼표로 구분되어 지정됩니다. 이 기준은 양성 클래스 점수의 단조(monotone) 함수일 필요가 없습니다.

예: 'YCrit','ecost'

XVals — X 기준에 대한 값 'all' (디폴트 값) | 숫자형 배열

X 기준에 대한 값으로, 'XVals'와 함께 숫자형 배열이 쉼표로 구분되어 지정됩니다.

XVals를 지정하면 perfcurve는 X 및 Y를 계산하고 지정된 XVals에 대해서만 Y의 점별(Pointwise) 신뢰한계(해당되는 경우)를 계산합니다.
XVals를 지정하지 않으면 perfcurve는 X 및 Y와 함께 기본적으로 모든 점수에 대한 값을 계산합니다.

참고

XVals와 TVals를 동시에 설정할 수는 없습니다.

예: 'XVals',[0:0.05:1]

데이터형: single | double | char | string

TVals — 양성 클래스 점수에 대한 분계점 'all' (디폴트 값) | 숫자형 배열

양성 클래스 점수에 대한 분계점으로, 'TVals'와 함께 'all' 또는 숫자형 배열이 쉼표로 구분되어 지정됩니다.

TVals가 'all'로 설정되거나 아예 지정되지 않고 XVals가 지정되지 않은 경우, perfcurve는 X, Y와 함께 모든 점수에 대한 T 값을 반환하고 분계점 평균화를 사용하여 X 및 Y에 대한 점별 신뢰한계를 계산합니다.
TVals가 숫자형 배열로 설정된 경우, perfcurve는 X, Y를 반환하고 지정된 분계점에 대한 T 값을 반환하고 분계점 평균화를 사용하여 이러한 분계점에서 X 및 Y에 대한 점별 신뢰한계를 계산합니다.

참고

XVals와 TVals를 동시에 설정할 수는 없습니다.

예: 'TVals',[0:0.05:1]

데이터형: single | double | char | string

UseNearest — 데이터에서 가장 가까운 값을 사용할지에 대한 표시자 'on' (디폴트 값) | 'off'

지정된 XVals 또는 TVals 대신 데이터에서 가장 가까운 값을 사용할지에 대한 표시자로, 'UseNearest'와 함께 'on' 또는 'off'가 쉼표로 구분되어 지정됩니다.

숫자형 XVals를 지정하고 UseNearest를 'on'으로 설정하는 경우, perfcurve는 데이터에서 검색되는 가장 가깝고 고유한 X 값을 반환하고 Y 및 T에서 이에 대응되는 값을 반환합니다.
숫자형 XVals를 지정하고 UseNearest를 'off'로 설정하는 경우, perfcurve는 정렬된 XVals를 반환합니다.
교차 검증 또는 부트스트랩으로 신뢰한계를 계산하는 경우 이 파라미터는 항상 'off'입니다.

예: 'UseNearest','off'

ProcessNaN — NaN 점수를 처리하는 데 사용할 perfcurve 방법 'ignore' (디폴트 값) | 'addtofalse'

NaN 점수를 처리하는 데 사용할 perfcurve 방법으로, 'ProcessNaN'과 함께 'ignore' 또는 'addtofalse'가 쉼표로 구분되어 지정됩니다.

ProcessNaN이 'ignore'이면 perfcurve는 데이터에서 NaN 점수를 갖는 관측값을 제거합니다.
ProcessNaN이 'addtofalse'이면 perfcurve는 각 클래스의 거짓 분류 개수에 NaN 점수를 갖는 인스턴스를 추가합니다. 즉, perfcurve는 양성 클래스의 인스턴스를 항상 거짓음성(FN)으로 계산하고 음성 클래스의 인스턴스를 항상 거짓양성(FP)으로 계산합니다.

예: 'ProcessNaN','addtofalse'

Prior — 양성 클래스와 음성 클래스에 대한 사전 확률 'empirical' (디폴트 값) | 'uniform' | 두 요소를 가진 배열

양성 클래스와 음성 클래스에 대한 사전 확률로, 'Prior'와 함께 'empirical', 'uniform' 또는 두 요소를 가진 배열이 쉼표로 구분되어 지정됩니다.

Prior가 'empirical'이면 perfcurve는 클래스 도수에서 사전 확률을 도출합니다.

Prior가 'uniform'이면 perfcurve는 사전 확률을 모두 같은 값으로 설정합니다.

예: 'Prior',[0.3,0.7]

데이터형: single | double | char | string

Cost — 오분류 비용 [0 1;1 0] (디폴트 값) | 2×2 행렬

오분류 비용으로, 'Cost'와 함께 [Cost(P|P),Cost(N|P);Cost(P|N),Cost(N|N)]을 포함하는 2×2 행렬이 쉼표로 구분되어 지정됩니다.

Cost(N|P)는 양성 클래스를 음성 클래스로 오분류하는 데 대한 비용입니다. Cost(P|N)은 음성 클래스를 양성 클래스로 오분류하는 데 대한 비용입니다. 일반적으로 Cost(P|P) = 0이고 Cost(N|N) = 0이지만, perfcurve에서는 올바른 분류에 0이 아닌 비용을 지정할 수도 있습니다.

예: 'Cost',[0 0.7;0.3 0]

데이터형: single | double

Alpha — 유의수준 0.05 (디폴트 값) | 범위 0~1에 속하는 스칼라 값

신뢰한계에 대한 유의수준으로, 'Alpha'와 함께 범위 0~1에 속하는 스칼라 값이 쉼표로 구분되어 지정됩니다. perfcurve는 신뢰수준 1 – α에 대해 X, Y, T, AUC에 대한 100*(1 – α)% 점별 신뢰한계를 계산합니다.

예: 'Alpha',0.01은 99% 신뢰한계를 지정합니다.

데이터형: single | double

Weights — 관측값 가중치 음이 아닌 스칼라 값으로 구성된 벡터 | 음이 아닌 스칼라 값으로 구성된 벡터로 구성된 셀형 배열

관측값 가중치로, 'Weights'와 함께 음이 아닌 스칼라 값으로 구성된 벡터가 쉼표로 구분되어 지정됩니다. 이 벡터는 scores 또는 labels와 같은 수의 요소를 가져야 합니다.

scores 및 labels가 셀형 배열이고 Weights를 제공해야 하는 경우에는 Weights도 셀형 배열이어야 합니다. 이 경우, Weights의 모든 요소는 scores에서 대응되는 요소와 같은 개수의 요소를 갖는 숫자형 벡터여야 합니다. 예를 들면, numel(weights{1}) == numel(scores{1})입니다.

교차 검증을 사용하여 X, Y 및 T 또는 신뢰한계를 계산하는 경우 perfcurve는 관측값 도수 대신 이러한 관측값 가중치를 사용합니다.

부트스트랩을 사용하여 신뢰한계를 계산하는 경우 perfcurve는 이러한 가중치를 다항 표본추출 확률로 사용하여 N개의 관측값(전체 N개의 관측값 중)을 복원추출합니다.

디폴트 값은 1로 구성된 벡터 또는 각 요소가 1로 구성된 벡터인 셀형 배열입니다.

데이터형: single | double | cell

NBoot — 부트스트랩 복제 개수 0 (디폴트 값) | 양의 정수

신뢰한계 계산에 사용할 부트스트랩 복제 개수로, 'NBoot'와 함께 양의 정수가 쉼표로 구분되어 지정됩니다. 디폴트 값 0은 신뢰한계가 계산되지 않음을 의미합니다.

labels 및 scores가 셀형 배열인 경우, 이 파라미터는 0이어야 합니다. 그 이유는 perfcurve가 교차 검증 또는 부트스트랩을 사용하여 신뢰한계를 계산할 수 있기 때문입니다.

예: 'NBoot',500

데이터형: single | double

BootType — bootci에 대한 신뢰구간 유형 'bca' (디폴트 값) | 'norm | 'per' | 'cper' | 'stud'

신뢰구간을 계산하는 데 사용할 bootci에 대한 신뢰구간 유형으로, 'BootType'과 함께 다음 중 하나가 쉼표로 구분되어 지정됩니다.

'bca' — 편향 수정된 가속 백분위수 방법
'norm 또는 'normal' — 부트스트랩 편향 및 표준 오차를 갖는 정규 근사 구간
'per' 또는 'percentile' — 백분위수 방법
'cper' 또는 'corrected percentile' — 편향 수정된 백분위수 방법
'stud' 또는 'student' — 스튜던트화 신뢰구간

예: 'BootType','cper'

BootArg — bootci에 대한 선택적 입력 인수 [ ] (디폴트 값) | {'Nbootstd',nbootstd}

신뢰한계를 계산할 bootci 함수에 대한 선택적 입력 인수로, 'BootArg'와 함께 {'Nbootstd',nbootstd}가 쉼표로 구분되어 지정됩니다.

스튜던트화 부트스트랩 신뢰구간('BootType'이 'student'임)을 계산할 때에는 'BootArg'를 사용하여 bootci 함수의 'Nbootstd' 이름-값 쌍의 인수를 추가로 지정할 수 있습니다. 예를 들어 'BootArg',{'Nbootstd',nbootstd}는 nbootstd 데이터 표본에 부트스트랩을 사용하여 부트스트랩 통계량에 대한 표준 오차를 추정합니다. nbootstd는 양의 정수이고 디폴트 값은 100입니다.

예: 'BootArg',{'Nbootstd',nbootstd}

데이터형: cell

Options — 신뢰구간의 계산을 제어하는 옵션 [] (디폴트 값) | statset에서 반환되는 구조체형 배열

신뢰구간의 계산을 제어하는 옵션으로, 'Options'와 함께 statset에서 반환되는 구조체형 배열이 쉼표로 구분되어 지정됩니다. 이 옵션을 사용하려면 Parallel Computing Toolbox™가 필요합니다. perfcurve는 점별 신뢰한계를 계산하는 데에만 이 인수를 사용합니다. 이러한 한계를 계산하려면 labels 및 scores에 셀형 배열을 전달하거나 NBoot를 양의 정수로 설정해야 합니다.

다음 표에는 사용 가능한 옵션이 요약되어 있습니다.

옵션 설명

'UseParallel'

false — 직렬 계산입니다(디폴트 값).
true — 병렬 계산입니다. 이 옵션이 작동하려면 Parallel Computing Toolbox가 필요합니다.

'UseSubstreams'

false — 각 반복에 대해 개별 서브스트림을 사용하지 않습니다(디폴트 값).
true — 각 반복에 대해 개별 서브스트림을 사용하여 재현 가능한 방식으로 병렬로 계산합니다. 재현 가능한 방식으로 계산하려면 Streams를 서브스트림을 허용하는 유형인 'mlfg6331_64' 또는 'mrg32k3a'로 설정하십시오.

'Streams'

RandStream 객체 또는 이러한 객체로 구성된 셀형 배열입니다. Streams를 지정하는 경우 다음에 해당하는 경우를 제외하고는 단일 객체를 사용하십시오.

UseParallel이 true입니다.
UseSubstreams가 false입니다.

이 경우, 병렬 풀과 크기가 같은 셀형 배열을 사용하십시오. 병렬 풀이 열려 있지 않은 경우 Streams가 단일 난수 스트림을 제공해야 합니다.

'UseParallel'이 true이고 'UseSubstreams'가 false이면 'Streams'의 길이는 perfcurve에서 사용하는 워커의 개수와 같아야 합니다. 병렬 풀이 이미 열려 있는 경우 'Streams'의 길이는 병렬 풀의 크기와 같습니다. 병렬 풀이 아직 열려 있지 않은 경우 MATLAB®이 설치 및 기본 설정에 따라 풀을 엽니다. 더욱 예측 가능한 결과를 얻으려면 perfcurve를 불러오고 'Options',statset('UseParallel',true)를 설정하기 전에, parpool (Parallel Computing Toolbox)을 사용하고 병렬 풀을 명시적으로 생성해야 합니다.

예: 'Options',statset('UseParallel',true)

데이터형: struct

출력 인수

모두 축소

X — 성능 곡선의 x 좌표 벡터, fpr (디폴트 값) | m×3 행렬

성능 곡선의 x 좌표로, 벡터 또는 m×3 행렬로 반환됩니다. 기본적으로, X 값은 거짓양성률(FPR), 즉 부적합률 또는 1 – 특이도입니다. X를 변경하려면 XCrit 이름-값 쌍의 인수를 사용하십시오.

perfcurve가 점별 신뢰한계를 계산하지 않거나 세로 평균화(Vertical Averaging)를 사용하여 점별 신뢰한계를 계산하는 경우 X는 벡터입니다.
perfcurve가 분계점 평균화를 사용하여 신뢰한계를 계산하는 경우 X는 m×3 행렬이고, 여기서 m은 고정 분계점 값의 개수입니다. X의 첫 번째 열은 평균값을 포함합니다. 두 번째 열과 세 번째 열은 각각 점별 신뢰한계의 하한과 상한을 포함합니다.

Y — 성능 곡선의 y 좌표 벡터, tpr (디폴트 값) | m×3 행렬

성능 곡선의 y 좌표로, 벡터 또는 m×3 행렬로 반환됩니다. 기본적으로, Y 값은 참양성률(TPR), 즉 재현율 또는 민감도입니다. Y를 변경하려면 YCrit 이름-값 쌍의 인수를 사용하십시오.

perfcurve가 점별 신뢰한계를 계산하지 않는 경우 Y는 벡터입니다.
perfcurve가 신뢰한계를 계산하는 경우 Y는 m×3 행렬이고, 여기서 m은 고정된 X 값 또는 분계점(T 값)의 개수입니다. Y의 첫 번째 열은 평균값을 포함합니다. 두 번째 열과 세 번째 열은 각각 점별 신뢰한계의 하한과 상한을 포함합니다.

T — 분류기 점수에 대한 분계점 벡터 | m×3 행렬

X 및 Y 계산 값에 대한 분류기 점수의 분계점으로, 벡터 또는 m×3 행렬로 반환됩니다.

perfcurve가 점별 신뢰한계를 계산하지 않거나 분계점 평균화를 사용하여 점별 신뢰한계를 계산하는 경우 T는 벡터입니다.
perfcurve가 세로 평균화를 사용하여 신뢰한계를 계산하는 경우 T는 m×3 행렬이고, 여기서 m은 고정된 X 값의 개수입니다. T의 첫 번째 열은 평균값을 포함합니다. 두 번째 열과 세 번째 열은 각각 점별 신뢰한계의 하한과 상한을 포함합니다.

각 분계점에 대해 TP는 점수가 이 분계점보다 크거나 같은 참양성 관측값의 도수이고 FP는 점수가 이 분계점보다 크거나 같은 거짓양성 관측값의 도수입니다. perfcurve는 유사한 방식으로 음성 도수 TN과 FN을 정의합니다. 그런 다음 이 함수는 양성 도수의 오름차순에 대응되는 내림차순으로 분계점을 정렬합니다.

점수 배열에서 구한 m개의 다른 분계점에 대해 perfcurve는 m + 1개 행을 갖는 X 배열, Y 배열, T 배열을 반환합니다. perfcurve는 요소 T(2:m+1)을 개별 분계점으로 설정하고 T(1)은 T(2)를 복제합니다. 일반적으로 T(1)은 최고 'reject all' 분계점을 나타내고, perfcurve는 TP = 0이고 FP = 0이 되는 X 및 Y 값을 계산합니다. T(end) 값은 TN = 0이고 FN = 0이 되는 최저 'accept all' 분계점입니다.

AUC — 곡선 아래 면적 스칼라 값 | 3×1 벡터

X 및 Y 계산 값에 대한 곡선 아래 면적(AUC)으로, 스칼라 값 또는 3×1 벡터로 반환됩니다.

perfcurve가 점별 신뢰한계를 계산하지 않는 경우 AUC는 스칼라 값입니다.
perfcurve가 세로 평균화를 사용하여 신뢰한계를 계산하는 경우 AUC는 3×1 벡터입니다. AUC의 첫 번째 열은 평균값을 포함합니다. 두 번째 열과 세 번째 열은 각각 신뢰한계의 하한과 상한을 포함합니다.

완벽한 분류기(perfect classifier)의 경우, AUC = 1입니다. 관측값을 클래스로 임의로 할당하는 분류기의 경우, AUC = 0.5입니다.

XVals를 'all'(디폴트 값)로 설정하는 경우, perfcurve는 반환되는 X 값과 Y 값을 사용하여 AUC를 계산합니다.

XVals가 숫자형 배열인 경우, perfcurve는 XVals의 최소 요소와 최대 요소에 의해 규정되는 구간에 속하는 모든 개별 점수에 대한 X 값과 Y 값을 사용하여 AUC를 계산합니다. 좀 더 정확히 설명하자면 perfcurve는 XVals가 마치 'all'로 설정된 것처럼 모든 개별 분계점에 대해 X 값을 구한 후 min(XVals)와 max(XVals) 사이에 있는 일부만을 사용하여(대응되는 Y 값과 함께) AUC를 계산합니다.

perfcurve는 사다리꼴 근사를 사용하여 면적을 추정합니다. X 또는 Y의 첫 번째 값이나 마지막 값이 NaN이면 perfcurve는 이 값을 제거하여 AUC의 계산을 수행합니다. 따라서, 양성예측도(PPV)나 음성예측도(NPV)의 경우처럼 특수 분계점 'reject all' 또는 'accept all'이 NaN이 되는 기준도 처리가 가능합니다.

OPTROCPT — ROC 곡선의 최적 조작점 1×2 배열

ROC 곡선의 최적 조작점으로, ROC의 최적 조작점에 대한 거짓양성률(FPR) 값과 참양성률(TPR) 값을 갖는 1×2 배열로 반환됩니다.

perfcurve는 표준 ROC 곡선에 대해서만 OPTROCPT를 계산하고 그렇지 않은 경우에는 NaN으로 설정합니다. ROC 곡선의 최적 조작점을 구하기 위해 perfcurve는 먼저 다음을 사용하여 기울기 S를 구합니다.

Cost(N|P)는 양성 클래스를 음성 클래스로 오분류하는 데 대한 비용입니다. Cost(P|N)은 음성 클래스를 양성 클래스로 오분류하는 데 대한 비용입니다.
P = TP + FN이고 N = TN + FP입니다. 이들은 각각 양성 클래스와 음성 클래스의 총 인스턴스 개수입니다.

그런 다음 perfcurve는 기울기 S를 갖는 직선을 ROC 곡선과 교차할 때까지 ROC 플롯의 왼쪽 위 코너(FPR = 0, TPR = 1)에서 오른쪽 아래로 움직여 최적 조작점을 구합니다.

SUBY — 음성 서브클래스의 값 배열

음성 서브클래스의 값으로, 배열로 반환됩니다.

음성 클래스 하나만 지정하는 경우 SUBY는 Y와 같습니다.
k개 음성 클래스를 지정하는 경우 SUBY는 크기가 m×k인 행렬이며, 여기서 m은 X와 Y에 대해 반환되는 값의 개수이고 k는 음성 클래스의 개수입니다. perfcurve는 모든 음성 클래스에 대한 개수의 합을 구하여 Y 값을 계산합니다.

SUBY는 각각의 음성 클래스에 대한 Y 기준의 값을 개별적으로 제공합니다. 음성 클래스 각각에 대해 perfcurve는 SUBY에 새 열을 배치하고 이 클래스에 대해 계산된 참음성(TN) 및 거짓양성(FP)에 대한 Y 값으로 열을 채웁니다.

SUBYNAMES — 음성 클래스 이름 셀형 배열

음성 클래스 이름으로, 셀형 배열로 반환됩니다.

음성 클래스 이름으로 구성된 입력 배열 NegClass를 제공하면 perfcurve가 이름을 SUBYNAMES로 복사합니다.
NegClass를 제공하지 않으면 perfcurve가 입력 레이블에서 SUBYNAMES를 추출합니다. SUBYNAMES의 순서는 SUBY의 열의 순서와 같습니다. 즉, SUBY(:,1)은 음성 클래스 SUBYNAMES{1}에 대한 것이고, SUBY(:,2)는 음성 클래스 SUBYNAMES{2}에 대한 식입니다.

알고리즘

모두 축소

점별 신뢰한계

labels 및 scores에 대한 셀형 배열을 제공하거나 NBoot를 양의 정수로 설정하는 경우 perfcurve는 X, Y, T에 대한 점별 신뢰한계(Pointwise Confidence Bound)와 AUC를 반환합니다. labels 및 scores에 대한 셀형 배열을 제공하면서 동시에 NBoot를 양의 정수로 설정할 수는 없습니다.

perfcurve는 데이터를 재추출하여 교차 검증 또는 부트스트랩을 통해 신뢰한계를 계산합니다.

교차 검증 — labels 및 scores에 대해 셀형 배열을 제공하면 perfcurve가 교차 검증을 사용하고 셀형 배열의 요소를 교차 검증 겹으로 처리합니다. labels는 숫자형 벡터로 구성된 셀형 배열, 논리형 벡터, 문자형 행렬, 문자형 벡터로 구성된 셀형 배열 또는 categorical형 벡터일 수 있습니다. labels의 모든 요소는 같은 유형을 가져야 합니다. scores는 숫자형 벡터로 구성된 셀형 배열일 수 있습니다. labels 및 scores의 셀형 배열은 같은 개수의 요소를 가져야 합니다. labels의 셀 j에 포함된 레이블 개수는 scores의 셀 j에 포함된 점수 개수와 같아야 합니다. 여기서, j는 1부터 scores의 총 요소 개수 사이의 값입니다.
부트스트랩 — NBoot를 양의 정수 n으로 설정하면 perfcurve가 n개의 부트스트랩 복제를 생성하여 점별 신뢰한계를 계산합니다. XCrit 또는 YCrit를 사용하여 X 또는 Y의 기준을 익명 함수로 설정하는 경우 perfcurve는 부트스트랩만 사용하여 신뢰한계를 계산할 수 있습니다.

perfcurve는 다음 두 방법 중 하나를 사용하여 신뢰한계를 추정합니다.

세로 평균화(VA, Vertical averaging) — perfcurve는 X의 고정된 값에서 Y 및 T에 대한 신뢰한계를 추정합니다. 즉, perfcurve는 고정된 X 값에 대한 ROC 곡선의 표본을 가져와서 대응되는 Y 값과 T 값의 평균을 구하고 표준 오차를 계산합니다. XVals 이름-값 쌍의 인수를 사용하여 신뢰한계를 계산하는 데 사용할 X 값을 고정할 수 있습니다. XVals를 지정하지 않으면 perfcurve가 모든 X 값에서 신뢰한계를 계산합니다.
분계점 평균화(TA, Threshold averaging) — perfcurve는 양성 클래스 점수에 대한 고정된 분계점 T에서 ROC 곡선의 표본을 가져와서 대응되는 X 값과 Y 값의 평균을 구하고 신뢰한계를 추정합니다. TVals 이름-값 쌍의 인수를 사용하여 이 방법으로 신뢰한계를 계산할 수 있습니다. TVals를 'all'로 설정하거나 TVals 또는 XVals를 지정하지 않는 경우, perfcurve는 모든 점수에 대해 X 값, Y 값, T 값을 반환하고 분계점 평균화를 사용하여 Y와 X에 대한 점별 신뢰한계를 계산합니다.

신뢰한계를 계산할 때 Y는 m×3 배열이고, 여기서 m은 고정된 X 값 또는 분계점(T 값)의 개수입니다. Y의 첫 번째 열은 평균값을 포함합니다. 두 번째 열과 세 번째 열은 각각 점별 신뢰한계의 하한과 상한을 포함합니다. AUC는 동일한 규칙을 따르는 세 개 요소를 갖는 행 벡터입니다. perfcurve가 VA를 사용하여 신뢰한계를 계산하는 경우 T는 m×3 행렬이고, X는 열 벡터입니다. perfcurve가 TA를 사용하는 경우 X는 m×3 행렬이고 T는 열 벡터입니다.

perfcurve는 점별 신뢰한계를 반환합니다. 전체 곡선에 대한 동시 신뢰 띠(simultaneous confidence band)는 반환하지 않습니다.

대체 기능

rocmetrics 객체를 생성하여 ROC 곡선과 다른 성능 곡선에 대한 성능 메트릭을 계산할 수 있습니다. rocmetrics는 이진 분류 문제와 다중클래스 분류 문제를 모두 지원합니다. 분류 모델 객체의 predict 함수(예: ClassificationTree 객체의 predict 함수)가 반환하는 분류 점수는 점수를 다중클래스 모델에 맞게 조정하지 않고 rocmetrics 객체에 전달할 수 있습니다.
rocmetrics는 ROC 곡선을 플로팅하는 객체 함수(plot), 다중클래스 문제에 대한 평균 ROC 곡선을 찾는 객체 함수(average) 및 객체를 생성한 후 추가적인 메트릭을 계산하는 객체 함수(addMetrics)를 제공합니다. 자세한 내용은 도움말 페이지와 ROC Curve and Performance Metrics 항목을 참조하십시오.

참고 문헌

[1] Fawcett, T. “ROC Graphs: Notes and Practical Considerations for Researchers”, Machine Learning 31, no. 1 (2004): 1–38.

[2] Zweig, M., and G. Campbell. “Receiver-Operating Characteristic (ROC) Plots: A Fundamental Evaluation Tool in Clinical Medicine.” Clinical Chemistry 39, no. 4 (1993): 561–577 .

[3] Davis, J., and M. Goadrich. “The Relationship Between Precision-Recall and ROC Curves.” Proceedings of ICML ’06, 2006, pp. 233–240.

[4] Moskowitz, C. S., and M. S. Pepe. “Quantifying and Comparing the Predictive Accuracy of Continuous Prognostic Factors for Binary Outcomes.” Biostatistics 5, no. 1 (2004): 113–27.

[5] Huang, Y., M. S. Pepe, and Z. Feng. “Evaluating the Predictiveness of a Continuous Marker.” U. Washington Biostatistics Paper Series, 2006, 250–61.

[6] Briggs, W. M., and R. Zaretzki. “The Skill Plot: A Graphical Technique for Evaluating Continuous Diagnostic Tests.” Biometrics 64, no. 1 (2008): 250–256.

[7] Bettinger, R. “Cost-Sensitive Classifier Selection Using the ROC Convex Hull Method.” SAS Institute, 2003.

확장 기능

자동 병렬 지원 Parallel Computing Toolbox™를 사용해 자동 병렬 계산을 실행하여 코드 실행 속도를 높일 수 있습니다.

병렬로 실행하려면 이 함수에 대한 호출에 'Options' 이름-값 인수를 지정하고 statset을 사용하여 options 구조체의 'UseParallel' 필드를 true로 설정하십시오.

예: 'Options',statset('UseParallel',true)

병렬 연산에 대한 자세한 내용은 자동 병렬 연산을 지원하는 MATLAB 함수 실행하기 (Parallel Computing Toolbox) 항목을 참조하십시오.

버전 내역

R2009a에 개발됨

모두 확장

R2022a: 디폴트 Cost 값이 변경됨

R2022a부터는 Cost 이름-값 인수에 대한 디폴트 값이 [0 1; 1 0]입니다. 이 디폴트 값은 새로운 특징인 rocmetrics와, fitcsvm, fitctree 등과 같은 분류기 훈련 함수에 대한 디폴트 오분류 비용 행렬 값과 같습니다. 이전 릴리스에서 디폴트 Cost 값은 [0 0.5; 0.5 0]입니다.

XCrit 또는 YCrit 이름-값 인수를 'ecost'(예상된 비용)로 지정하고 Cost의 디폴트 값을 사용하면 함수는 출력 인수 X 또는 Y에 이전 릴리스에서의 2배에 해당하는 값을 반환합니다.

XCrit 또는 YCrit 이름-값 인수를 사용자 지정 메트릭으로 지정하고 Cost의 디폴트 값을 사용하면 해당 출력 인수 값은 사용자 지정 메트릭이 비용 행렬을 사용하는 방법에 따라 달라질 수 있습니다.

AUC 의미 약동학 AUC 계산 AUC 계산 엑셀 AUC 계산 프로그램 AUROC 의미 ROC 곡선 ROC 곡선 해석 머신러닝 AUC

Auc 곡선하면적 - auc gogseonhamyeonjeog

저널정보

저자정보

초록·키워드

목차

참고문헌 (14)

함께 읽어보면 좋을 논문

이 논문의 저자 정보

이 논문과 함께 이용한 논문

최근 본 자료

댓글(0)

perfcurve

구문

설명

예제

로지스틱 회귀 분류에 대한 ROC 곡선 플로팅하기

ROC 곡선을 사용하여 분류 방법 비교하기

사용자 지정 커널 함수에 대한 모수 값 결정하기

분류 트리에 대한 ROC 곡선 플로팅하기

ROC 곡선에 대한 점별(Pointwise) 신뢰구간 계산하기

입력 인수

labels — 실제 클래스 레이블 숫자형 벡터 | 논리형 벡터 | 문자형 행렬 | string형 배열 | 문자형 벡터로 구성된 셀형 배열 | categorical형 배열

scores — 분류기에서 반환되는 점수 부동소수점으로 구성된 벡터

posclass — 양성 클래스 레이블 숫자형 스칼라 | 논리형 스칼라 | 문자형 벡터 | string형 스칼라 | 문자형 벡터를 포함하는 셀 | categorical형 스칼라

이름-값 인수

NegClass — 음성 클래스 목록 'all' (디폴트 값) | 숫자형 배열 | categorical형 배열 | string형 배열 | 문자형 벡터로 구성된 셀형 배열

XCrit — X 계산 기준 'fpr' (디폴트 값) | 'fnr' | 'tnr' | 'ppv' | 'ecost' | ...

YCrit — Y 계산 기준 'tpr' (디폴트 값) | X의 경우와 동일한 기준 옵션

XVals — X 기준에 대한 값 'all' (디폴트 값) | 숫자형 배열

TVals — 양성 클래스 점수에 대한 분계점 'all' (디폴트 값) | 숫자형 배열

UseNearest — 데이터에서 가장 가까운 값을 사용할지에 대한 표시자 'on' (디폴트 값) | 'off'

ProcessNaN — NaN 점수를 처리하는 데 사용할 perfcurve 방법 'ignore' (디폴트 값) | 'addtofalse'

Prior — 양성 클래스와 음성 클래스에 대한 사전 확률 'empirical' (디폴트 값) | 'uniform' | 두 요소를 가진 배열

Cost — 오분류 비용 [0 1;1 0] (디폴트 값) | 2×2 행렬

Alpha — 유의수준 0.05 (디폴트 값) | 범위 0~1에 속하는 스칼라 값

Weights — 관측값 가중치 음이 아닌 스칼라 값으로 구성된 벡터 | 음이 아닌 스칼라 값으로 구성된 벡터로 구성된 셀형 배열

NBoot — 부트스트랩 복제 개수 0 (디폴트 값) | 양의 정수

BootType — bootci에 대한 신뢰구간 유형 'bca' (디폴트 값) | 'norm | 'per' | 'cper' | 'stud'

BootArg — bootci에 대한 선택적 입력 인수 [ ] (디폴트 값) | {'Nbootstd',nbootstd}

Options — 신뢰구간의 계산을 제어하는 옵션 [] (디폴트 값) | statset에서 반환되는 구조체형 배열

출력 인수

X — 성능 곡선의 x 좌표 벡터, fpr (디폴트 값) | m×3 행렬

Y — 성능 곡선의 y 좌표 벡터, tpr (디폴트 값) | m×3 행렬

T — 분류기 점수에 대한 분계점 벡터 | m×3 행렬

AUC — 곡선 아래 면적 스칼라 값 | 3×1 벡터

OPTROCPT — ROC 곡선의 최적 조작점 1×2 배열

SUBY — 음성 서브클래스의 값 배열

SUBYNAMES — 음성 클래스 이름 셀형 배열

알고리즘

점별 신뢰한계

대체 기능

참고 문헌

확장 기능

자동 병렬 지원 Parallel Computing Toolbox™를 사용해 자동 병렬 계산을 실행하여 코드 실행 속도를 높일 수 있습니다.

버전 내역

R2022a: 디폴트 Cost 값이 변경됨

관련 게시물

광고하는

최근 소식

광고하는

포퓰러

광고하는

에 대한

합법적인

돕다

사회의