xgb 위치결정 예제

위의 방정식에서 N은 인스턴스 또는 샘플의 수입니다. `yi`는 i-th 인스턴스의 결과일 것입니다. 예를 들어 0과 1과 같은 인스턴스에서 가정할 수 있는 두 가지 결과가 있다고 가정해 보겠습니다. 위의 방정식에서 `yi`는 1이되고 따라서 `1-yi`는 0입니다. `pi`는 값 `yi`를 가정하는 i-th 인스턴스의 확률을 나타냅니다. 즉, 로그 손실은 인스턴스의 총 수에 대해 상태 0과 1을 모두 가정한 샘플의 확률을 누적합니다. 방정식 뒤에 간단한 조건은 : 실제 출력 (yi)의 확률 계수는 -log (실제 출력 확률)이고 다른 출력의 경우 -log (실제 출력의 1 확률)입니다. 파이썬에서 프로그래밍 방식으로 조건을 표현해 보겠습니다: 여기서 `M`은 주어진 상황에 대해 가능한 결과 또는 레이블의 수입니다. 이전 방정식과 유사한 규칙을 가진 `pij`는 모델에서 i 인스턴스에 레이블 j를 할당할 확률입니다. 우리가 예제의 도움으로 이것을 이해하자 : 이제 이론이 다루어지고, 우리는 분류 모델에서 사용하기 시작하는 것이 좋습니다. 후속 기사에서는 로그 손실이 모델의 입력 매개 변수에 대한 결정 요소로 사용되는 방법에 대해 설명합니다.

특히 XGBoost 분류 모델에 대한 로그 손실을 사용하는 근거에 대해 설명합니다. 수학은 종종 모든 전문 용어와 멋진 소리 복잡한 용어로 우리에게 커브볼을 던지는 경향이있다. 대수, 통계, 미적분 및 확률의 개념을 많이 사용하는 데이터 과학도 이러한 용어를 많이 차용합니다. 기계 학습(ML)은 수학에 의존하는 데이터 과학의 매력적인 측면입니다. 이 공간을 지배하고 같은 이해하기 위해 알고리즘이 많이 있습니다, 수학적 개념의 사운드 경험이 중요하게된다. XGBoost는 그라데이션 부스트 의사 결정 트리를 기반으로 점점 더 인기 있고 점점 지배적 인 ML 알고리즘 중 하나입니다. 분류 및 회귀 문제에 모두 사용할 수 있으며 성능과 속도로 잘 알려져 있습니다. XGBoost는 대부분의 다른 그라데이션 증폭 알고리즘과 마찬가지로 `로그 손실`이라는 인기 있는 메트릭을 사용합니다.