학습(learning)

비용을 줄여나가는 과정

기계 학습(machine learning)

데이터를 사용하여 자동으로 object를 달성하는 학습

목적의 종류로 대충 classification과 regression가 있음

방식의 종류로 unsupervised learning, supervised learning, semi-supervised learning이 있음

여기선 supervised learning으로 classification을 할 것

사용할 데이터(data)

target : 바이너리 혹은 카테고리

feature : 실수

목적(Objective)

입력 받은 데이터의 특성으로 0인지 1인지 판별

판별하기 위해 logit 사용

  1. logit이란?

    odds란?

    실패 비율 대비 성공 비율

    성공 비율이 5/15이고 실패 비율이 10/15라면 odds는 5/10 = 0.5

    확률 p에 대한 오즈는 $odds=\frac{p}{1-p}$

    로짓은 오즈에 자연로그를 씌운 것

    $$ logit = ln\frac{p}{1-p} $$

    odds는 분류 기준이 1이고 logit은 0

    로짓의 역함수는 $p=\frac{1}{1+e^{-L}}=\frac{e^{-L}}{e^{-L}+1}$으로 시그모이드 함수이다.

    선형 함수 $y=wx+b$로는 분류문제를 풀기 힘들다.(입력값이 커지면 출력도 커져 해석하기 힘듬)

    logistic regression은 확률과 logit을 사용하여 출력의 범위를 $[0,1]$로 제한하고

    $[-\infin ,\infin]$의 logit을 선형 함수로 나타내어($logit=wx+b$) 입력문제를 해결.

    따라서 어떤 데이터 x가 1일 확률은

    $$ p=\frac{1}{1+e^{-(wx+b)}} $$

    로 모델링할 수 있음.