본문 바로가기
학습/AI

머신러닝

by 황성안 2025. 11. 4.
728x90
반응형

선형 회귀 모델 개념 이해

  • cost 이해
  • 경사하강법의 개념

선형 분류 모델

  • cost 이해
  • sigmoid 함수

머신러닝 모델 선택 학습 예측 흐름

  1. train, test 분리 **
  2. 모델 객체 생성
  3. 모델 학습
  4. 모델 평가

머신러닝

모델(알고리즘) 데이터를 넘겨줌, 데이터를 활용(학습)해 모델 스스로 성능 향상시키는 기술

1. 지도 학습(Supervised Learning)

  • 정답데이터를 모델이 학습할때 함께 넘겨줘서 정답데이터를 가장 잘 예측할 수 있도록 학습

A. 정답 데이터가 수치형(숫자) : 회귀(Regression)

  • 숫자로 결과가 나오는 것

    ex) 집값 예측, 성적 예측

B. 정답데이터가 범주형(객관식) : 분류(classification)

  • 분류 결과가 2개면 이진분류, 분류 결과가 3개 이상이면 다중분류
    ex) 스팸 메일 분류, 혈액형, mbti

2. 비지도 학습(Unsupervised Learning)

데이터에 대한 Label ( 명시적 답)이 없는 상태에서 학습시킨다.

  • 데이터의 숨겨진 특징, 구조, 패턴을 파악하는데 사용한다

  • 데이터를 예측하는 것이 목표가 아님!

  • 데이터의 분포, 특성을 파악하는 것이 목표!!

  • 군집화, 차원축소 등

A. 강화 학습(Reinforcement Learning)

  • 정답을 알려주지 않음

  • 더 많은 보상(점수)을 얻는 방향으로 학습

  • 게임, 로봇 학습할때 가장 많이 활용

    ex) 알파고


일반화, 과대적합, 과소적합

1. 일반화

  • 머신 러닝의 목표이다. Train 데이터로 학습한 모델이 test 데이터에 대해서 정확히 예측하는 현상

2. 과대 적합

  • Train 데이터에 너무 과도한 학습으로 train 데이터만 잘 예측하고 test 데이터에서는 성능이 저하되는 현상

3. 과소 적합

  • Train 데이터를 충분히 반영하지 못해서 걍 성능이 저하되는 현상 (학습이 제대로 안되있음 포함)

KNN( K-Nearest Neighbors )

K 개의 근접한 데이터를 보고 다수결로 판단

  • 분류와 회귀에 모두 사용가능하다
  • 가장 가까운 K 개의 데이터를 보고 판단한다

Decision Tree

퀘스트 프로그램과 비슷함, 계속된 물음을 통해 학습하고 판단

  • 분류와 회귀에 모두 사용가능하다

  • 계속된 질문을 통해 데이터를 판단함

불순도

불순도가 낮아지는 방향으로 질문을 계속 진행하며 학습을 하면 굿

Decision Tree(이하. DT) 에서 노드의 혼합 정도를 나타내는 개념이다.

(하나의 노드에 여러 종류가 섞여 있는 정도)

DT 장단점

  • 장점
    • 쉽게 이해
    • 전처리간단
    • 범주, 수치형 모두 가능
    • 과정을 시각화 가능
  • 단점
    • 과대적합 위험
    • 작은 변화에 민감

Linear Regression

  • y = ax+b 일차식을 만들어서 전체 데이터를 가장 잘 표현할 수 있는 직선을 만듦
  • 전체 데이터를 가장 잘 표현 -> cost function(MSE) 이 최소
  • cost 가 최소가 되는 w,b을 찾기 위해서 사용되는 대표적인 방법: 경사하강법

Logisitic Regression

  • linear regression을 바탕으로 해당 클래스에 속할 확률을 계산(sigmoid 함수)
  • cost function(cross entropy error) 이 최소
  • 선형 회귀 모델의 단점 : 모델의 복잡도를 제어할 수 없다 *
  • 을 해결하기 위해서 사용되는 모델*
  • 가중치 조절!! *
  1. Rigde(L2) : 중요하지 않은 특성들의 가중치를 0가깝게
  2. Lasso(L1) : 중요하지 않은 특성들의 가중치를 0으로 만듦

모델 평가 지표

1. 회귀 모델 평가 지표

  • 절대지표 : MSE, RMSE → 사용하는 단위 다른 모델들의 성능을 평가할때 사용할 수 없음
  • 상대지표 : r-squared(score함수 부르면 계산되는 값) : 전체 데이터의 변동성을 설명한 정도
    ex) 0.75 → 모델이 데이터를 75%정도 설명했다.

2. 분류 모델 평가 지표

  • 혼동 행렬(confusion matrix)
    예측값

    P         |   N

    실 P TP | FN
    제 --------------------------------------------
    값 N FP | TN

  • 정확도(accuracy, score 찍으면 나오는 값) : 전체 데이터 중 정답의 비율

  • 재현율(recall, 민감도, sensitivity) : 실제 참인 데이터 중 정답의 비율

  • 정밀도(precision) : 예측 값이 참인 데이터 중 정답의 비율
    → 상황에 따라서 살펴봐야하는 지표들이 다르기 때문!!

  • F1 score : 재현율과 정밀도의 균형을 평가하는 지표

  • ROC curve, AUC(Area under curve)

728x90
반응형