본문 바로가기
학습/AI

한글 텍스트 전처리와 감성분류 - 2

by 황성안 2025. 11. 19.
728x90
반응형

🌈 “한국어 감성 분석 모델 만들기”

아래 설명은 프로그래밍을 하나도 모르는 사람을 기준으로 작성했어. 그리고 최대한 재밌고 직관적으로, “아~ 이런 느낌이구나!” 싶은 방식으로 풀어줄게 😊


🧠 1. 먼저, 우리가 뭘 만들려고 하는 걸까?

우리는 댓글이 긍정인지 부정인지 자동으로 판단하는 AI를 만들고 있어! 예를 들면:

  • “완전 재미있어요!” → 😊 긍정
  • “보는 내내 지루하고 짜증났습니다.” → 😡 부정

사람이 직접 읽고 분류하면 시간이 많이 걸리니까, AI가 대신 읽고 분석해주면 엄청 편해지겠지?


📦 2. 데이터 준비 — 리뷰를 박스에 담아오기

우리는 네이버 영화 평점 데이터를 가져온다. 박스 안에는 이런 식의 데이터가 잔뜩 들어있어:

평점 리뷰
9 “최고로 재밌음!”
1 “스토리가 완전 최악…”

근데 이 박스를 열자마자 문제가 생겨!

❗ 문제 1: 글자가 엉망진창일 수 있다

예: 안녕^^;; ㅋㅋㅋ ㄱㄴㅇ a1234 !!!

→ AI가 이해할 수 있도록 깨끗하게 세탁해줘야 한다.


🧽 3. 텍스트 세탁하기 (전처리)

정확한 판단을 하려면 리뷰를 아주 깨끗하게 만들어야 해.

🧼 3-1. 쓸모없는 문자 싹 지우기

  • 기호, 숫자, 영어, 특수문자 → ❌
  • 한글 + 띄어쓰기만 → ⭕

예: 안녕!!! ㅋㅋㅋ 123 → “안녕”


🧼 3-2. 빈 글자 제거

지우고 나니 이렇게 되는 경우도 있어:

“ ” → 아무것도 없음

이런 데이터는 AI가 배울 게 없으니까 버림.


🔠 4. 형태소 분석 — 문장을 잘게 쪼개기

AI에게 “한국어”는 너무 어려워! 그래서 문장을 뜻 단위로 쪼갠다.

예: “영화가 정말 재밌었다” → “영화 / 가 / 정말 / 재밌다”

이걸 형태소 분석이라고 해.


🏷️ 5. 토큰화 — 단어에게 번호표 주기

영화관 입장할 때 번호표 주는 것처럼, AI가 이해하기 쉽게 “단어마다 번호”를 붙인다.

예: 영화 → 112 재밌다 → 540 정말 → 314

이제 AI는 글자를 직접 읽지 않고,

“112 314 540" 이런 숫자만 보고 판단한다!


📏 6. 패딩(Padding) — 리뷰 길이 맞춰주는 과정

사람마다 리뷰 길이가 다르지?

  • “굿!” → 1단어
  • “스토리가, 연출이, 배우 연기가 모두 훌륭했다…” → 20단어

AI는 모든 리뷰가 같은 길이여야 잘 배운다.

그래서 짧은 리뷰는 뒤에 0을 채우고 긴 리뷰는 중간까지 자른다.

예: “굿!” → [112, 0, 0, 0 … (총 30개)]


🧠 7. 이제 AI에게 공부시킬 차례!

우리가 사용한 모델은 대표적으로 이렇게 3가지야:

📘 KoBERT

한국어를 양방향으로 이해하는 매우 똑똑한 독해 AI

⚡ KoELECTRA

잘못된 단어를 찾아내는 데 특화된 탐정형 AI

📚 KoBART

문장을 읽고 다시 고쳐 쓰는 데 강한 번역가형 AI

각각의 모델은 사람처럼 ‘한국어를 미리 배운 상태’라서 우리가 준 리뷰 데이터를 더 빠르게 이해하고 배울 수 있어.


💻 8. 모델 학습시키기 — 숙제 내주기

AI에게 20,000개의 리뷰를 준다:

  • 이건 좋은 리뷰야
  • 이건 나쁜 리뷰야

AI는 예시를 보면서 “아~ 이런 패턴이면 긍정이고, 이런 표현이면 부정이구나!” 라고 배우게 된다.

이걸 “파인튜닝(fine-tuning)”이라고 해.


📤 9. 우리가 만든 AI로 실제로 테스트해보기

예:

“이 영화 정말 재미있었어요!”
→ [긍정, 확률 0.98]
“스토리도 별로고 노잼”
→ [부정, 확률 0.99]

AI가 드디어 사람처럼 감정 분석을 하게 된 것!


🧠 10. 마지막 — 최신 LLM(거대 언어 모델) 소개

우리가 쓴 KoBERT 같은 모델 말고도 세상에는 정말 많은 초거대 AI들이 있어!

  • GPT 시리즈
  • BERT
  • T5
  • LaMDA
  • PaLM
  • LLaMA
  • Claude

이런 애들이 요즘 뉴스에서 말하는 “AI 챗봇” “AI 비서”들이다.

우리가 만든 감성분석 모델도, 이중 하나를 축소한 버전이라고 이해하면 맞아!


🎉 전체 스토리 요약

우리가 한 일은 다음처럼 이해하면 돼:

  1. 리뷰 데이터를 가져온다
  2. 더러운 문자를 씻겨서 깨끗하게 만든다
  3. 단어를 잘게 쪼개고 번호표를 붙인다
  4. AI가 읽기 쉽게 길이를 맞춘다
  5. KoBERT, KoELECTRA 등 모델에게 학습시킨다
  6. 새로운 리뷰를 넣어 감정을 판단하게 한다

즉, 사람 대신 영화 리뷰를 읽고 감정을 판단해주는 똑똑한 AI 도우미를 만든 것!

 

 

 

 

 

 

 

🔖 관련 해시태그(전체 흐름 버전)

#한국어NLP #KoBERT #KoELECTRA #KoBART #한국어언어모델 #Transformers #HuggingFace #BERT기반모델 #ELECTRA모델 #BART모델 #LLM종류 #자연어처리기초 #텍스트전처리 #감성분석 #영화리뷰분석 #형태소분석 #정규표현식 #토큰화 #인코딩 #임베딩 #WordPiece #SentencePiece #데이터전처리 #파인튜닝 #딥러닝NLP #데이터스플릿 #Trainer #HuggingFaceDataset #TextClassification #한국어AI

728x90
반응형