🌈 “한국어 감성 분석 모델 만들기”
아래 설명은 프로그래밍을 하나도 모르는 사람을 기준으로 작성했어. 그리고 최대한 재밌고 직관적으로, “아~ 이런 느낌이구나!” 싶은 방식으로 풀어줄게 😊
🧠 1. 먼저, 우리가 뭘 만들려고 하는 걸까?
우리는 댓글이 긍정인지 부정인지 자동으로 판단하는 AI를 만들고 있어! 예를 들면:
- “완전 재미있어요!” → 😊 긍정
- “보는 내내 지루하고 짜증났습니다.” → 😡 부정
사람이 직접 읽고 분류하면 시간이 많이 걸리니까, AI가 대신 읽고 분석해주면 엄청 편해지겠지?
📦 2. 데이터 준비 — 리뷰를 박스에 담아오기
우리는 네이버 영화 평점 데이터를 가져온다. 박스 안에는 이런 식의 데이터가 잔뜩 들어있어:
| 평점 | 리뷰 |
|---|---|
| 9 | “최고로 재밌음!” |
| 1 | “스토리가 완전 최악…” |
근데 이 박스를 열자마자 문제가 생겨!
❗ 문제 1: 글자가 엉망진창일 수 있다
예: 안녕^^;; ㅋㅋㅋ ㄱㄴㅇ a1234 !!!
→ AI가 이해할 수 있도록 깨끗하게 세탁해줘야 한다.
🧽 3. 텍스트 세탁하기 (전처리)
정확한 판단을 하려면 리뷰를 아주 깨끗하게 만들어야 해.
🧼 3-1. 쓸모없는 문자 싹 지우기
- 기호, 숫자, 영어, 특수문자 → ❌
- 한글 + 띄어쓰기만 → ⭕
예: 안녕!!! ㅋㅋㅋ 123 → “안녕”
🧼 3-2. 빈 글자 제거
지우고 나니 이렇게 되는 경우도 있어:
“ ” → 아무것도 없음
이런 데이터는 AI가 배울 게 없으니까 버림.
🔠 4. 형태소 분석 — 문장을 잘게 쪼개기
AI에게 “한국어”는 너무 어려워! 그래서 문장을 뜻 단위로 쪼갠다.
예: “영화가 정말 재밌었다” → “영화 / 가 / 정말 / 재밌다”
이걸 형태소 분석이라고 해.
🏷️ 5. 토큰화 — 단어에게 번호표 주기
영화관 입장할 때 번호표 주는 것처럼, AI가 이해하기 쉽게 “단어마다 번호”를 붙인다.
예: 영화 → 112 재밌다 → 540 정말 → 314
이제 AI는 글자를 직접 읽지 않고,
“112 314 540" 이런 숫자만 보고 판단한다!
📏 6. 패딩(Padding) — 리뷰 길이 맞춰주는 과정
사람마다 리뷰 길이가 다르지?
- “굿!” → 1단어
- “스토리가, 연출이, 배우 연기가 모두 훌륭했다…” → 20단어
AI는 모든 리뷰가 같은 길이여야 잘 배운다.
그래서 짧은 리뷰는 뒤에 0을 채우고 긴 리뷰는 중간까지 자른다.
예: “굿!” → [112, 0, 0, 0 … (총 30개)]
🧠 7. 이제 AI에게 공부시킬 차례!
우리가 사용한 모델은 대표적으로 이렇게 3가지야:
📘 KoBERT
한국어를 양방향으로 이해하는 매우 똑똑한 독해 AI
⚡ KoELECTRA
잘못된 단어를 찾아내는 데 특화된 탐정형 AI
📚 KoBART
문장을 읽고 다시 고쳐 쓰는 데 강한 번역가형 AI
각각의 모델은 사람처럼 ‘한국어를 미리 배운 상태’라서 우리가 준 리뷰 데이터를 더 빠르게 이해하고 배울 수 있어.
💻 8. 모델 학습시키기 — 숙제 내주기
AI에게 20,000개의 리뷰를 준다:
- 이건 좋은 리뷰야
- 이건 나쁜 리뷰야
AI는 예시를 보면서 “아~ 이런 패턴이면 긍정이고, 이런 표현이면 부정이구나!” 라고 배우게 된다.
이걸 “파인튜닝(fine-tuning)”이라고 해.
📤 9. 우리가 만든 AI로 실제로 테스트해보기
예:
“이 영화 정말 재미있었어요!”
→ [긍정, 확률 0.98]
“스토리도 별로고 노잼”
→ [부정, 확률 0.99]
AI가 드디어 사람처럼 감정 분석을 하게 된 것!
🧠 10. 마지막 — 최신 LLM(거대 언어 모델) 소개
우리가 쓴 KoBERT 같은 모델 말고도 세상에는 정말 많은 초거대 AI들이 있어!
- GPT 시리즈
- BERT
- T5
- LaMDA
- PaLM
- LLaMA
- Claude
이런 애들이 요즘 뉴스에서 말하는 “AI 챗봇” “AI 비서”들이다.
우리가 만든 감성분석 모델도, 이중 하나를 축소한 버전이라고 이해하면 맞아!
🎉 전체 스토리 요약
우리가 한 일은 다음처럼 이해하면 돼:
- 리뷰 데이터를 가져온다
- 더러운 문자를 씻겨서 깨끗하게 만든다
- 단어를 잘게 쪼개고 번호표를 붙인다
- AI가 읽기 쉽게 길이를 맞춘다
- KoBERT, KoELECTRA 등 모델에게 학습시킨다
- 새로운 리뷰를 넣어 감정을 판단하게 한다
즉, 사람 대신 영화 리뷰를 읽고 감정을 판단해주는 똑똑한 AI 도우미를 만든 것!
🔖 관련 해시태그(전체 흐름 버전)
#한국어NLP #KoBERT #KoELECTRA #KoBART #한국어언어모델 #Transformers #HuggingFace #BERT기반모델 #ELECTRA모델 #BART모델 #LLM종류 #자연어처리기초 #텍스트전처리 #감성분석 #영화리뷰분석 #형태소분석 #정규표현식 #토큰화 #인코딩 #임베딩 #WordPiece #SentencePiece #데이터전처리 #파인튜닝 #딥러닝NLP #데이터스플릿 #Trainer #HuggingFaceDataset #TextClassification #한국어AI
'학습 > AI' 카테고리의 다른 글
| [ AI 프로젝트 ] 프론트부터 만든 민원처리 시스템 개발일지 (0) | 2025.12.10 |
|---|---|
| 허깅페이스 활용 파인튜닝 (0) | 2025.11.18 |
| 언어지능(PLM) — 세상에서 가장 똑똑한 언어 비서가 만들어지는 과정 (0) | 2025.11.18 |
| 한국어 텍스트 감성분류 (0) | 2025.11.17 |
| 데이터 전처리 핵심 (0) | 2025.11.16 |