728x90

🌈 “한국어 감성 분석 모델 만들기”

아래 설명은 프로그래밍을 하나도 모르는 사람을 기준으로 작성했어. 그리고 최대한 재밌고 직관적으로, “아~ 이런 느낌이구나!” 싶은 방식으로 풀어줄게 😊

🧠 1. 먼저, 우리가 뭘 만들려고 하는 걸까?

우리는 댓글이 긍정인지 부정인지 자동으로 판단하는 AI를 만들고 있어! 예를 들면:

“완전 재미있어요!” → 😊 긍정
“보는 내내 지루하고 짜증났습니다.” → 😡 부정

사람이 직접 읽고 분류하면 시간이 많이 걸리니까, AI가 대신 읽고 분석해주면 엄청 편해지겠지?

📦 2. 데이터 준비 — 리뷰를 박스에 담아오기

우리는 네이버 영화 평점 데이터를 가져온다. 박스 안에는 이런 식의 데이터가 잔뜩 들어있어:

평점	리뷰
9	“최고로 재밌음!”
1	“스토리가 완전 최악…”

근데 이 박스를 열자마자 문제가 생겨!

❗ 문제 1: 글자가 엉망진창일 수 있다

예: 안녕^^;; ㅋㅋㅋ ㄱㄴㅇ a1234 !!!

→ AI가 이해할 수 있도록 깨끗하게 세탁해줘야 한다.

🧽 3. 텍스트 세탁하기 (전처리)

정확한 판단을 하려면 리뷰를 아주 깨끗하게 만들어야 해.

🧼 3-1. 쓸모없는 문자 싹 지우기

기호, 숫자, 영어, 특수문자 → ❌
한글 + 띄어쓰기만 → ⭕

예: 안녕!!! ㅋㅋㅋ 123 → “안녕”

🧼 3-2. 빈 글자 제거

지우고 나니 이렇게 되는 경우도 있어:

“ ” → 아무것도 없음

이런 데이터는 AI가 배울 게 없으니까 버림.

🔠 4. 형태소 분석 — 문장을 잘게 쪼개기

AI에게 “한국어”는 너무 어려워! 그래서 문장을 뜻 단위로 쪼갠다.

예: “영화가 정말 재밌었다” → “영화 / 가 / 정말 / 재밌다”

이걸 형태소 분석이라고 해.

🏷️ 5. 토큰화 — 단어에게 번호표 주기

영화관 입장할 때 번호표 주는 것처럼, AI가 이해하기 쉽게 “단어마다 번호”를 붙인다.

예: 영화 → 112 재밌다 → 540 정말 → 314

이제 AI는 글자를 직접 읽지 않고,

“112 314 540" 이런 숫자만 보고 판단한다!

📏 6. 패딩(Padding) — 리뷰 길이 맞춰주는 과정

사람마다 리뷰 길이가 다르지?

“굿!” → 1단어
“스토리가, 연출이, 배우 연기가 모두 훌륭했다…” → 20단어

AI는 모든 리뷰가 같은 길이여야 잘 배운다.

그래서 짧은 리뷰는 뒤에 0을 채우고 긴 리뷰는 중간까지 자른다.

예: “굿!” → [112, 0, 0, 0 … (총 30개)]

🧠 7. 이제 AI에게 공부시킬 차례!

우리가 사용한 모델은 대표적으로 이렇게 3가지야:

📘 KoBERT

한국어를 양방향으로 이해하는 매우 똑똑한 독해 AI

⚡ KoELECTRA

잘못된 단어를 찾아내는 데 특화된 탐정형 AI

📚 KoBART

문장을 읽고 다시 고쳐 쓰는 데 강한 번역가형 AI

각각의 모델은 사람처럼 ‘한국어를 미리 배운 상태’라서 우리가 준 리뷰 데이터를 더 빠르게 이해하고 배울 수 있어.

💻 8. 모델 학습시키기 — 숙제 내주기

AI에게 20,000개의 리뷰를 준다:

이건 좋은 리뷰야
이건 나쁜 리뷰야

AI는 예시를 보면서 “아~ 이런 패턴이면 긍정이고, 이런 표현이면 부정이구나!” 라고 배우게 된다.

이걸 “파인튜닝(fine-tuning)”이라고 해.

📤 9. 우리가 만든 AI로 실제로 테스트해보기

예:

“이 영화 정말 재미있었어요!”
→ [긍정, 확률 0.98]
“스토리도 별로고 노잼”
→ [부정, 확률 0.99]

AI가 드디어 사람처럼 감정 분석을 하게 된 것!

🧠 10. 마지막 — 최신 LLM(거대 언어 모델) 소개

우리가 쓴 KoBERT 같은 모델 말고도 세상에는 정말 많은 초거대 AI들이 있어!

GPT 시리즈
BERT
T5
LaMDA
PaLM
LLaMA
Claude

이런 애들이 요즘 뉴스에서 말하는 “AI 챗봇” “AI 비서”들이다.

우리가 만든 감성분석 모델도, 이중 하나를 축소한 버전이라고 이해하면 맞아!

🎉 전체 스토리 요약

우리가 한 일은 다음처럼 이해하면 돼:

리뷰 데이터를 가져온다
더러운 문자를 씻겨서 깨끗하게 만든다
단어를 잘게 쪼개고 번호표를 붙인다
AI가 읽기 쉽게 길이를 맞춘다
KoBERT, KoELECTRA 등 모델에게 학습시킨다
새로운 리뷰를 넣어 감정을 판단하게 한다

즉, 사람 대신 영화 리뷰를 읽고 감정을 판단해주는 똑똑한 AI 도우미를 만든 것!

🔖 관련 해시태그(전체 흐름 버전)

#한국어NLP #KoBERT #KoELECTRA #KoBART #한국어언어모델 #Transformers #HuggingFace #BERT기반모델 #ELECTRA모델 #BART모델 #LLM종류 #자연어처리기초 #텍스트전처리 #감성분석 #영화리뷰분석 #형태소분석 #정규표현식 #토큰화 #인코딩 #임베딩 #WordPiece #SentencePiece #데이터전처리 #파인튜닝 #딥러닝NLP #데이터스플릿 #Trainer #HuggingFaceDataset #TextClassification #한국어AI

728x90

'학습 > AI' 카테고리의 다른 글

[ AI 프로젝트 ] 프론트부터 만든 민원처리 시스템 개발일지 (0)	2025.12.10
허깅페이스 활용 파인튜닝 (0)	2025.11.18
언어지능(PLM) — 세상에서 가장 똑똑한 언어 비서가 만들어지는 과정 (0)	2025.11.18
한국어 텍스트 감성분류 (0)	2025.11.17
데이터 전처리 핵심 (0)	2025.11.16

삶과 개발

한글 텍스트 전처리와 감성분류 - 2

🌈 “한국어 감성 분석 모델 만들기”

🧠 1. 먼저, 우리가 뭘 만들려고 하는 걸까?

📦 2. 데이터 준비 — 리뷰를 박스에 담아오기

❗ 문제 1: 글자가 엉망진창일 수 있다

🧽 3. 텍스트 세탁하기 (전처리)

🧼 3-1. 쓸모없는 문자 싹 지우기

🧼 3-2. 빈 글자 제거

🔠 4. 형태소 분석 — 문장을 잘게 쪼개기

🏷️ 5. 토큰화 — 단어에게 번호표 주기

📏 6. 패딩(Padding) — 리뷰 길이 맞춰주는 과정

🧠 7. 이제 AI에게 공부시킬 차례!

📘 KoBERT

⚡ KoELECTRA

📚 KoBART

💻 8. 모델 학습시키기 — 숙제 내주기

📤 9. 우리가 만든 AI로 실제로 테스트해보기

🧠 10. 마지막 — 최신 LLM(거대 언어 모델) 소개

🎉 전체 스토리 요약

🔖 관련 해시태그(전체 흐름 버전)

'학습 > AI' 카테고리의 다른 글

티스토리툴바

한글 텍스트 전처리와 감성분류 - 2

🌈 “한국어 감성 분석 모델 만들기”

🧠 1. 먼저, 우리가 뭘 만들려고 하는 걸까?

📦 2. 데이터 준비 — 리뷰를 박스에 담아오기

❗ 문제 1: 글자가 엉망진창일 수 있다

🧽 3. 텍스트 세탁하기 (전처리)

🧼 3-1. 쓸모없는 문자 싹 지우기

🧼 3-2. 빈 글자 제거

🔠 4. 형태소 분석 — 문장을 잘게 쪼개기

🏷️ 5. 토큰화 — 단어에게 번호표 주기

📏 6. 패딩(Padding) — 리뷰 길이 맞춰주는 과정

🧠 7. 이제 AI에게 공부시킬 차례!

📘 KoBERT

⚡ KoELECTRA

📚 KoBART

💻 8. 모델 학습시키기 — 숙제 내주기

📤 9. 우리가 만든 AI로 실제로 테스트해보기

🧠 10. 마지막 — 최신 LLM(거대 언어 모델) 소개

🎉 전체 스토리 요약

🔖 관련 해시태그(전체 흐름 버전)

'학습 > AI' 카테고리의 다른 글

관련글

티스토리툴바