CHIRO.
← Blog
AEO/SEO2026년 5월 18일

한국어 AI 검색의 토큰화 — 띄어쓰기와 조사가 인용에 미치는 영향

AI는 한국어를 단어가 아닌 토큰 단위로 처리합니다. 한국어 AEO 콘텐츠가 영어 콘텐츠와 다른 작성 원칙이 필요한 기술적 이유를 정리합니다.

by 최정원

"치로웹디자인"은 AI에게 한 단어가 아닙니다

OpenAI의 토크나이저로 "치로웹디자인"을 처리하면 6개 토큰으로 분리됩니다. "치", "로", "웹", "디", "자", "인" 각각이 토큰입니다. 영어 "Chiro Web Design"은 3개 토큰입니다. 한국어는 영어 대비 2~3배 더 많은 토큰으로 분해됩니다. 이 차이가 한국어 AEO 콘텐츠의 작성 원칙을 영어와 다르게 만듭니다.

토큰화(Tokenization)는 AI가 텍스트를 처리하기 전 거치는 첫 단계입니다. 임베딩 생성, 의미 매칭, 답변 생성 모두 토큰 단위로 이뤄집니다. 한국어 토큰화의 특성을 이해해야 정확한 AEO 작업이 가능합니다.


BPE 알고리즘과 한국어

GPT 계열은 BPE(Byte Pair Encoding) 알고리즘으로 토큰화합니다. 자주 등장하는 문자열 조합을 하나의 토큰으로 묶고, 드문 조합은 글자 단위로 쪼갭니다. 영어는 학습 데이터가 압도적이라 단어 단위 토큰이 잘 형성됩니다. 한국어는 학습 데이터 비중이 낮아 글자 단위로 쪼개지는 경우가 많습니다.

표현 영어 토큰 수 한국어 토큰 수
AEO 1 1 (영문 표기)
Web Design 2 "웹 디자인" 4
회사명 회사명 토큰 1 글자별 분리
Annual Revenue 2 "연간 매출" 5

같은 정보를 한국어로 표현하면 토큰이 1.5~3배 늘어납니다. AI의 컨텍스트 윈도우는 토큰 단위로 제한되기 때문에, 한국어 콘텐츠는 같은 정보를 전달하는 데 더 많은 컨텍스트 자리를 차지합니다.


띄어쓰기가 토큰화에 미치는 영향

"답변엔진최적화"와 "답변 엔진 최적화"는 다르게 토큰화됩니다. 띄어쓰기 없는 표현은 글자 단위로 분해되어 의미 단위가 깨집니다. 띄어쓰기가 정확한 표현은 의미 단위로 그룹화되어 임베딩 품질이 올라갑니다.

치로웹디자인이 자체 측정한 결과 "AnswerEngineOptimization"의 임베딩 벡터는 "Answer Engine Optimization"의 임베딩과 코사인 유사도 0.61이었습니다. 같은 의미인데도 0.7 미만으로 떨어집니다. 한국어 콘텐츠에서 띄어쓰기 누락은 AEO 신호를 약화시킵니다.


조사 처리 — 한국어 AEO의 함정

"AEO는", "AEO가", "AEO를", "AEO에" 등 조사가 붙은 표현은 모두 다른 토큰 시퀀스로 처리됩니다. 본문에 "AEO는"만 반복하면 "AEO가"로 검색하는 사용자에게 매칭률이 떨어집니다.

해결 방법은 두 가지입니다. 한 글 안에 조사 변형을 자연스럽게 분산시키는 것. 그리고 조사 없는 단독 형태("AEO")도 본문, FAQ, 헤딩에 사용하는 것. 다양한 조사 형태가 분산되면 사용자 질문의 조사가 무엇이든 매칭이 가능합니다.


영문 약어와 한국어 표기 병기

AEO, SEO, JSON-LD, API 같은 영문 약어와 그 한국어 표기를 함께 사용하는 것이 한국어 AEO에 효과적입니다. 한국어 사용자는 검색에서 두 표현을 혼용합니다. "AEO"로 검색하기도 하고 "답변 엔진 최적화"로 검색하기도 합니다.

✅ "AEO(Answer Engine Optimization, 답변 엔진 최적화)는..."
❌ "AEO는..." 또는 "답변 엔진 최적화는..." (한쪽만)

첫 등장 시 풀네임 + 한국어 표기를 병기하고, 이후 본문에서는 약어와 한국어를 자연스럽게 섞습니다. 임베딩 공간에서 두 표현이 같은 영역에 위치하도록 만드는 작업입니다.


한자어 vs 순우리말 표현 균형

같은 의미를 한자어와 순우리말로 표현 가능한 경우가 많습니다. "최적화" vs "다듬기", "구조화" vs "체계 잡기". 한국어 사용자는 두 표현을 혼용합니다.

치로웹디자인의 한국어 AEO 콘텐츠는 한자어 60%, 순우리말 40% 비율로 작성합니다. 한자어 비중이 높으면 전문적으로 보이지만 일상 표현 검색에서 빠집니다. 순우리말만 쓰면 가벼워 보이고 전문 표현 검색에서 빠집니다. 균형이 필요합니다.


한국어 콘텐츠 길이 보정

영어 1,500자와 한국어 1,500자는 정보 밀도가 다릅니다. 한국어가 같은 글자 수에 더 많은 정보를 담습니다. 한국어 AEO 콘텐츠 적정 길이는 1,800~2,500자입니다. 영어 가이드의 "최소 2,000단어" 기준을 그대로 한국어에 적용하면 글이 늘어지고 청킹이 깨집니다.

시맨틱 청킹과 AEO에서 한국어 청크 크기 권장치(150~450자)를 다룹니다. AEO·SEO 통합 설계 서비스는 한국어 콘텐츠 작성 시 토큰화 친화 표현을 적용합니다.


자주 묻는 질문

한국어 콘텐츠가 영어 콘텐츠보다 AEO에서 불리한가요? 경쟁은 적습니다. 한국어 AEO 시장은 영어보다 5~7년 뒤처져 있습니다. 콘텐츠 자체의 품질만 갖추면 한국어 시장에서 선점 효과가 큽니다. 토큰화 비효율은 단점이지만 시장 경쟁 강도가 낮아 균형이 맞습니다.

기존 한국어 콘텐츠의 표현을 다시 다듬어야 하나요? 조사 변형 분산, 영문 약어 병기, 띄어쓰기 정확도 정도만 점검하면 됩니다. 전면 재작성은 불필요합니다. 상위 트래픽 페이지 10~20개만 표현 다양화 작업을 적용해도 인용률 개선이 보입니다.

한국어와 영어 콘텐츠를 같은 사이트에서 운영하면 어떤가요? 영어 콘텐츠는 영어 시장 AEO에, 한국어 콘텐츠는 한국어 시장에 작용합니다. 같은 도메인을 공유하면 도메인 권위가 양쪽에서 누적됩니다. 다만 URL 구조(/en/, /ko/)와 hreflang 태그를 정확하게 설정해야 검색엔진 혼선을 막을 수 있습니다.

한국어 토큰화한국어 AI 검색한국어 AEOBPE 토큰한국어 임베딩