AI는 페이지를 통째로 읽지 않습니다
ChatGPT의 컨텍스트 윈도우는 128K 토큰입니다. Claude는 200K, Gemini는 1M까지 확장됐습니다. 하지만 한 답변에 사용되는 컨텍스트는 보통 4K16K 토큰입니다. 페이지 하나가 평균 2K5K 토큰입니다. AI는 페이지를 통째로 인용하지 않고 단락(chunk) 단위로 추려서 사용합니다.
이 처리 방식이 시맨틱 청킹입니다. AEO 콘텐츠가 단락 단위로 잘 구성되면 같은 페이지가 여러 질문에서 인용됩니다. 단락 구분이 모호하면 어떤 질문에서도 깔끔하게 인용되지 않습니다.
청크는 어떻게 잘리는가
대표적인 청킹 알고리즘 3가지의 작동 방식입니다.
| 방식 | 기준 | 평균 청크 크기 | AEO 영향 |
|---|---|---|---|
| Fixed-size | 토큰 수 (예: 512) | 512 토큰 | 의미 단절 위험 |
| Sentence-based | 문장 종료 | 200~400 토큰 | 자연스러움 |
| Semantic | 의미 변화 지점 | 300~600 토큰 | 가장 우수 |
최신 RAG 시스템은 Semantic 방식을 사용합니다. 문장 단위로 임베딩한 후 의미가 급격히 변하는 지점에서 청크를 끊습니다. AEO 콘텐츠 작성자는 이 의미 변화 지점을 의도적으로 만들어야 합니다.
청킹에 친화적인 구조 설계
시맨틱 청킹이 깔끔하게 작동하는 콘텐츠 구조는 다음 특징을 공유합니다.
첫째, H2 헤딩이 하나의 완결된 주제를 다룹니다. H2가 두 주제를 섞으면 청킹 알고리즘이 헷갈립니다. 둘째, H2 아래 35단락이 하나의 논리적 단위를 이룹니다. 청크 크기 권장치인 300600 토큰과 맞아떨어집니다.
셋째, 첫 단락에 핵심 주장이 있습니다. 청크가 잘렸을 때 그 청크 단독으로 의미가 통해야 합니다. 마지막에 결론을 두면 청크가 중간에서 잘려 의미가 무너집니다.
한 페이지가 여러 질문에 인용되는 구조
치로웹디자인의 AEO와 SEO 차이 글은 실제로 12개 이상의 다른 질문에서 인용됩니다. 이유는 각 H2 섹션이 독립적인 답변 단위로 작성되어 있기 때문입니다.
| H2 섹션 | 인용되는 질문 |
|---|---|
| AEO 정의 | "AEO가 뭐야" |
| SEO와의 차이 | "AEO와 SEO 차이가 뭐야" |
| 한국 시장 상황 | "한국에서 AEO 적용된 사이트" |
| 5단계 적용법 | "AEO 어떻게 적용해" |
| 체크리스트 | "AEO 체크해야 할 항목" |
5개 H2가 5개 질문에 각각 인용됩니다. 한 글 안에 여러 청크가 독립적인 답변 가치를 갖기 때문입니다.
청킹 친화 글 작성 7원칙
-
H2당 하나의 완결된 주제만 다룹니다. 두 주제를 섞고 싶으면 H2를 두 개로 분리합니다.
-
H2 첫 문장에 그 섹션의 결론이 있어야 합니다. AI는 청크의 앞부분을 더 중요하게 평가합니다.
-
한 H2 아래 단락이 6개를 넘으면 분리합니다. 청크가 너무 커지면 알고리즘이 임의 지점에서 잘라 의미가 깨집니다.
-
표와 리스트는 청킹에 매우 유리합니다. 구조 자체가 청크 경계 역할을 합니다.
-
단락 사이에 "이렇게", "이를 통해" 같은 연결어를 남발하지 않습니다. 청크가 잘릴 때 앞뒤 문맥에 의존하면 단독으로 의미가 깨집니다.
-
각 H2 마지막에 "그래서 ~다"라는 결과 문장을 둡니다. AI가 청크를 인용할 때 이 결과 문장이 답변에 사용됩니다.
-
페이지 전체에 같은 키워드를 반복하지 말고, 의미적으로 가까운 표현 5~10개를 분산 배치합니다.
청킹 친화 콘텐츠의 측정 효과
치로웹디자인이 청킹 원칙을 적용한 16개 글의 6개월 데이터입니다. 페이지당 평균 인용 질문 수는 적용 전 1.8개에서 적용 후 5.4개로 증가했습니다. 같은 콘텐츠를 청킹 친화 구조로 재작성한 후 ChatGPT 출처 노출이 3배 늘었습니다.
AEO·SEO 통합 설계 서비스는 콘텐츠 작성 단계에서 청킹 친화 구조를 표준으로 적용합니다.
자주 묻는 질문
기존 글을 청킹 친화로 재작성할 가치가 있나요? 방문자 수 상위 20% 글은 재작성 가치가 분명합니다. AI 인용이 발생하면 그 페이지의 전체 트래픽이 1.5~3배로 늘어납니다. 하위 80% 글은 신규 작성 시 청킹 원칙을 적용하는 것이 효율적입니다.
Notion, Medium 같은 플랫폼은 청킹에 불리한가요? 플랫폼 자체는 중립적입니다. H2 구조, 단락 분리, 결론 우선 작성은 어디서나 적용 가능합니다. 다만 JSON-LD 스키마 삽입이 어려운 플랫폼은 청킹 외 다른 AEO 작업에서 불리합니다.
청크 크기는 짧을수록 좋나요?
너무 짧으면 의미가 불완전합니다. 너무 길면 알고리즘이 임의로 자릅니다. 200600 토큰(한글 약 150450자) 사이가 권장 범위입니다. 한국어 기준 한 단락 35문장, H2당 35단락이 적정 크기입니다.