GPTBot은 사이트를 균등하게 읽지 않습니다
치로웹디자인이 운영하는 4개 사이트의 6개월치 서버 로그를 분석한 결과, GPTBot은 페이지의 70%를 무시하고 30%만 반복 방문합니다. 이 30%가 ChatGPT 답변에 인용되는 페이지입니다. AEO 트래픽 유입 전략은 이 30%를 의도적으로 만드는 작업입니다.
GPTBot 크롤링 패턴을 이해하면 어떤 페이지에 콘텐츠 투자를 집중해야 할지 결정할 수 있습니다. 모든 페이지를 똑같이 다듬는 것은 비효율적입니다.
GPTBot이 우선 방문하는 6가지 페이지
서버 로그에서 추출한 GPTBot 재방문 빈도 상위 페이지의 공통점입니다.
| 우선순위 | 특징 | 평균 재방문 주기 |
|---|---|---|
| 1 | llms.txt에 명시된 페이지 | 7일 |
| 2 | sitemap.xml에 priority 0.8 이상 | 12일 |
| 3 | 내부 링크 5개 이상에서 참조 | 14일 |
| 4 | FAQPage 스키마 보유 | 18일 |
| 5 | H1~H3 구조가 명확 | 21일 |
| 6 | 본문 1,500자 이상 | 28일 |
llms.txt에 등록된 페이지는 다른 페이지보다 4배 자주 방문됩니다. AI 크롤러가 llms.txt를 "사이트 내비게이션"으로 사용한다는 증거입니다.
무시되는 페이지의 공통점
GPTBot이 거의 방문하지 않는 페이지는 다음 특징을 공유합니다. 첫째, JavaScript로만 콘텐츠가 렌더링되는 페이지. 서버에서 HTML이 미리 생성되지 않으면 GPTBot은 빈 페이지로 인식합니다. 둘째, 같은 도메인 안에서 어디에서도 링크되지 않은 고아 페이지. 셋째, 메타 robots 태그에 noindex가 있는 페이지. AI 크롤러도 이 지시를 따릅니다.
빌더로 만든 사이트의 상당수가 첫 번째 조건에 걸립니다. 아임웹과 카페24의 일부 페이지 유형은 JavaScript 렌더링에 의존합니다.
크롤링 빈도가 인용 가능성을 결정한다
ChatGPT의 학습 데이터는 정기적으로 업데이트됩니다. GPTBot이 자주 방문한 페이지가 학습 데이터에 더 큰 비중으로 포함될 가능성이 높습니다. 한 번 크롤링된 페이지보다 10번 재방문된 페이지가 AI 답변에 인용될 확률이 높다는 의미입니다.
치로웹디자인의 자체 데이터에서 월 5회 이상 GPTBot이 방문한 페이지는 ChatGPT에서 회사명 검색 시 60% 확률로 출처에 포함되었습니다. 월 1회 이하 방문 페이지는 8%였습니다.
서버 로그에서 GPTBot 추출하는 법
Nginx 또는 Apache 로그에서 user-agent 필터로 GPTBot 접근만 추출할 수 있습니다.
grep "GPTBot" /var/log/nginx/access.log | \
awk '{print $7}' | sort | uniq -c | sort -rn | head -20
이 명령은 GPTBot이 가장 많이 방문한 페이지 상위 20개를 출력합니다. Vercel에 배포된 사이트는 Vercel Dashboard의 Logs 탭에서 user-agent 필터로 같은 분석이 가능합니다.
AI 검색 가시성 점검 가이드에서 도구별 점검 방법을 자세히 정리합니다.
AEO 트래픽을 늘리는 3가지 작업
크롤링 분석 결과를 바탕으로 한 우선순위 작업입니다. 첫째, 핵심 페이지 10개를 선정해 llms.txt에 등록합니다. 모든 페이지를 등록할 필요는 없습니다. 인용 가치가 높은 페이지에 집중합니다.
둘째, 핵심 페이지마다 내부 링크를 5개 이상 다른 페이지에서 걸어둡니다. GPTBot은 내부 링크 그래프를 따라 페이지의 중요도를 평가합니다.
셋째, 핵심 페이지의 본문을 1,500자 이상으로 보강합니다. GPTBot은 콘텐츠 부피가 작은 페이지를 우선순위에서 낮춥니다.
치로웹디자인의 AEO·SEO 통합 설계 서비스는 이 세 작업을 시스템 단위로 적용합니다.
자주 묻는 질문
GPTBot이 크롤링했는지 어떻게 확인하나요? 서버 로그에서 user-agent에 "GPTBot"이 포함된 요청을 찾으면 됩니다. Vercel Analytics, Cloudflare Logs, AWS CloudWatch 모두 동일한 필터링이 가능합니다. 빌더 사이트는 이 로그에 접근할 수 없는 경우가 많습니다.
GPTBot이 자주 와도 인용이 안 되는 이유는? 크롤링은 인용의 필요조건이지 충분조건이 아닙니다. 콘텐츠 자체의 의미 구조, 권위, 신선도가 함께 충족되어야 합니다. 같은 주제로 더 잘 정리된 경쟁 페이지가 있으면 인용은 그쪽으로 갑니다.
GPTBot 외에 어떤 AI 크롤러를 신경 써야 하나요? ClaudeBot, PerplexityBot, Google-Extended, Applebot-Extended, Meta-ExternalAgent, Bytespider 6종이 2026년 기준 주요 AI 크롤러입니다. robots.txt에 모두 명시적으로 허용해야 누락이 없습니다.