Robot.txt 봇 접근 제한하기
페이지 정보
작성자 MintState 댓글 0건 조회 13,313회 작성일 13-10-11 21:05본문
robot.txt
로봇이 kensei.co.kr/ 에 방문하면 먼저 kensei.co.kr/robots.txt 파일 호출함
로봇의 접근 권한 및 접근가능한 경로에 대한 정보를 분석하여 자신이 수집해도 되는 콘텐트만을 수집한다
웹 사이트의 최상위 루트에 robots.txt 파일이 있어야함
robots.txt 화일에는 최소한 한개의 "disallow" 필드(field)가 존재해야 함
robot.txt 파일이름은 소문자로 작성 (공백 허용되지 않음)
ex)
홈페이지 전체가 모든 검색엔진에 노출되기를 원치 않음
User-agent: *
Disallow: /
홈페이지 전체가 모든 검색엔진에 노출되기를 원함
User-agent: *
Disallow:
홈페이지 디렉토리중 일부만 검색엔진에 노출하고 싶음
User-agent: *
Disallow: /my_photo/
Disallow: /my_diary/
홈페이지 전체를 노출시키지만 특정 검색엔진 (EvilRobot)만 거부
User-agent: EvilRobot
Disallow: /
홈페이지 전체가 노출되지만 특정검색엔진에서만 노출되기를 원함
User-agent: NaverBot
Disallow:
User-agent: *
Disallow: /
/help.html과 /help/index.html 둘 다 허용 안함
disallow: /help
/help/index.html는 허용 안하나, /help.html은 허용 됨.
disallow: /help/
루트 하위에 있는 xml 확장자를 가진 모든 파일의 색인을 거부
Disallow: /*.xml$
루트에 test.html 과 ?가 포함된 파일의 색인을 거부한다
Disallow: /test.html?
User-agent: Googlebot-Image
Disallow: /*.gif$
Disallow: /*.jpg$ 위 문장은 구글의 이미지를 검색하는 로봇에게 gif와 jpg로 된 이미지를 모두 검색하지 않도록 하는 명령어입니다.
HTML (HEAD) 와 (/HEAD) 사이에 (META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW")
라는 메타태크그를 추가함으로써 문서 하나하나에 대해 정확하게 명시를 해주므로 가장 확실하게 로봇 접근을 차단할수 있음
검색엔진에 Robot를 차단하더라도 자신의 페이지중 일부가 나타날수 있음
기타 문서나 사이트들이 자신의 웹 문서를 링크할 경우 자동적으로 생성되어 나타날수 있음
이 경우 Robot 과 무관함 (robots.txt를 무시하는 로봇들도 있을수 있음)
Robot 들의 IP들을 알 경우 IP를 통해 정책수립해도 상관없음
주석문을 작성하기 위해서는 앞에 #를 적어주시면 됩니다.
로봇의 이름은 개별 검색사이트를 방문해야함
구글: Googlebot
구글 이미지 : googlebot-image
네이버 : cowbot
네이버 : User-Agent: Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)
야후 : Slurp
야후 이미지 : Yahoo-MMCrawler
엠파스봇 : empas
MSN : MSNBot
첫눈: 1Noonbot 1.0
다음 : daumoa
실제 Apache Log
61.247.221.84 - - [22/Aug/2010:06:10:03 +0900] "GET /robots.txt HTTP/1.1" 404 -
61.247.221.84 - - [22/Aug/2010:06:10:03 +0900] "GET /152 HTTP/1.1" 200 54216
61.247.221.84 로봇이 접근해서 robot.txt 파일을 읽었는데 404에러 robot.txt 파일이 없다.???
없으니깐 /152번 글을 GET 해가지고 갔다? 200 정상 메세지니깐??
IP 기반으로 차단하기 위해서는 해당 봇들에 대한 아이피 정보들을 가지고 있어야 함
아래 사이트 접근하면 각종 봇들에 대한 아이피 대역 리스트를 받아 볼수 있음...
100% 신뢰할만할까?
http://iplists.com/
END
로봇이 kensei.co.kr/ 에 방문하면 먼저 kensei.co.kr/robots.txt 파일 호출함
로봇의 접근 권한 및 접근가능한 경로에 대한 정보를 분석하여 자신이 수집해도 되는 콘텐트만을 수집한다
웹 사이트의 최상위 루트에 robots.txt 파일이 있어야함
robots.txt 화일에는 최소한 한개의 "disallow" 필드(field)가 존재해야 함
robot.txt 파일이름은 소문자로 작성 (공백 허용되지 않음)
ex)
홈페이지 전체가 모든 검색엔진에 노출되기를 원치 않음
User-agent: *
Disallow: /
홈페이지 전체가 모든 검색엔진에 노출되기를 원함
User-agent: *
Disallow:
홈페이지 디렉토리중 일부만 검색엔진에 노출하고 싶음
User-agent: *
Disallow: /my_photo/
Disallow: /my_diary/
홈페이지 전체를 노출시키지만 특정 검색엔진 (EvilRobot)만 거부
User-agent: EvilRobot
Disallow: /
홈페이지 전체가 노출되지만 특정검색엔진에서만 노출되기를 원함
User-agent: NaverBot
Disallow:
User-agent: *
Disallow: /
/help.html과 /help/index.html 둘 다 허용 안함
disallow: /help
/help/index.html는 허용 안하나, /help.html은 허용 됨.
disallow: /help/
루트 하위에 있는 xml 확장자를 가진 모든 파일의 색인을 거부
Disallow: /*.xml$
루트에 test.html 과 ?가 포함된 파일의 색인을 거부한다
Disallow: /test.html?
User-agent: Googlebot-Image
Disallow: /*.gif$
Disallow: /*.jpg$ 위 문장은 구글의 이미지를 검색하는 로봇에게 gif와 jpg로 된 이미지를 모두 검색하지 않도록 하는 명령어입니다.
HTML (HEAD) 와 (/HEAD) 사이에 (META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW")
라는 메타태크그를 추가함으로써 문서 하나하나에 대해 정확하게 명시를 해주므로 가장 확실하게 로봇 접근을 차단할수 있음
검색엔진에 Robot를 차단하더라도 자신의 페이지중 일부가 나타날수 있음
기타 문서나 사이트들이 자신의 웹 문서를 링크할 경우 자동적으로 생성되어 나타날수 있음
이 경우 Robot 과 무관함 (robots.txt를 무시하는 로봇들도 있을수 있음)
Robot 들의 IP들을 알 경우 IP를 통해 정책수립해도 상관없음
주석문을 작성하기 위해서는 앞에 #를 적어주시면 됩니다.
로봇의 이름은 개별 검색사이트를 방문해야함
구글: Googlebot
구글 이미지 : googlebot-image
네이버 : cowbot
네이버 : User-Agent: Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)
야후 : Slurp
야후 이미지 : Yahoo-MMCrawler
엠파스봇 : empas
MSN : MSNBot
첫눈: 1Noonbot 1.0
다음 : daumoa
실제 Apache Log
61.247.221.84 - - [22/Aug/2010:06:10:03 +0900] "GET /robots.txt HTTP/1.1" 404 -
61.247.221.84 - - [22/Aug/2010:06:10:03 +0900] "GET /152 HTTP/1.1" 200 54216
61.247.221.84 로봇이 접근해서 robot.txt 파일을 읽었는데 404에러 robot.txt 파일이 없다.???
없으니깐 /152번 글을 GET 해가지고 갔다? 200 정상 메세지니깐??
IP 기반으로 차단하기 위해서는 해당 봇들에 대한 아이피 정보들을 가지고 있어야 함
아래 사이트 접근하면 각종 봇들에 대한 아이피 대역 리스트를 받아 볼수 있음...
100% 신뢰할만할까?
http://iplists.com/
END
|
댓글목록
등록된 댓글이 없습니다.