robots.txt 설정 > Linux | Go3.co.kr MintState BBS

robots.txt 설정

페이지 정보

작성자 MintState 댓글 0건 조회 18,804회 작성일 09-01-05 11:57

본문

robots.txt 설정

일부 Naver 고객샌터 인용
로봇 배제 표준이란 말 그대로 웹 문서를 수집해 가는 로봇을 배제한다는 뜻입니다.
로봇의 배제와 관련된 내용을 적어 놓은 robots.txt 파일을 사이트의 최상위 주소(서버 루트 디렉토리 예:www.naver.com/robots.txt)에 저장하면 됩니다. (robots.txt를 서브디렉토리에 저장할 경우에는 효력이 없다는 사실에 주의하세요.)
예를 들어, www.yourhost/~mypage 밑에 robots.txt가 있어도 이는 아무런 효력을 갖지 못합니다.
로봇은 오직 루트 디렉토리의 robots.txt만을 참조할 뿐입니다. 로봇의 접근을 어디까지 허용할 것이냐에 따라 robots.txt에 들어가는 내용은 달라집니다. (robot.txt가 아닌 복수형인 robots.txt 임에 주의해주세요.)

robots.txt 저장 방법 안내
1. 홈페이지 전체가 모든 검색엔진에 노출되는 것을 원하지 않을 때

User-agent: *
Disallow: /

2. 홈페이지 전체가 모든 검색엔진에 노출되기를 원할 때

User-agent: *
Disallow:

(Ex1과 비교했을 때 “/”가 빠져 있습니다. robots.txt를 작성하지 않으면 모두 검색허용으로 간주됩니다.)

3. 홈페이지 디렉토리의 일부만 검색엔진에 노출하고 싶을 때

User-agent: *
Disallow: /my_photo/
Disallow: /my_diary/

(이렇게 작성하면 로봇은 my_photo, my_diary라는 폴더에 속한 웹문서에 접근할 수 없습니다.)

4. 홈페이지 전체가 검색되길 원하지만 특정 검색엔진을 거부하고 싶을 때

User-agent: EvilRobot
Disallow: /

위의 예에서는 “EvilRobot”이라는 이름을 가진 로봇만을 배제하게 됩니다.
('네이버'에 대해서 막고 싶다면 NaverBot을 User-agent로 설정해주시면 됩니다. Naverbot은 네이버 로봇의 이름입니다.)

5. 홈페이지 전체가 검색되길 원하지만 특정 검색엔진에게만 노출되기를 원할 때

User-agent: NaverBot
Disallow:
User-agent: *
Disallow: /

(이 경우 NaverBot만이 웹문서를 수집해갈 수 있습니다.)
“robots.txt”를 작성하는 것과 유사한 방법으로 HTML문서의 (HEAD)와 (/HEAD)태그 사이에
(META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW")라는 메타태그를 추가하면 로봇은 웹 문서를 가져갈 수 없습니다.
이 방법은 다소 번거롭기는 하지만 문서 하나하나에 대해 정확하게 명시를 해주기 때문에
가장 확실하게 로봇의 접근을 막을 수 있는 방법입니다.
로봇 배제에 대한 보다 자세한 내용은 http://www.robotstxt.org 에서 확인할 수 있습니다.
robots.txt를 서버에 저장하고 로봇이 직접 방문하지 않는 경우라고 하더라도 본인의 홈페이지 중 일부 내용
혹은 링크 값이 NAVER 웹 문서 검색 결과에 나타나는 경우가 있을 수 있습니다.
이는 다른 웹 문서들이나 사이트들이 해당 웹 문서를 링크한 경우, 그 링크에 제시된 설명에 의해서 자동적으로 생성되는 것으로,
해당 웹 사이트의 robots.txt의 존재유무나 로봇의 동작과는 무관할 수 있습니다.

--------------------------------------------------------------------
* User-agent : 수집하는 주체의 범위를 정합니다. *으로 설정할 경우 모든 봇의 접근이 격리됩니다. naver의 경우 봇 이름은 Naverbot입니다. 'User-agent : * '와 같은 꼴로 사용합니다.
* Allow : 뜻 그대로 허락할 디렉토리를 설정합니다.
* Disallow : 뜻 그대로 불허할 디렉토리를 설정합니다. Disallow: 뒤에 아무것도 표시하지 않을 경우에도, 모든 접근을 허락한다는 뜻이 되므로 유의하세요. 만약 모든 디렉토리의 접근을 막고 싶다면 'Disallow: /'와 같이 쓰면 됩니다.

다른 포탈은 모르겠지만 현 한국에서 가장 많이 데이터를 긁어가는 포탈은 네이버 입니다.
하지만 네이버에서도 로봇은 거의 다 막아 놓고 있습니다.

http://blog.naver.com/robots.txt
http://cafe.naver.com/robots.txt
http://kin.naver.com/robots.txt
http://news.naver.com/robots.txt

엄청나게 긁어가는 포탈들의 횡포와 자기 컨텐츠를 지키려는 사람들의 조정자가 될수 있는것이 robots.txt입니다.
문론 robots.txt로 다 막을 수는 없습니다. robots.txt를 무시하는 로봇도 많습니다. 하지만 대부분은 제어가 가능 할것입니다.

댓글목록

등록된 댓글이 없습니다.

번호	제목	글쓴이	조회	날짜
321	mysql Standard버전으로 업그레이드 또는 설치	MintState	17315	01-05
열람중	robots.txt 설정	MintState	18805	01-05
319	APM+checkpassword+imap+PHPmail 설치	MintState	23963	01-05
318	Sendmail SMTP 인증 설정(SMTP Auth)	MintState	20254	01-05
317	일반 사용자 SSH 접속 막기	MintState	18689	01-05
316	SSH 서버 설정	MintState	26863	01-05
315	자주쓰는 리눅스명령어 요약	MintState	22453	01-05
314	리눅스 정보 보기	MintState	18433	01-05
313	[문서] 리눅스 보안지침서	MintState	15658	01-05
312	간단한 해킹 여부 점검법	MintState	18133	01-05
311	로컬백업지침 ver 1.0	MintState	18337	01-05
310	mod_url.c (한글 URL 처리 모듈) 설치방법	MintState	19926	01-05
309	/etc/passwd 파일의 변경 유무 체크 스크립트	MintState	17909	01-05
308	AWSTATs( 웹로그 분석) 툴 설치	MintState	43508	01-05
307	yum을 이용한 시스템 업데이트	MintState	17267	01-05
306	DSO 로 설치한 apache 에서 mod_rewrite 적재와 1차 2차도메인의 트래픽통합 관리 방법	MintState	17266	01-05
305	vsftp에서 상위디렉토리로 이동못하게 하기	MintState	19190	01-05
304	mod_throttle	MintState	12825	01-05
303	mod_bandwidth	MintState	11508	01-05
302	Quota 설정	MintState	19134	01-05