Robots.txt

Robots.txt : ไฟล์เอกสารของโปรแกรม Notepad ที่ภายในจะระบุคำสั่งสำหรับควบคุมการทำงานในการเข้ามาเก็บข้อมูลที่เว็บไซต์ ของเรา ให้กับโรบอท ที่มาจาก Search Engine ต่างๆ เพื่อที่จะบอกให้โรบอท มีสิทธิ์ในการเข้าไปทำการเก็บข้อมูลที่โฟล์เดอร์ หรือไฟล์เอกสารตัวไหนได้บ้าง

ที่มา : Search Engine Optimization Book

ROBOTS.txt คืออะไร

ตอบแบบเข้าใจง่ายๆ เลยว่า ไฟล์ที่บอกกับ Bot ของ Search Engine ว่า ไฟล์หรือโฟลเดอร์ (Directory) ใหนที่เราอนุญาติให้เข้า หรืไม่ให้เข้า ไปเก็บข้อมูล  โดยปกติแล้ว Bot ของ Search Engine จะเข้าไปทุกไฟล์ที่มีการเชื่อมโยงไปถึง ผ่าน link ให้หน้าเว็บเพจของเรา  แต่บางครั้งหากเราจะป้องกันไม่ให้ Bot เข้าไปยัง directory ส่วนตัว หรือ ไฟล์ส่วนตัว หรือเราไม่อยากเปิดเผยข้อมูลบางไฟล์ เราก็จะใช้ไฟล์ Robots.txt เป็นตัวกำหนด

ตัวอย่างการระบุคำสั่งในไฟล์ robots.txt
  1. ถ้าไม่ต้องการให้ robots ทุกชนิด มา index ข้อมูลภายในเว็บไซต์ของเรา ทั้งเว็บไซต์ ใช้คำสั่งดังนี้
    User-agent: *
    Disallow: /
  2. ถ้าอนุญาติให้ robots บางชนิดเข้ามาเก็บข้อมูลในเว็บไซต์เรา ก็ให้ใส่คำสั่งดังต่อไปนี้คับ (แต่เราต้องรู้ชื่อ robots)
    User-agent: msnbot
    User-agent: Googlebot
    Disallow:
  3. ถ้าเราไม่ต้องการให้ robots เข้ามา index บ้างไฟล์ หรือ บางโฟร์เดอร์ )
    User-agent:*
    Disallow: /images
    Disallow: /cgi-bin

ถ้าอยากดูตัวอย่างรูปแบบอื่นไปที่นี่เลย http://www.robotstxt.org/orig.html