8 พฤศจิกายน 2009
กำลังนั่งแก้ไขไฟล์ต่าง ๆ ของเว็บ คิขุออนไลน์ ที่รวบรวมเกมส์แฟลชไว้มากมาย ทั้ง เกมส์ปลูกผัก เกมส์ตัดผม เกมส์แต่งหน้า เกมส์มาริโอ้ เกมส์แข่งรถ เกมส์จีบสาว เกมส์มันๆและสนุกๆอีกมายมาย
ซึ่งด้วยความที่มีมากมายหลายอย่าง ทำให้ยุ่ง ๆ กับการเลือกคำคีย์เวิร์ดที่จะมาใส่ในไฟล์ index.php พอทำเสร็จ ก็แวะเวียนดูเว็บชาวบ้านว่าเขาเซ็ตไรบ้าง ก็เจอปัญหาอีกเรื่องซะละ
meta name="Robots" content="noindex,nofollow,noarchive"
noarchive มันคือไรเนี่ย ไม่เคยใส่คำนี้สักครั้งเลย มันคืออะไร ???!!
ค้น ๆ ใน google เจอแล้วครับ ความหมายของบรรทัดที่เห็นคือ
- noindex ไม่ให้ index เนื้อหาในหน้านี้ (แต่ถ้าเจอลิงค์ในหน้า ก็ให้ตามไปทำ index หน้าเว็บเพจต่างๆ ด้วยตามปกติ)
- nofollow ไม่ให้วิ่งตาม link ทั้งหมดที่เจอในหน้านี้
- noarchive ไม่ให้ทำการ cached เก็บหน้าเว็บเพจของเราไว้ใน Search Engine
แคชในที่นี้ น่าจะหมาย การที่มีคำว่า cached แสดงตามลิงค์ต่าง ๆ ที่เราค้นหาใน google search engine ที่สามารถอ่านบางกระทู้ได้ ถึงแม้เขาลบทิ้งไปแล้ว ^^ ผมใช้ประจำ กับเพ็จที่เจ้าของเว็บเขาลบไฟล์ทิ้งไปแล้ว แต่เราอยากอ่านข้อความในเพ็จนั้น
ขอบคุณที่แวะมา ง่วงละ
สวัสดี
Tags: meta, noarchive, nofollow, noindex, robots
Posted in Website Development | No Comments »
30 กันยายน 2009
วันนี้ได้เข้าเว็บ Bing.com เพื่อดูว่าเว็บเขามีเครื่องมืออะไรเกี่ยวกับเว็บมาสเตอร์บ้าง
Robots.txt validation tool
Use this tool to check your robots.txt file for any incompatibilities with MSNBot that may affect how your site is indexed on Bing .
You can validate your current robots.txt file or to check any changes you have made to robots.txt before you add that to your site. Learn more
เป็นเครื่องมือตรวจสอบไฟล์ Robots.txt ของเราว่าซัพพอร์ตกับbot bing.com หรือเปล่า
ขั้นตอนการใช้งานเครื่องมือนี้ไม่มีอะไรยุ่งยากเลยครับ
(เพิ่มเติม…)
Tags: Bing, robots
Posted in Website Development | No Comments »
20 กันยายน 2009
หลังจากที่อ่านบทความของพี่ ๆ บล็อกเกอร์หลายท่าน
ได้เวลาเสียทีกับการเขียนไฟล์ robots.txt เพื่อบอกให้บอทรู้ว่าหน้าไหนควรไม่ควรเข้าไป
นี่เลย ไฟล์ robots.txt ของเรา
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
(เพิ่มเติม…)
Tags: robots, sub-domain, suthima
Posted in Website Development | No Comments »
17 กันยายน 2009
วิธีการเขียน Robots.txt ของ Wordpress เขียนป้องให้ Robots เก็บข้อมูลของเราที่จำเป็นเท่านั้นเพื่อลดทราฟฟิกและตำแหน่งค้นหาของ เว็บไซต์เราที่จะทำให้อยู่อันดับต้นๆได้อีกด้วย ไม่เชื่อลองดู ส่วนใครอยากให้เก็บข้อมูลโฟลเดอร์ไหนก็สามารถลบออกได้แล้วแต่ความต้องการของ แต่ล่ะคนนะครับ อันนี้เป็นแนวทางในการเขียนไฟล์ Robots.txt เท่านั้นเองส่วนใครมีโฟลเดอร์ที่มากกว่านี้ก็สามารถใส่เพิ่มได้ด้วยเช่นกัน ไปดูเลยตามตัวเองครับ
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /
# digg mirror
User-agent: duggmirror
Disallow: /
# Does anyone care I love Google Apache htaccess
Sitemap: http://blog.gootum.com/sitemap.xml
เพียงเท่านี้ก็เสร็จ
บทความดี ๆ อีกแล้วอ่ะ ของพี่ตั้ม blog.gootum.com มีรายได้เยอะเมื่อไร คงได้รบกวนพี่เขามาช่วย SEO ให้อ่ะ หุหุหุ ขอบคุณมากนะครับ
Tags: Optimization, robots
Posted in WordPress | No Comments »
16 กันยายน 2009
ความหมาย robots.txt
การกำหนดวิธีที่ป้องกันไม่ให้ spider หรือ bot เข้ามาเก็บหน้าเว็บเพจต้องห้ามของเรา Spider หรือ Bot เป็นโปรแกรมของ Search Engine ที่ทำตัวเป็นนักค้นหาและท่องเว็บจากนั้นจะทำการบอกให้ ระบบ Search Engine Database ว่าควรเก็บหน้าเว็บเพจนั้นไว้หรือไม่
robots.txt เป็น fileที่บอก Search engine ว่า ” ไม่ต้องมาเก็บเว็บไซต์ของฉัน หรือหน้าเว็บบางหน้า หรือไฟล์บางไฟล์ โรบอต (Robot) เป็นโปรแกรมเก็บข้อมูลในอินเตอร์เน็ต ซึ่งบางครั้ง เรียกว่าสไปเดอร์ (Spider) หรือ ครอว์เลอร์(Crawler) จะทําหน้าที่รวบรวมไฟล์ HTML
เพื่อมาเป็นข้อมูล สําหรับสร้างดัชนีค้นหา ให้กับ เสิร์จเอ็นจิน (Search Engine) โดยทั่วไปแล้ว โรบอตจะกลับมาที่เว็บไซต์ที่อ่านไปแล้ว เพื่อตรวจสอบ การเปลี่ยนแปลง ตามระยะเวลาที่กําหนด
ดังนั้นเราต้องสร้างไฟล์ robots.txt ขึ้นมา เพื่อกำหนดว่าจะให้ Robot เข้าไปยังโฟลเดอร์ไหนได้บ้าง เราสามารถกำหนดได้ ข้อดีของมันคือ ยกตัวอย่างเช่น คุณมีไฟล์รูป xxx แล้วดันไปอัพในโฟลเดอร์ xxx/test.jpeg หากคุณไม่ซ่อน Robot ไว้รับรองได้เป็นดาราในเนตแน่นอนครับ ดังนั้นเราต้องมีอะไรที่ไม่ให้บอทมันวิ่งมาเก็บไฟล์ในโฟลเดอร์นี้เป็นต้น หากถามว่าทำไมต้องอัพ xxx ขึ้นไป อันนี้ผมยกตัวอย่าง อิอิ(อย่าอยากรู้นักเลยนะ เหอะๆ)
robots.txtจะต้องนำมาวางไว้ที่ Root Directory (ไดเรกเทอรี่เริ่มต้นของเวบไซค์)
ตัวอย่างไฟล์ robots.txt
# Robots Fixed
# Design For Gootum
# http://www.Gootum.com
# Contact hackicq@hotmail.com
User-agent: *
Disallow: /xxx/
Disallow: /pic/
Disallow: /images/
ความหมาย และคําอธิบาย
# Robots Fixed
# Design For Gootum
# http://www.Gootum.com
# Contact hackicq@hotmail.com
ปิดกั้นด้วย # เป็นคําอธิบาย (comment) เพื่อให้ Spider ไม่สนใจข้อความในบรรทัดนี้
จากตัวอย่างคือไม่ให้ Robot เข้าไปเก็บข้อมูลที่โฟลเดอร์
/xxx/
/pic/
/images/
User-agent : webcrawler
Disallow :
อนุญาตให้ webcrawler ทําดัชนีได้โดยไม่มีข้อกําหนด
User-agent : lycra
Disallow : /
ไม่อนุญาตให้ lycra ทําดัชนีที่ Server นี้ โดยปิดกั้นด้วย /
User-agent: *
Disallow:
หากแบบนี้คืออนุญาตทั้งหมดครับดูตัวอย่างได้ที่ http://blog.gootum.com/robots.txt
ขอขอบคุณ gootum สำหรับบทความครับ
Tags: robots
Posted in Website Development | No Comments »