เรื่องวุ่นๆ meta robots

8 พฤศจิกายน 2009

กำลังนั่งแก้ไขไฟล์ต่าง ๆ ของเว็บ คิขุออนไลน์ ที่รวบรวมเกมส์แฟลชไว้มากมาย ทั้ง เกมส์ปลูกผัก เกมส์ตัดผม เกมส์แต่งหน้า เกมส์มาริโอ้ เกมส์แข่งรถ เกมส์จีบสาว เกมส์มันๆและสนุกๆอีกมายมาย

ซึ่งด้วยความที่มีมากมายหลายอย่าง ทำให้ยุ่ง ๆ กับการเลือกคำคีย์เวิร์ดที่จะมาใส่ในไฟล์ index.php พอทำเสร็จ ก็แวะเวียนดูเว็บชาวบ้านว่าเขาเซ็ตไรบ้าง ก็เจอปัญหาอีกเรื่องซะละ

meta name="Robots" content="noindex,nofollow,noarchive"
noarchive มันคือไรเนี่ย ไม่เคยใส่คำนี้สักครั้งเลย มันคืออะไร ???!!

ค้น ๆ ใน google เจอแล้วครับ ความหมายของบรรทัดที่เห็นคือ

- noindex ไม่ให้ index เนื้อหาในหน้านี้ (แต่ถ้าเจอลิงค์ในหน้า ก็ให้ตามไปทำ index หน้าเว็บเพจต่างๆ ด้วยตามปกติ)
- nofollow ไม่ให้วิ่งตาม link ทั้งหมดที่เจอในหน้านี้
- noarchive ไม่ให้ทำการ cached เก็บหน้าเว็บเพจของเราไว้ใน Search Engine

แคชในที่นี้ น่าจะหมาย การที่มีคำว่า cached แสดงตามลิงค์ต่าง ๆ ที่เราค้นหาใน google search engine ที่สามารถอ่านบางกระทู้ได้ ถึงแม้เขาลบทิ้งไปแล้ว ^^ ผมใช้ประจำ กับเพ็จที่เจ้าของเว็บเขาลบไฟล์ทิ้งไปแล้ว แต่เราอยากอ่านข้อความในเพ็จนั้น

ขอบคุณที่แวะมา ง่วงละ

สวัสดี


Robots.txt validation tool

30 กันยายน 2009

วันนี้ได้เข้าเว็บ Bing.com เพื่อดูว่าเว็บเขามีเครื่องมืออะไรเกี่ยวกับเว็บมาสเตอร์บ้าง

Robots.txt validation tool

Use this tool to check your robots.txt file for any incompatibilities with MSNBot that may affect how your site is indexed on Bing .

You can validate your current robots.txt file or to check any changes you have made to robots.txt before you add that to your site. Learn more

เป็นเครื่องมือตรวจสอบไฟล์ Robots.txt ของเราว่าซัพพอร์ตกับbot bing.com หรือเปล่า
ขั้นตอนการใช้งานเครื่องมือนี้ไม่มีอะไรยุ่งยากเลยครับ
(เพิ่มเติม…)


robots.txt for Blog.Suthima.com

20 กันยายน 2009

หลังจากที่อ่านบทความของพี่ ๆ บล็อกเกอร์หลายท่าน
ได้เวลาเสียทีกับการเขียนไฟล์ robots.txt เพื่อบอกให้บอทรู้ว่าหน้าไหนควรไม่ควรเข้าไป
นี่เลย ไฟล์ robots.txt ของเรา

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads

(เพิ่มเติม…)


Tips : Robots.txt Optimization ให้ Wordpress

17 กันยายน 2009

วิธีการเขียน Robots.txt ของ Wordpress เขียนป้องให้ Robots เก็บข้อมูลของเราที่จำเป็นเท่านั้นเพื่อลดทราฟฟิกและตำแหน่งค้นหาของ เว็บไซต์เราที่จะทำให้อยู่อันดับต้นๆได้อีกด้วย ไม่เชื่อลองดู ส่วนใครอยากให้เก็บข้อมูลโฟลเดอร์ไหนก็สามารถลบออกได้แล้วแต่ความต้องการของ แต่ล่ะคนนะครับ อันนี้เป็นแนวทางในการเขียนไฟล์ Robots.txt เท่านั้นเองส่วนใครมีโฟลเดอร์ที่มากกว่านี้ก็สามารถใส่เพิ่มได้ด้วยเช่นกัน ไปดูเลยตามตัวเองครับ

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /

# digg mirror
User-agent: duggmirror
Disallow: /

# Does anyone care I love Google Apache htaccess

Sitemap: http://blog.gootum.com/sitemap.xml

เพียงเท่านี้ก็เสร็จ

บทความดี ๆ อีกแล้วอ่ะ ของพี่ตั้ม blog.gootum.com มีรายได้เยอะเมื่อไร คงได้รบกวนพี่เขามาช่วย SEO ให้อ่ะ หุหุหุ  ขอบคุณมากนะครับ


ความหมาย robots.txt

16 กันยายน 2009

ความหมาย robots.txt


การกำหนดวิธีที่ป้องกันไม่ให้ spider หรือ bot เข้ามาเก็บหน้าเว็บเพจต้องห้ามของเรา Spider หรือ Bot เป็นโปรแกรมของ Search Engine ที่ทำตัวเป็นนักค้นหาและท่องเว็บจากนั้นจะทำการบอกให้ ระบบ Search Engine Database ว่าควรเก็บหน้าเว็บเพจนั้นไว้หรือไม่
robots.txt เป็น fileที่บอก Search engine ว่า ” ไม่ต้องมาเก็บเว็บไซต์ของฉัน หรือหน้าเว็บบางหน้า หรือไฟล์บางไฟล์ โรบอต (Robot) เป็นโปรแกรมเก็บข้อมูลในอินเตอร์เน็ต ซึ่งบางครั้ง เรียกว่าสไปเดอร์ (Spider) หรือ ครอว์เลอร์(Crawler) จะทําหน้าที่รวบรวมไฟล์ HTML
เพื่อมาเป็นข้อมูล สําหรับสร้างดัชนีค้นหา ให้กับ เสิร์จเอ็นจิน (Search Engine) โดยทั่วไปแล้ว โรบอตจะกลับมาที่เว็บไซต์ที่อ่านไปแล้ว เพื่อตรวจสอบ การเปลี่ยนแปลง ตามระยะเวลาที่กําหนด

ดังนั้นเราต้องสร้างไฟล์ robots.txt ขึ้นมา เพื่อกำหนดว่าจะให้ Robot เข้าไปยังโฟลเดอร์ไหนได้บ้าง เราสามารถกำหนดได้ ข้อดีของมันคือ ยกตัวอย่างเช่น คุณมีไฟล์รูป xxx แล้วดันไปอัพในโฟลเดอร์ xxx/test.jpeg หากคุณไม่ซ่อน Robot ไว้รับรองได้เป็นดาราในเนตแน่นอนครับ ดังนั้นเราต้องมีอะไรที่ไม่ให้บอทมันวิ่งมาเก็บไฟล์ในโฟลเดอร์นี้เป็นต้น หากถามว่าทำไมต้องอัพ xxx ขึ้นไป อันนี้ผมยกตัวอย่าง อิอิ(อย่าอยากรู้นักเลยนะ เหอะๆ)

robots.txtจะต้องนำมาวางไว้ที่ Root Directory (ไดเรกเทอรี่เริ่มต้นของเวบไซค์)

ตัวอย่างไฟล์ robots.txt
# Robots Fixed
# Design For Gootum
# http://www.Gootum.com
# Contact hackicq@hotmail.com

User-agent: *
Disallow: /xxx/
Disallow: /pic/
Disallow: /images/

ความหมาย และคําอธิบาย

# Robots Fixed
# Design For Gootum
# http://www.Gootum.com
# Contact hackicq@hotmail.com

ปิดกั้นด้วย # เป็นคําอธิบาย (comment) เพื่อให้ Spider ไม่สนใจข้อความในบรรทัดนี้
จากตัวอย่างคือไม่ให้ Robot เข้าไปเก็บข้อมูลที่โฟลเดอร์
/xxx/
/pic/
/images/

User-agent : webcrawler
Disallow :
อนุญาตให้ webcrawler ทําดัชนีได้โดยไม่มีข้อกําหนด

User-agent : lycra
Disallow : /
ไม่อนุญาตให้ lycra ทําดัชนีที่ Server นี้ โดยปิดกั้นด้วย /

User-agent: *
Disallow:

หากแบบนี้คืออนุญาตทั้งหมดครับดูตัวอย่างได้ที่ http://blog.gootum.com/robots.txt

ขอขอบคุณ gootum สำหรับบทความครับ