รายงานสถิติการรวบรวมข้อมูลจะแสดงสถิติเกี่ยวกับประวัติการรวบรวมข้อมูลของ Google ในเว็บไซต์ของคุณ ตัวอย่างเช่น จำนวนคำขอที่ส่งเข้ามา เซิร์ฟเวอร์มีการตอบสนองอย่างไรและเมื่อใด รวมทั้งปัญหาเกี่ยวกับความพร้อมใช้งานที่พบ คุณใช้รายงานนี้ได้เพื่อดูว่า Google พบปัญหาการแสดงหน้าเว็บเมื่อรวบรวมข้อมูลเว็บไซต์หรือไม่
รายงานนี้มีไว้สำหรับผู้ใช้ขั้นสูง หากเว็บไซต์ของคุณมีหน้าเว็บไม่ถึง 1,000 หน้า คุณไม่น่าจะต้องใช้รายงานนี้หรือกังวลเกี่ยวกับรายละเอียดการรวบรวมข้อมูลในระดับนี้แต่อย่างใด
เปิดรายงานสถิติการรวบรวมข้อมูล
C<span/>rawl Budget and the Crawl Stats report - Google Search Console Training
เริ่มต้นใช้งาน
คุณควรทำความเข้าใจเกี่ยวกับข้อมูลต่อไปนี้ก่อนใช้รายงานนี้
- วิธีการทำงานของ Google Search
- หัวข้อผู้ใช้ขั้นสูง โดยเฉพาะอย่างยิ่งหัวข้อการรวบรวมข้อมูลและการจัดทำดัชนีและหัวข้อแผนผังเว็บไซต์
- หัวข้อต่างๆ เกี่ยวกับการจัดการสิทธิ์เข้าถึงเว็บไซต์ของคุณ ซึ่งรวมถึงการบล็อกด้วย robots.txt
- หากคุณมีเว็บไซต์ขนาดใหญ่ (มีหน้าเว็บหลายแสนหน้า) โปรดอ่านคำแนะนำเกี่ยวกับการจัดการและการแก้ปัญหางบประมาณในการรวบรวมข้อมูล
เกี่ยวกับข้อมูล
- URL ทั้งหมดที่แสดงและมีการนับเป็น URL จริงที่ Google ขอ ทั้งนี้ไม่มีการกำหนดข้อมูลให้แก่ Canonical URL เหมือนอย่างที่ทำในรายงานอื่นๆ บางส่วน
- หาก URL มีการเปลี่ยนเส้นทางฝั่งเซิร์ฟเวอร์ คำขอต่างๆ ในเชนการเปลี่ยนเส้นทางจะนับเป็นแต่ละคำขอแยกกัน ดังนั้น หากหน้า 1 เปลี่ยนเส้นทางไปยังหน้า 2 ซึ่งเปลี่ยนเส้นทางไปยังหน้า 3 หาก Google ขอหน้า 1 คุณจะเห็นคำขอสำหรับหน้า 1 (แสดง 301/302) หน้า 2 (แสดง 301/302) และหน้า 3 (ควรจะแสดง 200) แยกกัน โปรดทราบว่าจะมีการแสดงเฉพาะหน้าในโดเมนปัจจุบันเท่านั้น การตอบกลับด้วยการเปลี่ยนเส้นทางมีไว้สำหรับประเภทไฟล์ "ไฟล์ประเภทอื่น" แต่จะไม่นับรวมการเปลี่ยนเส้นทางฝั่งไคลเอ็นต์
- การรวบรวมข้อมูลที่มีการพิจารณาแต่ไม่ได้ดำเนินการเพราะมีการนับไฟล์ robots.txt ซึ่งไม่พร้อมใช้งานในผลรวมของการรวบรวมข้อมูล แต่รายงานอาจไม่มีรายละเอียดมากนักเกี่ยวกับการพยายามรวบรวมข้อมูลดังกล่าว ข้อมูลเพิ่มเติม
- ทรัพยากรและขอบเขต:
- ข้อมูลทั้งหมดจะจำกัดเฉพาะที่อยู่ในโดเมนที่เลือกในปัจจุบันเท่านั้น จะไม่แสดงคำขอที่ส่งไปยังโดเมนอื่นๆ ซึ่งรวมถึงคำขอทรัพยากรในหน้า (เช่น รูปภาพ) ที่โฮสต์นอกพร็อพเพอร์ตี้นี้ ดังนั้น หากหน้า example.com/mypage มีรูปภาพ google.com/img.png คำขอ google.com/img.png จะไม่แสดงในรายงานสถิติการรวบรวมข้อมูลสำหรับพร็อพเพอร์ตี้ example.com
- ในทํานองเดียวกัน คำขอที่ส่งไปยังโดเมนย่อยระดับเดียวกัน (เช่น en.example และ de.example) จะไม่แสดง ดังนั้น หากคุณกําลังดูรายงานสถิติการรวบรวมข้อมูลสำหรับ en.example ก็จะไม่เห็นคำขอรูปภาพใน de.example
- อย่างไรก็ตาม คำขอที่ส่งระหว่างโดเมนย่อยต่างๆ จะดูได้จากโดเมนระดับบนสุด ตัวอย่างเช่น หากดูข้อมูลสำหรับ example.com คุณจะเห็นคำขอทั้งหมดที่ส่งไปที่ example.com, en.example, de.example.com และโดเมนย่อยอื่นๆ ที่อยู่ในระดับต่ำกว่า example.com
- ในทางกลับกัน หากหน้าในโดเมนอื่นใช้ทรัพยากรของพร็อพเพอร์ตี้ของคุณ คุณอาจเห็นคำขอรวบรวมข้อมูลที่เชื่อมโยงกับหน้าโฮสต์นั้น แต่จะไม่เห็นบริบทที่บ่งบอกว่าระบบกำลังรวบรวมข้อมูลทรัพยากรนั้นเพราะมีการใช้งานจากหน้าในโดเมนอื่น (กล่าวคือ จะไม่เห็นว่ามีการรวบรวมข้อมูลรูปภาพ example.com/imageX.png เนื่องจากรูปภาพรวมอยู่ในหน้า anotherexample.com/mypage)
- ข้อมูลที่รวบรวมจะมีทั้งกรณีที่ใช้โปรโตคอล HTTP และ HTTPS แม้ว่าจะเป็นการรวบรวมสำหรับพร็อพเพอร์ตี้ที่มีคำนำหน้าเป็น URL ก็ตาม ซึ่งหมายความว่ารายงานสถิติการรวบรวมข้อมูลสำหรับ http://example.com จะรวมคำขอที่ส่งไปยัง http://example.com และ https://example.com ด้วย อย่างไรก็ตาม URL ตัวอย่างสำหรับพร็อพเพอร์ตี้ที่มีคำนำหน้าเป็น URL จะจำกัดเฉพาะโปรโตคอลที่กําหนดไว้สำหรับพร็อพเพอร์ตี้ (HTTP หรือ HTTPS)
การไปยังส่วนต่างๆ ของรายงาน
รายงานจะแสดงข้อมูลเกี่ยวกับการรวบรวมข้อมูลจากเว็บไซต์ของคุณดังต่อไปนี้
คลิกรายการใดก็ได้ในตารางเพื่อดูมุมมองโดยละเอียดของรายการนั้นๆ ซึ่งรวมถึงรายการ URL ตัวอย่าง คลิก URL เพื่อดูรายละเอียดของคำขอรวบรวมข้อมูลที่เฉพาะเจาะจง ตัวอย่างเช่น ในตารางที่แสดงการตอบกลับที่จัดกลุ่มตามประเภท ให้คลิกแถว HTML เพื่อดูข้อมูลเกี่ยวกับการรวบรวมข้อมูลแบบสรุปรวมของหน้า HTML ทั้งหมดที่รวบรวมจากเว็บไซต์ รวมถึงรายละเอียดต่างๆ ของ URL ที่เลือกไว้เป็นตัวอย่าง เช่น เวลาในการรวบรวมข้อมูล โค้ดตอบกลับ ขนาดการตอบกลับ เป็นต้น
โฮสต์และโดเมนย่อย
หากพร็อพเพอร์ตี้ของคุณอยู่ในระดับโดเมน (example.com, http://example.com, https://m.example.com) และประกอบด้วยโดเมนย่อยตั้งแต่ 2 โดเมนขึ้นไป (เช่น fr.example.com และ de.example.com) คุณจะเห็นข้อมูลของโดเมนระดับบนสุด ซึ่งรวมโดเมนย่อยทั้งหมด หรือมีขอบเขตเป็นโดเมนย่อยโดเมนเดียวเท่านั้น
หากต้องการดูรายงานที่มีขอบเขตเป็นโดเมนย่อยที่เฉพาะเจาะจง ให้คลิกโดเมนย่อยนั้นในรายการโฮสต์ในหน้า Landing Page ของโดเมนระดับบนสุด ระบบจะแสดงเฉพาะโดเมนย่อย 20 อันดับแรกที่มีการเข้าชมสูงสุดในช่วง 90 วันที่ผ่านมาเท่านั้น
URL ตัวอย่าง
คุณคลิกรายการประเภทข้อมูลรายการใดก็ได้ที่จัดกลุ่มไว้ (การตอบกลับ ประเภทไฟล์ วัตถุประสงค์ ประเภท Googlebot) เพื่อดูรายการ URL ตัวอย่างของประเภทนั้นๆ
URL ตัวอย่างไม่ได้ครอบคลุมข้อมูลทั้งหมด แต่เป็นตัวอย่างที่เป็นตัวแทนข้อมูลเท่านั้น หากไม่เห็น URL ใดแสดงอยู่ ก็ไม่ได้หมายความว่าเราไม่ได้ขอ URL นั้น อาจมีการถ่วงน้ำหนักเพื่อหาจำนวนตัวอย่างในแต่ละวัน คุณจึงอาจพบว่าคำขอบางประเภทมีตัวอย่างมากกว่าประเภทอื่น คำขอทุกประเภทควรจะมีจำนวนตัวอย่างพอๆ กันเมื่อเวลาผ่านไป
คำขอรวบรวมข้อมูลทั้งหมด
จำนวนรวมของคำขอรวบรวมข้อมูลที่ส่งมาสำหรับ URL ในเว็บไซต์ ไม่ว่าจะสำเร็จหรือไม่ก็ตาม โดยนับรวมคำขอทรัพยากรที่หน้าเว็บใช้ในกรณีที่ทรัพยากรอยู่ในเว็บไซต์ของคุณ จะไม่นับรวมคำขอทรัพยากรที่โฮสต์ภายนอกเว็บไซต์ดังกล่าว คำขอที่ซ้ำสำหรับ URL เดียวกันจะมีการนับแต่ละรายการด้วย หากไฟล์ robots.txt ของคุณใช้งานได้ไม่เพียงพอ อาจเป็นเพราะมีการนับรวมการดึงข้อมูลที่อาจเกิดขึ้น
คําขอที่ไม่สําเร็จที่ถูกนับรวมมีดังต่อไปนี้
- การดึงข้อมูลที่ไม่เคยดำเนินการเพราะไฟล์ robots.txt ใช้งานได้ไม่เพียงพอ
- การดึงข้อมูลที่ไม่สําเร็จเนื่องจากปัญหาในการแปลง DNS
- การดึงข้อมูลที่ไม่สําเร็จเนื่องจากปัญหาในการเชื่อมต่อเซิร์ฟเวอร์
- การดึงข้อมูลที่ถูกละทิ้งเนื่องจากการวนรอบเมื่อเปลี่ยนเส้นทาง
ขนาดการดาวน์โหลดทั้งหมด
จำนวนไบต์ทั้งหมดที่ดาวน์โหลดจากเว็บไซต์ระหว่างการรวบรวมข้อมูลในระยะเวลาที่ระบุ หาก Google แคชทรัพยากรของหน้าเว็บที่มีหลายหน้าใช้อยู่ จะมีการขอทรัพยากรนั้นในครั้งแรกครั้งเดียว (เมื่อแคชทรัพยากรนั้น)
เวลาในการตอบกลับโดยเฉลี่ย
เวลาในการตอบกลับโดยเฉลี่ยสำหรับทรัพยากรทั้งหมดที่ดึงมาจากเว็บไซต์ในระยะเวลาที่ระบุ ทรัพยากรแต่ละรายการที่หน้าเว็บลิงก์อยู่จะนับเป็นการตอบกลับครั้งหนึ่งๆ แยกต่างหาก
สถานะโฮสต์
สถานะโฮสต์เป็นการอธิบายว่า Google พบปัญหาด้านความพร้อมใช้งานเมื่อพยายามรวบรวมข้อมูลเว็บไซต์หรือไม่ สถานะอาจมีค่าใดค่าหนึ่งต่อไปนี้
Google ไม่พบปัญหาสำคัญเกี่ยวกับความพร้อมใช้งานในการรวบรวมข้อมูลในเว็บไซต์ในช่วง 90 วันที่ผ่านมา เยี่ยมมาก คุณไม่ต้องทำสิ่งอื่นใดที่นี่
Google พบปัญหาสำคัญเกี่ยวกับความพร้อมใช้งานในการรวบรวมข้อมูลอย่างน้อย 1 รายการในช่วง 90 วันที่ผ่านมาในเว็บไซต์ แต่ปัญหานี้เกิดขึ้นมานานกว่า 1 สัปดาห์แล้ว ข้อผิดพลาดนี้อาจเป็นปัญหาที่เกิดขึ้นชั่วคราว หรือปัญหาอาจได้รับการแก้ไขไปแล้วก็ได้ คุณควรตรวจสอบตารางการตอบกลับเพื่อดูว่าปัญหาคืออะไรและตัดสินใจว่าจะต้องดําเนินการใดๆ หรือไม่
Google พบปัญหาสำคัญเกี่ยวกับความพร้อมใช้งานในการรวบรวมข้อมูลอย่างน้อย 1 รายการในสัปดาห์ที่ผ่านมาในเว็บไซต์ เนื่องจากข้อผิดพลาดนี้เพิ่งเกิดขึ้น คุณควรจะพยายามตรวจดูว่าปัญหานี้เป็นปัญหาที่เกิดขึ้นซ้ำหรือไม่ ให้ตรวจสอบตารางการตอบกลับเพื่อดูว่าปัญหาคืออะไรและตัดสินใจว่าต้องดำเนินการใดๆ หรือไม่
ตามหลักการแล้ว สถานะโฮสต์ควรเป็นสีเขียว หากสถานะความพร้อมใช้งานเป็นสีแดง ให้คลิกเพื่อดูรายละเอียดความพร้อมใช้งานของ robots.txt, การแปลง DNS และการเชื่อมต่อโฮสต์
รายละเอียดสถานะโฮสต์
สถานะความพร้อมใช้งานของโฮสต์จะได้รับการประเมินในหมวดหมู่ต่อไปนี้ ข้อผิดพลาดสำคัญในหมวดหมู่ใดก็ตามอาจทำให้สถานะความพร้อมใช้งานด้อยลงได้ คลิกหมวดหมู่ในรายงานเพื่อดูรายละเอียดเพิ่มเติม
สำหรับแต่ละหมวดหมู่ คุณจะเห็นแผนภูมิของข้อมูลในการรวบรวมข้อมูลสำหรับระยะเวลานั้นๆ แผนภูมินี้มีเส้นประสีแดง หากเมตริกสูงกว่าเส้นประสำหรับหมวดหมู่นี้ (เช่น หากคำขอมีการแปลง DNS ที่ไม่สำเร็จเกิน 5% ในวันหนึ่งๆ) จะถือว่าเป็นปัญหาในหมวดหมู่นั้น และสถานะจะสะท้อนให้เห็นการอัปเดตล่าสุดของปัญหาล่าสุด
- การดึงข้อมูล robots.txt
กราฟนี้แสดงอัตราความล้มเหลวในการขอ robots.txt ระหว่างการรวบรวมข้อมูล Google ขอไฟล์นี้อยู่บ่อยๆ และหากไม่ได้รับไฟล์ที่ถูกต้องกลับมา (อาจเป็นไฟล์ที่มีข้อมูลหรือว่างเปล่าก็ได้) หรือได้รับการตอบกลับ 404 (ไม่มีไฟล์อยู่) Google จะรวบรวมข้อมูลเว็บไซต์ช้าลงหรือหยุดรวบรวมจนกว่าจะได้รับการตอบกลับจาก robots.txt ที่ยอมรับได้ (ดูรายละเอียดที่ด้านล่าง) - การแปลง DNS
กราฟนี้แสดงเวลาที่เซิร์ฟเวอร์ DNS ไม่รู้จักชื่อโฮสต์ของคุณหรือไม่ตอบสนองระหว่างการรวบรวมข้อมูล หากคุณเห็นข้อผิดพลาด โปรดสอบถามผู้รับจดทะเบียนให้แน่ใจว่าเว็บไซต์มีการตั้งค่าอย่างถูกต้อง และเซิร์ฟเวอร์เชื่อมต่อกับอินเทอร์เน็ตอยู่ - การเชื่อมต่อของเซิร์ฟเวอร์
กราฟนี้แสดงเวลาที่เซิร์ฟเวอร์ของคุณไม่ตอบสนองหรือไม่ให้การตอบกลับโดยสมบูรณ์สำหรับ URL หนึ่งๆ ระหว่างการรวบรวมข้อมูล ดูข้อมูลการแก้ไขข้อผิดพลาดเหล่านี้ในข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์
นี่เป็นคำอธิบายโดยละเอียดเพิ่มเติมเกี่ยวกับวิธีที่ Google ตรวจสอบ (และอาศัย) ไฟล์ robots.txt เมื่อรวบรวมข้อมูลเว็บไซต์
เว็บไซต์ของคุณไม่จำเป็นต้องมีไฟล์ robots.txt แต่ต้องมีการตอบกลับที่สำเร็จ (ตามที่ระบุด้านล่าง) เมื่อระบบขอไฟล์นี้ มิเช่นนั้น Google อาจหยุดรวบรวมข้อมูลเว็บไซต์
- การตอบกลับของ robots.txt ที่สำเร็จ
- รายการต่อไปนี้ถือว่าเป็นการตอบกลับที่สำเร็จ
- HTTP 200 และไฟล์ robots.txt (ไฟล์นี้อาจเป็นไฟล์ที่ถูกต้อง ไม่ถูกต้อง หรือว่างเปล่าก็ได้) หากไฟล์มีข้อผิดพลาดด้านไวยากรณ์ Google จะยังคงถือว่าการขอสำเร็จ แม้ว่าอาจเพิกเฉยต่อกฎที่มีข้อผิดพลาดด้านไวยากรณ์ก็ตาม
- HTTP 403/404/410 (ไม่มีไฟล์อยู่) เว็บไซต์ไม่จำเป็นต้องมีไฟล์ robots.txt
- การตอบกลับของ robots.txt ไม่สำเร็จ
- HTTP 429/5XX (ปัญหาการเชื่อมต่อ)
ต่อไปนี้เป็นวิธีที่ Google ขอและใช้ไฟล์ robots.txt เมื่อรวบรวมข้อมูลเว็บไซต์
- ก่อนทำการ Crawl เว็บไซต์ Google จะตรวจสอบว่ามีคำขอ robots.txt ที่สำเร็จเมื่อเร็วๆ นี้หรือไม่ (มีอายุไม่เกิน 24 ชั่วโมง)
- หากได้รับการตอบกลับที่สําเร็จจาก robots.txt ไม่ถึง 24 ชั่วโมง Google จะใช้ไฟล์ robots.txt นั้นเมื่อทำการ Crawl เว็บไซต์ (อย่าลืมว่าข้อผิดพลาด 404 Not Found นั้นเป็นการตอบกลับที่สําเร็จ และหมายถึงไม่มีไฟล์ robots.txt ซึ่งหมายความว่า Google ทำการ Crawl URL ในเว็บไซต์ได้)
- หากการตอบกลับล่าสุดไม่สําเร็จหรือมีอายุเกิน 24 ชั่วโมง Google จะขอไฟล์ robots.txt โดยมีรายละเอียดดังนี้
- หากการขอสำเร็จ การรวบรวมข้อมูลจะเริ่มขึ้นได้
- หากไม่สําเร็จ สิ่งที่จะเกิดขึ้นมีดังนี้
- ในช่วง 12 ชั่วโมงแรก Google จะหยุดทำการ Crawl เว็บไซต์ แต่จะขอไฟล์ robots.txt ต่อไป
- ตั้งแต่ 12 ชั่วโมงถึง 30 วัน Google จะใช้ไฟล์ robots.txt ล่าสุดที่ดึงมาได้สําเร็จ ในขณะที่ยังคงขอไฟล์ robots.txt
- หลังจากผ่านไป 30 วัน
- หากหน้าแรกของเว็บไซต์พร้อมใช้งาน Google จะทําหน้าที่เหมือนไม่มีไฟล์ robots.txt และทำการ Crawl โดยไม่มีข้อจํากัด
- หากหน้าแรกของเว็บไซต์ไม่พร้อมใช้งาน Google จะหยุดทำการ Crawl เว็บไซต์
- ไม่ว่าจะเป็นกรณีใด Google จะส่งคําขอไฟล์ robots.txt เป็นระยะๆ ต่อไป
การตอบกลับในการรวบรวมข้อมูล
ตารางนี้แสดงการตอบกลับที่ Google ได้รับเมื่อรวบรวมข้อมูลเว็บไซต์ ซึ่งจัดกลุ่มตามประเภทการตอบกลับ โดยคิดเป็นเปอร์เซ็นต์ของการตอบกลับทั้งหมดในการรวบรวมข้อมูล ข้อมูลจะอิงตามจำนวนคำขอทั้งหมด ไม่ใช่ตาม URL ดังนั้นหาก Google ขอ URL ใดซ้ำ 2 ครั้งและได้รับข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์ (500) ในครั้งแรก และได้รับการตอบกลับ OK (200) ในครั้งที่ 2 จะถือว่าเป็นการตอบกลับที่มีข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์ 50% และไม่มีปัญหา 50%
โค้ดตอบกลับที่พบบ่อยรวมทั้งวิธีจัดการมีดังนี้
โค้ดตอบกลับที่ดี
หน้าเว็บเหล่านี้ใช้งานได้ดีและไม่ก่อให้เกิดปัญหาใดๆ
- OK (200): ในกรณีปกติ การตอบกลับส่วนใหญ่ควรเป็นการตอบกลับประเภท 200
- ย้ายถาวร (301): หน้าเว็บตอบกลับด้วย HTTP 301 หรือ 308 (ย้ายถาวร) ซึ่งอาจเป็นสิ่งที่คุณต้องการก็ได้
- ย้ายชั่วคราว (302): หน้าเว็บตอบกลับด้วย HTTP 302 หรือ 307 (ย้ายชั่วคราว) ซึ่งอาจเป็นสิ่งที่คุณต้องการก็ได้ หากมีการย้ายหน้านี้อย่างถาวร ให้เปลี่ยนเป็น 301
- ย้ายแล้ว (อื่นๆ): Meta Refresh
- ไม่มีการแก้ไข (304): หน้าเว็บไม่มีการเปลี่ยนแปลงนับตั้งแต่การขอทำการ Crawl ครั้งล่าสุด
โค้ดตอบกลับที่อาจจะดี
ถึงแม้การตอบกลับเหล่านี้จะเป็นการตอบกลับที่ดี แต่คุณควรตรวจสอบว่าเป็นสิ่งที่ต้องการจริงๆ
- ข้อผิดพลาดไม่พบ (404) อาจเกิดจากลิงก์เสียภายในเว็บไซต์หรือนอกเว็บไซต์ของคุณก็ได้ การแก้ไขข้อผิดพลาด 404 ทั้งหมดในเว็บไซต์ของคุณนั้นเป็นไปไม่ได้ ไม่คุ้มค่า หรือแม้กระทั่งไม่น่าทำ และการแสดง 404 กลับมานั้นมักเป็นเรื่องที่ถูกต้องอยู่แล้ว (เช่น หากหน้านั้นไม่มีอีกต่อไปแล้วจริงและไม่มีการนำหน้าอื่นมาใช้แทน) ดูว่าควรแก้ไขข้อผิดพลาด 404 หรือไม่ หรือแก้อย่างไร
โค้ดตอบกลับไม่ถูกต้อง
คุณควรแก้ไขหน้าที่แสดงข้อผิดพลาดเหล่านี้เพื่อปรับปรุงการรวบรวมข้อมูล
- robots.txt ไม่พร้อมใช้งาน: หากไฟล์ robots.txt ยังคงไม่พร้อมใช้งานเป็นเวลา 1 วัน Google จะหยุดรวบรวมข้อมูลชั่วคราวจนกว่าจะได้รับการตอบกลับที่ยอมรับได้เมื่อขอ robots.txt โปรดอย่าปิดบัง robots.txt จริงไม่ให้ Google เห็นหรือเปลี่ยนแปลงหน้า robots.txt ตาม User Agent
การตอบกลับนี้ไม่เหมือนกับการแสดงข้อความ "ไม่พบ (404)" สําหรับไฟล์ robots.txt ซึ่งถือว่าเป็นการตอบกลับที่ดี ดูรายละเอียดเพิ่มเติมเกี่ยวกับ robots.txt - ไม่ได้รับอนุญาต (401/407): คุณควรบล็อกหน้าเว็บเหล่านี้ไม่ให้มีการรวบรวมข้อมูลโดยใช้ robots.txt หรือตัดสินใจว่าควรจะเลิกบล็อกหรือไม่ หากหน้าเหล่านี้ไม่มีข้อมูลที่รักษาความปลอดภัยและคุณต้องการให้รวบรวมข้อมูลในหน้า คุณอาจพิจารณาย้ายข้อมูลไปยังหน้าเว็บที่ไม่มีการรักษาความปลอดภัย หรืออนุญาตให้ Googlebot เข้าถึงได้โดยไม่ต้องเข้าสู่ระบบ (แม้จะได้รับคำเตือนว่าอาจมีการปลอมแปลงเป็น Googlebot ก็ตาม ดังนั้นการอนุญาตให้ Googlebot เข้าถึงได้จะเป็นการนำการรักษาความปลอดภัยออกจากหน้าเว็บอย่างแท้จริง)
- ข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์ (5XX): ข้อผิดพลาดเหล่านี้จะทำให้ระบบแสดงคำเตือนเกี่ยวกับความพร้อมใช้งาน ควรแก้ไขข้อผิดพลาดดังกล่าวหากทำได้ แผนภูมิภาพขนาดย่อนี้แสดงเวลาโดยประมาณที่เกิดข้อผิดพลาดเหล่านี้ขึ้น คลิกเพื่อดูรายละเอียดเพิ่มเติมและเวลาที่แน่นอน ตรวจสอบให้ชัดเจนว่าปัญหาเหล่านี้เกิดขึ้นชั่วคราวหรือแสดงให้เห็นข้อผิดพลาดด้านความพร้อมใช้งานที่อยู่ลึกลงไปในเว็บไซต์ของคุณ หาก Google รวบรวมข้อมูลเว็บไซต์มากเกินไป คุณจะขอให้ใช้อัตราการรวบรวมข้อมูลที่ต่ำลงได้ หากเหตุการณ์นี้บ่งชี้ว่ามีปัญหาด้านความพร้อมใช้งานที่ร้ายแรง ให้อ่านเกี่ยวกับการรวบรวมข้อมูลที่เพิ่มสูงขึ้นมากอย่างฉับพลัน ดูข้อมูลการแก้ไขข้อผิดพลาดเหล่านี้ในข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์
- ข้อผิดพลาดอื่นๆ ของไคลเอ็นต์ (4XX): ข้อผิดพลาด 4XX (ฝั่งไคลเอ็นต์) แบบอื่นที่ไม่ได้ระบุไว้ที่นี่ ทางที่ดีคือแก้ไขปัญหาเหล่านี้เสีย
- DNS ไม่ตอบสนอง: เซิร์ฟเวอร์ DNS ของคุณไม่ตอบสนองต่อคำขอ URL ในเว็บไซต์
- ข้อผิดพลาด DNS: ข้อผิดพลาดเกี่ยวกับ DNS อีกแบบหนึ่งที่ไม่ได้ระบุไว้
- ข้อผิดพลาดในการดึงข้อมูล: ดึงข้อมูลจากหน้าเว็บไม่ได้เนื่องจากหมายเลขพอร์ตไม่ถูกต้อง ที่อยู่ IP ไม่ถูกต้อง หรือแยกวิเคราะห์การตอบกลับไม่ได้
- เข้าถึงหน้าเว็บไม่ได้: ข้อผิดพลาดอื่นในการดึงข้อมูลหน้าเว็บที่คำขอไม่เคยไปถึงเซิร์ฟเวอร์เลย เนื่องจากคำขอเหล่านี้ส่งไม่ถึงเซิร์ฟเวอร์ จึงไม่ปรากฏในบันทึกของคุณ
- หน้าเว็บหมดเวลา: การขอหน้าเว็บหมดเวลา
- ข้อผิดพลาดในการเปลี่ยนเส้นทาง: ข้อผิดพลาดในการขอเปลี่ยนเส้นทางแบบหนึ่ง เช่น การเปลี่ยนเส้นทางหลายครั้งเกินไป การเปลี่ยนเส้นทางที่ว่างเปล่า หรือการเปลี่ยนเส้นทางที่วนเป็นวงกลม
- ข้อผิดพลาดอื่นๆ: ข้อผิดพลาดอื่นที่จัดลงในหมวดหมู่ใดๆ ด้านบนไม่ได้
ประเภทไฟล์ที่มีการรวบรวมข้อมูล
ประเภทไฟล์ที่แสดงกลับมาแยกตามคำขอ ค่าเปอร์เซ็นต์สำหรับแต่ละประเภทคือเปอร์เซ็นต์การตอบกลับของประเภทนั้นๆ ไม่ใช่เปอร์เซ็นต์ของจำนวนไบต์ที่ดึงขึ้นมาของประเภทนั้นๆ
ค่าประเภทไฟล์ที่เป็นไปได้มีดังนี้
- HTML
- รูปภาพ
- วิดีโอ - หนึ่งในรูปแบบวิดีโอที่รองรับ
- JavaScript
- CSS
- XML อื่นๆ - ไฟล์ XML ที่ไม่มี RSS, KML หรือรูปแบบอื่นที่สร้างจาก XML
- JSON
- การเผยแพร่ - ฟีด RSS หรือ Atom
- เสียง
- ข้อมูลทางภูมิศาสตร์ - KML หรือข้อมูลทางภูมิศาสตร์อื่นๆ
- ไฟล์ประเภทอื่น - ไม่มีการระบุไฟล์ประเภทอื่นที่นี่ การเปลี่ยนเส้นทางจะรวมอยู่ในการจัดกลุ่มนี้ด้วย
- ไม่รู้จัก (ไม่สำเร็จ) - หากคำขอไม่ประสบความสำเร็จ แสดงว่าระบบไม่รู้จักไฟล์ประเภทนั้น
วัตถุประสงค์ของการรวบรวมข้อมูล
- เพิ่งค้นพบ: Google ไม่เคยรวบรวมข้อมูลจาก URL ที่ขอนั้นมาก่อน
- รีเฟรช: การรวบรวมข้อมูลจากหน้าที่เคยรวบรวมแล้วอีกครั้ง
หากมีหน้าเว็บที่เปลี่ยนแปลงอย่างรวดเร็วและไม่มีการรวบรวมข้อมูลซ้ำบ่อยพอ ให้ตรวจสอบว่าหน้านั้นอยู่ในแผนผังเว็บไซต์แล้ว สำหรับหน้าเว็บที่มีการอัปเดตไม่เร็วเท่า คุณอาจต้องขอให้มีการรวบรวมข้อมูลซ้ำอย่างเฉพาะเจาะจง หากมีการเพิ่มเนื้อหาใหม่จำนวนมากหรือส่งแผนผังเว็บไซต์เมื่อเร็วๆ นี้ ตามหลักการแล้วคุณควรจะเห็นว่าการรวบรวมข้อมูลที่เพิ่งค้นพบในเว็บไซต์เพิ่มขึ้นมากอย่างฉับพลัน
ประเภท Googlebot
ประเภทของ User Agent ที่ใช้เพื่อสร้างคำขอรวบรวมข้อมูล Google มี User Agent จำนวนหนึ่งที่ทำการ Crawl ด้วยเหตุผลต่างอื่นและมีลักษณะการทำงานที่ต่างกัน
ค่าประเภท Googlebot ที่เป็นไปได้มีดังนี้
- สมาร์ทโฟน: Googlebot สำหรับสมาร์ทโฟน
- เดสก์ท็อป: Googlebot สำหรับเดสก์ท็อป
- รูปภาพ: Googlebot สำหรับรูปภาพ หากรูปภาพโหลดแบบทรัพยากรหน้าเว็บ การนับประเภท Googlebot จะนับเป็นการโหลดทรัพยากรหน้าเว็บ ไม่ใช่รูปภาพ
- วิดีโอ: Googlebot สำหรับวิดีโอ หากวิดีโอโหลดแบบทรัพยากรหน้าเว็บ การนับประเภท Googlebot จะนับเป็นการโหลดทรัพยากรของหน้าเว็บ ไม่ใช่วิดีโอ
- การโหลดทรัพยากรหน้าเว็บ: การดึงทรัพยากรที่หน้าเว็บใช้โดยเป็นการดึงสำรอง เมื่อรวบรวมข้อมูลหน้าเว็บนั้น Google จะดึงทรัพยากรที่ลิงก์ไว้ซึ่งมีความสำคัญ เช่น รูปภาพหรือไฟล์ CSS เพื่อแสดงผลหน้าเว็บก่อนที่จะพยายามจัดทำดัชนี นี่คือ User Agent ที่สร้างคำขอทรัพยากรเหล่านี้
- AdsBot: หนึ่งในโปรแกรมรวบรวมข้อมูล AdsBot หากคุณพบว่าคำขอเหล่านี้เพิ่มสูงขึ้นมากอย่างฉับพลัน ก็มีแนวโน้มว่าคุณเพิ่งสร้างเป้าหมายใหม่ขึ้นมาหลายรายการสำหรับโฆษณาบนเครือข่ายการค้นหาแบบไดนามิกในเว็บไซต์ โปรดดูทำไมอัตราการรวบรวมข้อมูลจึงพุ่งสูงขึ้น AdsBot รวบรวมข้อมูลจาก URL ทุก 2 สัปดาห์
- StoreBot: โปรแกรมรวบรวมข้อมูลเกี่ยวกับการเลือกซื้อผลิตภัณฑ์
- Agent ประเภทอื่นๆ: Crawler อื่นของ Google ที่ไม่ได้ระบุไว้ที่นี่
หากการ Crawl เพิ่มสูงขึ้นมากอย่างฉับพลัน ให้ตรวจสอบประเภท User Agent หากดูเหมือนว่าการเพิ่มสูงขึ้นอย่างฉับพลันนั้นเกิดจาก Crawler ของ AdsBot โปรดดูทำไมอัตราการ Crawl จึงพุ่งสูงขึ้น
การแก้ปัญหา
อัตราการรวบรวมข้อมูลสูงเกินไป
Googlebot มีอัลกอริทึมเพื่อป้องกันไม่ให้เว็บไซต์ทำงานหนักเกินไปในระหว่างการรวบรวมข้อมูล อย่างไรก็ตาม หากต้องจำกัดอัตราการรวบรวมข้อมูลไม่ว่าด้วยเหตุผลใด โปรดดูวิธีการที่นี่
ทำไมอัตราการรวบรวมข้อมูลจึงพุ่งสูงขึ้น
หากคุณใส่ข้อมูลใหม่จำนวนมากหรือมีข้อมูลที่มีประโยชน์จริงๆ ในเว็บไซต์ ก็อาจมีการรวบรวมข้อมูลในเว็บไซต์บ่อยกว่าที่คุณต้องการเล็กน้อย เช่น
- คุณเลิกบล็อกการรวบรวมข้อมูลในพื้นที่ขนาดใหญ่ของเว็บไซต์
- คุณเพิ่มส่วนใหม่ที่มีขนาดใหญ่ในเว็บไซต์
- คุณเพิ่มเป้าหมายใหม่จำนวนมากสำหรับโฆษณาบนเครือข่ายการค้นหาแบบไดนามิกโดยเพิ่มฟีดหน้าเว็บหรือกฎ URL_Equals ใหม่
หากระบบกำลังทำการ Crawl เว็บไซต์ของคุณเป็นจำนวนมากจนเว็บไซต์มีปัญหาด้านความพร้อมให้บริการ เราแนะนำให้ลองดูวิธีป้องกันเว็บไซต์ด้านล่างนี้
- วิเคราะห์หาโปรแกรมรวบรวมข้อมูลของ Google ที่กำลังรวบรวมข้อมูลจากเว็บไซต์ของคุณมากเกินไป ดูบันทึกเว็บไซต์หรือใช้รายงานสถิติการรวบรวมข้อมูล
- การบรรเทาปัญหาในทันที
- หากต้องการวิธีแก้ไขง่ายๆ ให้ใช้ robots.txt เพื่อบล็อกการ Crawl สำหรับ Agent ที่ทำงานมากเกินไป (googlebot, adsbot ฯลฯ) อย่างไรก็ตาม อาจใช้เวลาถึง 1 วันกว่าจะเห็นผล แต่ไม่ควรบล็อกนานเกินไปเนื่องจากอาจส่งผลเสียต่อการ Crawl ในระยะยาว
- หากคุณตรวจหาและตอบสนองต่อภาระงานที่เพิ่มขึ้นได้แบบไดนามิก ให้แสดง HTTP 503/429 เมื่อการแสดงผลใกล้ถึงขีดจำกัด แต่อย่าแสดงผล 503 หรือ 429 นานเกินกว่า 2 หรือ 3 วัน มิฉะนั้นระบบอาจส่งสัญญาณให้ Google ทำการ Crawl จากเว็บไซต์ของคุณถี่น้อยลงในระยะยาว
- 2 หรือ 3 วันหลังจากนั้น เมื่ออัตราการ Crawl ของ Google ปรับเปลี่ยนแล้ว คุณจะนำ robots.txt ออกหรือหยุดแสดงผลรหัสข้อผิดพลาด 503 หรือ 429 ได้
- หาก AdsBot รวบรวมข้อมูลมากเกินไป ก็น่าจะเป็นเพราะคุณสร้างเป้าหมายจำนวนมากเกินไปสำหรับโฆษณาบนเครือข่ายการค้นหาแบบไดนามิกในเว็บไซต์โดยใช้
URL_Equals
หรือฟีดหน้าเว็บ หากเซิร์ฟเวอร์มีความสามารถไม่พอในการรับมือการรวบรวมข้อมูลเหล่านี้ คุณควรจำกัดเป้าหมายโฆษณา เพิ่ม URL เป็นกลุ่มเล็กๆ หรือเพิ่มความสามารถในการแสดงหน้าเว็บ โปรดทราบว่า AdsBot จะรวบรวมข้อมูลหน้าเว็บทุกๆ 2 สัปดาห์ คุณจึงต้องแก้ไขปัญหา มิเช่นนั้นปัญหาจะเกิดขึ้นอีก
อัตราการรวบรวมข้อมูลดูเหมือนจะต่ำเกินไป
คุณบอกให้ Google เพิ่มอัตราการ Crawl ไม่ได้ อย่างไรก็ตาม คุณสามารถดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีจัดการการ Crawl สำหรับเว็บไซต์ขนาดใหญ่มากหรือเว็บไซต์ที่อัปเดตบ่อย
สำหรับเว็บไซต์ขนาดเล็กหรือขนาดกลาง หากคุณพบว่า Google ไม่ได้รวบรวมข้อมูลทั้งหมดในเว็บไซต์ ให้ลองอัปเดตแผนผังเว็บไซต์ และตรวจสอบว่าคุณไม่ได้บล็อกหน้าเว็บใดๆ ไว้
ทำไมอัตราการรวบรวมข้อมูลจึงลดลง
ปกติแล้ว อัตราการรวบรวมข้อมูลของ Google ควรจะค่อนข้างคงที่ในช่วง 1 หรือ 2 สัปดาห์ หากคุณเห็นการลดลงทันทีทันใด โปรดดูสาเหตุบางประการที่อาจเป็นไปได้ต่อไปนี้
- หากคุณได้เพิ่มกฎใหม่ (หรือกฎที่กว้างมาก) ใน robots.txt ให้ตรวจสอบว่าคุณบล็อกเฉพาะทรัพยากรที่จำเป็นต้องบล็อกเท่านั้น และหาก Google ต้องการทรัพยากรใดโดยเฉพาะ เช่น CSS หรือ JavaScript เพื่อทำความเข้าใจเนื้อหา ให้ตรวจสอบว่าคุณไม่ได้บล็อกทรัพยากรเหล่านั้นจาก Googlebot
- หากเว็บไซต์ตอบสนองคำขอช้า Googlebot จะดันคำขอต่างๆ กลับไปเพื่อไม่ให้เซิร์ฟเวอร์ทำงานหนักเกินไป ให้ตรวจสอบรายงานสถิติการรวบรวมข้อมูลเพื่อดูว่าเว็บไซต์ของคุณตอบกลับช้ากว่าเดิมไหม
- หากอัตราข้อผิดพลาดของเซิร์ฟเวอร์เพิ่มสูงขึ้น Googlebot จะดันคำขอต่างๆ กลับไปเพื่อไม่ให้เซิร์ฟเวอร์ทำงานหนักเกินไป
- หากเว็บไซต์มีการเปลี่ยนแปลงข้อมูลน้อยครั้งลง หรือข้อมูลไม่ได้มีคุณภาพสูงมาก เราอาจไม่รวบรวมข้อมูลบ่อยเท่าเดิม โปรดตรวจดูเว็บไซต์ของคุณด้วยความซื่อตรง รับฟังความคิดเห็นอย่างเป็นกลางจากผู้คนที่ไม่เกี่ยวข้องกับเว็บไซต์ของคุณ และค้นหาจุดหรือวิธีการในการปรับปรุงเว็บไซต์โดยรวม
ผลรวมของการรวบรวมข้อมูลรายงานสูงกว่าผลรวมของบันทึกจากเซิร์ฟเวอร์ของเว็บไซต์มาก
หากผลรวมของการรวบรวมข้อมูลที่แสดงในรายงานนี้สูงกว่าคำขอรวบรวมข้อมูลของ Google ในบันทึกของเซิร์ฟเวอร์มาก อาจเป็นเพราะ Google รวบรวมข้อมูลเว็บไซต์ของคุณไม่ได้เนื่องจากไฟล์ robots.txt ไม่พร้อมใช้งานเป็นเวลานานเกินไป ในกรณีนี้ Google จะนับการรวบรวมข้อมูลที่อาจได้ดำเนินการหากมีไฟล์ robots.txt แต่ไม่ได้เรียกใช้จริงๆ ตรวจสอบสถานะการดึงข้อมูลไฟล์ robots.txt เพื่อยืนยันว่ากรณีนี้เป็นปัญหาหรือไม่