Il report Statistiche di scansione mostra le statistiche sulla cronologia di scansione di Google sul tuo sito web: ad esempio, quante richieste sono state effettuate e quando, la risposta fornita dal server ed eventuali problemi di disponibilità riscontrati. Puoi utilizzare questo report per stabilire se Google ha riscontrato problemi di pubblicazione durante la scansione del tuo sito.
Questo report è rivolto agli utenti avanzati. Se il tuo sito ha meno di mille pagine, non dovrebbe essere necessario utilizzare questo report né esaminare le scansioni con questo livello di dettaglio.
Apri il report Statistiche di scansione
C<span/>rawl Budget and the Crawl Stats report - Google Search Console Training
Per iniziare
Prima di poter utilizzare questo report, è necessario comprendere quanto segue:
- Come funziona la Ricerca Google
- Gli argomenti per gli utenti esperti, in particolare relativi alla scansione, all'indicizzazione e alle Sitemap.
- Vari argomenti sulla gestione dell'accesso al tuo sito, incluso il blocco tramite file robots.txt.
- Come gestire il budget di scansione e risolvere i relativi problemi se hai un sito di grandi dimensioni, nell'ordine delle centinaia di migliaia di pagine.
Informazioni sui dati
- Tutti gli URL mostrati e conteggiati sono gli URL effettivi richiesti da Google; non vengono assegnati dati agli URL canonici, come avviene in altri report.
- Se un URL ha un reindirizzamento lato server, ogni richiesta nella catena di reindirizzamento viene conteggiata come una richiesta separata. Pertanto, se la pagina 1 reindirizza alla pagina 2, che a sua volta reindirizza alla pagina 3, se Google richiede la pagina 1 verranno visualizzate richieste separate per la pagina 1 (restituisce 301/302), la pagina 2 (restituisce 301/302) e la pagina 3 (dovrebbe restituire 200). Tieni presente che vengono visualizzate solo le pagine del dominio corrente. Una risposta di reindirizzamento è del tipo di file "Altro tipo di file". I reindirizzamenti lato client non vengono conteggiati.
- Le scansioni prese in considerazione e non eseguite perché il file robots.txt non era disponibile vengono conteggiate nei totali delle scansioni, ma il report potrebbe contenere dettagli limitati su tali tentativi. Scopri di più
- Risorse e ambito:
- Tutti i dati sono limitati al dominio attualmente selezionato. Le richieste ad altri domini non verranno mostrate, incluse le richieste per qualsiasi risorsa di pagina (come le immagini) ospitata al di fuori di questa proprietà. Pertanto, se la pagina example.com/mypage include l'immagine google.com/img.png, la richiesta per google.com/img.png non verrà visualizzata nel report Statistiche di scansione per example.com.
- Analogamente, le richieste a un dominio di pari livello (ad esempio en.example e de.example) non verranno mostrate. Pertanto, se stai consultando il report Statistiche di scansione per en.example, le richieste di un'immagine su de.example non vengono mostrate.
- Tuttavia, le richieste tra sottodomini possono essere visualizzate dal dominio principale. Ad esempio, se visualizzi i dati di example.com, puoi visualizzare tutte le richieste per example.com, en.example, de.example.com e qualsiasi altro dominio secondario a qualsiasi livello sottostante example.com.
- Al contrario, se le risorse della proprietà sono utilizzate da una pagina in un altro dominio, potrai visualizzare richieste di scansione associate alla pagina host, ma non visualizzerai alcun contesto che indica che la risorsa è sottoposta a scansione perché viene utilizzata da una pagina in un altro dominio. Ciò significa che non vedrai che l'immagine example.com/imageX.png è stata sottoposta a scansione perché è inclusa nella pagina anotherexample.com/mypage.
- I dati di scansione includono i protocolli http e https, anche per le proprietà prefisso URL. Ciò significa che il report Statistiche di scansione per http://example.com include le richieste sia a http://example.com sia a https://example.com. Tuttavia, gli URL di esempio per le proprietà prefisso URL sono limitati al protocollo definito per la proprietà (http o https).
Consultare il report
Il report mostra le seguenti informazioni di scansione riguardanti il tuo sito:
Fai clic su una voce della tabella per un quadro dettagliato dell'elemento, incluso un elenco di URL di esempio; fai clic su un URL per vedere i dettagli relativi alla specifica richiesta di scansione. Ad esempio, nella tabella che mostra le risposte raggruppate per tipo, fai clic sulla riga HTML per visualizzare le informazioni di scansione aggregate per tutte le pagine HTML sottoposte a scansione sul tuo sito, nonché per dettagli quali la data e l'ora di scansione, il codice di risposta, le dimensioni della risposta e altri valori relativi a una selezione di esempio di tali URL.
Host e domini secondari
Se la proprietà è a livello di dominio (example.com, http://example.com, https://m.example.com) e contiene due o più domini secondari (ad esempio fr.example.com e de.example.com), puoi visualizzare i dati relativi al dominio principale, che include tutti quelli secondari, o limitarti a un singolo dominio secondario.
Per limitare l'ambito del report a un dominio secondario specifico, fai clic sul dominio negli elenchi Host nella pagina di destinazione del dominio principale. Vengono mostrati solo i primi 20 domini secondari che hanno ricevuto traffico negli ultimi 90 giorni.
URL di esempio
Puoi fare clic su una qualsiasi delle voci relative ai tipi di dati raggruppati (risposta, tipo di file, scopo, tipo Googlebot) per visualizzare un elenco di URL di esempio di quel tipo.
L'elenco degli URL di esempio non è esaustivo, ma soltanto indicativo. Anche se un URL non è presente nell'elenco, non significa che non lo abbiamo richiesto. Il numero di esempi può essere ponderato per giorno, pertanto per alcuni tipi di richieste potrebbero essere presenti più esempi. Nel tempo, questo squilibrio dovrebbe compensarsi.
Richieste di scansione totali
Il numero totale di richieste di scansione inviate per gli URL sul tuo sito, completate correttamente o meno. Include le richieste di risorse utilizzate dalla pagina, se si trovano sul tuo sito; non vengono conteggiate le richieste di risorse ospitate al di fuori del tuo sito. Le richieste duplicate per lo stesso URL vengono conteggiate singolarmente. Se il file robots.txt non è sufficientemente disponibile, i potenziali recuperi vengono conteggiati.
Le richieste non riuscite che vengono conteggiate sono le seguenti:
- I recuperi che non sono mai stati effettuati perché il file robots.txt non era sufficientemente disponibile.
- I recuperi non riusciti a causa di problemi di risoluzione DNS.
- I recuperi non riusciti a causa di problemi di connessione del server.
- I recuperi abbandonati a causa di loop di reindirizzamento.
Dimensioni totali download
Il numero totale di byte scaricati dal tuo sito durante la scansione per il periodo di tempo specificato. Le risorse di pagina utilizzate da più pagine che Google ha memorizzato nella cache vengono richieste solo la prima volta (in corrispondenza della memorizzazione).
Tempo medio di risposta
Tempo medio di risposta per tutte le risorse recuperate dal sito durante il periodo di tempo specificato. Ogni risorsa collegata a una pagina viene conteggiata come una risposta separata.
Stato host
Lo stato host indica se Google ha riscontrato problemi di disponibilità durante la scansione del tuo sito. Lo stato può assumere uno dei seguenti valori:
Google non ha riscontrato problemi sostanziali di disponibilità durante la scansione del tuo sito negli ultimi 90 giorni. Non devi fare altro.
Google ha riscontrato almeno un problema sostanziale di disponibilità durante la scansione del tuo sito negli ultimi 90 giorni, che però si è verificato più di una settimana fa. È possibile si sia trattato di un problema temporaneo o che si è risolto nel frattempo. Consulta la tabella Risposta per accertare quali problemi si sono verificati e decidere se è necessario un tuo intervento.
Google ha riscontrato almeno un problema sostanziale di disponibilità sul tuo sito nella scorsa settimana. Il problema è recente e dovresti cercare di stabilire se è ricorrente. Consulta la tabella Risposta per accertare quali problemi si sono verificati e decidere se è necessario un tuo intervento.
In teoria, lo stato dell'host deve essere verde. Se lo stato di disponibilità è rosso, fai clic per visualizzare i dettagli in relazione alla disponibilità del file robots.txt, alla risoluzione DNS e alla connettività dell'host.
Dettagli sullo stato dell'host
Lo stato di disponibilità dell'host viene valutato in base alle seguenti categorie. Un errore sostanziale in una qualsiasi delle categorie può tradursi in una riduzione della disponibilità. Per ulteriori dettagli, fai clic su una categoria nel report.
Per ogni categoria, viene visualizzato un grafico dei dati di scansione per il periodo di tempo considerato. Nel grafico, il superamento della linea tratteggiata rossa da parte di una metrica per la categoria considerata (ad esempio, se oltre il 5% di richieste per la risoluzione DNS non riesce in un determinato giorno) indica un problema per questa categoria. Inoltre, lo stato rispecchierà la recency del problema più recente.
- Recupero robots.txt
Il grafico mostra la percentuale di errori relativi alle richieste del file robots.txt nel corso di una scansione. Google richiede questo file spesso e, se la richiesta non restituisce un file valido (compilato o vuoto) o una risposta 404 (il file non esiste), Google rallenta o interrompe la scansione del sito finché non riceve una risposta accettabile per il file robots.txt. Per dettagli, consulta quanto riportato di seguito. - Risoluzione DNS
Il grafico mostra quando il server DNS non ha riconosciuto il tuo nome host o non ha risposto durante la scansione. Se noti errori, contatta il tuo registrar per assicurarti che il tuo sito sia configurato correttamente e che il tuo server sia connesso a Internet. - Connettività server
Il grafico mostra i casi in cui il server non risponde o non ha fornito una risposta completa per un URL durante una scansione. Per scoprire di più su come correggere questi errori, consulta Errori del server.
Di seguito è riportata una descrizione più dettagliata di come Google verifica e utilizza i file robots.txt durante la scansione del tuo sito.
Il tuo sito non deve necessariamente avere un file robots.txt, ma deve restituire una risposta corretta (come definita di seguito) quando riceve la richiesta per questo file, altrimenti Google potrebbe interrompere la scansione.
- Risposte robots.txt corrette
- È considerata corretta una qualsiasi delle seguenti risposte:
- HTTP 200 e un file robots.txt (il file può essere valido, non valido o vuoto). Se il file contiene errori di sintassi, la richiesta viene comunque considerata riuscita, anche se eventuali regole con un errore di sintassi potrebbero essere ignorate da Google.
- HTTP 403/404/410 (il file non esiste). Il tuo sito non deve necessariamente avere un file robots.txt.
- Risposte robots.txt non corrette
- HTTP 429/5XX (problema di connessione).
Ecco come Google richiede e utilizza i file robots.txt durante la scansione di un sito:
- Prima di eseguire la scansione del tuo sito, Google controlla innanzitutto se è presente una richiesta robots.txt riuscita recente (risalente a meno di 24 ore prima).
- Se trova una risposta corretta in relazione al file robots.txt risalente a meno di 24 ore prima, Google utilizza quel file durante la scansione del tuo sito. Tieni presente che l'errore 404 (Non trovato) indica un esito positivo e significa che non è presente alcun file robots.txt, pertanto Google può eseguire la scansione degli URL del sito.
- Se l'ultima risposta non è andata a buon fine o sono trascorse più di 24 ore, Google richiede il file robots.txt:
- Se l'operazione ha esito positivo, la scansione può iniziare.
- In caso contrario:
- Per le prime 12 ore, Google interromperà la scansione del sito, ma continuerà a richiedere il file robots.txt.
- Da 12 ore a 30 giorni, Google utilizzerà l'ultimo file robots.txt recuperato correttamente, continuando però a richiedere il tuo file robots.txt.
- Dopo 30 giorni:
- Se la home page del sito è disponibile, Google agisce come se non fosse presente alcun file robots.txt ed esegue la scansione senza restrizioni.
- Se la home page del sito non è disponibile, Google interromperà la scansione del sito.
- In entrambi i casi, Google continuerà a richiedere periodicamente il file robots.txt.
Risposte alle scansioni
In questa tabella sono riportate le risposte ricevute da Google durante la scansione del tuo sito, raggruppate in base al tipo, come percentuale di tutte le risposte alle scansioni. I dati si basano sul numero totale di richieste, non sugli URL. Quindi, se Google richiede un URL due volte ricevendo la prima volta una risposta di errore del server (500) la seconda volta Ok (200), la risposta viene considerata 50% errore del server e 50% Ok.
Ecco alcuni codici di risposta comuni e come gestirli:
Codici di risposta validi
Queste pagine sono considerate valide e non comportano alcun problema.
- OK (200): in circostanze normali, la maggior parte delle risposte deve essere 200.
- Spostato permanentemente (301): la pagina restituisce una risposta HTTP 301 o 308 (spostato in modo permanente), che probabilmente era quella desiderata.
- Spostato temporaneamente (302): la pagina restituisce una risposta HTTP 302 o 307 (spostato temporaneamente), che probabilmente era quella desiderata. Se la pagina viene spostata definitivamente, imposta questa opzione su 301.
- Spostato (altro): un meta refresh.
- Risorsa non modificata (304): la pagina non è stata modificata dall'ultima richiesta di scansione.
Codici di risposta potenzialmente corretti
Le seguenti risposte potrebbero essere corrette, tuttavia è opportuno verificare che siano quelle previste.
- Gli errori 404 (pagina non trovata) possono essere dovuti a link inaccessibili all'interno o all'esterno del sito. Non è possibile, non vale la pena e non è consigliabile correggere tutti gli errori 404 sul tuo sito. Spesso 404 è l'errore giusto da restituire (ad esempio, se la pagina è effettivamente inesistente, senza una pagina sostitutiva). Scopri come e quando è necessario correggere gli errori 404.
Codici di risposta non validi
Dovresti correggere le pagine che restituiscono questi errori per migliorare la scansione.
- robots.txt non disponibile: se il file robots.txt rimane non disponibile per un giorno intero, Google interrompe la scansione per un certo tempo finché non riceve una risposta accettabile a una richiesta di robots.txt. Assicurati di non effettuare il cloaking del tuo file robots.txt per Google e di non variare la pagina del file robots.txt in base allo user agent.
Questa risposta non corrisponde a "Non trovato (404)" per un file robots.txt, risposta considerata accettabile. Leggi ulteriori informazioni sul file robots.txt. - Non autorizzato (401/407): dovresti bloccare la scansione di queste pagine con il file robots.txt o decidere se sbloccarle. Se queste pagine non contengono dati protetti e vuoi che vengano sottoposte a scansione, potresti spostare le informazioni su pagine non protette o consentire l'accesso a Googlebot senza credenziali. Tieni presente, però, che Googlebot potrebbe essere oggetto di spoofing e consentirne l'accesso di fatto rimuove la protezione della pagina.
- Errore del server (5XX): questi errori generano avvisi di disponibilità e se possibile devono essere corretti. Il grafico delle miniature mostra orientativamente quando si sono verificati; fai clic per visualizzare ulteriori dettagli e l'ora e la data esatte. Stabilisci se si tratta di problemi transitori o se rappresentano errori di disponibilità più radicati nel tuo sito. Se pensi che il numero di scansioni eseguite da Google sia eccessivo, puoi richiedere una riduzione della frequenza di scansione. Se invece questo è indicativo di un grave problema di disponibilità, consulta ulteriori informazioni sui picchi di scansione. Per scoprire di più su come correggere questi errori, consulta Errori del server.
- Altro errore client (4XX): un altro errore 4XX (lato client) non specificato. La soluzione migliore è risolvere questi problemi.
- DNS non risponde: il tuo server DNS non ha risposto alle richieste di URL sul tuo sito.
- Errore DNS: un altro errore DNS non specificato.
- Errore di recupero: non è stato possibile recuperare la pagina a causa di un numero di porta o di un indirizzo IP non valido oppure di una risposta non analizzabile.
- Impossibile raggiungere la pagina: qualsiasi altro errore di recupero della pagina in cui la richiesta non ha raggiunto il server. Poiché queste richieste non hanno raggiunto il server, non saranno riportate nei tuoi log.
- Timeout pagina: si è verificato un timeout per la richiesta di pagina.
- Errore di reindirizzamento: un errore di reindirizzamento della richiesta, come troppi reindirizzamenti, reindirizzamento vuoto o reindirizzamento circolare.
- Altro errore: errore di altro tipo che non rientra in nessuna delle categorie precedenti.
Tipi di file sottoposti a scansione
Il tipo di file restituito dalla richiesta il cui valore percentuale fa riferimento alle risposte ricevute per quel tipo e non ai byte recuperati.
Valori possibili per i tipi di file:
- HTML
- Immagine
- Video: uno dei formati video supportati.
- JavaScript
- CSS
- Altro XML: un file XML che non include i formati RSS, KML o qualsiasi altro formato basato su XML.
- JSON
- Syndication: un feed RSS o Atom.
- Audio
- Dati geografici: KML o altri dati geografici.
- Altro tipo di file: un altro tipo di file non specificato in questo campo. I reindirizzamenti sono inclusi in questo raggruppamento.
- Sconosciuto (richieste non riuscite): se la richiesta non riesce, il tipo di file non è noto.
Scopo della scansione
- Rilevamento: Google non ha mai eseguito la scansione dell'URL richiesto prima d'ora.
- Aggiornamento: una nuova scansione di una pagina nota.
Se noti che pagine modificate di frequente non sono sottoposte a scansione abbastanza spesso, assicurati che siano incluse in una Sitemap. Per le pagine aggiornate meno velocemente, potrebbe essere necessario richiedere specificatamente una nuova scansione. Se di recente hai aggiunto un volume elevato di nuovi contenuti o hai inviato una Sitemap, dovresti teoricamente riscontrare un aumento improvviso delle scansioni di rilevamento sul tuo sito.
Tipo Googlebot
Il tipo di user agent utilizzato per effettuare la richiesta di scansione. Google ha a sua disposizione numerosi user agent che differiscono per scopo e comportamento.
Possibili valori di tipo Googlebot:
- Smartphone: Googlebot per smartphone.
- Computer: Googlebot per computer.
- Immagine: Googlebot per immagine. Se l'immagine viene caricata sotto forma di risorsa di pagina, il tipo Googlebot viene conteggiato come Carico di risorse della pagina e non come Immagine.
- Video: Googlebot per video. Se il video viene caricato sotto forma di risorsa di pagina, il tipo Googlebot viene conteggiato come Carico di risorse della pagina e non come Video.
- Carico di risorse della pagina: un recupero secondario delle risorse utilizzate dalla pagina. Quando Google esegue la scansione della pagina, ne recupera le risorse importanti associate, come immagini o file CSS, per effettuare il rendering della pagina prima di provare a indicizzarla. Le richieste vengono effettuate dal relativo user agent.
- AdsBot: uno dei crawler AdsBot. Un picco nelle richieste di questo tipo potrebbe essere dovuto alla recente creazione sul sito di un numero elevato di nuovi target per gli Annunci dinamici della rete di ricerca. Consulta la sezione Perché si è verificato un picco della frequenza di scansione del mio sito?. AdsBot esegue la scansione degli URL ogni due settimane circa.
- StoreBot: il crawler degli acquisti di prodotti.
- Altro tipo di agente: un altro crawler Google non specificato in questo campo.
Se riscontri picchi di scansione, verifica il tipo di user agent. Se i picchi sembrano essere causati dal crawler di AdsBot, consulta la sezione Perché si è verificato un picco della frequenza di scansione del mio sito?.
Risolvere i problemi
La frequenza di scansione è troppo elevata
Gli algoritmi di Googlebot sono configurati per impedirgli di sovraccaricare il tuo sito durante la scansione. Tuttavia se, per un qualsiasi motivo, dovesse essere necessario limitare la frequenza di scansione, scopri come farlo qui.
Perché si è verificato un picco della frequenza di scansione del mio sito?
Se pubblichi un volume elevato di nuove informazioni o includi informazioni davvero utili nel tuo sito, questo potrebbe essere sottoposto a scansione con maggiore frequenza rispetto a quella desiderata. Ad esempio:
- Hai sbloccato la scansione di un'ampia sezione del tuo sito.
- Hai aggiunto al sito una nuova sezione di grandi dimensioni.
- Hai aggiunto un numero elevato di nuovi target per gli Annunci dinamici della rete di ricerca inserendo nuovi feed di pagina o regole URL_Equals.
Se il tuo sito viene sottoposto a una scansione tanto approfondita da presentare problemi di disponibilità, ecco come proteggerlo:
- Stabilisci quale crawler di Google sta eseguendo una scansione del tuo sito superiore al solito. Controlla i log del sito web o utilizza il rapporto Statistiche di scansione.
- Soluzione immediata:
- Una soluzione semplice è utilizzare il file robots.txt per bloccare la scansione dell'agente causa del sovraccarico (googlebot, adsbot e così via). Tuttavia, l'operazione può richiedere fino a un giorno per diventare effettiva. Non applicare questo blocco troppo a lungo, poiché potrebbero avere effetti a lungo termine sulla scansione.
- Se riesci a rilevare e rispondere all'aumento del carico in modo dinamico, restituisci HTTP 503/429 quando stai per raggiungere il limite di pubblicazione. Evita, tuttavia, di restituire 503 o 429 per più di due o tre giorni, poiché questo potrebbe segnalare a Google di eseguire la scansione del tuo sito con minore frequenza nel lungo termine.
- Due o tre giorni dopo, quando la frequenza di scansione di Google si è adattata, puoi rimuovere i blocchi del file robots.txt o interrompere la restituzione dei codici di errore 503 o 429.
- Se stai subendo un sovraccarico di scansioni di AdsBot, è probabile che tu abbia creato troppi target per gli Annunci dinamici della rete di ricerca sul tuo sito utilizzando
URL_Equals
o feed di pagine. Se la capacità del tuo server non è sufficiente a gestire queste scansioni, devi limitare i target degli annunci, aggiungere URL in gruppi più piccoli o aumentare la capacità di pubblicazione. Tieni presente che AdsBot eseguirà la scansione delle tue pagine ogni due settimane, pertanto dovrai risolvere il problema o si ripeterà.
La frequenza di scansione sembra troppo bassa
Non puoi richiedere a Google di aumentare la frequenza di scansione. Puoi, tuttavia, consultare ulteriori informazioni su come gestire la scansione per i siti web di grandi dimensioni o che vengono aggiornati di frequente.
Se hai un sito web di piccole o medie dimensioni e noti che Google non ne esegue la scansione completa, prova ad aggiornare le Sitemap del sito e assicurati che nessuna pagina sia bloccata.
Perché la frequenza di scansione del mio sito ha subito un calo?
In genere, la frequenza di scansione di Google dovrebbe essere relativamente stabile nell'arco di una o due settimane; se rilevi un calo improvviso, i motivi potrebbero essere vari:
- Hai aggiunto una regola nuova (o molto generica) nel file robots.txt. Assicurati di bloccare soltanto le risorse necessarie. Assicurati di non bloccare l'accesso di Googlebot a risorse specifiche, ad esempio CSS o JavaScript, necessarie a Google per interpretare i contenuti.
- Se il tuo sito risponde lentamente alle richieste, Googlebot limiterà le sue richieste per evitare di sovraccaricare il tuo server. Controlla il report Statistiche di scansione per sapere se il tuo sito risponde più lentamente.
- Se la percentuale di errori del server aumenta, Googlebot limiterà le sue richieste per evitare di sovraccaricare il server.
- Se un sito contiene informazioni che cambiano con meno frequenza o non sono di buona qualità, potremmo non eseguirne spesso la scansione. Ti invitiamo a esaminare con obiettività il tuo sito, a richiedere feedback imparziali a persone non associate al tuo sito, nonché a valutare come e in quali sezioni in particolare sia possibile migliorarlo.
I totali delle scansioni dei report sono molto più elevati rispetto ai totali dei log del server del sito
Se il numero totale di scansioni mostrato in questo report è molto più elevato di quello delle richieste di scansione Google nei log del server, è probabile che Google non abbia potuto eseguire la scansione del tuo sito perché il file robots.txt non è disponibile per estesi periodi di tempo. In questo caso, Google conteggia le scansioni che avrebbe potuto eseguire se il file robots.txt fosse stato disponibile, senza tuttavia aver effettuato tali chiamate. Controlla lo stato di recupero del file robots.txt per verificare se si tratta di questo problema.