Indirizzi con HTTP
-
Un saluto a tutti.
Con un analisi Seo tramite Screaming Frog sono emersi indirizzi duplicati: con http e con https e con suffisso .html e senza.
Sono subito andato ad attivare l'opzione Forza HTTPS, (ora non sono più accessibili le HTTP), ma è necessario scrivere anche altri codici nel file .htaccess per il reindirizzamento delle pagine da HTTP a HTTPS? O è sufficiente l'opzione da backend?
Inoltre ho aggiunto questo codice nel .htaccess che reindirizza gli URL senza suffisso .html a cm CON suffisso (io uso il suffisso e ho notato che Joomla apriva anche tutte le pagine senza meterlo il suffisso .html).
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteCond %{REQUEST_URI} !.html$
RewriteRule ^(.*)$ /$1.html [R,L]Un altra questione importante che mi dice chi ha fatto l'analisi: oltre il redirect da HTTP a HTTPS bisognerebbe andare ad eliminare proprio gli url HTTP nel database con un search and replace.
In questo modo il crawler di google perderebbe meno tempo a scansionare e reindirizzare questi indirizzi inutili.. cosa ne dite?
Esiste una guida per fare ciò? -
@ste981 ha detto in Indirizzi con HTTP:
Un saluto a tutti.
Con un analisi Seo tramite Screaming Frog sono emersi indirizzi duplicati: con http e con https e con suffisso .html e senza.
Sono subito andato ad attivare l'opzione Forza HTTPS, (ora non sono più accessibili le HTTP), ma è necessario scrivere anche altri codici nel file .htaccess per il reindirizzamento delle pagine da HTTP a HTTPS? O è sufficiente l'opzione da backend?Ciao, per la questione HTTPS ti basta attivare l'opzione in configurazione globale, ci penserà lui a fare i redirect
Inoltre ho aggiunto questo codice nel .htaccess che reindirizza gli URL senza suffisso .html a cm CON suffisso (io uso il suffisso e ho notato che Joomla apriva anche tutte le pagine senza meterlo il suffisso .html).
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteCond %{REQUEST_URI} !.html$
RewriteRule ^(.*)$ /$1.html [R,L]Il codice dovrebbe andare bene. Su un sito che gestivo e avevo il tuo stesso problema avevo aggiunto questo:
RewriteCond %{REQUEST_FILENAME} !-f RewriteCond %{REQUEST_FILENAME} !-d RewriteCond %{REQUEST_URI} !\.html$ RewriteRule ^(.*)$ /$1.html [R=301,L]
E' un po' diverso dal tuo ma mi sembra che le regex siano più o meno equivalenti
Un altra questione importante che mi dice chi ha fatto l'analisi: oltre il redirect da HTTP a HTTPS bisognerebbe andare ad eliminare proprio gli url HTTP nel database con un search and replace.
In questo modo il crawler di google perderebbe meno tempo a scansionare e reindirizzare questi indirizzi inutili.. cosa ne dite?
Esiste una guida per fare ciò?Questa secondo me è un suggerimento valido solo per chi ha Wordpress perchè
quegli sciaguratquei birbanti di WP quando crei un link nell'editor ti mette l'url assoluto con anche il nome del dominio. Quindi se nell'URL c'è HTTP allora te lo tieni sempre e comunque.
Joomla è più furbo e tutti i link sono salvati in formato non-sef (index.php?valore&valore&valore...
) e tutto il resto (URL friendly, dominio ecc..) viene aggiunto dal router, quindi anche l'HTTPS viene aggiunto in automatico.Ovviamente il discorso cambia se tu, nel corso degli anni, hai inserito negli articoli o moduli o simili dei percorsi assoluti. In quel caso sarebbe meglio cambiarli ma sinceramente, a meno che non siano migliaia, lascerei perdere, non è quello che brucia il crawler budget.
Ciao!
-
@jabba ha detto in Indirizzi con HTTP:
Questa secondo me è un suggerimento valido solo per chi ha Wordpress perchè
quegli sciaguratquei birbanti di WP quando crei un link nell'editor ti mette l'url assoluto con anche il nome del dominio. Quindi se nell'URL c'è HTTP allora te lo tieni sempre e comunque.
Joomla è più furbo e tutti i link sono salvati in formato non-sef (index.php?valore&valore&valore...
) e tutto il resto (URL friendly, dominio ecc..) viene aggiunto dal router, quindi anche l'HTTPS viene aggiunto in automatico.Ovviamente il discorso cambia se tu, nel corso degli anni, hai inserito negli articoli o moduli o simili dei percorsi assoluti. In quel caso sarebbe meglio cambiarli ma sinceramente, a meno che non siano migliaia, lascerei perdere, non è quello che brucia il crawler budget.
Ciao!
Grazie per le informazioni!
Tu stai parlando di link nelle pagine, io mi riferivo ad indirizzi presenti e trovati nel codice del sito:
Ho circa 200 indirizzi di pagine sul sito, ma Screaming Frog trova circa 3180 percorsi in HTTP nel codice del sito (comprese le 200 pagine). Questi percorsi sono:Link diretti alle immagini (1170)
dipendenze Javascript (414)
dipendenze CSS (650)
dipendenze sconosciute Javascript e CSS (640)
(tra quelle, 650 javascript/css sono bloccati da Robot.txt con Disallow alla directory /pluging)Tutti questi numeri sopra sono stati trovati anche in HTTPS e quindi sarebbero il doppio (6200)
Per questo era consigliabile l’eliminazione dal database dei circa 3000 percorsi HTTP per alleggerire Googlebot il quale ci passerebbe comunque ogni volta sopra nonostante il redirect massivo
-
Sisi capisco quello che intendi. Quello che volevo dirti è che quei link (a immagini, librerie, ecc...), su Joomla, sono gestiti dinamicamente dal router. Quindi dal momento che attivi l'HTTPS nel pannello di controllo tutti queli link diventano automatico in HTTPS a meno che non siano fisicamente scritti all'interno del database, cosa che però dubito sia avvenuta se hai sempre inserito contenuti (link, immagini, video, ecc..) con gli editor di joomla e non a mano direttamente nel codice.
-
@jabba ha detto in Indirizzi con HTTP:
Sisi capisco quello che intendi. Quello che volevo dirti è che quei link (a immagini, librerie, ecc...), su Joomla, sono gestiti dinamicamente dal router. Quindi dal momento che attivi l'HTTPS nel pannello di controllo tutti queli link diventano automatico in HTTPS a meno che non siano fisicamente scritti all'interno del database, cosa che però dubito sia avvenuta se hai sempre inserito contenuti (link, immagini, video, ecc..) con gli editor di joomla e non a mano direttamente nel codice.
No, scritto a mano nel codice nulla.
Ok, quindi l'attivazione dell'HTTPS non è un redirect, ma una sotituzione di tutti gli indirizzi del sito. (E quindi Google non vedrà mai versioni HTTP)Per stare in tema di Googlebot, secondo te è un buon file Robots.txt questo?
Ho messo Allow per il componente e-commerce, che altrimenti sarebbe rimasto in Disallow: /components/User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
Allow: /components/com_jshopping/
Allow: /components/com_jshopping/files/img_products/
Allow: /components/com_jshopping/files/img_categories/ -
Si il robots è corretto. Ti consiglio di mettere in fondo anche l'url della sitemap. Tipo
User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Allow: /components/com_jshopping/ Allow: /components/com_jshopping/files/img_products/ Allow: /components/com_jshopping/files/img_categories/ Sitemap: https://www.urldelsito.ext/sitemap.xml
In questo modo favorisci il crawling a tutti i bot (a Google dovresti già avergliela inviata tramite Search Console).
Ciao
-
@jabba ha detto:
Si il robots è corretto. Ti consiglio di mettere in fondo anche l'url della sitemap. Tipo In questo modo favorisci il crawling a tutti i bot (a Google dovresti già avergliela inviata tramite Search Console).
Ciao
Sì grazie, c'è anche la sitemap in fondo