Sitemapa to w uproszczeniu plan Twojej witryny, który pomaga wyszukiwarkom znajdować, przeszukiwać i indeksować całą zawartość Twojej witryny. Czyli tak naprawdę zapewnia wyszukiwarkom szczegółowe informacje o wszystkich podstronach, ich relacjach i zawartości. Sitemapa to przede również świetne narzędzie do optymalizacji technicznej strony. Chcesz dowiedzieć się więcej? Sprawdź ten artykuł!
Czym jest sitemapa XML?
XML Sitemap to plik znajdujący się w katalogu macierzystym strony internetowej. Przedstawia on listę podstron z wykorzystaniem protokołu sitemaps.org. Ten protokół możliwy do odczytywania przez roboty został opracowany, aby zapewnić webmasterom znormalizowany sposób przedstawiania stron, które powinny zostać zindeksowane przez wyszukiwarki. Zwykle zawiera dodatkowe dane na temat każdej podstrony.
Takie dodatkowe dane sprawiają, że sitemapa XML jest przydatna w wielu sytuacjach. Mapy stron zawierają wiele narzędzi powiązanych z szerokim zakresem kwestii SEO powiązanych z analizą i indeksowaniem stron.
Przykład prostej struktury sitemapy:
<?xml version="1.0" encoding="UTF-8"?>
<urlset >
<url>
<loc>https://www.example.com/foo.html</loc>
<lastmod>2024-04.01</lastmod>
</url>
</urlset>
- <url> – reprezentuje pojedynczy adres URL (stronę) na stronie internetowej
- <loc> – zawiera adres URL strony, wskazujący na konkretną stronę lub zasób na stronie internetowej
- <lastmod> – określa datę ostatniej modyfikacji strony, co pomaga wyszukiwarkom zrozumieć, kiedy strona została ostatnio zaktualizowana
Istnieje również jeszcze:
- <changefreq> – informacja o częstotliwości zmian na stronie
- <priority> – priorytet adresu URL na stronie określany w skali 0.0 – 1.0
Dyskusja w branży na temat lastmod, changefreq i priority była dość obfita. Szczególnie, że John Muller w 2015 na video hangout on Google+ powiedział, że changefreq i priority nie odgrywają już tak dużej roli w przypadku map witryn. Kwestie lastmod zostawiam otwartą i godną testów. 🙂
Jak sprawdzić, czy witryna ma sitemapę XML?
W większości przypadków, możesz dowiedzieć się, czy strony posiadają sitemapę, dodając sitemap.xml w adresacji URL. Byłoby to więc example.com/sitemap.xml.
Jeśli strona ma zainstalowane Yoast SEO, zauważysz, że jest ślad w postaci example.com/sitemap_index.xml. Sitemap_index.xml jest bazową sitemapą, która zbiera wszystkie indywidualne sitemapy w Twojej witrynie na jednej stronie.
Jak mogę zaktualizować mapę strony XML?
Istnieją sposoby na ręczne tworzenie i aktualizowanie sitemapy. Istnieją również statyczne generatory, które pomogą Ci stworzyć sitemapę w dowolnym momencie – na przykład za pomocą Screaming Froga czy Sitebulb.
Ale znowu, ten proces musiałby się powtarzać za każdym razem, gdy dodajesz lub aktualizujesz treść. Dlatego na rynku znajdują się na przykład wtyczki odpowiedzialne za to, np. Yoast SEO. Warto to rozważyć. W przypadku tej wtyczki warto zwrócić uwagę, aby dodały nam się właściwe adresy, które chcemy indeksować. Warto przejrzeć sitemapę ręcznie.
Przesyłanie nowych adresów URL do Google
Jednym z podstawowych i najbardziej oczywistych zastosowań mapy strony jest przesyłanie adresów URL do wyszukiwarek. Google pozwala również na wysłanie nowej sitemapy po uwzględnieniu nowych adresów URL na swojej stronie internetowej.
Rzeczywiście przesyłanie nowych adresów URL w sitemapie stało się zalecaną metodą zgłaszania Google obecności nowych podstron. Ostrzega to Google przed zmianami na stronie szybciej, w porównaniu ze standardowym harmonogramem Google.
Trzeba jednak pamiętać, że pomimo umieszczenia nowych podstron na nowej sitemapie, Google nie ma obowiązku ich natychmiastowej analizy lub indeksowania.
Łagodzenie efektów głębokiej ścieżki architektury informacji
Analiza i indeksowanie są oparte o linki pomiędzy podstronami. W związku z tym architektura strony jest istotna zarówno dla robotów, jak również użytkowników przeglądających stronę w poszukiwaniu informacji.
Będąc na stronie głównej, czasami należy kliknąć wiele razy, aby dotrzeć do dalszych stron. W tym przypadku mamy do czynienia z podstronami, które są osadzone głęboko w ogólnej architekturze. Wiadomo, że może to mieć wiele konsekwencji:
- głębokość wpływa na ranking poprzez niższą ocenę algorytmu PageRank,
- głębokość wpływa na czas potrzebny do przeanalizowania stron,
- głębokość może uniemożliwić użytkownikom odwiedzanie podstron lub zmniejszyć częstotliwość ich odwiedzin. Co za tym idzie boty wyszukiwarek mogą postąpić podobnie.
W tym przypadku sitemapy mogą być wykorzystywane do przedstawienia botom adresów URL podstron, które znajdują się głęboko w strukturze serwisu. W ten sposób można upewnić się, że Googlebot jest w stanie znaleźć, przeanalizować i zindeksować adresy URL o dużej ścieżce głębokości.
Przyspieszenie deindeksacji wielu adresów URL z Google
Zwykle najszybszym sposobem usuwania pojedynczej strony z indeksu Google jest użycie narzędzia do usuwania adresów URL. Jednak proces ten może być żmudny w przypadku dużej ilości adresów URL do przetworzenia.
Sitemapy stanowią doskonały sposób aktualizowania statusu adresów URL w Google. Mogą one również być wykorzystywane do wskazania, które adresy powinny zostać usunięte z indeksu.
Strony, które mają zostać usunięte z indeksu Google powinny pojawić się w sitemapie XML:
- Jako „noindex”. To wskazuje na zmianę w statusie indeksowania, którą Google ma wziąć pod uwagę.
- Z tagiem < lastmod > wskazującym datę zmiany.
Wykorzystanie sitemapy do znalezienia problemów z indeksowaniem
Jedną z lepszych kwestii związanych z wykorzystaniem sitemapy jest to, że zapewnia ona przybliżony zakres:
- Tego ile stron użytkownik CHCE zaindeksować
- Tego ile stron ZOSTAŁO zaindeksowanych
Przykładowo załóżmy, że dana strona posiada linki do 5000 podstron. Jednak w Google Search Console okazuje się, że zaindeksowanych zostało tylko 2000 podstron.
Oznacza to, że coś jest nie tak. Możliwe, że na tych 5000 podstron znajduje się sporo powielonej treści.
Innymi słowy – Google nie indeksuje ich wszystkich. Możliwe również, że taka ilość stron przekracza crawl budget (budżet indeksowania).
Poszukiwanie osieroconych stron
Orphan pages to podstrony, które nie zostały połączone linkami wewnętrznymi z główną strukturą serwisu. Z tego powodu ich wpływ na SEO i ruch strony może być ograniczony. Takie podstrony powinny zostać usunięte lub posiadać linki prowadzące z podstron wchodzących w skład struktury strony.
Kluczem w zarządzaniu osieroconych stron jest ich znalezienie. Jednym z najlepszych sposobów poszukiwania osieroconych podstron jest porównanie adresów URL w sitemapie z adresami URL, które można znaleźć podczas crawlowania strony. Porównanie crawlowania z sitemapą jest możliwe w Oncrawl. Podobną opcję zapewnia nam również Screaming Frog. Wszystkie informacje na temat osieroconych stron są uwzględnione w standardowych rezultatach analizy.
Zarządzanie zduplikowaną treścią
Po ustaleniu zduplikowanej treści najlepszym sposobem rozwiązania problemu jest zróżnicowanie treści lub wykorzystanie rel=canonical (deklaracji kanonicznych) wskazujących wyszukiwarkom, które z powielonych treści powinny zostać zaindeksowane.
Adresy URL, które mają być wykorzystane jako kanoniczne adresy URL, mogą zostać uwzględnione w sitemapach XML. Umieszczanie niekanonicznych adresów URL nie jest z kolei dobrym pomysłem. Takie działanie jest odradzane również przez Google.
Tworzenie treści dla stron wielojęzyczny
Sitemapy XML wspierają deklaracje hreflang. Istnieje wiele powodów, dla których użytkownik może preferować deklarowanie hreflang w sitemapach, a nie na pojedynczych podstronach. Choćby ograniczone możliwości po stronie deweloperskiej. Google w swojej dokumentacji daje nam to rozwiązanie jako jedno z alternatyw.
Zaprezentowanie Google treści w formie obrazów, materiałów wideo i aktualności
Treść, która miałaby zostać pobrana przez Google Images, Google Videos lub Google News może zostać wskazana w sitemapach. Co prawda nie poprawia to pozycji strony w rankingach, ale może zapewnić szybsze wykrycie treści.
Google zaleca również korzystanie z odpowiadającego znacznika strukturalnego schema.org (ImageObject, VideoObject lub NewsArticle) na stronie wraz z dodanymi ilustracjami, materiałami wideo oraz artykułami z aktualnościami w sitemapach XML.