Jednym z największych wyzwań stojących przed Google, jeśli chodzi o wyszukiwanie semantyczne jest identyfikacja i pozyskiwanie podmiotów (entities), ich atrybutów oraz innych informacji ze źródeł danych jakimi są strony internetowe. Informacje takie zwykle nie posiadają odpowiedniej struktury i nie są wolne od błędów. Aktualny Wykres Wiedzy (Knowledge Graph) stanowiący pewnego rodzaju „centrum semantyczne Google” w dużej mierze bazuje na ustrukturyzowanej treści z Wikidata, Wikimedia oraz Wikipedia.
Przetwarzanie częściowo ustrukturyzowanych danych
Częściowo ustrukturyzowane dane to informacje, które nie są wyraźnie oznaczone zgodnie z ogólnymi standardami oznaczania, takimi jak RDF albo schema.org. Posiadają one strukturę domniemaną, z której ustrukturyzowane dane można pozyskiwać poprzez obejście.
Pozyskiwanie informacji ze źródeł częściowo ustrukturyzowanych danych może zostać przeprowadzone przy pomocy ekstraktora bazującego na wzorze. Jest on w stanie identyfikować sekcje na podstawie powtarzającej się takiej samej strukturze elementów składowych, z których pozyskiwane są informacje.
Przetwarzanie częściowo ustrukturyzowanych danych z Wikipedii
Pozyskiwanie informacji ze źródeł częściowo ustrukturyzowanych danych jest przeprowadzane na bazie specjalnego ekstraktora bazującego na wzorach. Jest on w stanie zidentyfikować sekcje treści bazując na powtarzającej się strukturze i pozyskiwać z nich informacje.
Wikipedia jest bardzo atrakcyjnym źródłem informacji ze względu na podobną, powtarzalną strukturę w każdym wpisie. Ponadto wpisy są regularnie sprawdzane przez osoby zajmujące się edycją. Dodatkowo Wikipedia bazuje na MediaWiki CMS. W związku z tym treści są dostarczane z podstawowymi znacznikami i mogą być łatwo pobierane za pomocą XML, SQL albo jako html.
Struktura typowego artykułu Wikipedii stanowi wzór do klasyfikacji podmiotów (Entities) pod względem kategorii, identyfikacji atrybutów oraz pozyskiwania informacji dla przedstawionych fragmentów i paneli wiedzy.
Bardzo podobna lub wręcz identyczna struktura konkretnego artykułu w Wikipedii prezentuje się np. następująco:
Tytuł każdego artykułu w Wikipedii odzwierciedla nazwę podmiotu. W przypadku niejednoznacznych tytułów, rodzaj podmiotu jest dodawany do tytułu, aby wyraźnie odróżnić go od innych podmiotów o tej samej nazwie ale innym znaczeniu.
Pole informacji znajdujące się w prawym górnym rogu artykułu Wikipedii zapewnia ustrukturyzowane dane dotyczące określonego podmiotu. Treść wprowadzająca dość często znajduje się w panelu wiedzy dla danego podmiotu.
Linki wewnętrzne znajdujące się w Wikipedii dostarczają Google informacji na temat tego które przyszłe tematy lub inne podmioty są powiązane semantycznie z danym pomiotem.
Wykorzystanie stron specjalnych Wikipedii przez Google
Oczywiście Google wykorzystują do swoich celów nie tylko główną treść artykułu i jego elementy, ale również strony specjalne:
- Strony z listą i kategoriami pozwalają na tworzenie klasyfikacji bazującej na klasach i typach podmiotów.
- Strony specjalne umożliwiają identyfikację synonimów.
- Strony z wyjaśnieniami terminologii pozwalają na identyfikację wielu znaczeń.
Pozyskiwanie atrybutów z Wikipedii jako punktu początkowego
Technologia opracowana przez Google jest nakierowana na stałe pozyskiwanie nowych faktów i atrybutów dotyczących podmiotu. Metoda ta rozpoczyna się od pozyskania ze strony atrybutu oraz wartości. Przykładowo wiek jest atrybutem, a liczba 43 wartością. Jeśli do tego pojawi się informacja, że dana osoba jest na przykład aktorem, Google mogą ustalić, że podmiotem jest człowiek.
W czasie pozyskiwania danych przez moduł importujący nie przeprowadzane są żadne kontrole pod względem jakości. To dlatego dokument początkowy musi charakteryzować się wysoką jakością i poprawnością. Ważność pozyskanych informacji zależy głównie od danych podstawowych. Dlatego powinny być wykorzystywane wiarygodne źródła informacji, takie jak Wikipedia.
Jak gromadzone są informacje na temat podmiotów (Entities)?
Obecnie wygląda na to, że Google zasadniczo pozyskują wszystkie informacje o podmiotach (Entities) ze źródeł danych ustrukturyzowanych zgodnych z RDF oraz ze źródeł częściowo ustrukturyzowanych, takich jak Wikipedia.
Aby zebrać informacje, takie jak atrybuty, rodzaje i klasy Entities oraz powiązania z sąsiadującymi Entities, w pierwszej kolejności musi zostać stworzony Entity profile (profil podmiotu). Profil jest wcześniej oznakowany nazwą Entity oraz adresem URL, co pozwala na unikalne przypisanie.
Następnie profil jest uzupełniany o informacje na temat danego Entity z różnych źródeł danych. Przykładowo informacje mogą pochodzić z Wikipedii lub DBpedia, a podmiot (Entity) jest połączony z takim samym entity we Freebase.
Informacje z Wikipedii we fragmentach (Featured Snippets) oraz panelach wiedzy
W związku ze zwiększającym się znaczeniem wyszukiwania głosowego, nowoczesne wyszukiwarki starają się dostarczać rezultaty natychmiast, bez konieczności przeglądania wielu stron z wynikami przez użytkownika. Aby zapewnić takie szybkie działanie, należy określić znaczenie poszukiwanego terminu oraz właściwe informacje muszą zostać pozyskane z ustrukturyzowanych i nieustrukturyzowanych źródeł danych.
Rozwiązaniem tego problemu jest pozyskiwanie podmiotów (Entity Retrieval). Jego zadaniem jest identyfikacja odpowiednich podmiotów w katalogu w odpowiedzi na zapytanie pisemne lub głosowe. Następnie są one posortowane w formie listy pod względem poziomu dopasowania do zapytania. Aby przekazać odpowiedź potrzebny jest fragment, który krótko i treściwie wyjaśnia dany podmiot (Entity).
Takie opisy są znane i obserwowane w formie fragmentów na listach wyszukiwania (Featured Snippets) oraz w formie opisów podmiotów w panelach wiedzy. Najczęściej są one pozyskiwane z Wikipedii lub DBpedii. Czasami w Featured Snippets informacje są pozyskiwane z nieustrukturyzowanych źródeł danych, takich jak glosariusze, blogi, magazyny, itp. Na ten moment Google jednak preferują opisy z Wikipedii, a inne źródła stosują, gdy Wikipedia nie oferuje żadnych informacji i trzeba czymś „zapełnić lukę”.
Pod względem fragmentów, Google ufają opisom z Wikipedii. Jednym z powodów jest przejrzysta struktura znajdujących się tam treści. Artykuły takie stanowią zwięzły i treściwy opis konkretnych tematów.
To jak Google pozyskują informacje z nieustrukturyzowanych treści na stronach internetowych do Featured Snippets jest przedmiotem spekulacji. Istnieje wiele różnych teorii. Być może chodzi tutaj o skupienie się na przedmiocie, orzeczeniu i podmiocie pojawiającym się w paragrafie.
Częstotliwość wykorzystywania informacji z Wikipedii we Featured Snippets pozwala zakładać, że Google nie są jeszcze zadowolone z rezultatów pozyskiwania nieustrukturyzowanych danych lub próby manipulowania danymi wykraczają jeszcze poza kontrolę Google.
Wikipedia jako dowód na istnienie Entities
Najpewniejszym sposobem postrzegania czegoś jako Entity jest wpis w Wikipedii, Wikidata lub przekazanie go do Google.
Google zastrzegają sobie jednak prawo do sprawdzenia wpisów i usuwania ich z baz danych jeśli we wpisie Wikidata nie będą się znajdować odpowiednie źródła odniesienia. Aby zapobiec manipulacji wpis musi zostać zweryfikowany przynajmniej na bazie 1/3 źródeł. Strona w Wikipedii lub wpis Wikimedia wydaje się być tutaj ważnym źródłem.
W Wikidata atrybuty Entity (podmiotu) są raczej wypunktowane, natomiast Wikipedia opisuje Entity w szczegółowym tekście. Innymi słowy wpis w Wikipedia stanowi szczegółowy opis Entity i jako zewnętrzny dokument stanowi ważne źródło dla Knowledge Graph (graf wiedzy).
Wpisy w Wikipedii odgrywają dominującą rolę w wielu polach Knowledge Graph, jako źródło informacji i są wykorzystywane przez Google wraz z wpisami Wikidata jako dowód właściwości Entity. Bez wpisu w Wikipedii lub Wikidata nie pojawia się pole Entity czy też Knowledge Panel (panel wiedzy).
Trzeba jednak pamiętać, że wpis w Wikipedii jest odrzucany w przypadku większości firm i osób, ponieważ w oczach wielu użytkowników Wikipedii takie wpisy posiadają niskie znaczenie społeczne. Przydatną alternatywą jest stworzenie profilu w Wikidata. Częstotliwość i powtarzalność spójnych danych w różnych zaufanych źródłach ułatwia Google dokładniejszą identyfikację Entities.