Jak działa wyszukiwarka internetowa

Jak działa wyszukiwarka internetowa

24 kwietnia 2016 3 przez admin

Podstawową kwestią działania wyszukiwarek jest metoda pozyskiwania danych do swojej bazy. Według VeriSign, ostatni kwartał 2012 roku przyniósł nam ponad 6 mln nowych nazw domen. W 2013 roku łączna ilość domen wynosiła 252 miliony i ciągnie rośnie.

Łatwiejsze wyobrażenie ogromu informacji w Internecie, umożliwi nam przeglądnięcie jak dużo dzieje się podczas jednej minuty. Użytkownicy Internetu przesyłają 639 800 GB danych, powstaje 320 nowych kont na Twitterze, oraz 100 tys. nowych tweetów. Powstaje też 6 nowych artykułów na Wikipedii, przybywa 100 kont na LinkedIn, oraz 30 godzin wideo na YouTube.

Jak zatem zebrać tak ogromną ilość danych? Oczywiście, niewykonalne było by robienie tego ręcznie, dlatego wiele zadań wykonują programy, które nazywamy popularnie robotami. Ich zadaniem jest przeglądanie sieci i zbieranie, oraz katalogowanie danych, posługując się ściśle określonymi mechanizmami, nazywanymi algorytmami.

Działanie robota polega na analizowaniu zawartości strony i wysłaniu jej treści do bazy danych. Na koniec analizy, robot szuka odsyłaczy do innych stron i podąża za nimi, przechodząc do kolejnej podstrony lub innej witryny, zaczynając proces analizowania zawartości od nowa. Jak łatwo można zauważyć, proces ten przebiega sprawniej, gdy na danej witrynie znajduje się wiele odsyłaczy do innych witryn. Przykładem takiej strony może być katalog Onet.pl, który posiada ponad półtora miliona podstron w bazie Google.

Czynniki brane pod uwagę przy tworzeniu rankingu stron przez poszczególne wyszukiwarki są pilnie strzeżoną tajemnicą. Możemy jedynie domyślać się, które elementy są brane pod uwagę, oraz jaka jest ich waga. Musimy pamiętać, że same elementy, jak i ich waga ciągle się zmieniają.

Aby przyśpieszyć zbieranie danych, jednocześnie jest uruchomionych wiele robotów. Dane są zbierane w bazie, która jest aktualizowana z różną częstotliwością dla różnych stron. Baza ta jest udostępniana użytkownikom poprzez wyszukiwarkę. Możemy więc założyć, że to co znajdujemy dzięki wyszukiwarce to stan z przed godziny, dnia, tygodnia, lub nawet miesiąca. W miarę rozwoju strony, jej aktualizacja jest przeprowadzana coraz sprawniej. Dzieje się tak ze względu na wiele czynników takich jak np.:

  • Ilość linków przychodzących do strony. Im większa ich ilość, tym częściej robot odnajdzie dany link i podąży za nim, odświeżając informacje o naszej stronie w swojej bazie.
  • Dobra nawigacja wewnętrzna. Robot musi mieć możliwość bezproblemowego dotarcia do każdej podstrony naszej witryny.

Istnieje też możliwość ręcznego wprowadzenia adresu naszej strony do wyszukiwarki. Odbywa się to poprzez specjalny formularz. Dzięki temu zabiegowi nasz adres trafi do kolejki adresów oczekujących na wizytę robota wyszukiwarki Google. Niestety wielu twórców stron nadużywa tego narzędzia, posługując się automatami wysyła setki, a nawet tysiące adresów stron, które niejednokrotnie są wątpliwej jakości. Takie działanie powoduje zapchanie listy stron oczekujących, wydłużając czas oczekiwania na wizytę robota nawet do kilku tygodni.

W celu przyśpieszenia indeksacji wyszukiwarka Google udostępniła narzędzie Google Site Map – https://www.google.com/webmasters/sitemaps/. Pozwala ono na stworzenie mapy strony, w postaci listy wszystkich podstron naszej witryny i przesłanie jej do systemu Google. W teorii powinno to przyśpieszyć indeksację.

Coraz częściej zawartość bazy wyszukiwarki Google, monitorowana jest przez ludzi. Wyszukują oni przypadków nadużyć i zastosowania niedozwolonych praktyk. Karą za tego typu poczynania jest zazwyczaj usunięcie z bazy wyszukiwarki Google i w konsekwencji niewyświetlanie się w wynikach wyszukiwania.

Źródła:

  • http://www.komputerswiat.pl/nowosci/internet/2013/15/ile-nazw-domen-dziala-w-internecie.aspx
  • http://www.komputerswiat.pl/nowosci/internet/2012/36/minuta-w-sieci-%28infografika%29.aspx