paxik's point of view

Pondělí, červen 12, 2006

Google Bias - co dělá vyhledávač s poznáváním a komunikací na internetu? A co s tím?

Dnes trochu teoretický článek pro všechny, kdo by se rádi naučili lépe vyhledávat na internetu a chtějí pochopit, jak ten vyhledávač vlastně řadí výsledky a proč někteří lidé nejsou z Googlu až tak odvázaní. Je mi jasné, že článek neřekne expertům přílš nového. Vy, co nevíte, jak vyhledávače fungují, zde určitě něco zajímavého najdete.

Dalo by se říci, že součástí mého (externího) zaměstnání v redakci Technetu je lelkování po internetových stránkách, blozích a pavučinových zákoutích. Prosévání internetových stránek, abych objevil něco zajímavého a neobvyklého. Někdy vcelku zajímavá činnost, když se to nepřehání. Napadlo mě přitom, že celý internet je vlastně takové osudí, které se převaluje a na povrch se dostávají ty stránky, kterým je to umožňěno. Přesto je zatím málo demokratičtějších míst - během půl hodiny si můžete zařídit vlastní stránky a kdokoli na internetu, z jakéhokoli místa na zemi, se na ně může podívat... a zjistit, že to není to, co hledal, a dál bloudit internetem.

Proto existují katalogy, vyhledávače, databáze odkazů a další stránky, které mají pomoci se v tom mumraji vyznat. A nejen díky vyhledávačům, ale i díky odkazům na jednotlivých, samostatně nedůležitých stránkách, je možné dostat se k těm kvalitním, nebo aspoň všeobecně uznávaným stránkám, přestože na první pohled mají stejnou startovní pozici.

Vyhledávače, jako např. Google nebo Seznam, totiž vyhledávají podle klíčových slov. Dřív to fungovalo extrémě jednoduše - zadali jste třeba "počasí" a které stránka obsahovala toto slovo, ta se ve výsledcích objevila. Pokud některá stránka obsahovala slovo počasí vícekrát, objevila se "výše", tedy na začátku. Postupně se ukázalo, že tento systém je žalostně snadno zneužitelný. Dnes tedy vyhledávače posuzují i odkazy, které na stránku vedou. Pokud tedy na stránku www.mapy.cz odkazuje hodně lidí, objeví se ve vyhledávání vysoko. Každá stránka si tak nese informaci o tom, jak je důležitá pro to které slovo (třeba "mapy"), podle toho, jaké stránky (stránky, které obsahují slovo mapy) na ni odkazují. Čím důležitější jsou tyto odkazující stránky, tím lépe.

A proto hrají takovou roli i blogy a osobní stránky, diskuze a jiné, neoficiální stránky. Podle toho, kam odkazují, se cílové stránce zvedá skóre (např Page Rank v případě Google).

A teď ten problém - říkám tomu pracovně Google Bias

Představte si, že potřebujete narychlo někam dát odkaz na stránku o mapách. Zkrátka píšete online pozvánku nebo blogový příspěvek, a chcete odkázat lidi někam, kde si mapu najdou. Dáte do vyhledávače "mapy", klepnete na první výsledek, zdá se dobrý a tak jej použijete. Takto se zachová naprostá většina autorů, především, pokud jsou v časové tísni. Žádný problém, říkáte si?

Nezapomeňte, že tímto jsme zároveň posílili pozici námi vybrané stránky, protože jsme na ní vytvořili nový odkaz a tím googlu řekli, že je zase o trošku důležitější. A tím, že je důležitější pro Google, se stránka automaticky v dnešní vyhledávači tvořené realitě skutečně důležitější stává. Takže stránka, která je první, si posiluje první místo bez většího úsilí (ne tak docela, tady by se se mnou určitě někteří hádali).

Jiným příkladem je pravidlo na Wikipedii, které říká, že každé heslo by mělo mít externí odkaz. Jste Wikipedista, právě jste narychlo dopsali článek o "polární záři" a potřebujete externí odkaz. Kouknete do Google, zběžně prohlédnete první dva až tři výsledky a nejlepší z nich odkážete. Wikipedia má velkou váhu (důležitost), co se odkazů týče, a tak vámi vybranou stránku vrátí na dotaz "polární záře" zase o trochu raději...

Douchází k rozevírání nůžek. Google získává (ať už přímo či nepřímo) větší a větší důležitost, a jeho algoritmy nejsou v žádném případě průhledné. Zcela automaticky dochází k utvrzování mainstreamového vnímání, a to v každé oblasti. "Kdo není na první straně v Google, jako by nebyl"

Google svými výsledky často upevňuje mainstreamové vnímání na úkor alternativního.


A to ani nemluvím o tom, že Google má možnost bez větších problémů nebo nebezpečí z prozrazení preferovat jeden názor před druhým. Představte si, kdyby najednou začal na slova "kandidát na prezidenta" záměrně některé z kandidátů vynechávat. Kdyby se rozhodl, že na slova "bionafta" bude lépe vyskakovat článek o tom, jak je ekologie nevýhodná a neekonomická. Už dneska se podobné věci dají dělat Google bombou, ale co když to Google už dělá? Napadají vás další použití?

Jak z toho ven? Napadají mě tyto cesty:
  1. používejte více než jeden zdroj. Neplatí to jen o vyhledávačích, tohle platí takřka úplně o každé oblasti lidského poznání. A když už je víc zdrojů, zkuste i více přístupů. Je to často obohacující. A jak mě znáte, tvrdím, že na přístupu záleží nejvíc:) Tipy na další vyhledávače najdete třeba tady. Doporučuji jyxo.cz pro české vyhledávání.
  2. více dejte na lidský faktor - jistě, lidé jsou omylní, ale nesmysly, jaké dokáže vytvořit omylnými lidmi naprogramovaný neomylný počítač, jsou často daleko horší. A to se nechci zaplétat do teorií spiknutí... Jedním příkladem takového lidského faktoru je Wikipedia, dalším příkladem je del.icio.us. Na čem se shodne velké množství ale samozřejmě ještě nemusí být nejlepší, že :)
  3. Sign on restaurant window: "Great food (50,000 flies can't be wrong)."

  4. čtěte knihy - na internetu nenajdete všechno. A nebo možná jo, ale to něco, co hledáte, bude schováno. Na internetu vlastně neexistují hranice, editoři, vydavatelé. Kdokoli může vydat cokoli. Pro mě jako bloggera je to skvělé (tenhle článek by asi těžko někde vydali:) ale pro mě jako čtenáře je to často otravné. U knihy máte jistotu, že ji přečetl vydavatel a řekl si, že to stojí za to. Neznamená to, že se vám kniha bude líbit. Ale něco to vypovídá. A úplně nejlepší je kniha, kterou vám doporučí přátelé, lepší čtení těžko najdete...
  5. ověřujte - pokud máte možnost, ověřte informace, na které vám záleží, i z jiného zdroje. Nejlépe slovně - proč by měla každá informace být získatelná bez kontaktu s lidma? Kontakt s živými lidma je přece (občas) fajn, ne? :)
  6. poslouchejte ty, co to s vámi myslí dobře - pokud je stránka výdělečná a má zisk z "prodaných názorů", pokud propaguje svoji pravdu kvůli získání nějakých výhod, pokud autor píše, aby dostal zaplaceno... zkuste se poohlédnout jinde. Myslím, že i v knihách a vůbec v životě platí, že se vyplatí věnovat čas tomu (těm), kdo věnují čas vám, kdo mají, co říct.
  7. "Spisovatel je člověk, který má tak rád lidi, že o nich nedokáže mlčet a musí o nich psát."

  8. myslete jako autoři - pokud hledáte informace o věci, která vás zajímá, přemýšlejte, jak by vypadala stránka, kterou hledáte, kdybyste ji měli navrhnout sami. Jaká slova a fráze byste použili, kterým spojením byste se vyhnuli nebo naopak nevyhnuli. A takovou stránku pak hledejte.
  9. berte to s humorem a nadhledem - získejte si širší rozhled, pak snáze odoláte nesmyslným žvástům a odrazíte dotěrné reklamy. Zasmějte se :)
Google je skvělý vyhledávač a byl jsem vždycky nadšený uživatel jeho vychytávek. Ale myslím, že kvůli tomu nemá cenu dělat z něj všemocný nástroj. Protože pak by hrozilo, že by se jím opravdu stal. A na to bych se opravdu netěšil... Místo toho doufám, že lidé si zachovají soudnost a neztratí zájem o skutečné poznání, smysl pro opravdovou krásu a radost z mezilidské komunikace.

4 Comments:

  • V článku Linky na víkend 88 (blog.converter.cz) vyšel (kromě odkazu na tento článek :) také odkaz na rozhovor s (údajným) zaměstnancem Googlu. Velmi zajímavé, pokud se o tento vyhledávač více zajímáte. Ale taky trochu neobjektivní, samozřejmě.

    By pax, at červen 17, 2006 5:17 odp.  

  • To, co je zde psáno, platí ve všech oborech. Autorita získaná publicitou se utvrzuje sama sebou.

    Malé politické strany se do televize nedostanou a proto zůstanou malé.

    Písničky v hitparádách jsou poslouchané právě pro jejich zařazení.

    By dizzyn, at červen 18, 2006 10:13 dop.  

  • Wikipedie má externí odkazy v článcích označené jako rel="nofollow". Pro Google by to měla být stopka...

    By Adam Hauner, at červen 18, 2006 11:00 odp.  

  • ad adam hauner: koukal jsem se dnes na anglickou Wikipedii a rel=nofollow jsem ve zdrojovém kódu stránky nenašel. Vy ano?

    Připouštím, že by to bylo dobré řešení, ale ani to by situaci zcela neřešilo.

    By pax, at červen 18, 2006 11:50 odp.  

Post a Comment

<< Home