Паякът и индексът (четвърта последна част)
Публикувано от lilacor на 5 май, 2008
Keyword Density, Term Frequency & Term Weight
Повтаряемостта на изразите (Term Frequency – TF) е мерна единица за това колко често се появява определена дума в даден документ (уеб страница). Изразите, които са употребявани най-често в даден текст, се считат за най-важните в него. Ако една дума се среща във всеки (или почти във всеки) документ, тогава едва ли можете да научите кой знае колко за цялостното съдържание на страницата от нея. Следователно, често повтарящите се думи в уеб страниците имат малка или никаква стойност за търсачките, тъй като те ги игнорират по подобие на стоп-фразите (например: the, and, или or).
Рядко употребяваните думи и изрази, такива, които присъстват по-рядко в цялостното съдържание на уеб сайта, имат много по-голям signal-to-noise рейтинг. Този рейтинг представлява най-общо съотношението между качествения контент и боклука (реклами, банери, повтарящо се съдържание) и може в най-голяма степен да ви ориентира за какво се отнася съответният документ.
Инверсионната честота (Inverse Document Frequency – IDF) може да бъде използвана за по-нататъшно определяне на стойността на повтаряемостта на изразите (TF), преценявайки колко начесто са разположени те в съдържанието на документа. Думите и изразите, които са по-малко на брой, и съответно се срещат по-рядко в съдържанието на сайта, обикновено могат да ви кажат много повече за него, отколкото тези, които се срещат почти навсякъде из страниците му.
Когато хората преценяват честотата на употреба на дадени думи или фрази, те обикновено пропускат да забележат други важни фактори, като например описаните дотук Inverse Document Frequency, Index Normalization, Word Proximity , докато търсещите машини отчитат различните видове елементи: удебелен шрифт, заглавия, линкове и др.
Търсачките може също да използват други технологии, например скритото семантично индексиране (latent semantic indexing), което представлява математичен модел за оценка на обвързаността на страниците. Google сканира милиони книги от университетски библиотеки. Колкото идеята на този процес е да се помага на хората в търсенето и намирането на информация, толкова и то помага на Google да „разбере” лингвистичните (словесен) модели.
Ако създадете нарочно уеб страница натъпкана от горе до долу с една и съща ключова дума или израз, без да добавяте никакво друго съдържание в нея, много е вероятно да се окаже, че няма да можете да я намерите с нито една търсачка или в най-добрия случай ще я намерите, но накрая на резултатите, тъй като търсещите машини ще е оценят като крайно нерелевантна. Идеята е да пишете по естествен начин, като използвате различни синоними на избраните от вас ключови думи и да структурирате добре страниците на сайта си.
Multiple Reverse Indexes (Многократни обратни индекси)
Търсачките могат да използват многократни обратни индекси (Multiple Reverse Indexes) за различен контент. Повечето от настоящите търсещи алгоритми са склонни да отдават по-голямо значение на заглавията на страниците и на линк текстовете, отколкото на останалите части от уеб съдържанието.
За повечето търсения, търсещите машини могат да намерят отговор на запитването ви само като обходят заглавията и линковете в документите, без да имат нужда да да губят излишно време и да обхождат цялостното им съдържание. Всичко, което може да спести време от компютърни цикли, без това да се отрази негативно на релевантността на резултатите, е нещо, за което можете изцяло да се доверите на търсачките.
След като най-релевантните документи са събрани, те могат да бъдат сортирани повторно на база на взаимната им обвързаност или други фактори. Около 50 % от запитванията, отправени към търсачките, са уникални и по-дълги, отколкото е необходимо, което налага да се поддържа огромна база от аналогични съвпадащи документи, които да удовлетворят всякакви желания от страна на интернет потребителите.
Очаквайте следващата тема Search Interface (Търсещ интерфейс)…