Пароли, адреса, явки

LearningApps Логин: stu11a66 Пароль: blatt36

воскресенье, 12 ноября 2017 г.

Поисковые системы


Пошукові каталоги являють собою довідники, в яких всі сайти знаходяться в алфавітному або тематичному порядку. Відмінністю каталогів від пошукових систем є те, що каталоги не використовують павуків, які шукають сторінки по всьому інтернету.

У той час як пошукові машини приймають майже будь-які сайти, без вимог до якості, каталоги ж, як правило, висувають вимоги до якості та змісту сайту. Так як в найбільш великих і відомих каталогах сайти перевіряються людьми, то низькоякісні сайти не потрапляють в базу даних. У каталогах реєструють зазвичай тільки головну сторінку сайту (ще одна відмінність від пошуковиків).

Історія створення першого каталогу

 У 1994 році, студенти Стенфордського університету, Джеррі Янг і Девід Філо, готувалися до захисту дисертації в галузі комп'ютерного проектування інтегральних схем. Для цього їм доводилося багато часу проводити в мережі Інтернет, в пошуках потрібної інформації і збирати посилання. Списки з посиланнями росли, потім Янг і Філо закинули дисертацію і взялися виключно колекціонувати посилання. До середини 1994 року їхня стало багато, вони відсортували посилання за категоріями, потім в категоріях посилань стало теж багато, з'явилися підкатегорії.


І хто б міг подумати, що у найуспішнішого проекту www.yahoo.com власний пошук з'явився відносно недавно! Але список Джеррі і Девіда не був призначений для загального огляду - він складався виключно для друзів. Час минав, а відвідуваність все росла і росла. Адреса сайту пішов по руках ....

Першим кроком до успіху стало нове, такого назва - Yahoo !. Дотримуючись побажань користувачів, творці www.Yahoo.com, стали перетворювати сайт. З'явилися нові категорії, і розділи "What's New" і "What's Cool". До кінця 1994 Янг і Філо закинули свої дисертації і повністю віддалися роботі над пошуковою системою Яху.

В цей час на дорозі з'явилася компанія Netscape, яка запропонувала ресурси для утримання пошукової системи Yahoo !. В результаті у Yahoo! з'явився свій домен - yahoo.com, і каталог переїхав на 10 станцій Silicon Graphics Indy. Приблизно в цей же час Yahoo! отримав і першого інвестора - інвестиційний фонд "Seqouia Capital". Джеррі і Янг обзавелися офісами і найняли енергійну команду web-серферів. Темп росту склав, в середньому, 1000 сторінок в день.

Детальніше про історію Yahoo і Google дивіться в документальному фільмі "Завантаження: справжня історія інтернету"





Популярные каталоги:

Яндекс-Каталог
Rambler Top100
Апорт-Каталог

Каталог Google

Пошукова система - це комп'ютерна система, призначена для пошуку інформації. Одне з найбільш відомих застосувань пошукових систем - веб-сервіси для пошуку текстової або графічної інформації в інтернеті. Існують також системи, здатні шукати файли на FTP-серверах, товари в інтернет-магазинах, інформацію в групах новин Usenet.

Для пошуку інформації за допомогою пошукової системи користувач формулює запит. Робота пошукової системи полягає в тому, щоб за запитом користувача знайти документи, що містять або зазначені ключові слова, або слова, будь-яким чином пов'язані з ключовими словами. При цьому пошукова система генерує сторінку результатів пошуку. Така пошукова видача може містити різні типи результатів, наприклад: сторінки, зображення, аудіофайли. Деякі пошукові системи також витягають інформацію з відповідних баз даних і каталогів ресурсів в Інтернеті.

Пошукова система тим краще, чим більше документів, релевантних запиту користувача, вона буде повертати. Результати пошуку можуть ставати менш релевантними через особливості алгоритмів або внаслідок людського фактора. Станом на 2015 рік найпопулярнішою пошуковою системою в світі є Google, однак є країни, де користувачі віддали перевагу іншим пошуковикам. Так, наприклад, в Росії «Яндекс» обганяє Google більше, ніж на 10%.

Як працює пошукова система?

За методами пошуку і обслуговування поділяють чотири типи пошукових систем:
  • системи, що використовують пошукові роботи
  • мета-системи.
  • системи, керовані людиною
  • гібридні системи

В архітектуру пошукової системи зазвичай входять:
  • пошуковий робот, який збирає інформацію з сайтів мережі Інтернет або з інших документів, 
  • індексатор, що забезпечує швидкий пошук по накопиченої інформації, і 
  • пошуковик - графічний інтерфейс для роботи користувача.
Як правило, системи працюють поетапно. Спочатку пошуковий робот отримує контент, потім індексатор генерує доступний для пошуку індекс, і нарешті, пошуковик забезпечує функціональність для пошуку індексованих даних. Щоб оновити пошукову систему, цей цикл індексації виконується повторно.

Пошукові системи працюють, зберігаючи інформацію про багатьох веб-сторінках, які вони отримують з HTML сторінок. Пошуковий робот або «краулер» - програма, яка автоматично проходить по всіх посиланнях, знайденим на сторінці, і виділяє їх. Краулер, грунтуючись на посиланнях або виходячи із заздалегідь заданого списку адрес, здійснює пошук нових документів, ще не відомих пошуковій системі. Власник сайту може виключити певні сторінки за допомогою robots.txt, використовуючи який можна заборонити індексацію файлів, сторінок або каталогів сайту.

Пошукова система аналізує вміст кожної сторінки для подальшого індексування. Слова можуть бути вилучені із заголовків, тексту сторінки або спеціальних полів - метатегов. Індексатор - це модуль, який аналізує сторінку, попередньо розбивши її на частини, застосовуючи власні лексичні та морфологічні алгоритми. Всі елементи веб-сторінки вичленяються і аналізуються окремо. Дані про веб-сторінках зберігаються в індексному базі даних для використання в повторних запитів. Індекс дозволяє швидко знаходити інформацію за запитом користувача.Ряд пошукових систем, подібних Google, зберігають вихідну сторінку цілком або її частину, так званий кеш, а також різну інформацію про веб-сторінці. Інші системи, подібні системі AltaVista, зберігають кожне слово кожної знайденої сторінки.

Використання кешу допомагає прискорити вилучення інформації з уже відвіданих сторінок. Кешовані сторінки завжди містять той текст, який користувач задав в пошуковому запиті. Це може бути корисно в тому випадку, коли веб-сторінка оновилася, тобто вже не містить текст запиту користувача, а сторінка в кеші ще стара. Ця ситуація пов'язана з втратою посилань і дружнім по відношенню до користувача підходом Google. Це передбачає видачу з кешу коротких фрагментів тексту, що містять текст запиту.

Діє принцип найменшого подиву, користувач зазвичай очікує побачити шукані слова в текстах отриманих сторінок. Крім того, що використання кешованих сторінок прискорює пошук, сторінки в кеші можуть містити таку інформацію, яка вже ніде більше не буде доступною.

Пошуковик працює з вихідними файлами, отриманими від індексатора. Пошуковик приймає запити користувачів, обробляє їх за допомогою індексу і повертає результати пошуку.

Найпопулярніші пошукові системи в світі:

Пошукова система
Частка ринку в липні 2014
Частка ринку в жовтні 2014
68,69 %
58.01 %
17,17 %
29.06 %
6.22 %
8.01 %
6.74 %
4.01 %
0,13 %
0.21 %
0.22 %
0,00 %
0,13 %
0,10 %


Корисність пошукової системи залежить від релевантності знайдених нею сторінок. Релевантність в пошуку-відповідність пошукового запиту і пошукового образу документа. У більш загальному сенсі одне з найбільш близьких поняттю «релевантності» - «адекватність», тобто не тільки оцінка ступеня відповідності, але і ступеня практичної застосовності результату.

Хоч мільйони веб-сторінок і можуть включати якесь слово або фразу, але одні з них можуть бути більш релевантні, популярні або авторитетні, ніж інші. Більшість пошукових систем використовує методи ранжирування, щоб вивести в початок списку «кращі» результати. Пошукові системи вирішують, які сторінки більш релевантні, і в якому порядку повинні бути показані результати, по-різному.

З тим, як працює гугловський алгоритм PageRank, вам допоможе інфографіка (на жаль, англійською, можна збільшити):


Ще одна інфографіка пояснює, які чинники впливають на релевантність сторінок в Google:





З історією Google ви можете познайомитися в фільмі "Погляд зсередини: Google":





Також рекомендую вашій увазі лекцію Сергія Бріна і Ларрі Пейджа на конференції TED:



Комментариев нет:

Отправить комментарий