Архив   Авторы  
Темур Козаев

Поиск будущего
Hi-techБизнес

В Сети идет невидимая война роботов за информацию, которую ищут люди

 

По данным Фонда «Общественное мнение», аудитория Рунета в этом году достигала 44 миллионов человек. При этом 10 процентов из них буквально живут в Сети, развлекаясь, делая покупки и пытаясь найти в Интернете ответы практически на любые вопросы. Однако результаты выдачи поисковых систем зачастую могут вести на страницы с ненужным и даже вредоносным содержимым. Найдутся ли способы этого избежать и что влияет на работу поисковиков? Попробуем разобраться.

Рынок интернет-поиска имеет огромный потенциал для бизнеса. По мнению Аркадия Воложа, главы компании «Яндекс», половина всех денег в Интернете — это поисковая реклама. Несмотря на то, что поиск в Сети такое доходное дело, умение решать подобные задачи есть не у многих. Ведь эффективность работы поисковиков в первую очередь связана с используемыми в них алгоритмами. «Разработка поисковой машины требует серьезного человеческого труда: оценить, правильно поисковик ответил на запрос или нет, понять, что именно привело к неверному результату, научить машину отвечать на данный запрос лучше. Это можно делать вручную, добавляя правила в программный код, а можно автоматически, предъявляя системе набор запросов с вручную подготовленными хорошими ответами», — поясняет Владислав Шабанов, руководитель проекта Поиск@Mail Ru. Игорь Ашманов, генеральный директор компании «Ашманов и партнеры», добавляет, что большинство статистических данных о свойствах текстов, связях между сайтами и поведении пользователей можно получить только опытным путем, что достаточно дорого и долго.

Если в США безусловно лидирует поисковик Google, то российские пользователи Интернета гораздо чаще смотрят на мир «глазами» «Яндекса». Согласно счетчику Liveinternet, в июле 2010 года «Яндексу» принадлежало 64,5 процента поискового рынка, Google — 22,1 процента, а Mail.Ru — 7,4 процента. Рыночную долю поисковика отчасти можно считать и показателем его качества. Если поисковик ищет хорошо, то пользователь экономит время и быстро находит нужное. «Есть специальные методы измерения качества поиска, которые основаны на ручном анализе результатов независимыми экспертами, так называемыми асессорами. Есть и автоматические методы, которые применяет компания «Ашманов и партнеры», — замечает руководитель команды разработчиков Нигма.РФ Виктор Лавренко.

Большинство экспертов сходятся во мнении, что одной из устойчивых тенденций развития поисковых машин становится учет информации о пользователе — история поиска, история серфинга, социально-демографические данные, географическое положение, культурные особенности жителей определенной страны и т. д. С этим согласна и директор компании WebAdvance Елизавета Трибунская, которая полагает, что основной тренд сейчас — персонализация. «По регионам, по интересам, по полу, по кругу друзей, по тому, ищет ли человек с компьютера или с коммуникатора, по наличию детей и уровню образования. Хорошая поисковая система не выдает «страницы, содержащие ключевое слово», а понимает, что надо пользователю, и предоставляет ему именно это», — говорит она.

Важным фактором, существенно влияющим на результаты выдачи поисковиков, является так называемая поисковая оптимизация — SEO (Search Engine Optimization), используемая для платного продвижения коммерческих сайтов в Сети. Если «белая» SEO старается учесть требования поисковиков к качеству оформления и наполнения сайтов, то «черная» не признает никаких правил, а ставит своей единственной целью улучшить ранжирование конкретного ресурса любыми техническими способами, используя для этого недоработки или «слабые» места существующих алгоритмов. По словам главного редактора SEOnews.ru Анны Лебедевой, «SEO-сообщество, объединяющее примерно три сотни компаний и около трех тысяч частных лиц, осваивает рынок объемом не менее 300 миллионов долларов».

Сами поисковые системы разделяют нерелевантные результаты (поисковый спам) на несколько видов. Так, например, дорвеи, которых чаще всего и называют «черной» SEO, подсовывают пользователю страницу, на которой нет ответа на его запрос, зато есть обильная реклама или вирусы. Как отмечает руководитель отдела веб-поиска «Яндекс» Александр Садовский, «долю «черной» оптимизации удается удерживать на низком уровне. В среднем около одного процента страниц, доступных пользователю в первой десятке, относятся к этому типу». Другие типы сайтов, также относящиеся к спаму, хотя и содержат ответ на вопрос пользователя, но пытаются манипулировать результатами поиска. Кроме того, есть сайты, которые обычно релевантны запросу, но для продвижения в результатах выдачи также пытаются «подкрутить» свою позицию при помощи ссылочного «мусора» или иных приемов. Что же касается нормальных коммерческих сайтов, то требования поисковика сводятся к тому, чтобы их оптимизация была направлена на реальное улучшение качества контента в интересах пользователей. Тем не менее именно вопросы обеспечения безопасности и фильтрации нежелательного содержимого, получаемого из Интернета, возможно, и породили разговоры о так называемом государственном поисковике. Сегодня появилась информация, что Минкомсвязи от этой идеи готово отказаться, и многие эксперты этот шаг считают оправданным. Поисковые системы постоянно совершенствуются. «Для того чтобы удовлетворить запросы миллионов пользователей по тысячам разных тематик, потребуется разработка специализированных вертикальных поисковых систем, — рассказывает Павел Черкашин, директор департамента потребительских программных продуктов и онлайн-сервисов Microsoft в России. Тысячи компаний построят свои узкоспециализированные решения, которые будут подключаться к результатам выдачи основных поисковых систем». В том, что поисковик будущего сможет сам отвечать на задаваемые вопросы, уверен Виктор Лавренко: «Пользователям не потребуется перерывать огромное количество ссылок и читать содержимое найденных сайтов». Но и SEO-оптимизаторы не сидят сложа руки. Они знают, где и как «копать», потому что ни один поисковик никогда не поделится, каким образом в нем устроена выдача результатов.

Так ждет ли нас непрекращающаяся война роботов, когда самообучающиеся поисковые машины противостоят автоматически адаптируемым системам продвижения сайтов? В том, что такие войны уже идут, сомнений ни у кого сейчас нет. «С обеих сторон самообучающиеся машины, вычислительные мощности, сотрудничество с учеными-математиками. А поисковики все увеличивают количество факторов, стараясь учитывать как можно больше таких, на которые не может быстро и недорого повлиять оптимизатор», — говорит Елизавета Трибунская. Игорь Ашманов настроен более оптимистично: «В будущем отношения в поиске будут все более «очеловечиваться». Современное кредо, что все в поиске должны делать роботы, постепенно уступит место представлению, что хороший поиск создается не только разработчиками поисковых систем, но и веб-мастерами, поставляющими в Сеть ее основное содержание. Мы надеемся, что будущее поиска — это все же взаимодействие людей, а не война машин». С последним высказыванием трудно не согласиться, поскольку порядком набившие оскомину голливудские сценарии «войны машин» хороши только на экранах кинотеатров, а не в реальной жизни.

Нужен ли Рунету государственный поисковик?

Частные поисковики вполне справляются со своими задачами, и государственный поисковик вряд ли сможет решать их более эффективно. Из всех моих контрагентов наименее комфортны с точки зрения взаимодействия именно государственные организации. Не думаю, что поисковик должен заниматься цензурой. Но, как мама, я считаю, что эффективный фильтр должен быть. Тогда можно быть спокойным, что дети не попадут туда, где мне не хотелось бы их видеть. Для решения этой задачи также нужно понимать, о чем говорится на той или иной странице, но это не задача поиска.


Елизавета Трибунская

ди­рек­тор ком­па­нии WebAdvance

Поисковая система консолидирует огромное количество информации о своих пользователях. Эти данные представляют не только коммерческую ценность. На их основе можно делать множество аналитических исследований, выводы которых очень интересны любой разведке. Поэтому хранение и использование их действительно государственная проблема. Но и любой популярный поисковик представляет собой СМИ с гигантским тиражом, что также интересно всем идеологическим силам. Говорить же о функциях поисковика, которого нет пока даже на бумаге, преждевременно.


Игорь Ашманов

ге­не­раль­ный ди­рек­тор «Нано­се­ман­ти­ка»

Относительно реализации проекта так называемого государственного поисковика у меня большие сомнения. Насколько мне известно, в этом поисковике работают довольно виртуальные люди, и у него очень виртуальное финансирование. О какой-либо материализации данного проекта мне неизвестно. Поможет ли государственный поисковик избавиться от поискового спама, зависит от алгоритмов и методов, которые в нем будут использоваться. Например, если его сотрудники будут высылать спецназ в офисы к «черным» оптимизаторам, то спама будет гораздо меньше.


Виктор Лавренко

ру­ко­во­ди­тель ко­ман­ды раз­ра­бот­чи­ков Ниг­ма.РФ

Университеты

Главное — не переобучиться

Машинное обучение стало использоваться в поисковых технологиях с начала этого века. Одна из проблем, которая возникает при таком обучении, — переобучение. Говорят, что переобучившаяся машина похожа на студента, который перезанимался и пытается объяснить простые поступки слишком сложными моделями поведения. В 2009 году компания «Яндекс» внедрила новый метод машинного обучения — «Матрикснет». Важная особенность этой технологии заключается в ее устойчивости к переобучению. С помощью данного метода можно построить очень длинную и сложную формулу ранжирования, которая учитывает множество различных факторов и их комбинаций, что в конечном итоге позволяет реализовать существенно более точный поиск. «Сотни факторов ранжирования, описывающих сайты, страницы, запросы, пользователя, комбинируются «Матрикснет» в формулу ранжирования, которая очень хорошо отделяет качественные страницы, интересные пользователю, от нерелевантных, менее качественных и спама», — рассказывает руководитель отдела веб-поиска «Яндекс» Александр Садовский. Используя «Матрикснет», сотрудники «Яндекса» заняли первое, третье и десятое места в мировом чемпионате по ранжированию, проводимом компанией Yahoo!.

Голоса

Поговори со мной, машина!

Современные мобильные устройства предлагают нам разные способы взаимодействия с ними. При этом речь остается самым естественным — ведь говорим мы обычно гораздо быстрее, чем вводим символы на крошечной клавиатуре. Сегодня услуга голосового поиска становится одной из самых востребованных. Рост популярности этого вида поиска будет обеспечиваться как за счет постоянно увеличивающегося количества пользователей этой услуги, так и благодаря росту объемов мобильного трафика. Чтобы голосовой поиск работал корректно, для каждого языка в Google собирают фрагменты, из которых потом создаются специальные модели речи. Для этого мы просим носителей языка произнести часто употребляемые фразы в самых разных акустических условиях. Для каждого языка мы создаем словарь, содержащий более миллиона распознаваемых слов.

Теперь узнать погоду, проверить, кто был автором известного афоризма, или найти ближайший ресторан не составит никакого труда. Мобильный телефон лишь записывает звук и отправляет его на серверы Google, где и происходит дальнейшая обработка информации. Это позволяет быстрее получить результат и освободить мощности телефона для выполнения других операций.

В свою очередь новая система индексирования сайтов Caffeine позволяет анализировать информацию в Интернете «по частям» и непрерывно обновлять поисковый индекс. Каждую секунду система обрабатывает сотни тысяч страниц. Если мы представим себе, что эти страницы бумажные, стопка из них росла бы со скоростью около 5 километров в секунду. В базе данных Caffeine содержится порядка 100 миллионов гигабайт данных, а новая информация добавляется со скоростью нескольких сотен тысяч гигабайт в день.

В России услуга голосового поиска Google появилась в конце сентября этого года. Судя по первым откликам, многие уже активно ею пользуются и довольны результатом.


Борис Хвостиченко

ме­нед­жер по про­дук­там Google в Рос­сии

Добавить в:  Memori  |  BobrDobr  |  Mister Wong  |  MoeMesto  |  Del.Icio.Us  |  Google Bookmarks  |  News2.ru  |  NewsLand.ru

Политика и экономика

Что почем
Те, которые...

Общество и наука

Телеграф
Культурно выражаясь
Междометия
Спецпроект

Дело

Бизнес-климат
Загранштучки

Автомобили

Новости
Честно говоря

Искусство и культура

Спорт

Парадокс

Анекдоты читателей

Анекдоты читателей
Популярное в рубрике
Яндекс цитирования NOMOBILE.RU Семь Дней НТВ+ НТВ НТВ-Кино City-FM

Copyright © Журнал "Итоги"
Эл. почта: itogi@7days.ru

Редакция не имеет возможности вступать в переписку, а также рецензировать и возвращать не заказанные ею рукописи и иллюстрации. Редакция не несет ответственности за содержание рекламных материалов. При перепечатке материалов и использовании их в любой форме, в том числе и в электронных СМИ, а также в Интернете, ссылка на "Итоги" обязательна.

Согласно ФЗ от 29.12.2010 №436-ФЗ сайт ITOGI.RU относится к категории информационной продукции для детей, достигших возраста шестнадцати лет.

Партнер Рамблера