Поиск качества в сети / Наше Мнение

Риза Беркан — ученый со специализацией в области искусственного интеллекта, нечеткой логики и информационных систем. Он яаляется основателем Hakia.

В не столь отдаленном будущем студенты смогут закончить среднюю школу, не открывая книг. Двадцать лет назад они могли закончить среднюю школу, не дотрагиваясь до компьютера. Всего в течение нескольких десятилетий компьютерные технологии и Интернет преобразили основные принципы информации, знаний и образования.

Действительно, в настоящее время на жестком диске вашего ноутбука может уместиться больше книг, чем в книжном магазине с 60000 названиями. Количество веб-страниц в Интернете по слухам превысило 500 миллиардов, что достаточно для того, чтобы заполнить 10 современных авианосцев таким же количеством книг, каждая из которых 500 страниц и весом один фунт.
Такие аналогии помогают нам мысленно представить необъятность информационного взрыва и ратифицировать проблемы, которые он несет. Сетевые поисковые системы — это единственный механизм, с помощью которого можно маневрировать в этой лавине информации, так что их не следует принимать за дополнительный аксессуар, одну из клавиш, с которой можно играть, или инструмент, с помощью которого можно определить местонахождение ближайшего магазина, продающего пиццу. Поисковые системы — единственные самые мощные распределительные пункты знаний, богатства и да — дезинформации.

Когда мы говорим о сетевом поиске, первое, что приходит на ум — это конечно Google. Не будем надуманным сказать, что Google сделал Интернет тем, чем он является в настоящее время. Он сформировал новое поколение людей, которые поразительно отличаются от своих родителей. Родившиеся во время демографического взрыва лучше всех могут оценить это, поскольку они узнали по опыту Рок-н-ролл, будучи детьми, и Google, будучи родителями.

Дизайн Google был основан на статистических алгоритмах. Но технологии поиска, основанные на статистических алгоритмах, не могут обеспечить качество информации просто потому, что высококачественная информация не всегда является популярной, а популярная информация не всегда является высококачественной. Вы можете собирать статистические данные до бесконечности, но Вы не можете ожидать, что статистические данные дадут результат, который будет выходить за рамки того, для чего они пригодны.

Кроме того, системы собирания статистических данных являются отсталыми. Им нужно время, чтобы люди выдали направления, и время, чтобы собрать их. Поэтому новые публикации и динамические страницы, которые часто меняют свое содержание, уже выходят за рамки методов популярности, и поиск этого материала является незащищенным от элементарных методов манипуляции.

Например, неэффективность сегодняшних поисковых систем создала новую индустрию под названием Оптимизация Поисковых Систем, которая ставит в центр внимания стратегии, благодаря которым веб-страница займет высокое место в рейтинге по критериям популярности поисковых систем в стиле Google. Это индустрия, которая оценивается в миллиард долларов. Если у вас достаточно денег, то ваша веб-страница займет более высокое место в рейтинге, чем многие другие, которые являются более надежными или более высококачественными. С появлением Google качественная информация никогда еще не была столь беззащитна перед властью меркантильности.

Информационное качество, сформированное в тени сетевого поиска, определит будущее человечества, но гарантия качества потребует революционного подхода, крупного научно-технического достижения помимо статистики. Эта революция в процессе воплощения, и она называется семантической технологией.

Основная идея позади семантической технологии состоит в том, чтобы обучить компьютеры тому, как работает мир. Например, когда компьютер встречает слово «bill», он знает, что слово «bill» имеет 15 разных значений в английском языке. Когда компьютер сталкивается с фразой «killed the bill» [забаллотировать законопроект], он решит, что «bill» [законопроект] может быть только предложенным законопроектом, который был представлен на рассмотрение законодательному органу, и что «kill» [убить] может означать только «провалить».

В отличие от этого, «kill bill» [убить Билла] будет всего лишь названием фильма. В конце, серия таких выводов будет обрабатывать целые предложения и параграфы, чтобы найти точное по смыслу изображение.

Чтобы достичь этого уровня проворства в обработке языков компьютерными алгоритмами, необходимо выстроить онтологию. Онтология — это ни словарь, ни тезаурус. Это карта взаимосвязанных понятий и оттенков слова, которые отражают отношения, такие как те, которые существуют между понятиями «bill» и «kill.»

Построение онтологии, вмещающей в себя мировые знания, может быть огромной задачей, требующей усилий, которые можно сравнить с составлением большой энциклопедии, и опыта, необходимого для ее построения, но это возможно. Несколько недавно возникших в мире компаний, таких как Hakia, Cognition Search и Lexxe, приняли этот вызов. Результат этих попыток еще предстоит увидеть.

Но как семантическая поисковая система разрешит проблему качественной информации? Ответ прост: точность. Как только компьютеры смогут обрабатывать родные языки с семантической точностью, высококачественной информации не нужно будет становиться популярной прежде, чем она попадет к конечному пользователю, в отличие от того, что необходимо для сетевого поиска в настоящее время.

Семантическая технология обещает другие средства гарантии качества, обнаруживая богатство и последовательность понятий, с которыми столкнулись в данном тексте. Если в тексте есть такая фраза как «Буш провалил последний законопроект в Сенате», включает ли остальная часть текста последовательные понятия? Или эта страница является страницей спама, в которую входит куча популярных коротких шуток вместе с рекламой? Семантическая технология может отличить, что это.

Учитывая ограниченную скорость чтения людей (200-300 слов в минуту) и огромный объем доступной информации, эффективное принятие решений в настоящее время призывает к семантической технологии в каждом аспекте обработки знаний. Мы не можем позволить себе будущее, в котором знания находятся во власти популярности и денег.

Источник: Project Syndicate

Для интересующихся более продвинутая поисковая машина: http://www.nigma.ru/