Вчера уснул буквально на клавиатуре, поэтому технологические обсуждения фильтрации переползли на сегодня.
Вот, что думаю, о технологических аспектах данной проблемы.
На сегодняшний день существует два основных технологических направления к созданию систем фильтрации Интернет контента. Первое направление – это создание систем на основе URL фильтрации. В этом случае создаются и анализируются так называемые «черные» и «белые» списки доменных имен сайтов. Например, если в черный список сайтов включить доменное имя
http://www.xxx.ru, то при попытке пользователя запросить какую-либо страницу с этого сайта, система фильтрации заблокирует этот запрос. Белый список доменных имен сайтов, обычно, используется для предоставления доступа лишь к фиксированному набору Интернет сайтов, включенных в этот список. Такой подход имеет целый ряд достаточно очевидных ограничений. Во-первых, изменения в Интернете происходят слишком быстро, и обновление списков не успевает за этими изменениями. Во-вторых, существуют стандартные процедуры, которые позволяют опытному пользователю такие списки обходить, например, используя IP адреса вместо доменного имени, или используя публично доступные сервисы обеспечения анонимности в Интернете. Самая серьезная проблема при таком подходе – необходимость обеспечить блокировку части страниц «хорошего» сайта, которые по каким-то причинам содержат «плохое» содержимое. Классический пример такой ситуации – работа с поисковыми системами. В случае, когда хочется блокировать контент «для взрослых» неплохо бы блокировать уже и результаты поиска, например, в Яндексе по поисковому запросу «девочки за деньги». С такой задачей системы на основе URL-фильтрации справиться не смогут.
Второе направление при создании систем фильтрации основано на анализе текстового содержимого страницы на предмет наличия в ней запрещенных слов, словосочетаний фраз. Такие системы в случаях, когда на странице обнаружен какой-то набор запрещенных слов (в некоторых случаях одно из слов), принимают решение о блокировке соответствующей страницы. Как уже было отмечено Finder-ом настроить такие системы даже на сравнительно простые вещи – на блокировку мата – так, чтобы это не раздражало пользователей очень сложно, если вообще возможно. С более сложными темами все становится еще хуже. Например, при блокировке сайтов для взрослых хочется не пропускать все сайты, рекламирующие проституток. Если привязываться к слову «проститутка» и при появлении этого слова блокировать страницу, то, помимо сайтов, рекламирующих интимные услуги, заблокируются еще и все новостные сообщения, которые сообщают, например, о милицейских рейдах на места скопления девочек легкого поведения и … страница, которую вы читаете сейчас!
А для примера про «девочек за деньги» - прикажете блокировать все сайты для девчонок и все сайты о финансах?
То, что предлагается на тестирование здесь и сейчас – программный продукт, разработанный компанией Технологии Управляемого Хаоса (
http://www.controlchaostech.com).
Этот программный продукт комбинирует внутри себя два типа фильтрации контента – как динамическую фильтрацию, которая основана на уникальном эвристическом алгоритме анализа тематики текстовой информации Интернет страниц, так и фильтрацию на основе управления белыми и черными списками доменных имен (URL фильтрацию). Созданный в компании эвристический алгоритм анализа тематики текста основан на алгоритме поиска похожей информации, который реализован в рамках метода
корреляционной индексации. (Можно я здесь больше заумного ничего писать по этот алгоритм?
Кому интересно – обращайтесь, с удовольствием расскажу подробней).
Необходимость использования обоих типов фильтрации обусловлена тем, что каким бы интеллектуальным не был эвристический алгоритм анализа тематики страницы, как и любой эвристический алгоритм, он будет определять тематику текста с определенной вероятностью и иногда ошибаться. Поэтому использование технологии «черных» и «белых» списков сайтов в дает возможность оперативного исправления ошибок при работе системы фильтрации содержимого Интернет страниц. При этом, очевидно, еще и повышается общая производиетльность системы в целом. При обнаружении доменного имени запрашиваемого сайта в «черном» списке сайтов больше нет необходимости идти в Интернет для получения соответствующей страницы. Можно сразу вернуть ответ о том, что страница заблокирована.