WIN - KOI - DOS - ISO - MAC - LAT
11(50) '98 Компьютеры + Программы
популярный журнал
о современных
информационных технологиях
КОНФЕРЕНЦИИ UseNet: СРЕДСТВА ДОСТУПА И
АВТОМАТИЧЕСКОГО ПОИСКА
ГУСАК Олег Юрьевич,
аспирант кафедры
компьютерных наук
университета Билькент, Турция.
e-mail: gusak@cs.bilkent.edu.
tr http://www.cs.bilkent.edu.tr/~gusak
НЕОБЪЯТНЫЙ МИР ИНТЕРНЕТ НЕ ПЕРЕСТАЕТ УДИВЛЯТЬ
НАС СВОЕЙ МНОГОЛИКОСТЬЮ. ОДНИМ ИЗ ЕГО ПРОЯВЛЕНИЙ,
В ПОСЛЕДНЕЕ ВРЕМЯ ОСТАВЛЕННЫМ ПРЕССОЙ БЕЗ
ВНИМАНИЯ, ЯВЛЯЮТСЯ ГРУППЫ USENET, ОБЛАДАЮЩИЕ КАК
УНИКАЛЬНЫМИ ИНФОРМАЦИОННЫМИ РЕСУРСАМИ, ТАК И
СРЕДСТВАМИ ИХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ И ПОИСКА.
Многообразие и безграничность виртуального мира
Internet в некоторой степени дают нам возможность
осознать, что такое бесконечность. Словно наша
расширяющаяся Вселенная, Internet, являясь уже и в
настоящее время практически необъятным, также
стремительно расширяет свои границы и
количество заключенной в них информации. Однако
в отличие от звездного пространства, хоть в
какой-то мере изученного и нанесенного на карты,
пусть известные и понятные лишь <жрецам неба>,
структура информации в Internet по прежнему является
неупорядоченной - ввиду различий в ее природе и
происхождении.
В настоящее время понятие <информация в Internet>,
да и сама сеть, прочно ассоциируется с World Wide Web,
который отодвинул на задний план все другие
службы и услуги глобальной сети, в том числе
такие, как списки почтовой рассылки (Mailing Lists) и
конференции UseNet. Однако последние нисколько не
пострадали от отсутствия внимания к ним со
стороны прессы и продолжают существовать и
развиваться. Так, UseNet ныне включает более 30 тыс.
Конференций (1), в которых каждый день публикуется
до 250 тыс. писем. Более точное значение этого
показателя получить просто невозможно, так как в
силу особенностей UseNet серверы конференций
вправе организовывать свои группы, которые могут
существовать только локально. Не менее
впечатляющим является также количество списков
рассылки, коих имеется более 100 тысяч.
Очевидно, подобные источники информации
содержат разного рода сведения, представляющие
для нас, пользователей, определенный интерес.
Более того, иногда эта <живая> информация
(переписка людей, участвующих в конференциях)
является незаменимым подспорьем в работе, так
как нет ничего более ценного, чем опыт
специалистов в своей профессии. Однако очевидно
и другое. Полностью охватить спектр интересующей
вас проблемы (пусть даже относительно узкой)
просто невозможно - даже подписавшись на все
конференции, затрагивающие ту или иную тему.
ПОИСК В КОНФЕРЕНЦИЯХ UseNet
Как же получить доступ к этому миру информации,
который может помочь вам в решении ваших задач?
Самым простым способом, к тому же и доступным как
для on-line пользователей, так и для клиентов Internet,
работающих в режиме e-mail, являются общеизвестные
поисковые серверы. Так, Alta Vista, к примеру,
обеспечивает поиск в сообщениях конференций UseNet,
опубликованных в течение последних двух недель.
Поиск в UseNet позволяют осуществить также серверы
Yahoo, Excite, InfoSeek, HotBot.
Существуют также специализированные поисковые
серверы, ориентированные только на поиск в
конференциях и списках рассылки. Наиболее
известным из них является сервер DejaNews (www.dejanews.com).
Наряду с поисковыми функциями он также
предоставляет вам возможность лично принять
участие в дискуссии той или иной группы,
опубликовав свое сообщение. В настоящее время
архив сервера, созданный в марте 1995 года,
насчитывает 100 млн. публикаций общим объемом 175
Гбайт. На сервере также ведется учет
статистических данных об авторах, публикующихся
в конференциях, что дает вам возможность судить о
степени достоверности того или иного письма.
Интенсивный поток сообщений, непрерывно
циркулирующих в UseNet, не позволяет в настоящее
время хранить на сервере двоичные файлы, часто
публикуемые в UseNet вместе с текстовой
информацией. То есть, прочитав что-либо, например
о программном продукте, вы не сможете получить
последний, если он был присоединен к публикации
автором письма.
Полный поиск в конференциях UseNet осуществляет и
сервер Reference.com, о котором будет рассказано далее.
Существуют также серверы, ведущие поиск только
по заголовкам писем UseNet (2). К ним относятся:
информационный центр UseNet -
http://sunsite.unc.edu/useneti/search.html
сервер Tile.Net- http://tile.net/news/
каталог групп UseNet - http://www.liszt.com/news/
Серверы List Search (http://www. lsoft.com/lists/LIST_Q.html), <Список
списков> (http://catalog.com/vivian/interest-group-search.html),
<Каталог академических и профессиональных e-mail
конференций> (http://n2h2.com/KOVACS/; база данных этого
сервера включает публикации некоторых
конференций UseNet), а также ранее упоминавшиеся
Tile.Net и Liszt позволяют вести поиск в списках
рассылок (таких как LISTSERV (3) академической сети
BITNET) и даже в каналах IRC Chat.
К сожалению, сколь ни многочисленно семейство
поисковых серверов данного типа, они не
позволяют русскоязычным пользователям Интернет
вести полноправный поиск в группах UseNet и других
конференциях. Ни один из перечисленных выше
серверов не поддерживает поиск по ключевым
словам, написанным с использованием символов
кириллицы. Однако сами русскоязычные публикации
хранятся на сервере и могут быть найдены - при
условии наличия в них английских слов или
терминов. Серверы Tile.Net и Liszt.com содержат каталог
конференций <relcom>, доступный для просмотра в
иерархическом порядке. Последний сервер также
позволяет просмотреть свежие публикации в той
или иной группе посредством переадресовки
вашего запроса на сервер Dejanews.
Как было отмечено выше, поисковые серверы могут с
успехом эксплуатироваться пользователями,
имеющими доступ к Internet только в режиме e-mail. Для
этого они могут применить описанную ранее
технологию доступа к Web по e-mail (4). Схема работы в
данном случае выглядит следующим образом.
Первоначально необходимо отправить запрос на
Web-mail-сервер по указанному URL интересующего вас
сервера, затем проанализировать содержимое
полученного HTML-файла на предмет переменных
запроса и их значений и повторно отправить
письмо к Web-mail-серверу с уже сформированной
строкой запроса.
Разумеется, подобная схема взаимодействия
требует определенных усилий и времени - ввиду
того, что Web-mail-серверы, к которым вы обращаетесь
как к посредникам, переадресующим ваши запросы в
Internet, постоянно загружены запросами от
многочисленной аудитории e-mail-пользователей.
Однако это не столь проблематично, если
процедура поиска ограничивается несколькими
запросами к серверу. В противном случае - когда
вам необходимо постоянно получать информацию об
изменениях в сфере вашей деятельности, - задача
поиска может стать изнурительной даже для
on-line-пользователей, так как приводит к
необходимости постоянного пребывания перед
экраном вашего Internet-навигатора.
СЛУЖБА ФИЛЬТРАЦИИ НОВОСТЕЙ СЕРВЕРА Reference.com
Очевидно, что рутинную задачу непрерывного
поиска целесообразно препоручить самим
серверам, владеющим данной информацией.
Подобного рода суждения привели разработчиков
из Стенфордского университета к созданию
системы Netnews Filtering Service, позволяющей производить
автоматический поиск в группах Usenet по заранее
составленным запросам пользователей. В
настоящее время данная система функционирует
как самостоятельный сервер Reference.com.
Данный сервер предоставляет доступ более чем к
150000 источников информации - конференциям Use-Net,
Web-форумам (IRC Chat ) и спискам рассылки.
Взаимодействовать с сервером можно как в
интерактивном режиме, так и по e-mail (в последнем
случае имеется непосредственный доступ к
серверу - в отличие от описанной выше общей схемы
взаимодействия с Web-серверами для e-mail
пользователей). Более того, вы можете бесплатно
зарегистрироваться на сервере и таким образом
получить возможность публиковать свои
собственные сообщения, формировать и сохранять
шаблоны запросов, что впоследствии позволит вам
существенно упростить процедуру поиска.
Режим on-line
On-line-пользователи могут работать с сервером
Reference.com в двух режимах:
в режиме обычных интерактивных запросов;
в режиме зарегистрированного пользователя (с
применением ранее составленных профайлов).
Режим интерактивных запросов
В этом режиме сервер работает как обычный
поисковый Web-сервер и предоставляет возможность
составления сложных и простых запросов. При
составлении простых запросов вы выбираете
категорию пространства поиска - каталоги групп
UseNet и списков рассылки или соответствующие
архивы, Web-форумы, - и составляете запрос,
содержащий интересующие вас ключевые слова. В
расширенном режиме поиска вы можете
использовать дополнительные поля - так
называемые фильтры, позволяющие
конкретизировать область вашего поиска. В
качестве фильтров выступают поля заголовка
писем - тема публикации, имя автора, его адрес,
организация, группа, а также временные границы
публикации сообщения. Наконец, вы имеете
возможность выбрать заранее составленные
запросы (templates), сформированные в соответствии с
различными тематиками.
Отметим также, что при работе с сервером в режиме
on-line вы можете проводить самостоятельный поиск в
иерархическом каталоге конференций (режим browse).
Данный каталог организован в соответствии со
структурой групп UseNet, то есть первый уровень
иерархии содержит восемь основных категорий: comp,
sci, soc, rec, talk, news, misc, alt (названия групп приведены в
последовательности, соответствующей таковой
каталога сервера). Каталог также содержит
перечень почтовых конференций в алфавитном
порядке с кратким описанием тематики дискуссий.
Формирование профайла пользователя
Главным преимуществом сервера, выделяющим его из
основной массы поисковых средств Интернет,
является механизм профайлов пользователей.
Работа в данном режиме требует предварительной
регистрации на сервере, для чего используется
имя пользователя, в качестве которого выступает
ваш почтовый адрес, и пароль. После этого вы
получаете возможность формировать собственный
профайл, который представляет собой набор
шаблонов запросов и параметров поиска.
Шаблоны запросов создаются с целью
автоматизации самого процесса поиска. Однажды
сформировав запрос по интересующей вас теме, вы
можете задать серверу периодичность и срок его
выполнения; при этом результаты будут
направляться вам по e-mail.
Формируемый запрос можно выполнить и в
интерактивном режиме. Этим можно
воспользоваться, например, для оптимизации
запроса до момента его активизации. С этой целью
форма составления запроса предусматривает
пункты Passive и Active. Так, для отладки запроса вам
необходимо выбрать пункт Passive, сохранить запрос и
запустить его на выполнение. Убедившись в
правильности составленного запроса
(корректности выдаваемых результатов), вы
активизируете запрос, выбирая поле Active и задавая
при этом периодичность и срок выполнения
сформированного шаблона.
Параметры поиска позволяют вам определить
максимальное число результатов, получаемых в
ответ на данный запрос, а также количество строк
в каждом из ответов и тип формата MIME
возвращаемого письма (text/plain, text/html, mulipart/digest,
text/burst). Отметим, что параметры поиска могут быть
как глобальными, то есть настраиваемыми для всех
составленных запросов (в этом случае они
задаются при составлении профайла пользователя),
так и локальными, применимыми к каждому запросу в
отдельности и настраиваемыми при его
формировании.
Публикация сообщений в UseNet
Еще одной интересной особенностью сервера
является возможность интерактивной публикации
сообщений в конференциях UseNet. Все, что для этого
необходимо, - это ваша регистрация на сервере и
указание названия News-группы, в дискуссиях
которой вы желаете принять участие. При
необходимости ответить на письмо, являющееся
результатом вашего поиска, можно
воспользоваться функцией reply. При этом сервер
автоматически заполнит форму публикации
сообщения (название группы, текст письма, на
которое вы отвечаете, и прочее).
Завершая описание команд сервера Reference.com,
отметим, что он поддерживает также службу работы
с пользователями, в адрес которой (User-Services@
Reference.com) вы можете направить интересующий вас
вопрос о специфике ее работы.
Описанные возможности работы с сервером Reference.corn
(за исключением публикации сообщений) доступны
также и для e-mail-пользователей (см. РАБОТА С
СЕРВЕРОМ Reference.com в режиме off-line).
1) Список основных конференций можно получить по
почте с сервера rtfm.mit.edu., направив письмо по
адресу mail-server@rtfm.mit.edu с указанием в тексте письма
команд;
send UseNet/news.answers/active-newsgroups/part1, send
UseNet/news.answers/active-f1ewsgroups/part2
send UseNet/news.answers/alt-hierarchies/part1, send
UseNet/news.answers/alt-hierarchies/part2 send UseNet/news.answers/alt-hierarchtes/part3
(2) Напомним, что заголовок письма содержит адрес
автора, дату публикации, название конференции,
тему публикации, ключевые слова.
(3) Полный список (длиной в 1 Мбайт) конференций BITNET
можно получить с FTP сервера
ftp://sri.com/netinfo/interest-groups.txt или отправив письмо по
адресу mail-server@sri.com с указанием в тексте письма
команды send interest-groups.
(4) О доступе к поисковым серверам Интернет с
помощью средств электронной почты более
подробно можно узнать из статей Олега Гусака
"Поисковые серверы: кто ищет, тот..." //
Компьютеры + Программы, 1997, № 5, 7 - Прим. науч. ред.
ПОМНИТЕ, что сформировав однажды шаблон запроса
и сохранив его в профайлe пользователя, вы
сможете автоматически получать результаты
поиска по e-mail.
Логотип -
Начало -
Общие
сведения -
Структура -
Научная деятельность
Информационные ресурсы -
Новости -
Поиск по
серверу -
Карта сервера