Составить тезаурус по теме электронная почта. Тезаурусы. Отношения слов в тезаурусе

В соответствии с выводами Главы 1, тезаурус, составлению и исследованию которого посвящена наша работа - это идеографический тематический словарь «Горный и пешеходный туризм». Он будет состоять из лексики русского и испанского языков.

Таким образом, чтобы составить тезаурус необходимо решить ряд задач:

Выделить термины, описывающие предметную область;

Провести логическое разделение терминов по семантическим группам;

Сопоставить термины русского и испанского языков;

Расположить группы в алфавитном порядке.

Методы и алгоритм ручного составления тезауруса

Информационно-поисковый тезаурус - словарь, составляемый вручную экспертом-лингвистом, специалистом в области построения словарей и семантических ресурсов. При составлении подобного словаря стоит задача получить тезаурусное описание одной или нескольких предметных областей, при этом, часто существует корпус текстов, который является основой для создания словаря. Эксперт проводит анализ корпуса текстов и руководствуясь технологией ручного построения тезауруса составляет список терминов описывающих заданную предметную область и включает их тезаурус в качестве дескрипторов. После этого термины группируются в концепты и между ними устанавливаются иерархические и ассоциативные отношения.

Для процесса ручного создания тезауруса характерны такие недостатки как высокая стоимость и длительность создания ресурса, обусловленность результата от квалификации эксперта, невозможность вручную проанализировать весь корпус текстов и некоторые другие. Очевидно, что при ручном составлении тезауруса эксперту необходимо использовать существующие методы поиска информации и поисковые интернет - системы.

Прежде всего, двуязычный тезаурус представляет не пословные переводы, его структура представляет собой организованный на основе близости семантического значения список лексем в русском языке - определение понятия на русском языке - определение понятия на иностранном языке - список текстовых вариантов на иностранном языке. При этом списки лексических единиц должны быть как можно более полными с каждой стороны, включая и те выражения, которые обычно не представлены в словарях, так как представляются очевидными для человека.

При создании традиционных двуязычных словарей основной целью является обеспечение совокупности наиболее частых переводов слова в различных текстах. Переводы даются как бы с запасом, в список переводов включаются и точные переводы, и переводы с более узким значением и с более широким (именно поэтому испано-русские и русско-испанские словари не являются обратимыми). Предполагается, что читающий разберется по контексту, какой перевод выбрать.

Основными этапами при составлении тезауруса являются следующие:

1) Предварительная обработка корпуса текстов с целью выделения ключевых слов.

2) Формирование множества слов и словосочетаний для включения в тезаурус и изучение связей между дескрипторами тезауруса. Эксперт, руководствуясь этим множеством, составляет список ключевых понятий предметной области.

3) Выделение иерархических отношений между дескрипторами (в нашем случае - алфавитные порядок) и их классификация (в нашем исследовании, классификация опирается на семантические отношения между дескрипторами).

4) Построение множества ассоциативных отношений между дескрипторами в русском и испанском языке.

Первым этапом создания тезауруса был поиск информации о строении тезаурусов, его типах и действующие программы. Вторым этапом был выбор языка программирования и схема построения своего будущего тезауруса. Третий этап - это поиск информации для его заполнения, для этого я использовал «Учебно-методический комплекс Компьютерные сети».

Вот пара примеров тезаурусов (смотрите рисунок 1.1 и рисунок 1.2):

Рисунок 1.1 - Информационно-поисковая система «Thesaurus.com»

Рисунок 1.2 - Словарь гендерных терминов

После собрания нужной информации, началось создание тезауруса. Для создания тезауруса был выбран язык программирования - HTML. Hyper Text Markup Language - «HTML» (язык разметки гипертекста) многие уже давно перестали его считать просто языком программирования. Так как само понятие HTML включает в себя различные методы оформления гипертекстовых документов, дизайн, гипертекстовые редакторы, браузеры и много всего другого. Пользователь, освоивший этот язык, приобретает возможность делать серьезные вещи простыми методами и, главное, быстро, что в современном мире считается очень хорошо!

На языке HTML можно создавать собственные мультимедийные продукты и распространять их на любых носителях информации, и все эти продукты, выполненные в виде наборов HTML-страниц, не требуют разработки специализированных программных средств, так как все необходимое для работы с данными (Web-браузеры) стали частью стандартного программного обеспечения большинства персональных компьютеров.

Код будущей Web-страницы обычно набирается в стандартном текстовом редакторе, но есть и другие программы, и языки программирования, например: Adobe Dreamweaver CS3, JavaScript, Паскаль, С, С++, Бейсик, Пролог.

Начнем с того, что тезаурус будет состоять из трех фреймов: фрейм с заголовком, фрейм со ссылками и фрейм для содержимого, как показано на рисунке 1.3.

Рисунок 1.3 - Схема тезауруса

Для создания эскиза тезауруса использовали следующие теги и атрибуты языка HTML:

текст - заголовок сайта;

- два фрейма по горизонтали размером в 120px и оставшееся пространство;

- отмена возможности растягивать границы фрейма;

- фреймы по вертикали;

- указывает имя фрейма для возможности направления информации в этот фрейм.

Для заполнения фреймов информацией, пишем код в документах: «new.txt» - фрейм «Заголовок», «nav.txt» - фрейм «Ссылки», «main.txt» - фрейм «Содержание».

В документе «new.txt» находится код, отвечающий за название самого тезауруса. Основные теги: