Тема: Теоретические основы индексирования документов. Примеры индексирования документов в конкретной и биографической базе данных Что представляет собой индексирование документов


Одна из важнейших операций аналитико-синтетической переработки информации как средства информационного поиска – индексирование документов и информационных запросов.

Индексирование – процесс выражения содержания документа и (или)запроса наинформационно-поисковом языке (ИПЯ) с помощьютерминов индексирования – классификационных индексов, предметных рубрик (ПР), ключевых слов, дескрипторов, кодов. Иными словами, индексирование – процесс перевода содержания документов и запросов с естественного языка на ИПЯ, в результате чего создается поисковый образ документа (ПОД) и поисковый образ запроса (ПОЗ) . Таким образом, происходит «свертывание» информации, содержащейся в документе, и изложение ее на ИПЯ в виде индекса, предметной рубрики или дескриптора, ключевого слова.

Информационно-поисковый язык (ИПЯ) – это специально созданный искусственный язык, предназначенный для выражения содержания документов и (или) запросов с целью их последующего поиска. ИПЯ – это основной элемент логико-семантического аппарата информационно-поисковой системы (ИПС).

Необходимость создания искусственного языка (для выражения смыслового – семантического содержания документов с целью их поиска) обусловлена тем, что естественный язык обладает рядом свойств, препятствующих его использованию для записи и поиска информации: это неоднозначность и многозначность слов естественного языка. Точное значение многих слов можно определить только из контекста, в котором они употреблены (ударный инструмент, ударная доза и т.д.). Эти факторы не позволяют добиться точного соответствия между содержанием документа и средствами выражения этого содержания.

Трудности использования естественного языка в качестве ИПЯ усиливаются еще и тем, что в ИПС в качестве входных документов могут быть использованы не полные тексты, а рефераты, аннотации, библиографические описания, которые являются результатом свертывания содержания документов.

Основные требования, предъявляемые к ИПЯ:

· Однозначность;

· Достаточная семантическая сила

· Открытость (возможность корректировки языка)

Каждый ИПЯ имеет определенный словарный состав, представляющий совокупность лексических единиц (ЛЕ) – обозначения отдельного понятия, минимального и неделимого в этой функции. В качестве ЛЕ в ИПЯ используется лексика естественных языков – слова, словосочетания предметной рубрики, цифровые или буквенно-цифровые коды и т.д.

Важным моментом при индексировании является создание поискового образа документов (ПОД).Поисковый образ документа – основное смысловое содержание документа (а не вся информация, содержащаяся в нем), выраженное в терминах формализованного ИПЯ. ПОД ставится в однозначное соответствие этому документу, по нему производится отыскание документов в массиве документов.


Индексирование запроса также осуществляется путем перевода его содержания на ИПЯ. Таким образом, совокупность терминов индексирования, выражающих смысловое содержание запроса, называется поисковым образом запроса (ПОЗ ).

Поиск ведется по совокупности терминов индексирования. С целью повышения эффективности поиска информации по запросу ПОЗ может быть дополнен специальными указаниями о последовательности выполнения логических операций в процессе информационного поиска, которые называются поисковым предписанием.

Индексирование реализуется в следующих процессах: предметизации, систематизации и координатном индексировании.

Систематизация – вид индексирования, при котором содержание документа и (или) запроса выражено классификационными индексами, в соответствии с правилами определенного классификационного ИПЯ (КС). Такой принцип индексирования принято считать классификационным. Он обеспечивает возможность организации информационного поиска по иерархическому признаку. Специалисты, осуществляющие процесс систематизации в библиотеках и информационных центрах, называются систематизаторами.

Предметизация – вид индексирования, при котором содержание документа и (или) запроса выражено предметной рубрикой (ПР) в соответствии с правилами определенного предметизационного ИПЯ. Предметизационный принцип индексирования основан на использовании ЛЕ, которые входят в состав предметных рубрик, естественного языка (т.е. предметные рубрики, выражающие ПОД и ПОЗ составляются на основе естественного языка). Предметизационный принцип индексирования обеспечивает возможность организации информационного поиска по алфавитному признаку. Процессы предметизации осуществляются в библиотеках и информационных центрах предметизаторами.

Координатное индексирование – вид индексирования, при котором смысловое содержание документа и (или) запроса многоаспектно выражаются множеством ключевых слов или дескрипторов. ИПЯ, предназначенный для координатного индексирования, называется дескрипторным языком. Специалисты, осуществляющие координатное индексирование, называются индексаторами.

Термины «индексирование» и «индексатор» распространены в англоязычной литературе и широко применяются в международной и отечественной библиотечной практике.

Итак, в зависимости от вида индексирования, выделяются предметизационные, классификационные и дескрипторные ИПЯ. В их состав входит множество ЛЕ и грамматические (парадигматические и синтагматические) отношения между ними. ЛЕ – обозначение отдельного понятия, принятое в ИПЯ и неделимое в этой функции. ЛЕ могут представлять собой принятые в естественном языке слова, устойчивые словосочетания, аббревиатуры, символы, даты, общепринятые сокращения, лексически значимые компоненты сложных слов, а также эквивалентные им кодовые или символические обозначения искусственного языка. Грамматические отношения позволяют организовать ЛЕ в систему.

Требования к ИПЯ :

· Полно и точно передавать содержание документа, отражаемого в данной ИПС;

· Обеспечить однозначное толкования терминов индексирования;

· Допускать многоаспектное индексирование;

· Допускать внесение изменений (дополнений, исправлений);

· Обеспечивать простоту и удобство индексирования, информационного поиска и ведение данной ИПС;

· Отражать современное состояние терминосистемы в данной области знания.

Правила использования ИПЯ фиксируют в справочно-методическом аппарате соответствующей ИПС.

Синтагма (греч. – вместе построенное, соединенное) – смысловое единство, которое, в определенном контексте выражается словом, группой слов или предложением. Отдельно взятые слова (например, « методика», «пособие», «индексирование») вступают в предложении в синтагматические отношения с помощью грамматических средств языка, таких, как склонение, спряжение, предлоги, союзы и пр.

4. ТЕМА: УНИФИКАЦИЯ И СТАНДАРТИЗАЦИЯ ИНДЕКСИРОВАНИЯ ДОКУМЕНТОВ.

Термин «индексирование» был введен в отечественную библиотечную теорию и практику в 1991 г. ГОСТом 7.59 – 90 «Индексирование документов. Общие требования к систематизации и предметизации». Стандарт был введен взамен 3-х предыдущих ГОСТов, разработанных в 80-е гг.:

1. ГОСТ 7.39 – 82 Систематизация и предметизация. Термины и определения.

2. ГОСТ 7.44 – 84 Систематизация документов. Общие требования.

3. ГОСТ 7.45 – 84 Предметизация документов. Общие требования.

Все эти стандарты были разработаны в рамках Системы Стандартов по информации, библиотечному и издательскому делу (СИБИД) для унификации (единообразия) процессов индексирования. Конечная цель стандартизации – повышение качества и эффективности работы – в данном случае – качества индексирования и тех элементов справочно-поискового аппарата, которые связаны с индексированием. Любой стандарт рождается в результате обобщения многолетней практики.

Библиотекари учились по учебникам, использовали практические пособия. Стандартов, регламентирующих технологические процессы, многие десятилетия не было. Появление централизованной каталогизации (например, печатной каталожной карточки), общая для всех или многих библиотек система классификации привели библиотекарей к пониманию целесообразности единых принципов и методов работы. На определенном этапе развития международных связей возникла необходимость максимального согласования отечественной практики каталогизации с зарубежной.

ГОСТ 7.59 – 90 был ориентирован на Международный стандарт МС ИСО 5963 «Документация – методы анализа документов, определения их тематики и выбора терминов индексирования» введенным Международной организацией по стандартизации (ИСО) в 1985 г.

Международный стандарт обладал рядом достоинств, которые учли отечественные разработчики:

· Самостоятельной частью стандарта были определения встречающихся в нем терминов (в отечественных стандартах они были выведены отдельным ГОСТом).

· В МС вводились понятия и определялись требования общего характера, охватывающие как систематизацию, так и предметизацию (в отечественных стандартах эти процессы рассматривались, как самостоятельные несвязанные между собой процессы, в отдельных ГОСТах).

Преимущества МС ИСО были очевидны: проще освоить любой процесс, тем более – совокупность сложных процессов, какими являются систематизация и предметизация, если выделить общее, единичное и особенное. Было решено объединить отечественные стандарты, максимально приблизить их к международному по структуре и содержанию. Кроме того, необходимо было разработать такой стандарт, применения которого не ограничивалось бы ведомственными рамками. Это означало, что предстояло решить ряд терминологических проблем, так как в те годы в стране параллельно функционировали две системы терминов – библиотечная и информационная. Было решено использовать в стандарте современную международную терминологию.

В период разработки ГОСТ 7.59 – 90 было проведено серьезное научное исследование по внедрению предыдущих стандартов. Так, ГОСТом 7.44 – 84 предусматривалось обязательное ведение во всех библиотеках алфавитно-предметного указателя (АПУ) к систематическому каталогу – не в качестве вспомогательного аппарата, а в роли составной части каталога. Поэтому предписывалось составление карточки АПУ в процессе обработки новых поступлений. Это требование основывалось на современных представлениях о том, что СК способен выполнять свои функции, если он обеспечен адекватным АПУ. Вводилось также обязательное редактирование классификационного решения и предметных рубрик АПУ. Соответственно были изменены общегосударственные нормы времени.

Обследование показало, что сотни библиотек выполняли эти процессы, но с введением ГОСТа они становились обязательными для всех библиотек.

С января 2004 г. введен в действие в качестве Государственного стандарта Российской Федерации ГОСТ 7.59 – 2003 «Индексирование документов. Общие требования к систематизации и предметизации».

В соответствии с современными требованиями ГОСТ 7.59 – 2003 «Индексирование документов» состоит из 6 разделов. Структура ГОСТа следующая:

Через несколько лет был разработан и введен в действие другой стандарт, рассматривающий третий процесс индексирования – ГОСТ 7.66 – 92 «Индексирование документов. Общие требования к координатному индексированию», в основе которого также были правила МС ИСО 5963.

Прошло более десяти лет. За эти годы изменилась классификационная практика в стране. Во многих библиотеках появились автоматизированные системы и электронные каталоги. Потребовалось уточнить перечень и наименования классификационных систем. Существенно упорядочена терминология рассматриваемой предметной области. Были утверждены терминологические стандарты:

· ГОСТ 7.73 – 96 СИБИД. Поиск и распространение информации. Термины и определения.

· ГОСТ 7.74 – 96 СИБИД. Информационно-поисковые языки. Термины и определения.

· ГОСТ 7.76 – 96 СИБИД. Комплектование фонда документов. Библиографирование. Каталогизация. Термины и определения.

С января 2004 г. введен в действие в качестве Государственного стандарта Российской Федерации ГОСТ 7.59 – 2003 «СИБИД. Индексирование документов. Общие требования к систематизации и предметизации».

В соответствии с современными требованиями стандарт состоит из 6 разделов. Структура ГОСТа следующая:

1. Область применения

3. Определения

4. Общие положения

4.1 Сущность индексирования

4.2 Объект индексирования

4.3 Условия индексирования

4.4 Принципы индексирования

4.5 Виды ИПЯ и терминов индексирования

5. Требования к ИПЯ

5.1 Общие требования

5.2 Требования к классификационным ИПЯ

5.3 Требования к предметизационным ИПЯ

6. Технологические процессы и общие правила индексирования

6.1 Общие правила индексирования

6.2 Правила систематизации

6.3 правила предметизации.

ГОСТ 7.59 – 2003 устанавливает общие требования к индексированию: систематизации и предметизации документов и информационно-поисковым языкам, применяемым при индексировании. Стандарт предназначен для библиотек, органов научно-технической информации, книжных палат, редакций и издательств.

В журнале «Библиотека», начиная со второго номера за 2004 г. в рубрике «Библиотековедение» проводится «Школа индексирования» Э.Р. Сукиасяном, где публикуется материал, комментирующий содержание ГОСТов по индексированию.

Статьи

Сукиасян Э.Р.
Школа индексирования. Занятие 1. Стандартные требования к индексированию

[ Библиотека. – 2004. – № 2. – С. 50-52 ]

С января 2ОО4 г. в нашей стране введен в действие непосредственно в качестве Государственного стандарта Российской Федерации ГОСТ 7.59–2ООЗ «СИБИД. Индексирование документов. Общие требования к систематизации и предметизации». Стандарт принят органами по стандартизации Азербайджана, Армении, Белоруссии, Грузии, Казахстана, Киргизии, Молдавии, Таджикистана, Туркмении, Узбекистана.
Индексирование – новое слово? Возможно, для части библиотекарей, работающих в публичных библиотеках. Все мы всегда занимались индексированием – оно включает в себя: систематизацию (без которой не обходится ни одна библиотека), предметизацию, координатное индексирование. ГОСТ 7.74 дает следующее определение этого термина: «Индексирование – выражение содержания документа и/или смысла информационного запроса на информационно-поисковом языке».
Новое для широкого круга библиотекарей понятие появилось в названии ГОСТ 7.59–90, введенного впервые в 1991 г. Тогда в профессиональной печати были опубликованы методические рекомендации, положения стандарта изучались библиотечными работниками. Введение стандарта было своевременным и необходимым. Его основные требования вошли в учебные пособия, инструкции и положения, общегосударственные нормы времени на основные процессы библиотечной работы.
Прошло более десяти лет. За эти годы изменилась классификационная практика в стране. Потребовалось уточнить перечень и наименования классификационных систем. Существенно упорядочена терминология рассматриваемой предметной области. Были утверждены терминологические стандарты 7.73–96, 7.74–96 и 7.76–96, в которые вошли многие из тех терминов, приведенных в стандарте 7.59–90. Изменилось оформление стандартов вообще – они стали межгосударственными.
Существенно обновился за этот период кадровый состав библиотек. В отделах, занимающихся каталогизацией и обработкой документов, появились сотни новых сотрудников. Если даже они имели библиотечное образование, возникла необходимость овладеть новой системой терминов, обновить технологические знания, изучить рекомендованные стандартами приемы и алгоритмы. Тем, которые специальной подготовки не имели, нужно заниматься более целенаправленно и углубленно. Каталогизация такая область библиотечной практики, где самодеятельность недопустима, есть определенные документы (стандарты, нормы, правила, обязательные инструкции), без знания и строго выполнения которых сегодня работать нельзя.
Еще пока не везде, но уже во многих библиотеках появились автоматизированные системы и электронные каталоги. Вместе с ними в нашу повседневную жизнь пришли новые понятия и правила индексирования.
Задачи школы
В связи с введением в действие ГОСТ 7.59–2003 возникло предложение организовать на страницах «Библиотеки», самого массового профессионального издания в нашей стране, заочной Школы индексирования. Мы планируем публиковать материалы этой рубрики постоянно, из номера в номер. Ознакомим с историей разработки стандарта. Поясним, как должен быть связан стандарт с правилами, инструкциями, учебными и практическими пособиями. Глубоко познакомим с терминами и их стандартными определениями. Последовательно разберем общие требования к индексированию документов. Специальные занятия посвятим информационно-поисковым языкам – классификационным, предметизационным, дескрипторным. Подробно рассмотрим принципы, общие требования и правила систематизации, предметизации, координатного индексирования.
Заочная школа предполагает обратную связь со слушателями. Вести занятия буду я, Эдуард Рубенович Сукиасян. Мне можно написать по электронной почте (E-mail: [email protected]) или на адрес редакции журнала.
Предшественники ГОСТ 7.59–2003
Любой стандарт рождается в результате обобщения многолетней практики. Библиотекари учились по учебникам, использовали практические пособия. Стандартов, регламентирующих технологические процессы, многие десятилетия не было. Появление централизованной каталогизации (например, печатной каталожной карточки), общая для всех или многих библиотек система классификации понемногу привели библиотекарей к пониманию целесообразности единых принципов и методов работы. На определенном этапе развития международных связей возникла необходимость максимального согласования отечественной практики каталогизации с зарубежной.
В декабре 1985 г. Международная организация по стандартизации (ИСО), активным членом которой была наша страна, утвердила Международный стандарт 5963 «Документация – методы анализа документов, определения их тематики и выбора терминов индексирования». МС ИСО 5963 по своему содержанию почти полностью совпадал с введенными с 01.01.1985 г. в СССР двумя стандартами: ГОСТ 7.44–84 «СИБИД. Систематизация документов. Общие требования» и ГОСТ 7.45–84 «СИБИД. Предметизация документов. Общие требования». Интересно: требования международного и отечественных стандартов совпадали в деталях, но наши стандарты оказались более четкими, формализованными, содержали некоторые положения, совершенно отсутствующие в МС ИСО. Сказался опыт: в нашей стране первый учебник вышел в 1947 г., многократно пересматривались разного рода инструкции и положения.
Вместе с тем в МС ИСО 5963 обнаружились несомненные достоинства, пренебрегать которыми не хотелось. Самостоятельной частью стандарта были определения встречающихся в нем терминов. В отечественной практике задачи стандартизации терминологии решались отдельными стандартами. В частности, для рассматриваемой области уже был утвержден ГОСТ 7.39–82 «СИБИД. Систематизация и предметизация. Термины и определения (введен с 01.01.1984 г.). Более интересной оказалась другая особенность МС ИСО. В нем вводились понятия и определялись требования общего характера, охватывающие как систематизацию, так и предметизацию. Отечественные ГОСТ 7.44 и 7.45 разрабатывались одним и тем же авторским коллективом, но не имели общей части и не были согласованы в деталях. Мы и не ставили такой задачи, разрабатывая два самостоятельных стандарта.
Преимущества МС ИСО были очевидны: проще освоить любой процесс, тем более – совокупность сложных процессов, какими являются систематизация и предметизация, выделив общее, единичное и особенное. Поэтому было решено объединить два отечественных стандарта, максимально приблизить их к МС ИСО 5963 по структуре и содержанию. В коллективе разработчиков были представлены и крупнейшие библиотеки, и библиографирующие центры, и органы информации. Надо было разработать такой стандарт, применение которого не ограничивалось бы ведомственными рамками. Это значило, что предстояло решить ряд сложных терминологических проблем: в эти годы в стране параллельно функционировали две системы терминов – библиотечная и информационная. Было решено использовать в стандарте современную международную терминологию. Мы пришли к выводу, что рано или поздно противоречия и несогласованности терминологии внутри страны будут урегулированы, жизнь заставит нас принять международные нормы. Впоследствии наша гипотеза полностью оправдалась.
ГОСТ 7.59–90 оказался не единственным, созданным на основе МС ИСО 5963. Спустя несколько лет был разработан и с 01.01.1993 г. введен в действие его «собрат» – ГОСТ 7.66–92 «СИБИД. Индексирование документов. Общие требования к координатному индексированию».
Что было нового
В период разработки ГОСТ 7.59–90 было проведено серьезное научное исследование. Разработчики хотели выяснить, не считают ли библиотекари некоторые требования стандарта 7.44–84 слишком жесткими, неправомерными. Стандартом предусматри-валось обязательное ведение во всех библиотеках алфавитно-предметного указателя к систематическому каталогу (АПУ) – не в качестве вспомогательного аппарата, а в роли составной части каталога. Поэтому предписывалось составление карточки АПУ в процессе обработки новых поступлений. Это требование основывалось на современных представлениях о том, что систематический каталог способен выполнять свои функции, если он обеспечен адекватным АПУ. Иначе говоря указатель отражает содержание фактически существующих в фонде документов, представленных в каталоге, а поступающих в фонд – в процессе их обработки. Вводилось также обязательное редактирование классификационного решения и предметных рубрик АПУ, ведение систематической контрольной картотеки (СКК) к АПУ. Соответственно были изменены общегосударственные нормы времени.
Обследование показало, что сотни библиотек так уже работали, и ничего оригинального, нового стандарт не вносил. Дело в том, что указанные процессы становились обязательными. Выявилось четкое соответствие между наличием и качеством АПУ в библиотеке и количеством обращений к каталогу. Там, где каталог «существовал без адекватного АПУ, он оставался «вещью в себе». Там, где АПУ просто перепечатывался с таблиц классификации, каталогом пользовались с трудом (новая тематика в нем не отражалась). Если же библиотека постоянно вела АПУ, читатель эффективно работал с каталогом.
Новой, конечно, была терминология. Если взять учебники 1940–1950-х гг., то там многих терминов, которыми успешно оперируем сегодня, мы не встретим. Каждая эпоха обогащает наш профессиональный язык. Но если взять ГОСТ 7.59, мы вправе говорить не столько об «обогащении», сколько об уточнении понятий. Впрочем, практика показала, что новая терминология прижилась быстро. Наибольшие трудности возникли с понятием «термин индексирования» (indexing term), разобраться в котором нам еще предстоит.
Структура ГОСТ 7.59–2003
В соответствии с современными требованиями стандарт состоит из 6 разделов. В первом («Область применения») говорится (здесь и далее текст стандарта будет цитироваться без каких-либо изменений и выделяться особым шрифтом):
Настоящий стандарт устанавливает общие требования к индексированию: систематизации и предметизации документов и информационно-поисковым языкам, применяемым при индексировании. Стандарт предназначен для библиотек, органов научно-технической информации, книжных палат, редакций и издательств.
Затем следует довольно обширный раздел «2 Нормативные ссылки»:
В настоящем стандарте использованы ссылки на следующие стандарты:
ГОСТ 7.66–92 (ИСО 5963-85) Система стандартов по информации, библиотечному и издательскому делу. Индексирование документов. Общие требования к координатному индексированию.
ГОСТ 7.73–96 Система стандартов по информации, библиотечному и издательскому делу. Поиски распространение информации. Термины и определения.
ГОСТ 7.74–96 Система стандартов по информации, библиотечному и издательскому делу. Информационно-поисковые языки. Термины и определения.
ГОСТ 7.76–96 Система стандартов по информации, библиотечному и издательскому делу. Комплектование фонда документов. Библиографирование. Каталогизация. Термины и определения.
Очень ценным является раздел «3 Определения», в котором после слов «В настоящем стандарте применяют следующие термины с соответствующими определениями…» дан перечень 45 терминов, большая часть – со ссылками на указанные выше терминологические стандарты, а на 16 других терминов даны определения здесь же.
Вся дальнейшая структура стандарта будет понятна из приведенной схемы.
Структура ГОСТ 7.59–2003 «СИБИД. Индексирование Документов. Общие требования к систематизации и предметизации»

  1. Область применения
  2. Нормативные ссылки
  3. Определения
  4. Общие положения 4.1 Сущность индексирования 4.2 Объект индексирования 4.3 Условия индексирования 4.4 Принципы индексирования 4.5 Виды ИПЯ и терминов индексирования
  5. Требования к ИПЯ 5.1 Общие требования 5.2 Требования к классификационным ИПЯ 5.3 Требования к предметизационным языкам
  6. Технологические процессы и общие правила индексирования 6.1 Общие правила индексирования 6.2 Правила систематизации 6.3 Правила предметизации

Мы начнем наши занятия с раздела 4 «Общие положения». Все терминологические пояснения будут даны по мере необходимости.

Please enable JavaScript to view the

ГОСТ 7.66-92
(ИСО 5963-85)

Группа Т62

ГОСУДАРСТВЕННЫЙ СТАНДАРТ СОЮЗА ССР

Система стандартов по информации, библиотечному и издательскому делу

ИНДЕКСИРОВАНИЕ ДОКУМЕНТОВ

Общие требования к координатному индексированию

System of standards on information,
librarianship and publishing. Indexing of documents.
General requirements for coordinate indexing


ОКСТУ 0007

Дата введения 1993-01-01

ИНФОРМАЦИОННЫЕ ДАННЫЕ

1. РАЗРАБОТАН И ВНЕСЕН Государственным комитетом СССР по науке и технологиям и Техническим комитетом ТК 191 "Научно техническая информация, библиотечное и издательское дело"

РАЗРАБОТЧИКИ

В.Н.Белоозеров, канд. филол. наук (руководитель темы); Н.Д.Кравченко, канд. пед. наук; И.В.Тростникова; Н.А.Сливницина; Г.Н.Хондкариан; В.Н.Казаков, канд. техн. наук

2. УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Постановлением Комитета стандартизации и метрологии СССР от 27.03.92 N 297


Настоящий стандарт разработан методом прямого применения стандарта ИСО 5963-85 "Документация. Методы анализа документов, определения их тематики и выбора терминов индексирования" с дополнительными требованиями, отражающими потребности народного хозяйства

3. Срок первой проверки - 1995 г.

Периодичность проверки - 5 лет

4. РАЗРАБОТАН ВПЕРВЫЕ

5. ССЫЛОЧНЫЕ НОРМАТИВНО-ТЕХНИЧЕСКИЕ ДОКУМЕНТЫ

Номер пункта, приложения

ГОСТ 7.0-84

Вводная часть

ГОСТ 7.25-80

ГОСТ 7.26-80

Вводная часть

ГОСТ 7.27-80

Вводная часть; приложение 1

ГОСТ 7.52-85

Вводная часть; 5.7

ГОСТ 7.59-90

Вводная часть; приложение 1


Настоящий стандарт устанавливает общие требования к координатному индексированию документов, включая правила формирования поискового образа документа. Специфические требования к систематизации и предметизации документов - по ГОСТ 7.59 . Форма представления поискового образа документа в коммуникативном формате МЕКОФ - по ГОСТ 7.52 .

Стандарт распространяется на информационно-поисковые системы, в которых содержание документов представлено в сжатой форме лексическими единицами информационно-поискового языка. Стандарт не распространяется на формирование фактографических записей в фактографических базах данных.

Термины и определения - по ГОСТ 7.0 , 7.26, 7.27, 7.59 и приложению 1.

Дополнительные требования, отражающие потребности народного хозяйства, приведены в приложении 1.

1. ОБЩИЕ ПОЛОЖЕНИЯ

1. ОБЩИЕ ПОЛОЖЕНИЯ

1.1. Процесс индексирования включает следующие этапы, которые осуществляют в указанной ниже последовательности:

анализ и определение содержания документа как объекта индексирования;

выбор понятий, характеризующих содержание документа;

выбор терминов индексирования для обозначения понятий;

формирование поискового образа документа из терминов индексирования.

Перечисленные этапы могут быть объединены в составе технологических процедур при условии надлежащего выполнения каждого из этапов.

1.2. Поисковый образ документа (ПОД) формируют из выбранных терминов индексирования при помощи грамматических средств информационно-поискового языка (ИПЯ).

1.3. В процессе индексирования не рекомендуется описывать документ как физический объект (с точки зрения его формы, объема и пр.). Допускается отражать в ПОД подобную информацию, если она позволяет более точно установить соответствие документа информационной потребности пользователя системы.

2. АНАЛИЗ ДОКУМЕНТА

2.1. При анализе документа индексатору должна быть предоставлена возможность ознакомиться с документом в полном объеме. При невозможности исчерпывающего ознакомления с документом индексатор должен изучить имеющиеся текстовые части документа (основные источники индексирования):

справочный аппарат документа - заглавие (наименование), аннотацию, реферат, содержание (оглавление), предисловие, заключение и др.;

введение;

заголовки частей и глав;

первые фразы глав и параграфов;

иллюстрации, схемы, таблицы и подписи к ним;

слова и группы слов, которые в тексте подчеркнуты или выделены полиграфическими средствами.

Индексирование только по заглавиям является неполноценным. При индексировании по рефератам и аннотациям следует следить за адекватностью передачи в них содержания документа.

2.2. При анализе нетекстовых (аудиовизуальных и других) документов, которые помимо чтения требуют просмотра, прослушивания, испытания объекта в действии и других подобных процедур, допускается индексирование их по имеющемуся текстовому компоненту (наименованию, краткому описанию и т. п.), но и в этом случае индексатору должна быть предоставлена возможность полного ознакомления с документом, если текстовый материал представляется недостаточным.

3. ВЫБОР ПОНЯТИЙ, ХАРАКТЕРИЗУЮЩИХ СОДЕРЖАНИЕ ДОКУМЕНТА

3.1. Число характеристик и понятий, отраженных в ПОД, определяет его полноту и является важнейшим показателем качества индексирования.

3.1.1. В ПОД необходимо отразить все понятия, которые могут иметь ценность для пользователей системы.

В документе может быть выявлено более одной темы из сферы интересов пользователей. Эти темы должны рассматриваться раздельно.

3.1.2. Тематика, отражаемая при индексировании, не должна ограничиваться узкими рамками непосредственных интересов пользователей ИПС. Следует включать в ПОД также понятия, связанные с побочными аспектами документа (например, социальные и экономические аспекты научно-технических исследований).

3.1.3. При выборе понятий основным критерием является потенциальная ценность понятия для выражения содержания документа или для его поиска. При этом необходимо ориентироваться на типичные запросы к ИПС:

отбирать понятия, наиболее употребительные в коллективе пользователей ИПС;

уточнять состав лексики и грамматические правила ИПЯ на основе обратной связи с пользователями.

Изменения, вносимые в ИПЯ, не должны нарушать общую структуру и логику, заложенные при его создании.

3.1.4. Число терминов индексирования, приписываемых одному документу, определяется количеством сведений, содержащихся в документе. Ограничение числа терминов должно быть основано на содержательном отборе наиболее важных понятий.

3.2. Полнота индексирования, принятая в каждой ИПС, определяется ее функциональным назначением. Объем документа также сильно влияет на полноту индексирования. Необходимо учитывать указанные факторы и на их основе производить экспертный отбор понятий из документа, не стремясь включить в ПОД все упомянутые в нем понятия.

3.3. Специфичность ПОД определяется тем, в какой мере понятия документа нашли точное отражение терминами индексирования, и также является одним из параметров качества индексирования. Замена понятия термином, отражающим более широкое понятие, приводит к потере специфичности. Более широкие термины допускается использовать в особых случаях:

если излишне специфичный термин непонятен пользователям, особенно когда соответствующее понятие применяется только в пограничных областях деятельности;

если в документе понятие раскрыто недостаточно полно или является вспомогательным для изложения содержания документа.

3.4. Рекомендуется в каждой ИПС разрабатывать списки характеристик, которые признаются важными для отражения в ПОД. Для всех систем может быть рекомендован список указателей роли по ГОСТ 7.52 . В зависимости от потребности конкретной ИПС этот список может быть как расширен, так и сокращен.

4. ВЫБОР ТЕРМИНОВ ИНДЕКСИРОВАНИЯ

4.1. В процессе выбора терминов индексирования понятия, характеризующие содержание документа, представляют:

предпочтительными лексическими единицами (дескрипторами или ключевыми словами), выбранными по правилам конкретного ИПЯ;

терминами, отражающими новые понятия, проверив их точность и приемлемость по словарям, энциклопедиям, справочникам, классификационным таблицам, информационно-поисковым тезаурусам, терминологическим стандартам и другим источникам, признанным авторитетными в данной области.

4.2. Выбор терминов индексирования осуществляют на основе зарегистрированного (ГОСТ 7.25) или опубликованного информационно-поискового тезауруса, который используют при составлении запросов к ИПС.

При использовании тезауруса допускается сокращать число терминов, включаемых в ПОД за счет исключения общих понятий, которые могут быть привлечены на этапе поиска документа или на этапе составления поискового предписания на основании ссылок в статьях тезауруса.

4.3. Понятия, не представленные в словаре индексирования, но необходимые для формирования ПОД, выражают одним из двух способов:

новым специфическим термином, который включают в ПОД и в словарь;

более общим термином, имеющимся в ИПЯ; при этом специфический термин направляют в службу ведения ИПЯ в качестве кандидата на включение в словарь.

Новые понятия представляют наиболее близкими из существующих в ИПЯ лексических единиц, а также оценивают полезность включения новых терминов в словарь с точки зрения поиска.

4.4. При индексировании свободными ключевыми словами, взятыми из текста документа, они должны быть приведены к канонической форме по ГОСТ 7.25 . Длину словосочетаний рекомендуется ограничивать двумя-тремя словоформами.

Схема индексирования с использованием информационно-поискового тезауруса приведена в приложении 2.

5. ФОРМИРОВАНИЕ ПОИСКОВОГО ОБРАЗА ДОКУМЕНТА

5.1. ПОД состоит из выбранных терминов индексирования, организованных с помощью грамматических средств ИПЯ данной ИПС.

5.2. В состав ПОД могут быть включены следующие категории данных, предусмотренные технологией индексирования конкретной ИПС:

степень нормализации терминов индексирования и применяемый для этого словарь;

индивидуальные характеристики термина индексирования;

связь терминов индексирования в синтаксических конструкциях ПОД.

Для включения в ПОД фактографических данных применяют грамматические категории, указанные в разд. 6.

5.3. По степени нормализации различают два типа терминов координатного индексирования: дескрипторы и ключевые слова.

5.4. Термины индексирования должны быть представлены в ПОД в соответствии с орфографическими правилами используемого в системе естественного языка.

5.4.1. Дескрипторы допускается представлять условными кодами, которые указаны в используемом словаре индексирования. В этом случае ИПС должна обеспечивать автоматический поиск орфографических форм дескрипторов по их кодам.

5.4.2. Ключевые слова в многоязычных информационных системах, с ПОД на основе различных национальных языков, должны быть снабжены пометами о принадлежности к тому или иному естественному языку.

5.5. Индивидуальные характеристики терминов индексирования являются факультативными элементами ПОД и их используют для уточнения содержания документа, организации процедур информационного поиска или дальнейшей аналитико-синтетической обработки документов в системе.

К индивидуальным характеристикам относят данные о семантической и морфологической категории термина индексирования, его роли и информационном весе, способе получения и предполагаемом использовании.

5.5.1. Семантическая характеристика термина индексирования заключается в отнесении его к следующим лексикографическим категориям:

1) термин, выражающий научно-техническое понятие;

2) имя собственное, идентификатор;

3) наименование параметра;

4) значение параметра (выраженное текстом или именованной величиной);

5) числовое выражение;

6) обозначение единицы величины.

5.5.2. Морфологическая характеристика термина индексирования заключается в отнесении его к лексикографическим категориям:

1) производное слово;

2) сложное слово;

3) словосочетание;

4) аббревиатура;

5) фрагмент слова.

Морфологические характеристики используют в ПОД для реализации в ИПС смыслового анализа лексических единиц на основе их формальных признаков.

5.5.3. Роль термина индексирования указывают в ПОД для уточнения места соответствующего понятия в содержании документа. Для этого особыми указателями роли, принятыми в ИПС, отмечают термины индексирования, отражающие следующие аспекты документа:

1) объект исследования, описания;

2) характеристики, свойства, параметры объекта;

3) методы и средства исследования, технологическую оснастку;

4) составные части, узлы, детали объекта;

5) область применения объекта (отрасль хозяйства, техники, науки);

6) назначение объекта;

7) цель исследования, разработки, описания;

8) результаты исследования, разработки.

5.5.4. Информационный вес термина индексирования отражает в ПОД важность данного понятия для данного документа. Число градаций информационного веса определяется потребностями конкретной ИПС. Следует различать:

1) понятия, выражающие главную тему документа;

2) понятия, выражающие побочные темы документа;

3) понятия, использованные в документе как вспомогательные для изложения его содержания.

Допускается использовать указатель отрицательного веса, которым помечают термины индексирования для указания на то, что данное понятие не рассматривается в документе.

5.5.5. Пометы, необходимые для указания на способ получения термина индексирования, используют для организации технологического процесса индексирования. Следует различать следующие пометы:

1) термин назначен по усмотрению индексатора, но отсутствует в документе;

2) термин введен в ПОД на основании связей, указанных в тезаурусе, но отсутствует в документе;

3) термин получен при автоматическом индексировании.

5.5.6. Пометы о предполагаемом использовании термина индексирования вводят в ПОД с целью выделить лексические единицы, подлежащие специальной обработке в процессах дальнейшей аналитико-синтетической переработки информации. Следует различать следующие пометы:

1) термин используется как предметная рубрика указателей:

2) при данном термине индексирования имеются фактографические данные, указанные в ПОД;

3) термин используется только как уточняющий определитель к другим терминам.

5.6. Термины индексирования в ПОД могут быть снабжены указателями связи, объединяющими их в синтаксические конструкции, которые отражают:

1) порядок следования и взаимное расположение терминов индексирования в документе;

2) смысловые связи понятий в документе;

3) парадигматические связи дескрипторов в тезаурусе.

Синтаксические конструкции рассматривают как цельные единицы ПОД наряду с терминами индексирования. Они могут быть объединены с другими синтаксическими конструкциями или с отдельными терминами индексирования в конструкции более высокого порядка.

Число уровней иерархии синтаксических конструкций определяется потребностями конкретных ИПС. Не следует применять конструкции четвертого и более высоких порядков.

Синтаксические конструкции могут быть охарактеризованы указателями веса, роли и предполагаемого использования аналогично индивидуальным терминам индексирования (см. пп.5.5.3, 5.5.4, 5.5.6).

5.7. Запись ПОД в памяти ИПС обусловлена принятым в ней способом кодирования с учетом требований настоящего раздела и ГОСТ 7.52 .

6. ФАКТОГРАФИЧЕСКОЕ ИНДЕКСИРОВАНИЕ ДОКУМЕНТА

6.1. Фактографическое индексирование документа (ФИД) заключается в выявлении в документе и включении в ПОД данных, выражающих конкретные сведения (сообщения), имеющиеся в документе.

На основании результатов ФИД в фактографических ИПС формируются массивы сведений, в которых единицей информации является фактографическая запись.

6.2. ФИД предполагает формальное различение в ПОД двух категорий терминов индексирования, выражающих:

1) темы или объекты сообщения;

2) приписанные этим объектам свойства, являющиеся смыслом сообщения.

Соответствующие термины индексирования должны быть связаны друг с другом в синтаксическую конструкцию, объединяющую наименование объекта, его характеристики, их значения, единицы величины и отражающую смысловые связи понятий в документе.

Дополнительно такая синтаксическая конструкция может быть охарактеризована:

1) показателем модальности;

2) условием истинности.

6.3. Показатель модальности фактографического сообщения определяет различие между сообщениями следующих типов:

1) наблюдаемый факт;

2) допускаемое значение;

3) требование стандарта;

4) плановый показатель;

7) предположение;

8) условие.

Если в информационной системе не используют показатели модальности, то все фактографические сообщения рассматривают как принадлежащие одной модальности, которая должна быть указана в эксплуатационной документации системы.

6.4. Условием истинности фактографического сообщения является другое фактографическое сообщение, связанное с первым в синтаксическую конструкцию вышестоящего уровня.

Например:

Х = вес продукта

Z = 150 г.

V = влажность не более 45%,

где Х - характеристика объекта,

Z - значение характеристики,

Y - условие истинности.

Фактографическое сообщение, являющееся условием истинности, должно иметь показатель модальности условия "если", например:

(вес продукта = 150 г) (если (влажность не более 45%)).

6.5. Термины индексирования, выражающие тему (объект) сообщения, относятся к категориям 1 или 2, указанным в п.5.5.1. При использовании категории 1 термину индексирования может быть дополнительно приписан показатель единичности или общности объекта (квантор).

Квантор общности используют в сообщениях, где выражено утверждение обо всех объектах, попадающих в объем соответствующего понятия.

Квантор единичности используют в сообщениях, где выражена информация о том объекте, входящем в состав данного понятия, который рассматривается в данном документе.

6.6. Термины индексирования, выражающие свойства объектов, которые составляют смысл сообщения, могут быть выражены лексическими единицами категорий 1, 2, 3 (см. п.5.5.1) или параметрической конструкцией (см. п.5.6).

6.7. Параметрическая конструкция должна состоять из двух формально выраженных частей: наименования параметра и перечня значений параметра (см. п.6.8), которые объединены в одну синтаксическую конструкцию.

6.8. Перечень значений в параметрической конструкции должен включать набор значений параметров и указание об альтернативности или одновременности (симультанности) значений.

Набор значений задают перечислением или указанием двух предельных значений, между которыми располагаются значения, принимаемые параметром (интервалом значений). При задании интервала значений формально указывают, которое из значений является начальным и конечным для интервала значений, а также входят ли граничные значения в указанный интервал. Одно из граничных значений интервала может отсутствовать, если значение параметра ограничено только с одной стороны.

Указание об одновременности используют, когда у одного объекта сообщения наблюдаются все заданные значения параметра. Указание об альтернативности используют, когда параметры одного объекта сообщения должны быть выбраны из числа заданных.

6.9. Значения параметра могут быть представлены синтаксической конструкцией из двух терминов индексирования - числового выражения и наименования единицы величины - при необходимости производить операции расчета или численного сравнения.

7. АВТОМАТИЗИРОВАННОЕ ИНДЕКСИРОВАНИЕ

7.1. Целью автоматизации индексирования является минимизация материальных и человеческих ресурсов, затрачиваемых на процедуру индексирования, а также достижение стабильности и единообразия ее результатов.

7.2. Автоматизированное индексирование (АИ) осуществляют по:

1) тексту первичного документа.

2) заглавию и аннотации или реферату документа;

АИ по тексту первичного документа должно включать процедуру сжатия ПОД.

7.3. С использованием вычислительной техники осуществляют следующие содержательные этапы АИ:

1) выявление информативных частей документа;

2) идентификация слов текста и приведение их к нормализованному виду (морфологический анализ и синтез);

3) формирование списка ключевых слов исходного текста;

4) подбор дескрипторов по тезаурусу;

5) формирование ПОД.

7.4. Выявление информативных частей документа

Технология АИ должна предусматривать идентификацию и предоставление индексатору или программе индексирования наиболее информативных фрагментов документа из списка указанных в п.2.1. Могут быть предусмотрены алгоритмы выявления информативных фрагментов по другим формальным критериям, а также по решению специалиста-индексатора.

7.5. Идентификация слов текста

7.5.1. Процесс идентификации слов текста должен включать: отождествление словоформ одного слова и определение информативных слов текста.

При этом может быть необходимо использование интеллектуальных процедур для решения таких задач, как выявление и обработка синтаксических конструкций, выявление и разрешение омонимии.

7.5.2. Для идентификации слов текста используют машинные словари (словари основ, парадигм, словосочетаний и т.д.). Словари должны быть представлены в базе данных системы и обеспечены средствами визуализации и ведения.

7.6. Формирование списка ключевых слов текста

7.6.1. В процессе формирования списка ключевых слов текста проводится синтаксический анализ текста с учетом правил сочетаемости грамматических категорий данного естественного языка.

7.6.2. Синтаксический анализ текста решает задачи:

1) разделение текста на фрагменты по заданным критериям;

2) установление синтаксических зависимостей между словоформами текста;

3) отождествление словосочетаний;

4) нормализация выявленных ключевых слов.

7.7. Автоматическое формирование ПОД

7.7.1. В процедуре АИ допускается формирование ПОД из свободных ключевых слов или дескрипторов информационно-поискового тезауруса, используемого в данной области.

7.7.2. При АИ дескрипторами информационно-поискового тезауруса на этапе формирования ПОД происходит замена ключевых слов на дескрипторы, указанные в тезаурусе.

7.7.3. При формировании ПОД из дескрипторов возможно обогащение ПОД за счет пополнения вышестоящими терминами информационно-поискового тезауруса.

7.7.4. Процедура АИ должна предусматривать включение в ПОД типовых грамматических средств (см. разд. 5).

7.7.5. К системам АИ предъявляются следующие требования:

1) модульность построения, т.е. такая внутренняя организация лингвистического и программного обеспечения системы, при которой процедуры решения отдельных задач АИ реализуются с помощью самостоятельных блоков или модулей;

2) ориентация на типовые программные и технические средства;

3) соответствие действующей нормативно-методической документации по координатному индексированию.

ПРИЛОЖЕНИЕ 1 (справочное). ТЕРМИНЫ И ОПРЕДЕЛЕНИЯ

ПРИЛОЖЕНИЕ 1

Справочное

1. Автоматизированное индексирование - индексирование, технология которого предусматривает использование формальных процедур, осуществляемых с помощью вычислительной техники, и может включать применение интеллектуальных процедур при принятии основных решений о составе поискового образа.

2. Автоматическое индексирование - составление поискового образа с использованием только формальных процедур обработки текста документа или запроса, осуществляемых средствами вычислительной техники.

3. Информативное слово - слово или словосочетание в тексте документа или запроса, которое несет в нем существенную смысловую нагрузку.

4. Контролируемое индексирование - индексирование, при котором предусмотрена замена информативных слов текста дескрипторами, указанными в определенном информационно-поисковом тезаурусе или другом словаре индексирования.

5. Координатное индексирование - индексирование, цель которого состоит во всестороннем отражении содержания документа или запроса путем включения в поисковый образ всех необходимых для этого терминов индексирования.

6. Лексическая единица (ЛЕ) ИПЯ - последовательность символов, слово, словосочетание, фрагмент слова или условное обозначение, которая рассматривается в данном ИПЯ как элементарная единица, используемая для представления в поисковых образах документов или запросов определенного понятия, объекта или значения параметра.

7. Свободное индексирование - индексирование, технология которого не предусматривает замену информативных слов текста в соответствии с рекомендациями специального словаря индексирования.

8. Специфический термин - информативное слово, в наибольшей степени отражающее содержание документа, использование которого отличает данный документ от других тематически близких документов.

9. Специфичность индексирования - характеристика качества индексирования, определяемая отношением числа специфических терминов и фактографических сведений к числу неспецифических терминов в поисковом образе.

10. Полнота индексирования - степень отражения в поисковом образе содержания документа и (или) запроса, определяемая как отношение числа специфических терминов и фактографических сведений, включенных в поисковый образ, к числу таковых терминов и сведений, имеющихся в тексте документа или запроса.

11. Фактографическое индексирование - индексирование, предусматривающее отражение в поисковом образе документа конкретных сведений (сообщений), являющихся смыслом данного документа.

ПРИЛОЖЕНИЕ 2 (справочное). СХЕМА ИНДЕКСИРОВАНИЯ ПО ИНФОРМАЦИОННО-ПОИСКОВОМУ ТЕЗАУРУСУ

ПРИЛОЖЕНИЕ 2
Справочное

1. Изучить документ и составить перечень существенных для его содержания понятий с учетом специфики ИПС.

2. Рассмотреть первое понятие

3. Найти в тезаурусе лексическую единицу, отражающую данное понятие. Если таковой нет, перейти к п.11.

4. Если найденная лексическая единица - аскриптор, заменить ее указанным в ссылке дескриптором (или комбинацией дескрипторов).

6. Проверить, не являются ли указанные в ссылках дескрипторы более специфичными для выражения данного понятия. Если да, то перейти к п.10.

7. Записать найденные лексические единицы в поисковый образ, снабдив их необходимыми грамматическими показателями по правилам данного ИПЯ.

8. Проверить, имеются ли еще не отраженные в поисковом образе понятия из документа и рассмотреть следующее понятие. Перейти к п.3.

9. Если список понятий документа исчерпан, окончить работу.

10. Заменить исходный дескриптор более специфичными согласно указанию ссылки в тезаурусе. Перейти к п.7.

11. Найти в тезаурусе дескрипторы, совместное включение которых в поисковый образ отражает данное понятие. Если таковых нет, перейти к п.12, если есть - перейти к п.5.

12. Установить термин, выражающий понятие и удовлетворяющий требованиям к дескриторам по ГОСТ 7.25 .

13. Направить найденный термин в службу ведения ИПЯ в качестве кандидата на включение в тезаурус. Перейти к выполнению п.7.

14. Конец.

Блок-схема индексирования по информационно поисковому тезаурусу показана на чертеже.

Блок-схема алгоритма индексирования



Текст документа сверен по:
официальное издание
М.: Издательство стандартов, 1992

Индексирование –процесс выражения содержания документа и
(или)запроса на информационно-поисковом языке (ИПЯ)с помощью
терминов индексирования– классификационных индексов, предметных
рубрик (ПР), ключевых слов, дескрипторов, кодов. Иными словами,
индексирование – процесс перевода содержания документов и запросов с
естественного языка на ИПЯ, в результате чего создается поисковый образ
документа (ПОД) и поисковый образ запроса (ПОЗ). Таким образом,
происходит «свертывание» информации, содержащейся в документе, и
изложение ее на ИПЯ в виде индекса, предметной рубрики или
дескриптора, ключевого слова

Информационно-поисковый язык (ИПЯ) –это специально созданный
искусственный язык, предназначенный для выражения содержания
документов и (или) запросов с целью их последующего поиска. ИПЯ – это
основной элемент логико-семантического аппарата информационнопоисковой системы (ИПС)
Основные требования, предъявляемые к ИПЯ:
· Однозначность;
· Достаточная семантическая сила
· Открытость (возможность корректировки языка)

Каждый ИПЯ имеет определенный словарный состав, представляющий
совокупность лексических единиц (ЛЕ) – обозначения отдельного
понятия, минимального и неделимого в этой функции. В качестве ЛЕ в
ИПЯ используется лексика естественных языков – слова, словосочетания
предметной рубрики, цифровые или буквенно-цифровые коды и т.д.
Важным моментом при индексировании является создание поискового
образа документов (ПОД).Поисковый образ документа– основное
смысловое содержание документа (а не вся информация, содержащаяся в
нем), выраженное в терминах формализованного ИПЯ. ПОД ставится в
однозначное соответствие этому документу, по нему производится
отыскание документов в массиве документов.

Идексирование запроса также осуществляется путем перевода его
содержания на ИПЯ. Таким образом, совокупность терминов
индексирования, выражающих смысловое содержание запроса, называется
поисковым образом запроса (ПОЗ).
Поиск ведется по совокупности терминов индексирования. С целью
повышения эффективности поиска информации по запросу ПОЗ может быть
дополнен специальными указаниями о последовательности выполнения
логических операций в процессе информационного поиска, которые
называются поисковым предписанием.

Индексирование реализуется в следующих процессах: предметизации,
систематизации и координатном индексировании.
Систематизация –вид индексирования, при котором содержание документа
и (или) запроса выражено классификационными индексами, в соответствии с
правилами определенного классификационного ИПЯ (КС). Такой принцип
индексирования принято считать классификационным. Он обеспечивает
возможность организации информационного поиска по иерархическому
признаку. Специалисты, осуществляющие процесс систематизации в
библиотеках и информационных центрах, называются систематизаторами

Предметизация– вид индексирования, при котором содержание документа и (или)
запроса выражено предметной рубрикой (ПР) в соответствии с правилами определенного
предметизационного ИПЯ. Предметизационный принцип индексирования основан на
использовании ЛЕ, которые входят в состав предметных рубрик, естественного языка (т.е.
предметные рубрики, выражающие ПОД и ПОЗ составляются на основе естественного
языка). Предметизационный принцип индексирования обеспечивает возможность
организации информационного поиска по алфавитному признаку. Процессы
предметизации осуществляются в библиотеках и информационных центрах
предметизаторами.
Координатное индексирование –вид индексирования, при котором смысловое
содержание документа и (или) запроса многоаспектно выражаются множеством ключевых
слов или дескрипторов. ИПЯ, предназначенный для координатного индексирования,
называется дескрипторным языком. Специалисты, осуществляющие координатное
индексирование, называются индексаторами.

.
Итак, в зависимости от вида индексирования, выделяются
предметизационные, классификационные и дескрипторные ИПЯ. В их
состав входит множество ЛЕ и грамматические (парадигматические и
синтагматические) отношения между ними. ЛЕ – обозначение отдельного
понятия, принятое в ИПЯ и неделимое в этой функции. ЛЕ могут
представлять собой принятые в естественном языке слова, устойчивые
словосочетания, аббревиатуры, символы, даты, общепринятые сокращения,
лексически значимые компоненты сложных слов, а также эквивалентные им
кодовые или символические обозначения искусственного языка.
Грамматические отношения позволяют организовать ЛЕ в систему.

Требования к ИПЯ:
· Полно и точно передавать содержание документа, отражаемого в данной ИПС;
· Обеспечить однозначное толкования терминов индексирования;
· Допускать многоаспектное индексирование;
· Допускать внесение изменений (дополнений, исправлений);
· Обеспечивать простоту и удобство индексирования, информационного поиска и
ведение данной ИПС;
· Отражать современное состояние терминосистемы в данной области знания.

10.

Необходимость создания искусственного языка (для
выражения смыслового – семантического содержания
документов с целью их поиска) обусловлена тем, что
естественный язык обладает рядом свойств,
препятствующих его использованию для записи и поиска
информации: это неоднозначность и многозначность слов
естественного языка. Точное значение многих слов можно
определить только из контекста, в котором они
употреблены (ударный инструмент, ударная доза и т.д.).
Эти факторы не позволяют добиться точного соответствия
между содержанием документа и средствами выражения
этого содержания.
Трудности использования естественного языка в качестве
ИПЯ усиливаются еще и тем, что в ИПС в качестве входных
документов могут быть использованы не полные тексты, а
рефераты, аннотации, библиографические описания,
которые являются результатом свертывания содержания
документов.

Примеры индексирования документов в конкретной и биографической базе данных

При индексировании документов используется два вида информационно-поискового языка: классификационные индексы и ключевые слова. При формировании базы данных индексирование осуществляется de visu – по полному тексту исходного документа. Такой метод позволяет с помощью набора ключевых слов более полно и адекватно отразить содержание индексируемого документа, а набор ключевых слов по сути может выступать как вспомогательная аннотация документа. Например:

Бандиты, вымогавшие цветные металлы у директора «Росвнештерминала» В. Бурова, представились «кобзоновскими».

Ключевыми словами здесь будут:

Цветные металлы. Вымогательство. Контрабанда. ОПГ – «кобзоновская». Кобзон И. Буров В. Иваньков В. = Япончик. Захаров А. = Захар.

Данный пример хорошо показывает, как можно избежать перегруженности аннотации и при этом не допустить потери информации.

Наиболее сложной частью работы по вводу документа в базу данных является выбор ключевых слов при индексировании этого документа. Эта трудность усугубляется отсутствием какой-либо нормализации лексики, используемой при работе над базами данных. Особую сложность вызывает выбор ключевых слов, отражающих названия учреждений, общественных организаций и т. п. С одной стороны, очевидно, что одному объекту должно соответствовать одно название, но с другой стороны – вольное обращение журналистов с обозначением этих объектов (а выбор ключевых слов происходит на основании текста публикации) приводит к тому, что в базе данных одному объекту соответствует несколько названий.

Например:

Ассоциация правовой защиты и реабилитации инвалидов,

Ассоциация социально-правовой защиты и реабилитации инвалидов,

Ассоциация по реабилитации и социальной поддержке инвалидов.

Это затрудняет пользователю поиск и может снизить его полноту. Поэтому, когда пользователь дает запрос на поиск информации, он тоже должен учитывать, что одно и то же учреждение или организация могут быть зафиксированы под разными названиями. Принятие во внимание этого фактора поможет снизить информационные потери, а в некоторых случаях сведет их до минимума.

Иногда из публикаций не всегда понятно, идет ли речь об одном объекте или это различные объекты со сходными наименованиями. Например:

Антимонопольное территориальное управление,

Антимонопольное управление,

Антимонопольный комитет.

Проблемой является и выбор ключевых слов, соответствующих названиям культовых зданий.

Какое ключевое слово предпочесть создателю базы и пользователю из следующего списка:

Собор Св. Петра и Павла,

Собор Петра и Павла,

Петропавловский собор,

Собор Св. апостолов Петра и Павла.

Порой трудно идентифицировать культовые здания, когда в исходной публикации используется слово «храм», а не «церковь» или «собор». Например, если в документе употреблено словосочетание «Никольский храм», то неясно, идет ли речь о Никольском соборе на площади Коммунаров или о Никольской церкви на улице Марата.

Пользователю при формулировании запроса необходимо помнить и о многочисленных переименованиях, начало которым положила перестройка. Например:

Театр им. Ленинского комсомола, см. Балтийский дом.

Необходимо учитывать при составлении запроса и те случаи, когда имеется два общепринятых названия одного объекта. Например:

Центральный выставочный зал, см. Манеж.

Кунсткамера, см. Институт антропологии и этнографии им. Петра Великого.

В настоящее время идет работа по отбору и систематизации ключевых слов, используемых при создании базы данных, что, безусловно, облегчит пользователю доступ к информации. Выявляются параллельные ряды, существующие в словаре, и для каждого ряда синонимов выбирается слово-представитель – дескриптор. Предполагается, что после завершения этого этапа работ индексирование будет по-прежнему осуществляться на основе текста публикации, но не непосредственно: термин или словосочетание, выбранное в качестве ключевого слова, которое попадает в словарь, будет сравниваться с контролируемым словарем и войдет в документ в той форме, которая в этом словаре зафиксирована.

Для журналиста, независимо от места его работы, электронные базы данных по-прежнему представляют самый оперативный источник новейшей информации. К тому же это еще наиболее экономичный источник. Но почти для всех журналистов поиск в электронных базах данных остается двухступенчатым процессом, и проводят они его не самостоятельно. У журналиста появляется идея статьи, библиограф переводит эту идею в параметры поиска, отбирает базу (или базы) данных, осуществляет поиск и передает результаты журналисту, который смотрит, соответствуют ли они запросу.

Полнота и точность полученной информации зависит не только и не столько от квалификации библиографа, сколько от того, как грамотно был сформулирован запрос журналистом. Например, журналист исследует проблему бензиновых кризисов, которые время от времени будоражат рынок. Из разных источников известно, что рынок нефтепродуктов и нефтеносителей в Санкт-Петербурге контролируется, в частности, «тамбовским» преступным сообществом. Известно также, что сильной стороной баз данных является их способность объединять несоизмеримые понятия с тем, чтобы избавить журналиста и библиографа от необходимости искать иголку в стоге сена, – вся информация, не имеющая отношения к делу, при этом исключается. Для одной части уравнения подбираются такие ключевые слова, как организованная преступность , ОПГ тамбовская , для другой – нефть, бензин, бензиновый кризис . В результате журналист получает миллион ссылок на опубликованные статьи, не отвечающие введенному запросу. Почему так происходит? Да потому, что «бензин» может относиться к бензоколонкам, «нефть» – к нефтедобыче и нефтяным компаниям, а словосочетание «организованная преступность» даст десятки статей, посвященных различным криминальным группировкам. Чаще всего это случается, когда поиск ведется в полнотекстовой базе данных и не ограничен, скажем, заголовками или аннотациями статей. Для того чтобы минимизировать «информационный шум» и информационные потери в данном конкретном запросе, необходимо отсечь лишние ключевые слова, скрестив только лишь понятия «ОПГ тамбовская» и «бензиновый кризис».

При формулировании темы поиска для запроса журналисту следует особое внимание уделять используемой при этом лексике. Ведь языковые средства, которые мы, не задумываясь, применяем в обыденной речи, отличаются от нормативного словаря, с которым работает библиограф. Например, ваше ключевое слово «барахолка» – столь привычное и понятное, но имеющее в словаре помету «просторечное», – лучше заменить на «вещевой рынок», поскольку библиограф занес в словарь, скорее всего, именно этот термин.

Отобрав первичную и вторичную информацию по интересующей его теме и смежным темам из всех доступных (с разумными затратами времени и средств) источников, журналист может систематизировать ее и составить аналитическую справку.

Из книги Гражданский кодекс РФ. Часть первая автора Законы РФ

Статья 259. Собственность хозяйственного товарищества или кооператива, образованного на базе имущества крестьянского (фермерского) хозяйства 1. Членами крестьянского (фермерского) хозяйства на базе имущества хозяйства может быть создано хозяйственное товарищество или

Из книги Инкотермс 2000 автора Международная торговая палата

12. ОБЫЧАИ ПОРТА ИЛИ КОНКРЕТНОЙ ТОРГОВЛИ Так как Инкотермс предлагают комплект терминов для использования в различной сфере торговли и регионах, невозможно всегда точно сформулировать обязанности сторон. До некоторой степени поэтому необходимо ссылаться на обычай

Из книги Гражданский кодекс Российской Федерации. Части первая, вторая, третья и четвертая. Текст с изменениями и дополнениями на 10 мая 2009 года автора Коллектив авторов

СТАТЬЯ 259. Собственность хозяйственного товарищества или кооператива, образованного на базе имущества крестьянского (фермерского) хозяйства 1. Членами крестьянского (фермерского) хозяйства на базе имущества хозяйства может быть создано хозяйственное товарищество или

Из книги Правовые основы судебной медицины и судебной психиатрии в Российской Федерации: Сборник нормативных правовых актов автора Автор неизвестен

КОМПЛЕКТ ДОКУМЕНТОВ И ДАННЫХ, ПРЕДСТАВЛЯЕМЫХ ЗАЯВИТЕЛЕМ ДЛЯ ПРОВЕДЕНИЯ ЭКСПЕРТИЗЫ ЭФФЕКТИВНОСТИ И БЕЗОПАСНОСТИ ЛЕКАРСТВЕННОГО СРЕДСТВА 1. Заявление о проведении экспертизы лекарственного средства, в котором отражаются:– наименование и адрес (почтовый и

Из книги Гражданский кодекс Российской Федерации. Части первая, вторая, третья и четвертая. Текст с изменениями и дополнениями на 1 ноября 2009 г. автора Автор неизвестен

Статья 259. Собственность хозяйственного товарищества или кооператива, образованного на базе имущества крестьянского (фермерского) хозяйства 1. Членами крестьянского (фермерского) хозяйства на базе имущества хозяйства может быть создано хозяйственное товарищество или

Из книги Комментарий к Федеральному закону от 27 июля 2006г. N 152-ФЗ "О персональных данных" автора Петров Михаил Игоревич

Статья 9. Согласие субъекта персональных данных на обработку своих персональных данных Комментарий к статье 91. Комментируемая статья определяет порядок, условия и основания получения согласия субъекта персональных данных на их обработку. Законодатель подчеркивает, что

Из книги Криминология. Избранные лекции автора Антонян Юрий Миранович

Статья 16. Права субъектов персональных данных при принятии решений на основании исключительно автоматизированной обработки их персональных данных Комментарий к статье 161. Комментируемая статья определяет права субъектов персональных данных по отношению к принятию

Из книги Штрафы и пени. ГИБДД, кредиты, ЖКХ, налоги автора Садовая Людмила Леонидовна

Статья 21. Обязанности оператора по устранению нарушений законодательства, допущенных при обработке персональных данных, а также по уточнению, блокированию и уничтожению персональных данных Комментарий к статье 211. Положения комментируемой статьи определяют процедуру

Из книги Покупка и продажа квартиры: законодательство и практика, оформление и безопасность автора Брунгильд Аделина Геннадиевна

3. Роль конкретной жизненной ситуации в совершении преступления Слово «ситуация» происходит от латинского situs (положение, расположение) и означает совокупность, сочетание обстоятельств и условий, создающих те или иные отношения, определенную обстановку или положение.

Из книги Кодекс о Правонарушениях Республики Молдова в силе с 31.05.2009 автора Автор неизвестен

Если вас остановил инспектор ДПС и проверяет по базе неоплаченные штрафы 1. Инспектор ДПС не имеет права останавливать вас для проверки долгов в базе данных. Согласно «Административному регламенту», пришедшему на смену «Наставлению по работе ДПС», у инспектора ДПС есть

Из книги Ипотечный кредит: как получить квартиру автора Шевчук Денис Александрович

Примеры исчисления налога с имущества, переходящего в порядке наследования Пример №1 Налоговый орган 15 февраля 1995 г. получил от нотариуса сведения о том, что наследство открыто с 10 сентября 1994 г. наследником первой очереди. Стоимость наследованного имущества

Из книги Эй, инспектор, ты не прав! Все о том, как противостоять произволу ГИБДД на дорогах автора Нариньяни Алена

Примеры расчета налога с имущества, переходящего в порядке дарения Пример №1 Если в течение 1994 года физическим лицом от одного и того же дарителя, не состоящего с одаряемым в родственных отношениях, по нотариально удостоверенным договорам дарения получены три подарка (в

Из книги Банковское потребительское кредитование [Учебно-практическое пособие] автора Даниленко Светлана Александровна

Статья 74-1. Обработка персональных данных с нарушением законодательства о защите персональных данных (1) Несоблюдение требований по обеспечению безопасности персональных данных при их обработке в информационных системах персональных данных влечет наложение штрафа

Из книги автора

Примеры ипотечных программ Ипотека. Стандартная программа Условия

Из книги автора

Глава 6 ПРИМЕРЫ На примере нескольких типичных дорожно-транспортных происшествий хочется показать, как в несложных ситуациях из-за неграмотных действий водителя обстоятельства столкновения искажаются, и невиновный превращается в виновного.Наезд на стоящий

Из книги автора

Введение В настоящее время особой актуальностью обладают вопросы правового регулирования в сфере потребительского кредитования. Данный институт нуждается в глубоком научном изучении с целью дальнейшего совершенствовании его правового регулирования.Рынок

Выбор редакции
Все, кто любит синенькие, должны обратить свое внимание на этот простой рецепт и обязательно приготовить это вкусное кушанье для сытного...

1343 11.07.12 Есть в Италии город Болонья, основанный 510 году до н. э. - кулинарная столица страны. За глаза Болонью называют...

В осенне-зимний период, брокколи — это замечательный продукт для приготовления свежих, но в тот же момент, сытных вегетарианских блюд....

Рецепт приготовления супа с овсяными хлопьями: Куриную грудку промыть и разрезать для удобства на средние куски. Положить курицу в...
ПОДЕЛИЛИСЬ Расклад показывает состояние человека в настоящее время и его ближайшее будущее. Автор расклада - Ляйсан Smaragd. Первая...
Расклад применяется, если надо сделать выбор между двумя или несколькими возможными вариантами. Рассмотрим сначала ситуацию с двумя...
Меню - основа ресторанного бизнеса. Это не просто список блюд, которые подают в заведении, а способ предложить посетителю то, что ему...
Вы всё ещё сомневаетесь в своих силах? Отставить все сомнения, пришло время вооружиться уверенностью в себе и двигаться к собственному...
Вы всё ещё сомневаетесь в своих силах? Отставить все сомнения, пришло время вооружиться уверенностью в себе и двигаться к собственному...