Главная » Файлы » Методички » Искуственный интеллект [ Добавить материал ]

Текстологические методы извлечения знаний. Кратко

Краткий ответ на экзаменационный вопрос по курсу СИИ — системы искусственного интеллекта (все вопросы).

Группа текстологических методов объединяет методы извлечения знаний, основанные на изучении специальных текстов из учебников, монографий, статей, методик и других носителей профессиональных знаний. Задачу извлечения знаний из текстов можно сформулировать как задачу понимания и выделения смысла текста.

При извлечении знаний аналитику, интерпретирующему текст, приходится решать задачу декомпозиции этого текста на компоненты для выделения истинно значимых для реализации базы знаний фрагментов. К компонентам можно отнести: наблюдения; научные понятия; субъективные взгляды; общие места; заимствования.

Сложность интерпретации научных и специальных текстов заключается еще и в том, что любой текст приобретает смысл только в контексте, где под контекстом понимается окружение, в которое «погружен» текст. Различают микроконтекст и макроконтекст. Микроконтекст – это ближайшее окружение текста. Так, предложение получает смысл в контексте абзаца, абзац – в контексте главы и т.д. Макроконтекст – это вся система знаний, связанная с предметной областью (т.е. знания об особенностях и свойствах, явно не указанных в тексте).

На языке современного языкознания понимание – это формирование второго текста, т.е. семантической структуры.

Основные моменты процесса понимания текста

  • выдвижение предварительной гипотезы о смысле всего текста;
  • определение значений непонятных слов (т.е. специальной терминологии);
  • возникновение общей гипотезы о содержании текста;
  • уточнение значения терминов и интерпретация отдельных фрагментов текста под влиянием общей гипотезы (от целого к частям);
  • формирование смысловой структуры текста за счет установления внутренних связей между отдельными ключевыми словами и фрагментами, а также за счет образования абстрактных понятий, обобщающих конкретные фрагменты знаний;
  • корректировка общей гипотезы относительно содержащихся в тексте фрагментов знаний (от частей к целому);
  • принятие основной гипотезы.

Принципиальным моментом является наличие как дедуктивной (от целого к частям), так и индуктивной (от частей к целому) составляющей процесса понимания. Благодаря этому удается при понимании текста учесть основные признаки текста: связность, цельность и законченность.

Центральным моментом процесса является выделение «опорных», ключевых слов или «смысловых вех» в тексте и дальнейшее их связывание в единую семантическую структуру.

При анализе текста выделяют два вида связей – эксплицитные (явные связи) и имплицитные (скрытые связи). Эксплицитные связи выражаются во внешнем дроблении текста, они делят текст на параграфы с помощью перечисления компонентов, вводных слов типа «во-первых…, во-вторых…, однако и т. д.». Имплицитные связи между «смысловыми вехами» вызывают основное затруднение при понимании.

Семантическая структура текста образуется в сознании познающего субъекта с помощью знаний о языке, о мире, общих знаний о предметной области, которой посвящен текст. Таким образом, для адекватного понимания текста необходима предварительная подготовка.

Подготовкой к прочтению специальных текстов является выбор совместно с экспертами базового списка литературы, который постепенно введет аналитика в предметную область. В этом списке, как правило, содержатся учебники, фрагменты из монографий, популярные издания. После ознакомления с указанным списком целесообразно приступать к чтению специальных текстов.

Следует подчеркнуть, что процедура разбивки текста на части («смысловые группы»), а затем сгущение, сжатие содержимого каждого смыслового блока в «смысловую веху» является основой для любого процесса понимания. Представление текста в виде набора ключевых слов, передающих основное содержание текста, является методологической основой для проведения текстологических процедур извлечения знаний.

В качестве ключевого слова может служить любая часть речи (существительное, глагол, прилагательное и т. д.) или их сочетание. Набор ключевых слов – это набор опорных точек, по которым развертывается текст при кодировании в память и осознается при декодировании.

Алгоритм извлечения знаний из текста

  1. Составление базового списка литературы для ознакомления с предметной областью и чтение по списку;
  2. Выбор текста для извлечения знаний;
  3. Первое знакомство с текстом (беглое прочтение), для определения значения незнакомых слов – консультации со специалистами или привлечение справочной литературы;
  4. Формирование первой гипотезы о макроструктуре текста.
  5. Внимательное прочтение текста с выписыванием ключевых слов и выражений, т.е. выделение «смысловых вех» (компрессия текста).
  6. Определение связей между ключевыми словами, разработка макроструктуры текста в форме графа или сжатого текста (реферата).
  7. Формирование поля знаний на основании макроструктуры текста.

Рекомендуемая литература: страница 124, Базы знаний интеллектуальный систем, Гаврилова Т.А.

Похожие материалы:

Добавил: aller (07.12.2013) | Категория: Искуственный интеллект
Просмотров: 1982 | Загрузок: 0 | Рейтинг: 0.0/0 |
Теги: СИИ, методы извлечения знаний, текстологические методы
Комментарии (0)

Имя *:
Email *:
Код *: