Первые шаги с TextAnalyst

Ввод и анализ текстов

1. После запуска TextAnalyst в появившемся окне "Начало работы" выберите первый пункт "Анализ текстов и создание базы документов"

2. После этого, в открывшемся диалоге, предлагаем Вам выбрать текстовый файл ..\TextAnalyst\Samples\"История развития высшего образования в России.txt" для анализа.

Вы можете выбрать и другой файл (поддерживаются форматы: rtf, txt в кодировке Windows и DOS), в этом случае,  результаты анализа, естественно, не будут соответствовать приведенным далее.

3. Теперь главное окно TextAnalyst должно выглядеть примерно так:

 

         Вся работа по анализу текста уже сделана - остается лишь ознакомиться с ее результатами.

Для удобства работы весь интерфейс TextAnalyst построен на базе трех взаимосвязанных окон:

  • "окно 1" - окно значимых элементов текста, располагается в левом верхнем углу экрана;

  • "окно 2" - окно отсылок к предложениям текстов, располагается в правом верхнем углу экрана;

  • "окно 3" - окно анализируемых текстов, располагается в нижней части экрана.

        В процессе работы все три окна будут всегда расположены на экране. Вы можете изменять их размеры, просто перетаскивая мышью соответствующие границы. В этих окнах TextAnalyst покажет всю информацию, полученную им при изучении Ваших текстов.

Изучаем текст

        Сначала перейдем к закладке "Семантическая сеть" в окне 1 (на ней изображен значок ). Теперь в окне 1 Вам представлена (в виде обычного дерева) сеть основных понятий проанализированных текстов.

4. Сеть понятий

        Прежде всего, изучив предложенный материал, TextAnalyst формирует сеть основных (наиболее значимых) понятий, содержащихся в представленных ему текстах. Такая сеть служит представлением смысла текста и основой для всех видов дальнейшего анализа.

        Сеть понятий - это множество терминов из текстов - слов и словосочетаний, связанных между собой по смыслу. В сеть включены не все термины текста, а лишь наиболее значимые, несущие основную смысловую нагрузку. Аналогичным образом представлены и смысловые связи между понятиями текстов – отражаются лишь наиболее явно выраженные из них. Поэтому, с одной стороны сеть достаточно полно описывает смысл текстов, а с другой - позволяет отбросить несущественную информацию и представить содержание в сжатом виде, так называемым “смысловым портретом”. При этом каждое понятие, повторявшееся в различных местах текстов множество раз, оказывается представлено в единственном узле сети. В этом узле также собирается разбросанная информация, касающаяся понятия – формируется список предложений, в которых оно употреблялось. А различные формы слов, конечно же, приводятся к общей грамматической форме для отображения в один элемент сети. Аналогичным образом собирается информация по смысловым связям каждого понятия – в виде списка всех связанных с ним в тексте понятий, дополненного предложениями, в которых отражаются данные связи.

        Таким образом, Вы можете сразу увидеть всю информацию по каждому понятию - теме текста, буквально бросив единственный взгляд на набор его связей в сети. В результате, передвигаясь по смысловым связям от понятия к понятию, Вы будете находить и прицельно исследовать лишь интересующие места текстов, не затрудняя себя просмотром всей попавшейся на пути информации.

        Но это еще не все. Каждый элемент сети - понятие характеризуется числовой оценкой – так называемым смысловым весом. Связи между парами понятий, в свою очередь, также характеризуются весами. Эти оценки позволят сравнить относительный вклад различных понятий и их связей в семантику текста, выявить более или менее подробно проработанную в тексте тематику, задать способ сортировки информации, и наконец, позволят взглянуть на весь текстовый материал по пластам - смысловым срезам различной глубины - то “снимая сливки” с содержания, то глубоко погружаясь в детали.

        Итак, сеть понятий сейчас перед Вами в окне 1. Дважды щелкнув мышью на значке возле выбранного понятия, Вы можете раскрыть список всех связанных с ним понятий.

        Чтобы просмотреть всю информацию текстов, касающуюся понятия, щелкните мышью на первом пункте <все> раскрытого списка. После этого в окне 2 появятся все предложения текстов, включающие понятие, выделенное цветом.

        Если же Вас интересует не вся информация по понятию, а лишь та, которая касается его связи с одним из понятий раскрытого списка, щелкните мышью по этому понятию в списке. В результате в окне 2 появятся все предложения текстов, включающие пару понятий, выделенных цветом.

        Выбрав интересующее предложение в окне 2, дважды щелкните по нему мышью – и в окне 3 появится соответствующее место текста.

           Теперь обратите внимание на числа, стоящие в дереве возле понятий. Ближайшее к понятию число представляет его смысловой вес. Его значение (от 1 до 100) показывает, сколь важную роль играет понятие для смысла всего текста – как много информации в тексте касается данного понятия. Максимальное значение, равное 100, говорит о том, что понятие является ключевым и представляет важнейшую тему текста. Маленькое, близкое к единице значение показывает, что соответствующая тема лишь вскользь упомянута в тексте и в нем очень мало информации, относящейся к данному понятию. Второе число, стоящее перед смысловым весом, ближе к раскрытому узлу, представляет вес связи от понятия в вершине раскрытого списка к данному. Вес связей также всегда принимает значение от 1 до 100. Большое значение веса связи от одного понятия к другому, близкое к 100, указывает на то, что подавляющая часть информации в тексте, касающаяся первого, касается в тоже время и второго понятия – первая тема почти всегда излагается в контексте второй. Малое единичное значение отражает тот факт, что первое понятие слабо связано со вторым и очень мало информации по первой теме касается в тоже время и второй.

        Обратите внимание, что связь между парой понятий сети всегда двустороння, однако связь от первого понятия ко второму далеко не всегда имеет тот же самый вес, что и обратная, от второго к первому. Как говорится, “всякая селедка – рыба, но не всякая рыба - селедка”.

        По умолчанию на экране отображаются понятия с весом не менее 5 (от 5 до 100). Вы можете настраивать вид сети на экране, изменяя количество отображаемых понятий и связей, а также способ их сортировки. Для этого в меню "Настройка" выберите пункт "Параметры вида".

5.  Тематическая структура текстов

        Как было показано выше, именно сеть понятий представляет идеальное описание текста - информация в ней отражает все присутствующие смысловые связи, что с точки зрения полноты смыслового портрета, конечно же превосходно. Однако нам более привычны структурированные представления, где связи ведут от главного к второстепенному. Более организованное представление сети – так называемая тематическая структура поможет Вам взглянуть на текст иным образом.

        Тематическая структура описывает содержание анализируемых текстов в виде иерархии связанных тем и подтем. Все темы и подтемы выражены в терминах исходных текстов и соответствуют узлам сети понятий. Однако связи между понятиями односторонни и направлены от главного понятия к подчиненным. В результате представление тематической структуры оказывается иерархическим – от каждой темы раскрываются связи только к ее подтемам, от них – к подтемам следующего уровня и т.д., вплоть до самых незначительных тем, уже не имеющих связей. Тематическая структура, таким образом, имеет вид древа, в корне которого стоят главные темы, в ветвях – их подтемы, и каждая ветвь дерева заканчивается. Общий вид тематической структуры отражает смысловую структуру текстов. Так, если вся информация в текстах подчинена единой теме, структура будет иметь вид дерева с единственным корнем. Если же содержание текстов отражает несколько тем, то дерево распадается на целый "лес" независимых кустов, корни которых представляют главные темы, несвязанные друг с другом.

        В дополнение к этому, TextAnalyst дает Вам возможность регулировать степень связности тематического дерева. Изменение порога по весу связей в сети понятий (разрыв более или менее сильных связей) изменяет вид дерева, разбивая его на большее или меньшее количество тематических кустов. В результате появляется возможность взглянуть на структуру текста в различных срезах, на разных уровнях глубины материала.

        В остальном, с точки зрения интерфейса работа с тематической структурой полностью аналогична работе с семантической сетью.

        В ходе работы с TextAnalyst Вы можете просмотреть тематическую структуру в любой момент, выбрав в окне 1 закладку "Тематическая структура" (с картинкой ), что и следует сейчас сделать.

        Тематическая структура представляется Вам в окне 1 в виде дерева понятий – названий тем, некоторые из которых имеют раскрывающиеся списки связей с подтемами. Понятия в корне дерева представляют список главных тем текстов, а связанные с ними элементы в списках последующих уровней - списки подтем, в которых разворачиваются главные темы.

        Обратите внимание, что в отличии от сети понятий каждая веточка дерева заканчивается.

        По умолчанию на экране отображаются понятия тематической структуры с весом не менее 5 (от 5 до 100). Вы можете настраивать Вид тематической структуры на экране, изменяя количество отображаемых понятий и связей, способ их сортировки, а также количество кустов в дереве. Для этого в меню "Настройка" выберите пункт "Параметры видов".

6. Реферирование текстов

        Для самого быстрого ознакомления с содержанием текстов Вы можете воспользоваться услугой автоматического реферирования, предоставляемой TextAnalyst. Формируемый реферат содержит список наиболее информативных предложений текстов (тезисов). Конечно, это еще не полноценный реферат, так как тезисы в основном не связаны между собой стилистически, а просто выбраны из текстов и расположены в порядке их встречаемости. Однако и такой подстрочник реферата оказывается достаточно информативным, чтобы составить общее представление о тексте и уяснить его основные мысли. Кроме того, все предложения реферата снабжены отсылками к соответствующим местам исходных текстов, что позволяет просмотреть контекст интересующего тезиса. Подробность реферата можно легко настраивать, изменяя количество формирующих его предложений. При этом каждое предложение реферата характеризуется относительной степенью значимости во всем тексте.

Для получения реферата в меню "Анализ" выберите пункт "Реферирование".

        Чтобы просмотреть контекст интересующего предложения реферата, дважды щелкните по нему мышью. После этого в окне 3 появится нужное место текста.

        Обратите внимание на цифры, стоящие перед предложениями. Они характеризуют веса предложений – их значимость во всем тексте (от 1 до 100). Так, если вес близок к 100, то данное предложение представляет важнейшую информацию, касающуюся главных понятий текста. Эти понятия в реферате также выделяются цветом.

        По умолчанию на экране отображаются предложения реферата с весами не менее 90 (от 90 до 100). Вы можете настраивать вид реферата на экране, изменяя количество отображаемых предложений (подробность реферата). Для этого в меню "Настройка" выберите пункт "Параметры видов".

Работаем с гипертекстом

7. Формирование гипертекста

        Работая с современными информационными системами, Вы наверное уже успели убедиться, что наиболее удобной формой представления текстовой информации является гипертекст. Буквально пронизывая текстовый массив гиперссылками, он позволяет нам избежать монотонного пролистывания страниц и выбирать пути изучения материала, сообразуясь с нашими знаниями и интересами. Однако, к сожалению, традиционные “гипертекстовые” системы не являются таковыми на самом деле, несмотря на название, и не реализуют желаемых возможностей – все пути движения по тексту навязываются нам априороно его разработчиком и каждая “гиперссылка” отсылает лишь в одно единственное место.

        И в этой области TextAnalyst предлагает Вам уникальную возможность – автоматически превратить мегабайтный массив текстовой информации в полноценный гипертекст со множественными гиперссылками, выделив все потенциально присутствующие смысловые взаимосвязи и переходы. Опорой для гипертекста в TextAnalyst является сеть понятий, автоматически сформированная и содержащая значимые термины с их смысловыми взаимосвязями и гиперссылками. Ее проекция на исходные тексты превращает их в гипертекст. При этом в текстах выделяются понятия сети, от которых становится возможным переход к другим местам текстов, также их содержащим. Более того, наличие смысловых взаимосвязей позволит Вам перейти от выделенных понятий к связанным с ними по смыслу, а от них, в свою очередь – к соответствующим участкам текстов и т.д. В результате возникает возможность циклического движения по цепочке: <выбранный фрагмент текста> - <понятия сети> - <выбранная гиперссылка> - <фрагмент текста>.

        Итак, все проанализированные тексты представляют собой единый гипертекст, в котором выделенные цветом понятия и их сочетания позволяют отсылаться в другие места текстов.

        Для гипертекстовой ссылки выделите фрагмент текста и выполните Смысловой поиск – функцию, описанную ниже.

        По умолчанию во всех текстах выделяются наиболее значимые понятия - с весом не менее 50 (от 50 до 100). Если Вы желаете произвести разметку текстов более (или менее) подробно, в меню "Настройка" выберите пункт "Параметры видов".

8. Смысловой поиск

        Наиболее серьезной проблемой, возникающей при работе с текстовым материалом большого объема, является поиск интересующей информации. Большая удача, если тексты уже знакомы и удается вспомнить что-либо из входящих в них ключевых слов, описывающих искомое - в этом случае с возникшей задачей прекрасно справятся традиционные информационно-поисковые средства. Но как быть, если мы затрудняемся точно подобрать слова, если нужно найти что-то новое, о чем ранее мы возможно вообще не имели понятия? К сожалению, в большинстве случаев возникает именно подобная ситуация, когда приходится искать “то, точно не зная, что…”.

        Функция смыслового поиска позволяет получить ответ на запрос, сформированный в виде фразы естественного языка, словосочетаний или же просто набора ключевых слов. При этом извлекаемая в ответ информация может не только иметь другую грамматическую форму, но и вообще не упоминаться в тексте запроса, однако имеет с ним смысловую связь.

        Вы можете либо ввести запрос с клавиатуры, либо задать его участком текста, что реализует гипертекстовые ссылки.

        Для ввода запроса с клавиатуры:

- войдите в меню Поиск и выберите пункт Смысловой поиск;

- в раскрывшемся окне наберите текст запроса и нажмитеПоиск.

        Для ввода запроса из текста:

- в окне 3 выделите мышью интересующий фрагмент текста или выделенные понятия;

- щелкните по правой кнопке мыши и в выберите пункт Поиск;

- в раскрывшемся окне, где отображен текст запроса, нажмите Поиск.

        Результаты ответа на запрос Вы увидите на экране в виде двух списков, аналогично показанным на картинке.

        Прежде всего, обратите внимание на список в окне 2. В нем представлены предложения текстов, включающие ключевые слова запроса – те, которые имеются в сети понятий. Предложения в списке упорядочены по количеству совпавших понятий. Выбрав интересующее предложение, дважды щелкните мышью на нем, и в окне 3 Вы увидите соответствующий фрагмент текста.

        Если же результаты поиска Вас не совсем устраивают, или же Вы хотите получить дополнительную информацию, обратитесь к списку в окне 1. В нем представлены понятия сети, упорядоченные по близости к запросу (степень близости – от 1 до 100 - показана цифрой). Обратите внимание, что большинство понятий списка не были упомянуты в запросе. Однако TextAnalyst показывает Вам, что в текстах имеется информация, связанная по смыслу с искомой. Дальнейшая работа со списком аналогична работе с сетью понятий.

        Для более подробного ознакомления с TextAnalyst воспользуйтесь встроенной справочной системой.

Дополнительную информацию Вы можете найти на нашем Web-сервере

http://www.analyst.ru

Приятной работы с TextAnalyst !