www.webmoney.ru

Добавить в корзину Удалить из корзины Купить

Поиск с использованием онтологий предметных областей


ID работы - 743972
программирование (курсовая работа)
количество страниц - 57
год сдачи - 2008



СОДЕРЖАНИЕ:



Содержание
Содержание 2
Аннотация 5
1. Вступление 6
1.1. Федерация обмена метаданными 6
1.2. Метаданные, онтологии и Semantic Web 7
2. Системы обмена метаданными и анализ существующих проблем 10
2.1. NSDI Clearinghouse 11
2.1.1. Метаданные 11
2.1.2. Поиск 12
2.2. GeoNetwork 13
2.2.1. Метаданные 14
2.2.2. Поиск 14
2.3. Выводы 15
3. Цель работы и постановка задачи 16
4. Методы описания онтологий и поисковых алгоритмов с их использованием 16
4.1. Понятие онтологии 16
4.2. Язык онтологий OWL 16
4.2.1. Элемент owl:Class 17
4.2.2. Элемент Property 17
4.2.3. OWL: Ограничения свойств 17
4.3. Математическая формализация задачи поиска в онтологиях с использованием персональных предпочтений 18
4.3.1.1. Формальная модель онтологии предметной области 19
4.3.1.2. Идентификация объектов предметных областей с учетом пользовательских ограничений 20
4.3.1.3. Процедура построения запроса к онтологии 21
4.3.1.4. Идентификация множества релевантных объектов 22
4.3.1.5. Идентификация объектов, удовлетворяющих пользовательским ограничениям 23
5. Исследование применимости онтологий для поиска данных морской биологии 25
5.1. Проблема форматов метаданных и ее решение 25
5.2. Проблема распределенного поиска и ее решение 25
5.2.1. Поиск элемента онтологии по ссылке URI 26
5.2.2. Поиск эквивалентного эквивалентного данному 26
5.2.3. Поиск недостающего элемента тройки N-Triple 26
5.2.4. Межсерверное взаимодействие 27
6. Системы семантического поиска 28
6.1. Формальные требования 28
6.1.1. Требования к пользователям 28
6.1.1.1. Пользователь 28
6.1.1.2. Зарегистрированный пользователь 28
6.1.1.3. Администратор онтологий 29
6.1.1.4. Администратор системы 29
6.1.2. Требование к интерфейсу 29
6.1.2.1. Интерфейс пользователя 29
6.1.3. Функциональные требования 30
6.1.3.1. Подсистема обработки запросов 30
6.1.3.2. Подсистема работы с онтологиями 30
6.1.3.3. Подсистема управления 30
6.1.3.4. Подсистемы сбора метаданных 30
6.2. Общая архитектура 30
6.2.1. Клиентская часть 30
6.2.2. Web-приложение 31
6.2.3. Сервер онтологий 31
6.2.4. База данных 31
6.2.5. Драйвер протокола Z39.50 32
6.3. Модули 33
6.3.1. Пользовательское представление 33
6.3.2. Подсистема обработки запросов 34
6.3.3. Подсистема работы с онтологиями 35
6.3.4. Подсистемы сбора метаданных 36
6.3.5. Подсистема управления 36
6.3.6. База данных 37
6.4. Базы данных 38
6.5. Интерфейс 39
6.5.1. Веб-интерфейс 39
6.5.1.1. Экран обычного пользователя 39
6.5.1.2. Экран зарегистрированного пользователя 40
6.5.1.3. Экран администратора онтологий 41
6.5.1.4. Экран администратора системы 42
6.5.2. Редактор онтологий 42
6.6. Алгоритмы 43
6.6.1. Алгоритм поиска с учетом пользовательских предпочтений 43
6.7. Реализация и тестирование 44
6.7.1. Функциональные характеристики разработанной системы 44
6.7.2. Технические характеристики разработанной системы 44
7. Экспериментальный запуск 46
7.1. Начальный набор данных 46
7.2. Расширение предметной области 46
7.3. Запросы 47
8. Заключение 49
8.1. Результат 49
8.2. Выводы 49
8.3. Опыт, полученный в результате работы 49
8.4. Предлагаемые пути развития 50
9. Список использованных источников 52
10. Глоссарий 55
11. Список сокращений 55
Приложение 1. Снимок экрана администратора системы 57




ВВЕДЕНИЕ:



Аннотация
В данной работе проводится исследование применимости онтологий для поиска в каталогах данных наблюдений крупных морских экосистем. Кроме того, здесь приводится сравнительный анализ работы системы поиска с использованием онтологий и существующих систем поиска, использующих метаинформацию, а также сравнение эффективности использования метаописаний на основе онтологий и популярных форматов метаданных, таких как FGDC Content Standard for Digital Geospatial Metadata и ISO 19115.
В работе описана разработка прототипа системы поиска на основе онтологий и освещены перспективы использования подобных систем.

1. Вступление
1.1. Федерация обмена метаданными
Тихоокеанский научно-исследовательский рыбохозяйственный центр (ТИНРО-Центр ) является крупной научно-исследовательской организацией, осуществляющей координацию научных исследований в области морской биологии и океанографии на Дальнем Востоке. ТИНРО-Центр также разрабатывает и реализует единую стратегию рыбохозяйственной науки в тихоокеанском бассейне. Такое направление деятельности ТИНРО, как исследование подходов к управлению рыбным промыслом на основе экосистем, представляет в рамках данной работы особый интерес.
На сегодняшний день в ТИНРО-Центре для решения задач вышеупомянутого направления был разработан широкий спектр математических моделей. Для верификации тех или иных моделей используются данные наблюдений морских экосистем. Очень часто при работе с данными возникают проблемы, связанные с отсутствием их единого формата, методов автоматической унификации, поддержания в целостном и актуальном состоянии [9]. Кроме того, часто возникает потребность воспользоваться данными, накопленными другими организациями. С такими данными, помимо вышеперечисленных проблем, могут также возникнуть проблемы ограниченного доступа.
Хотя сбор данных наблюдений крупных морских экосистем осуществляется различными межведомственными организациями, большинство этих организаций используют собранную информацию локально и не публикуют ее в Интернет. Происходит это в силу отсутствия технических средств или незаинтересованности владельцев информации. Эта проблема требует привлечения к себе внимания. Для преодоления сложившейся ситуации необходимо создание единой технической базы. У организаций, ведущих мониторинг экосистем, должно сложиться четкое понимание важности публикации своих данных. Но для этого нужны время и скоординированные усилия [8].
Работа по созданию систем обмена информацией в области морской биологии ведется Международной организацией по морским наукам северной части Тихого океана , с которой сотрудничает ТИНТРО-Центр. Технический комитет по обмену информацией PICES инициировал проект по созданию сети хранения данных с использованием метаданных [7], доступных для поиска и распространения через Всемирную сеть. В качестве технической базы TCODE выбрал сеть серверов пространственных данных Федерального комитета по географическим данным США . Данная сеть представляет собой множество информационных серверов-узлов, зарегистрированных на главном сервере. Через главный шлюз сервера осуществляется доступ и поиск в этой сети. Особенностью представления данных в системе является наличие их географической привязки. Поиск осуществляется путем использования метаданных в формате CSDGM , разработанном FGDC (и некоторых других популярных форматах) и движка Isite , объединяющего инструменты текстового поиска, индексации, обращения к базам данных и связки с протоколом Z39.50 . Однако качество обслуживания этой системой оставляет желать лучшего [8].
TCODE рассматривает применение технологии GeoNetwork , как перспективный шаг в сторону развития, отвечающий информационным потребностям PICES. Архитектура GeoNetwork подобна Clearinghouse (подробнее см. раздел 2), но более функциональна, использует новый формат метаданных ISO 19115 и в то же время опирается на проверенный протокол Z39.50.
1.2. Метаданные, онтологии и Semantic Web
Эффективный поиск, по мнению [7] TCODE, во многом зависит от формата метаданных. Выбор оптимального формата является нелегкой задачей. Используемые в вышеописанных системах форматы (DIF , EML , DC , CSDGM7, ISO 1911511) имеют те или иные достоинства и недостатки в смысле их применимости для описания данных наблюдений по морской биологии.
В нашей работе мы предлагаем использовать онтологии, как альтернативный и более перспективный подход к поиску и хранению метаданных больших морских экосистем. Рассмотрим подробнее понятие онтологий и более крупные концепции, с ним связанные.
По определению Thomas Gruber [3], онтология – это исчерпывающая спецификация концептуализации, то есть детализированное формальное представление некоторой области знаний в виде объектов и связей между ними. Онтологии описывают семантические связи данных, и, по сути, являются метаданными, то есть данными о данных. В связи с онтологиями следует упомянуть стратегию эволюции сети Интернет, предложенную Консорциумом Всемирной паутины .
По замыслу авторов [1], Semantic Web должна стать расширением существующей Всемирной паутины, позволяющим улучшить взаимодействие людей и машин за счет придания информации строго определенного значения, т.е. семантики. Данные в Семантической сети будут организованы в ориентированный граф, вершины которого являются ресурсами, а ребра будут иметь свойства, также являющиеся ресурсами (см. Рисунок 1). Такая структура предоставит возможность распределенной расширяемости: информация, публикуемая каждым из участников сети, будет автоматически связана с информацией других участников. Семантическое описание информации и есть онтология.

Рисунок 1. Пример [4] организации биологических понятий в граф с помеченными связями или в онтологию
Ввиду стремительного роста Всемирной паутины, поисковые приложения становятся все более популярными и необходимыми инструментами успешной работы пользователей с сетью. Семантический поиск – это изложение для поиска в Semantic Web. Многие исследователи изучают эффективность использования семантического поиска в современной сети. Их исследования показывают [2], что использование семантических метаданных при поиске дает большие результаты, чем традиционный полнотекстовый поиск, основанный на технологии статистического подсчета релевантности поискового запроса к найденным документам.

Рисунок 2. Диаграмма, демонстрирующая спектр расширения возможностей обмена информацией . Источник: отчет конференции Semantic Wave-2006.
Причин тому несколько. Во-первых, семантический поиск позволяет формировать запросы на естественном языке, что облегчает взаимодействие пользователя с поисковой машиной. Во-вторых, он обращается к семантике запроса в целом, а не к отдельным ключевым словам, то есть, на запрос: «Где ловить сельдь?» вы гарантированно не получите рецепт селедки под шубой. В-третьих, семантический поиск позволяет преодолеть языковой барьер, распознавать омонимы и находить синонимы искомых слов. В конце концов, семантический поиск может осуществлять анализ данных с учетом персональных предпочтений пользователя и без дополнительного вмешательства производить автоматический поиск информации на основе этих предпочтений.
Кроме всего прочего, существуют два подхода [6] к семантическому поиску:
bottom-up и top-down . Первый – это классический теоретический подход к поиску информации в определенной области знаний с использованием онтологии, созданной специалистом области. Второй – часто встречающееся на сегодняшний день решение проблемы поиска с привлечением семантики для статистического анализа документов или анализа поисковых запросов на естественном языке. Обычно top-down подход обоснован экономической заинтересованностью в быстром и эффективном решении без привлечения специалистов. Однако случается так, что область знаний слишком противоречива, чтобы построение ее онтологии было возможным. Иногда на построение онтологии требуется слишком много человеческих ресурсов, и качество поиска в итоге будет зависеть от качества онтологии. Поэтому онтологии применимы далеко не ко всем областям знаний. Что касается морской биологии, существующие форматы метаданных в той или иной степени применимы к этой области. Показать способ эффективного использования онтологий – задача этой работы.
Таким образом, использование семантического поиска на основе онтологий для баз данных наблюдений морских экосистем позволит улучшить существующие методы поиска в системах NSDI Clearinghouse Network и GeoNetwork, может предоставить универсальный формат метаданных, например, на основе языка описания онтологий OWL , а также сделает проект обмена метаданными, инициированный TCODE, полноценной частью Semantic Web.
2. Системы обмена метаданными и анализ существующих проблем
Как уже упоминалось в разделе 1.1, в настоящий момент поиск данных наблюдений по морской биологии в рамках проекта Metadata Federation of PICES Member Countries [7] осуществляется с помощью систем NSDI Clearinghouse Network и GeoNetwork. Так как задачи данной работы фокусируются в области интересов PICES, мы не будем рассматривать сторонние технологии хранения биологических метаданных, а рассмотрим подробнее две




СПИСОК ЛИТЕРТУРЫ:



1. Список использованных источников [1]. Berners-Lee T., Hendler J., Lassila O. The Semantic Web. – Scientific American, 2001, http://www.sciam.com. [2]. Guha R., McCool R., Miller E. Semantic Search. – WWW2003, May 2003, http://www2003.org/cdrom/papers/refereed/p779/ess.html. [3]. Gruber T. A translation approach to portable ontologies. – Knowledge Acquisition, 1993, http://tomgruber.org/writing/ontolingua-kaj-1993.htm [4]. Bratt S. Semantic Web and other W3C technologies to watch – January 2007, http://www.w3.org/2007/Talks/0130-sb-W3CTechSemWeb/0130-sb-W3CTechSemWeb.pdf [5]. Shirky C.. Ontology is Overrated: Categories, Links, and Tags. – Economics & Culture, Media & Community, http://www.shirky.com/writings/ontology_overrated.html [6]. Delcambre L., Khatri V., Wand Y., Williams B., Woo C., Zozulia M. Eliciting Data Semantics Via Top-Down and Bottom-Up Approaches: Challenges and Opportunities. – University of British Columbia, Canada, 2006, http://adrg.eller.arizona.edu/ER2006/panel2.pdf [7]. Megrey B., Macklin A., Bahl K., Klawitter D. Metadata Federation of PICES Member Countries. – PICES, February 2007, http://www.tinro.ru/pices/tcode/fr.pdf [8]. Инфраструктура для обмена метаданными экосистемных наблюдений / Бураго И.В., Васик О.Н., Моисеенко Г.С., Шевченко И.И. // Математическое моделирование и информационные технологии в исследованиях биоресурсов Мирового океана: Тез.докл (1 ? 3 окт. 2007 г., Владивосток, ТИНРО-Центр), 83 с. [9]. ТИНРО-центр. Семинар по информационным технологиям «Математическое моделирование и информационные технологии в исследованиях биоресурсов Мирового океана» (14 -17 сен. 2004 г.). [10]. Фаулер М. Архитектура корпоративных программных приложений. : Пер. с англ. – М. : Издательский дом «Вильямс», 2007. – 544 с. [11]. Дейт К. Введение в системы баз данных, 7-ое издание. : Пер. с англ. – М. : Издательский дом «Вильямс», 2001. – 1072 с. [12]. Жыжырий Е., Щербак С. Математическое обеспечение систем поиска, основанных на онтологиях. – 2008, http://shcherbak.net/mat_obez/ [13]. Fannizzi N., Amato C., Esposito F. Semantic Nearest Neighbour Search in OWL ontologies. – University of Bali, 2007 [14]. Павлов Д., Задачи OWL-based поисковой системы и пути их решения. – 2005, http://md-it.ru/articles/html/article21.html [15]. Seshadri G. Understanding JavaServer Pages Model 2 architecture. – JavaWorld.com, 1999, http://www.javaworld.com/javaworld/jw-12-1999/jw-12-ssj-jspmvc.html [16]. Bechhofer S., Harmelen F., Hendler J. OWL Web Ontology Language Reference. – February 2004, http://www.w3.org/TR/owl-ref/ [17]. Graham K. Resource Description Framework (RDF): Concepts and Abstract Syntax, http://www.w3.org/TR/rdf-concepts/ 2004 [18]. Seaborne A. RDQL ? A Query Language for RDF, http://www.w3.org/Submission/2004/SUBM-RDQL-20040109/ [19]. Sierra K.; Bates B., Basham B. Head First Servlets & JSP. – O'Reilly Media [20]. Bodoff S. Java Servlet Technology Tutorial. – http://java.sun.com/j2ee/tutorial/1_3-fcs/doc/Servlets.html [21]. Federal Geographic Data Committee. Content Standard for Digital Geospatial Metadata. – June 1998, FGDC, Washington D.C., http://www.fgdc.gov/standards/projects/FGDC-standards-projects/metadata/base-metadata/v2_0698.pdf [22]. Knublauch H. Protege-OWL API Programmer's Guide. – September 2006, http://protege.stanford.edu/plugins/owl/api/guide.html [23]. http://www.loc.gov/z3950/agency/Z39-50-2003.pdf Стандартное описание протокола Z39.50 (ISO 23950) [24]. http://www.iso.org/iso/en/CatalogueDetailPage.CatalogueDetail?CSNUMBER=26020 Стандартное описание формата "Geographic Information ? Metadata", ISO 19115 [25]. http://gcmd.gsfc.nasa.gov/User/difguide/difman.html Руководство по использованию Directory Interchange Format (DIF) [26]. http://knb.ecoinformatics.org/software/eml/ Проект по развитию формата Ecological Metadata Language (EML) [27]. http://dublincore.org/documents/dces/ Документация по формату метаданных Dublin Core [28]. http://jena.sourceforge.net/ Jena – A Semantic Web Framework, [29]. http://springframework.org/ Spring framework [30]. http://protege.stanford.edu/overview/protege-owl.html Редактор онтологий Protege-OWL [31]. http://www.co-ode.org/downloads/owlviz/ Плагин к Protege-OWL для визуализации онтологий OWLViz Plugin [32]. http://protege.stanford.edu/doc/users.html#tutorials Руководство и документация по редактору Protege-OWL [33]. http://java.sun.com/products/jsp/ Описание технологии JavaServer Pages [34]. http://java.sun.com/products/servlet/ Описание технологии Java Servlet [35]. http://java.sun.com/javase/technologies/desktop/javabeans/index.jsp Описание технологии JavaBeans [36]. http://rhizomik.net/redefer/ Проект по созданию средств преобразования документов различных форматов в RDF [37]. http://developer.k-int.com Проект по созданию систем интеграции знаний [38]. http://www.jdom.org/ Проект по созданию многофункционального менеджера XML на Java [39]. http://protege.stanford.edu/plugins/owl/ontologies.html Страница Стэнфордского Университета, содержащая коллекцию OWL онтологий, в том числе онтологии форматов FGDC CSDGM и ISO 19115 [40]. http://www.daml.org/services/ OWL-S Home Page
Цена: 750.00руб.

ДОБАВИТЬ В КОРЗИНУ

УДАЛИТЬ ИЗ КОРЗИНЫ

КУПИТЬ СРАЗУ


ЗАДАТЬ ВОПРОС

Будьте внимательны! Все поля обязательны для заполнения!

Контактное лицо :
*
email :
*
Введите проверочный код:
*
Текст вопроса:
*



Будьте внимательны! Все поля обязательны для заполнения!

Copyright © 2009, Diplomnaja.ru