nataxane (nataxane) wrote in ru_ir,
nataxane
nataxane
ru_ir

Адаптация англоязычной системы извлечения информации к русскому языку

Уважаемые коллеги,

Спешим сообщить, что наш семинар возобновляет свою работу. Первый доклад в этом сезоне состоится в ближайшую субботу, 15 сентября. Лидия Пивоварова (Университет Хельсинки, СПбГУ) расскажет об адаптации англоязычной системы извлечения информации к русскому языку.

Доклад посвящен разработке встроенного компонента анализа русскоязычных текстов для системы PULS (http://puls.cs.helsinki.fi/puls/databases/).

PULS - система извлечения информации из текста, которая в настоящее время работает с тремя сценариями: массовые инфекционные заболевания, пограничная безопасность и бизнес-новости. Система может относительно просто расширяться на другие сценарии, однако до последнего времени она работала преимущественно с английским языком.

Анализ русскоязычных текстов открывает доступ к сбору информации о событиях, происходящих на територрии бывшего Советского Союза, включая регионы, информация о которых не представлена в англоязычных источниках или появляется с сильным запаздыванием. Анализ русскоязычных текстов в данный момент реализован для двух сценариев: инфекционные заболевания и пограничная безопасность.

Разрабатывая модуль Information Extraction для русского языка, мы старались максимально использовать уже существующие компоненты PULS. Такой подход не только ускорил разработку фактографического поиска для русскоязычных текстов, но и позволил легко встроить его в общую систему анализа информации. В настоящее время все инструменты PULS, не связанные непосредственно с анализом текста (поиск по базе данных, группировка событий и пр.), работают со всеми фактами независимо от того, на каком языке они были найдены.

В докладе будут подробно описаны модули анализа текста, включая морфо-синтаксический анализ (на основе АОТ), поисковые образцы и правила вывода, а также онтология и словари, используемые системой Information Extraction. Также в докладе будет обрисован эксперимент по оценке совместной работы компонента Information Extraction, основанного на правилах, и классификатора релевантности, основанного на машинном обучении.

Семинар пройдет 15.09.2012 в 17.00 по адресу: 10 линия В.О. дом 49, ауд 308.
Пароль для прохода через вахту: "Я на семинар".
Tags: nlp-семинар
Subscribe

  • Post a new comment

    Error

    default userpic
    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments