Tags: NLP-семинар

Сеанс качественного машинного перевода с последующим разоблачением

Дорогие друзья,
В эту субботу, 11 апреля, состоится заседание нашего семинара по автоматической обработке естественного языка. Доклад с интригующим названием "Сеанс качественного машинного перевода с последующим разоблачением" прочтёт нам магистр лингвистики, разработчик ПО из компании JetBrains Пётр Громов.
Программа constructor переводит творчество Хармса на английский язык не хуже переводчика-человека. Используя грамматику конструкций для синтаксического анализа, она строит промежуточное, чисто семантическое представление текста. Понимание программой смысла текста помогает в разрешении неоднозначностей. Автор покажет программу в действии и расскажет, как она устроена внутри; в частности, как она обрабатывает эллипсис, местоимения и другие интересные конструкции русского языка.

Семинар пройдет по адресу: 10 линия В.О. дом 49, ауд 308. Начало в 17:00.

Пароль для прохода через вахту: "Я на семинар".

Успешная публикация в международных научных журналах и на конференциях

Дорогие коллеги,
В ближайшую субботу, 26 апреля, состоится очередной семинар по автоматической обработке естественного языка. Наталья Константинова выступит с докладом на тему "Успешные публикации в международных научных журналах и на конференциях".

Где и зачем публиковаться? На семинаре мы обсудим возможные альтернативы в выборе места публикаций, разберем то, что должно влиять на этот выбор и что стоит учитывать. Мы рассмотрим стандартную процедуру рецензирования как на конференциях, так и в журналах. Презентация поможет наглядно разобрать стандартную структуру научных статей и избежать возможные ошибки. Данная презентация будет полезна как начинающим свою научную карьеру студентам, так и старшим научным сотрудникам, которые планируют более активно публиковаться в зарубежных источниках.

Наталья закончила кафедру математической лингвистики в СПбГУ и получила PhD в University of Wolverhampton (UK). Ее интересы охватывают такие области NLP, как извлечение информации, онтологии, машинный перевод и интерактивные вопросно-ответные системы. Она также проявляет интерес к машинному обучению и рекомендательным системам. Уже на протяжении 5 лет Наталья является помощником редактора научного журнала, издаваемого престижным Cambridge University Press. Она имеет обширный опыт организации конференций и рецензирования научных статей.

Семинар пройдет по адресу: 10 линия В.О. дом 49, ауд 308. Начало в 17:00.

Пароль для прохода через вахту: "Я на семинар".

Semi-supervised vs. Cross-domain Graph-based Learning for Sentiment Classification

Дорогие друзья!
В эту субботу, 21 декабря, в 17:00 состоится последний в этом году семинар по автоматической обработке естественного языка. Закрывать сезон будет Наталья Пономарева (Statistical Cybermetrics Research group, University of Wolverhampton) с докладом "Semi-supervised vs. Cross-domain Graph-based Learning for Sentiment Classification".

Доклад посвящен двум подходам машинного обучения в применении к классификации сентиментов (sentiment classification). Первый подход (cross-domain) для обучения модели использует размеченные данные из предметной области, отличной от области тестовых данных. Второй подход (semi-supervised) требует наличия небольшой выборки размеченных данных из той же предметной области, что и тестовые данные.

Центральный метод машинного обучения, используемый в данной работе, состоит в применении алгоритмов на графах. Этот метод был выбран в силу нескольких причин. Во-первых, реализация алгоритмов на графах не зависит от используемого подхода. Во-вторых, различные исследования показали успешность применения данных алгоритмов как при “semi-supervised”, так и при “cross-domain” подходах. Наконец, алгоритмы на графах легко масштабируются для решения задач с миллионами данных, а также без труда адаптируются к задачам со многими классами.

В докладе будет подробно разобран один из популярных алгоритмов на графах – метод распространения разметки (label propagation) и его модификации. Особое внимание будет уделено построению графа, узлами которого являются документы, а ребра соответствуют сходству между сентиментами соответствующих узлов. В частности, будут рассмотрены разные меры сходства между текстами, для выбора меры, которая дает наилучший результат с точки зрения внутренней (intrinsic) и внешней (extrinsic) оценок.

В результате использования алгоритмов на графах при “semi-supervised” и “cross-domain” подходах, будет предложена стратегия, позволяющая выбрать наиболее целесообразный подход в зависимости от имеющихся размеченных и тестовых данных и их свойств.

Семинар пройдет по адресу: 10 линия В.О. дом 49, ауд 308.
Пароль для прохода через вахту: "Я на семинар".

Временнóе измерение в приложениях автоматической обработки текста

Уважаемые коллеги,
В эту субботу, 7 декабря, в 17:00, состоится очередной семинар по автоматической обработке естественного языка. Тема доклада - "Временнóе измерение в приложениях автоматической обработки текста", докладчик - Александр Коломиец (Лёвенский Католический Университет, Бельгия).

Время – важный аспект в системах обработки и поиска информации. В естественном языке существует набор лингвистических приемов для выражения временнóй последовательности событий (фактов). Так, например, хронологическая последовательность реальных событий во времени может иметь неоднозначное отображение в тексте, но несмотря на это, носитель языка, прочитав текст, без труда может реконструировать хронологическую последовательность событий, описанных в нем. Для систем искусственного интеллекта такое, на первый взгляд, простое задание порой представляется невозможным.

В данном докладе речь пойдет об алгоритмах обработки естественного языка, нацеленных на автоматическое распознавание временных структур хронологий событий, и их практическое применение в системах искусственного интеллекта.

Семинар пройдет 7.12.2013 в 17.00 по адресу: 10 линия В.О. дом 49, ауд 308.
Пароль для прохода через вахту: "Я на семинар".

Оценка систем обработки текста

Дорогие друзья,
Наш семинар по автоматической обработке естественного языка открывает новый сезон! Ближайший доклад состоится в эту субботу, 19 октября. Александр Тарелкин (Яндекс) расскажет об оценке систем обработки текста.
Автоматическая обработка естественного языка все больше набирает обороты: развиваются старые системы, появляются новые. В этой связи все чаще возникает потребность сравнить качество той или иной системы с каким-то
предыдущим состоянием или с другими системами. На практике это может оказаться сложнее, чем кажется. В данном докладе речь пойдет об основных принципах оценки качества систем обработки естественного языка: о метриках, о подготовке данных и о самой процедуре оценки.
Семинар пройдет 19.10.2013 в 17.00 по адресу: 10 линия В.О. дом 49, ауд 308.
Пароль для прохода через вахту: "Я на семинар".
alter ego

AINL 2013: Call for Papers



О конференции

Приглашаем принять участие во второй конференции AINL: “Искусственный интеллект и естественный язык”, которая состоится в 17-18 мая 2013 года в Санкт-Петербурге. Основная цель мероприятия — обсудить последние продукты и разработки, обменяться опытом, найти возможные варианты сотрудничества. Конференция организована NLPseminar и компанией i-Free.

Первая конференция AINL прошла 26 мая 2012 года в Санкт-Петербурге с большим успехом.В конференции приняли участие представители ведущих российских компаний, научных коллективов и высших учебных заведений.

Тематики AINL 2013
  • Искусственный интеллект и интеллектуальные агенты
  • Речевые технологии
  • Инженерия знаний, linked data
  • Text mining
  • Лингвистические технологии, в том числе машинный перевод

Участникам

Мы приглашаем принять участие в конференции представителей компаний, работающих в сфере интеллектуальных технологий, разработчиков профильных проектов, участников научных групп, студентов и аспирантов.

Работы будут приниматься в трех основных треках:
  • Технологии и научно-прикладные исследования
  • Проекты, связанные с AI и NL
  • Демо-секция

Чтобы принять участие в конференции, необходимо подать заявку до 1 марта 2013 года.

Заявка должна содержать:

ФИО, должность, место работы или учебы
Краткую биографию докладчика (50 слов), ссылки на профили в соц.сетях
Тезисы доклада, объемом до 600 слов
Форма представление работы: устный доклад или постер

Каждая работа будет отрецензирована как минимум двумя членами программного комитета. Рабочие языки мероприятия: русский и английский.

Форма подачи заявок будет в ближайшее время опубликована на сайте конференции.

http://nlpseminar.ru/ainl/
                                         

У кого что болит? Анализ социальных вопросно-ответных сервисов по медицинской тематике

Уважаемые коллеги,
В следующий четверг, 13 декабря, состоится внеочередной семинар по обработке естественного языка. К нам приезжает Павел Браславский (Kontur labs/Уральский федеральный университет) с докладом на тему "У кого что болит? Анализ социальных вопросно-ответных сервисов по медицинской тематике".
Социальные вопросно-ответные сервисы (community question answering, CQA) позволяют пользователям задавать вопросы другим членам сообщества, отвечать на вопросы, оценивать вопросы и ответы, а также зарабатывать баллы. Люди обращаются к этим сервисам, когда сталкиваются с информационной потребностью, которую непросто выразить в виде короткого запроса, когда хотят получить персонифицированный "человеческий ответ" или просто поболтать. Павел расскажет об экспериментах, которые они провели на данных сервиса Ответы@Mail.Ru, относящихся к теме "Медицина и здоровье", а также о ближайших планах работы с данными CQA.
Кроме того, Павел расскажет нам о новых инициативах РОМИПа.
ВНИМАНИЕ!
Семинар пройдет в офисе Яндекса по адресу Пискаревский проспект, д. 2, БЦ Бенуа. Начало в 19:00. Для участия в семинаре необходима предварительная регистрация. Регистрация открыта до 12:00 12.12.12.

Grouping Customer Opinions Written in Natural Language Using Unsupervised Machine Learning

Дорогие коллеги,
В ближайшую субботу, 24 ноября, состоится очередной семинар по автоматической обработке естественного языка. К нам приезжает профессор из университета Брно Ян Жижка. Ян выступит с докладом на тему "Grouping Customer Opinions Written in Natural Language Using Unsupervised Machine Learning".
Внимание - семинар будет проходить на АНГЛИЙСКОМ языке.
In the first part, the talk deals with a problem of automatic clustering of unstructured textual documents. Here, this known problem is investigated empirically, focusing especially on very large data taken from the real world: Reviews of customers of hotel accommodations booked online. The data come from one of popular booking service provided by booking.com. Using the biggest selection (almost 2,000,000 freely written reviews in English), the talk presents the problem which clustering method should be used, what parameters of the selected algorithm are optimal, and how to estimate the clustering correctness.
In the second part, the talk mentions another problem that played a specific role in the clustering task and that arose: How to process very large (textual) data volumes when our computers cannot process it because of the never sufficient RAM (memory) size? The side experiments with (pseudo)parallel processing demonstrated some interesting things related to the representing demand of randomly selected subsets of the large original set. When the subsets lose their representative role due to omitting some relevant words because of the selection? Is it better to process more smaller subsets faster or less bigger ones slower?
Семинар пройдет по адресу: 10 линия В.О. дом 49, ауд 308. Начало в 17:00.
Пароль для прохода через вахту: "Я на семинар".

Место онтологий в современной инженерии на примере ISO 15926

Уважаемые коллеги,

В ближайшую субботу, 29 сентября, состоится очередной семинар по обработке естественного языка. С докладом на тему "Место онтологий в современной инженерии на примере ISO 15926" выступит Андрей Байда.

Сложность задач, стоящих перед современными инженерами, определяется множеством факторов. Это и размер разрабатываемых систем, и необходимость учитывать весь их жизненный цикл. Задача осложняется нетривиальностью взаимодействия между организациями, вовлеченными в создание сложных систем, а также необходимостью соблюдать сроки и бюджеты. При этом современная инженерия немыслима без компьютеров. Как следствие, на этапах от замысла до воплощения и эксплуатации используется большое количество разнообразного ПО, которое обрабатывает данные об одном и том же объекте, но хранит их в несовместимых форматах, что не позволяет передавать их от одной информационной системы к другой без вовлечения человека, искажений, потерь, ошибок. Это представляет собой серьезную проблему, решение которой предложил онтологический стандарт ISO 15926. Для этого потребовалось изменить парадигму, закладываемую в основу моделирования мира, обратиться к переднему краю развития современной логики. В получении практических результатов могут сыграть большую роль достижения современной лингвистики. Данный доклад является введением в решение проблем современной инженерии посредством использования стандарта ISO 15926.

Семинар пройдет 29.09.2012 в 17.00 по адресу: 10 линия В.О. дом 49, ауд 308.
Пароль для прохода через вахту: "Я на семинар".

Адаптация англоязычной системы извлечения информации к русскому языку

Уважаемые коллеги,

Спешим сообщить, что наш семинар возобновляет свою работу. Первый доклад в этом сезоне состоится в ближайшую субботу, 15 сентября. Лидия Пивоварова (Университет Хельсинки, СПбГУ) расскажет об адаптации англоязычной системы извлечения информации к русскому языку.

Доклад посвящен разработке встроенного компонента анализа русскоязычных текстов для системы PULS (http://puls.cs.helsinki.fi/puls/databases/).

PULS - система извлечения информации из текста, которая в настоящее время работает с тремя сценариями: массовые инфекционные заболевания, пограничная безопасность и бизнес-новости. Система может относительно просто расширяться на другие сценарии, однако до последнего времени она работала преимущественно с английским языком.

Анализ русскоязычных текстов открывает доступ к сбору информации о событиях, происходящих на територрии бывшего Советского Союза, включая регионы, информация о которых не представлена в англоязычных источниках или появляется с сильным запаздыванием. Анализ русскоязычных текстов в данный момент реализован для двух сценариев: инфекционные заболевания и пограничная безопасность.

Разрабатывая модуль Information Extraction для русского языка, мы старались максимально использовать уже существующие компоненты PULS. Такой подход не только ускорил разработку фактографического поиска для русскоязычных текстов, но и позволил легко встроить его в общую систему анализа информации. В настоящее время все инструменты PULS, не связанные непосредственно с анализом текста (поиск по базе данных, группировка событий и пр.), работают со всеми фактами независимо от того, на каком языке они были найдены.

В докладе будут подробно описаны модули анализа текста, включая морфо-синтаксический анализ (на основе АОТ), поисковые образцы и правила вывода, а также онтология и словари, используемые системой Information Extraction. Также в докладе будет обрисован эксперимент по оценке совместной работы компонента Information Extraction, основанного на правилах, и классификатора релевантности, основанного на машинном обучении.

Семинар пройдет 15.09.2012 в 17.00 по адресу: 10 линия В.О. дом 49, ауд 308.
Пароль для прохода через вахту: "Я на семинар".