• sasha_2

Как учесть в классификаторе требование монотонности по отдельному параметру ?

Иногда при построении классификатора (например, на базе метода SVМ) требуется обеспечить "физическое" требование монотонности изменения метки (label) при изменении значения какого-то отдельного параметра. Пример - если классификатор наличия-отсутствия диабета в зависимости от значений ряда входных параметров дал выходное значение "да" при уровне сахара 120, то ясно, что он должен давать такое же выходное значение при уровне сахара больше 120. И наооборот, если он дал выходное значение "нет", то должен давать такое же выходное значение при уровне сахара меньше 120 (при неизменных значениях остальных входных параметров). Подскажите, пожалуйста, существуют ли какие-нибудь подходы к решению подобных задач? Заранее спасибо.

SVС для объектов с пустыми полями у некоторых параметров

Обычно под "missing data" понимают отсутствие меток у некоторых объектов - так называемый "semi-supervised classification". В моей же задаче классификации ситуация иная - метки есть по всем объектам из обучающей выборки, а вот у некоторых объектов по некоторым параметрам  отсутствуют данные . Подскажите, пожалуйста, как в этом случае применить SVM алгоритм? Любые советы, статьи, ссылки и линки приветствуются. Заранее спасибо.
alter ego

11-точечный график

Добрый день,

У меня вопрос по 11-ти точечному графику полнота-точность.
Вот этот график из известного учебника:



Объясните, пожалуйста, почему там, где полнота 0, точность уже меньше единицы? Каким образом это начальное значение посчитать?

И почему на простом графике полнота-точность из той же книжки там, где полнота 0, точность все-таки 1.



Это какая-то ошибка в 11-ти точечной картинке? Или я чего-то не понимаю?

Заранее большое спасибо за ответы!
    

Сеанс качественного машинного перевода с последующим разоблачением

Дорогие друзья,
В эту субботу, 11 апреля, состоится заседание нашего семинара по автоматической обработке естественного языка. Доклад с интригующим названием "Сеанс качественного машинного перевода с последующим разоблачением" прочтёт нам магистр лингвистики, разработчик ПО из компании JetBrains Пётр Громов.
Программа constructor переводит творчество Хармса на английский язык не хуже переводчика-человека. Используя грамматику конструкций для синтаксического анализа, она строит промежуточное, чисто семантическое представление текста. Понимание программой смысла текста помогает в разрешении неоднозначностей. Автор покажет программу в действии и расскажет, как она устроена внутри; в частности, как она обрабатывает эллипсис, местоимения и другие интересные конструкции русского языка.

Семинар пройдет по адресу: 10 линия В.О. дом 49, ауд 308. Начало в 17:00.

Пароль для прохода через вахту: "Я на семинар".

alter ego

Руссир начал прием заявок

Руссир - это международная школа по информационному поиску, которая традиционно (восьмой год) проходит в России. Это уникальная возможность поучиться у ведущих специалистов в области не уезжая далеко от дома. В этом году школа проходит в Нижнем Новгороде.
Школа будет полезна как студентам-старшекурсникам, там и аспирантам и молодым специалистам, да вообще всем, кто хочет повысить свою квалификацию.
Участие в школе бесплатное, имеется ограниченное количество грантов на проживание. Обязательным условием является участие в постерной секции. При подаче заявки на школу надо подать 2-х страничные тезисы работы, которая будет представлена в виде постера. При отборе заявок учитывается качество этих тезисов и их релевантность основным тематикам школы.
Кроме того, при школе организуется конференция молодых ученых. Статьи, отобранные на конференцию, будут опубликованы в издательстве Springer. Участие в конференции становится весомым аргументом при распределении грантов на проживание.

Collapse )

Успешная публикация в международных научных журналах и на конференциях

Дорогие коллеги,
В ближайшую субботу, 26 апреля, состоится очередной семинар по автоматической обработке естественного языка. Наталья Константинова выступит с докладом на тему "Успешные публикации в международных научных журналах и на конференциях".

Где и зачем публиковаться? На семинаре мы обсудим возможные альтернативы в выборе места публикаций, разберем то, что должно влиять на этот выбор и что стоит учитывать. Мы рассмотрим стандартную процедуру рецензирования как на конференциях, так и в журналах. Презентация поможет наглядно разобрать стандартную структуру научных статей и избежать возможные ошибки. Данная презентация будет полезна как начинающим свою научную карьеру студентам, так и старшим научным сотрудникам, которые планируют более активно публиковаться в зарубежных источниках.

Наталья закончила кафедру математической лингвистики в СПбГУ и получила PhD в University of Wolverhampton (UK). Ее интересы охватывают такие области NLP, как извлечение информации, онтологии, машинный перевод и интерактивные вопросно-ответные системы. Она также проявляет интерес к машинному обучению и рекомендательным системам. Уже на протяжении 5 лет Наталья является помощником редактора научного журнала, издаваемого престижным Cambridge University Press. Она имеет обширный опыт организации конференций и рецензирования научных статей.

Семинар пройдет по адресу: 10 линия В.О. дом 49, ауд 308. Начало в 17:00.

Пароль для прохода через вахту: "Я на семинар".
alter ego

Russir: call for courses

   8th Russian Summer School in Information Retrieval (RuSSIR 2014)
              Monday August 18 - Friday August 22, 2014
                       Nizhny Novgorod, Russia
                          http://russir.org

                    1ST CALL FOR COURSE PROPOSALS

Course proposals deadline: 9 March 2014

The 8th Russian Summer School in Information Retrieval (RuSSIR 2014)
will be held on August 18-22, 2014 in Nizhny Novgorod, Russia. The
school is co-organized by the National Research University Higher
School of Economics in Nizhny Novgorod (http://nnov.hse.ru/en/) and
the Russian Information Retrieval Evaluation Seminar (ROMIP,
http://romip.ru/en/). RuSSIR 2014 is planned to have an additional
focus on visualization for IR.

The missions of the RuSSIR school series are to enable students to
learn about modern problems and methods in information retrieval and
related disciplines; to stimulate scientific research and collaboration
in the field; and to create an environment for informal contacts
between scientists, students and industry professionals.

RuSSIR 2014 will offer up to seven courses and host approximately 100
participants. The target audience of the school is advanced graduate
and PhD students, academic and industrial researchers, and developers.
The working language of the school is English.

RuSSIR 2014 welcomes course proposals on any aspect of IR theory and
applications, as well as visualization for IR including, but not
limited to:
 - IR models
 - Web and social media IR
 - System architectures and scalability
 - Content representation and analysis
 - User aspects and interaction models for IR
 - Multimedia IR
 - Evaluation and user studies
 - Information visualization methods
 - Text analytics
 - Visual analytics
 - Perceptual and cognitive aspects
 - Applications

Collapse )
Пожалуйста, распространите информацию среди заинтересованных коллег.
                        

Semi-supervised vs. Cross-domain Graph-based Learning for Sentiment Classification

Дорогие друзья!
В эту субботу, 21 декабря, в 17:00 состоится последний в этом году семинар по автоматической обработке естественного языка. Закрывать сезон будет Наталья Пономарева (Statistical Cybermetrics Research group, University of Wolverhampton) с докладом "Semi-supervised vs. Cross-domain Graph-based Learning for Sentiment Classification".

Доклад посвящен двум подходам машинного обучения в применении к классификации сентиментов (sentiment classification). Первый подход (cross-domain) для обучения модели использует размеченные данные из предметной области, отличной от области тестовых данных. Второй подход (semi-supervised) требует наличия небольшой выборки размеченных данных из той же предметной области, что и тестовые данные.

Центральный метод машинного обучения, используемый в данной работе, состоит в применении алгоритмов на графах. Этот метод был выбран в силу нескольких причин. Во-первых, реализация алгоритмов на графах не зависит от используемого подхода. Во-вторых, различные исследования показали успешность применения данных алгоритмов как при “semi-supervised”, так и при “cross-domain” подходах. Наконец, алгоритмы на графах легко масштабируются для решения задач с миллионами данных, а также без труда адаптируются к задачам со многими классами.

В докладе будет подробно разобран один из популярных алгоритмов на графах – метод распространения разметки (label propagation) и его модификации. Особое внимание будет уделено построению графа, узлами которого являются документы, а ребра соответствуют сходству между сентиментами соответствующих узлов. В частности, будут рассмотрены разные меры сходства между текстами, для выбора меры, которая дает наилучший результат с точки зрения внутренней (intrinsic) и внешней (extrinsic) оценок.

В результате использования алгоритмов на графах при “semi-supervised” и “cross-domain” подходах, будет предложена стратегия, позволяющая выбрать наиболее целесообразный подход в зависимости от имеющихся размеченных и тестовых данных и их свойств.

Семинар пройдет по адресу: 10 линия В.О. дом 49, ауд 308.
Пароль для прохода через вахту: "Я на семинар".

Временнóе измерение в приложениях автоматической обработки текста

Уважаемые коллеги,
В эту субботу, 7 декабря, в 17:00, состоится очередной семинар по автоматической обработке естественного языка. Тема доклада - "Временнóе измерение в приложениях автоматической обработки текста", докладчик - Александр Коломиец (Лёвенский Католический Университет, Бельгия).

Время – важный аспект в системах обработки и поиска информации. В естественном языке существует набор лингвистических приемов для выражения временнóй последовательности событий (фактов). Так, например, хронологическая последовательность реальных событий во времени может иметь неоднозначное отображение в тексте, но несмотря на это, носитель языка, прочитав текст, без труда может реконструировать хронологическую последовательность событий, описанных в нем. Для систем искусственного интеллекта такое, на первый взгляд, простое задание порой представляется невозможным.

В данном докладе речь пойдет об алгоритмах обработки естественного языка, нацеленных на автоматическое распознавание временных структур хронологий событий, и их практическое применение в системах искусственного интеллекта.

Семинар пройдет 7.12.2013 в 17.00 по адресу: 10 линия В.О. дом 49, ауд 308.
Пароль для прохода через вахту: "Я на семинар".

  • sasha_2

SVR с нечёткими значениями функции

Дорогие коллеги, посоветуйте, пожалуйста, как можно применить метод SVR (Support Vector Regression – модификация SVM для регрессий, а не классификаций) при наличии большого количества исходных данных с нечёткими значениями положительно-определённой функции.
Например, мы хотим построить функцию, прогнозирующую время жизни конкретного экземпляра устройства исходя из параметров этого экземпляра и лишь у 5% всех исходных данных в обучающей выборке значения функции известны точно (устройство уже вышло из строя), а у остальных 95% данных значения функции известны только в аспекте неравенства > (например, f(51)>20, f(52)>37, f(53)>119,…), т.е. устройство ещё работает. В аспекте построения функции распределения времени жизни устройства (без привязки к конкретным значениям параметров отдельных экземпляров) нет проблем учесть и конкретные значения времени жизни, и неравенства - например, используя метод MLE (Maximum Likelihood) и выписывая вероятности и для равенств, и для неравенств. А вот как быть для регрессии? Заранее спасибо за любые советы.