Category: it

Category was added automatically. Read all entries about "it".

  • sasha_2

Как учесть в классификаторе требование монотонности по отдельному параметру ?

Иногда при построении классификатора (например, на базе метода SVМ) требуется обеспечить "физическое" требование монотонности изменения метки (label) при изменении значения какого-то отдельного параметра. Пример - если классификатор наличия-отсутствия диабета в зависимости от значений ряда входных параметров дал выходное значение "да" при уровне сахара 120, то ясно, что он должен давать такое же выходное значение при уровне сахара больше 120. И наооборот, если он дал выходное значение "нет", то должен давать такое же выходное значение при уровне сахара меньше 120 (при неизменных значениях остальных входных параметров). Подскажите, пожалуйста, существуют ли какие-нибудь подходы к решению подобных задач? Заранее спасибо.

Сеанс качественного машинного перевода с последующим разоблачением

Дорогие друзья,
В эту субботу, 11 апреля, состоится заседание нашего семинара по автоматической обработке естественного языка. Доклад с интригующим названием "Сеанс качественного машинного перевода с последующим разоблачением" прочтёт нам магистр лингвистики, разработчик ПО из компании JetBrains Пётр Громов.
Программа constructor переводит творчество Хармса на английский язык не хуже переводчика-человека. Используя грамматику конструкций для синтаксического анализа, она строит промежуточное, чисто семантическое представление текста. Понимание программой смысла текста помогает в разрешении неоднозначностей. Автор покажет программу в действии и расскажет, как она устроена внутри; в частности, как она обрабатывает эллипсис, местоимения и другие интересные конструкции русского языка.

Семинар пройдет по адресу: 10 линия В.О. дом 49, ауд 308. Начало в 17:00.

Пароль для прохода через вахту: "Я на семинар".

Успешная публикация в международных научных журналах и на конференциях

Дорогие коллеги,
В ближайшую субботу, 26 апреля, состоится очередной семинар по автоматической обработке естественного языка. Наталья Константинова выступит с докладом на тему "Успешные публикации в международных научных журналах и на конференциях".

Где и зачем публиковаться? На семинаре мы обсудим возможные альтернативы в выборе места публикаций, разберем то, что должно влиять на этот выбор и что стоит учитывать. Мы рассмотрим стандартную процедуру рецензирования как на конференциях, так и в журналах. Презентация поможет наглядно разобрать стандартную структуру научных статей и избежать возможные ошибки. Данная презентация будет полезна как начинающим свою научную карьеру студентам, так и старшим научным сотрудникам, которые планируют более активно публиковаться в зарубежных источниках.

Наталья закончила кафедру математической лингвистики в СПбГУ и получила PhD в University of Wolverhampton (UK). Ее интересы охватывают такие области NLP, как извлечение информации, онтологии, машинный перевод и интерактивные вопросно-ответные системы. Она также проявляет интерес к машинному обучению и рекомендательным системам. Уже на протяжении 5 лет Наталья является помощником редактора научного журнала, издаваемого престижным Cambridge University Press. Она имеет обширный опыт организации конференций и рецензирования научных статей.

Семинар пройдет по адресу: 10 линия В.О. дом 49, ауд 308. Начало в 17:00.

Пароль для прохода через вахту: "Я на семинар".

Semi-supervised vs. Cross-domain Graph-based Learning for Sentiment Classification

Дорогие друзья!
В эту субботу, 21 декабря, в 17:00 состоится последний в этом году семинар по автоматической обработке естественного языка. Закрывать сезон будет Наталья Пономарева (Statistical Cybermetrics Research group, University of Wolverhampton) с докладом "Semi-supervised vs. Cross-domain Graph-based Learning for Sentiment Classification".

Доклад посвящен двум подходам машинного обучения в применении к классификации сентиментов (sentiment classification). Первый подход (cross-domain) для обучения модели использует размеченные данные из предметной области, отличной от области тестовых данных. Второй подход (semi-supervised) требует наличия небольшой выборки размеченных данных из той же предметной области, что и тестовые данные.

Центральный метод машинного обучения, используемый в данной работе, состоит в применении алгоритмов на графах. Этот метод был выбран в силу нескольких причин. Во-первых, реализация алгоритмов на графах не зависит от используемого подхода. Во-вторых, различные исследования показали успешность применения данных алгоритмов как при “semi-supervised”, так и при “cross-domain” подходах. Наконец, алгоритмы на графах легко масштабируются для решения задач с миллионами данных, а также без труда адаптируются к задачам со многими классами.

В докладе будет подробно разобран один из популярных алгоритмов на графах – метод распространения разметки (label propagation) и его модификации. Особое внимание будет уделено построению графа, узлами которого являются документы, а ребра соответствуют сходству между сентиментами соответствующих узлов. В частности, будут рассмотрены разные меры сходства между текстами, для выбора меры, которая дает наилучший результат с точки зрения внутренней (intrinsic) и внешней (extrinsic) оценок.

В результате использования алгоритмов на графах при “semi-supervised” и “cross-domain” подходах, будет предложена стратегия, позволяющая выбрать наиболее целесообразный подход в зависимости от имеющихся размеченных и тестовых данных и их свойств.

Семинар пройдет по адресу: 10 линия В.О. дом 49, ауд 308.
Пароль для прохода через вахту: "Я на семинар".

Временнóе измерение в приложениях автоматической обработки текста

Уважаемые коллеги,
В эту субботу, 7 декабря, в 17:00, состоится очередной семинар по автоматической обработке естественного языка. Тема доклада - "Временнóе измерение в приложениях автоматической обработки текста", докладчик - Александр Коломиец (Лёвенский Католический Университет, Бельгия).

Время – важный аспект в системах обработки и поиска информации. В естественном языке существует набор лингвистических приемов для выражения временнóй последовательности событий (фактов). Так, например, хронологическая последовательность реальных событий во времени может иметь неоднозначное отображение в тексте, но несмотря на это, носитель языка, прочитав текст, без труда может реконструировать хронологическую последовательность событий, описанных в нем. Для систем искусственного интеллекта такое, на первый взгляд, простое задание порой представляется невозможным.

В данном докладе речь пойдет об алгоритмах обработки естественного языка, нацеленных на автоматическое распознавание временных структур хронологий событий, и их практическое применение в системах искусственного интеллекта.

Семинар пройдет 7.12.2013 в 17.00 по адресу: 10 линия В.О. дом 49, ауд 308.
Пароль для прохода через вахту: "Я на семинар".

Пожар в голове
  • xsbos

Выделение частей речи / морфология для русского

Что нынче есть самое крутое бесплатное для обработки естественных текстов на русском языке? Нужен хотя бы стемминг и выделение частей речи. Может, есть модели для OpenNLP или чего-то подобного?
Подскажите, пожалуйста, всю жизнь работал только с английским, с русским только однажды при помощи Lucene.
alter ego

Индуктивное моделирование: содержание и примеры применения в задачах обработки текстов

Дорогие друзья, приносим свои искренние извинения за срыв видеотрансляции в субботу - эта технология у нас в стадии тестирования пока.
Чтобы как-то загладить свою вину, мы начали ударными темпами выкладывать материалы конференции и уже многое  выложили.   Остальные материалы появятся там же в ближайшую пару дней.
Кроме того, мы исправили технические неполадки и произвели чистку рядов, так что у видеотрансляции хорошие шансы заработать в ближайшую субботу, когда состоится очередной семинар:

Михаил Александров (Академия народного хозяйства при Правительстве РФ, Автономный университет Барселоны)
Индуктивное моделирование: содержание и примеры применения в задачах обработки текстов

Collapse )

Семинар пройдет как обычно в субботу, 24-го апреля, в 17-00, по обычному адресу: 10-я линия д. 49 ауд. 308

Вход свободный, предварительной регистрации не требуется, пароль для вахтера "Я на семинар".

P.S. Да, если у кого-то есть идеи насчет тематики дальнейших миниконференций (желательно, сразу с кандидатурами докладчиков) - делитесь! В субботу хорошо все отлично прошло, жаль только снаружи было не видно.
 
futurama
  • kzn

Представления данных для машинного обучения?

Существует ли какое-нибудь практическое руководство техник представления данных в векторный вид? В первую очередь интересует для SVM и пр. large margin алгоритмов.

Знаю о существовании A practical guide to SVM classification для LIBSVM.
Хотелось что-нибудь развернутого.
В частности интересует представление невекторных данных.
Понятно, что представление очень сильно зависит от задачи, но хотелось бы общих принципов. И если можно - то и примеров тоже.

Что почитать?