Tags: classification

  • sasha_2

Как учесть в классификаторе требование монотонности по отдельному параметру ?

Иногда при построении классификатора (например, на базе метода SVМ) требуется обеспечить "физическое" требование монотонности изменения метки (label) при изменении значения какого-то отдельного параметра. Пример - если классификатор наличия-отсутствия диабета в зависимости от значений ряда входных параметров дал выходное значение "да" при уровне сахара 120, то ясно, что он должен давать такое же выходное значение при уровне сахара больше 120. И наооборот, если он дал выходное значение "нет", то должен давать такое же выходное значение при уровне сахара меньше 120 (при неизменных значениях остальных входных параметров). Подскажите, пожалуйста, существуют ли какие-нибудь подходы к решению подобных задач? Заранее спасибо.

SVС для объектов с пустыми полями у некоторых параметров

Обычно под "missing data" понимают отсутствие меток у некоторых объектов - так называемый "semi-supervised classification". В моей же задаче классификации ситуация иная - метки есть по всем объектам из обучающей выборки, а вот у некоторых объектов по некоторым параметрам  отсутствуют данные . Подскажите, пожалуйста, как в этом случае применить SVM алгоритм? Любые советы, статьи, ссылки и линки приветствуются. Заранее спасибо.
alter ego

Статистический и структурный подходы в методах Text Mining

Уважаемые коллеги,
мы рады сообщить, что в субботу открывается новый сезон семинара по автоматической обработке текста.

19 февраля в 17.00 состоится доклад "Статистический и структурный подходы в методах Text Mining". М.Ю. Богатырев (ТулГУ)

Рассматриваются математические основы методов латентно-семантического анализа (LSA) и формального анализа понятий (FCA-Formal Concept Analysis) и их применение в задачах обработки текстовых данных. Исследуется корректность применения LSA в задачах кластеризации и классификации текстов. Показывается перспективность FCA в моделировании корпусов и онтологий.

Семинар пройдет по адресу 10-ая линия В.О., дом 49, ауд. 308. Для прохода через вахту нужно сказать <<Я на семинар>>.
   
alter ego

Господь услышал мои молитвы

Знаю, что блондинка. Что не хватает математической, программистической и прочей базы. Однако вот уже второй (или третий?) месяц пытаюсь понять, что такое латентно-семантический анализ. Спросить некого, а книги попадаются двух сортов: 1) "ЛСА - это для умных, вам знать необязательно". 2) Для умных.
И вот, когда я было совсем утратила надежду, в рамках nlp-семинара в ближайшую субботу в 17 часов по адресу 10-я линия В.О. д. 49 ауд. 308 состоится доклад Алексея Соловьева (Компания “Auditech”) на тему Автоматическая классификация текстов с использованием латентно-семантического анализа.
Я пойду.
 

набор текстов для классификации

крайне нуждаюсь наборе .txt  ~20кб каждый и всего мегабайт на 40(и больше!!!) одной направленности(напрмер,новости науки)-так,чтобы файлы можно было условно разделить на классы.тестирую экспертную систему-не хватает материала.буду очень благодарна,если вдруг у кого есть!

(no subject)

добрый день!подскажите пожалуйста, как перейти от информационной матрицы в классическом методе классификации текста к SVM?не что-то конкретное,а хотя бы маленькую теоретическую зацепочку.спасибо!

Конкурс по text mining

Те, кто не прочь при подходящем случае поклассифицировать сотню-другую документов, могут попробовать свои силы в Text Mining 2007 Competition: the contest ... offers an excellent opportunity to test one's text mining skills on realistic datasets.
defolt
  • rusl

PrTFIDF

Не знаю как другим, а для меня проще всего воспринимать алгоритмы на примерах.
Хочу представить вам метод машинного обучения PrTFIDF, предложенный Йоахимсом в работе T. Joachims. A Probabilistic Analysis of the Rocchio Algorithm (.pdf), а также его рассмотрение на примере. 

Нельзя назвать этот топик статьей. Это всего лишь попытка выделить ключевые, с точки зрения практики, части из работы Йоахимса, для понимания принципа работы алгоритма PrTFIDF.

Collapse )

defolt
  • rusl

Статья с RCDL'06

Об одном методе периодического тематического поиска информации в Web. А.В. Максаков (.pdf)

"В статье описывается метод периодического тематического поиска, основанный на композиции метода поиска по ключевым словам и тематической фильтрации с использованием классификаторов текстов. Рассматриваются различные алгоритмы классификации, с точки зрения эффективности их применения при решении рассматриваемой задачи."