Tags: abstract

Бесплатные англоязычные книжки

Недавно нашел еще не вышедшую в печати книжку:
  • Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2007
ее предварительная версия+слайды свободно доступны здесь.

Еще несколько свободно доступных книжек:Я где-то видел также
  • SPARCK JONES, K. Information Retrieval Experiment. Butterworths, London, 1981
в виде набора отсканированных страниц, но, к сожалению, пока не могу найти эту ссылку.

WEKA - Java-софт для data mining

Очень известный и достойный пакет для data mining, на Java:
Weka is a collection of machine learning algorithms for data mining tasks.
Рекомендуется к использованию :)

По Weka есть книжка (точнее говоря она о data mining с помощью Weka) - Data Mining: Practical Machine Learning Tools and Techniques (Second Edition)
По книжке можно учиться или учить - кому что актуальнее :) Обучающие материалы смотрите на сайте книги. Да, не уверен на 100%, но по-моему я как-то видел эту книжку в сети.
defolt
  • rusl

Статья с RCDL'06

Об одном методе периодического тематического поиска информации в Web. А.В. Максаков (.pdf)

"В статье описывается метод периодического тематического поиска, основанный на композиции метода поиска по ключевым словам и тематической фильтрации с использованием классификаторов текстов. Рассматриваются различные алгоритмы классификации, с точки зрения эффективности их применения при решении рассматриваемой задачи."
defolt
  • rusl

Влияние морфологического анализа на качество информационного поиска.

"Влияние морфологического анализа на качество информационного поиска" © М.В. Губин А.Б. Морозов (.pdf)

На мой взгляд, эта работа будет особенно интересна тем, кто еще не определился, какой из свободно доступных морфоанализаторов русского языка использовать в своей системе.

"Статья содержит результаты экспериментального исследования влияния различных подходов к обработке форм русских слов на качество информационного поиска. В проведенных экспериментах использовались ряд общедоступных русскоязычных модулей стемминга и морфологического анализа."
defolt
  • rusl

Разделение web-страниц на содержательную и навигационную части

М.С. Агеев, И.В. Вершинников, Б.В. Добров. Извлечение значимой информации из web-страниц для задач информационного поиска.

В статье описываются методы разделения web-страниц на содержательную и навигационную части. Данные методы основаны на выделении одинаковых частей страниц с одного сайта. Основной целью данной работы является повышение качества информационного поиска за счет удаления навигационной части из web-страниц.

Разработанный алгоритм позволяет эффективно разделять страницы на содержательную и навигационную части. С другой стороны, проведенный эксперимент по анализу эффективности информационного поиска в web на основе коллекции РОМИП-WEB-narod.ru с использованием разработанного алгоритма не привел к улучшению средней оценки точности поиска. В статье описан детальный анализ результатов информационного поиска с использованием описанного алгоритма.

"Information Retrieval: A Survey"

Information Retrieval: A Survey (англ. 1.1Mb).

Отличный материал для того, чтобы понять, что такое Information Retrieval. Каждый из разделов дает базис знаний в определенной теме и формирует вектор направления дальнейшего изучения темы раздела в других источниках.
defolt
  • rusl

Random Forest again.

Возвращаясь к одному из постов.

М.В. Киселев. Оптимизация процедуры автоматического пополнения веб-каталога. (pdf) В этой работе говорится о высокой эффективности метода "случайный лес" при рубрикации документов для обучающих выборок, с малым количеством примеров. Он показал большую эффективность, чем даже SVM.

На мой взгляд это важное свойство на которое стоит обратить внимание всем, кто занимается задачами распознавания образов (не только классификацией текста, но и распознаванием изображений и пр.). В кои то веки появился достойный конкурент SVM (тем более для выборок с малым количеством обучающих примеров).

Подробнее о методе Random Forests.
defolt
  • rusl

Тематико-ориентированные методы информационного поиска.

Некрестьянов И.С. Тематико-ориентированные методы информационного поиска. - диссертация на тему информационного поиска.

В работе рассматриваются цели и задачи информационного поиска:
"Классическая задача информационного поиска, с которой и началось развитие этой области, -- это поиск документов, удовлетворяющих запросу, в рамках некоторой статической (на момент выполнения поиска) коллекции документов.

Однако за тридцать лет исследований список задач информационного поиска значительно расширился и теперь включает вопросы моделирования, классификации и кластеризации документов, проектирования архитектур поисковых систем и пользовательских интерфейсов, языки запросов, и т. д."


Значительная часть работы посвящена архитектуре сетевого робота:
"Поскольку основным предметом нашего исследования является использование информации о тематике для выбора специализированной стратегии обхода и методы отсева ``мусора'', то мы ограничимся лишь кратким описанием базовой архитектуры сетевого робота (рис. 2.1), выделив только затронутые в рамках этой работы подсистемы."