Tags: term weighting

Вопрос.

Существуют ли метрики оценки важности терминов или хотя бы сообщений, учитывающие не только частоту термина, длину документа и свойства коллекции, но также автора сообщения, время отправки, и так далее? Что-то на стыке социальных сетей, почтовых фильтров и, собственно, information retrieval.
Такого правда нет, или просто я плохо ищу?
defolt
  • rusl

Бинарный и «весовой» подход к определению веса слова.

Наиболее распространенные методы классификации текста, не могут использовать сами отличительные признаки (например, слова) в качестве непосредственного объекта для анализа, так как рассчитаны на работу с числовыми данными. Все они в качестве объектов анализа используют сжатое представление текста в виде вектора термов (или, как еще говорят, вектора признаков). Под термами в данном случае понимается лексические единицы текста (слова, устойчивые словосочетания или другие единицы языка) участвующие в анализе документов. Эти термы представляются в виде чисел, полный набор которых и составляет вектор признаков.

Collapse )
defolt
  • rusl

Введение в text mining

Егор (krondix) продолжает серию "Введение в text mining":

Перед применением какого-либо алгоритма text mining набор текстовых документов надо преобразовать в более удобный вид. Общепринятым представлением является векторная модель (vector space model). Пусть унас есть n документов, которые все вместе состоят из m уникальных слов. Каждому документу можно поставить в соответствие вектор d ∈ Rm, такой что di = 1, если слово i содержится в документе, и di = 0в противном случае. Мы получили самую простую двоичную векторнуюмодель. Как я уже говорил, важным свойством такого представления является разреженность, действительно, m может быть очень большим числом (несколько сотен тысяч), в то время как число единиц вкаждом векторе может не превышать нескольких десятков. Это позволяет хранить в памяти не всю матрицу n ∗ m (1 000 000 ∗ 100 000 = 100 000 000 000 бит = 12.5 гигабайт), а лишь очень малую ее часть, обычно около 0.01-0.1%.

Далее в блоге Егора...
defolt
  • rusl

Вес терма.

Какими формулами вычисления веса терма в задачах поиска и классификации вы пользуетесь?

Было бы интересно узнать ваши предпочтения с возможными комментариями.
defolt
  • rusl

Подход к определению весов слов, основанный на их месторасположении.

Этот подход основан на лингвистическом понятии «сильных позиций» текста. К сильным позициям” текста относят, прежде всего, название (или заголовок), начало текста (или зачин) и его окончание. Collapse )