Tags: дубли

Проблема отсечения одинаковых страниц при индексировании сайтов

Народ, кто-нибудь сталкивался с такой (сабж) проблемой ?

Это когда например http://site/pagename и http://site/engine.php?do=show&id=pagename возвращают одинаковую страницу, а нужно скачивать только одну из них.
При этом:
1. Таких страниц и ссылок (обоих видов) очень много
2. Количество запросов, которое допустимо сделать при индексировании сайта, гораздо меньше количества таких всевозможных URI на сайте, но чуть-чуть больше, чем количество уникальных страниц на сайте

В общем виде задача такая: необходимо разработать алгоритм, который будет индексировать(скачивать) сайт, при этом, ошибаясь один раз (ошибка есть скачивание 2 раза одинаковой страницы), он больше не ошибается таким образом (урезает список url-ов для скачивания так, чтобы избежать подобной ошибки)

Частично это возможно сделать с помощью robots.txt, но в общем случае нет (могут, например, добавляться ничего не значащие параметры, и uri уже будет другой, а страница та же)

Никто не в курсе, изучалась ли данная проблема вообще, и/или как звучит/пишется ее общепринятая формулировка на английском ?
defolt
  • rusl

Вопрос к знатокам шинглов.

Короткие документы. Что можно сделать?

Что делать с совсем короткими документами, для которых алгоритм отбора шинглов (например, второй) может вообще не выбрать ни одного подходящего? Или выбрать слишком мало? Я знаю два альтернативных решения: одно из них: закольцевать текст документа, то есть виртуально продолжить его начало после окончания, чтобы добиться получения необходимого количества шинглов даже в таких условиях. Второй подход, применяемый в Яндекс-Почте, состоит в использовании выборки, размер которой имеет логарифмическую зависимость от размера документа.


(Статья.)

Не могу найти информацию по этому методу ("использование выборки, размер которой имеет логарифмическую зависимость от размера документа"). Быть может кто подскажет, где можно ее найти?
defolt
  • rusl

Дубликаты.

Задача: Построить классификатор сайтов основанный на методах машинного обучения.

Дано: Обучающая выборка, состоящая из большого числа отрубрицированных вручную сайтов.

Проблема: Наличие в выборке дублирующих друг-друга страниц.

Вопрос: а) Стоит ли удалать дубликаты из выборки перед обучением?
б) Если удалять, то рассматривать дубликаты по всей выборке, либо только в рамках тем (быть может наличие одинаковой информации на разных сайтах одной темы говорит о "типичности" этой информации для данной темы)?
defolt
  • rusl

Возвращаясь к шинглам. Проблема дублирования страниц и поиска нечетких дубликатов в исходных данных.

Для улучшения качества выборки мы должны удалить из нее «одинаковые» и «приблизительно похожие» страницы сайтов.

Collapse )