?

Log in

No account? Create an account
Тестовые колекции для тестирования алгоритмов определения нечетких дубликатов. - Информационный поиск [entries|archive|friends|userinfo]
Информационный поиск

[ userinfo | livejournal userinfo ]
[ archive | journal archive ]

Тестовые колекции для тестирования алгоритмов определения нечетких дубликатов. [Aug. 13th, 2009|03:50 pm]
Информационный поиск
ru_ir
[sashchernuh]
[Tags|]

Добрый день уважаемое сообщество.
Подскажите, пожалуйста, на какой колекции документов можна протестировать алгоритмы определения нечетких дубликатов web-страниц.
Можна и англомовные, и русские, но чтобы были в свободном доступе.
Есть ли такие в принципе колекции? Спасибо.

PS. Кроме ROMIP, TREC, CLEF, Reuters.
LinkReply

Comments:
From: (Anonymous)
2009-08-17 02:02 pm (UTC)

коллекции

честно говоря, не очень понятно, почему Вас не устраивают коллекции ROMIP (например, KM-коллекция или BY-web) или TREC'овские

тем не менее, возможно будет полезны

1st International Competition on Plagiarism Detection
http://www.webis.de/pan-09/competition.php

и

Datasets for Research on Web Spam Detection
http://barcelona.research.yahoo.net/webspam/datasets/

bvd
(Reply) (Thread)
From: sashchernuh
2009-08-17 03:54 pm (UTC)

Re: коллекции

Спасибо за ответ.
Меня эти колекции устраивают, но там надо участвовать в семинаре, а пока я не могу этого сделать.
Или я плохо понимаю соглашение об использовании этих колекций?
(Reply) (Parent) (Thread)
From: (Anonymous)
2009-08-17 04:09 pm (UTC)

Re: коллекции

насколько я понимаю - лицензия РОМИП достаточно либеральная - главное использовать коллекции для научных целей, например, имея в виду опубликовать результаты со ссылкой на РОМИП

bvd
(Reply) (Parent) (Thread)
From: sashchernuh
2009-08-17 04:16 pm (UTC)

Re: коллекции

Тогда я очень Вам признателен за такое толкование.
(Reply) (Parent) (Thread)
From: ext_133623
2009-08-17 11:27 pm (UTC)

Re: коллекции

Это совершенно правильное толкование, более того РОМИП всячески заинтересован в использовании колекций.

(Reply) (Parent) (Thread)
From: (Anonymous)
2009-08-20 02:06 pm (UTC)

кстати, о птичках

случайно выпал на страничку - м.б. Вам будет интересно

http://www.uni-weimar.de/cms/index.php?id=74

bvd
(Reply) (Thread)
From: sashchernuh
2009-08-20 02:53 pm (UTC)

Re: кстати, о птичках

Посмотрел... подсказали и экспертов и коллекцию. Признателен!
(Reply) (Parent) (Thread)
From: (Anonymous)
2009-08-29 06:11 pm (UTC)
Еще моджно посмотреть страницу проэкта с алгоритмом поиска дубликатов Similarity Join http://www.cse.unsw.edu.au/~weiw/project/simjoin.html
там же указан адрес корпуса, на котором автор проводил эксперименты смесь DBLP, TEXAS, TREC, and UNIREF (233MB) http://www.cse.unsw.edu.au/~weiw/project/ssjoin/ssjoin-data.zip
(Reply) (Thread)