?

Log in

No account? Create an account
Делаем русский глоссарий по информационному поиску - Информационный поиск [entries|archive|friends|userinfo]
Информационный поиск

[ userinfo | livejournal userinfo ]
[ archive | journal archive ]

Делаем русский глоссарий по информационному поиску [Jun. 26th, 2009|06:46 pm]
Информационный поиск

ru_ir

[iseg]
[Tags|]

Коллеги,

мы в Яндексе очень хотим поспособствовать качественному переводу книги

Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze
Introduction to Information Retrieval
Cambridge University Press, 2008
http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html,

который по нашей инициативе делают в издательстве Диалектика-Вильямс.

Приглашаем вас поучаствовать в переводе терминов из предметного указателя:
http://translated.by/you/iir-index-full/into-ru/trans/
Для участия надо зарегистрироваться на сайте или воспользоваться вашим openid (логин на livejournal подойдет)

Пожалуйста, бережно относитесь к уже сделанным переводам; по возможности подкрепляйте ваш вариант перевода ссылкой и/или обоснованием (в поле "Комментарий").

Заранее спасибо!
LinkReply

Comments:
[User Picture]From: iseg
2009-06-29 03:58 pm (UTC)

Re: подстрочник != словарь терминов

Это не перевод СЛОВА accuracy где бы оно не встретилось. Мы переводим ГЛОССАРИЙ. Предметный указатель. Известной книжки.

Да вот же он: http://nlp.stanford.edu/IR-book/pdf/99back.pdf (!)

Смотрим что имеется в виду:

* accuracy, 155

Открываем главу "Evaluation in information retrieval"

http://nlp.stanford.edu/IR-book/pdf/08eval.pdf

Читаем:

IR system returns a set of documents for a query. We will see later how to
extend these notions to ranked retrieval situations.

Precision (P) is the fraction of retrieved documents PRECISION that are relevant
(8.1) Precision = #(relevant items retrieved)/#(retrieved items) = P(relevant|retrieved)

Recall (R) is the fraction of relevant documents that are retrieved
(8.2) Recall = #(relevant items retrieved) / #(relevant items) = P(retrieved|relevant)

These notions can be made clear by examining the following contingency table:
(8.3)
|| ------------| Relevant ----------| Nonrelevant -------|
|| Retrieved --| true positives (tp)| false positives (fp)|
||Not retrieved|false negatives (fn)|true negatives (tn)--|

Then:
(8.4)
P = tp/(tp+ f p)
R = tp/(tp+ f n)

ACCURACY

An obvious alternative that may occur to the reader is to judge an infor
mation retrieval system by its accuracy, that is, the fraction of its classifications
that are correct. In terms of the contingency table above, accuracy =
(tp + tn)/(tp + fp + fn + tn).

This seems plausible, since there are two actual classes, relevant and nonrelevant, and an information retrieval system can be thought of as a two-class classifier which attempts to label them as such (it retrieves the subset of documents which it believes to be relevant).
This is precisely the effectivenessmeasure often used for evaluatingmachine
learning classification problems.

Как видите, значение - более чем конкретное. Понять, что именно нужно перевести - НЕТРУДНО. Особенно если вы и правда хотите помочь в переводе, а не обсудить еще сто более-менее обывательских смыслов слова accuracy.
(Reply) (Parent) (Thread)
[User Picture]From: itman
2009-06-29 04:09 pm (UTC)

Re: подстрочник != словарь терминов

Илья, я уже сказал, что с моей точки зрения термин accuracy (поскольку он употребляется только в основном в контексте классификации) лучше переводить, как достоверность классфикации. Или достоверность поиска. Fall-out можно было бы тогда переводить, как погрешность поиска, но в действительно для этой книги это не надо, там этот термин не используется.
Это достаточно коротко, интуитивно понятно, и близко по духу английскому (в котором accuracy и precision, очевидно, синонимы).
По поводу глоссария, по-моему, было бы неплохо дать дальнейшие пояснения, а не наезжать на людей, которые (потенциально) могли бы помочь, но не до конца поняли, что именно переводится. Кроме того, они высказали вполне резонное опасение, которые уже в свою очередь ты не понял, что слово accuracy, единожды переведенно, как X, будет везде переводиться как X, что не есть правильно, см. мой пример.

Edited at 2009-06-29 07:45 pm (UTC)
(Reply) (Parent) (Thread)
(Deleted comment)
[User Picture]From: itman
2009-06-30 02:13 pm (UTC)

Re: подстрочник != словарь терминов

Я совершенно не настаиваю, однако хочу заметить, что в английском accuracy и precision таки да синонимы. Но в контексте Information Retrieval - это термины, которые обозначают разные характеристики, но по духу они похожи. Проблема с термином доля верных ответов заключается в том, что и accuracy и precision - это есть доля верных ответов. В случае precision, это доля верных ответов в выборке пользователя, а в случае accuracy - доля верных ответов всего.
Как несложно видеть, разные термины были придуманы для обзначения разных по сути явлений. В классфикации, выборка - это все документы, вообще, поэтому для нее одно понятие точности, для обычного (ad hoc) поиска - другое. Так что ничего недопустимого с моей точки зрения нет.
Впрочем, это все вкусовщина.
(Reply) (Parent) (Thread)
[User Picture]From: iseg
2009-06-30 06:19 pm (UTC)

Re: подстрочник != словарь терминов

похоже ты прав, и я лично склоняюсь теперь к нейтрально безвкусному "правильность" из стекловского словаря. типа есть "точность" а есть и "правильность". и это разные вещи
(Reply) (Parent) (Thread)
[User Picture]From: itman
2009-06-30 06:27 pm (UTC)

Re: подстрочник != словарь терминов

Термин правильность мне тоже нравится.
(Reply) (Parent) (Thread)
[User Picture]From: jescid
2009-07-28 02:06 pm (UTC)

% правильности — ?

там в тексте accuracy порцентами меряется :)
не по-русски, однака
разве что если речь идёт не о грамотном тех. переводе, а о глосссарии, на который ссылается подстрочный перевод с тех слов, которые будут просто резать глаз в контексте остального
(Reply) (Parent) (Thread)
[User Picture]From: jescid
2009-07-28 02:22 pm (UTC)

А где % правильности?

Точность выборки/попаданий пускай, но это не правильность же. «50% точности результатов выдачи» — хм... ну, для человека, считающего IR сугубо областью прикладной части теории вероятности — сойдёт ;Ь
(Reply) (Parent) (Thread)
[User Picture]From: itman
2009-07-28 02:26 pm (UTC)

Re: А где % правильности?

Да, похоже, правильность не меряют в процентах. Тогда достоверность лучше, ее, вроде как, измеряют в процентах.
(Reply) (Parent) (Thread)
(Deleted comment)
[User Picture]From: itman
2009-06-30 02:06 pm (UTC)

Re: подстрочник != словарь терминов

Я говорил, очевидно, про английский. Это разные термины, которые обозначаются синонимами.
(Reply) (Parent) (Thread)