?

Log in

No account? Create an account
Делаем русский глоссарий по информационному поиску - Информационный поиск [entries|archive|friends|userinfo]
Информационный поиск

[ userinfo | livejournal userinfo ]
[ archive | journal archive ]

Делаем русский глоссарий по информационному поиску [Jun. 26th, 2009|06:46 pm]
Информационный поиск

ru_ir

[iseg]
[Tags|]

Коллеги,

мы в Яндексе очень хотим поспособствовать качественному переводу книги

Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze
Introduction to Information Retrieval
Cambridge University Press, 2008
http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html,

который по нашей инициативе делают в издательстве Диалектика-Вильямс.

Приглашаем вас поучаствовать в переводе терминов из предметного указателя:
http://translated.by/you/iir-index-full/into-ru/trans/
Для участия надо зарегистрироваться на сайте или воспользоваться вашим openid (логин на livejournal подойдет)

Пожалуйста, бережно относитесь к уже сделанным переводам; по возможности подкрепляйте ваш вариант перевода ссылкой и/или обоснованием (в поле "Комментарий").

Заранее спасибо!
LinkReply

Comments:
[User Picture]From: jescid
2009-06-26 04:58 pm (UTC)

подстрочник != словарь терминов

без контекста будут постоянные правки +
одно слово для разных значений (смыслов) одного и того же термина (и тогда рассуждения о том, какие слова при том «заняты» или нет — вообще бессмысленны) — а это плохо

как по accuracy сейчас
в одном случае, пмсм, по контексту куда точнее «достоверность» — потому что речь про соответствие новых входных текстов данной сформированной классификации текстов и далее, кажись, речь про доли,% попаданий в классификацию (точность ещё куда ни шло, хотя не оч. понятно, а аккуратность, выражаемая в % — совсем плохо)
и accuracy of query results — скорее тоже будет соответствие/адекватность/коэф. соответствия (запросу), наверно ­— потому что там про % и доли (адекватных ответов в результатах выдачи), кажись, речь
— понятие «точность» или «аккуратность результатов запроса» при том как-то страннО и непонятно, пмсм, во всяком случае непонятнее, чем «коэф. соответствия» запросу

и т.п.

такие, вот, общие соображение, не вникая в содержания излагаемого в книге (но вы и не предлагаете вникать, судя по предложенному интерфейсу перевода терминов)
(Reply) (Thread)
[User Picture]From: iseg
2009-06-29 08:55 am (UTC)

Re: подстрочник != словарь терминов

Мы переводим предметный указатель (см выше). Иными словами, делаем "глоссарий".

Задача этого этапа - подобрать ОДНОЗНАЧНЫЙ и ЕДИНЫЙ перевод базовых терминов, как минимум для использования на протяжении всей книги, еще лучше для референтного использования во всей научной литературе на русском языке.

Прыжки и смена перевода ключевых терминов в зависмости от контекста - не просто вредны, они категорически недопустимы и безобразят, то есть превращают в нечитаемый и неинтепретируемый, любой перевод.

Помню фантастическую свистопляску в переводах C++, когда два антонима (sic!): declaration и definition переводили как "описание" (а не "объявление" и "определение") не только в разных книгах, но даже на протяжении ОДНОЙ книги.

Спасибо, но подобную шизофрению мы постараемся не лопустить.

Например accuracy? которое в глоссарии исключительно в смысле и контексте "ошибок первого/второго рода"; где уже есть общепринятое "точность"="precision", "полнота"="recall". Но нет общепринятого для accuracy и fallout. (accuracy это сумма верно определенного сигнала + верно пропущенного шума ко всем наблюдениям, fallout = соответственно, наоборот, сумма всех неверных и тд).

Так вот нам нам нужно нечто-по-русски-единообразное-для-всей-книги=accuracy; и нечто-по-русски-единообразное-для-всей-книги=fallout.

"Точность" не годится.

В глоссарии (предметном указателе) РОМИП предлагается "аккуратность". (мы сильно ОПИРАЕМСЯ на него!)

Нам не нравится, и мы предлагаем "доля верных ответов".

Можно проголосовать еще за "правильность" или "верность", или даже "корректность", но звучит менее понятно, имхо.
(Reply) (Parent) (Thread)
[User Picture]From: dp_maxime
2009-06-29 02:05 pm (UTC)

Re: подстрочник != словарь терминов

Согласно англо-русскому словарю математических терминов, выпущенному институтом им. Стеклова, accuracy - правильность, точность (в смысле меры отклонения от истинного или точного значения); precision - точность, прецизионность.
Полагаю нового велосипеда изобретать не надо.
(Reply) (Parent) (Thread)
[User Picture]From: iseg
2009-06-29 03:37 pm (UTC)

Re: подстрочник != словарь терминов

О! замечательно! (у меня этот словарь заиграли) Напишете коммент в translated.by?
(Reply) (Parent) (Thread)
[User Picture]From: itman
2009-06-29 03:19 pm (UTC)

Re: подстрочник != словарь терминов

Илья, речь идет не об однозначных антонимах вроде declaration и definition, а о терминах, которые бывают и термины и нетермины, но звучат одинаково. В этом смысле я поддерживаю вариант с заменой термина accuracy на что-то вроде "корректность классфикации" или лучше "достоверность классфикации"
(доля верных ответов очень правильно и очень странно). Но в контексте (это заголовок из книги)
"Effect of feature set size on accuracy for multinomial and Bernoulli models."
Нельзя переводить слово accuracy как "доля верных ответов".
PS: В английском, для обозначения разных терминов были выбраны синонимы. Это не очень хорошо, но имеет ли смысл исправлять эту ошибку в русском переводе?

Edited at 2009-06-29 03:30 pm (UTC)
(Reply) (Parent) (Thread)
[User Picture]From: iseg
2009-06-29 03:58 pm (UTC)

Re: подстрочник != словарь терминов

Это не перевод СЛОВА accuracy где бы оно не встретилось. Мы переводим ГЛОССАРИЙ. Предметный указатель. Известной книжки.

Да вот же он: http://nlp.stanford.edu/IR-book/pdf/99back.pdf (!)

Смотрим что имеется в виду:

* accuracy, 155

Открываем главу "Evaluation in information retrieval"

http://nlp.stanford.edu/IR-book/pdf/08eval.pdf

Читаем:

IR system returns a set of documents for a query. We will see later how to
extend these notions to ranked retrieval situations.

Precision (P) is the fraction of retrieved documents PRECISION that are relevant
(8.1) Precision = #(relevant items retrieved)/#(retrieved items) = P(relevant|retrieved)

Recall (R) is the fraction of relevant documents that are retrieved
(8.2) Recall = #(relevant items retrieved) / #(relevant items) = P(retrieved|relevant)

These notions can be made clear by examining the following contingency table:
(8.3)
|| ------------| Relevant ----------| Nonrelevant -------|
|| Retrieved --| true positives (tp)| false positives (fp)|
||Not retrieved|false negatives (fn)|true negatives (tn)--|

Then:
(8.4)
P = tp/(tp+ f p)
R = tp/(tp+ f n)

ACCURACY

An obvious alternative that may occur to the reader is to judge an infor
mation retrieval system by its accuracy, that is, the fraction of its classifications
that are correct. In terms of the contingency table above, accuracy =
(tp + tn)/(tp + fp + fn + tn).

This seems plausible, since there are two actual classes, relevant and nonrelevant, and an information retrieval system can be thought of as a two-class classifier which attempts to label them as such (it retrieves the subset of documents which it believes to be relevant).
This is precisely the effectivenessmeasure often used for evaluatingmachine
learning classification problems.

Как видите, значение - более чем конкретное. Понять, что именно нужно перевести - НЕТРУДНО. Особенно если вы и правда хотите помочь в переводе, а не обсудить еще сто более-менее обывательских смыслов слова accuracy.
(Reply) (Parent) (Thread)
[User Picture]From: itman
2009-06-29 04:09 pm (UTC)

Re: подстрочник != словарь терминов

Илья, я уже сказал, что с моей точки зрения термин accuracy (поскольку он употребляется только в основном в контексте классификации) лучше переводить, как достоверность классфикации. Или достоверность поиска. Fall-out можно было бы тогда переводить, как погрешность поиска, но в действительно для этой книги это не надо, там этот термин не используется.
Это достаточно коротко, интуитивно понятно, и близко по духу английскому (в котором accuracy и precision, очевидно, синонимы).
По поводу глоссария, по-моему, было бы неплохо дать дальнейшие пояснения, а не наезжать на людей, которые (потенциально) могли бы помочь, но не до конца поняли, что именно переводится. Кроме того, они высказали вполне резонное опасение, которые уже в свою очередь ты не понял, что слово accuracy, единожды переведенно, как X, будет везде переводиться как X, что не есть правильно, см. мой пример.

Edited at 2009-06-29 07:45 pm (UTC)
(Reply) (Parent) (Thread)
(Deleted comment)
[User Picture]From: itman
2009-06-30 02:13 pm (UTC)

Re: подстрочник != словарь терминов

Я совершенно не настаиваю, однако хочу заметить, что в английском accuracy и precision таки да синонимы. Но в контексте Information Retrieval - это термины, которые обозначают разные характеристики, но по духу они похожи. Проблема с термином доля верных ответов заключается в том, что и accuracy и precision - это есть доля верных ответов. В случае precision, это доля верных ответов в выборке пользователя, а в случае accuracy - доля верных ответов всего.
Как несложно видеть, разные термины были придуманы для обзначения разных по сути явлений. В классфикации, выборка - это все документы, вообще, поэтому для нее одно понятие точности, для обычного (ad hoc) поиска - другое. Так что ничего недопустимого с моей точки зрения нет.
Впрочем, это все вкусовщина.
(Reply) (Parent) (Thread)
[User Picture]From: iseg
2009-06-30 06:19 pm (UTC)

Re: подстрочник != словарь терминов

похоже ты прав, и я лично склоняюсь теперь к нейтрально безвкусному "правильность" из стекловского словаря. типа есть "точность" а есть и "правильность". и это разные вещи
(Reply) (Parent) (Thread)
[User Picture]From: itman
2009-06-30 06:27 pm (UTC)

Re: подстрочник != словарь терминов

Термин правильность мне тоже нравится.
(Reply) (Parent) (Thread)
[User Picture]From: jescid
2009-07-28 02:06 pm (UTC)

% правильности — ?

там в тексте accuracy порцентами меряется :)
не по-русски, однака
разве что если речь идёт не о грамотном тех. переводе, а о глосссарии, на который ссылается подстрочный перевод с тех слов, которые будут просто резать глаз в контексте остального
(Reply) (Parent) (Thread)
(Deleted comment)
[User Picture]From: itman
2009-06-30 02:06 pm (UTC)

Re: подстрочник != словарь терминов

Я говорил, очевидно, про английский. Это разные термины, которые обозначаются синонимами.
(Reply) (Parent) (Thread)