?

Log in

No account? Create an account
Делаем русский глоссарий по информационному поиску - Информационный поиск [entries|archive|friends|userinfo]
Информационный поиск

[ userinfo | livejournal userinfo ]
[ archive | journal archive ]

Делаем русский глоссарий по информационному поиску [Jun. 26th, 2009|06:46 pm]
Информационный поиск

ru_ir

[iseg]
[Tags|]

Коллеги,

мы в Яндексе очень хотим поспособствовать качественному переводу книги

Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze
Introduction to Information Retrieval
Cambridge University Press, 2008
http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html,

который по нашей инициативе делают в издательстве Диалектика-Вильямс.

Приглашаем вас поучаствовать в переводе терминов из предметного указателя:
http://translated.by/you/iir-index-full/into-ru/trans/
Для участия надо зарегистрироваться на сайте или воспользоваться вашим openid (логин на livejournal подойдет)

Пожалуйста, бережно относитесь к уже сделанным переводам; по возможности подкрепляйте ваш вариант перевода ссылкой и/или обоснованием (в поле "Комментарий").

Заранее спасибо!
LinkReply

Comments:
[User Picture]From: jescid
2009-06-26 04:58 pm (UTC)

подстрочник != словарь терминов

без контекста будут постоянные правки +
одно слово для разных значений (смыслов) одного и того же термина (и тогда рассуждения о том, какие слова при том «заняты» или нет — вообще бессмысленны) — а это плохо

как по accuracy сейчас
в одном случае, пмсм, по контексту куда точнее «достоверность» — потому что речь про соответствие новых входных текстов данной сформированной классификации текстов и далее, кажись, речь про доли,% попаданий в классификацию (точность ещё куда ни шло, хотя не оч. понятно, а аккуратность, выражаемая в % — совсем плохо)
и accuracy of query results — скорее тоже будет соответствие/адекватность/коэф. соответствия (запросу), наверно ­— потому что там про % и доли (адекватных ответов в результатах выдачи), кажись, речь
— понятие «точность» или «аккуратность результатов запроса» при том как-то страннО и непонятно, пмсм, во всяком случае непонятнее, чем «коэф. соответствия» запросу

и т.п.

такие, вот, общие соображение, не вникая в содержания излагаемого в книге (но вы и не предлагаете вникать, судя по предложенному интерфейсу перевода терминов)
(Reply) (Thread)
[User Picture]From: iseg
2009-06-29 08:55 am (UTC)

Re: подстрочник != словарь терминов

Мы переводим предметный указатель (см выше). Иными словами, делаем "глоссарий".

Задача этого этапа - подобрать ОДНОЗНАЧНЫЙ и ЕДИНЫЙ перевод базовых терминов, как минимум для использования на протяжении всей книги, еще лучше для референтного использования во всей научной литературе на русском языке.

Прыжки и смена перевода ключевых терминов в зависмости от контекста - не просто вредны, они категорически недопустимы и безобразят, то есть превращают в нечитаемый и неинтепретируемый, любой перевод.

Помню фантастическую свистопляску в переводах C++, когда два антонима (sic!): declaration и definition переводили как "описание" (а не "объявление" и "определение") не только в разных книгах, но даже на протяжении ОДНОЙ книги.

Спасибо, но подобную шизофрению мы постараемся не лопустить.

Например accuracy? которое в глоссарии исключительно в смысле и контексте "ошибок первого/второго рода"; где уже есть общепринятое "точность"="precision", "полнота"="recall". Но нет общепринятого для accuracy и fallout. (accuracy это сумма верно определенного сигнала + верно пропущенного шума ко всем наблюдениям, fallout = соответственно, наоборот, сумма всех неверных и тд).

Так вот нам нам нужно нечто-по-русски-единообразное-для-всей-книги=accuracy; и нечто-по-русски-единообразное-для-всей-книги=fallout.

"Точность" не годится.

В глоссарии (предметном указателе) РОМИП предлагается "аккуратность". (мы сильно ОПИРАЕМСЯ на него!)

Нам не нравится, и мы предлагаем "доля верных ответов".

Можно проголосовать еще за "правильность" или "верность", или даже "корректность", но звучит менее понятно, имхо.
(Reply) (Parent) (Thread)
[User Picture]From: dp_maxime
2009-06-29 02:05 pm (UTC)

Re: подстрочник != словарь терминов

Согласно англо-русскому словарю математических терминов, выпущенному институтом им. Стеклова, accuracy - правильность, точность (в смысле меры отклонения от истинного или точного значения); precision - точность, прецизионность.
Полагаю нового велосипеда изобретать не надо.
(Reply) (Parent) (Thread)
[User Picture]From: iseg
2009-06-29 03:37 pm (UTC)

Re: подстрочник != словарь терминов

О! замечательно! (у меня этот словарь заиграли) Напишете коммент в translated.by?
(Reply) (Parent) (Thread)
[User Picture]From: itman
2009-06-29 03:19 pm (UTC)

Re: подстрочник != словарь терминов

Илья, речь идет не об однозначных антонимах вроде declaration и definition, а о терминах, которые бывают и термины и нетермины, но звучат одинаково. В этом смысле я поддерживаю вариант с заменой термина accuracy на что-то вроде "корректность классфикации" или лучше "достоверность классфикации"
(доля верных ответов очень правильно и очень странно). Но в контексте (это заголовок из книги)
"Effect of feature set size on accuracy for multinomial and Bernoulli models."
Нельзя переводить слово accuracy как "доля верных ответов".
PS: В английском, для обозначения разных терминов были выбраны синонимы. Это не очень хорошо, но имеет ли смысл исправлять эту ошибку в русском переводе?

Edited at 2009-06-29 03:30 pm (UTC)
(Reply) (Parent) (Thread)
[User Picture]From: iseg
2009-06-29 03:58 pm (UTC)

Re: подстрочник != словарь терминов

Это не перевод СЛОВА accuracy где бы оно не встретилось. Мы переводим ГЛОССАРИЙ. Предметный указатель. Известной книжки.

Да вот же он: http://nlp.stanford.edu/IR-book/pdf/99back.pdf (!)

Смотрим что имеется в виду:

* accuracy, 155

Открываем главу "Evaluation in information retrieval"

http://nlp.stanford.edu/IR-book/pdf/08eval.pdf

Читаем:

IR system returns a set of documents for a query. We will see later how to
extend these notions to ranked retrieval situations.

Precision (P) is the fraction of retrieved documents PRECISION that are relevant
(8.1) Precision = #(relevant items retrieved)/#(retrieved items) = P(relevant|retrieved)

Recall (R) is the fraction of relevant documents that are retrieved
(8.2) Recall = #(relevant items retrieved) / #(relevant items) = P(retrieved|relevant)

These notions can be made clear by examining the following contingency table:
(8.3)
|| ------------| Relevant ----------| Nonrelevant -------|
|| Retrieved --| true positives (tp)| false positives (fp)|
||Not retrieved|false negatives (fn)|true negatives (tn)--|

Then:
(8.4)
P = tp/(tp+ f p)
R = tp/(tp+ f n)

ACCURACY

An obvious alternative that may occur to the reader is to judge an infor
mation retrieval system by its accuracy, that is, the fraction of its classifications
that are correct. In terms of the contingency table above, accuracy =
(tp + tn)/(tp + fp + fn + tn).

This seems plausible, since there are two actual classes, relevant and nonrelevant, and an information retrieval system can be thought of as a two-class classifier which attempts to label them as such (it retrieves the subset of documents which it believes to be relevant).
This is precisely the effectivenessmeasure often used for evaluatingmachine
learning classification problems.

Как видите, значение - более чем конкретное. Понять, что именно нужно перевести - НЕТРУДНО. Особенно если вы и правда хотите помочь в переводе, а не обсудить еще сто более-менее обывательских смыслов слова accuracy.
(Reply) (Parent) (Thread) (Expand)
(Deleted comment)
(Deleted comment)
[User Picture]From: devaka_blog
2009-06-30 12:27 am (UTC)
Можно поучаствовать в переводе, только почему-то ссылка http://translated.by/you/iir-index-full/into-ru/trans/ битая (смотрю из Украины) :(

-----------------
404

Страница не найдена, либо такого объекта нет

Вы попали туда, куда мы не ожидали. Возможно, вы прошли по битой ссылке, либо у нас что-то сломалось.

Попробуйте начать сначала
(Reply) (Thread)
From: (Anonymous)
2009-06-30 06:59 am (UTC)
У меня вчера тоже такое началось :(

После регистрации показывает нормально.

ПБ
(Reply) (Parent) (Thread)
[User Picture]From: 61man
2009-06-30 07:43 am (UTC)

починили

Пофиксили, пользуйтесь пожалуйста!
(Reply) (Parent) (Thread)
[User Picture]From: itman
2009-06-30 03:35 pm (UTC)

Re: починили

Можно ли также ускорить сайт? Время от времени он просто зависает на загрузке или после правки какого-нибудь перевода или добавления комментария. И, вообще, грузится ооочень медленно. И сохраняет ну ооочень медленно.
Спасибо!
PS: Время от времени, оно по какой-то причине пытается перегрузить страницу и зависает.

Edited at 2009-06-30 03:46 pm (UTC)
(Reply) (Parent) (Thread) (Expand)
[User Picture]From: div_one
2009-09-13 06:31 pm (UTC)
На сколько процентов готов перевод книги? Когда можно будет её купить? Не подскажите?
(Reply) (Thread)
[User Picture]From: iseg
2009-09-20 08:55 pm (UTC)
Перевод готов, идет редактура. Работы еще много.
(Reply) (Parent) (Thread)
[User Picture]From: alt17
2009-11-21 12:55 pm (UTC)
В печатной версии указателя будут прописаны соответствия исходным английским терминам?
(Reply) (Thread)
From: pbras.ya.ru
2010-02-24 08:32 am (UTC)

вспомнить всех поименно

всем привет,

работа над переводом книги заканчивается; мы хотим поблагодарить всех, кто участвовал уточнении русских терминов на translated.by. Хотелось бы узнать, кто скрывается под никами ajvol2 и amili здесь:
http://translated.by/you/iir-index-full/into-ru/participants/

Спасибо!
Павел Браславский
(Reply) (Thread)
[User Picture]From: ajvol2
2010-02-25 07:12 am (UTC)

Re: вспомнить всех поименно

Меня зовут Александр Сигачёв.

Насколько я помню, мои изменения были очень незначительными. Думаю, они не могут охраняться авторским правом, на упоминание имени я не претендую.
(Reply) (Parent) (Thread)