Цитата (Khishtaki @ 22.8.2016)
интересно, кстати, почему такая точность и округление
Единственный способ узнать словарный запас - это просто перебрать все слова. По понятным причинам, это никуда не годится. Однако, есть предположение, что значительную часть информации о словарном запасе можно получить, протестировав человека на знание лишь небольшого числа слов.
А дальше получаем задачу машинного обучения, предсказать число с минимальной ошибкой, или научным термином, регрессию. То есть компьютер скорее всего просто сам подобрал параметры, отсюда и такой результат.
Результат конечно неточный, не надо его воспринимать с точностью до единиц. Ошибка берется из того, что перебрали не все слова, возможно, использовали некорректную модель для подбора параметров, либо же обучающая выборка содержала в себе слишком много ошибок. Но это всё равно лучше, чем ничего.
Я с большим подозрением отношусь к результату на тестирование словарного запаса на русском. Скорее всего, параметры были подобраны вручную. Даже если это были и эксперты, результат будет скорее всего менее точным.
P.S. у меня в русском 63к, в английском - 5.5к :)
В русском языке значительно больше слов, чем в английском. Разница в 2 с небольшим раза кажется вполне правдоподобной.
Пример берём первую попавшуюся пару слов "молоко - milk" и сравниваем переводы.
Молоко
Milk