Aug. 12th, 2009

eugenegp: (Default)
Одной из характеристик языков, очень важной для изучающего язык, является размер частотного словарного ядра. Например, считается, что самые часто употребляемые 2000 английских слов (корневых) дают в среднем 80% всех слов в английском печатном тексте ообщего назначения. Соответственно, зная эти 2000 слов, человек будет понимать 80% письменной речи. При таком словарном запасе каждое пятое напечатанное слово будет незнакомым, и для понимания остального по контексту это считается недостаточным. Вроде бы для разумного уровня понимания английского текста нужно знать 95% употребленных слов. Для понимания устного неформального разговора этих же 2000 слов оказывается достаточно; а вот для общего письменного текста, чтобы набрать 95%, понадобится, по разным данным, от 3000 до 5000; для свободного понимания научных материалов - аж до 15000 слов.

Всего в самом большом (без учета устаревших слов) английском словаре насчитали больше 53000 гнезд, т.е. корневых слов (word families). Так что вроде бы хорошая новость - можно выучить только десятую часть, и вперед.

Опять же грубо можно считать, что человек, у которого данный язык родной, вводит в свой личный словарь около 1000 корневых слов в год. В 5-6 лет, у дошкольника, словарный запас составляет 5-6 тыс. слов, а у выпускников американских университетов - 20 тыс. (Понятно, что эти цифры средние, есть довольно большой разброс).

Отсюда следуют соответствующие методики изучения иностранных языков, и т.п.

Но - есть такой язык малалаям, на котором говорят 37 млн. человек, в основном в Индии.
И кочинские (малабарские) евреи на нем говорили. Те самые евреи, которые завели у себя три "касты" (черные, белые и коричневые), и три синагоги для каждой; и которые служили в войске раджи, но не сражались по субботам. (http://www.eleven.co.il/article/12210)

Так вот - в языке малалаям, родственном тамильскому, совершенно другой частотный расклад. Для понимания 80% текста надознать 126 тысяч разных слов. У говорящих рядом на хинди - всё как обычно, 80% текста - 2800 слов.
Это, конечно, если компьютер при подсчете не напутал со словоформами :)
http://ltrc.iiit.ac.in/MachineTrans/publications/technicalReports/tr022/camera-187.pdf

December 2025

S M T W T F S
 1 2 3 456
7 8 91011 1213
14151617 181920
212223 2425 2627
28293031   

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 27th, 2025 10:30 am
Powered by Dreamwidth Studios