eugenegp: (Default)
[personal profile] eugenegp
Одной из характеристик языков, очень важной для изучающего язык, является размер частотного словарного ядра. Например, считается, что самые часто употребляемые 2000 английских слов (корневых) дают в среднем 80% всех слов в английском печатном тексте ообщего назначения. Соответственно, зная эти 2000 слов, человек будет понимать 80% письменной речи. При таком словарном запасе каждое пятое напечатанное слово будет незнакомым, и для понимания остального по контексту это считается недостаточным. Вроде бы для разумного уровня понимания английского текста нужно знать 95% употребленных слов. Для понимания устного неформального разговора этих же 2000 слов оказывается достаточно; а вот для общего письменного текста, чтобы набрать 95%, понадобится, по разным данным, от 3000 до 5000; для свободного понимания научных материалов - аж до 15000 слов.

Всего в самом большом (без учета устаревших слов) английском словаре насчитали больше 53000 гнезд, т.е. корневых слов (word families). Так что вроде бы хорошая новость - можно выучить только десятую часть, и вперед.

Опять же грубо можно считать, что человек, у которого данный язык родной, вводит в свой личный словарь около 1000 корневых слов в год. В 5-6 лет, у дошкольника, словарный запас составляет 5-6 тыс. слов, а у выпускников американских университетов - 20 тыс. (Понятно, что эти цифры средние, есть довольно большой разброс).

Отсюда следуют соответствующие методики изучения иностранных языков, и т.п.

Но - есть такой язык малалаям, на котором говорят 37 млн. человек, в основном в Индии.
И кочинские (малабарские) евреи на нем говорили. Те самые евреи, которые завели у себя три "касты" (черные, белые и коричневые), и три синагоги для каждой; и которые служили в войске раджи, но не сражались по субботам. (http://www.eleven.co.il/article/12210)

Так вот - в языке малалаям, родственном тамильскому, совершенно другой частотный расклад. Для понимания 80% текста надознать 126 тысяч разных слов. У говорящих рядом на хинди - всё как обычно, 80% текста - 2800 слов.
Это, конечно, если компьютер при подсчете не напутал со словоформами :)
http://ltrc.iiit.ac.in/MachineTrans/publications/technicalReports/tr022/camera-187.pdf

Date: 2009-08-12 04:00 pm (UTC)
From: [identity profile] ivanov-petrov.livejournal.com
а есть список этих 2000 английских слов?

Date: 2009-08-13 12:14 pm (UTC)
From: [identity profile] eugenegp.livejournal.com
да, и даже несколько :)
Самый известный - это General Service List, но он давно составлен, в середине прошлого века. Небольшое предисловие http://jbauman.com/aboutgsl.html, сам список, ранжированный именно по частоте - http://jbauman.com/gsl.html
Отличной добавкой к нему для чтения научной литературы является Academic Word List (600 корневых слов) http://www.uefap.com/vocab/select/awl.htm

Date: 2009-08-13 12:44 pm (UTC)
From: [identity profile] ivanov-petrov.livejournal.com
спасибо

а в "Для понимания 80% текста надознать 126 тысяч разных слов" - верится, конечно, слабо.

Date: 2009-08-13 09:26 am (UTC)
From: [identity profile] zeinab-bint-ali.livejournal.com
О, это наверное и есть пресловутые маланцы :-)

December 2025

S M T W T F S
 1 2 3 456
7 8 91011 1213
14151617 181920
212223 2425 2627
28293031   

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 27th, 2025 12:29 am
Powered by Dreamwidth Studios