разнообразие картины мира
Aug. 12th, 2009 04:54 pmОдной из характеристик языков, очень важной для изучающего язык, является размер частотного словарного ядра. Например, считается, что самые часто употребляемые 2000 английских слов (корневых) дают в среднем 80% всех слов в английском печатном тексте ообщего назначения. Соответственно, зная эти 2000 слов, человек будет понимать 80% письменной речи. При таком словарном запасе каждое пятое напечатанное слово будет незнакомым, и для понимания остального по контексту это считается недостаточным. Вроде бы для разумного уровня понимания английского текста нужно знать 95% употребленных слов. Для понимания устного неформального разговора этих же 2000 слов оказывается достаточно; а вот для общего письменного текста, чтобы набрать 95%, понадобится, по разным данным, от 3000 до 5000; для свободного понимания научных материалов - аж до 15000 слов.
Всего в самом большом (без учета устаревших слов) английском словаре насчитали больше 53000 гнезд, т.е. корневых слов (word families). Так что вроде бы хорошая новость - можно выучить только десятую часть, и вперед.
Опять же грубо можно считать, что человек, у которого данный язык родной, вводит в свой личный словарь около 1000 корневых слов в год. В 5-6 лет, у дошкольника, словарный запас составляет 5-6 тыс. слов, а у выпускников американских университетов - 20 тыс. (Понятно, что эти цифры средние, есть довольно большой разброс).
Отсюда следуют соответствующие методики изучения иностранных языков, и т.п.
Но - есть такой язык малалаям, на котором говорят 37 млн. человек, в основном в Индии.
И кочинские (малабарские) евреи на нем говорили. Те самые евреи, которые завели у себя три "касты" (черные, белые и коричневые), и три синагоги для каждой; и которые служили в войске раджи, но не сражались по субботам. (http://www.eleven.co.il/article/12210)
Так вот - в языке малалаям, родственном тамильскому, совершенно другой частотный расклад. Для понимания 80% текста надознать 126 тысяч разных слов. У говорящих рядом на хинди - всё как обычно, 80% текста - 2800 слов.
Это, конечно, если компьютер при подсчете не напутал со словоформами :)
http://ltrc.iiit.ac.in/MachineTrans/publications/technicalReports/tr022/camera-187.pdf
Всего в самом большом (без учета устаревших слов) английском словаре насчитали больше 53000 гнезд, т.е. корневых слов (word families). Так что вроде бы хорошая новость - можно выучить только десятую часть, и вперед.
Опять же грубо можно считать, что человек, у которого данный язык родной, вводит в свой личный словарь около 1000 корневых слов в год. В 5-6 лет, у дошкольника, словарный запас составляет 5-6 тыс. слов, а у выпускников американских университетов - 20 тыс. (Понятно, что эти цифры средние, есть довольно большой разброс).
Отсюда следуют соответствующие методики изучения иностранных языков, и т.п.
Но - есть такой язык малалаям, на котором говорят 37 млн. человек, в основном в Индии.
И кочинские (малабарские) евреи на нем говорили. Те самые евреи, которые завели у себя три "касты" (черные, белые и коричневые), и три синагоги для каждой; и которые служили в войске раджи, но не сражались по субботам. (http://www.eleven.co.il/article/12210)
Так вот - в языке малалаям, родственном тамильскому, совершенно другой частотный расклад. Для понимания 80% текста надознать 126 тысяч разных слов. У говорящих рядом на хинди - всё как обычно, 80% текста - 2800 слов.
Это, конечно, если компьютер при подсчете не напутал со словоформами :)
http://ltrc.iiit.ac.in/MachineTrans/publications/technicalReports/tr022/camera-187.pdf
no subject
Date: 2009-08-12 04:00 pm (UTC)no subject
Date: 2009-08-13 12:14 pm (UTC)Самый известный - это General Service List, но он давно составлен, в середине прошлого века. Небольшое предисловие http://jbauman.com/aboutgsl.html, сам список, ранжированный именно по частоте - http://jbauman.com/gsl.html
Отличной добавкой к нему для чтения научной литературы является Academic Word List (600 корневых слов) http://www.uefap.com/vocab/select/awl.htm
no subject
Date: 2009-08-13 12:44 pm (UTC)а в "Для понимания 80% текста надознать 126 тысяч разных слов" - верится, конечно, слабо.
no subject
Date: 2009-08-13 09:26 am (UTC)