Скачать книгу

языков, многоязычное общение):

      ● выровненные (параллельные),

      ● невыровненные.

      2. Тип текстов:

      а) письменные тексты,

      б) устные (аудиозаписи и видеозаписи),

      в) смешанные (мультимодальные).

      3. Жанры текстов:

      а) литературные,

      б) диалектные,

      в) разговорные,

      г) публицистические,

      д) исторические,

      е) корпуса второго языка (ученические и т. п.).

      4. Тип данных:

      а) полнотекстовые,

      б) фрагментированные тексты:

      1) n-граммный,

      2) конкордансный.

      5. Типы разметки:

      а) неразмеченные,

      б) размеченные (аннотированные), с типами разметки:

      1) метатекстовая (жанр, время создания текста и т. д.),

      2) лингвистическая:

      ● фонетическая,

      ● просодическая,

      ● морфологическая (полная или только частеречная),

      ● словообразовательная,

      ● синтаксическая,

      ● семантическая

      ● и др.,

      3) экстралингвистическая (маркировка эмоций, жестов и т. п.).

      6. Объем данных:

      а) представительный корпус (национальный),

      б) иллюстративный,

      в) мониторинговый.

      7. Тип доступа:

      а) свободно распространяемый,

      б) академическая лицензия,

      в) ограниченный доступ.

      8. Страна создания и авторские права.

Дополнительная литература

      1. Lee D. Genres, registers, text types, domains, and styles: clarifying the concepts and navigating a path through the BNC jungle // Language Learning & Technology. Vol. 5. № 3. September 2001. Р. 37–72. Доступно по адресу: llt.msu.edu/vol5num3/pdf/lee.pdf.

      2. Resnik P., Broman Olsen M., Diab M.The Bible as a Parallel Corpus: Annotating the ‘Book of 2000 Tongues’ // Computers and the Humanities. 1999. Vol. 33. № 1–2. Р. 129–153. Доступно по адресу: www.springerlink.com/content/u240g32544t26777.

      3. Sinclair J. EAGLES Preliminary recommendations on Corpus Typology, EAGLES Document EAG-TCWG-CTYP/P. 1996. Доступно по адресу: www.ilc.cnr.it/EAGLES96/corpustyp/corpustyp.html.

      4. Савчук С. О. Метатекстовая разметка в Национальном корпусе русского языка: базовые принципы и основные функции // Национальный корпус русского языка: 2003–2005. Результаты и перспективы. М., 2005. С. 62–88.

      5. Савчук С. О., Шаров С. А. Типология текстов для представительного корпуса // Труды международной конференции «Корпусная лингвистика – 2004». СПб.: Издательство С.-Петербургского университета, 2004. С. 352–362.

Задания

      1. Пользуясь предложенной классификацией, мысленно «составьте» свой корпус (выберите язык, тип текстов и т. д.). Объясните, в каких исследовательских или учебных задачах его можно было бы использовать.

      2. Главный ресурс по русской корпусной лингвистике – Национальный корпус русского языка, расположенный по адресу ruscorpora.ru. Объясните, почему в адресе сайта используется множественное число английского слова corpus – corpora. Зайдите на сайт и выясните, какие виды корпусов там представлены и каков их объем в настоящий момент.

      3. Пользуясь описанными выше корпусами, проверьте, как изменялась частотность лемм «советский» и «товарищ» в русских текстах XVIII–XXI веков. Какое из этих слов,

Скачать книгу