01.12.2014 Views

скачать PDF-файл с докладами - Филологический факультет ...

скачать PDF-файл с докладами - Филологический факультет ...

скачать PDF-файл с докладами - Филологический факультет ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

отношении. Наряду с многообразными явлениями разговорной<br />

речи, жаргонизмами, в них представлены языковые средства,<br />

свойственные книжной разновидности литературного<br />

языка. Так, в текстах русскоязычных интернет-форумов<br />

(участники которых проживают как в Тюмени, так и в других<br />

городах и регионах страны и за рубежом и, таким образом,<br />

ведут «мировой полилог») на бытовые темы содержатся<br />

следующие их виды (в соответствии с классификацией<br />

книжно-письменных средств О. А. Лаптевой [2, 157–158]).<br />

1. Отглагольные существительные, обозначающие процесс<br />

(очевидно, в этих случаях пишущий предпочел имя<br />

глаголу): предстоит этап обивки вагонкой и выноса<br />

оконного блока; по моей просьбе после установки мне бесплатно<br />

поменяли ручки на окнах; после 2-х лет работы<br />

ухудшения фильтрации не видели. Нередки случаи, когда<br />

отглагольным существительным сопутствуют глаголы с<br />

ослабленным лексическим значением: сделана реконструкция<br />

помещения, ведет к промерзанию, производится<br />

укладка белья. В меньшем количестве наблюдаются отадъективные<br />

существительные: из-за недостаточности денег,<br />

не указывает конкретный срок его пригодности, имитация<br />

навороченности и престижности.<br />

2. Причастные и деепричастные обороты: замучившись<br />

менять шланги сейчас сделал просто; затем проехав дом<br />

направо повернешь; а мне обычную [дверь]… сваренную из<br />

уголков и хорошего листа железа; 90% не догадываются о<br />

широте огребаемых ими проблем.<br />

3. Предложно-падежные конструкции с книжными предлогами:<br />

в сочетании с бронзовым штуцером и NORMAвским<br />

хомутом система почти вечная; отговаривают ввиду дорогих<br />

расходников; выбирает себе забор исходя из потребностей<br />

и возможностей.<br />

4. Многословные словосочетания:<br />

1) с главным словом – существительным: толстая наружная<br />

стена здания рядом с оконным блоком; высокой заборной<br />

доской метра в полтора-два длиной; деревянный<br />

ящик шкафа или тумбочки с замком; обычный качественный<br />

вентиль с длинной ручкой.<br />

2) с главным словом – глаголом: с гиканьем и истерическими<br />

криками носятся до 00.00; парк Гагарина и ближайшие<br />

леса протравливают от клещей и комаров; поменяли<br />

все ручки на окнах на более удобные; закрывать сам<br />

мешок шторкой изнутри пылесоса; резать сыры / ветчину<br />

шириной ломтика около 1 мм.<br />

5. Средства союзной связи между предложениями: На<br />

участке растут молоденькие сосенки, 3-4 м высотой, но<br />

поскольку площадь открытая – у них уже довольно серьезные<br />

стволы; Что касается LG, то, как я понял, это<br />

лучшие стиралки в данной ценовой категории; Пылесос с<br />

этим фильтром просто отказывался работать, при этом<br />

с запасным HEPA фильтром работал нормально.<br />

6. Слова, принадлежащие всему книжно-письменному типу<br />

литературного языка, например: данный (в значении<br />

«этот»), достаточно, воздействует, в сфере (чего-л.), значительно,<br />

лишь, изготовить, неоднократно, необходимо,<br />

посетить, пригоден (для чего-л.), разнообразный, дальнейший,<br />

последующий, снабжен (чем-л.), соответствующий.<br />

Книжно-письменные средства свободно сочетаются с разговорными<br />

и жаргонными элементами, нередко в пределах<br />

словосочетания или даже одного слова.<br />

Вероятно, большое количество книжно-письменных средств<br />

в рассматриваемом материале связано прежде всего с опосредованностью<br />

общения в интернет-форумах письменным<br />

текстом, его дистантностью во времени и пространстве, отсутствием<br />

непосредственной обратной связи. В то же время<br />

равные ранги адресата и адресанта, свободных от строгих ролевых<br />

обязанностей, нестрогая регламентированность общения<br />

в интернет-форуме, по всей видимости, обусловливают<br />

обилие в этих же текстах разговорных средств. Широкое использование<br />

книжно-письменных средств в интернет-форумах<br />

представляется возможным рассматривать и в качестве<br />

одного из свидетельств продолжающегося процесса «массового<br />

проникновения книжной речи в разговорную речь»<br />

вследствие распространения всеобщего образования [1, 25].<br />

Литература<br />

1. Винокур Т. Г. Стилистическое развитие современной русской разговорной<br />

речи // Развитие функциональных стилей современного<br />

русского языка. М., 1968.<br />

2. Лаптева О. А. Теория современного русского литературного языка.<br />

М., 2003.<br />

Автоматическая классификация текстов корпуса русских газет конца XX века<br />

по жанровым типам и источникам<br />

О. В. Кукушкина 1 , В. В. Поддубный 2 , А. А. Поликарпов 1 , О. Г. Шевелев 2<br />

Московский государственный университет им. М. В. Ломоносова (1)<br />

Томский государственный университет (2)<br />

Частотные признаки, грамматическая информация, метод Хмелева<br />

Summary. The classification of newspapers articles by genre types and sources using Khmelev’s method and different features is shown.<br />

Best results are obtained using simple letter- and word-level non-grammatical features. Sources are classified better than genre types.<br />

Автоматическая классификация текстов по различным<br />

признакам интересует сейчас как математиков и программистов<br />

с точки зрения создания эффективных методов и алгоритмов<br />

для решения этой задачи, так и прикладных лингвистов,<br />

которым интересна сама возможность подобной классификации,<br />

а также ее практическое использование, например,<br />

для создания и верификации текстовых корпусов.<br />

Успешность классификации в основном зависит от двух<br />

факторов: от выбора признаков, отражающих разбиение<br />

текстов на требуемые классы, и от эффективности выбранных<br />

методов классификации. В настоящее время существует<br />

множество работ (например, [1]–[4]), в которых используются<br />

различные методы и признаки для классификации<br />

текстов, однако проблема еще далека от разрешения. Исследователи<br />

затрагивают в основном только два основных вида<br />

классификации: по авторскому стилю и по тематике текста,<br />

в то время как существует множество других интересных<br />

делений – по жанру, полу автора и др. Подавляющее<br />

большинство работ англоязычные, поэтому они не учитывают<br />

специфику русских текстов. Набор признаков по-прежнему<br />

довольно беден и включает в себя подсчет простейших<br />

единиц текста – букв, слов, не затрагивая, например, богатый<br />

пласт грамматический информации. Слабо исследованы<br />

факторы, влияющие на качество классификации.<br />

В данной работе проводится исследование классификации<br />

газетных текстов по жанровому типу и источникам газет<br />

с помощью метода Хмелева и его хи-квадрат модификации<br />

([1]–[2] по различным частотным признакам. Тексты<br />

для классификации взяты из подмножества (т. н. ядерного<br />

корпуса) компьютерного корпуса русских газет конца ХХ<br />

века (1994–1997 годы), составленного в лаборатории общей<br />

и компьютерной лексикологии и лексикографии филологического<br />

факультета МГУ им. Ломоносова. Ядерный корпус<br />

состоит примерно из 1 млн. словоупотреблений, содержащиеся<br />

в нем тексты вручную размечены по жанрам, источникам,<br />

авторам, названиям статей. Каждому словоупотреблению<br />

в текстах корпуса сопоставлена нормальная форма<br />

слова и некоторые грамматические признаки. Всего в корпусе<br />

3252 газетные статьи 9-и жанровых типов, 12-и газет,<br />

примерно 1000-и различных авторов.<br />

Жанровый тип является объединением некоторого множества<br />

жанров, которых в настоящее время существует довольно<br />

много. Из 9 жанровых типов, представленных в корпусе,<br />

только 4-х имели необходимый объем для классификации:<br />

информационно-публицистический, собственно-информационный,<br />

собственно-публицистический, художественно-публицистический.<br />

Серия экспериментов по классификации текстов по источникам<br />

была сделана из расчета на то, что статьи, представленные<br />

в той или иной газете, имеют свои особенности.<br />

Тексты 10-и источников в корпусе имели необходимый<br />

объем для проведения экспериментов: «Завтра», «Извес-<br />

391

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!