ÑкаÑаÑÑ PDF-Ñайл Ñ Ð´Ð¾ÐºÐ»Ð°Ð´Ð°Ð¼Ð¸ - ФилологиÑеÑкий ÑакÑлÑÑÐµÑ ...
ÑкаÑаÑÑ PDF-Ñайл Ñ Ð´Ð¾ÐºÐ»Ð°Ð´Ð°Ð¼Ð¸ - ФилологиÑеÑкий ÑакÑлÑÑÐµÑ ...
ÑкаÑаÑÑ PDF-Ñайл Ñ Ð´Ð¾ÐºÐ»Ð°Ð´Ð°Ð¼Ð¸ - ФилологиÑеÑкий ÑакÑлÑÑÐµÑ ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
отношении. Наряду с многообразными явлениями разговорной<br />
речи, жаргонизмами, в них представлены языковые средства,<br />
свойственные книжной разновидности литературного<br />
языка. Так, в текстах русскоязычных интернет-форумов<br />
(участники которых проживают как в Тюмени, так и в других<br />
городах и регионах страны и за рубежом и, таким образом,<br />
ведут «мировой полилог») на бытовые темы содержатся<br />
следующие их виды (в соответствии с классификацией<br />
книжно-письменных средств О. А. Лаптевой [2, 157–158]).<br />
1. Отглагольные существительные, обозначающие процесс<br />
(очевидно, в этих случаях пишущий предпочел имя<br />
глаголу): предстоит этап обивки вагонкой и выноса<br />
оконного блока; по моей просьбе после установки мне бесплатно<br />
поменяли ручки на окнах; после 2-х лет работы<br />
ухудшения фильтрации не видели. Нередки случаи, когда<br />
отглагольным существительным сопутствуют глаголы с<br />
ослабленным лексическим значением: сделана реконструкция<br />
помещения, ведет к промерзанию, производится<br />
укладка белья. В меньшем количестве наблюдаются отадъективные<br />
существительные: из-за недостаточности денег,<br />
не указывает конкретный срок его пригодности, имитация<br />
навороченности и престижности.<br />
2. Причастные и деепричастные обороты: замучившись<br />
менять шланги сейчас сделал просто; затем проехав дом<br />
направо повернешь; а мне обычную [дверь]… сваренную из<br />
уголков и хорошего листа железа; 90% не догадываются о<br />
широте огребаемых ими проблем.<br />
3. Предложно-падежные конструкции с книжными предлогами:<br />
в сочетании с бронзовым штуцером и NORMAвским<br />
хомутом система почти вечная; отговаривают ввиду дорогих<br />
расходников; выбирает себе забор исходя из потребностей<br />
и возможностей.<br />
4. Многословные словосочетания:<br />
1) с главным словом – существительным: толстая наружная<br />
стена здания рядом с оконным блоком; высокой заборной<br />
доской метра в полтора-два длиной; деревянный<br />
ящик шкафа или тумбочки с замком; обычный качественный<br />
вентиль с длинной ручкой.<br />
2) с главным словом – глаголом: с гиканьем и истерическими<br />
криками носятся до 00.00; парк Гагарина и ближайшие<br />
леса протравливают от клещей и комаров; поменяли<br />
все ручки на окнах на более удобные; закрывать сам<br />
мешок шторкой изнутри пылесоса; резать сыры / ветчину<br />
шириной ломтика около 1 мм.<br />
5. Средства союзной связи между предложениями: На<br />
участке растут молоденькие сосенки, 3-4 м высотой, но<br />
поскольку площадь открытая – у них уже довольно серьезные<br />
стволы; Что касается LG, то, как я понял, это<br />
лучшие стиралки в данной ценовой категории; Пылесос с<br />
этим фильтром просто отказывался работать, при этом<br />
с запасным HEPA фильтром работал нормально.<br />
6. Слова, принадлежащие всему книжно-письменному типу<br />
литературного языка, например: данный (в значении<br />
«этот»), достаточно, воздействует, в сфере (чего-л.), значительно,<br />
лишь, изготовить, неоднократно, необходимо,<br />
посетить, пригоден (для чего-л.), разнообразный, дальнейший,<br />
последующий, снабжен (чем-л.), соответствующий.<br />
Книжно-письменные средства свободно сочетаются с разговорными<br />
и жаргонными элементами, нередко в пределах<br />
словосочетания или даже одного слова.<br />
Вероятно, большое количество книжно-письменных средств<br />
в рассматриваемом материале связано прежде всего с опосредованностью<br />
общения в интернет-форумах письменным<br />
текстом, его дистантностью во времени и пространстве, отсутствием<br />
непосредственной обратной связи. В то же время<br />
равные ранги адресата и адресанта, свободных от строгих ролевых<br />
обязанностей, нестрогая регламентированность общения<br />
в интернет-форуме, по всей видимости, обусловливают<br />
обилие в этих же текстах разговорных средств. Широкое использование<br />
книжно-письменных средств в интернет-форумах<br />
представляется возможным рассматривать и в качестве<br />
одного из свидетельств продолжающегося процесса «массового<br />
проникновения книжной речи в разговорную речь»<br />
вследствие распространения всеобщего образования [1, 25].<br />
Литература<br />
1. Винокур Т. Г. Стилистическое развитие современной русской разговорной<br />
речи // Развитие функциональных стилей современного<br />
русского языка. М., 1968.<br />
2. Лаптева О. А. Теория современного русского литературного языка.<br />
М., 2003.<br />
Автоматическая классификация текстов корпуса русских газет конца XX века<br />
по жанровым типам и источникам<br />
О. В. Кукушкина 1 , В. В. Поддубный 2 , А. А. Поликарпов 1 , О. Г. Шевелев 2<br />
Московский государственный университет им. М. В. Ломоносова (1)<br />
Томский государственный университет (2)<br />
Частотные признаки, грамматическая информация, метод Хмелева<br />
Summary. The classification of newspapers articles by genre types and sources using Khmelev’s method and different features is shown.<br />
Best results are obtained using simple letter- and word-level non-grammatical features. Sources are classified better than genre types.<br />
Автоматическая классификация текстов по различным<br />
признакам интересует сейчас как математиков и программистов<br />
с точки зрения создания эффективных методов и алгоритмов<br />
для решения этой задачи, так и прикладных лингвистов,<br />
которым интересна сама возможность подобной классификации,<br />
а также ее практическое использование, например,<br />
для создания и верификации текстовых корпусов.<br />
Успешность классификации в основном зависит от двух<br />
факторов: от выбора признаков, отражающих разбиение<br />
текстов на требуемые классы, и от эффективности выбранных<br />
методов классификации. В настоящее время существует<br />
множество работ (например, [1]–[4]), в которых используются<br />
различные методы и признаки для классификации<br />
текстов, однако проблема еще далека от разрешения. Исследователи<br />
затрагивают в основном только два основных вида<br />
классификации: по авторскому стилю и по тематике текста,<br />
в то время как существует множество других интересных<br />
делений – по жанру, полу автора и др. Подавляющее<br />
большинство работ англоязычные, поэтому они не учитывают<br />
специфику русских текстов. Набор признаков по-прежнему<br />
довольно беден и включает в себя подсчет простейших<br />
единиц текста – букв, слов, не затрагивая, например, богатый<br />
пласт грамматический информации. Слабо исследованы<br />
факторы, влияющие на качество классификации.<br />
В данной работе проводится исследование классификации<br />
газетных текстов по жанровому типу и источникам газет<br />
с помощью метода Хмелева и его хи-квадрат модификации<br />
([1]–[2] по различным частотным признакам. Тексты<br />
для классификации взяты из подмножества (т. н. ядерного<br />
корпуса) компьютерного корпуса русских газет конца ХХ<br />
века (1994–1997 годы), составленного в лаборатории общей<br />
и компьютерной лексикологии и лексикографии филологического<br />
факультета МГУ им. Ломоносова. Ядерный корпус<br />
состоит примерно из 1 млн. словоупотреблений, содержащиеся<br />
в нем тексты вручную размечены по жанрам, источникам,<br />
авторам, названиям статей. Каждому словоупотреблению<br />
в текстах корпуса сопоставлена нормальная форма<br />
слова и некоторые грамматические признаки. Всего в корпусе<br />
3252 газетные статьи 9-и жанровых типов, 12-и газет,<br />
примерно 1000-и различных авторов.<br />
Жанровый тип является объединением некоторого множества<br />
жанров, которых в настоящее время существует довольно<br />
много. Из 9 жанровых типов, представленных в корпусе,<br />
только 4-х имели необходимый объем для классификации:<br />
информационно-публицистический, собственно-информационный,<br />
собственно-публицистический, художественно-публицистический.<br />
Серия экспериментов по классификации текстов по источникам<br />
была сделана из расчета на то, что статьи, представленные<br />
в той или иной газете, имеют свои особенности.<br />
Тексты 10-и источников в корпусе имели необходимый<br />
объем для проведения экспериментов: «Завтра», «Извес-<br />
391