Артур Скальский

© РИА-Новости

Наука и техникаМир

3819

11.12.2009, 10:54

Ученые обнаружили математические "отпечатки пальцев" писателей

Шведские ученые разработали новый способ выявлять автора текста - они установили, что роль "отпечатков пальцев" писателей может играть частота встречаемости новых слов в их текстах.

В статье, опубликованной в четверг в научном издании New Journal of Physics, группа шведских физиков из университета Умео под руководством Себастьяна Бернгардсона (Sebastian Bernhardsson) описала новый метод, который позволяет на основе статистических данных определить автора текста.

Исследователи проверяли, как в текстах трех писателей - Томаса Харди, Генри Мелвилла и Дэвида Лоуренса - реализуется так называемый закон Ципфа. Этот закон, открытый в 1935 году лингвистом Джорджем Ципфом (George Kingsley Zipf), гласит, что частота какого либо слова в текста обратно пропорциональна его рангу - месту в списке слов текста, отсортированных по частоте.

Так, например, второе по частоте слово будет встречаться в тексте примерно в два раза реже, чем первое, третье - в три раза реже и так далее.

Шведские физики в своей статье показали, что этот закон не так универсален, как считал Ципф. Они обнаружили, что частота появления новых слов по мере роста объема текста меняется у разных авторов по- разному, причем эта закономерность не зависит от конкретного текста, а только от автора.

Статистический анализ показал, что закономерность остается постоянной в любых текстах одного и того же автора - романах, главах из романов, рассказов, и может служить своеобразными "отпечатками пальцев".

Авторы исследования, наблюдая за этими статистическими закономерностями, выдвинули идею так называемой "метакниги" - воображаемого бесконечного текста, в котором описан мир глазами того или иного автора. "Создавая произведение, автор "вытаскивает" куски текста из этой большой "материнской книги" и перекладывает их на бумагу, сохраняя, однако, частотные характеристики концептов в этой метакниге", - пишут ученые.

Статистические методы определения авторства известны довольно давно, и шведские исследователи просто предложили еще один, относительно простой способ, сказала РИА Новости лингвист Елизавета Былинина из Утрехтского университета (Нидерланды).

"Традиционно считается, что авторский стиль хорошо характеризуется распределением служебных слов, и другими незначимыми, и потому плохо заметными глазу, а хорошо заметными статистике характеристиками - средняя длина предложения, количество вводных слов", - сказала собеседница агентства.

По ее словам, Бернгардсон и его соавторы попытались представить некоторую частотную "карту" произведений, и нашли, что она постоянна для каждого автора, даже без всяких других "хитростей".

"Это хороший результат, но не сенсационный", - считает лингвист.

Артур Скальский

© РИА-Новости

Наука и техникаМир

3819

11.12.2009, 10:54

URL: https://www.babr24.com/?ADE=82767

Bytes: 2699 / 2699

Версия для печати

Скачать PDF

Поделиться в соцсетях:

Также читайте эксклюзивную информацию в соцсетях:
- Телеграм
- ВКонтакте

Связаться с редакцией Бабра:
newsbabr@gmail.com

Последние новости

19.12 06:25
Заказчик красноярского метротрама отрицает возможность приостановки работ. Что случилось?

19.12 06:15
Назначена дата выборов мэра Красноярска

19.12 06:02
Котюков официально запретил фейерверки и продажу алкоголя на праздники в Красноярском крае

18.12 23:25
В Новосибирске возбудили уголовное дело о хранении свыше 18 тысяч бутылок контрафактного алкоголя

18.12 23:16
В Новосибирске мужчине назначили три года колонии за растрату в 40 миллионов рублей

18.12 22:41
Двух детей увезли в больницу после ДТП в Бурятии. Инцидентом заинтересовалась прокуратура

18.12 22:27
Власти Улан-Батора хотят расширить сотрудничество с городами Канады

18.12 21:27
На котельных в пяти районах Бурятии не соблюдали нормативный запас топлива

18.12 19:54
Монголия и Катар обсудили поставки халяльного мяса

18.12 19:39
В Бурятии следователи выясняют обстоятельства гибели машиниста буровой установки

Лица Сибири

Василькова Мария

Оланов Андрей

Тютрин Дмитрий

Истомин Геннадий

Барышников Виталий

Мазур Юлия

Емелина (Лунковская) Екатерина

Алашкевич Ирина

Разумов Дмитрий

Шапошников Александр