Атрибуция авторства с помощью тепловых карт пунктуации

Стилометрия – это количественное исследование литературного стиля с помощью компьютерного анализа текста. Он основан на идее, что у всех нас есть уникальный, последовательный и узнаваемый стиль письма. Это включает в себя наш словарный запас, нашу пунктуацию, среднюю длину наших слов и предложений и так далее.

Типичным применением стилометрии является атрибуция авторства. Это процесс идентификации автора документа, например, при расследовании плагиата или разрешении споров о происхождении исторического документа.

В этом проекте Quick Success Data Science мы будем использовать Python, seaborn и набор инструментов для естественного языка (NLTK), чтобы выяснить, оставил ли сэр Артур Конан Дойл лингвистический отпечаток в своем романе Затерянный мир. В частности, мы будем использовать точку с запятой, чтобы определить, кто является вероятным автором книги — сэр Артур или его современник Герберт Уэллс.

Пес, Война и Затерянный мир

Сэр Артур Конан Дойл (1859–1930) наиболее известен благодаря рассказам о Шерлоке Холмсе. Герберт Уэллс (1866–1946) известен несколькими новаторскими научно-фантастическими романами, такими как Человек-невидимка.

В 1912 году журнал Strand Magazine опубликовал Затерянный мир, сериализованную версию научно-фантастического романа. Хотя его автор известен, давайте представим, что это спор, и наша задача — разгадать тайну. Эксперты сузили поле до двух авторов: Дойла и Уэллса. Уэллсу немного отдается предпочтение, потому что Затерянный мир — это произведение научной фантастики и включает в себя троглодитов, похожих на морлоков из его книги 1895 года Машина времени. .

Для решения этой задачи нам потребуются репрезентативные работы каждого автора. Для Дойла мы будем использовать Собаку Баскервилей, опубликованную в 1901 году. Для Уэллса мы будем использовать Войну миров, опубликованную в 1898 году.

К счастью для нас, все три романа находятся в открытом доступе и доступны через Проект Гутенберг. Для удобства я загрузил их в этот Gist и убрал лицензионную информацию.

Процесс

Для указания авторства требуется применение обработки естественного языка (NLP). НЛП — это…