Атрибуция авторства с помощью тепловых карт пунктуации
Стилометрия – это количественное исследование литературного стиля с помощью компьютерного анализа текста. Он основан на идее, что у всех нас есть уникальный, последовательный и узнаваемый стиль письма. Это включает в себя наш словарный запас, нашу пунктуацию, среднюю длину наших слов и предложений и так далее.
Типичным применением стилометрии является атрибуция авторства. Это процесс идентификации автора документа, например, при расследовании плагиата или разрешении споров о происхождении исторического документа.
В этом проекте Quick Success Data Science мы будем использовать Python, seaborn и набор инструментов для естественного языка (NLTK), чтобы выяснить, оставил ли сэр Артур Конан Дойл лингвистический отпечаток в своем романе Затерянный мир. В частности, мы будем использовать точку с запятой, чтобы определить, кто является вероятным автором книги — сэр Артур или его современник Герберт Уэллс.
Пес, Война и Затерянный мир
Сэр Артур Конан Дойл (1859–1930) наиболее известен благодаря рассказам о Шерлоке Холмсе. Герберт Уэллс (1866–1946) известен несколькими новаторскими научно-фантастическими романами, такими как Человек-невидимка.
В 1912 году журнал Strand Magazine опубликовал Затерянный мир, сериализованную версию научно-фантастического романа. Хотя его автор известен, давайте представим, что это спор, и наша задача — разгадать тайну. Эксперты сузили поле до двух авторов: Дойла и Уэллса. Уэллсу немного отдается предпочтение, потому что Затерянный мир — это произведение научной фантастики и включает в себя троглодитов, похожих на морлоков из его книги 1895 года Машина времени. .
Для решения этой задачи нам потребуются репрезентативные работы каждого автора. Для Дойла мы будем использовать Собаку Баскервилей, опубликованную в 1901 году. Для Уэллса мы будем использовать Войну миров, опубликованную в 1898 году.
К счастью для нас, все три романа находятся в открытом доступе и доступны через Проект Гутенберг. Для удобства я загрузил их в этот Gist и убрал лицензионную информацию.
Процесс
Для указания авторства требуется применение обработки естественного языка (NLP). НЛП — это…