«Я прочитал 25 миллионов книг». Компьютеры на службе гуманитарных наук

Автор: Павел Войтовский | 10 октября 2016, 10:10

Говорят, гуманитарию никогда не понять технаря, а технарю — гуманитария. В 2010 году дуэт из Гарварда решил это опровергнуть. Двое ученых стали исследовать культуру с помощью компьютеров и интернета. В результате родилась новая наука: культуромика. «Футурист» рассказывает, к каким странным результатам приводит исследование тысяч слов в текстах рэперов, миллионов реплик в «Симпсонах» и миллиардов комментариев на сайте «Реддит».

«Библиотеки должны заниматься оцифровкой своих фондов и бесплатной публикацией их в интернете, больше они в современном мире ***** [совершенно] ни за чем не нужны», — заявил в 2008 году дизайнер Артемий Лебедев. В США этим занимаются уже много лет, и на данный момент в рамках проекта «Google.Books» оцифровано более 25 миллионов томов из американских библиотек. Всего в мире насчитывается около 130 миллионов книг, и в Google хотят отсканировать их все.

Что делать с таким количеством текстов? Прочитать — не вариант. За свою жизнь вы вряд ли осилите больше нескольких тысяч книг. Если будете читать по книге в неделю в течение полувека, к пенсии достигнете отметки в 2600. Если по книге в день за тот же период, — 18000 с лишним. Умберто Эко обладал личной библиотекой в 50 тысяч томов и, предположительно, все их хотя бы открывал. Аппетиты обычных людей гораздо скромнее. Средний американец в год читает 9 книг, американка – 14. В России, по данным ВЦИОМ за 2014 год, люди осиливают 18 книг в год (4,5 за три месяца).

Но даже если бы мы читали больше, выложить большинство оцифрованных книг в открытый доступ нельзя из-за нарушения авторских прав. Что можно, так это осуществить поиск по книгам. Именно этим в 2010 году воспользовались создатели программы Ngram Viewer. Она была вдохновлена прототипом двух исследователей из Гарварда, Жана-Батиста Мишеля и Эреза Айдена. Термин n-gram означает просто последовательность из n элементов. В сервисе можно вводить запросы из одного или нескольких слов и смотреть, насколько часто они появляются в книгах в базе Гугла между 1800 и 2008 годами.

Введем в поиск по русским источникам название нашего портала — и получим краткую историю футуризма: пик на рубеже 1910-1920-х, когда бал правили единомышленники Владимира Маяковского, и еще один пик в 90-х, когда поэтических футуристов сменили технологические. Если сравнить с англоязычной версией поиска по тому же термину, будет видно, что футуризм как литературное течение в англосаксонской культуре был не слишком распространен, а ближе к концу века, напротив, стал важным трендом — уже в своей технологической ипостаси.

Авторы оригинального прототипа Жан-Батист Мишель и Эрез Айден назвали новую сферу исследования культуромикой (культура + геномика). Первые результаты ученые продемонстрировали в статье для журнала «Science» от 2011 года и в своей лекции на конференции TED. При этом был использован корпус из 5 миллионов томов, что составляет, по их подсчетам, 4% всех когда-либо опубликованных книг. Для каждого поискового запроса алгоритм прочесывал около 500 миллиардов слов. В основном, выводы дуэта довольно просты. Например, они получили двухвековую историю вспышек гриппа (русский, испанка, азиатский), введя соответствующий запрос.

Или же можно с помощью сервиса опровергнуть высказывание Ницше о «смерти Бога»:

Далее авторы переходят к более неочевидным находкам. Простой график, где сравниваются запросы «1883», «1910», «1950», позволил Мишелю и Айдену сделать глубокое наблюдение: мы забываем прошлое все быстрее с каждым годом. Если 1883 год стирался из памяти медленно, что отражено в пологом спуске кривой, то 1950-й ушел с радаров гораздо стремительнее: пик круто обрывается.

Программа даже способна облегчить карьерный выбор. На графике ниже показано, в каком возрасте люди разных профессий обычно достигают успеха: политики (красная линия) и авторы (синяя) наращивают обороты к старости, актеры (фиолетовая) находятся на пике популярности в возрасте от 20 до 30 лет, ну а математики (желтая), в общем-то, не пользуются большим спросом ни в юном возрасте, ни в преклонном.

История

Жана-Батиста Мишеля особенно интересуют количественные методы в применении к истории. Среди прочего, он ввел «индекс цензуры». Посмотрим на частоту упоминаний имени Марка Шагала в немецких источниках (красная линия) и увидим провал на времени правления Гитлера, когда картины художника относили к «дегенеративному искусству». Синяя линия (английские источники) такого провала не показывает.

Мишель проанализировал то, как красный график должен вести себя в соответствии со статистическим ожиданием (не должно быть резких скачков), и его реальное поведение, поделил одно число на другое и вывел «индекс цензуры». Если он отклоняется от единицы в меньшую сторону, то данного автора или деятеля подавляют, если в большую — напротив, его продвигают средствами пропаганды.

Мишель считает, что математические методы в гуманитарных науках скоро ждет расцвет. Вот еще одна демонстрация: ученый проанализировал скорость, с которой неправильные глаголы в английском языке становятся правильными. Скажем, глагол to wed, «жениться» или «выйти замуж», раньше имел форму прошедшего времени wed (что сохранилось в слове newlywed, «новобрачные»), но со временем ей на смену пришел вариант wedded. Оказалось, что этот процесс подчиняется простой математической формуле, в основе которой лежит экспоненциальная функция.

После Айдена и Мишеля за энграммы взялись многие другие исследователи. Поиск по книгам использовался для исследования психологии нарциссизма, социологии религий, для установления различий между британским и американским английским и многочисленных поп-культурных битв, вроде сравнения популярности «Звездного пути» и «Звездных войн». Калев Леетару из Университета Иллинойса изучил новостные архивы за 2011 год и заявил, что по ним можно было предсказать арабскую весну. В то же время некоторые ученые предостерегают от слишком оптимистичного взгляда на сервис. Среди проблем выделяют ошибки в отсканированных документах, преобладание научной литературы в корпусе «Google.Books» и такие казусы, как буква s, которая в старых английских источниках печаталась как f.

Музыка

Культуромика не ограничивается исследованием книг с помощью энграмм. И здесь начинается самое интересное. Что если соединить лингвистический анализ, популярную культуру и Большие данные (Big data)? Возможности неограниченны. Меломан и исследователь статистики Мэтт Дэниэлс с сайта «Polygraph» заинтересовался следующим вопросом: правда ли, что у Шекспира был самый богатый словарь в истории культуры? А что если сравнить его с лирикой звезд хип-хопа, известных своими сложными текстами? Интернет позволяет легко провернуть такой трюк.

В произведениях Уильяма Шекспира встречается 28 829 уникальных словоформ — больше, чем у любого другого автора в истории. Всего в пьесах и стихах Барда использовано 884 421 слов. Рэперы не печатают трагедий, поэтому требуется ограничить выборку. Дэниэлс берет 5000 первых слов из 7 произведений Шекспира и сравнивает их с 35 000 слов из песен известных хип-хоп-исполнителей. Вывод удивительный: соратники Эминема и Канье Уэста обладают более гибким лексиконом, чем автор «Гамлета». Первое место с результатом 7 392 уникальных слов занял исполнитель Aesop Rock, адепт альтернативного рэпа с головоломными текстами. Также отметились участники коллектива «Wu-Tang Clan» (места 2, 6, 7, 9, 20 и 23). На графике ниже отмечен «Моби Дик» Германа Мелвилла, с показателем 6 022 он обгоняет Шекспира и большинство рэперов, но все-таки занимает только третье место.

Красным отмечены Шекспир (слева) и Мелвилл (справа), каждый кружок — рэпер

Симпсоны

Один из лучших сайтов для изучения рэпа — это «Genius», портал, который выводит на новый уровень аннотирование текстов. Там даже коллективно читают и разгадывают Джеймса Джойса. Тодд Шнайдер, сотрудник «Genius», применил свои навыки работы с большими объемами текстов и проанализировал сценарии 26 сезонов сериала «Симпсоны». Шнайдер посчитал, сколько слов говорят все персонажи. Лидирует, разумеется, Гомер Симпсон, выдавший более 250 000 слов. А вот среди второстепенных героев, не принадлежащих к четверке главных персонажей, на первом месте оказался мистер Бёрнс, также в топ-5 попали владелец таверны Мо, директор школы Скиннер, сосед Нед Фландерс и клоун Красти.

Анализ также позволил Шнайдеру обнаружить самые популярные локации сериала и обвинить создателей в гендерном неравноправии: среди второстепенных персонажей женщинам отводится меньше 10% экранного времени, хотя Мардж и Лиза немного выравнивают статистику. Наконец, Шнайдер сделал шаг к изучению культуры с помощью искусственного интеллекта: на основе простой лингвистической техники он составил автоматические резюме каждой из сотен серий. Алгоритм выделил по одному слову на эпизод, которое повторяется чаще, чем в среднем по сериалу. 12-я серия 26-го сезона, например, отмечена словом «Элон», что недвусмысленно указывает на пародию на нашего любимого инноватора.

Эдуард Хиль, Дональд Трамп и все-все-все

Адептов Больших данных, в первую очередь, интересуют соцсети и сведения об интересах людей, чтобы использовать их в рекламных целях. В прошлом году поклонники инфографики из блога «FiveThirtyEight» применили метод энграмм к популярному агрегатору «Реддит». Они создали открытую утилиту для поиска по 1,7 миллиарда комментариев, оставленных на сайте с 2005 по 2015 годы. Хотя в первую очередь новинка заинтересовала исследователей американского сленга (можно проследить, какой из двух вариантов аббревиатуры «имхо» — IMHO или IMO — более популярен), сервис годится и для вопросов, связанных с популярной культурой. Если ввести «Trololo», мы получим график популярности Эдуарда Хиля, который ворвался в мир мемов в 2010-м году со своим советским хитом.

Сейчас, в связи с американскими выборами, популярна политика. Недавно энтузиасты создали архив всех твитов кандидата в президенты США Дональда Трампа. На страничке перечислены и пронумерованы все его оскорбительные заявления в адрес людей и институций (42 штуки), огульная критика Обамы (64), комплименты в собственный адрес (13) и отрицание глобального потепления (15). В предыдущую президентскую кампанию газета «Нью-Йорк Таймс» создала облако тегов из всех слов, что Обама и Мит Ромни произнесли во время национальных конвенций. Это позволило сравнить, что именно интересовало каждую из партий («Бог» упоминался 22 раза на 25 000 слов демократами и 35 раз республиканцами).

Прелесть культуромики — в ее доступности. Любой может ввести поисковой запрос в «Google Ngram Viewer», узнать, сколько раз Шекспир использовал слово «Россия» (три — два в «Мере за меру» и один в «Зимней сказке», где действует дочь русского императора Гермиона) или поискать, в какие месяцы 2014-го года на «Реддите» написание doge вдруг стало популярнее, чем написание dog («собака»).