Подкармливая золотую лихорадку: список открытых массивов данных для искусственного интеллекта

ИИ Автор: Анастасия Львова | 21 февраля 2017, 12:05

Сегодня, проще, чем когда-либо, каждый желающий может заняться разработкой искусственного интеллекта или систем, основанных на машинном обучении. Достаточно воспользоваться такими новейшими бесплатными инструментами, как TensorFlow, Torch или Spark. Вычислительные мощности облачных провайдеров, таких как AWS или Google Cloud, позволяют создавать компьютерные модели прямо с вашего планшета за чашечкой кофе во время обеда.

За всеми усовершенствованиями возможностей вычислительного процесса, на заднем фоне сложной компьютерной функции, остался самый базовый компонент искусственного интеллекта – информация (data) – набор данных, управляемый и маркируемый исследовательскими группами и компаниями, которые не устают напоминать, что демократизация данных – это необходимый шаг на пути к искусственному интеллекту.

Большинство продуктов с привлечением машинного обучения или ИИ основываются на закрытых базах данных, так как, согласно распространенному аргументу, это обеспечивает их защищенность. Но и некоторые открытые массивы могут быть полезны, хотя бы как пример доказательства жизнеспособности концепции, или для работы над потенциальным продуктом, или как проверочный продукт на этапе, предшествующем созданию своего запатентованного (закрытого) набора данных.

Разработчики напоминают, что бесперебойная и эффективная работая продукта в реальных жизненных сценариях зависит не только от производительности программы, но и того, насколько хорошо структурированы и маркированы данные в коллекции. Стандартизированные базы данных могут быть использованы для проверки работы программы и как хороший старт для построения более индивидуализированных решений.

Программисты проекта Open Guide to Practical AI, составили список массивов данных, о которых «нельзя себе позволить не знать в мире искусственного интеллекта».

Компьютерное зрение

MNIST: наиболее широко используемый набор для проверки работоспособности алгоритма. Массив, состоящий из 25x25, центрированных, черно-белых рукописных цифр. Очень простой массив – если алгоритм работает на нем, это еще не значит, что он работает;

CIFAR 10 & CIFAR 100: 32x32 цветные изображения. Также используется для проверки исправности программы;

ImageNet: набор изображений для новых алгоритмов. Многие компании по созданию интерфейса прикладного программирования (API) используют этикетки, подозрительно похожие на 1000-ную категорию WorldNet из набора ImageNet.

LSUN: понимание сцены (планировки) со множеством вспомогательных задач (оценка конфигурации помещения, предугадывание заметного положения (saliency prediction))+соревнования-разработки по кейсам;

PASCAL VOC: родовая сегментация и классификация изображений – нет очень полезна для аннотирования условий реального мира, но отлична для базовой функции;

SVHN: номера домов из Google Street View. Можно представить как “MNIST в дикой природе”;

MS COCO: родовое понимание изображений (80 объектных категорий) и подписи к ним+ соревнования по кейсам;

Visual Genome: база, основанная на очень детализированной визуальной информации с обширным комментарием для порядка 100 тысяч изображений;

Labeled Faces in the Wild: обрезанные лица людей, с подписями частей лица. Подмножество из набора может включать в себя две картинки, поэтому набор используется очень активно для тренировки систем совпадения черт лица.

Естественный язык

Text Classification Datasets (Google Drive Link) от Zhang et al., 2015: Обширный набор из 8 других наборов данных для классификации текста. Это самый популярный базовый уровень архитектуры, на который наслаивают следующие уровни работы с текстом. Размер одного образца различается от 120 Кб до 3,6 Мб; система способна решать разные по сложности задачи – от бинарных до 14-уровневых. Наборы из DBPedia, Amazon, Yelp, Yahoo!, Sogou и AG;

WikiText: большой корпус качественных статей из Википедии, курируемый Salesforce MetaMind;

Question Pairs: первый набор, выпущенный Quora, который маркирует дублирующиеся или семантически схожие вопросы сервису;

SQuAD: Стэнфордский набор данных в форме вопросов-ответов на понимание прочитанного, где каждый ответ к вопросу маркируется как «промежуток» – сегмент текста.

CMU Q/A Dataset: Вручную сгенерированные слоты информации, содержащие пару вопрос/ответ, по сложности соотносящиеся со статьями из «Википедии»;

Maluuba Datasets: Сложный (не машинной конструкции) массив для исследования естественных языков в их постоянно изменяющихся состояниях;

Billion Words: большой, доступный для общих целей набор моделирования языка; часто используется для распределенной репрезентации слов, как в word2vec или GloVe;

Common Crawl: поисковик размером в Петабайт – чаще всего используется для векторного представления слов. Доступен бесплатно здесь (Amazon S3). Может быть полезен как сеть данных, так как он осуществляет поиск в вебе;

bAbi: синтетическое осмысление прочитанного, построенное на системе вопрос-ответ, от Facebook AI Research (FAIR);

The Children’s Book Test: базовые данные пар (вопрос+контекст, ответ), извлеченные из детских книг проекта «Гутенберг» (Project Gutenberg). Полезен для систем вопрос-ответ, понимания прочитанного, а также поиска информации;

Stanford Sentiment Treebank: стандартный набор эмоциональных выражений, с очень детальным описанием эмоции в каждом узле дерева синтаксического анализа каждого предложения;

20 Newsgroups: один из классических массивов данных для классификации текстов; обычно используется в качестве ориентира для простой классификации или для проверки любого алгоритма поиска неструктурированной информации или индексации;

Reuters: давно известный массив текстов из ленты новостей; часто используется для учебных целей;

IMDB: старенький, относительно небольшой массив информации для двоичной классификации эмоций. Подвергся опале за критерии сравнительного анализа в литературе взамен больших наборов;

UCI’s Spambase: старый, классический набор почтового спама из известного хранилища UCI Machine Learning Repository. Так как содержит информацию о том, как набор был собран и управляем, может быть полезен для создания персонализированных почтовых фильтров.

Распознавание речи

Большинство массивов по распознаванию речи являются патентованными – информация считается очень ценной для компаний, которые курируют эту сферу.

2000 HUB5 English: англоязычная речь, использованная в недавнем проекте Deep Speech paper компании-интернет провайдера Baidu.

LibriSpeech: набор аудио-книг и аудио-речей. Около 500 часов очищенного чтения различных аудио-книг разными спикерами, организованная по главам, которые содержат и письменный текст и аудио-файл;

VoxForge: чистая речь английского с акцентами; массив полезен для кейсов, когда необходима устойчивость к различным акцентам и интонациям;

TIMIT: англоязычный набор данных по распознаванию речи;

CHIME: полезный массив для распознавания речи в неочищенном, шумном файле. Набор содержит реальные, симулированные и чисто-голосовые записи. Реальные записи – это 9000 записей 4 спикеров в 4 шумных локациях; искусственные (или симулированные) записи были сгенерированы путем объединения нескольких сред, накладываемых на устные высказывания; «чистые» записи – это записи без шума;

TED-LIUM: аудио-транскрипция выступлений TED talks. Всего 1495 аудио треков вместе с полным текстовым сопровождением.

Системы ранжирования и рекомендаций

Netflix Challenge: первое главное соревнование типа Kaggle. Такой тип соревнований предоставляет платформу, где компании и исследователи публикуют свои данные, а статистики и разработчики программ «добычи данных» со всего мира соревнуются в создании лучших рабочих моделей для доступной информации. Kaggle-challenges направлены на развитие навыков прогностического моделирования; Netflix Challenge доступен только неофициально из-за жалоб на нарушения конфиденциальности;

MovieLens: различные по размеру данные по обзорам фильмов – широко используются для совместных систем фильтрации исходных данных;

Million Song Dataset: большой, открытый массив метаданных на платформе Kaggle, который может быть полезен для экспериментов с гибридными системами рекомендаций;

Last.fm: музыкальные рекомендации, с доступом к социальной сети, лежащей в основе массива и другой метаинформации; также полезен для гибридных систем.

Сети и графики

Amazon Co-Purchasing and Amazon Reviews: поисковая информация по графе “пользователи, которые купили это, также купили…” в Amazon, а также обзоры сервиса на сопутствующие товары; удобен для экспериментов с рекомендательными системами в сетях;

Friendster Social Network Dataset: перед тем, как сделать игровой сайт, Friendster выпустили анонимизированный массив данных в виде списка “друзей” из более чем ста миллионов пользователей.

Геопространственные данные

OpenStreetMap: модели векторных данных по всей планете, включая старую версию различных географических данных TIGER, собранные Бюро переписи населения США;

Landsat8: спутниковые снимки всей поверхности Земли, обновляемые каждые несколько недель;

NEXRAD: сканы с доплеровсокго радара, фиксирующие атмосферные условия в США.

Оригинал статьи