В современном мире цифровых технологий доступ к информации становится безграничным. Но когда имеешь в виду что-то конкретное, название того,что не знаешь, например, кухонную принадлежность, которую видел в чьём-то доме, бывает на удивление тяжело найти эту информацию в интернете, тем более, если не имеешь ни малейшего представления, что искать. Или может возникнуть противоположная проблема – мы знаем, что нам нужно, но как мы можем быть уверенными, что найдём всю информацию по интересующей нас тематике, не проводя долгие часы за компьютером?
Учёные из Вашингтонского университета и института искусственного интеллекта в Сиэтле создали первую полную автоматическую компьютерную программу, которая находит всю информацию о любом проекте или визуальной идее. Программа под названием LEVAN (Learning EVerything about ANything, «Изучение всего обо всём») ищет миллионы книг и изображений в интернет-пространстве, чтобы узнать все возможные варианты, затем отображает результаты пользователям в виде набора изображений, чтобы помочь быстро изучить проблему в мельчайших подробностях.
«Она находит связь между текстовыми и визуальными данными», – рассказал доцент кафедры компьютерных наук и инженерии Вашингтонского университета Али Фаради. «Программа изучает наборы пар фраза – пиксельное изображение. Это означает, что она может распознать конкретные понятия, когда их видит».
Команда разработчиков представит проект уже в этом месяце на ежегодной конференции в Колумбии, посвященной компьютерному зрению и распознаванию образов.
Программа определяет, какие признаки присутствуют в изображениях, найденных в интернете и выявляет характерные шаблоны с помощью алгоритмов распознавания образов. Программа отличается от интернет-библиотеки изображений, поскольку она опирается на большой набор фраз, чтобы идентифицировать изображение и пометить его по его же содержанию и количеству пикселей, а не просто по словам, отображаемых в заголовках.
Пользователи могут просматривать около 175 концепций в существующих библиотеках. Диапазон существующих концепций – от «окна» до «авиакомпании», включая «красивый», «завтрак», «блестящий», «рак», «инновация», «скейтборд», «робот», а разработчики впервые ввели понятие «лошадь».
Если понятие, которое ищут, не существует, можно ввести любой запрос, и программа сама автоматически сгенерирует исчерпывающий перечень подкатегорий изображений, которые имеют отношение к данному запросу. Например, поиск по слову «собака» вызовет очевидный набор подкатегорий: «собака породы чихуахуа», «черная собака», «плавающая собака», «взъерошенная собака», «борзая собака», а также «собачий нос», «собачья миска», «грустная собака», «уродливая собака», «хот-дог» и даже позу йоги «собака мордой вниз».
Методика работает с помощью поиска миллионов книг, написанных на английском языке и доступных в Google, отыскивая понятия во всей цифровой библиотеке интернета. Далее алгоритм отфильтровывает слова, которые нельзя представить визуально. Например, по запросу «лошадь» алгоритм найдет такие фразы как «скачущая лошадь» или «питающаяся лошадь», но исключит невизуальные фразы «моя лошадь» или «последняя лошадь». После того, как программа узнала, какие фразы являются актуальными, она выполняет поиск изображений в интернете, ищет внешние сходства среди найденных фотографий. Когда программа пытается найти все соответствующие изображения, скажем «скачущая лошадь», она распознаёт все образы, связанные с этой фразой.
«Основные информационные ресурсы, такие как словари и энциклопедии, движутся в этом направлении, показывая пользователям визуальную информацию, так как это гораздо легче понять и просмотреть. Тем не менее, они имеют ограниченный охват, поскольку они зачастую ищут вручную. Новая программа не требует присутствия человека, и таким образом, может автоматически изучить визуальные знания по любой тематике», – рассказал научный сотрудник института искусственного интеллекта Сантош Диввала.
Команда разработчиков запустила программу в марте, наблюдая, как она увеличивает небольшой набор понятий до 13 миллионов изображений с 65 000 различных фраз. В настоящее время программа ограничена вычислительной мощностью, так как на обработку отдельных запросов может уходить до 12 часов. Разработчики продолжают работать над увеличением скорости обработки запросов и возможностями программы.
Эта программа является мощным образовательным инструментом, а также информационным банком для исследователей проблем компьютерного зрения. Команда также планирует создать мобильное приложение, которое будет запускать программу для автоматического анализа и классификации фотографий. Это практический пример реализации концепции обучения с учителем.
University of Washington
Комментарии