Создание пользовательского интерфейса
Posted: Sat Jul 05, 2025 8:40 am
Скриншот навигатора задач Hugging Face Hub, представляющий способ фильтрации моделей машинного обучения, размещенных на хабе, по задачам, которые они намерены решать. Примерами задач являются классификация изображений, классификация токенов и преобразование изображений в текст.
Работа с данными изображений
В настоящее время ARCH предоставляет доступ к 16 различным наборам данных «готовых к исследованию», созданным из коллекций веб-архивов. Они включают, помимо прочего, наборы данных, содержащие весь извлеченный текст с веб-страниц в коллекции, графы ссылок (показывающие, как веб-сайты ссылаются на другие веб-сайты) и именованные сущности (например, упоминания людей и мест). Один из наборов данных доступен в виде CSV-файла, содержащего информацию об изображениях с веб-страниц в коллекции, включая время получения изображения, время последнего изменения живого изображения, URL-адрес изображения и имя файла.
Скриншот интерфейса ARCH, показывающий предварительный просмотр набора данных. Этот предварительный просмотр включает ссылку для скачивания и кнопку «Открыть в Colab».
Скриншот интерфейса ARCH, показывающий предварительный просмотр набора данных. Этот предварительный просмотр включает ссылку для скачивания и кнопку «Открыть в Colab».
Одна из проблем, с которой мы сталкиваемся при работе с такой коллекцией, — это возможность работать в большем масштабе, чтобы понять, что в ней содержится — просмотр тысяч изображений будет сложной задачей. Мы решаем эту проблему, используя инструменты, которые помогают нам лучше понять коллекцию в масштабе.
Gradio — это библиотека с открытым исходным кодом, поддерживаемая База данных по азартным играм Hugging Face, которая помогает создавать пользовательские интерфейсы, позволяющие другим людям взаимодействовать с различными аспектами системы машинного обучения, включая наборы данных и модели. Я использовал Gradio в сочетании с Spaces , чтобы сделать приложение общедоступным в течение нескольких минут, без необходимости настраивать и управлять сервером или хостингом. Дополнительную информацию об использовании Spaces см . в документации . Ниже я показываю примеры использования Gradio в качестве интерфейса для применения инструментов машинного обучения к данным, сгенерированным ARCH.
Изучение изображений
Я использую вкладку Gradio для случайных изображений, чтобы начать оценку изображений в наборе данных. Просмотр рандомизированной сетки изображений дает лучшее представление о том, какие типы изображений находятся в наборе данных. Это начинает давать нам представление о том, что представлено в коллекции (например, искусство, объекты, люди и т. д.).
Работа с данными изображений
В настоящее время ARCH предоставляет доступ к 16 различным наборам данных «готовых к исследованию», созданным из коллекций веб-архивов. Они включают, помимо прочего, наборы данных, содержащие весь извлеченный текст с веб-страниц в коллекции, графы ссылок (показывающие, как веб-сайты ссылаются на другие веб-сайты) и именованные сущности (например, упоминания людей и мест). Один из наборов данных доступен в виде CSV-файла, содержащего информацию об изображениях с веб-страниц в коллекции, включая время получения изображения, время последнего изменения живого изображения, URL-адрес изображения и имя файла.
Скриншот интерфейса ARCH, показывающий предварительный просмотр набора данных. Этот предварительный просмотр включает ссылку для скачивания и кнопку «Открыть в Colab».
Скриншот интерфейса ARCH, показывающий предварительный просмотр набора данных. Этот предварительный просмотр включает ссылку для скачивания и кнопку «Открыть в Colab».
Одна из проблем, с которой мы сталкиваемся при работе с такой коллекцией, — это возможность работать в большем масштабе, чтобы понять, что в ней содержится — просмотр тысяч изображений будет сложной задачей. Мы решаем эту проблему, используя инструменты, которые помогают нам лучше понять коллекцию в масштабе.
Gradio — это библиотека с открытым исходным кодом, поддерживаемая База данных по азартным играм Hugging Face, которая помогает создавать пользовательские интерфейсы, позволяющие другим людям взаимодействовать с различными аспектами системы машинного обучения, включая наборы данных и модели. Я использовал Gradio в сочетании с Spaces , чтобы сделать приложение общедоступным в течение нескольких минут, без необходимости настраивать и управлять сервером или хостингом. Дополнительную информацию об использовании Spaces см . в документации . Ниже я показываю примеры использования Gradio в качестве интерфейса для применения инструментов машинного обучения к данным, сгенерированным ARCH.
Изучение изображений
Я использую вкладку Gradio для случайных изображений, чтобы начать оценку изображений в наборе данных. Просмотр рандомизированной сетки изображений дает лучшее представление о том, какие типы изображений находятся в наборе данных. Это начинает давать нам представление о том, что представлено в коллекции (например, искусство, объекты, люди и т. д.).