Введение в машинное обучение с AWS — часть 1

AWS предлагает самый широкий и глубокий набор сервисов машинного обучения и поддерживающую облачную инфраструктуру, благодаря чему машинное обучение становится доступным для каждого разработчика, специалиста по анализу данных и эксперта-практика.

В этой статье блога мы рассмотрим некоторые из наиболее важных сервисов машинного обучения AWS, которые помогут вам делать точные прогнозы, получать более глубокие знания из ваших данных, снижать операционные издержки и улучшать качество обслуживания клиентов. AWS поможет вам на каждом этапе внедрения ML с помощью наиболее полного набора сервисов искусственного интеллекта (AI) и ML, инфраструктуры и ресурсов для внедрения.

Введение в AWS — это цикл статей, содержащий различные статьи, которые обеспечивают базовое введение в различные темы/категории aws. Каждая статья содержит подробное руководство по работе с конкретной темой/категорией. Цель этой серии — предоставить «Руководство по началу работы с различными темами/категориями aws».

AWS Machine Learning Services

  • AWS помогает оптимизировать процессы самообслуживания и снизить операционные расходы с помощью чат-ботов и виртуальных помощников.
  • AWS собирает данные из разрозненных и неструктурированных источников по всей вашей организации для повышения производительности бизнеса и удовлетворенности клиентов.
  • AWS помогает повысить вовлеченность и конверсию клиентов с помощью веб-сайтов, адаптированных к индивидуальным посетителям, и повысить конверсию.
  • Используя AWS, клиенты могут мгновенно извлекать текст и данные практически из любых документов, таких как заявки на кредит и медицинские формы, без ручного труда.

SageMaker

  • SageMaker — это полностью управляемая платформа, которая позволяет разработчикам и специалистам по исследованию данных быстро и легко создавать, обучать и развертывать модели машинного обучения в любом масштабе. SageMaker устраняет все барьеры, которые обычно тормозят разработчиков, желающих использовать машинное обучение.

  • Машинное обучение часто кажется большинству разработчиков намного сложнее, чем должно быть, потому что процесс создания и обучения моделей, а затем их развертывания в производстве слишком сложен и медлителен. Сначала необходимо собрать и подготовить обучающие данные, чтобы определить, какие элементы набора данных важны.

  • Затем необходимо выбрать алгоритм и фреймворк, который вы будете использовать. После выбора подхода необходимо научить модель делать прогнозы путем обучения, что требует большого объема вычислений. Затем необходимо настроить модель так, чтобы она давала наилучшие прогнозы, что часто является утомительной и ручной работой.

  • После разработки полностью обученной модели необходимо интегрировать модель в приложение и развернуть это приложение на масштабируемой инфраструктуре. Все это требует большого количества специальных знаний, доступа к большим объемам вычислительных ресурсов и хранилищ, а также много времени для экспериментов и оптимизации каждой части процесса. В итоге неудивительно, что для большинства разработчиков все это кажется недосягаемым.

  • SageMaker устраняет сложности, сдерживающие успех разработчиков на каждом из этих этапов. SageMaker включает модули, которые можно использовать вместе или независимо друг от друга для построения, обучения и развертывания моделей машинного обучения.

SageMaker Ground Truth

  • SageMaker Ground Truth помогает быстро создавать высокоточные обучающие наборы данных для машинного обучения. SageMaker Ground Truth обеспечивает легкий доступ к государственным и частным специалистам по маркировке и предоставляет им встроенные рабочие процессы и интерфейсы для выполнения общих задач маркировки.

  • Кроме того, SageMaker Ground Truth может снизить затраты на маркировку до 70% с помощью автоматической маркировки, которая работает путем обучения Ground Truth на данных, маркированных людьми, чтобы сервис научился маркировать данные самостоятельно.

  • Успешные модели машинного обучения строятся на основе больших объемов высококачественных обучающих данных. Однако процесс создания обучающих данных, необходимых для построения этих моделей, часто бывает дорогим, сложным и длительным. Большинство моделей, создаваемых сегодня, требуют, чтобы человек вручную маркировал данные таким образом, чтобы модель научилась принимать правильные решения.

  • Например, создание системы компьютерного зрения, которая достаточно надежна для идентификации объектов — таких как светофоры, знаки остановки и пешеходы — требует тысячи часов видеозаписей, состоящих из сотен миллионов видеокадров. Каждый из этих кадров должен содержать все важные элементы, такие как дорога, другие автомобили и знаки, которые должны быть помечены человеком, прежде чем можно будет начать работу над создаваемой моделью.

  • Amazon SageMaker Ground Truth значительно сокращает время и усилия, необходимые для создания наборов данных для обучения, что позволяет снизить затраты. Эта экономия достигается за счет использования машинного обучения для автоматической маркировки данных. Модель способна становиться все лучше с течением времени за счет непрерывного обучения на основе меток, созданных людьми, занимающимися маркировкой.

  • Там, где модель маркировки имеет высокую уверенность в своих результатах на основе того, чему она научилась на данный момент, она будет автоматически накладывать метки на исходные данные. Там, где модель маркировки менее уверена в своих результатах, она передает данные человеку для наложения меток.

  • Созданные человеком метки возвращаются обратно в модель маркировки, чтобы она могла учиться и совершенствоваться. Со временем SageMaker Ground Truth может автоматически маркировать все больше и больше данных и значительно ускорить создание обучающих наборов данных.

Amazon Comprehend

  • Amazon Comprehend — это служба обработки естественного языка (NLP), которая использует машинное обучение для поиска информации и взаимосвязей в тексте. Опыт работы с машинным обучением не требуется.

  • В ваших неструктурированных данных скрыт огромный потенциал. Письма клиентов, обращения в службу поддержки, отзывы о продукции, социальные сети, даже рекламные тексты — все это дает представление о настроениях клиентов, которое можно использовать в интересах вашего бизнеса. Вопрос в том, как до них добраться? Как выяснилось, машинное обучение особенно хорошо справляется с точным определением конкретных интересующих элементов в огромных массивах текста (например, поиск названий компаний в отчетах аналитиков) и может изучать настроения, скрытые в языке (выявление негативных отзывов или положительных взаимодействий клиентов с агентами службы поддержки), причем в практически безграничных масштабах.

  • Amazon Comprehend использует машинное обучение, чтобы помочь вам раскрыть суть и взаимосвязи в ваших неструктурированных данных. Сервис определяет язык текста; извлекает ключевые фразы, места, людей, бренды или события; понимает, насколько текст позитивен или негативен; анализирует текст с помощью токенизации и частей речи; и автоматически организует коллекцию текстовых файлов по темам.

  • Вы также можете использовать возможности AutoML в Amazon Comprehend для создания пользовательского набора сущностей или моделей классификации текста, которые уникальным образом соответствуют потребностям вашей организации.

  • Для извлечения сложной медицинской информации из неструктурированного текста можно использовать Amazon Comprehend Medical. Эта служба может идентифицировать медицинскую информацию, такую как медицинские состояния, лекарства, дозировки, силы и частоты из различных источников, таких как записи врача, отчеты о клинических исследованиях и медицинские карты пациентов.

  • Amazon Comprehend Medical также определяет взаимосвязь между извлеченной информацией о лекарствах, анализах, лечении и процедурах для упрощения анализа. Например, сервис определяет конкретную дозировку, силу и частоту приема конкретного лекарства из неструктурированных клинических записей.

Amazon Lex

  • Amazon Lex — это сервис для создания разговорных интерфейсов в любых приложениях с использованием голоса и текста. Lex предоставляет расширенные функции глубокого обучения: автоматическое распознавание речи (ASR) для преобразования речи в текст и понимание естественного языка (NLU) для распознавания смысла текста, что позволяет создавать приложения с очень привлекательным пользовательским опытом и реалистичным разговорным взаимодействием.

  • С Amazon Lex те же технологии глубокого обучения, которые используются в Amazon Alexa, теперь доступны любому разработчику, позволяя быстро и легко создавать сложные разговорные боты на естественном языке («чатботы»).

  • Распознавание речи и понимание естественного языка — одни из самых сложных задач в информатике, требующие обучения сложных алгоритмов глубокого обучения на огромных объемах данных и инфраструктуры.

  • Amazon Lex демократизирует эти технологии глубокого обучения, предоставляя возможности Alexa в распоряжение всех разработчиков. Используя эти технологии, Amazon Lex позволит вам определить совершенно новые категории продуктов, которые станут возможными благодаря разговорным интерфейсам.

Amazon Polly

  • Amazon Polly — это сервис, который превращает текст в реалистичную речь. Polly позволяет создавать приложения, которые разговаривают, что дает возможность создавать совершенно новые категории продуктов с поддержкой речи.

  • Polly — это служба искусственного интеллекта (ИИ) Amazon, которая использует передовые технологии глубокого обучения для синтеза речи, звучащей как человеческий голос. Polly включает 47 реалистичных голосов на 24 языках, поэтому вы можете выбрать идеальный голос и создавать приложения с поддержкой речи, которые будут работать в разных странах.

  • Amazon Polly обеспечивает стабильно быстрое время отклика, необходимое для поддержки интерактивного диалога в реальном времени. Вы можете кэшировать и сохранять аудиозаписи речи Polly для воспроизведения в автономном режиме или повторного распространения. Кроме того, Polly прост в использовании.

  • Вы просто отправляете текст, который хотите преобразовать в речь, в Polly API, и Polly немедленно возвращает аудиопоток в ваше приложение, чтобы оно могло воспроизвести его напрямую или сохранить в стандартном формате аудиофайла, например, MP3.

  • При использовании Polly вы платите только за количество символов, преобразованных в речь, и можете сохранять и воспроизводить сгенерированную Polly речь. Низкая стоимость каждого преобразованного символа и отсутствие ограничений на хранение и повторное использование голосового вывода делают Polly экономически эффективным способом повсеместного применения технологии преобразования текста в речь.

Amazon Rekognition

  • Amazon Rekognition — это сервис, который позволяет легко добавлять анализ изображений в ваши приложения. С помощью Rekognition можно распознавать объекты, сцены и лица на изображениях. Вы также можете искать и сравнивать лица. API Amazon Rekognition позволяет быстро добавлять в приложения сложный визуальный поиск и классификацию изображений на основе глубокого обучения.

  • Amazon Rekognition основан на той же проверенной и масштабируемой технологии глубокого обучения, которая была разработана специалистами Amazon по компьютерному зрению для ежедневного анализа миллиардов изображений для Prime Photos. Amazon Rekognition использует модели глубоких нейронных сетей для обнаружения и маркировки тысяч объектов и сцен на ваших изображениях, и мы постоянно добавляем новые метки и функции распознавания лиц в сервис.

  • API Amazon Rekognition позволяет легко встроить мощный визуальный поиск и обнаружение в ваши приложения. С Amazon Rekognition вы платите только за анализируемые изображения и хранимые метаданные о лицах. Минимальная плата отсутствует, и нет никаких предварительных обязательств.

Amazon Translate

  • Amazon Translate — это сервис нейромашинного перевода, который обеспечивает быстрый, качественный и доступный языковой перевод. Нейромашинный перевод — это форма автоматизации языкового перевода, которая использует модели глубокого обучения для обеспечения более точного и естественного перевода по сравнению с традиционными статистическими алгоритмами и алгоритмами перевода на основе правил.

  • Amazon Translate позволяет локализовать контент — например, веб-сайты и приложения — для международных пользователей, а также легко и эффективно переводить большие объемы текста.

Amazon Transcribe

  • Amazon Transcribe — это сервис автоматического распознавания речи (ASR), который упрощает разработчикам добавление возможности преобразования речи в текст в свои приложения. Используя API Amazon Transcribe, вы можете анализировать аудиофайлы, хранящиеся в Amazon S3, и получать от сервиса текстовый файл с расшифровкой речи. Вы также можете отправить Amazon Transcribe аудиопоток в реальном времени и получить поток расшифровок в режиме реального времени.

  • Amazon Transcribe можно использовать для множества распространенных приложений, включая расшифровку звонков в службу поддержки клиентов и создание субтитров к аудио- и видеоконтенту. Сервис может расшифровывать аудиофайлы, сохраненные в распространенных форматах, таких как WAV и MP3, с отметками времени для каждого слова, чтобы вы могли легко найти аудиозапись в первоисточнике при поиске текста. Amazon Transcribe постоянно учится и совершенствуется, чтобы идти в ногу с эволюцией языка.

Amazon Forecast

  • Amazon Forecast — это полностью управляемый сервис, который использует машинное обучение для составления высокоточных прогнозов.

  • Сегодня компании используют все — от простых электронных таблиц до сложного программного обеспечения для финансового планирования — для точного прогнозирования будущих результатов бизнеса, таких как спрос на продукцию, потребности в ресурсах или финансовые показатели.

  • Эти инструменты строят прогнозы, изучая исторические ряды данных, которые называются временными рядами. Например, такие инструменты могут пытаться предсказать будущие продажи плаща, рассматривая только данные о его предыдущих продажах, исходя из предположения, что будущее определяется прошлым.

  • Такой подход может не дать точных прогнозов для больших наборов данных, которые имеют нерегулярные тенденции. Кроме того, он не позволяет легко объединить ряды данных, которые меняются со временем (такие как цена, скидки, веб-трафик и количество сотрудников), с соответствующими независимыми переменными, такими как характеристики продукции и местоположение магазинов.

  • Основанный на той же технологии, которая используется в Amazon.com, Amazon Forecast использует машинное обучение для объединения данных временных рядов с дополнительными переменными для построения прогнозов. Для начала работы с Amazon Forecast не требуется опыта машинного обучения. Вам нужно только предоставить исторические данные, а также любые дополнительные данные, которые, по вашему мнению, могут повлиять на прогнозы.

  • Например, спрос на рубашки определенного цвета может меняться в зависимости от времени года и расположения магазина. Такую сложную взаимосвязь трудно определить самостоятельно, но машинное обучение идеально подходит для ее распознавания.

  • После того как вы предоставите свои данные, Amazon Forecast автоматически изучит их, определит, что в них значимо, и создаст модель прогнозирования, способную делать прогнозы на 50% точнее, чем при использовании только данных временных рядов.

  • Amazon Forecast — это полностью управляемая услуга, поэтому нет необходимости предоставлять серверы, строить, обучать или развертывать модели машинного обучения. Вы платите только за то, что используете, минимальная плата и предварительные обязательства отсутствуют.

Amazon Textract

  • Amazon Textract — это сервис, который автоматически извлекает текст и данные из отсканированных документов. Amazon Textract не ограничивается простым оптическим распознаванием символов (OCR), а также определяет содержимое полей в формах и информацию, хранящуюся в таблицах.

  • Сегодня многие компании извлекают данные из документов и форм путем ручного ввода данных, что медленно и дорого, или с помощью простого программного обеспечения для оптического распознавания символов (OCR), которое сложно настроить.

  • Правила и рабочие процессы для каждого документа и формы часто приходится жестко кодировать и обновлять при каждом изменении формы или при работе с несколькими формами. Если форма отклоняется от правил, результат часто оказывается искаженным и непригодным для использования.

  • Amazon Textract решает эти проблемы, используя машинное обучение для мгновенного «чтения» практически любого типа документов для точного извлечения текста и данных без необходимости ручных усилий или пользовательского кода.

  • С Textract вы можете быстро автоматизировать рабочие процессы, позволяя обрабатывать миллионы страниц документов за считанные часы. После того как информация собрана, вы можете предпринять соответствующие действия в своих бизнес-приложениях, чтобы инициировать следующие шаги для подачи заявки на кредит или обработки медицинских претензий.

  • Кроме того, вы можете создавать интеллектуальные поисковые индексы, строить автоматизированные рабочие процессы утверждения и лучше соблюдать правила архивирования документов, отмечая данные, которые могут потребовать редактирования.

Amazon Personalize

  • Amazon Personalize — это сервис машинного обучения, который упрощает разработчикам создание индивидуальных рекомендаций для клиентов, использующих их приложения.

  • Машинное обучение все чаще используется для повышения вовлеченности клиентов путем создания персонализированных рекомендаций продуктов и контента, адаптированных результатов поиска и целевых маркетинговых акций.

  • Однако разработка возможностей машинного обучения, необходимых для создания таких сложных систем рекомендаций, была недоступна для большинства организаций из-за сложности разработки функциональности машинного обучения.

  • Amazon Personalize позволяет разработчикам без опыта машинного обучения легко встроить сложные возможности персонализации в свои приложения, используя технологию машинного обучения, отточенную за годы использования на Amazon.com.

  • При использовании Amazon Personalize вы предоставляете поток активности из вашего приложения — просмотры страниц, регистрации, покупки и так далее — а также список элементов, которые вы хотите рекомендовать, например, статьи, продукты, видео или музыку.

  • Вы также можете предоставить Amazon Personalize дополнительную демографическую информацию от ваших пользователей, например, возраст или географическое положение. Amazon Personalize обработает и изучит данные, определит, что из них значимо, выберет правильные алгоритмы, обучит и оптимизирует модель персонализации, адаптированную к вашим данным.

  • Все данные, проанализированные Amazon Personalize, хранятся в тайне и безопасности и используются только для ваших персонализированных рекомендаций. Вы можете начать обслуживать свои персонализированные прогнозы с помощью простого вызова API из виртуального частного облака, которое поддерживает сервис. Вы платите только за то, что используете, без минимальной платы и предварительных обязательств.

  • Amazon Personalize — это как собственная команда персонализации машинного обучения Amazon.com в вашем распоряжении 24 часа в сутки.


Надеюсь, это руководство помогло вам в изучении Введения в машинное обучение с AWS — часть 1. В следующей статье блога мы расскажем о различных сервисах машинного обучения, доступных в AWS.

Дайте мне знать ваши мысли в разделе комментариев 👇.
И если вы еще не сделали этого, обязательно следуйте за мной по указанным ниже ручкам:

👋 подключайтесь ко мне на LinkedIn
🤓 связаться со мной в Twitter
🐱💻 следите за мной на github
✍️ Заглядывайте в мои блоги.

Ставьте лайк, делитесь и следуйте за мной 🚀 для получения новых материалов.

Адит Моди

Старший инженер по облачным технологиям | Создатель сообщества AWS | 9x AWS Certified | 3x Azure Certified | Автор Cloud Tech, DailyDevOps & BigDataJournal | Посол HashiCorp | Lift «Cloud Captain»

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *