Amazon AI (Amazon Polly/Amazon Rekognition/Amazon Lex)
講師:川村誠
Amazon AIのWebinarを受講した。 AmazonのAI Servicesである
- Polly-テキスト音声変換
- Recognition-画像識別、認識
- Lex-Bot構築
の説明があった。 ユースケースに合えば、自前で開発する必要がないので便利
以下メモ
- AI Servies
- 昨年のre:Inventで発表
- AI Platforms
- AMR,EMR,Spark & Spark ML
Polly
- テキストを音声に変換するサービス
- 生成された音声の保存とリプレイ、配信が可能
- 日本語含む24の言語をサポート
品質
- デモ
- 「庭には二羽の鶏がいる」も自然なイントネーションで発音
SSML(Speech Synthesis Markup Language)
- 音声の様々な要素をカスタム可能
- 発音、ボリューム、話す速度など
レキシコン(Pronunciation Lexicon Specification)
-
- 記事を音声に変換してmp3でダウンロード
料金、制限事項
- 最大1500課金対象文字
- 最大5個のレキシコン
- outputは5分に限定
- 100文字あたり4.0USD
- 1ヶ月あたり500万文字1年間無料
Amazon Recognition
- 深層学習に基づく画像認識サービス
- 画像の分析機能をアプリケーションに簡単に追加できる
物体とシーンの検出、顔分析、顔照合、顔認識
物体とシーンの検出ーDetectLables API
- 画像中の物体やシーンを検出
- 識別結果を信頼値0-100の値
- ユースケース
- 不動産物件の検索
- 顔分析機能ーDetectFaces API
- 画像内の顔の位置を検出し、感情、ポーズ、瞳が開いているかどうかの顔属性を分析できる
- ユースケース
- 店舗内の顧客印象分析
- 顔の比較機能 CompareFaces API
- 二つの画像の顔が同一人物であるか、可能性を判定
- ユースケース
- 社員証の顔画像とカメラでの顔画像を照合したセキュリティ
- 顔認識機能 IndexFaces/SearchFacesByImage API
Lambdaとシームレスに連携、ブループリントも利用可能
- S3に写真がputされたことをトリガーに呼び出し
1か月5000枚の画像分析12週間無料
Amazon Lex
- 音声やテキストを使用して、任意のアプリケーションに対話型インターフェイス(ボット)を構築するサービス
- 現在はLimited Preview
- 自動音声認識と自然言語理解を利用可能
- Facebook messagerなどに簡単にパブリッシュ
- バージョン管理とバージョンに関するAlias設定機能を提供
- Utterance
- 会話を始めるフレーズ。正確にintentを起動
- Slot
- 必要な変数
- Prompt
- 変数を聞き出し制度を上げるための質問
- Fulfillment
- intentが必要とするSlotが揃った時に呼び出す実行内容
- 音声リクエスト1件あたり0.004USD
- テキストリクエスト1件あたり0.00075USD