以下メモ

Polly

テキストを音声に変換するサービス
生成された音声の保存とリプレイ、配信が可能
日本語含む２４の言語をサポート
品質
- デモ
- 「庭には二羽の鶏がいる」も自然なイントネーションで発音
SSML(Speech Synthesis Markup Language)
- 音声の様々な要素をカスタム可能
- 発音、ボリューム、話す速度など
レキシコン(Pronunciation Lexicon Specification)
- 単語とフレーズのマッピングや言語でいっぱん的で無い単語の発話
- デモ
  - jの発音のカスタマイズ
  - W3Cを正式名称で
ユースケース
- 記事を音声に変換してmp3でダウンロード
料金、制限事項
- 最大1500課金対象文字
- 最大５個のレキシコン
- outputは５分に限定
- 100文字あたり4.0USD
- １ヶ月あたり５００万文字１年間無料

深層学習に基づく画像認識サービス
画像の分析機能をアプリケーションに簡単に追加できる
物体とシーンの検出、顔分析、顔照合、顔認識
物体とシーンの検出ーDetectLables API
- 画像中の物体やシーンを検出
- 識別結果を信頼値0-100の値
- ユースケース
  - 不動産物件の検索
顔分析機能ーDetectFaces API
- 画像内の顔の位置を検出し、感情、ポーズ、瞳が開いているかどうかの顔属性を分析できる
- ユースケース
  - 店舗内の顧客印象分析
顔の比較機能 CompareFaces API
- 二つの画像の顔が同一人物であるか、可能性を判定
- ユースケース
  - 社員証の顔画像とカメラでの顔画像を照合したセキュリティ
顔認識機能 IndexFaces/SearchFacesByImage API
- 大規模な顔のコレクションの中から似た顔を持つ画像を検索することができる
- 顔が検出され、切り出される。その顔がベクトル化され保存
- SearchFacesByImage APIで近傍探索
- ユースケース
  - 友人の画像を見つける
Lambdaとシームレスに連携、ブループリントも利用可能
- S3に写真がputされたことをトリガーに呼び出し
1か月5000枚の画像分析12週間無料