読者です 読者をやめる 読者になる 読者になる

Ototoの日記

プログラミングについてや、日々の私生活で思っていることを書いて行きます

Amazon AI (Amazon Polly/Amazon Rekognition/Amazon Lex)

講師:川村誠

Amazon AIのWebinarを受講した。 AmazonのAI Servicesである

  • Polly-テキスト音声変換
  • Recognition-画像識別、認識
  • Lex-Bot構築

の説明があった。 ユースケースに合えば、自前で開発する必要がないので便利

以下メモ

  • AI Servies
  • 昨年のre:Inventで発表
  • AI Platforms
    • AMR,EMR,Spark & Spark ML

Polly

  • テキストを音声に変換するサービス
  • 生成された音声の保存とリプレイ、配信が可能
  • 日本語含む24の言語をサポート
  • 品質

    • デモ
    • 「庭には二羽の鶏がいる」も自然なイントネーションで発音
  • SSML(Speech Synthesis Markup Language)

    • 音声の様々な要素をカスタム可能
    • 発音、ボリューム、話す速度など
  • レキシコン(Pronunciation Lexicon Specification)

    • 単語とフレーズのマッピングや言語でいっぱん的で無い単語の発話
    • デモ
      • jの発音のカスタマイズ
      • W3Cを正式名称で
  • ユースケース

    • 記事を音声に変換してmp3でダウンロード
  • 料金、制限事項

    • 最大1500課金対象文字
    • 最大5個のレキシコン
    • outputは5分に限定
    • 100文字あたり4.0USD
    • 1ヶ月あたり500万文字1年間無料

Amazon Recognition

  • 深層学習に基づく画像認識サービス
  • 画像の分析機能をアプリケーションに簡単に追加できる
  • 物体とシーンの検出、顔分析、顔照合、顔認識

  • 物体とシーンの検出ーDetectLables API

    • 画像中の物体やシーンを検出
    • 識別結果を信頼値0-100の値
    • ユースケース
      • 不動産物件の検索
  • 顔分析機能ーDetectFaces API
    • 画像内の顔の位置を検出し、感情、ポーズ、瞳が開いているかどうかの顔属性を分析できる
    • ユースケース
      • 店舗内の顧客印象分析
  • 顔の比較機能 CompareFaces API
    • 二つの画像の顔が同一人物であるか、可能性を判定
    • ユースケース
      • 社員証の顔画像とカメラでの顔画像を照合したセキュリティ
  • 顔認識機能 IndexFaces/SearchFacesByImage API
    • 大規模な顔のコレクションの中から似た顔を持つ画像を検索することができる
    • 顔が検出され、切り出される。その顔がベクトル化され保存
    • SearchFacesByImage APIで近傍探索
    • ユースケース
      • 友人の画像を見つける
  • Lambdaとシームレスに連携、ブループリントも利用可能

    • S3に写真がputされたことをトリガーに呼び出し
  • 1か月5000枚の画像分析12週間無料

Amazon Lex

  • 音声やテキストを使用して、任意のアプリケーションに対話型インターフェイス(ボット)を構築するサービス
  • 現在はLimited Preview
  • 自動音声認識自然言語理解を利用可能
  • Facebook messagerなどに簡単にパブリッシュ
  • バージョン管理とバージョンに関するAlias設定機能を提供
  • Utterance
    • 会話を始めるフレーズ。正確にintentを起動
  • Slot
    • 必要な変数
  • Prompt
    • 変数を聞き出し制度を上げるための質問
  • Fulfillment
    • intentが必要とするSlotが揃った時に呼び出す実行内容
  • 音声リクエスト1件あたり0.004USD
  • テキストリクエスト1件あたり0.00075USD