SSブログ
お知らせ

 当ブログは、ブログに割当てられたディスク容量が満杯になったため、2017年1月8日に、続ブログへ移転しました。

 【移転先】
  続・Emi Clockは、どうなったの?
  https://yuna-k.blog.ss-blog.jp/


  RSSフィード
  https://yuna-k.blog.ss-blog.jp/index.xml

※ 60秒後に自動的に続ブログへ移動します。

Microsoft LUISの日本語 自然言語理解を試してみた [チャットbot]

2016年9月24日(土曜)

きょうの横浜は、[雨]雨でした。
雨のため、ポケモンの巣へ出かけての、ポケモン GOが出来ず、課金で 600個持てるように拡張したアイテムボックスが、モンスターボールなどで満杯になり、追加課金で 1,000個持てるように拡張を検討中です。

― ― ― ― ― ― ― ― ― ―
[MS LUISの日本語 自然言語理解 試行]
雨の日のお約束で、ひきこもりで、PCと戯れていました。

ところで、AI が人工知能っていうことは、誰でも知っています。
でも、なんとなく、安易に、広い意味で、AIって言っていませんか?!
Microsoft LUISの日本語 自然言語理解を試してみた
Wikipediaによれば、『人工的にコンピュータ上などで人間と同様の知能を実現させようという試み、或いはそのための一連の基礎技術を指す。』とあります。
狭義には、スターウォーズに登場する、R2-D2や C-3POのようなロボットを実現する技術ですが、広義には、以下もひっくるめて、AIと呼んでいますよね。

近頃、Googleなどの検索エンジンが、ずいぶん、「かしこく」なっていますよね。
あるいは、スパムメールをブロックするフィルターも、すごく「かしこく」なっていて、ほとんどスパムメールが届かないようになりました。
これらは、機械学習(Machine Learning)という手法を使って、「かしこく」なっています。
Wikipediaによれば、『人工知能における研究課題の一つで、人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする技術・手法のことである。とあります。
実用域に入っているのは、AIのひとつの分野である、機械学習が進歩した成果です。

最近の流行は、ディープラーニング(Deep Learning, 深層学習)です。
Wikipediaによれば、『多層構造のニューラルネットワーク(ディープニューラルネットワーク)を用いた機械学習である。』とあります。
この説明では、何のことやら、わかりませんよね。
機械学習の、ひとつの分野ですが、機械が学習したデータから特徴点を抽出することを特徴としています。
たとえば、音声認識や、画像認識などが分かりやすい例です。
街頭に設置された監視カメラの画像から、特定の人物や物体を認識することができるのも、このおかげです。

 ・ ・ ・ ・ ・ ・ ・ ・ ・
とまぁ、前置きは、釈迦に説法だったかと思いますが、ご存じない方のために書かせていただきました。
さて、今年ブレークしそうな、チャットBotですが、これを自然な形で実現するには、日本語の自然言語理解が一役買っています。
いわゆる、コマンド=命令を入力するのではなく、人間同士で会話するような自然な日本語の文で質問したり、命令したりすることができるからです。
たとえば、LINEや、Skype(今は、Lync)で、「お母さんに、7時に帰るって、メールして。」とチャットすると、メールを飛ばしてくれる、といった感じです。

いよいよ本題ですが、そういった日本語自然言語理解(Natural language understanding, NLU)を、機械学習で実現するサービスが、MicrosoftのAzure上でLUIS(Language Understanding Intelligent Service)として、ベータ版が使えるようになっています。
LUISが日本語に対応したことは、9月11日のブログ記事で取り上げています。
このときは、組み込みエンティティがなかったので、がっかりだったのですが、エンティティは、自分で定義できますので、インテント(意図)と、エンティティ(識別物のようなもの)を定義して、機械学習させて、能力を試してみました。

課題は、9月4日のブログ記事で取り上げた、飲み会などのイベント計画Botに、LUISが使えるかを試すことです。
例文は、
「 X月X日に、AAAAでBBBBをやりたい。」
です。
まず、この文のパターン=イベントの計画(ここでは、PartyPlan)を、インテントに設定します。
次に、いつ(Date)、どこで(Place)、何の会か(Event)を、エンティティとして定義します。
Microsoft LUISの日本語 自然言語理解を試してみた
ここまでは、簡単です。
この次からが、機械学習の苦行です。
さまざまな例文をLUISに入力し、LUISが識別できない語を、各エンティティに、手作業で、ひとつづつ、色分けしていきます。
最初は、ほとんど何も識別できませんが、例文を増やして、機械学習を積み重ねると、少しづつ、認識率が上がっていきます。
Microsoft LUISの日本語 自然言語理解を試してみた
ここでは、5種類の例文を機械学習させています。
きれいに色分けされていますが、LUISが 自動認識したものではなく、人間が、手作業で、文字列を選択して、各エンティティに色分けしたものです。
LUISは、いちばん最初に、日付(Dateエンティティ)を識別できるようになり、その次に、何の会(Eventエンティティ)をたまに識別できるようになりましたが、場所(Placeエンティティ)は、日本全国の飲食店名を100%識別できるはずもなく、ほとんど認識できませんでした。

そして、機械学習の成果を試すために、以下の文を入力し、LUISの解析結果を調べました。
「9月24日に、アンナミラーズで祝勝会をしたい。」
結果は、以下の通りです。
Microsoft LUISの日本語 自然言語理解を試してみた
この文のパターンが、イベントの計画(PartyPlan)であることは、高確率で当てています。
でも、エンティティを認識できたのは、「9月24日」が日付(Dateエンティティ)であることだけで、他の 2つのエンティティ(Place=アンナミラーズ、Event=祝勝会)は認識に失敗しました。
たぶん、100種類ぐらい?!、例文をいれたら、認識率が上がるんでしょうね。
そんな苦行をやっても、100%認識できる保証がないです。
飲食店名をDBに持って、形態素解析した結果でインデックスを引いて識別するのと、どっちが実用的なんでしょうねぇ・・・

[MS Bot Framework 関連ブログ]
Microsot Bot Framework 3.0で 簡単にbotが作れる!
Microsot Bot Framework 3.0 と MeCabで なんちゃってbotを作る
Microsot Bot Framework 3.0で もっとbotぽいbot試作
Microsot Bot Framework 3.0で LUISが使えず 自作のIRC会話bot移植
Microsot Bot Framework 3.0で 最新のニュースを取得するbotを作る
Microsot Bot Framework 3.0で ニュースbot公開途中でエラーのち成功
Microsot Bot Framework 3.0で ニュースbotフィジビリティスタディ終了
Microsoft LUISの日本語 自然言語理解を試してみた

― ― ― ― ― ― ― ― ― ―
[追伸]
夕方、川崎ルフロンのヨドバシカメラへ、iPhone 7 Plusのガラスフィルムを買いに行き、帰りに、ラゾーナ川崎のフードコートで、親子丼を食べてきました。
親子丼
広義のAIでは、囲碁のチャンピオンに勝ったとか、自動運転で目的地へ行けるだとか、ニュースが多くなってきていますし、IBMのWatsonのように、何百万もの資料を学習してクイズ王に勝つ知識を得るには、それなりの手間ひまがかかりますね。

nice!(107)  コメント(10) 
共通テーマ:趣味・カルチャー

nice! 107

コメント 10

アニ

美味しそうな親子丼ですね^_^
by アニ (2016-09-25 01:37) 

kinkin

AIも開発が進んでいますね、自然な応答が出来るようになるまでは時間がまだまだかかる感じですね。
親子丼美味しそう・・・
by kinkin (2016-09-25 05:23) 

oko

昨日は雨の止み間に近所で
フシギダネ捕獲しました♪
先日、赤レンガあたりに行ったのですが
また行きたいです♪
by oko (2016-09-25 12:25) 

なんだかなぁ〜!! 横 濱男

この間、なか卯の390円親子丼を食べました。
味はそれなりでした。。(^0^)
by なんだかなぁ〜!! 横 濱男 (2016-09-25 13:36) 

夏炉冬扇

親子どんぶりの世界しかわからない…
by 夏炉冬扇 (2016-09-25 18:47) 

ヨッシーパパ

若い頃は、そういう丼はカツ丼しか食べませんでしたね。
でも、親子丼の美味しさも最近分かってきました。(^_^)
by ヨッシーパパ (2016-09-25 18:56) 

とし@黒猫

> アニ さん
フードコートなんですが、名古屋コーチンを使っていて、美味しいんですよ。

> kinkin さん
この分野では、IBMのWatsonを超えるものは、商用では見たことがありませんし、検索エンジンだと、Googleがナンバーワン!
そんなに簡単に 実用レベルの機械学習ができるほど甘くはないですよ。
MicrosoftのTwitter Botは、不適当な学習をして、停止に追い込まれていますしね。

> oko さん
フシギダネは、300匹ぐらい、ゲットしました・・・
今は、3段階進化のレアなポケモン進化の苦行中です。

> なんだかなぁ〜!! 横 濱男 さん
なか卯、安いのに、なかなか美味しいですよね。

> 夏炉冬扇 さん
大丈夫です。
IT関係者でも、この分野が得意なのは、500〜1,000人に1人いるかいないかだと思います。

> ヨッシーパパ さん
ロースカツ丼、美味しいんですよね。
でも、カロリーを考えると、親子丼で・・・
by とし@黒猫 (2016-09-25 19:18) 

みずき

コンシェルに「今日の天気は」って聞いて
検索結果が出るのも、この技術なんですね?

スマホ交換では、データが古い方に残ったまま
新しい方が起動され、メールやLINEのデータは
なくなりました・・・
by みずき (2016-09-25 22:58) 

とし@黒猫

> みずき さん
iコンシェルや、Siriなどは、機械学習の成果ですね。
メールが消えたってことは、ドコモ(端末にはメールを保存せず、クラウドに保存)じゃなかったんですね。
LINEは、Android同士なら、完全に移行できます(実際、自分でやったことがあります)ので、残念ですね。
by とし@黒猫 (2016-09-25 23:55) 

とし@黒猫

********************
Microsoft LUISの日本語 自然言語理解を試してみた の
ブログ記事に、コメントをいただきまして、
ありがとうございました。
********************
by とし@黒猫 (2016-09-25 23:57) 

コメントを書く

お名前:[必須]
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

Facebook コメント

caution.gif当ブログ記事は、日本国著作権法および国際法により権利が保護されています。無断で 画面の写真、ハードコピー、その他の二次複製物を無断で使用することは権利の 侵害になりますのでご注意下さい。
This blog post, right has been protected by copyright law and international law. Without permission screen photo of, hard copy, that you use the other secondary copies without permission is a violation of the rights Please note.
- - - - -
All rights reserved. Copyright (C) Motosoft(Toshi At Kuroneko) 2007-2022.

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。