さんごー日記。

映画や本やゲームの感想をゆるく記録したり、プログラミングの勉強をゆるく記録するゆるい日記です。

機械学習の初心者がニュース、研究、情報源について調べたまとめ。

ここ最近の機械学習に関するニュースには驚かされる。商用利用で上手くいっているケースが特に面白い。

今後10年の生活を変えていく可能性を秘めていると感じています。

今日は機械学習に関する最先端の研究成果や、商用利用の実績等を調べてみます。

私自身、個人的に機械学習にどれだけ興味を持てるのか分からないので、調べながら自分がやっていきたい事のイメージを膨らませていければ思っています。

あんまり読みやすくは書いてません。

 

 

 

研究成果について

画像からキャプションを自動生成する

人工知能学会のWeb記事を読ませて頂きました。

私のブックマーク 視覚と自然言語の融合研究(Integrating Vision and Language)牛久祥孝(東京大学)

https://www.ai-gakkai.or.jp/my-bookmark_vol32-no1/

 

写真をプログラムに読み込ませて、その写真を説明する文章を自動生成するという技術が研究されています。

東大の牛久祥孝という方の発表スライドがあります。

画像キャプションの自動生成

 

画像にどんな物が写っているかをどのように認識するのか。

認識した複数の物体の関連をどのように判断するのか。

といった所が課題のようです。

以下のサイトで、写真のURLを貼ると説明文を自動生成するデモを試す事ができます。たいていの写真は適切な説明を返してくれるので驚きます。英語ですが。

CaptionBot - For pictures worth the thousand words

 

他にも動画からキャプションを生成したり、キャプションから画像を生成する、画像に関する質問の答えを生成するなど、画像と文章に関する研究が様々行われているようです。

これだ商用に利用されるとしたらどんな領域なんだろ。 

 

音声認識・画像認識の動向

CiNii 論文 -  音声認識・画像認識における機械学習の最近の動向(<総合特集>深化する機械学習-技術の進展とその応用)

データの収集

最近の音声認識技術の向上は、スマホアプリ経由で大量の音声データをクラウド上に蓄積できるようになった事が影響しているとの事。

昔は音声データのサンプルを人力で頑張って集めてデータベースを作っていたそうなのだが、それも限界にきていたが、その課題はスマホアプリユーザーから集めるという方法で解決したのだとか。

会議の録音データの収集は衆議院でも運用されていて、会議の記録から音響モデルの学習ができるようになっている。

 

画像認識の為のデータモデルも発展を続けていて、1996年頃には黒い背景に単一の物体を写したCOIL-100というデータセットを使っていたが、 2015年の時点ではImageNetという高解像度の自然な画像のデータセットが作られており、データ数は1,000万以上となっている。

画像の選別はクラウドソーシング(Amazon Mechanical TUrk)を使って人間の手によって行われたとの事。

この辺りから専門用語がいろいろ出てきて前提知識無しに読むのはキツくなってくる。

 

音声識別

ニューラルネットワークの研究は1990年頃も盛んだったが、主流は「混合正規分布(GMM)に基づく隠れマルコフモデル(HMM)」だった。

それが近年(2017年現在)ではディープラーニングの発展により再びニューラルネットワークが注目されている。

 

音素識別という技術があり、これにはディープラーニングだけを使うわけではなく、混合正規分布や隠れマルコフモデルというのも組み合わせて使われている。

音声認識に用いられている複数の手法について書かれているが、自分にはまだまだ理解できない所が多かった。

ロジスティック回帰、ハイパボリックタンジェント、トライフォンモデルなどなど、分からない言葉が多い。

次はこのあたりの言葉一つひとつについて調べていこうかな。

 

音声識別の為に様々な技術要素がある。

  • 音声識別をしながら次に現れる単語を予測
  • 雑音を除外するフィルタ技術
  • 話者や環境に応じて最適化する技術

これの技術が高度化していくにつれて機械と人間の自然な対話が実現されていくのでしょう。

 

画像認識

画像認識はディープラーニングで飛躍的に発展しました。

資料ではコンボリューショナル・ニューラルネット(CNN)について少し詳しく説明されていますが、この説明も自分にはさっぱり分からんかった。

シグモイト関数やハイパボリックタンジェントという言葉は音声認識でも出てきたので被る要素から覚えた方が良さそう。

 

動画の特徴抽出も基本的には画像認識と同じで、各フレームごと画像に対して特徴抽出をしているというのが現状との事。(2015年時点)

 

サイバー攻撃検知の研究

公開されている文書があったので読んでみました。

CiNii 論文 -  サイバーセキュリティにおける非構造化データストリームのオンライン学習と攻撃検知(<総合特集>深化する機械学習-技術の進展とその応用)

 

ビッグデータを元に攻撃を検知しようという発想自体は単純な物ですが、いざやろうとするとなかなか難しい問題だろうと思います。

スパムメールの学習元のデータの収集方法等が提案されています。

ステミング、TF-IDFとL1−SVM等といった聞きなれない用語も出てきたので、意味は押さえておきたい所。

セキュリティに関する専門知識も無いと読みずらいですが、勉強になります。

 

NICTがウェブサイトが悪質な物かどうかを判定するクライアントソフトを開発しているとか。

トレンドマイクロも似たコンセプトのウェブサービスを公開しています。

怪しいメールが届いたらここでリンク先の危険性をチェックしてみるというのも良いかも。

Trend Micro Site Safety Center

 

DDoS攻撃の検知も研究されています。DoS攻撃は検知が難しそうですが、ダークネットと呼ばれるホスト未割当のIPアドレス空間の監視を行う事で攻撃を予測できるというもの。

ダークネットという名前がかっこいい。

この辺りの研究のおかげなのか、DDoSを検知してウェブサイトを保護するといった類のサービスも出てきています。 

 

 

商用利用

気になった最近の商用利用例を見ていく。

まだまだ流行るか分からない物もあります。

 

屋内外問わずGPSで子どもの見守り ー Jiobitが300万ドルを調達 | TechCrunch Japan

位置情報を親に伝える仕組みは今までにもありましたが、精度が良くなかったとこの事。

この機械の特徴としては、子供の活動範囲を機械学習によって自動的に割り出すといった所らしい。 

 

ドラえもん? このネコ風ロボットは、人と雑談し、文脈に沿った返しもできる─ドコモなど開発 - Engadget 日本版

自然な会話ができるロボットとの事ですが、これが人の生活を変える事につながっていくようにはまだまだ感じられません。

AIの活用としてはあまり上手く方法ではない感じがします。

あくまで個人的な感想ですが。

 

さらば巨大工場 3Dプリンターで車から靴まで :日本経済新聞

ワシントンでは自動運転の無人バスが既に走っている。車体は3Dプリンタで作られているとか。新素材の炭素繊維強化樹脂の成せる業です。

軽くて丈夫な炭素繊維強化樹脂は旅客機への利用も進められています。

オフィスでのコミュニケーションにAIを活用する富士ゼロックスの事例などが記事で紹介されています。

 

講談社、女性誌コンテンツとAI技術を組み合わせた新メディア開発へ | 財経新聞

「まったく新しいコンピレーションメディア」の開発に着手したとの事ですが、今までのニュースサイトやキュレーションサイトと何が違うのか全く分からないニュース。

「コンテンツの付加価値を高めることを目的として、AI(人工知能)を積極的に活用」とありますが、これもどんなふうにAIが活用されるのかさっぱり分からない。

続報に期待しておきます。

 

政治

「稼ぐ力」高める企業統治改革 未来投資会議で首相、制度整備を指示 - SankeiBiz(サンケイビズ)

日本の企業の「売上高営業利益率(ROS)」を上げる為の戦略の中核として、AI等の先端技術と既存技術を融合して社会の利便性を高める「ソサエティー5.0」の実現を目指すとのこと。

ソサエティー5.0という言葉は初めて聞いた。

内閣府の科学技術基本計画の中で出てくる言葉です。またの機会に詳しく調べてみます。

 

科学技術基本計画 - 科学技術政策 - 内閣府

要するに「ITを活用しためちゃくちゃ快適な社会」という事と解釈しています。

アメリカがリードしていますが、日本の企業が勝てる仕組みをどのように作っていくかが国としての課題となっていくかと思います。 

 

 

情報源

人工知能学会

https://www.ai-gakkai.or.jp/

 

視覚と自然言語の融合研究(Integrating Vision and Language)

https://www.ai-gakkai.or.jp/my-bookmark_vol32-no1/

牛久祥孝(東京大学)という方の人工知能の研究の紹介記事を楽しく読ませて頂きました。

視覚と自然言語の融合研究(Integrating Vision and Language)

  • 画像からキャプションを自動生成する
  • 動画からキャプションを自動生成する
  • 画像と質問に対して、応答を自動生成する
  • キャプションから画像を自動生成する
  • 画像と文章から翻訳する

 

画像のURLを与えると、それに応じたキャプション(説明文)を自動生成してくれます。

説明自体が面白いわけではありませんが、こんな事ができるんだーという驚きはあります。ちょっと遊べます。

CaptionBot - For pictures worth the thousand words

 

人工知能学会の学会誌の表紙に謎が仕込んで合って、1年かけておっていくという遊びになっているらしい。凝った事してるけど見てる人どれだけいるのかな。

https://www.ai-gakkai.or.jp/announcement_20170112-2/

 

人工知能学会論文誌

人工知能学会論文誌

 

「特集「編集委員今年の抱負2017」にあたって」

人工知能学会 AI書庫(アイショコ) [旧:未来メディア実験館]

 

学会誌の一部は無料公開されているので読んでみました。

ドワンゴの「山川宏」という方の文章。

ここからは日本論文検索サイトといった情報源や、その中でこの方が面白いと感じた論文が紹介されていました。自分もまずはこのリンクを辿っていろいろ見ていこうと思います。

 

「特集「Well-being Computing」にあたって」

人工知能学会 AI書庫(アイショコ) [旧:未来メディア実験館]

「Well-being Computing」という言葉は初めて見ました。「幸福コンピューティング」といった所ですか。

肉体・精神両面の健康とコンピューター技術を使って高めていくといったようなテーマのようです。

「Well-being Computing」に関する論文がいくつか紹介されていました。

睡眠関する研究(入眠をサポートするシステムなど)、遺伝子を用いた幸福感の研究などが紹介されていました。7つ紹介されてました。

 

ロンドンにサバティカルで一年間行ってきました ─家賃と研究室とEU 国民投票─

人工知能学会 AI書庫(アイショコ) [旧:未来メディア実験館]

サバティカルというのは大学でよくある研究休暇のこと。

その実態を読める、部外者にとっては貴重なお話しかと思います。

それにしてもだいぶラフな文章。

ロンドンの賃貸マンションの家賃が高いとかそういう話。

イギリスの大学の研究室には学生が居ないというお話。日本との違いです。

お金をもらって働く人しか居ないんだと。

だから世界中から優秀な人が集まる。この方も書いてるように、お金を払って研究している日本の学生とはレベルに差がついて当然。

自分が見てきた大学生達も、やっぱり子供って感じだったもんな。

この方の研究所では給料を払って学生を募集しているとか。

ディベートの文化が重要視されており、国会中継も面白いとか。

国際的に戦う力をつけていくためにもサバティカルは国として重要な事と捉えているようです。

この考え方には大賛成ですが、おそらく現場の感覚では賛成できても、運用の立場の人にとっては遠い話なので響かないでしょう。

そして、現場の人はいちいち組織に働きかけるのは好きじゃない人が多い。このため進歩はするにしても、ゆっくりになってしまうだろうな。

 

AINOW

人工知能に特化したキュレーションメディア:AINOW

このキュレーションメディアが情報源としているのは以下のサイトのようです。

これらのサイトからAIに関係していそうな記事をピックアップしてリンクを集めているようです。

地方新聞の記事までカバーしているとは思わなかった。

AINOWの記事分類事態もAIで行っているとの事。自動で記事を集めて分類する事で多くのサイトのキュレーションができているって事か。

わりと雑多にいろいろ集めている感じなので、ここにある記事ばかり読んでいても時間を浪費してしまいそうです。

このメディア自体には独自性のある記事は少なさそうなので、インタビュー記事等がもっと増えると良いなーと思います。

 

 

まとめ・感想

簡単にまとめただけですが、これだけでも資料を読むのにだいぶ時間がかかってしまった。

分からない事が多かったですが、今後のために感想など少し整理しておきます。

 

知識不足

研究成果と商用利用の例を薄く調べてみましたが、それぞれの関連性についてはまだ見えてきませんでした。

商用利用の例を見ても、その裏で具体的にどのような技術が使われているかイメージできない為です。

これは私自身の知識不足、経験不足の為かもしれません。

商用利用のニュースからアイデアの種を探しつつ、個人で作れる物のアイデアを詰めていかねばと思いました。

 

機械学習と他の技術の組み合わせが重要になる

最近のニュースを見ていると、AIの利用によって全く想像もできない事が起きるというよりは、既存技術の組み合わせが次々に出てきているという印象です。

それぞれの技術は目新しい物ではなく、機械学習という部品が一つ増えたから、既存の製品やサービスに組み込んでいってるという感じ。

機械学習に目を向けつつも、それと組み合わせる事ができる既存記述に関しても情報収集していかねばと感じました。

 

個人で多くの人に使ってもらえる物を作るには

私は研究者ではなく、物を作るのが好きなだけの人なので、使える技術を使って何を作るかが重要です。

そして出来るだけ多くの人に使ってもらう事が大事です。

しばらくは会社勤めではなく個人で活動しようと思っているので、使えるリソースやインフラは限られています。

となると、AIと組み合わせられるものはWebかスマホアプリに限定されてきます。

このWebとスマホという二つの要素に関しても、最近はアプリケーションを作るのが非常に簡単になってきています。

しかしリソースを節約するための技術を覚える時間が少しだけ必要です。

そっちの勉強もしなきゃなと思いました。

これが会社勤めしているといろいろと障害になる事があって、外部のサービスを使おうとすると抵抗する人たちが意外と多いです。

 個人であれば、他人とのしがらみに悩むことなくいろいろ試せて良いと考えています。

 

分からない専門用語も多い

ニュース記事程度なら問題無いが、研究記事等を読んでいると専門用語も多く出てくるのできちんと理解するには時間がかかってしまう。

このあたりは勉強のし甲斐がある所です。

 

 読んだ本

私が人工知能に関して読んだ本は今のところこの一冊のみです。

はじめての人工知能 Excelで体験しながら学ぶAI

はじめての人工知能 Excelで体験しながら学ぶAI

 

 ニューラルネットワークやパーセプトロンといった言葉の大まかな概念はこれで分かったと思います。

多少プログラミングを経験したことある人におすすめ。

 

 

今回は以上です。

またよろしくお願いいたします。