機械学習とは
機械学習は、コンピュータシステムが明示的な指示なしにタスクを実行するために使用するアルゴリズムと統計モデルを開発する科学であり、代わりにパターンと推論を利用します。コンピュータシステムは、機械学習アルゴリズムを使用して、大量の履歴データを処理し、データパターンを識別します。これにより、特定の入力データセットから結果をより正確に予測できます。例えば、データサイエンティストは、何百万ものスキャン画像とそれに対応する診断情報を保存することにより、X 線画像から癌を診断するための医療アプリケーションをトレーニングできます。
機械学習が重要な理由
機械学習は、成長を促し、新しい収益源を開拓し、困難な問題を解決することで、ビジネスを支援します。データはビジネスの意思決定の背後にある重要な原動力ですが、企業は従来、顧客のフィードバック、従業員、財務などのさまざまなソースから得たデータを使用してきました。機械学習の研究は、このプロセスを自動化および最適化します。非常に大量のデータを高速で分析するソフトウェアを使用することで、企業はより迅速に結果を得ることができます。
機械学習の仕組み
機械学習の中心的な考え方の背後には、入力データと出力データの組み合わせの間の既存の数学的関係があります。機械学習モデルはこの関係を事前に認識していませんが、十分なデータセットが与えられているかどうかを推測できます。これは、すべての機械学習アルゴリズムが変更可能な数学関数を中心に構築されていることを意味します。基本的な原則は次のように理解できます。
- アルゴリズムに入力/出力 (i、o) の組み合わせ ((2,10)、 (5,19)、および (9,31)) を与えることにより、アルゴリズムを「トレーニング」します。
- アルゴリズムは、入力と出力の関係を o=3*i+4 のように計算します。
- 次に、入力 7 を与え、出力を予測するように依頼します。アルゴリズムは出力を 25 と自動的に決定できます。
これは基本的な理解ですが、機械学習は、すべての複雑なデータポイントが、そのデータを処理するのに十分なデータと計算能力を備えている限り、コンピュータシステムによって数学的にリンクできるという原則に焦点を当てています。したがって、出力の精度は、指定された入力の大きさに直接関係してきます。
機械学習のユースケースと実際の例
以下、主要産業で機械学習がどのように使われているかをいくつか見てみましょう。
製造
機械学習は、製造業における予知保全、品質管理、革新的な研究をサポートできます。機械学習テクノロジーは、企業がアセット、サプライチェーン、在庫管理などのロジスティクスソリューションを改善するのにも役立ちます。例えば、大手メーカーである 3M は、機械学習を使用してサンドペーパーを革新しています。機械学習アルゴリズムにより、3M は、形状、サイズ、向きのわずかな変化が研磨性と耐久性をどのように改善するかを分析できます。そこから得られた提案は製造工程に反映されます。
ヘルスケアおよびライフサイエンス
ウェアラブルセンサーとデバイスの急増により、大量の健康データが生成されています。機械学習プログラムは、この情報を分析し、リアルタイムの診断と治療で医師をサポートします。機械学習の研究者は、癌性腫瘍を検出し、眼疾患を診断するソリューションを開発しており、人間の健康状態に大きな影響を与えています。例えば、Cambia Health Solutions は機械学習を使用して妊婦の治療を自動化およびカスタマイズしています。
金融サービス
金融の機械学習プロジェクトは、リスク分析と規制遵守の体制を改善します。機械学習テクノロジーにより、投資家は株式市場の動きを分析したり、ヘッジファンドを評価したり、金融ポートフォリオを調整したりすることで、新しい機会を特定できます。さらに、リスクの高いローンの顧客を特定し、不正の兆候を軽減するのに役立ちます。例えば、個人金融会社の NerdWallet は、機械学習を使用してクレジットカード、銀行、ローンなどの金融商品を比較しています。
小売業
小売業は機械学習を使用して、顧客サービス、在庫管理、アップセル、クロスチャネルマーケティングを改善できます。例えば、Amazon Fulfillment (AFT) は、機械学習モデルを使用して配置場所が定かではない在庫を特定することで、インフラストラクチャのコストを 40% 削減します。これにより、毎年何百万もの世界中の貨物を処理しているにもかかわらず、顧客は商品をすぐに利用でき、時間どおりに到着するという Amazon の約束を果たすことができます。
メディアとエンターテインメント
エンターテインメント企業は、ターゲットオーディエンスをよりよく理解し、没入型のパーソナライズされたオンデマンドコンテンツを配信するために、機械学習に目を向けています。機械学習アルゴリズムは、トレーラーやその他の広告のデザインを支援し、消費者にパーソナライズされたコンテンツのレコメンデーションを提供し、さらには制作を合理化するためにデプロイされます。
例えば、Disney は機械学習を使用してメディアライブラリをアーカイブしています。機械学習ツールは、メディアコンテンツに自動的にタグを付け、説明し、並べ替えることで、ディズニーのライターやアニメーターがディズニーのキャラクターをすばやく検索して確認できるようにします。
コンピュータビジョン
コンピュータビジョンは、画像を自動的に認識して正確かつ効率的に記述する技術です。今日、コンピュータシステムは、スマートフォン、交通カメラ、セキュリティシステム、およびその他のデバイスから多くの画像や動画にアクセスできます。コンピュータビジョンアプリケーションでは、機械学習を使用してこのデータを正確に処理し、オブジェクトの識別や顔認識、分類、推奨、監視、検出を行います。
例えば、CampSite は、夏のキャンプ向けの主要なソフトウェアプラットフォームです。同社のキャンプでは毎日何千枚もの画像がアップロードされて、親に子供のキャンプ体験が伝わるようになっています。キャンピングカーの写真を見つけることは、両親にとって時間と労力のかかる作業になりました。CampSite は機械学習を利用して画像を自動的に識別し、お子様の新しい写真がアップロードされたときに保護者に通知します。
機械学習アルゴリズムの種類
アルゴリズムは、期待される出力と入力タイプに応じて、4 つの異なる学習スタイルに分類できます。
- 教師あり機械学習
- 教師なし機械学習
- 半教師あり学習
- 強化機械学習
1.教師あり機械学習
データサイエンティストは、相関を評価するために、ラベル付けされたトレーニングデータと定義されたトレーニングデータをアルゴリズムに提供します。サンプルデータは、アルゴリズムの入力と出力の両方を指定します。例えば、手書きの図の画像には、対応する番号を示す注釈が付けられています。教師あり学習システムは、十分な例があれば、各番号に関連付けられたピクセルと形状のクラスターを認識できます。最終的には手書きの数字を認識し、9 と 4 または 6 と 8 の数字を確実に区別します。
教師あり学習の強みは、設計の単純さと容易さです。これは、限られた結果のセットを予測したり、データをカテゴリに分割したり、他の 2 つの機械学習アルゴリズムの結果を組み合わせたりする場合に役立ちます。ただし、何百万ものラベルなしデータセットにラベルを付けることは困難です。これをもう少し詳しく見てみましょう。
データラベリングとは
データラベリングは、入力データを対応する定義済みの出力値で分類するプロセスです。教師あり学習には、ラベル付きのトレーニングデータが必要です。例えば、何百万ものリンゴとバナナの画像に「リンゴ」または「バナナ」という単語でタグ付けする必要があります。 次に、機械学習アプリケーションはこのトレーニングデータを使用して、果物の画像が提示されたときに果物の名前を推測できます。ただし、何百万もの新しいデータにラベルを付けることは、時間のかかる困難な作業になる可能性があります。Amazon Mechanical Turk などの Crowd 作業サービスは、教師あり学習アルゴリズムのこの制限をある程度克服できます。このサービスにより、世界中に広がる手頃な労働力の大規模なプールを利用でき、データの取得にまつわる難しさを軽減します。
2.教師なし機械学習
教師なし学習アルゴリズムは、ラベルのないデータをトレーニングします。このアルゴリズムは新しいデータをスキャンし、入力と所定の出力の間に意味のあるつながりを確立しようとします。パターンを見つけてデータを分類できます。例えば、教師なしアルゴリズムは、さまざまなニュースサイトのニュース記事を、スポーツ、犯罪などの一般的なカテゴリにグループ化できます。アルゴリズムは自然言語処理を用いて、記事の意味と感情を理解することができます。小売業では、教師なし学習によって顧客の購入パターンを見つけ、顧客はバターも購入する場合、パンを購入する可能性が最も高くなるといったデータ分析結果を示せます。
教師なし学習は、パターン認識、異常検出、およびデータをカテゴリに自動的にグループ化するのに役立ちます。トレーニングデータはラベル付けを必要としないため、設定は簡単です。このようなアルゴリズムを使用して、データをクリーンアップおよび処理して、さらに自動的にモデリングすることもできます。この方法の欠点は、正確な予測ができないことです。また、特定のタイプのデータ結果を個別に選択することはできません。
3.半教師あり学習
名前が示すように、この方法は教師あり学習と教師なし学習を組み合わせたものです。この手法では、システムをトレーニングするために、少量のラベル付きデータと大量のラベルなしデータを使用することになります。まず、ラベル付けされたデータを使用して、機械学習アルゴリズムを部分的にトレーニングします。その後、部分的にトレーニングされたアルゴリズム自体が、ラベルなしデータにラベルを付けます。このプロセスは、疑似ラベル付けと呼ばれています。次に、モデルは、明示的にプログラムされることなく、結果のデータミックスで再トレーニングされます。
この方法の利点は、大量のラベル付きデータを必要としないことです。人間が読んだりラベルを付けたりするには時間がかかりすぎる長文ドキュメントなどのデータを処理する場合に便利です。
4.強化学習
強化学習は、アルゴリズムが実行する必要のあるさまざまなステップに報酬値を付加する方法です。したがって、モデルの目標は、できるだけ多くの報酬ポイントを蓄積し、最終的に最終目標に到達することです。過去 10 年間の強化学習の実用的なアプリケーションのほとんどは、ビデオゲームの領域にありました。最先端の強化学習アルゴリズムは、古典的および現代的なゲームで印象的な結果を達成しており、多くの場合、人間が行えることを大幅に上回っています。
この方法は、不確実で複雑なデータ環境で最適に機能しますが、ビジネスコンテキストで実装されることはめったにありません。それは明確に定義されたタスクには効率的ではなく、デベロッパーのバイアスが結果に影響を与える可能性があるからです。データサイエンティストが報酬を設計するとき、報酬が結果に影響を与える可能性があります。
機械学習モデルは決定論的?
システムの出力が予測可能である場合、それは決定論的であると言われます。ほとんどのソフトウェアアプリケーションは、ユーザーのアクションに予測どおりに応答するため、「ユーザーがこれを行うと、それを取得する」と言うことができます。 ただし、機械学習アルゴリズムは、経験を積みながら観察を通じて学習します。したがって、それは本質的に確率論的です。ステートメントは、「ユーザーがこれを行うと、X% の確率でそれが発生する」というように変更されます。
機械学習では、決定論は上記の学習方法を適用する際に使用される戦略です。教師あり、教師なし、およびその他のトレーニング方法は、ビジネスの望ましい結果に応じて決定論的にすることができます。調査の質問、データの取得、構造、およびストレージの決定により、決定論的戦略と非決定論的戦略のどちらを採用するかが決まります。
決定論的アプローチと確率論的アプローチ
決定論的アプローチは、収集されるデータの精度と量に重点を置いているため、不確実性よりも効率が優先されます。一方、非決定論的 (または確率論的) プロセスは、チャンスファクターを管理するように設計されています。組み込みツールは機械学習アルゴリズムに統合されており、学習および観察中の不確実性を定量化、識別、および測定するのに役立ちます。
深層学習とは
深層学習は、人間の脳をモデルにした機械学習手法の一種です。深層学習アルゴリズムは、人間が使用するものと同様の論理構造でデータを分析します。深層学習は、人工ニューラルネットワークと呼ばれるインテリジェントシステムを使って、情報をレイヤーで処理します。データは、入力層から複数の「深く」隠れたニューラルネットワーク層を通って流れてから、出力層に到達します。追加の隠れた層は、標準の機械学習モデルよりもはるかに優れた学習をサポートします。
人工ニューラルネットワークとは
深層学習層は、人間の脳のニューロンのように動作する人工ニューラルネットワーク (ANN) ノードです。ノードは、ハードウェアとソフトウェアの組み合わせにすることができます。深層学習アルゴリズムの各レイヤーは、ANN ノードで構成されています。各ノード、つまり人工ニューロンは別のノードに接続し、値番号としきい値番号が関連付けられています。ノードは、アクティブ化されると、その値番号を入力として次のレイヤーノードに送信します。出力が指定されたしきい値を超えている場合にのみアクティブになります。それ以外の場合、データは渡されません。
コンピュータビジョンとは
コンピュータビジョンは、深層学習の実際のアプリケーションです。人工知能がコンピュータに考えることを可能にするのと同じように、コンピュータビジョンは、コンピュータが見て、観察し、応答することを可能にします。自動運転車は、コンピュータビジョンを使用して道路標識を「読み取り」ます。車のカメラが看板の写真を撮ります。この写真は、車内の深層学習アルゴリズムに送信されます。最初の非表示レイヤーはエッジを検出し、次のレイヤーは色を区別し、3 番目のレイヤーは標識のアルファベットの詳細を識別します。アルゴリズムは、標識が STOP と表示されることを予測し、車はブレーキ機構をトリガーして応答します。
機械学習と深層学習は同じですか?
深層学習は機械学習のサブセットです。深層学習アルゴリズムは、機械学習アルゴリズムの洗練された数学的に複雑な進化と見なすことができます。
機械学習と人工知能は同じですか?
簡単な答えはノーです。機械学習と人工知能 (AI) という用語は同じ意味で使用される場合がありますが、同じではありません。人工知能は、機械をより人間らしいものにするために使用されるさまざまな戦略と技術の総称です。AI には、Alexa のようなスマートアシスタントから、ロボット掃除機や自動運転車まで、あらゆるものが含まれます。機械学習は、人工知能の他の多くの分野の 1 つです。機械学習は AI ですが、すべての AI アクティビティを機械学習と呼ぶことはできません。
機械学習とデータサイエンスは同じですか?
いいえ、機械学習とデータサイエンスは同じではありません。データサイエンスは、科学的アプローチを使用してデータから意味とインサイトを抽出する研究分野です。データサイエンティストはデータ分析にさまざまなツールを使用しており、機械学習はそのようなツールの 1 つです。データサイエンティストは、ビジネスモデル、ドメイン、データ収集などのデータの全体像を理解していますが、機械学習は生データのみを処理する計算プロセスです。
機械学習の長所と短所
機械学習でできることとできないことをいくつか見てみましょう。
機械学習モデルの利点:
- 人が見逃す可能性のあるデータの傾向とパターンを特定できます。
- セットアップ後、人の介入なしで作業できます。例えば、サイバーセキュリティソフトウェアの機械学習では、管理者の入力なしでネットワークトラフィックの不規則性を継続的にモニタリングおよび特定できます。
- 結果は時間の経過とともにより正確になる可能性があります。
- 動的で大量の複雑なデータ環境でさまざまなデータ形式を処理できます。
機械学習モデルの欠点:
- 初期トレーニングは、費用と時間のかかるプロセスです。十分なデータが利用できない場合、実装が難しい場合があります。
- ハードウェアを社内でセットアップする場合、これは計算集約型のプロセスであり、多額の初期投資が必要になります。
- 専門家の助けなしに結果を正しく解釈し、不確実性を排除することは難しい場合があります。
Amazon の機械学習はどのように役立つか?
AWS は、機械学習をすべてのデベロッパー、データサイエンティスト、ビジネスユーザーの手に委ねています。 Amazon Machine Learning サービスは、ビジネスニーズを満たすために、高性能で費用効果が高くスケーラブルなインフラストラクチャを提供します。
使用し始めたばかりの場合
AWS DeepRacer、AWS DeepComposer、AWS DeepLens などの教育用デバイスを使って機械学習を学びましょう。
既にデータアーカイブがある場合
組み込みのデータラベリングワークフローには、動画、画像、テキストをサポートする Amazon SageMaker Data Labeling を使用します。
既に機械学習システムがある場合
バイアスを検出するには Amazon SageMaker Clarify を使用し、パフォーマンスをモニタリングおよび最適化するには Amazon SageMaker Debugger を使用します。
深層学習を実装したい場合
大規模な深層学習モデルを自動的にトレーニングするには、Amazon SageMaker Distributed Training を使用します。 無料アカウントにサインアップして、今日から機械学習のジャーニーを始めましょう。