【春学期】
今日はガイダンスということで、この1年をかけて、この講義で何をするかについて概説しました。まずは自然言語処理を使って診療録に対してどのようなタスクができるのか(しているのか)の概要をつかむために解説記事「電子カルテからの自然言語解析」を読みました。今回はガイダンスも兼ねていたので、「Abstract」、「はじめに」、そして「1.医療分野での自然言語処理」まで読んだところで時間切れになりました。続きは次回です。また、この解説記事に掲載されている参考文献の中で、自分の研究に関係するものや、たとえ関係しなくとも興味を持ったものをどれか一つ選んで、Abstractだけでもよいから読んで発表することを提案しました。これは次回までというのではなく、この解説記事を読み終えた後でのみなさんへの課題です。こうして現実の問題で自然言語処理がどのように活用されているかをある程度知ったうえで、今度はその原理である理論的なところを書籍「ディープラーニングAIはどのように学習し、推論しているのか」を輪読して学習していきたいと考えています。そして、最終的には書籍「BERTによる自然言語処理入門: Transformersを使った実践プログラミング」を使って、実際にPythonのプログラムを作れるまでになれば理想的だと考えています。
今日は前回から読み始めた解説記事「電子カルテからの自然言語解析」の続きで「2.深層学習による医療テキスト解析」を読みました。今回学んだ重要な概念は「分散表現」です。コンピュータは究極的には数値計算しかできないので言語のようなシンボルの処理は苦手です。したがって自然言語で記述されたカルテの内容を「理解」して有益な情報を抽出するためには何らかの方法で言語を数値化する必要があります。その一つの方法が深層学習を用いた分散表現です。これは、大量のテキストを学習して用語概念の「意味」をベクトルとして自動獲得する手法です。この手法を最初に衝撃的に示したのがWord2Vecで、2013年にMikolovによって提案されました。分散表現を用いれば画像や検査値など種類の異なるデータを組み合わせた「マルチモーダル学習」が可能となり、2018年にはGoogleの研究者らが前処理をすることなくカルテの情報から複数のアウトカムを高精度に予測できることを示す論文を発表しました。この研究では、テキストに含まれる語あるいは短い表現が、他の検査値と同様に分散表現ベクトルに変換され、「文章」としての意味性は重要視されず、自然言語処理というよりもむしろ単なる時系列処理という側面が前面に出ています。
今日も解説記事「電子カルテからの自然言語解析」の続きで「3.医療テキスト解析におけるBERTの活用」から読みはじめ、最後まで読み終えました。その後、トピックモデルのLDAという教師なし機械学習アルゴリズムについての説明をしました。
今日からテキスト「ディープラーニングAIはどのように学習し、推論しているのか」の第1章から読んでいきます。
今日はテキスト「ディープラーニングAIはどのように学習し、推論しているのか」の第2章を読んでGoogle Colaboratoryを試してみます。
今日は先週に引き続き、病床機能報告データを題材に Google Colaboratory を使ってPython、特にデータの可視化(グラフ作成)のやり方に絞って、プログラミング実習を行います。作成したプログラムの概要についてはここを見てください。
今日はテキスト「ディープラーニングAIはどのように学習し、推論しているのか」の第3章を読み進めていきます。演習で作成したプログラムの概要についてはここをご覧ください。
今日はテキスト「ディープラーニングAIはどのように学習し、推論しているのか」の第4章の「4-1 単純な数式からニューラルネットワークへ」と「4-2 ノードの2つ目の計算」を読みました。演習で作成したプログラムについてはここをご覧ください。
0 件のコメント:
コメントを投稿