シラバス
※学期中に内容が変更になることがあります。

2020年度


10807433 

△テキストマイニング
Text Mining
2単位/Unit  秋学期/Fall  京田辺/Kyotanabe  講義/Lecture

  金 明哲

<概要/Course Content Summary>

本講義では,テキスト型データを計量的に分析する方法について学ぶ。テキスト型データとは,書き言葉や記号列の集合体を指す。昨今,ビッグデータという用語を耳にするようになっている。ビッグデータの多くはテキスト型データである。講義では書き言葉を構成する要素の計量方法などに関する基礎知識と技法,データの加工と解析方法,研究事例,研究の現状と今後の課題などについて解説し,テキストマイニングの基礎知識と技法を身につけることを目的とする。履修者には,インターネット上の言語資源,流通されている言語コーパス,日記,作文,ブログなどを分析することを通じてテキスト型データ解析の基礎知識とスキルを身につけさせる。

<到達目標/Goals,Aims>

テキスト処理の基礎知識と技法を広く身につけ,各自が興味を持つテキストの計量的分析に着手できるようになる。

<授業計画/Schedule>

(実施回/
Week)
(内容/
Contents)
(授業時間外の学習/
Assignments)
(実施回/ Week) (内容/ Contents) テキストマイニングの概説 
テキストマイニング,内容分析,コーパス言語学,計量文体学などの概念と歴史 
(授業時間外の学習/ Assignments) 課題の実施と,PPTおよび参考文献にもとづく予習・復習 
(実施回/ Week) (内容/ Contents) コーパスの収集,クリーニング,ツールなど  (授業時間外の学習/ Assignments) 課題の実施と,PPTおよび参考文献にもとづく予習・復習 
(実施回/ Week) (内容/ Contents) コーパスの形態素解析,構文解析,意味解析など  (授業時間外の学習/ Assignments) 課題の実施と,PPTおよび参考文献にもとづく予習・復習 
(実施回/ Week) (内容/ Contents) 言語分析における法則と指標など 
ジップの法則,タイプ・トークン比,K特性値,TF-IDFなど 
(授業時間外の学習/ Assignments) 課題の実施と,PPTおよび参考文献にもとづく予習・復習 
(実施回/ Week) (内容/ Contents) 言語のネットワーク分析 
語のネットワーク,文節のネットワークなど 
(授業時間外の学習/ Assignments) 課題の実施と,PPTおよび参考文献にもとづく予習・復習 
(実施回/ Week) (内容/ Contents) 言語の記述統計分析 
探索的統計分析方による言語の計量分析 
(授業時間外の学習/ Assignments) 課題の実施と,PPTおよび参考文献にもとづく予習・復習 
(実施回/ Week) (内容/ Contents) 言語の推測統計分析 
推測統計方法による言語の比較分析,特徴語の抽出など 
(授業時間外の学習/ Assignments) 課題の実施と,PPTおよび参考文献にもとづく予習・復習 
(実施回/ Week) (内容/ Contents) 復習と成績評価  (授業時間外の学習/ Assignments) 課題の実施と,PPTおよび参考文献にもとづく予習・復習 
(実施回/ Week) (内容/ Contents) テキストの特徴分析 
対応分析,主成分分析,NMFなどの方法によるテキストの特徴分析など 
(授業時間外の学習/ Assignments) 課題の実施と,PPTおよび参考文献にもとづく予習・復習 
(実施回/ Week) 10  (内容/ Contents) テキストのトピック分析 
潜在的意味分析,確率的潜在意味分析,トピックモデルLDAなど 
(授業時間外の学習/ Assignments) 課題の実施と,PPTおよび参考文献にもとづく予習・復習 
(実施回/ Week) 11  (内容/ Contents) テキストのクラスター分析 
諸クラスター分析方法によるテキストのクラスター分析など 
(授業時間外の学習/ Assignments) 課題の実施と,PPTおよび参考文献にもとづく予習・復習 
(実施回/ Week) 12  (内容/ Contents) テキストの分類(1) 
判別分析や決定木によるテキストの分類 
(授業時間外の学習/ Assignments) 課題の実施と,PPTおよび参考文献にもとづく予習・復習 
(実施回/ Week) 13  (内容/ Contents) テキストの分類(2) 
機械学習法によるテキストの分類 
(授業時間外の学習/ Assignments) 課題の実施と,PPTおよび参考文献にもとづく予習・復習 
(実施回/ Week) 14  (内容/ Contents) 復習と最新トレンド  (授業時間外の学習/ Assignments) 課題の実施と,PPTおよび参考文献にもとづく予習・復習 
(実施回/ Week) 15  (内容/ Contents) 総括と成績評価  (授業時間外の学習/ Assignments) 課題の実施と,PPTおよび参考文献にもとづく予習・復習 

受講者の実情や教室設備等に合わせて,授業の順序や内容を調整する可能性がある。

<成績評価基準/Evaluation Criteria>

期末評価  40%  質にもとづいて評価する。 
中間評価  30%  質にもとづいて評価する。 
出席など  30%   

 

<成績評価結果/Results of assessment>   成績評価の見方について/Notes for assessment

    

登録者数

成績評価(%)

評点
平均値

備考

A B C D F
32 37.5 9.4 15.6 6.3 31.3 0.0 2.2 *

<テキスト/Textbook>

金 明哲  『テキストデータの統計科学入門』 (岩波書店、2009) 生協 

 

<参考文献/Reference Book>

金 明哲  『Rによるデータサイエンス-データ解析の基礎から最新手法まで -』(森北出版、2007)ISBN:4627096011 
 

石田基広・金明哲  『コーパスとデータマイニング』(共立出版、2012)
 

本講義は,定量的データ分析,定性的データ分析,機械学習の中2科目以上を履修していることを前提としている。 
文化情報学部以外の履修生は,「統計学」および「多変量データ解析」に関する講義を履修していることを前提としている。 

<参照URL/URL>

Rの解説集 
 
ツール「MTMineR」
 
 

お問合せは同志社大学 各学部・研究科事務室まで
 
Copyright(C) 2020 Doshisha University All Rights Reserved. 無断転載を禁止します。