シラバス
※学期中に内容が変更になることがあります。

2020年度


30820002 

△言語データ科学特論2
Advanced Lectures in Data Science and Linguistics 2
2単位/Unit  秋学期/Fall  京田辺/Kyotanabe  講義/Lecture

  金 明哲

<概要/Course Content Summary>

本講義では,テキストを構成する要素,その要素の組み合わせに関する計量方法などに関する基礎知識と技法,計量データの加工と解析方法,研究事例,研究の現状と今後の課題などについて講義を行い,テキストマイニングの基礎理論を理解し,関連の論文を読める知識を身につけることを目的とする.

<到達目標/Goals,Aims>

基本的なテキスト処理や統計解析の理論と技法を理解することができるようになる.

<授業計画/Schedule>

(実施回/
Week)
(内容/
Contents)
(授業時間外の学習/
Assignments)
(実施回/ Week) (内容/ Contents) 統計的テキストマイニングとは 
計量文体学,コーパス言語学,知識発見,テキストマイニングなどの概念と歴史 
(授業時間外の学習/ Assignments) 関連内容について,教科書および各自のレベルにマッチする資料を調べて予習・復習する。 
(実施回/ Week) (内容/ Contents) 自然言語処理の基礎とツール 
テキストの電子化とクリーニング,形態素解析,構文解析など 
(授業時間外の学習/ Assignments) 関連内容について,教科書および各自のレベルにマッチする資料を調べて予習・復習する。 
(実施回/ Week) (内容/ Contents) テキストの計量とツール 
テキストの計量方法,n-gram,MTMineRなど 
(授業時間外の学習/ Assignments) 関連内容について,教科書および各自のレベルにマッチする資料を調べて予習・復習する。 
(実施回/ Week) (内容/ Contents) テキストにおける統計法則と指標 
ジップの法則,タイプ・トークン比,K特性値,TF-IDFなど 
(授業時間外の学習/ Assignments) 関連内容について,教科書および各自のレベルにマッチする資料を調べて予習・復習する。 
(実施回/ Week) (内容/ Contents) テキストにおけるネットワーク分析 
語のネットワーク,文節のネットワークなど 
(授業時間外の学習/ Assignments) 関連内容について,教科書および各自のレベルにマッチする資料を調べて予習・復習する。 
(実施回/ Week) (内容/ Contents) テキストにおける初等統計分析 
基本統計量によるテキスト比較分析,推測統計方法によるテキスト比較分析,テキストの特徴抽出など 
(授業時間外の学習/ Assignments) 関連内容について,教科書および各自のレベルにマッチする資料を調べて予習・復習する。 
(実施回/ Week) (内容/ Contents) テキストにおける確率モデリング 
ポアソン分布,正規分布,対数正規分布などによる言語データのモデリングなど 
(授業時間外の学習/ Assignments) 関連内容について,教科書および各自のレベルにマッチする資料を調べて予習・復習する。 
(実施回/ Week) (内容/ Contents) 復習と中間評価  (授業時間外の学習/ Assignments)  
(実施回/ Week) (内容/ Contents) テキストにおける特徴分析 
主成分分析,対応分析などの方法によるテキストの特徴分析など 
(授業時間外の学習/ Assignments) 関連内容について,教科書および各自のレベルにマッチする資料を調べて予習・復習する。 
(実施回/ Week) 10  (内容/ Contents) テキストにおけるクラスター分析 
クラスター分析方法によるテキストのクラスター分析,潜在的意味解析など 
(授業時間外の学習/ Assignments) 関連内容について,教科書および各自のレベルにマッチする資料を調べて予習・復習する。 
(実施回/ Week) 11  (内容/ Contents) 質疑応答と各自の研究テーマにおける問題点と講義内容との関連性の分析  (授業時間外の学習/ Assignments) 関連内容について,教科書および各自のレベルにマッチする資料を調べて予習・復習する。 
(実施回/ Week) 12  (内容/ Contents) テキストにおける分類分析 
機械学習法によるテキストの分類 
(授業時間外の学習/ Assignments) 関連内容について,教科書および各自のレベルにマッチする資料を調べて予習・復習する。 
(実施回/ Week) 13  (内容/ Contents) テキストにおける時系列分析 
テキストの時系列分析方法や回帰分析や機械学習法による予測分析とモデリング 
(授業時間外の学習/ Assignments) 関連内容について,教科書および各自のレベルにマッチする資料を調べて予習・復習する。 
(実施回/ Week) 14  (内容/ Contents) テキストにおけるアソシエーション分析 
テキストにおける項目の共起関係を用いたアソシエーション分析 
(授業時間外の学習/ Assignments)  
(実施回/ Week) 15  (内容/ Contents) 期末評価  (授業時間外の学習/ Assignments)  

受講者の実情に合わせて,授業の順序や内容を変更する可能性がある。

<成績評価基準/Evaluation Criteria>

出席率  30%  出席回数を点数化する。 
平常点  40%  平常の課題の完成度と質について評価する。 
期末レポート  30%  完成度と質について評価する。 

<テキスト/Textbook>

金明哲  『テキストデータの統計解析入門』 (岩波書店、2009)

 

<参考文献/Reference Book>

金明哲  『テキストアナリティクス』(共立出版、2018)
 

<参照URL/URL>

http://mjin.doshaisha.ac.jp/R/index.htm 
 

<備考/Remarks>

本講義は,学部の「テキストマイニング」の講義を履修していない方,またはその内容を十分理解していない方を対象とする。 

 

お問合せは同志社大学 各学部・研究科事務室まで
 
Copyright(C) 2020 Doshisha University All Rights Reserved. 無断転載を禁止します。