課程大綱(Course Outline)

當代社會已經進入鉅量資料時代,大量數位資料的積累,比如文書紀錄的數位化,或是日常數位足跡,產生資料分析的大量需求,也使得數位素養(digital literacy) 成為現代公民必備條件。對於學生而言,結合計算方法與人文社會知識的發展,既是機會也是巨大挑戰。本課程的設計,即是授課者希望能以社會科學研究者身份現身說法,引領更多學生,甚至是大一新鮮人邁出第一步,提出不受學科限制的研究問題,無懼程式語言障礙,培養跨領域合作的分析及溝通能力。

這堂課最仰賴自學的能力與熱情,希望給予學生探索資料、解讀與預測資料意義的互動機會,結合目前統計程式與基本自然語言處理技術,以較為輕鬆的設計與實際操作導引,希望可以讓毫無相關程式學習基礎的學生達到下列的學習目標:

• 了解文本分析的基本概念。

• 了解文本資料的結構特性與處理工作。

• 選擇適當文本特徵,做適切統計描述與視覺呈現。

• 學習簡易自然語言處理與預測模型,並應用在不同領域。

Week 1: 9/10

課程介紹(Orientation and Course Overview)

 

Week 2: 9/17

認識R語言(Introduction to R)

*Problem Set I due next week

 

Week 3: 9/24

資料處理(Data Wrangling)

 

Week 4: 10/1

中秋節放假

*Problem Set II due next week before class

 

Week 5: 10/8

探索性資料分析(Exploratory Data Analysis)

 

Week 6: 10/15

API 與網路爬蟲(API and Web Scraping)

 

Week 7: 10/22

自然語言處理與語料庫(Corpus and NLP)

*Final Project Proposal (two pages max) due next week

 

Week 8: 10/29

文本分析工具箱(Introduction to Text Analysis Tools and Resources)

 

Week 9: 11/5

文本初步處理(Text Preprocessing)

*Problem Set III due next week before class

 

Week 10: 11/12

關鍵字萃取(Keyword Extraction)

 

Week 11: 11/19

n-gram及詞嵌入模型(word-embedding)

* Problem Set IV Due next week before class

 

Week 12: 11/26

非監督式方法:文本分類

Unsupervised Methods I: Text Classification and Clustering

 

Week 13: 12/3

非監督式方法:主題建模

Unsupervised Methods II: Topic Modeling

* Problem Set V Due next week before class

 

Week 14: 12/10

監督式方法:辭典

Supervised Methods: Dictionary Method

 

Week 15: 12/17

期末計畫工作坊

Final Project Working Group

 

Week 16: 12/24

期末計畫工作坊

Final Project Working Group

 

Week 17: 12/31

期末計畫工作坊

Final Project Working Group

 

Week 18: 1/7

期末計畫呈現

Final Project Presentation

*Final Paper due Friday (1/8) midnight