當代社會已經進入鉅量資料時代,大量數位資料的積累,比如文書紀錄的數位化,或是日常數位足跡,產生資料分析的大量需求,也使得數位素養(digital literacy) 成為現代公民必備條件。對於學生而言,結合計算方法與人文社會知識的發展,既是機會也是巨大挑戰。本課程的設計,即是授課者希望能以社會科學研究者身份現身說法,引領更多學生,甚至是大一新鮮人邁出第一步,提出不受學科限制的研究問題,無懼程式語言障礙,培養跨領域合作的分析及溝通能力。
這堂課最仰賴自學的能力與熱情,希望給予學生探索資料、解讀與預測資料意義的互動機會,結合目前統計程式與基本自然語言處理技術,以較為輕鬆的設計與實際操作導引,希望可以讓毫無相關程式學習基礎的學生達到下列的學習目標:
• 了解文本分析的基本概念。
• 了解文本資料的結構特性與處理工作。
• 選擇適當文本特徵,做適切統計描述與視覺呈現。
• 學習簡易自然語言處理與預測模型,並應用在不同領域。
Week 1: 9/10
課程介紹(Orientation and Course Overview)
Week 2: 9/17
認識R語言(Introduction to R)
*Problem Set I due next week
Week 3: 9/24
資料處理(Data Wrangling)
Week 4: 10/1
中秋節放假
*Problem Set II due next week before class
Week 5: 10/8
探索性資料分析(Exploratory Data Analysis)
Week 6: 10/15
API 與網路爬蟲(API and Web Scraping)
Week 7: 10/22
自然語言處理與語料庫(Corpus and NLP)
*Final Project Proposal (two pages max) due next week
Week 8: 10/29
文本分析工具箱(Introduction to Text Analysis Tools and Resources)
Week 9: 11/5
文本初步處理(Text Preprocessing)
*Problem Set III due next week before class
Week 10: 11/12
關鍵字萃取(Keyword Extraction)
Week 11: 11/19
n-gram及詞嵌入模型(word-embedding)
* Problem Set IV Due next week before class
Week 12: 11/26
非監督式方法:文本分類
Unsupervised Methods I: Text Classification and Clustering
Week 13: 12/3
非監督式方法:主題建模
Unsupervised Methods II: Topic Modeling
* Problem Set V Due next week before class
Week 14: 12/10
監督式方法:辭典
Supervised Methods: Dictionary Method
Week 15: 12/17
期末計畫工作坊
Final Project Working Group
Week 16: 12/24
期末計畫工作坊
Final Project Working Group
Week 17: 12/31
期末計畫工作坊
Final Project Working Group
Week 18: 1/7
期末計畫呈現
Final Project Presentation
*Final Paper due Friday (1/8) midnight
- 教師(teacher): 李韶曼