2007年8月14日 星期二

8/14工作日誌 (sample selection bias)

在看完上次報告的那篇論文之後 因為想知道另一種另一種使用機率的做法
所以去trace這篇論文
B. Zadrozny and C. Elkan. (2001). Learning and making decisions when costs and probabilities are both unknown. In Proceedings of the Seventh ACM International Conference on Knowledge Discovery and Data Mining (SIGKDD01)

在這篇論文的後半段 作者要解預測donation這個問題時 提及這是一個sample selection bias問題
也就是當training data只有donator的資料, 而未來test data包含的人卻不一定只有donator
這意味著目前的學習資料並不是「隨機」從全體資料取出 將會導致預測不準確

這讓我想到在做拍賣結標價預測的時候,也是屬於這種狀況
只有賣出的商品才有結標價,沒有賣出的商品則無,
學習階段只考慮售出資料集的狀況將會有所偏頗
(我認為售出機率與結標價是negative correlation,所以這將導致學習資料大多是售出機率高(低結標價)
,未來在預測結標價時,將會容易低估商品的價值)

以往看的論文都是只從有賣出的商品學習,所以若我的想法沒錯的話,應該會發生這種問題
但這些論文都沒有提過有sample selection bias的問題,所以是否真的會產生這個問題,我還要再仔細分析一下它們的實驗結果(印象中保險那篇好像都會低估)

後來我又大概trace幾篇論文,想對sample selection bias有更多的了解
知道這個問題大概起源於1970年的經濟學,後來經濟學家Heckman在1979年提出一個兩階段的解法
自此這個問題開始受到重視,後來Heckman在2000年時也因為研究sample selection bias拿到諾貝爾獎
而我感覺大概從2000年開始,這個問題開始被研究machine learning的學者重視
最近幾年多了好幾篇論文(尤其是B. Zadrozny論文一直發個不停)

這篇論文使用Heckman的方法來預測donation
但Heckman那篇論文實在沒有耐心去弄懂,都是數學且之前沒學過,只知道其方法的主要精神而已。目前知道其方法只能用於linear regreesion model,也就是只能用連續屬性來預測而已,後來部分的論文方向著重於放鬆限制及假設或將方法改良變形,但我無法直覺地看懂,而且論文太多猶如大海撈針(被引用5000次),實在難以上手

所以我目前打算先從machine learning領域的論文著手,其寫法比較習慣。目前找了三篇論文,感覺sample selection bias有點複雜,分8種case來探討,所以需要一點時間整理消化。同時我也要想拍賣領域是屬於那種情況且有沒有適當的解法

沒有留言: