2007年2月7日 星期三

Predicting the End-Price of Online Auctions

這篇論文是之前看那篇保險所使用的預測技術 所以對於預測方法的敘述較為詳細
雖然都是用machine learning的方法建立預測模型 但準確度還是要決定性的落差
分析之後得到的結果如下…

1. Feature
(a)作者考慮temporal Features,即某些feature的時間變化,這也與相關文獻的研究結果相符合,因為愈接近拍賣結束,其價格變化愈大
(b)除了沒使用上述的temporal Features,我使用的Feature還是太少,有些屬性沒考慮到。(作者使用的屬性將近430個(包括temporal features),我只有二十幾個)
(c)有對文字作分析,文字包含titile、description。部分feature是從文字中擷取出來的。
(但作者只針對特定字眼,所以從文字中擷取的屬性是事先定義的)

2. 使用不同的演算法
我所使用的regression,作者分析是最差的方法。作者認為轉成分類問題較容易,因為預測range比value準確許多。分類的方法又有二種- MultiClass及Binary Classifier。其中Binary Classifier的準確度高於MultiClass甚多(75% VS. 96%)。 我之前有模仿MultiClass的作法,但結果跟我直接使用regression、neural network差不多,甚至還輸一些。我分析其困難點在於類別的range有多大,以這篇論文的產品PDA來說,其價格range大約介於20~90。但我做的數位相機卻是150~450。所以作者設定的類別range為5,我設定為40,但我的準確度只有50%左右。不過我認為我有改善的空間,因為預測失敗的類別大都在正確類別的上下類別,而且我的feature也遠小於作者所使用的數量。至於Binary Classifier我沒試過,因為要建立相當多的classifier較花時間,所以當初就沒做了

雖然使用微軟的套裝軟體很方便,但要掌握這麼多的功能需要學習,特別是建立自己的程式與其溝通是件不簡單的事。不過若要對其提供的演算法做更進階的使用,這部分是不可避免的。
另一個方法是使用之前找到的JDM(JAVA Data Mining)的API,它是open source的,我前些日子己向圖書館推薦購買介紹JDM的書籍,目前還在等書下來。此外預計今年會出JDM 2.0版,所以我會看情況選擇那使用那一個演算法工具

雖然我主要研究目標不是預測價錢,這部分只是我其中一個環節,但它會影響實驗結果的好壞。此外,若再加上預測是否賣出的模型誤差,兩者相乘,其誤差會擴大。所以倘若能使用更多的feature及使用不同的演算法,改善兩個model的準確度的話,就目前無法得知修改策略過後的商品情形來說的話,至少可以增加論文的可信度。

沒有留言: