Flyman的知識庫: Predicting the End-Price of Online Auctions

這篇論文是之前看那篇保險所使用的預測技術所以對於預測方法的敘述較為詳細
雖然都是用machine learning的方法建立預測模型但準確度還是要決定性的落差
分析之後得到的結果如下…

1. Feature
(a)作者考慮temporal Features，即某些feature的時間變化，這也與相關文獻的研究結果相符合，因為愈接近拍賣結束，其價格變化愈大
(b)除了沒使用上述的temporal Features，我使用的Feature還是太少，有些屬性沒考慮到。(作者使用的屬性將近430個(包括temporal features)，我只有二十幾個)
(c)有對文字作分析，文字包含titile、description。部分feature是從文字中擷取出來的。
(但作者只針對特定字眼，所以從文字中擷取的屬性是事先定義的)

2. 使用不同的演算法
我所使用的regression，作者分析是最差的方法。作者認為轉成分類問題較容易，因為預測range比value準確許多。分類的方法又有二種－ MultiClass及Binary Classifier。其中Binary Classifier的準確度高於MultiClass甚多(75% VS. 96%)。我之前有模仿MultiClass的作法，但結果跟我直接使用regression、neural network差不多，甚至還輸一些。我分析其困難點在於類別的range有多大，以這篇論文的產品PDA來說，其價格range大約介於20~90。但我做的數位相機卻是150~450。所以作者設定的類別range為5，我設定為40，但我的準確度只有50%左右。不過我認為我有改善的空間，因為預測失敗的類別大都在正確類別的上下類別，而且我的feature也遠小於作者所使用的數量。至於Binary Classifier我沒試過，因為要建立相當多的classifier較花時間，所以當初就沒做了

雖然使用微軟的套裝軟體很方便，但要掌握這麼多的功能需要學習，特別是建立自己的程式與其溝通是件不簡單的事。不過若要對其提供的演算法做更進階的使用，這部分是不可避免的。
另一個方法是使用之前找到的JDM(JAVA Data Mining)的API，它是open source的，我前些日子己向圖書館推薦購買介紹JDM的書籍，目前還在等書下來。此外預計今年會出JDM 2.0版，所以我會看情況選擇那使用那一個演算法工具

雖然我主要研究目標不是預測價錢，這部分只是我其中一個環節，但它會影響實驗結果的好壞。此外，若再加上預測是否賣出的模型誤差，兩者相乘，其誤差會擴大。所以倘若能使用更多的feature及使用不同的演算法，改善兩個model的準確度的話，就目前無法得知修改策略過後的商品情形來說的話，至少可以增加論文的可信度。

Flyman的知識庫

2007年2月7日星期三

Predicting the End-Price of Online Auctions

沒有留言:

2007年2月7日 星期三

Predicting the End-Price of Online Auctions

沒有留言:

2007年2月7日星期三