顯示具有 菸酒生時代 標籤的文章。 顯示所有文章
顯示具有 菸酒生時代 標籤的文章。 顯示所有文章

2007年8月14日 星期二

7月初工作日誌 (探勘工具及其API)

補上從暑假開始到目前的工作日誌

1. 研究JDM API
7月初的時候,向圖書館推薦的書到館了。花了幾天努力研究之後,對該API有概括的了解
但看到後面時才發現,原來它只是個spec標準,所以我所下載API只是個空殼,重要的演算法都沒有實作,而下載的軟體其實只有介面。唉,原本想以後用它開發程式的說。
雖然不能使用,但至少讓我見識到別人是如何開發一個標準的(preprocessing、learning、test、evaluation都規劃很好)

2. 發現另一個探勘工具 "RapidMiner"
知道JDM API不能用之後,打算以後用weka的API,後來在KDnugget網站看到票選大家最常使用的探勘工具,免費第一名是耶魯大學所開發的RapdiMiner時(weka第二),於是下載該軟體來試用看看,發現它的介面比較漂亮、演算法及功能比weka多,而且它納入weka裡的演算法。但缺點是因為它的架構較龐大,學習曲線較長。往後若有人要開發程式時或跑實驗時,這個軟體真的不錯

總而言之微軟那套工具,我覺得最有用地方在於跟微軟本身資料庫的溝通真的很方便,探勘結果可直接存入,但分析探勘結果功能不算突出。相對地,免費的則較學術,所以跑實驗功能很強,但若資料放在資料庫裡,那麼就要花點心思存取了,當然有無商業的支援還是有差。

8/14工作日誌 (sample selection bias)

在看完上次報告的那篇論文之後 因為想知道另一種另一種使用機率的做法
所以去trace這篇論文
B. Zadrozny and C. Elkan. (2001). Learning and making decisions when costs and probabilities are both unknown. In Proceedings of the Seventh ACM International Conference on Knowledge Discovery and Data Mining (SIGKDD01)

在這篇論文的後半段 作者要解預測donation這個問題時 提及這是一個sample selection bias問題
也就是當training data只有donator的資料, 而未來test data包含的人卻不一定只有donator
這意味著目前的學習資料並不是「隨機」從全體資料取出 將會導致預測不準確

這讓我想到在做拍賣結標價預測的時候,也是屬於這種狀況
只有賣出的商品才有結標價,沒有賣出的商品則無,
學習階段只考慮售出資料集的狀況將會有所偏頗
(我認為售出機率與結標價是negative correlation,所以這將導致學習資料大多是售出機率高(低結標價)
,未來在預測結標價時,將會容易低估商品的價值)

以往看的論文都是只從有賣出的商品學習,所以若我的想法沒錯的話,應該會發生這種問題
但這些論文都沒有提過有sample selection bias的問題,所以是否真的會產生這個問題,我還要再仔細分析一下它們的實驗結果(印象中保險那篇好像都會低估)

後來我又大概trace幾篇論文,想對sample selection bias有更多的了解
知道這個問題大概起源於1970年的經濟學,後來經濟學家Heckman在1979年提出一個兩階段的解法
自此這個問題開始受到重視,後來Heckman在2000年時也因為研究sample selection bias拿到諾貝爾獎
而我感覺大概從2000年開始,這個問題開始被研究machine learning的學者重視
最近幾年多了好幾篇論文(尤其是B. Zadrozny論文一直發個不停)

這篇論文使用Heckman的方法來預測donation
但Heckman那篇論文實在沒有耐心去弄懂,都是數學且之前沒學過,只知道其方法的主要精神而已。目前知道其方法只能用於linear regreesion model,也就是只能用連續屬性來預測而已,後來部分的論文方向著重於放鬆限制及假設或將方法改良變形,但我無法直覺地看懂,而且論文太多猶如大海撈針(被引用5000次),實在難以上手

所以我目前打算先從machine learning領域的論文著手,其寫法比較習慣。目前找了三篇論文,感覺sample selection bias有點複雜,分8種case來探討,所以需要一點時間整理消化。同時我也要想拍賣領域是屬於那種情況且有沒有適當的解法

2007年5月11日 星期五

目前研究情況

最近在寫論文時想到一個問題
如果我的問題是新的話,或與已存在的問題有些許的不同時,應該要多一個段落來描述問題及方法的假設、範圍、限制。

下筆的時候,發現我對於拍賣機制的運作規則不甚了解,尤其eBay的拍賣機制的複雜度及服務的多樣性大於我的想像,如此可能會導致論文有錯誤。以前的想法 - 直接把資料丟進去mining就結束是行不通的。

目前的想法是好好研讀eBay網站的Help資訊,也找到一本書的某一章節來加強拍賣知識


寫related work的時候,還是又回歸老問題,找不到非常相關的論文可以參考,但又不敢寫沒有
後來我再試其它關鍵字搜尋,終於找到一篇對拍賣領域的研究統整
Current and Future Insight From Online Auctions,2004
這篇論文把各種子研究議題的論文加以分類,對於找相關文獻非常有用
大概瞄了一下,在Strategies, Techniques且有關賣家方面的有7篇,只有1篇有相關
Determinants of Internet Aucton Success and Closing Price: An Exploratory Study,2003
雖然目前還沒讀,但看標題覺得這一篇是目前與我研究最相關的論文了
除此之外,也找到一篇廣告屬性對拍賣的影響。
因為是2003~2004年之間的論文,所以也要找一下有沒有更新的論文參考這些論文

目前的想法是先閱讀這些新找到的論文,把重點整理下來,修改introducton、related work部分
然後閱讀help及研究拍賣機制,寫論文主體的第一個段落,段落標題目前定為 "Selling Strategy in eBay Auction Scenario and Assumptions in Our Work ",然後再進行問題解決方法及實驗

2007年5月5日 星期六

研究生求生手冊

研究生完全求生手冊:http://ppsc.pme.nthu.edu.tw/handbook/note/
如何做研究:http://www.cs.ccu.edu.tw/~ccc/article/Research.htm
撰寫科技研究論文之要領:http://www.cs.ccu.edu.tw/~ccc/article/article.htm
Principles of Effective Research:http://www.qinfo.org/people/nielsen/blog/archive/000120.html
Collected Advice on Research and Writing:A collection of advice about how to do research and how to communicateeffectively (primarily for computer scientists).http://www.cs.cmu.edu/afs/cs.cmu.edu/user/mleone/web/how-to.html
Lectures for PhD Courses:http://www.ise.gmu.edu/faculty/ofut/classes/phd/
Some Advice for Getting Through Graduate School:http://www.cc.gatech.edu/student.services/phd/phd-advice/
How to Do Research:http://www.ifs.tuwien.ac.at/~silvia/research-tips/
Computer Science Student Resource Site: Please surf the HOW-TO part.http://williamstallings.com/StudentSupport.html

2007年4月20日 星期五

最近讀Ripper及C4.5心得

Ripper及C4.5去年已經學過了 那時也覺得自己已經會了
所以老師出作業的時候,我想我只要再複習一下就可以批改作業
不過因為這次大家都沒交 ,所以讓我有機會真正去模擬演算法的運作流程,也體會到一些事情

我從課本敘述內容,知道C4.5 Ripper應用那些概念,大概是怎樣運作的。不過也就是這個「大概」讓我吃盡苦頭。

有時真正去做才知道,有些細節都被忽略了,或是之前的想法是錯的,但卻認為我已經會了。
我覺得原因是缺乏思考、發掘問題的能力,這應該跟我平常的學習習慣有關。
以後要調整學習的方法,思考演算法每一個步驟的道理,多問Why,不要只問How

2007年4月2日 星期一

Association Analysis研讀心得

一直以來都沒有對這個主題詳細地閱讀
所以對association 的印象一直停留在它能找出相關性而已
這導致在使用tool產生itemset rule 總是未盡如其意
雖然自己有一些想法,但還是得不到好的結果

最近3天 我研讀教科書的相關章節 選取有關的部分看了將近70頁
裡面提到的議題幾乎都是我煩惱的問題
例如 每個measure背後的意義,讓我不只侷限於support confidence而已
simpson's paradox、skewed support distribution、cross-support pattern都是目前遇到的難題
了解為什麼處理categorical attribute及continous attributes總是失敗

現在已經有些心得 接下來就是試試看這些方法的效果
但比較麻煩的是 有些技術軟體沒有提供 若要應用就要自己想辦法了

2007年3月21日 星期三

3/21日工作日誌

今天花了不少時間整理自己寫的文件
之前都隨意找一張紙紀錄且毫無章法,現在整合感覺太浪費時間
而且有時再一個問題著墨太久,忘了之前的成果或發生的問題,變得有點迷失自我了
做事應該要更smart才對

最近斷斷續續看有關知識管理和專案管理的書,雖然書只看了一半
現在我已經有一些想法來改善研究效率
明天我將動手試試看,結合blog與google document工具來達到研究的知識管理
希望能夠產生一個適合的標準研究流程去遵行

除此之外,今天跟詠勝討論了一些東西
雖然不是很清楚他的問題,但我認為資料庫若要2.0化,應該要先想一個問題
那就是一般人為什麼要使用資料庫? 就算要使用,那麼裡面要裝什麼資料呢? 而且是大量的資料!

所以根據這些問題,我覺得重點在於
1. 一般人有何種大量的資訊需求? 須要用資料庫儲存。而且不能裝基本簡單的資料,否則用部落格等軟體就能達到
2. 因為對象是大眾,所以每個人都擁有一個獨立的資料庫,而且每個人都有各自不同的資訊需求,所以儲存的資料要由使用者自行決定


後來我想從information intergration的角度切入,設計一個元件wrapper或是web service,由使用者自己標示要監控的網頁內容,此時再使用資料庫元件,把抓取的資料儲存到資料庫裡。
所以假設有一個股市投資者,可能每天需要瀏覽多個網站或該網站只提供基本的資料,造成不少的麻煩。此時他可以在部落格拉進wrapper元件及資料庫元件,一旦儲存至資料庫,我們可以提供運算、查詢功能等資料庫特有的服務。如此該投資者每天只要使用自己的部落格就可得到經過處理的資訊了。

2007年3月8日 星期四

開學以來的工作日誌 2/26~3/8

1. 準備meeting報告的論文 (但因奶奶住院 所以將延到3/12報告)
2. 今天寫了Data Mining第一、二章總覽

感覺沒做什麼事

預計下禮拜開始應能恢復正常

2007年2月13日 星期二

Java Data Mining (JSR-73) Overview

今天下載JDM API來看看 ,以及短短7頁的介紹文件
感覺這實在不容易上手 Orz... 看來還是得看書才會用

JDM的目的之一是要標準化各vendor開發的data mining algorithm,所以
裡面提供的演算法蠻多的 Classification、Clustering、Regression、Association都有
因為主要是商業用途,所以也提供web service


我看了一個「非常簡短」的範例 發現要使用一個分群演算法還真不容易!

它用了design pattern中的Abstract Factory來設計,所以要先會design pattern才能掌握物件的運作方式。然後也要用很多類別才能達成工作,大概算了一下有十幾個。
其產生的結果用Collection儲存,所以資料結構也要熟悉,處理起來才會得心應手

預估今年4月左右 JDM2.0會出來
新的功能包括可以mining unstructured data(text、image)、feature extraction、forecasting、model comparison、ensembles、multi-target models,並擴展web service的功能

2007年2月12日 星期一

利用分類技術發掘產品項目最適性之行銷組合

這篇論文很快就瀏覽過去 因為大部分都不是我想要的
他做的問題是很基本的關聯規則就能解決 所以對我的幫助並不大

比較類似的問題是作者要找獲利高的組合,但有可能被minimum support刪除
這與我的情形相仿-獲利高的策略並不一定很多人用。這個問題我後來是想用interest factor來解決,但可能因support太低,所以找出來的itemset會很多。

至於作者避免效能差而使用的方法實在是#@$!@% #$%# 應該算是偷吃步,不值得效法

Introduction to machine learning chapter 2

第二章 Supervised Learning

看完這一章,讓我體會到在data mining課本與machine learning課本的敘述風格有著些許的不同。machine learning讓我從更廣義的角度來看分類問題。雖然大部分都已在data mining的課本中看過,但還是有一些收獲。

1. 分類就是要找到positive與negative的邊界。most general hypothesis指的是包含positive example的最大範圍,也是一般Supervised Learning algorithm所要找出的範圍。與此相反是most specific hypothesis。中間的範圍稱為version space

2.提到Vapnik-Chervonenkis(VC) Dimension的概念,它指的是the capacity of the hypothesis,也就是我們找出的hypothesis能包含的point最多有多少。

3. Probably Approximately Correct (PAC) Learning
教我們如果用most specific hypothesis來當做我們的hypothesis,那麼我們可以預估需要多少的example才能符合我們想要的error(ε)大小範圍和分類的準確度(1-δ) N>= (4/ε)log(4/δ)

4. Multiple Classes可視為多個2-class問題,或是每個分類用一個classifier

5. Noise的影響,太複雜的學習並不一定好

6. Model Selection and Generalization
因為我們幾乎不可能得到所有的traning example,所以我們的演算法必須要有所假設,稱為inductive bias,例如rectangle可以當作分類的區塊;linear regression是假設linear function
我們要選擇對的bias,這就是model selection。然後以此來預測稱為generalization,但要注意function complexity。否則可能會overfitting或underfitting。書中提到一些解決方法

7. 假設sample是iid. 那麼Supervised Learning algorithm必須要做三個部分

(1) 選擇使用那種model及其parameter來決定hypothesis
(2) 定義loss function來算出approximation error
(3) Optimization procedure:找出θ來minimize the approximation error

2007年2月7日 星期三

Predicting the End-Price of Online Auctions

這篇論文是之前看那篇保險所使用的預測技術 所以對於預測方法的敘述較為詳細
雖然都是用machine learning的方法建立預測模型 但準確度還是要決定性的落差
分析之後得到的結果如下…

1. Feature
(a)作者考慮temporal Features,即某些feature的時間變化,這也與相關文獻的研究結果相符合,因為愈接近拍賣結束,其價格變化愈大
(b)除了沒使用上述的temporal Features,我使用的Feature還是太少,有些屬性沒考慮到。(作者使用的屬性將近430個(包括temporal features),我只有二十幾個)
(c)有對文字作分析,文字包含titile、description。部分feature是從文字中擷取出來的。
(但作者只針對特定字眼,所以從文字中擷取的屬性是事先定義的)

2. 使用不同的演算法
我所使用的regression,作者分析是最差的方法。作者認為轉成分類問題較容易,因為預測range比value準確許多。分類的方法又有二種- MultiClass及Binary Classifier。其中Binary Classifier的準確度高於MultiClass甚多(75% VS. 96%)。 我之前有模仿MultiClass的作法,但結果跟我直接使用regression、neural network差不多,甚至還輸一些。我分析其困難點在於類別的range有多大,以這篇論文的產品PDA來說,其價格range大約介於20~90。但我做的數位相機卻是150~450。所以作者設定的類別range為5,我設定為40,但我的準確度只有50%左右。不過我認為我有改善的空間,因為預測失敗的類別大都在正確類別的上下類別,而且我的feature也遠小於作者所使用的數量。至於Binary Classifier我沒試過,因為要建立相當多的classifier較花時間,所以當初就沒做了

雖然使用微軟的套裝軟體很方便,但要掌握這麼多的功能需要學習,特別是建立自己的程式與其溝通是件不簡單的事。不過若要對其提供的演算法做更進階的使用,這部分是不可避免的。
另一個方法是使用之前找到的JDM(JAVA Data Mining)的API,它是open source的,我前些日子己向圖書館推薦購買介紹JDM的書籍,目前還在等書下來。此外預計今年會出JDM 2.0版,所以我會看情況選擇那使用那一個演算法工具

雖然我主要研究目標不是預測價錢,這部分只是我其中一個環節,但它會影響實驗結果的好壞。此外,若再加上預測是否賣出的模型誤差,兩者相乘,其誤差會擴大。所以倘若能使用更多的feature及使用不同的演算法,改善兩個model的準確度的話,就目前無法得知修改策略過後的商品情形來說的話,至少可以增加論文的可信度。

Information Integration 對eBay研究的影響

如果比價網站真得很流行的話 那麼對我目前的研究不是件好事…
我剛試用了一下google的比價服務「froogle」。因為它是整合各個不同網站的資訊,所以僅顯示價錢、賣家、來源…等少數資訊(至少目前為止)。倘若部分的人透過此介面去尋找商品,那麼eBay提供的廣告服務(bold、highlight…等)就毫無用武之地。甚至可能連整個消費模式都改變,因為我們不能保證所有網站都是拍賣型式,所以拍賣屬性也不包含在搜尋範圍內,那麼我的研究結果就不能這麼客觀地顯示出eBay所提供之銷售策略服務效益。

不過我想這是一個「實務」的問題,對於研究來說,這應該還是能被接受的。

eBay驅逐比價網站事件

EBay驅逐比價網站事件

【e21times記者余澤佳矽谷報導】提供不同網站對同一產品的定價資訊,滿足消費者「貨比三家不吃虧」心態的比價服務,本來是為買方省錢、為網站帶進意外交通量的好主意,但拍賣網站龍頭老大eBay卻不這麼認為。為了把兩家比價網站趕出店門,eBay悍然對其進行封鎖之外,還把他們扭上法庭,然而此舉卻引來了美國司法部的探員,準備「瞭解瞭解」eBay有無壟斷市場之行為。從法律觀點來看,這的確是個難解的習題,但從商戰攻守的角度觀之,幾個回合的扭打過招倒是頗有看頭:

第一回合:1999年底,eBay試圖阻止AuctionWatch.com取得eBay上競標物品的資訊,同時控告進行同樣舉動的Bidder's Edge。
第二回合:兩千年一月,eBay的競爭者ReverseAuction被聯邦貿易委員會(Federal Trade Commission,以下簡稱FTC)控以非法利用eBay的用戶資料,後以罰款和解了事。FTC前腳剛走,eBay馬上跟進,遞上控告ReverseAuction的訴狀。
第三回合:司法部踏進eBay大門,開始調查eBay禁止中間商取得站上資料的來龍去脈。
第四回合:eBay指控AuctionWatch和 Bidder's Edge為報復而向司法部通風報信。該兩家廠商則僅証實曾接受司法部的詢問。
第五回合:二月八日,Bidder's Edge反告eBay,理由是「破壞網際網路上的珍貴特性-資源開放」。
※ 各執一詞
諸如AuctionWatch和Bidder's Edge這一類網站的比價服務針對的是拍賣網站,包括eBay式的「個人對個人」,以及以拍賣為促銷手法的「廠商對個人」式網站。使用者只要連上比價網站,說明想購買的產品,網站即啟動自動搜尋軟體,進入各拍賣站,為使用者提供產品資訊、追蹤並儲存各家競價變動情形、隨時通報競價以方便使用者即時加注等,換言之,顧客不需再巡迴於拍賣網站中,也不需再放下手邊工作緊盯競標過程,這些均由比價網站代勞。
Bidder's Edge的搜尋範圍約為一百五十家拍賣廠商,1999年九月開始啟用現行搜尋工具的AuctionWatch則可提供三百家拍賣商的資訊。比價網站與拍賣網站的關係其實近似合作夥伴而非競爭者,經由比價機制尋找到拍賣網站的網友大有人在。穩居拍賣網站盟主地位的eBay下定決心要和這兩家比價網站過不去,的確是網路上一樁新鮮事。比價網站大肆申冤,祭出「破壞網路開放性」法寶;eBay則毫不中計,聲稱此事與開不開放完全不相干,eBay不歡迎這兩家比價網站的原因純粹是「其搜尋軟體使eBay主機系統變慢、一字不漏轉載eBay網頁上內容、提供的資訊時有錯誤、甚至不完整或不即時,損害eBay信譽」。
EBay的總裁Meg Whitman便說,eBay並不反對此類資料收集服務商的作法。事實上,eBay的確也沒有全面封殺所有外來的比價搜尋軟體,它的作法是要求比價服務商簽訂契約,同意支付使用費,並承諾公平、確實、即時刊登所有資訊。eBay發言人Kevin Pursglove表示,即使拍賣資訊公開張貼在網頁上,但所有權仍屬於eBay,它有權如此要求比價服務商。Bidder's Edge拒簽這一份合約,「我們的服務方式和AltaVista或Lycos這一類搜尋引擎沒有不一樣,但他們並不需要徵求數百萬網站同意搜尋的動作。」Bidder's Edge總裁Jim Carney說。
同樣拒簽合約但尚未挨告的AuctionWatch則正在和eBay 玩著「道高一尺,魔高一丈」的遊戲,1999年十一月時eBay開始阻擋AuctionWatch的搜尋軟體進入,但兩千年一月時AuctionWatch聲稱已經突破eBay的圍堵,再度把eBay的拍賣產品列在網站上,eBay表示目前仍在考慮如何對付。
AuctionWatch總裁Andre Neumann-Loreck放話時已經毫不客氣,「eBay持續佔住網上拍賣市場的霸主地位,他們開始希望消費者最好都不知道其他拍賣網站的消息。」
EBay的兩個主要競爭對手Yahoo!和AOL均採讓比價服務進入的開放態度,此時不約而同地靜觀其變。AOL的發言人Sharon Greenspan很技巧地說,「任何能使消費者網上競標經驗更愉快的都是好事。」Yahoo!則拒絕回答。
※ eBay vs. 司法部
司法部正在對eBay進行是否涉嫌壟斷的調查,此新聞由華爾街日報首先批露。司法部官員拒絕回覆細節,僅表示調查屬非正式性質,仍在初步階段。AuctionWatch及Bidder's Edge則証實曾於一月時接受司法部的詢問。eBay與其競爭者ReverseAuction之間的官司可能也將受司法部調查影響,ReverseAuction甫於上月以和解了結FTC(聯邦貿易委員會)對它的控告,FTC控訴的理由即是ReverseAuction把eBay站上的七百萬個用戶姓名及電子郵件取來為己所用,侵害網路隱私權;ReverseAuction則辯稱它不過利用網路上的公開資料罷了,同時表示和解只為了避免曠日費時的官司。顯然地,這又是一樁覬覦eBay龐大公開資源的案例。
究竟由賣方自行填寫的資料屬誰所有?比價網站的中間商角色究竟造福了消費者或是侵害了拍賣網站的財產?網站有沒有權利禁止一小撮人取得公開給大眾的資料?EBay驅逐比價網站的事件還得靜待下回分解,但這個議題顯然將激發更多關於網路上資源所有權的思索與辯論。(joyce_yu@e21times.com, 02/10/2000)

2007年2月6日 星期二

Forecasting eBay's Online Auction Price using Functional Data Analysis

這一篇論文是老師之前給我的其中一篇 可是出處部分不太了解是那裡 只從某一篇論文的Reference中找出來
Wang, S., Jank W., and Shmueli, G. (2005), "Forecasting eBay's Online Auction Prices using Functional Data Analysis," working paper, Smith School of Business, University of Maryland"

這篇論文是從統計的角度切入來預測eBay的商品價格。作者提出不同於以往傳統統計所使用的方法來做預測(FDA: Functional Data Analysis),並與「double exponential smoothing」方法做比較。本篇論文的方法與其它方法最主要的不同點在於考慮價格的變化(price dynamics),所謂變化是指價格上升的「速度」及「加速度」…(根據derivative order而定)。作者考慮price dynamics以掌握在不同時間點的價格變化情形,以應付在價格波動最頻繁且大的時間區段的預測,而此區段正為拍賣結束前一天至拍賣結束,即可預測最後的價格。所以本篇論文比其它方法好的地方在於能掌握拍賣結束前的大幅度價格變化

本篇論文使用相當多的統計及數學技巧,所以我只能從式子推敲其概念而難以理解其原理,不過這並不影響我掌握論文的主要概念及我的eBay研究主軸


part 1 introduction
1. eBay的統計資料可從http://investor.ebay.com得知,以後可從這裡參考一些資料
2. 重要的觀察

(a) bid arrival is not evenly spaced(聚集於拍賣起始和結束)
(b) FDA使用curve而不是point、vector來描述data,且目前並末有加入dynamics的研究
(c) 傳統的方法無法處理是因上述(a)及拍賣時間為固定的

part 2 auction forecasting via FDA

step 1 smmothing and recovery of the price curve
把收集的資料點描繪出一個curve,即一個function,稱作smoothing spline
並在式子中考慮noise,即加入error term。在描繪curve的時間點選擇中,選擇更多愈接近拍賣結束的時間點,以更能掌握其變化幅度

step 2 forecasting auction dynamics
根據step1的function,做不同order的微分以取得不同價錢變化程度的function
並加入AR residual(AR: autoregressive model)
因為order不為0,所以可以忽略error term,然後estimate parameter,即可得到一次微分、二次微分後的式子(速度及加速度)

step 3 forecasting model
考慮其它的影響因素,例如opening bid、feedback rating…等,然後設為一變數加入(linearly)至上述式子

以上用60%當作training set 、40%當作validation set

實驗部分省略

我的感想

1. 知道統計的方法是如何預測的,未來可在related work中提到
2. 讓我特別注意到在拍賣結束前,價格會有很大的變化
3. 拍賣與其它的預測不同在於- 愈接近結束時,其價格不確定因素會愈降低,所以反而在拍賣結束之前預測會愈準

未來新的方向

目前我是假設賣家要賣東西之前定好其銷售策略,但這篇論文的時間序列概念讓我想到 ,我們可以在不同的時間點設定不同的策略(我查eBay的規則,可以讓賣家在拍賣中途改變某些屬性)
所以我們可以一開始設定A策略 ,如果沒人出價的話,可以改用B策略;或是出價的價格過低不滿意,加入新的廣告屬性。同樣地,我們仍必須在拍賣成本、賣出機率、賣出價格之中取得平衡點以獲利最大利益。不過我直覺低認為這個問題會變得相當複雜,所以這是「future work」





2007年1月30日 星期二

1/29 ~ 2/4 一週工作計畫

Program:
最近在讀effective java,我打算先讀重要的部分在開始動工
目前邊讀邊有一些想法出現,大約這個禮拜四就可以繼續coding了
未來可利用此程式分析eBay商品網頁的文字部分,例如產品描述
這部分也是我這禮拜讀的Pennis from eBay: the Determinants of Price in Online Auctions所提到它在分析時所忽略的部分,我想未來可以再從這個地方加強

Research:
看了老師之前給的2005年電子商務經營管理研討會論文宣讀場次檔案
認為其中一篇有必要了解一下 「利用分類技術發掘產品項目最適性之行銷組合」
除此之外, 「Predicting the End-Price of Online Auctions」是之前讀過那篇保險論文的技術部分,可以知道他詳細預測的方法。之前曾試過他的方法,但效果不怎麼樣,應該是有些細節沒處理好。

Reading:
Introduction to machine learning chapter 2 開始進入較難的章節了

Summary of Reading: Introduction to Machine Learning Chapter 1

這本書第一章是Machine Learning的基本介紹

1. 這是對machine learning的定義,讓我可以從更廣義的角度來看何謂ML
Machine Learning is programming computers to optimize a performance criterion using example data or past experience. We have a model defined up to some parameters and learning is the execution of a computer program to optimize the parameters of the model using the training data or past experience. The model may be predictive to make predictions in the future, or descriptive to gain knowledge from data, or both

ML使用統計的理論來建立數學模型,並可以應用於不同領域問題,包含Data Mining、AI等

2. 一直以來我們幾乎都講求predictive accuracy,但我覺得這是應用他人的演算法才如此
如果當你自行設計新的演算法時,還要考慮space and time complexity

3. ML主要可分為下面五類
  • Association
  • Classification (supervised learning)
  • Regression (supervised learning)
  • Unsupervised Learning
  • Reinforcement Learning

4. ML的應用如下…

  • Association Rule:Basket Analysis
  • Pattern Recognition:optical character recognition、face recognition、medical diagnosis、speech recognition
  • Knowledge Extraction: Learning a rule from data
  • Outlier detection
  • Robotics
  • Image Compression
  • …太多了

5. Supervised Learning:the task is to learn the mapping from the input to the output
Unsupervised Learning:find the regularities in the input. There is a structure to the input space such that certain patterns occur more often than others, and we want to see what generally happens and what does not. In statistics, this is called density estimation. One method for density estimation is clustering

6. Reinforcement Learning: find policy that is the sequence of correct actions to reach the goal
one factor that makes reinforcement learning harder is when the system has unreliable and partial sensory information. we can not decide in a partially observable state → using multiple agents that interact and cooperate to accomplish a common goal.For example, robots playing soccer

7. In statistics, going from particular observations to general descriptions is called inference and learning is called estimation. Classification is called discriminant analysis in statistics. In engineering, classification is called pattern recognition and the approach is nonparametric and much more empirical
(終於解答我之前一直confuse的地方- 「pattern recognition」的意義)

8. Relevant Resource

Journal

  • Machine Learning
  • Journal of Machine Learning Research
  • Neural Computation
  • Neural Networks
  • IEEE Transactions on Neural Networks
  • IEEE Transactions on Pattern Analysis
  • Machine Intelligence
  • Artificial Intelligence
  • Pattern Recognition
  • Fuzzy Logic
  • Data Mining and Knowledge Discovery
  • IEEE Transactions on Knowledge and Data Engineering
  • ACM SIGKDD

Conference

  • Neural Information Processing Systems (NIPS)
  • Uncertainty in Artificial Intelligence (UAI)
  • International Conference on Machine Learning (ICML)
  • European Conference on Machine Learning (ECML)
  • Computational Learning Theory (COLT)
  • Internatioal Joint Conference on Artificial Intelligence (IJCAI)
  • ......................

Dataset (DataBase)

-------------------------------------------------
下一章 Supervised Learning

Pennis from eBay: the Determinants of Price in Online Auctions 結論

這篇是有關於eBay的統計分析報告 第一版源於1999年 以後廣為其它論文reference

我看的是 2006年五月的版本 其各因素與價格的分析結論如下:

1. Negative ratings比Positive ratings影響大很多,而且Feedback Rating score(the difference between the two above)影響不大,所以可只考慮Negative ratings

2. 拍賣時間較長有利於價格上升 (number of bids可以用auction length替代,因為兩者對價格的影響是一體兩面的)

3. Reserve price有利於價格上升,但整體影響可能導致bidder不願出價

4. Minimum bids 在當只有一個人出價時,對價格有影響。但若超過一人出價時,則對價格沒有影響

上述影響是指有statistically significant (其統計檢定的方法及名詞不了解,不過對我來說也不需要了解,只要care有無significant即可)


--------------------------negative rating-----------------------------------------
之前收集的資料並沒有negative rating,只有feedback score與positive feedback
雖然當初negative資料沒有收集到 但可以依此公式計算出
positive feedback = positive rating/(positive rating + negative rating)

不過在分析的時候 我只有用feedback score與positive feedback 沒有使用negative rating
雖然positive feedback與negative rating的意義幾乎很像 但還是有可能結果會不太一樣
因為用使用百分比 每一個賣家幾乎都98%~100%
若當作數值屬性→可能range太小分辨不出來
若當作類別屬性→以k-means做分群,我覺得效果有限,thresold應要做適度調整

如果用這篇報告所建議的negative rating 它是正整數 0 1 2 ...
或許結果會不一樣

--------------auction length------------------------------

之前我並不知道duration這個屬性也會影響價錢 ,所以在分析時並沒有特別注意它
分析時,我直覺地當作數值屬性,但我現在覺得應是當作「order」
因為資料集中的值為 1 3 5 7 10 五種屬性值 照報告所講有遞增的趨勢
在對資料做分析後
Duration #Item(sold/unsold) Price(average of sold item)
1 82 /12 241.86
3 241/119 262.92
5 154 /144 271.15
7 267 /381 267.18
10 80 /82 302.88

的確結果如報告所說,有遞增趨勢 但從price結果來看 似乎可擴大分成三大類
「1」、「3、5、7」、「10」
報告中有提到 3、5影響價格不大,在平均價格左右。「7」增加24%、「10」增加42%
但作者認為從1999年之後,隨著eBay使用者人數的增加,時間愈長導致價格愈高的影響會逐漸減小,所以從我們在去年所收集的資料可以看出 - 「7」的price已經與「3、5」差不多了
(在1999年時,所收集到的資料並沒有「1」的值,這應該是eBay當初尚未提供這個選項)

但有趣的是,時間愈長則賣出機會降低 這中間的平衡點須做拿捏,這部分將是我要探討的地方

此外,賣家若選擇10天以上的話要收費 ,所以10天這一類勢必要與其它類別分開
因為duration對價格與售出機率有所不同
所以目前我打算分成「1」、「3」、「5」、「7」、「10」來分析

----------------------Reserve Price---------------------
我所收集到的資料幾乎都沒使用Reserve Price 所以不必在意此因素

--------------------Minimum bid-------------------------------
Minimum bid就是起標價 我並不知道在不同的出價數會對minimum bid有所影響
但我當初沒收集number of bids,所以這部分無能為力
的確 若只有一人投標 那麼該出價(等於起標價)即為結標價price 這對價格真的有很大的影響

2007年1月23日 星期二

1/22~1/28 一週工作計畫

1. Program
  • Document Preprocessing
Input: A URL(http html file) or A Text File or Directory contains many Text Files or Database string field
Output: pure text document with following preprocess
(1) Eliminate Script Tag
(2) Eliminate HTML Tag
(3) Remove Stopword
(4) Stemming
(5) Term Frequency Limit
  • IR System basic functionality

Input: Many Text Files with preprocess
Output: A basic IR System with indexing

(1) Compute common used features such as TFIDF...... for building IR Model.
(2)Design a easy way to combine above features to construct your own weight schema equation in the future

※ program for using easily, so don't very concern performance (memory space)
※ Reference "Information Retrieval Algorithms and Heuristics", 2e, 2004

2. Project

  • Reading statistical report
    "Pennies from eBay: the Determinant of Price in Online Auction", May 2006
  • Correct my paper
3. Learning

  • Reading "Introduction to machine learning", 2004 - chapter 1

4. Interesting Reading

  • 知識管理的第一本書 (我想這應該不限進度吧…)
這文字編輯器好難用 不能按Tab鍵縮排