2013年1月14日 星期一

User Behavior Modeling and Prediction by Mining Multiple Information Sources in Mobile Social Network Space


課程論文研討(一)
日期 : 2013/01/04
時間 : 13:50 ~ 15:30
學生 : 資傳研一 林智偉
演講者 : 成功大學 曾新穆教授

心得:

    這次演講是以社交網路為基礎並利用資料探勘(data mining)來了解使用者的行為,而資料探勘(data mining)又譯為數據挖掘、資料採礦。它是資料庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。
    資料探勘一般是指從大量的資料中自動搜尋隱藏於其中的有著特殊關聯性(屬於Association rule learning)的訊息的過程。資料挖掘通常與電腦科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。;儘管通常資料挖掘應用於資料分析,但是像人工智慧一樣,它也是一個具有豐富含義的詞彙,可用於不同的領域。 它與KDD的關聯是:KDD是從資料中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程;而資料探勘是KDD透過特定的演算法在可接受的計算效率限制內生成特定模式的一個步驟。 事實上,在現今的文獻中,這兩個術語經常不加區分的使用。

data minig 示意圖


方法:
    資料探勘的方法(Strategy)包括監督式學習(supervised learning)、非監督式學習(unsupervised learning)、關聯分組(Affinity Grouping,作關聯性的分析)與購物籃分析(Market Basket Analysis)、聚類(Clustering)與描述(Description)。監督式學習包括:分類(Classification)、估計(Estimation)、預測(Prediction)。

例子:
    資料探勘在零售行業中的應用:零售公司跟蹤客戶的購買情況,發現某個客戶購買了大量的真絲襯衣,這時資料挖掘系統就在此客戶和真絲襯衣之間建立關聯。銷售部門就會看到此訊息,直接發送真絲襯衣的當前行情,以及所有關於真絲襯衫的資料發給該客戶。這樣零售商店通過資料挖掘系統就發現了以前未知的關於客戶的新訊息,並且擴大經營範圍。

資料挖泥:
    通常作為與資料倉庫和分析相關的技術,資料挖掘處於它們的中間。然而,有時還會出現十分可笑的應用,例如發掘出不存在但看起來振奮人心的模式(特別的因果關係),這些根本不相關的、甚至引人誤入歧途的、或是毫無價值的關聯,在統計學文獻裡通常被戲稱為「資料挖泥」(Data dredging, data fishing, or data snooping)。
資料挖掘意味著掃瞄可能存在任何關係的資料,然後篩選出符合的模式,(這也叫作「過度匹配模式」)。大量的數據集中總會有碰巧或特定的資料,有著「令人振奮的關係」。因此,一些結論看上去十分令人懷疑。儘管如此,一些探索性資料分析 還是需要應用統計分析尋找資料,所以好的統計方法和數據資料的界限並不是很清晰。
更危險是出現根本不存在的關聯性。投資分析家似乎最容易犯這種錯誤。在一本叫做《顧客的遊艇在哪裡?》的書中寫道:「總是有相當數量的可憐人,忙於從上千次的賭輪盤的輪子上尋找可能的重複模式。十分不幸的是,他們通常會找到。」多數的資料挖掘研究都關注於發現大量的資料集中,一個高度詳細的模式。在《大忙人的資料挖掘》一書中, 西弗吉尼亞大學和不列顛哥倫比亞大學研究者討論了一個交替模式,用來發現一個資料集當中兩個元素的最小區別,它的目標是發現一個更簡單的模式來描述相關數據。

    經過演講者的介紹data mining後,更了解到資料探勘的強大與重要性,並且能運用在不同的領域中,讓人印象深刻。








沒有留言:

張貼留言