在走進一家餐廳,面對菜單上琳琅滿目的菜色時,你會感到困擾,不曉得該選哪幾道菜才不虛此行嗎?
在走進一家餐廳,面對菜單上琳琅滿目的菜色時,你會感到困擾,不曉得該選哪幾道菜才不虛此行嗎?在走進手機通訊行,你會猶疑在多種選擇當中而不知所措嗎?你會不會希望,能有一個先前不久才發布的網路民調,剛好是根據你所希望的消費需求,調查出大家所公認的最佳選擇呢?
現代人每天都在做消費決策,網路上的確也有很多消費心得分享,但你會不會總是發現:自己的需求是獨一無二的,往往得耗費心思瀏覽許多消費心得才能得到符合自己需求的消費指引?
應該有更好的方式幫助消費者,利用網路上的消費心得分享做出選擇,而文字探勘(Text Mining)技術是一個值得嘗試的方向。
文字探勘技術協助解讀大量資訊
文字探勘技術結合了文字分析技術與資料探勘技術,目的是希望能夠透過電腦的的運算能力,過濾及轉化大量的文字內容,讓人能夠更有效率的運用。
相信大家應該都用過目前Web2.0網站上常見的標籤(Tagging)功能,透過這樣的功能我們可以為文字、圖片或影像定義一些我們認為是相關聯的關鍵字;而最基本的文字探勘技術其實便像是在幫一段文字找到合適的標籤。以這段文字為例:
「iPhone有上網真的很方便,朋友想去吃飯可以隨時查地點。」(摘錄自PTT iPhone版)
直接從文字內容看,它合適的標籤可能包括:「iPhone」、「上網」、「方便」、「吃飯」、「查地點」,這些標籤可以透過關鍵字分析找出來。但如果想找出其他衍伸的標籤,像是:「好評」、「行動應用」,就需要透過更複雜的文字探勘技術才能做到。
當一段文字內容能用一組字眼作為象徵,我們就能透過這些字眼串連相關文字內容,或按照消費者需求對眾多文字內容進行篩選。
Text Mining在Web上的可能應用
Web上的豐富文字,正好為文字探勘技術建立了一個取之不盡的實驗場域。在兩者適當的結合之下,其實能夠提供許多創造新型態資訊服務的可能性,如以下兩個範例。
範例一:Reveable 飯店評論口碑分析服務
Reveable是一家透過文字探勘技術提供飯店口碑評論資訊的網站。抓準了網路使用者外出旅遊經常有找尋符合個人期待及高品質飯店的需要,Reveable彙整了來自各大知名旅遊飯店評論分享網站(如Yahoo! Travel、TripAdvisor.com等)中的網友口碑評論,再以文字探勘技術分析評論內容的正負面口碑意見,再將結果以口碑星星級數及評論數等方式排序。
除此之外,針對每一飯店,他們也提供了網友正負面評論句的整理,甚至以不同評估面向加以編排(如房間設施、地點、服務及飯店氣氛等等),讓使用者可以透過網友分享的口碑資訊,快速找到最滿意的飯店。
範例二:嚴選百店
資策會創研所於2009年9月和中華電信Xuite部落格合作舉辦了第二屆部落客百傑活動,當中一個重頭戲,是展示透過部落格網路口碑分析技術所整理出來的「部落客嚴選百店」;百大名店的篩選過程透過文字探勘技術,將網友分享的大量口碑評論文章,經過美食文章分類、文章主題餐廳辨識、餐廳菜名辨識及正反意見分析等層層關卡,最後產出一個按照不同美食類別(如日式、泰式、美式料理等等)加以分門別類的嚴選百大美食餐廳清單。
透過這樣一個餐廳口碑資訊清單,可以幫助想要嘗試新口味卻又怕受傷害的網路使用者,直接參考網民口碑經驗所分享的餐廳來做選擇,大大節省了搜尋過濾資訊的時間和風險。
這次資策會創研所服務智慧中心與《創新發現誌(ideas)》合作,目標是希望能夠以服務智慧中心發展的文字探勘技術協助《創新發現誌(ideas)》找出網友對於iPhone的使用意見。更精確的來說,是要利用文字探勘技術從網路討論區中篩選出帶有意見的評論句,再交由《創新發現誌(ideas)》的編輯群進行後續的篩選。
找出網友對iPhone的使用意見
這次我們所選擇的網路討論區主要是mobile01上的iPhone討論區,並輔以PTT iPhone版的文章,其中mobile01上iPhone版上包含超過12,000個討論主題,應足以代表大眾的意見。我們試著從這些討論區的文章中找出意見句。所謂意見句是指帶有觀感的句子,包括:正向的觀感與負向的觀感。之前提到的例子:「iPhone有上網真的很方便,朋友想去吃飯可以隨時查地點」即屬於帶有正向觀感的句子。
在文字探勘技術領域中,這種藉由分析文字中帶有的正負面情緒及觀感的方式被稱作意見探勘(Opinion Mining)或情感分析(Sentiment Analysis)技術;這項技術目前在學術研究中還算是處於未成熟的階段,仍有很多難題必須要克服。例如我們都知道大家在撰寫部落格文章的時候,往往都會透過文字表現個人的情緒,讓我們得以形容我們對於每個事物的感受,而一篇文章中很可能加夾雜了對於不同對象、事件的不同強度正負面觀感,因此要如何準確的了解作者主要傳達的觀感是偏向正面或負面,是一件相當不容易的事,就像一篇分享某家泰式餐廳的食記中,作者可能對於不同的菜餚有不同的正負面觀感;他可能會覺得「這家店的甜點很好吃,但是泰式酸辣湯卻不是很夠味,我本來最喜歡吃的椒麻雞炸得好硬,讓我超級失望」,集合這些意見他最後的結論是不推薦這家店(即使這家店的甜點非常好吃)。
針對這樣的問題,我們透過對於否定詞、程度詞以及考量正負面意見詞出現頻率等等的方式來處理。例如以前面的例子來說,我們可以判斷出「超級失望」比「很好吃」的觀感強度更強,因此最後統整出來的評論意見就可以正確判斷為負面;而針對「不是很夠味」這種情況也可以透過否定詞的考量來得出最正確的觀感。
我們透過這些機制來處理蒐集的iPhone相關評論文章,排除意見過於模棱兩可或是長度過短的句子,最後整理出了大約5,000句的意見句,其中正面句占了75%左右,而負向句占了25%。從結果來看,我們發現這些透過文字探勘技術所萃取出的觀感意見,的確可提供具參考價值的iPhone的口碑資訊。
透過文字探勘技術的幫助,有機會將商品評論文章透過各種維度,如:產品、正負面,甚至是各種產品特徵進行分類。然後可再根據消費者不同的需求,過濾出特定範圍的商品評論文章供消費者參考,進而統計出熱門程度、正負面傾向等網路民調指標,讓消費者能夠更有效率的做出購買決策。
【文/施嘉峻、彭鼎鈞】
【完整內容請見《創新發現誌》ideas 2010年3月號】
根據這次《創新發現誌(ideas)》與東方快線網絡市調合作進行的2009年Best Choice消費端網路調查結果顯示
,消費者最想擁有的創新產品為「智慧型手機」(23.5%),其次為「Netbook」(21.3%),可見行動裝置已經成為消費者必備的需求。
有趣的是,調查中也顯示,在「智慧型手機」這個項目中,目前擁有智慧型手機的網友中,未來最想擁有商品為智慧型手機,仍有17%,表示他們對智慧型手機的期待仍高,希望再購或換購。而擁有Netbook的網友,未來最想擁有商品為Netbook,仍有21%。可見得網友們對於到手的創新科技產品仍不滿足,而廠家推陳出新更進階、更創新的玩家型產品,依然有不錯的成長空間。
而最想要的智慧型手機品牌為蘋果iPhone(43.3%)、遊戲機品牌Wii(58.8%),跟上次調查結果相同,依舊連霸;最想要的Netbook品牌為Acer(35.1%),把上次冠軍Asus EeePC擠到第二名;而SONY的電子書品牌SONY Reader、SONY數位相框囊括兩項冠軍,Garmin獲得手持導航PND的首選,把上屆的冠軍Mio擠下。
這次Best Choice也針對網友在網路上消費與生活的項目進行調查,並由於社交媒體(Social Media)的需求日益提高,也加入這次Best Choice的調查項目中,結果顯示,網友最愛上的部落格平台是Yahoo!(35.9%)和無名小站(34.4%);相簿網站是無名小站(45.4%);而購物網站是奇摩購物(53.8%);最常上的交友網站和微網誌則是Facebook(56.0%)、(73.0%)。
【整理/許立佳】
【完整內容請見《創新發現誌》ideas 2010年3月號】
留言列表