消息經濟來了.jpg 

找不到適合的報導主題,是媒體工作者最擔心的問題之一。即時的網際網路資訊, 可作為汲取靈感的重要管道;但面對浩瀚的網路訊息,要從何下手,才能有效精準篩選出質、量均符合所需的資訊?

創新發現誌.jpg 

找不到適合的報導主題,是媒體工作者最擔心的問題之一。即時的網際網路資訊, 可作為汲取靈感的重要管道;但面對浩瀚的網路訊息,要從何下手,才能有效精準篩選出質、量均符合所需的資訊?

財團法人資訊工業策進會創新應用研究所與清華大學服務研究所合作研發的TechMining技術,將會是新世代媒體工作者的議題搜尋好幫手。TechMining可針對英語新聞網站、部落格作全天候監測觀察,一旦有新文章pose上網,就能馬上對文章進行關鍵字拆解、判讀,依關鍵字特性作統計分析;根據分析的數據結果,可判別在一定的時段中,最熱門的議題是哪些公司、技術、產品等。

讓研究主題不落伍

「這項技術的雛型,原來是為了配合我們的研究工作而來,」資策會創新應用研究所技術觀測與應用分析組組長徐毓良說,因為經常關注應用技術的研究,必須了解最新的市場發展,而與鑽研資料探勘領域的清華大學服務科學研究所所長林福仁教授合作開發TechMining網路服務技術。

藉著TechMining之助,研究團隊可掌握目前市場最熱門的議題,讓研究主題不致於過於冷門或落伍;另一方面,一旦偵知某個產品的議題熱度統計排名有了變化,也就可以推測市場應該是出現了一些值得關注的事件,可以直接點擊該關鍵詞的最新網路報導文章,看看發生了什麼事。

運用TechMining,可以設定自己希望「盯住」的目標網站,如目前資策會研究團隊便設定這項技術定期偵測如美國商業週刊《BusinessWeek》等11個英文新聞網站,執行全天24小時的監測觀察,所有新上線的文章皆納入統計,並直接探勘關鍵字,進行統計分析。可依年、月、星期分期區間,按話題熱度排行。查詢入榜關鍵字時,相關新聞圖片與文章便直接秀出來,同時顯示關鍵字的關聯詞組圖示,要追索相關新聞,就容易得多。

Web 2.0 資訊大爆發

協助開發TechMining技術的林福仁教授說明,社會網路(Social web)相關知識的研究,至少已有10年的歷史,但當年計算技術仍受限,所以還停留在小型的組織實驗階段,無法處理大筆的資料關聯情況。但進入Web 2.0時代後,開放的資料、高速的運算,詳細掌握各種資料的關聯性成為可能。「過去對實驗的描述,我們都稱為Sample(樣本),但現在都直接稱為Population(母體)了!」林福仁笑著說。

林福仁解釋,Web 2.0提供了資料探勘的一道巧門,能為每個人的需求,打造出專屬的資訊服務系統。如目前手機已相當普及,就可以透過網路,在手機上打造一套完全符合個人興趣需求的即時剪報系統,運用電子設備的運算、判讀能力,就能將搜尋與過濾的成本節省下來,整理出有效率的資料,並能進一步累積運用。

有了標籤 資料就能被分類

「為資料訂標籤(Tag)很重要,只要有了標籤,資料就能被分類、推薦,」林福仁說,無論是文字或圖形檔,有了標籤描述,即可進行比對;當然,在比對過程中,電腦難免會對一些同義詞混淆、誤判,這時操作者即可另作人工比對,視情況將類似的關鍵詞重新定義統一,以提升資料的準確度。例如推薦口碑,因為探勘的結果為眾多網友認同,所以這個口碑的可信度應該就很高。有些網站就是運用資料探勘所得的網路推薦數據,成為集結同類網站資訊的另一個資訊中心,如某些介紹旅遊景點的網站,本身並不直接採訪旅遊景點,而是依網路口碑,引用各景點的網頁,或旅人經驗分享的網站資料,相互連結分享。如同前述的手機行動新聞剪報站,就是一個引用各大新聞台資料的個人新聞站。

「後知後覺」勝於「不知不覺」

林福仁指出,進入雲端時代,企業的各種營運交流需求日益增加,對於客戶關係管理(CRM)、供應商往來等服務的的管理,勢必更仰賴資料探勘技術的協助。如美國中情局(CIA)就具有自動監測重點國家與組織相關資訊的科技與機制,一旦發現通信或資料狀況異常,便能及時反應;又如世界衛生組織(WHO)也一直密切探勘各國的新聞資料,藉此監測各國的傳染病、污染發生狀況。

TechMining的原理與目的也相似,使用者可設定各種資訊監測範圍,協助找出最火紅的話題,秀出原始報導,並描繪出相關產業鏈與關係,讓使用者可以繼續跟追發展。在第一時間掌握熱門話題的轉變,了解產業的變動,可以視為配備靈敏新聞鼻的監測「烽火台」,即時掌握議題,就能領先同業競爭者,這項探勘工具可望成為媒體出版業的新寵兒。

不過,林福仁說,雖然資料探勘可以同步抓到新資料,但還是要等資料公開上網才抓得到,嚴格地說,比起早期投入的「先知先覺」者,還算是「後知後覺」,但絕對可以避免「不知不覺」的窘態。

目前TechMining的功能限於英文資料的處理,主要是英文字詞的正負向意涵與副詞程度較容易判定,中文的文法比英文複雜,所以中文資料探勘技術發展的應用起步較晚,但也蘊含更大的商機。林福仁說,未來TechMining可配合雲端運算架構,提供行動化、模組化、有機化的客製服務,企業在開放的Web 2.0環境中運用資料探勘服務,可以建立起屬於自己的有價、有系統的資料庫。

聰明搜尋小撇步

TechMining網路服務目前仍在發展階段,還要等一陣子才能與網友正式見面。在它正式問世前,網友搜尋資料恐怕還得仰賴Google等搜尋引擎。

搜尋資料,要靠設定關鍵字來協助。不過,當今「關鍵字廣告」充斥,若只是設定單一關鍵字,找到的恐怕是一串廣告。讀者可以嘗試以下方式,改進搜尋效率:

1.多重關鍵字:多設幾個關鍵字,進行交集、聯集、互斥運算(布林邏輯運算)。

2.檔案類型選擇:除一般網頁外,也可針對新聞、圖片、影片等格式查詢,增加搜尋範圍。或譯成外文,找尋國外網頁資料。

3.聯想新關鍵字:有時關鍵字並沒有設錯,但網頁資料不盡然以這個關鍵字呈現,可以聯想相關詞組,進行搜尋,如「玫瑰」可聯想出「薔薇」、「園藝」、「花店」等,再與前述其他方式組合運用,提升搜尋效率。

目前,國內已有若干提供以關聯詞為搜尋工具的網路服務,如SiteTag(http://sitetag.us/),搜集標籤 (Tag,即關聯詞)作為查詢工具,也是值得利用的搜尋服務。

【完整內容請見《創新發現誌》ideas 2010年4月號】

image.jpg 

arrow
arrow
    全站熱搜

    碧琴司の 發表在 痞客邦 留言(1) 人氣()