2013年3月13日 星期三

#OpenDataDay


Open Data 開放資料可以做到什麼

“這個 Chrome 瀏覽器的套件,求職者在 104、yes123、1111 找工作時。公司假如曾違反勞基法,會自動跳出警告視窗警告應徵者,這公司過去的違規事項,或近期內是否放過無薪假”。”把模擬城市的遊戲界面,做在真的地圖上:這樣就可以看到每一點最近的消防局、警察局、廟會。還可以計算每一個地址的幸福指數“。“評律網上,可以找到每一個律師的訴訟勝負比例,進而挑選最適合案情的律師。因為根據我們的調查,台灣超過 7 成的民眾遇到法律糾紛的時候,是依賴朋友推薦,尚無一個可以客觀選擇律師的平台。”

星期天 (2/24) 我去參加了 Open Data Day (國際開放資料日),我在哪邊遇到好些有趣的人,上述的問題,描述了一些他們在試著解決的問題。

近幾個月,從開放政府預算、公車時刻查詢 APP、以及實價登錄網,台灣也開始有些開放資料的有趣應用。 我的朋友問我說,為什麼開放資料現在才崛起?從某方面來說,資料是越來越多了:公車裝上追蹤器,也是這幾年內的事情而已。

但另一方面,有些資訊一直以來都存在著:勞委會一直以來都有記錄違反勞基法的公司,而法院的判決也一直都存在。是什麼原因造成這些應用最近出現?我們可不可以加速這些應用的生成?

目前政府的做法,似乎就是拿這些資料,推出一堆自家的應用程式。(令人懷疑,或許這已經成為公家單位考績的一部份了)。如此產出的應用程式,通常是功能強大,但不大好用。追根究底,這些應用程式多半是以招標的方式承包:在預算限制內,完成特定的功能。功能的數量可以清楚界定,但使用起來是否方便,就難以驗收了。

這背後基本的假設是:公家單位完全清楚這些資料可以開發做什麼用途,就像一位種哈密瓜的農夫知道自己的作物應該怎麼樣來吃。許多年來,我們被告知哈密瓜是一種飯後水果,在吃完後,用湯匙挖著哈密瓜往嘴裡送。

在 Open Data Day,我看到有人把哈密瓜當成前菜,配著煙薰火腿一起享用。看到這些令人驚艷的應用,反過來看當初我們是怎麼吃哈密瓜,反而顯得相當無趣,或許農夫知道之後也感到相當的羞愧,當初怎麼信誓旦旦的介紹這是哈密瓜的所有吃法了。或許根本性的問題,就是農夫根本不應該插手決定哈密瓜有什麼用途,他只管生產哈密瓜就是了。

資訊就是前述的哈密瓜,我們過去仰賴著資擁有者提供我們應用的選擇。但現今,所謂 Open Data 提倡:或許民間可以更有效率的把這些資訊用來解決他們的需求。有時候,是因為解決這些問題需要有多方單位的資料(比方:CityDashBoard 的計劃);另一些時候,只是因為這些問題需要一個不同的突破方式(比方:前述求職小幫手)。

過去,要處理地理資訊等問題,需要昂貴的專業軟體。公家單位要解決一個問題的時候,就會開一個標案,由幾位台大教授帶領跟他們的學生還有幾家小型的顧問公司競標。

近幾年來,在資料收集、整理、分析、以及視覺呈現上,都多了好些免費工具,包含許多開放、半開放( Google Map)的基礎建設。這是世界趨勢,台灣從去年底開始逐漸出現了幾場以 Open Data 為主軸的駭客松 (i.e. g0v 資料放領)。許多會寫程式的”非專業人士“進入這一個領域,百花齊放,雖偶爾幾個例子惹人爭議,但總體上還是為了社會帶來許多正向的影響。

台北、高雄市府也已經建立開放資料的平台,呼應這項趨勢。短期內還有些問題必須解決,像是:是否應該要跟民間競爭釋放應用程式?創造自己的開放資料規範或跟國際接軌?還有到底應該用什麼格式釋放這些資料。

窺視 Open Data Day 當天的活動進行,或可得到一些啓發。
當天最我最驚艷的工作,是前面提到, Chrome 瀏覽器上找工作的求職小幫手:把勞委會的資料庫運用在一個找工作的過程中,把求職程序,與資料在一起。該原型,單由 Ronny Wang 所完成(目前求職小幫手雖然還無法網路上找到,只有另外一個相關專案,是把關係企業視覺化)。

由 Tim Hong 所帶領的城市儀表板,則希望可以把更多的資料來源整合到 Google Map,希望可以做成像模擬城市裡面的控制界面。

評律網,已經把上百萬筆的法院的訴訟案件進行整理,打算未來開放以 API 的方式,提供第三方可以製作其他應用。在美國,有一個工作叫做法律助理,專門協助律師處理文件工作。想像原本需要五、六個小時整理某公司的訴訟案件,可以有電腦協助。不過評律網的開發人員也有提到,訴訟文件目前遇到的問題之一,就是錯字很多。

當天跟傳統駭客松不同的。 是除了開發者,難得還有需求者帶著具體的問題到現場:地球公民基金想要解決的是水質監測的問題:特別針對新竹地區的霄裡溪,現階段政府已經有針對該地區的水質進行監測,但目前農委會網站上所公佈的數值過於籠統,僅有“優良-優良”,無判斷細項。

媒合有開發者以及需求者的確是相當好的想法

林業試驗所的王豫煌,近一年來,他們開始搜集森林裡面的聲音、影像檔案,結合他們原本在森林裡所架設的氣候觀測站,他們希望可以建立一個物候的模型:什麼樣的生物容易在什麼樣的環境下出現。他們遇到幾個問題,一是辨識技術:一個十秒的錄影,會捕捉一個生物在鏡頭出現的蹤跡。但以現今的電腦技術,這類型的模式辨識其實相當困難。這些工作其實都需要人工進行。

當天討論到一個可能的模式,是效法 NASA :把星空的資料釋放給大眾,用人眼協助標記照片上所出現的東西。 NASA 的專家就標記的內容進一部分析。 或許台灣會有民眾想要在無聊通勤的時候,用手機分析這一個影片中出現的是穿山甲還是猴子?

但在有限經費內,如何假設一個夠大的平台?該單位每個月約可以產生  1 TB 的音訊資料量、100 GB 的影像資料(1 TB 等於 1,000 GB,Gmail 信箱約有 10 GB 的大小)。在有限的經費底下,怎麼樣釋出這些資料是一個一大難題。現場所討論到的一個解決方案,或許是利用第三方影音平台(Youtube)上加值。

關於資料來源問題,現場也有不同的團隊試著從別的切入點下手:將資料的格式統一。政府開始推動開放資料平台,把很多公開資料都釋放出來了,但卻面臨這些資料無法被使用的窘境。有部分原因,是因為他們使用的軟體系統格式,可能是該軟體特有,沒有軟體的人無法打開(想像要用小畫家打開 Photoshop 的 .ai 檔)。這一個問題,在地理資料上特別常見。為公家單位平反:在當初規劃這些軟體的時候,沒有辦法預見十幾年後,會需要把這些付費軟體內的資料轉換為某種特定的開放格式。

這一個團隊在做的,就是拿市政府上的資料進行轉換,然後再公開。這相當層面,為了所有人謀福利。做到底層很繁瑣的格式轉換。

主辦者 CK 自己也帶了兩個小組,一個是整理台灣目前的發展狀況,未接下來要研究核能議題的人留下基礎。另外是呼應全球 Open Data Day 的專案,將 World Bank 釋出來的資料進行視覺化。

林旭宏發起了一項跟保育蛾有關的計劃,不過當天沒有機會聊到。

特別感謝精誠資訊提供場地。