Python與大數據
自人類有記錄技術以來,就有數據記錄,數據隨之便會儲存並不斷增長,其中亦會有散失。但幾千年所產生的數據數量,總不及近二十幾年內所產生的數據。皆因人類在科技上的長足發展,特別在電腦發展及儲存技術方面。那麼,大數據就只是“大量數據”的意思麽?每日所產生的大量數據,幾多會真的儲存下來及被運用呢?根據IDC(International Data Corporation,國際數據資訊機構)指出,明年的複合年均增長率(CAGR)估計約為百分之二十三點一三,即新增約181ZB 數據。
數據種類可分為影像(image)、文字(text)、聲音(audio)及視頻(video),數據亦可分為兩大種類;結構性數據(structured data)及非結構性數據(unstructured data)。結構性數據屬於有組織的數據,而非結構性數據則屬於欠缺組織的數據。根據IDC估算,明年全球非結構性數據會佔全球數據的八成。非結構性數據包括非固定形態或結構的數據收集如影像、視頻、音檔、文字等;例如從物聯網(IoT)、監控系統(CCTV)及社交媒體等所產生的數據。
那麼,怎樣運用非結構性數據來產生經濟效益呢?這涉及的學問屬於數據科學(Data Science)。因Python與Data Science有着美好配搭,故Python是目前全球最多人使用去處理大數據的程式語言。
學勤進修教育中心電腦專科導師周柏堅