詳解探碼Dyson大數據采集系統功能

在《定制化大規模網(wǎng)絡(luò )數據采集的一站式解決方案》一文中伺亏,已經(jīng)介紹過(guò)關(guān)于Dyson大數據采集平臺的工作流程,以及展示了部分的案例實(shí)圖。本文將詳解探碼Dyson大數據采集平臺的詳細功能。

Dyson 網(wǎng)絡(luò )數據采集系統適用于多源數據采集筋遭,可以定制化開(kāi)發(fā)并私有化部署的大規模網(wǎng)絡(luò )數據采集系統。系統提供從數據采集,爬蟲(chóng)撰寫(xiě),任務(wù)調度,數據清洗合并到數據存儲一站式服務(wù),讓政府和企業(yè)能夠快速獲取海量的目標數據。

系統整體功能

系統可做公開(kāi)互聯(lián)網(wǎng)數據采集、全文檢索、操作日志,同時(shí)考慮到實(shí)施中可能會(huì )與多個(gè)其他系統數據對接,因此提供數據交換和數據治理的相應功能支持,預留相應API接口。本系統提供豐富的配置選項,可根據實(shí)際業(yè)務(wù)進(jìn)行靈活調整。

采集系統主要包含了以下功能:

  • 一是采集任務(wù)的統籌計劃击芬、自動(dòng)執行嫉拐、統一管理魏刘、執行情況的趨勢分析。
  • 二是提供靈活的任務(wù)自動(dòng)化編排引擎楣颠,可進(jìn)行靈活配置,對采集任務(wù)進(jìn)行細粒度管理避扎。
  • 三是提供豐富的接口,保證數據采集的具備高拓展性。
  • 四是提供詳細的監管操作日志乃描,對任務(wù)執行可追溯。
  • 五是對采集結果進(jìn)行智能化分析篩查在辆。

功能詳細介紹

一、數據采集任務(wù)

系統可以執行的任務(wù):

  • 概況:系統支持展示系統用戶(hù)管理信息扶欣、創(chuàng )建任務(wù)數蹋烂、運行任務(wù)數、出錯任務(wù)數以及采集任務(wù)運行趨勢圖,支持自定義采集任務(wù)概況展示內容;系統支持根據某個(gè)用戶(hù)來(lái)切換相應的任務(wù)能犯,直觀(guān)展示該任務(wù)的時(shí)間波狀圖 韭拙;?
  • 采集任務(wù)管理:系統具備采集任務(wù)組創(chuàng )建、采集任務(wù)創(chuàng )建、任務(wù)編輯刪除、任務(wù)查看查詢(xún)、任務(wù)啟動(dòng)停止、任務(wù)導入導出等功能;系統支持根據采集任務(wù)名稱(chēng)、接口分類(lèi)、采集任務(wù)狀態(tài)、創(chuàng )建時(shí)間 、創(chuàng )建人員等條件搜索相應的數據采集接口;系統支持根據信息更新頻次,設置每周、每天或間隔執行 ,也可自定義設置執行時(shí)間;系統支持對不同類(lèi)型事件數據資源進(jìn)行分類(lèi)存儲和檢索。

二、采集規則靈活配置,支持自動(dòng)化編程采集任務(wù)

  • 可根據人員日常操作習慣,設置數據采集規則,如打開(kāi)網(wǎng)頁(yè)、點(diǎn)擊元素、輸入文本酷她、循環(huán)、提取數據、鼠標懸浮、判斷等;
  • 能夠對采集任務(wù)進(jìn)行測試,檢查配置是否正確;
  • 支持從頁(yè)面中提取數據固化到數據庫, 可將采集的頁(yè)面整體生成采集;
  • 通過(guò)編程,對獲取的數據進(jìn)行字段格式化、字段合并暮砂,支持觸發(fā)器判斷并根據判斷結果進(jìn)行數據存儲得哆、數據更新、數據清洗去重。

三、豐富的借口和擴展性

  • 系統支持接口分類(lèi)管理,集中展示接口類(lèi)型,調用時(shí)間、調用人員枯渗、調用結果等信息裕唯;?
  • 支持數據接口適配,實(shí)現從一個(gè)渠道端請求接口數據到服務(wù)標準請求數據之間的轉換;
  • 提供每個(gè)任務(wù)采集數 據的查看功能及相應數據的導出功能电摔,可導出為Excel、Json、CSV等格式;
  • 開(kāi)放數據提供接口夜荠,外部系統可通過(guò)接口獲取本系統數據兴蒸。

四萤颗、詳細的監管操作日志

  • 系統支持對數據采集任務(wù)的執行情況滤蝠、信息的采集情況及采集網(wǎng)站的請求情況進(jìn)行統一的監控;?
  • 能夠暴露API 接口,讓外部程序可調用日志;?
  • 提供接口服務(wù)調用的記錄等相關(guān)監控數據;
  • 設置郵件接收,可實(shí)時(shí)接收采集數據出錯、匯總報告郵件。

五、采集結果智能分析篩查

  • 對不同渠道數據進(jìn)行智能去重合并處理;
  • 將網(wǎng)頁(yè)中的內容同步采集,并提供采集附件等功能涎哭。

探碼Dyson數據采集系統具有實(shí)時(shí)的數據采集填物、海量的存儲和計算能力、全流程的采集服務(wù)能力,從而打破數據孤島、打通業(yè)務(wù)數據與用戶(hù)行為數據蟀废、可視化分析,助力用戶(hù)實(shí)現實(shí)時(shí)分析、一站式分析,實(shí)現企業(yè)數據化運營(yíng)。

蜀ICP備15035023號-4