025-85602800
首頁 > 行業案例 > 互聯網數據采集系統

互聯網數據采集系統

2024-02-26

微信圖片_20210421095454.jpg



Ø  關注站點實時(shí)監控采集;支持對(duì)特定的(de)網站、論壇、搜索引擎、社交軟件、境外媒體等進行采集;

Ø  提供穩定的(de)常态化(huà)數據采集;采集數據類型需覆蓋文本、圖片、音(yīn)頻(pín)、視頻(pín),可(kě)按需擴充;

Ø  指定網站數據監測采集;支持用(yòng)戶自定義采集對(duì)象;

Ø  元搜索方式采集:主流搜索引擎以及重點網站站内搜索引擎;

Ø  支持通(tōng)過關鍵詞對(duì)主流搜索引擎進行圖片、音(yīn)視頻(pín)采集及下(xià)載;支持以圖找圖;

Ø  支持對(duì)目标網站特定數據的(de)自動批量下(xià)載;

Ø  支持多(duō)任務高(gāo)并發的(de)數據采集模式;支持分(fēn)布式采集,支持單程序多(duō)線程采集;

Ø  具備采集過程狀态監控的(de)功能;實時(shí)監測采集集群規模、物(wù)理(lǐ)節點數量、軟件運行狀态等并記錄采集日志,這(zhè)些狀态信息将提供給采集任務管理(lǐ)與調度模塊,從而對(duì)任務執行情況進行動态監測;

Ø  具備采集狀态異常告警功能;在采集系統意外中斷或故障、采集失敗時(shí)能夠發出告警信息;

Ø  具備信息采集規則配置的(de)功能;支持配置xpath規則;

Ø  具備采集模闆配置的(de)功能;用(yòng)戶可(kě)維護自定義采集模闆;

Ø  具備采集站點配置的(de)功能;支持添加定向采集站點、全網采集站點;

Ø  具備采集任務調度管理(lǐ)的(de)功能,可(kě)接收并管理(lǐ)多(duō)個(gè)采集任務;

Ø  具備髒數據過濾、數據去重、數據抽取等功能;基于機器學習(xí)的(de)垃圾過濾機制可(kě)以自動過濾廣告、水(shuǐ)貼等無效垃圾信息;

Ø  具備按模闆進行數據屬性值填補、屬性值歸一化(huà)功能;

Ø  具備多(duō)類型數據存儲功能;數據類型需覆蓋文本、圖片、音(yīn)頻(pín)、視頻(pín),可(kě)按需擴充;

Ø  具備增量索引功能;支持按天、周或月(yuè)自建索引;

Ø  具備快(kuài)速檢索與統計功能;

Ø  支持分(fēn)布式部署;

Ø  采集支持網站數量:≥20000個(gè);采集對(duì)象數量無限制;

Ø  定向監測網站的(de)數量:≥500個(gè);采集對(duì)象數量無限制;

Ø  定向監測賬号和(hé)公衆号覆蓋數量:≥5萬個(gè);采集對(duì)象數量無限制;

Ø  特定數據日均更新頻(pín)次:≥8/天;更新頻(pín)率可(kě)配置;

Ø  對(duì)關鍵站點采全率:≥98%

Ø  定向監測對(duì)象采集輪巡周期:≤5分(fēn)鐘(zhōng);輪詢頻(pín)率可(kě)配置;

Ø  支持并發元搜索采集任務數量:≥200個(gè);采集任務數量可(kě)配置;

Ø  狀态監控信息反饋時(shí)間:≤0.1秒;

Ø  采集任務監測數量:≥200個(gè);數量可(kě)配置

Ø  管理(lǐ)調度任務數量:≥200個(gè);數量可(kě)配置

Ø  廣告類信息過濾準确率:≥98%

Ø  文本URL排重準确率:≥99%

Ø  數據排重率:≥98%