互聯網數據采集系統
2024-02-26
Ø 關注站點實時(shí)監控采集;支持對(duì)特定的(de)網站、論壇、搜索引擎、社交軟件、境外媒體等進行采集;
Ø 提供穩定的(de)常态化(huà)數據采集;采集數據類型需覆蓋文本、圖片、音(yīn)頻(pín)、視頻(pín),可(kě)按需擴充;
Ø 指定網站數據監測采集;支持用(yòng)戶自定義采集對(duì)象;
Ø 元搜索方式采集:主流搜索引擎以及重點網站站内搜索引擎;
Ø 支持通(tōng)過關鍵詞對(duì)主流搜索引擎進行圖片、音(yīn)視頻(pín)采集及下(xià)載;支持以圖找圖;
Ø 支持對(duì)目标網站特定數據的(de)自動批量下(xià)載;
Ø 支持多(duō)任務高(gāo)并發的(de)數據采集模式;支持分(fēn)布式采集,支持單程序多(duō)線程采集;
Ø 具備采集過程狀态監控的(de)功能;實時(shí)監測采集集群規模、物(wù)理(lǐ)節點數量、軟件運行狀态等并記錄采集日志,這(zhè)些狀态信息将提供給采集任務管理(lǐ)與調度模塊,從而對(duì)任務執行情況進行動态監測;
Ø 具備采集狀态異常告警功能;在采集系統意外中斷或故障、采集失敗時(shí)能夠發出告警信息;
Ø 具備信息采集規則配置的(de)功能;支持配置xpath規則;
Ø 具備采集模闆配置的(de)功能;用(yòng)戶可(kě)維護自定義采集模闆;
Ø 具備采集站點配置的(de)功能;支持添加定向采集站點、全網采集站點;
Ø 具備采集任務調度管理(lǐ)的(de)功能,可(kě)接收并管理(lǐ)多(duō)個(gè)采集任務;
Ø 具備髒數據過濾、數據去重、數據抽取等功能;基于機器學習(xí)的(de)垃圾過濾機制可(kě)以自動過濾廣告、水(shuǐ)貼等無效垃圾信息;
Ø 具備按模闆進行數據屬性值填補、屬性值歸一化(huà)功能;
Ø 具備多(duō)類型數據存儲功能;數據類型需覆蓋文本、圖片、音(yīn)頻(pín)、視頻(pín),可(kě)按需擴充;
Ø 具備增量索引功能;支持按天、周或月(yuè)自建索引;
Ø 具備快(kuài)速檢索與統計功能;
Ø 支持分(fēn)布式部署;
Ø 采集支持網站數量:≥20000個(gè);采集對(duì)象數量無限制;
Ø 定向監測網站的(de)數量:≥500個(gè);采集對(duì)象數量無限制;
Ø 定向監測賬号和(hé)公衆号覆蓋數量:≥5萬個(gè);采集對(duì)象數量無限制;
Ø 特定數據日均更新頻(pín)次:≥8次/天;更新頻(pín)率可(kě)配置;
Ø 對(duì)關鍵站點采全率:≥98%;
Ø 定向監測對(duì)象采集輪巡周期:≤5分(fēn)鐘(zhōng);輪詢頻(pín)率可(kě)配置;
Ø 支持并發元搜索采集任務數量:≥200個(gè);采集任務數量可(kě)配置;
Ø 狀态監控信息反饋時(shí)間:≤0.1秒;
Ø 采集任務監測數量:≥200個(gè);數量可(kě)配置
Ø 管理(lǐ)調度任務數量:≥200個(gè);數量可(kě)配置
Ø 廣告類信息過濾準确率:≥98%;
Ø 文本URL排重準确率:≥99%;
Ø 數據排重率:≥98%;
上一篇:智慧校園綜合解決方案
下(xià)一篇:句容曙光(guāng)國際大(dà)酒店(diàn)無線網絡建設