公司網(wǎng)站制作采集數(shù)據(jù)模塊設(shè)計(jì)
日期 : 2020-12-18 23:45:14
采集數(shù)據(jù)模塊設(shè)計(jì)。采集模塊中,成功登陸到采集主頁后,把需要的采集頁面(例如論壇博主信息頁面)輸入到采集文本框中進(jìn)行采集,同時(shí)后端校驗(yàn)并根據(jù)需求采集用戶想要的信息,采集到重要的數(shù)據(jù)以后,自動(dòng)執(zhí)行入庫操作,把數(shù)據(jù)儲(chǔ)存在數(shù)據(jù)庫data表中。
并且將采集到的數(shù)據(jù)返回給頁面上,根據(jù)用戶的選擇和需求展示信息,同時(shí),后臺(tái)通過鏈采集保證數(shù)據(jù)的完整性(同一個(gè)博主文章的完整性)。
鏈采集:通過校驗(yàn),比對(duì)采集到的數(shù)據(jù)是否完整,如果所采集的頁面所含的數(shù)據(jù)不完整(一個(gè)頁面所含的博主文章不全),那么通過鏈采集,找到該url所對(duì)應(yīng)的下一頁或者下幾頁的數(shù)據(jù),找到并采集,直到全部找到所要采集的信息為止(找到博主全部的文章為止)。
并且將采集到的數(shù)據(jù)返回給頁面上,根據(jù)用戶的選擇和需求展示信息,同時(shí),后臺(tái)通過鏈采集保證數(shù)據(jù)的完整性(同一個(gè)博主文章的完整性)。
鏈采集:通過校驗(yàn),比對(duì)采集到的數(shù)據(jù)是否完整,如果所采集的頁面所含的數(shù)據(jù)不完整(一個(gè)頁面所含的博主文章不全),那么通過鏈采集,找到該url所對(duì)應(yīng)的下一頁或者下幾頁的數(shù)據(jù),找到并采集,直到全部找到所要采集的信息為止(找到博主全部的文章為止)。