站內(nèi)搜索
電腦軟件
編輯推薦
本類下載榜
總下載排行
軟件簡(jiǎn)介
apache nutch是一款開放源代碼的Java搜索引擎框架。你需要Java搜索引擎嗎?那就來看看小編為您帶來的這款apache nutch。該工具提供了運(yùn)行自己的搜索引擎所需要的全部工具,包括全文搜索和Web爬蟲,使用Nutch不僅可以建立自己內(nèi)部網(wǎng)的搜索引擎,同時(shí)也可以針對(duì)整個(gè)網(wǎng)絡(luò)建立搜索引擎。它還為大家提供高質(zhì)量的搜索結(jié)果,非常的方便實(shí)用,歡迎需要的用戶來jz5u使用!
1、Nutch致力于讓每個(gè)人能很容易,同時(shí)花費(fèi)很少就可以配置世界一流的Web搜索引擎
2、每個(gè)月取幾十億網(wǎng)頁
3、為這些網(wǎng)頁維護(hù)一個(gè)索引
4、對(duì)索引文件進(jìn)行每秒上千次的搜索
5、提供高質(zhì)量的搜索結(jié)果
1、支持將起始URL集合注入到Nutch系統(tǒng)之中
2、支持生成片段文件,其中包含了將要抓取的URL地址
3、根據(jù)URL地址在互聯(lián)網(wǎng)上抓取相應(yīng)的內(nèi)容
4、解析所抓取到的網(wǎng)頁,并分析其中的文本和數(shù)據(jù)
5、根據(jù)新抓取的網(wǎng)頁中的URL集合來更新起始URL集合,并再次進(jìn)行抓取
6、同時(shí),對(duì)抓取到的網(wǎng)頁內(nèi)容建立索引,生成索引文件存放在系統(tǒng)之中
1、首先先運(yùn)行軟件,選擇File -> Import Project ->選擇apache-nutch-1.9文件夾,確定后選擇Import project from external model(Eclipse)
2、一直點(diǎn)擊next到結(jié)束,成功將項(xiàng)目導(dǎo)入project中去
3、源碼導(dǎo)入工程后,并不能執(zhí)行完整的爬取。Nutch將爬取的流程切分成很多階段,每個(gè)階段分別封裝在一個(gè)類的main函數(shù)中。在外面通過Linux Shell調(diào)用這些main函數(shù),來完整爬取的流程。下面我們來運(yùn)行Nutch中最簡(jiǎn)單的流程:Inject。我們知道爬蟲在初始階段,是需要人工給出一個(gè)或多個(gè)url,作為起始點(diǎn)(廣度遍歷樹的樹根)。Inject的作用,就是把用戶寫在文件里的種子(一行一個(gè)url,是TextInputFormat),插入到爬蟲的URL管理文件(crawldb,是SequenceFile)中。
4、接下來我們按照Nutch默認(rèn)的配置,需要修改Nutch的配置文件,為插件文件夾指定一個(gè)絕對(duì)路徑,修改conf/nutch-default.xml文件內(nèi)容,并且保存到工程中
5、接下來我們就可以開始對(duì)指定的網(wǎng)站的信息進(jìn)行完整的爬取了
1、增加了可爬取的數(shù)據(jù)類型
2、增加對(duì)Web爬蟲的管理功能
3、解決了一些格式上的已知問題
4、修復(fù)了一些bug,優(yōu)化了軟件界面
5、優(yōu)化了軟件性能
Google Earth Pro(google地圖)v4.2.0205.5730簡(jiǎn)體中文綠色版
Google Earth (谷歌地球) 7.3.2.5481 簡(jiǎn)體中文綠色版
Google Earth Pro (google地圖) V7.1.1 中文綠色版
Google Earth PRO【鳥瞰世界】V4.2.0180.1134 繁體中文特別版
Google Earth (谷歌地球)7.3.2.5495 官方安裝版
越獄搜索器 3.0 綠色免費(fèi)版
和諧資源搜索器 V1.0 綠色版
Google Earth (google地球) V7.1.4.1529 綠色便攜版
網(wǎng)博士 v4.7.2簡(jiǎn)體中文綠色版
全盤搜索終結(jié)者v1.53綠色版_一鍵快速電腦全盤搜索文件
專門抓地圖服務(wù)的圖MapCapturerm【抓取google地圖、衛(wèi)星圖、地形圖等】
ed2k資源搜索利器|超凡搜索(beyondsearcher)v1.3.0綠色版
快播搜索工具(Qvod搜索器防關(guān)鍵字屏蔽)v1.0 中文綠色版
快播電影搜索專家 v4.2綠色版_快速搜尋最新電影資源
域名注冊(cè)通(多個(gè)后綴域名搜索)1.6綠色版
刷百度下拉軟件|刷百度下拉框 v1.1綠色免費(fèi)版