純真IP數據庫格式學習總結

最近很多朋友問小編純真IP數據庫的格式是什么，小編一周以來，一直在做 IP數據庫的解析。從調研到編碼到優(yōu)化和格式，大概花了有七八天的時間。感覺很好玩?？偨Y一下整個做的過程。希望能幫助到大家！

　　基本結構

　　QQWry.dat 文件在結構上分為3塊：文件頭，記錄區(qū)，索引區(qū)。一般我們要查找IP時，先在索引區(qū)查找記錄偏移，然后再到記錄區(qū)讀出信息。由于記錄區(qū)的記錄是不定長的，所以直接在記錄區(qū)中搜索是不可能的。由于記錄數比較多，如果我們遍歷索引區(qū)也會是有點慢的，一般來說，我們可以用二分查找法搜索索引區(qū)，其速度比遍歷索引區(qū)快若干數量級。圖1是QQWry.dat的文件結構圖。

純真IP數據庫格式詳細解讀圖一

　　圖1. QQWry.dat文件結構

　　要注意的是，QQWry.dat里面全部采用了little-endian字節(jié)序

　　一. 了解文件頭

　　QQWry.dat的文件頭只有8個字節(jié)，其結構非常簡單，首四個字節(jié)是第一條索引的絕對偏移，后四個字節(jié)是最后一條索引的絕對偏移。

　　二. 了解記錄區(qū)

　　每條IP記錄都由國家和地區(qū)名組成，國家地區(qū)在這里并不是太確切，因為可能會查出來“清華大學計算機系”之類的，這里清華大學就成了國家名了，所以這個國家地區(qū)名和IP數據庫制作的時候有關系。所以記錄的格式有點像QName，有一個全局部分和局部部分組成，我們這里還是沿用國家名和地區(qū)名的說法。

　　于是我們想象著一條記錄的格式應該是: [IP地址][國家名][地區(qū)名]，當然，這個沒有什么問題，但是這只是最簡單的情況。很顯然，國家名和地區(qū)名可能會有很多的重復，如果每條記錄都保存一個完整的名稱拷貝是非常不理想的，所以我們就需要重定向以節(jié)省空間。所以為了得到一個國家名或者地區(qū)名，我們就有了兩個可能：第一就是直接的字符串表示的國家名，第二就是一個4字節(jié)的結構，第一個字節(jié)表明了重定向的模式，后面3個字節(jié)是國家名或者地區(qū)名的實際偏移位置。對于國家名來說，情況還可能更復雜些，因為這樣的重定向最多可能有兩次。

　　那么什么是重定向模式？根據上面所說，一條記錄的格式是[IP地址][國家記錄][地區(qū)記錄]，如果國家記錄是重定向的話，那么地區(qū)記錄是有可能沒有的，于是就有了兩種情況，我管他叫做模式1和模式2。我們對這些格式的情況舉圖說明：

純真IP數據庫格式詳細解讀圖二

　　圖2. IP記錄的最簡單形式

　　圖2表示了最簡單的IP記錄格式，我想沒有什么可以解釋的

　　圖3. 重定向模式

純真IP數據庫格式詳細解讀圖三

　　圖3演示了重定向模式1的情況。我們看到在模式1的情況下，地區(qū)記錄也跟著國家記錄走了，在IP地址之后只剩下了國家記錄的4字節(jié)，后面3個字節(jié)構成了一個指針，指向了實際的國家名，然后又跟著地

純真IP數據庫格式詳細解讀圖四

　　址名。模式1的標識字節(jié)是0x01。

　　圖4. 重定向模式2

　　圖 4演示了重定向模式2的情況。我們看到了在模式2的情況下（其標識字節(jié)是0x02），地區(qū)記錄沒有跟著國家記錄走，因此在國家記錄之后4個字節(jié)之后還是有地區(qū)記錄。我想你已經明白了模式1和模式2的區(qū)別，即：模式1的國家記錄后面不會再有地區(qū)記錄，模式2的國家記錄后會有地區(qū)記錄。下面我們來看一下更復雜的情況。

　　圖5. 混和情況

純真IP數據庫格式詳細解讀五

　　圖 5演示了當國家記錄為模式1的時候可能出現的更復雜情況，在這種情況下，重定向指向的位置仍然是個重定向，不過第二次重定向為模式2。大家不用擔心，沒有模式3了，這個重定向也最多只有兩次，并且如果發(fā)生了第二次重定向，則其一定為模式2，而且這種情況只會發(fā)生在國家記錄上，對于地區(qū)記錄，模式1和模式2 是一樣的，地區(qū)記錄也不會發(fā)生2次重定向。不過，這個圖還可以更復雜，如圖7：

　　圖6. 混和情況

純真IP數據庫格式詳細解讀圖六

　　圖6是模式1下最復雜的混和情況，不過我想應該也很好理解，只不過地區(qū)記錄也來重定向而已，有一點我要提醒你，如果重定向的地址是0，則表示未知的地區(qū)名。

　　所以我們總結如下：一條IP記錄由[IP地址][國家記錄][地區(qū)記錄]組成，對于國家記錄，可以有三種表示方式：字符串形式，重定向模式1和重定向模式 2。對于地區(qū)記錄，可以有兩種表示方式：字符串形式和重定向，另外有一條規(guī)則：重定向模式1的國家記錄后不能跟地區(qū)記錄。按照這個總結，在這些方式中合理組合，就構成了IP記錄的所有可能情況。

　　設計的理由

　　在我們繼續(xù)去了解索引區(qū)的結構之前，我們先來了解一下為何記錄區(qū)的結構要如此設計。我想你可能想到了答案：字符串重用。沒錯，在這種結構下，對于一個國家名和地區(qū)名，我只需要保存其一次就可以了。我們舉例說明，為了表示方便，我們用小寫字母代表IP記錄，C表示國家名，A表示地區(qū)名：

　　有兩條記錄a(C1, A1), b(C2, A2)，如果C1 = C2, A1 = A2，那么我們就可以使用圖3顯示的結構來實現重用

　　有三條記錄a(C1, A1), b(C2, A2), c(C3, A3)，如果C1 = C2, A2 = A3，現在我們想存儲記錄b，那么我們可以用圖6的結構來實現重用

　　有兩條記錄a(C1, A1), b(C2, A2)，如果C1 = C2，現在我們想存儲記錄b，那么我們可以采用模式2表示C2，用字符串表示A2

　　你可以舉出更多的情況，你也會發(fā)現在這種結構下，不同的字符串只需要存儲一次。

　　了解索引區(qū)

　　在"了解文件頭"部分，我們說明了文件頭實際上是兩個指針，分別指向了第一條索引和最后一條索引的絕對偏移。如圖7所示：

純真IP數據庫格式詳細解讀圖七

　　圖7 文件頭指向索引區(qū)圖示

　　實在是很簡單，不是嗎？從文件頭你就可以定位到索引區(qū)，然后你就可以開始搜索IP了！每條索引長度為7個字節(jié)，前4個字節(jié)是起始IP地址，后三個字節(jié)就指向了IP記錄。這里有些概念需要說明一下，什么是起始IP，那么有沒有結束IP？假設有這么一條記錄：166.111.0.0 - 166.111.255.255，那么166.111.0.0就是起始IP，166.111.255.255就是結束IP，結束IP就是IP記錄中的那頭 4個字節(jié)，這下你應該就清楚了吧。于是乎，每條索引配合一條記錄，構成了一個IP范圍，如果你要查找166.111.138.138所在的位置，你就會發(fā) 現166.111.138.138落在了166.111.0.0 - 166.111.255.255 這個范圍內，那么你就可以順著這條索引去讀取國家和地區(qū)名了。那么我們給出一個最詳細的圖解吧：

純真IP數據庫格式詳細解讀圖八

　　以上就是純真IP數據庫格式詳細解讀，這個解讀我覺得已經夠詳細了，大家可以去學習起來，對你一定有幫助的！

作者：互聯(lián)網來源：本站整理發(fā)布時間：2019-10-15 09:55:49

上一篇文章：用金山數據恢復大師恢復丟失數據的方法

下一篇文章：如何用360免費升級win10系統(tǒng)

------------------------------- · 相關文檔瀏覽 · --------------------------------------------------------------------- · 熱門文檔瀏覽 · -------------------------------------

· [圖文]IE下載文件提示當前安全設置不允許下載怎么辦？...
· [圖文]圖解怎么取消Win8開機密碼 Win8開機加速直接登錄...
· [圖文]電腦屏幕兩邊有黑邊現象的原因及解決方法！
· [圖文]筆記本拆機教程|惠普HP筆記本DV6拆解詳細教程_清...
· [圖文]硬盤磁盤分區(qū)無損調整、合并、分割圖文教程！
· [圖文]Windows 8輸入法切換修改優(yōu)化小技巧
· [圖文]教你開啟Windows 8 關機選項_解決win8系統(tǒng)如何關...
· 去掉windows8桌面圖標快捷方式小箭頭的小技巧

最新av偷拍av偷窥av网站,在教室伦流澡到高潮h麻豆,一个人在线高清免费观看,中文字幕av无码一二三区电影,中国丰满熟妇xxxx性

純真IP數據庫格式學習總結