實（shí）戰手（shǒu）記：讓百萬級數據瞬間導入SQL Server

我要評論 2010/06/24 20:10:36 來源：綠色資源網編輯：佚名 [大中小] 評論:0 點擊:213次

想（xiǎng）必每個DBA都喜歡挑戰（zhàn）數據導入（rù）時間，用時越短工作效率越（yuè）高，也充分的能（néng）夠證明自己的實力。實際（jì）工作中有時候需要把大量數據（jù）導（dǎo）入數據（jù）庫，然後（hòu）用於各種程序計算，本文將向大（dà）家推薦（jiàn）一個挑戰4秒極限讓百萬（wàn）級數據瞬間導入SQL Server實驗案例。

本實驗將使用5中方法完成（chéng）這（zhè）個過程（chéng），並詳細記錄各種方法所耗（hào）費的時間。所用到工具為（wéi）Visual Studio 2008和SQL Server 2000、SQL Server 2008，分別（bié）使用5中（zhōng）方法將（jiāng）100萬條數據導入SQL Server 2000與SQL Server 2008中（zhōng），實驗（yàn）環境是DELL 2850雙2.0GCPU，2G內存的服務（wù）器。感興趣的朋友可以下載源代碼自（zì）己驗證一下所用（yòng）時間。

好了，下麵我們分別使（shǐ）用基本的Insert 語句、使用（yòng）BULK INSERT語句、在多線程中使用BULK INSERT、使用SqlBulkCopy類、在多線程中使用SqlBulkCopy類五種方法，挑戰4秒極限。還要有（yǒu）一點需要進行說明，本實（shí）驗中執行SQL語句的地（dì）方使用了IsLine FrameWork框架中的DataProvider模塊，這個模塊隻是對SQL配置的讀（dú）取和封裝，並（bìng）不（bú）會對最終結果有（yǒu）本質性的（de）影響（xiǎng），關於IsLine FrameWork框架方麵的（de）知識，請參考“IsLine FrameWork”框架係列文章。

數據庫（kù）方麵使用SQL Server 2000與SQL Server 2008，表名（míng）TableB，字段名稱為Value1，數據庫名可以在App.config中修改，默（mò）認為test。

方法一.使用基本的Insert 語句

這種方法是最基本（běn）的方（fāng）法，大多數人一開始都會想到這種方法。但是（shì）Insert語句似乎（hū）並不適合大批（pī）量的（de）操作，是不是這樣呢?

本方法（fǎ）中將100萬數據分為10個批（pī）次，每個批（pī）次10萬條，每10萬條1個事務（wù），分10次導入數據庫。

-->基本語句:

Insert Into TableB (Value1) values (‘”+i+”’); 說明（míng）：語句中的i是宿主程序中的一個累加變量，用於填充數據庫字段（duàn）中（zhōng）的值。

SQL Server 2000 耗時（shí）：901599

SQL Server 2008耗時：497638

方法二.使用（yòng）BULK INSERT語（yǔ）句

這個類（lèi）的（de）效果，在本實驗（yàn）中（zhōng）可以說是最令人滿（mǎn）意的了，它的使用最簡便、靈活，速度很快。

“BULK INSERT”語句似乎不（bú）是（shì）很（hěn）常用， Aicken聽說Oracle中有（yǒu）一種可以將（jiāng）外部文（wén）件映（yìng）射為Oracle臨時表，然後直接將臨時表中的數據導入（rù）Oracle其他表中（zhōng）的方法，這種方（fāng）法（fǎ）的速度非（fēi）常（cháng）令人滿意，SQL SERVER的（de）BULK INSERT是不是（shì）同（tóng）樣令人滿意呢?

-->　基本語句：

BULK INSERT TableB FROM '

c:\\sql.txt' WITH (FIELDTERMINATOR = ',',ROWTER

/.,mbMINATOR='|',BATCHSIZE = 100000)

說明：“c:\\sql.txt”是一個預先生成的包（bāo）含100條數據的文件，這些數據以“|”符號分隔，每10萬條數據一個事務。

SQL Server 2000耗時：4009

SQL Server 2008耗時：10722

方法三.在多（duō）線程中（zhōng）使用BULK INSERT

在方法二的（de）基（jī）礎上，將100萬條數據分五個線程，每個線程負責20萬條數據，每5萬條一個事物，五個線程同時啟動，看看這樣的效果吧。

SQL Server 2000耗時：21099

SQL Server 2008耗時（shí）：10997

方法四.使用SqlBulkCopy類

這種方法速度也很快，但是要依賴內存，對於幾千萬條、多字段的複雜數據，可能在內存方麵會（huì）有較大的消耗，不過可以使用64位解決方（fāng）案處理這個問題。

幾千萬條、多字（zì）段的數據的情況一般在一些（xiē）業務場景中會遇到，比如計算全球消費者某個業務周期消費額時，要（yào）先獲得主數據庫表（biǎo）中（zhōng）的會員（yuán）消費記錄快照，並將快照儲存至臨時（shí）表中，然後供計算程序使用這些數（shù）據。並（bìng）且有些時候消費者的消費數據並不在一台數據庫服務器中，而（ér）是來自多個國家的多台服務器，這樣我們就必須借助內存（cún）或外（wài）存設備中轉這些數據，然後清洗、合並、檢測，最後導入專用表供計算程序使用。

基本語句：

using (System.Data.SqlClient.SqlBulkCopy sqlBC

= new System.Data.SqlClient.SqlBulkCopy(conn))

{ sqlBC.BatchSize = 100000; sqlBC.BulkCopyTimeout

= 60; sqlBC.DestinationTableName = "dbo.TableB";

sqlBC.ColumnMappings.Add("valueA", "Value1");

sqlBC.WriteToServer(dt); }

說明：

BatchSize = 100000; 指示每10萬條一個事務並提（tí）交

BulkCopyTimeout = 60; 指示60秒按超（chāo）時處理

DestinationTableName = "dbo.TableB"; 指示將（jiāng）數據導入TableB表

ColumnMappings.Add("valueA", "Value1"); 指示將內存中valueA字段與（yǔ）TableB中的Value1字段匹配