實(shí)戰手(shǒu)記:讓百萬級數據瞬間導入SQL Server
想(xiǎng)必每個DBA都喜歡挑戰(zhàn)數據導入(rù)時間,用時越短工作效率越(yuè)高,也充分的能(néng)夠證明自己的實力。實際(jì)工作中有時候需要把大量數據(jù)導(dǎo)入數據(jù)庫,然後(hòu)用於各種程序計算,本文將向大(dà)家推薦(jiàn)一個挑戰4秒極限讓百萬(wàn)級數據瞬間導入SQL Server實驗案例。
本實驗將使用5中方法完成(chéng)這(zhè)個過程(chéng),並詳細記錄各種方法所耗(hào)費的時間。所用到工具為(wéi)Visual Studio 2008和SQL Server 2000、SQL Server 2008,分別(bié)使用5中(zhōng)方法將(jiāng)100萬條數據導入SQL Server 2000與SQL Server 2008中(zhōng),實驗(yàn)環境是DELL 2850雙2.0GCPU,2G內存的服務(wù)器。感興趣的朋友可以下載源代碼自(zì)己驗證一下所用(yòng)時間。
好了,下麵我們分別使(shǐ)用基本的Insert 語句、使用(yòng)BULK INSERT語句、在多線程中使用BULK INSERT、使用SqlBulkCopy類、在多線程中使用SqlBulkCopy類五種方法,挑戰4秒極限。還要有(yǒu)一點需要進行說明,本實(shí)驗中執行SQL語句的地(dì)方使用了IsLine FrameWork框架中的DataProvider模塊,這個模塊隻是對SQL配置的讀(dú)取和封裝,並(bìng)不(bú)會對最終結果有(yǒu)本質性的(de)影響(xiǎng),關於IsLine FrameWork框架方麵的(de)知識,請參考“IsLine FrameWork”框架係列文章。
數據庫(kù)方麵使用SQL Server 2000與SQL Server 2008,表名(míng)TableB,字段名稱為Value1,數據庫名可以在App.config中修改,默(mò)認為test。
方法一.使用基本的Insert 語句
這種方法是最基本(běn)的方(fāng)法,大多數人一開始都會想到這種方法。但是(shì)Insert語句似乎(hū)並不適合大批(pī)量的(de)操作,是不是這樣呢?
本方法(fǎ)中將100萬數據分為10個批(pī)次,每個批(pī)次10萬條,每10萬條1個事務(wù),分10次導入數據庫。
-->基本語句:
Insert Into TableB (Value1) values (‘”+i+”’); 說明(míng):語句中的i是宿主程序中的一個累加變量,用於填充數據庫字段(duàn)中(zhōng)的值。
SQL Server 2000 耗時(shí):901599
SQL Server 2008耗時:497638
方法二.使用(yòng)BULK INSERT語(yǔ)句
這個類(lèi)的(de)效果,在本實驗(yàn)中(zhōng)可以說是最令人滿(mǎn)意的了,它的使用最簡便、靈活,速度很快。
“BULK INSERT”語句似乎不(bú)是(shì)很(hěn)常用, Aicken聽說Oracle中有(yǒu)一種可以將(jiāng)外部文(wén)件映(yìng)射為Oracle臨時表,然後直接將臨時表中的數據導入(rù)Oracle其他表中(zhōng)的方法,這種方(fāng)法(fǎ)的速度非(fēi)常(cháng)令人滿意,SQL SERVER的(de)BULK INSERT是不是(shì)同(tóng)樣令人滿意呢?
--> 基本語句:
BULK INSERT TableB FROM '
c:\\sql.txt' WITH (FIELDTERMINATOR = ',',ROWTER
/.,mbMINATOR='|',BATCHSIZE = 100000)
說明:“c:\\sql.txt”是一個預先生成的包(bāo)含100條數據的文件,這些數據以“|”符號分隔,每10萬條數據一個事務。
SQL Server 2000耗時:4009
SQL Server 2008耗時:10722
方法三.在多(duō)線程中(zhōng)使用BULK INSERT
在方法二的(de)基(jī)礎上,將100萬條數據分五個線程,每個線程負責20萬條數據,每5萬條一個事物,五個線程同時啟動,看看這樣的效果吧。
SQL Server 2000耗時:21099
SQL Server 2008耗時(shí):10997
方法四.使用SqlBulkCopy類
這種方法速度也很快,但是要依賴內存,對於幾千萬條、多字段的複雜數據,可能在內存方麵會(huì)有較大的消耗,不過可以使用64位解決方(fāng)案處理這個問題。
幾千萬條、多字(zì)段的數據的情況一般在一些(xiē)業務場景中會遇到,比如計算全球消費者某個業務周期消費額時,要(yào)先獲得主數據庫表(biǎo)中(zhōng)的會員(yuán)消費記錄快照,並將快照儲存至臨時(shí)表中,然後供計算程序使用這些數(shù)據。並(bìng)且有些時候消費者的消費數據並不在一台數據庫服務器中,而(ér)是來自多個國家的多台服務器,這樣我們就必須借助內存(cún)或外(wài)存設備中轉這些數據,然後清洗、合並、檢測,最後導入專用表供計算程序使用。
基本語句:
using (System.Data.SqlClient.SqlBulkCopy sqlBC
= new System.Data.SqlClient.SqlBulkCopy(conn))
{ sqlBC.BatchSize = 100000; sqlBC.BulkCopyTimeout
= 60; sqlBC.DestinationTableName = "dbo.TableB";
sqlBC.ColumnMappings.Add("valueA", "Value1");
sqlBC.WriteToServer(dt); }
說明:
BatchSize = 100000; 指示每10萬條一個事務並提(tí)交
BulkCopyTimeout = 60; 指示60秒按超(chāo)時處理
DestinationTableName = "dbo.TableB"; 指示將(jiāng)數據導入TableB表
ColumnMappings.Add("valueA", "Value1"); 指示將內存中valueA字段與(yǔ)TableB中的Value1字段匹配
WriteToServer(dt);寫入(rù)數據庫。其中dt是預先構建(jiàn)好的DataTable,其中包含valueA字段。
SQL Server 2000耗時:4989
SQL Server 2008耗時:10412
方法五.在多線程中使(shǐ)用SqlBulkCopy類
基(jī)於方法四,將100萬條數據(jù)分五個線程,每個線程負責20萬條數據,每(měi)5萬條(tiáo)一個事物,五個線程同時啟動,看看這樣的效果吧。
SQL 2000耗時:7682
SQL 2008耗時:10870
結果
幾(jǐ)天的時間終於把這個實(shí)驗(yàn)給完成了,比較令人(rén)失望的是SQL SERVER 2008導入數據的性能似乎並不想我們想(xiǎng)象的那樣優秀。
關(guān)鍵詞:SQL,Server
閱讀本文後您有什麽感想? 已有 人給出評價!
- 0
- 0
- 0
- 0
- 0
- 0