亚洲精品国产精品制服丝袜,亚洲欧美日韩精品a∨,97在线热免费视频精品视频,亚洲人成在线观看网站不卡

后金融危機(jī)時代,花旗銀行是如何提高數(shù)據(jù)質(zhì)量的?

發(fā)布時間:2016-07-20  |   來源: 川總寫量化

作者:石川

摘要:本文介紹世界頂級金融機(jī)構(gòu)花旗銀行如何處理并提高數(shù)據(jù)質(zhì)量。


0 引言


量化投資決策的數(shù)學(xué)模型要分析大量的宏觀經(jīng)濟(jì)數(shù)據(jù)以及股票交易數(shù)據(jù),模型有效與否直接由輸入數(shù)據(jù)的質(zhì)量決定。垃圾進(jìn),垃圾出(garbage in, garbage out),模型輸出結(jié)果的質(zhì)量只會比輸入數(shù)據(jù)的質(zhì)量更差。那么,一套科學(xué)、完整、有效的數(shù)據(jù)質(zhì)量分析框架就顯得格外重要。今天,我們就來為你介紹世界頂級金融機(jī)構(gòu)花旗銀行是如何處理并提高數(shù)據(jù)質(zhì)量的。


1 契機(jī)


2008 年全球金融危機(jī)暴露了美國金融體系的內(nèi)在缺陷,危機(jī)過后政府部門普遍提高了對金融機(jī)構(gòu)的監(jiān)管要求和監(jiān)管力度。對于金融機(jī)構(gòu)自身而言,數(shù)以萬計決策的制定倚賴數(shù)以億計數(shù)據(jù)的準(zhǔn)確性,金融危機(jī)充分暴露了這個領(lǐng)域存在嚴(yán)重問題。因此,來自危機(jī)的警示和趨于嚴(yán)苛的監(jiān)管,共同促使金融機(jī)構(gòu)重新審視提高數(shù)據(jù)質(zhì)量的重要性。筆者有幸于 2011 年就職于全球最大的金融機(jī)構(gòu)之一的花旗銀行并直接參與數(shù)據(jù)質(zhì)量的工作。本文對花旗銀行改善數(shù)據(jù)質(zhì)量的分析框架進(jìn)行簡單梳理。感興趣的讀者可以進(jìn)一步參閱我和當(dāng)時的同事為此發(fā)表的論文 Shi?et al. (2015) 以及出版物 Jugulum?(2014)。


2 CDO


作為行業(yè)的領(lǐng)袖之一,花旗銀行在 2009 年下半年成立了企業(yè)層面的數(shù)據(jù)辦公室(Chief Data Office,下稱 CDO),主要有兩個作用:


制度層面,負(fù)責(zé)在公司內(nèi)制定和形成數(shù)據(jù)管理的紀(jì)律和文化;


執(zhí)行層面,為公司各項業(yè)務(wù)提高數(shù)據(jù)質(zhì)量。


通過這個部門,花旗將數(shù)據(jù)質(zhì)量的實時監(jiān)控深入到日常運作的方方面面,幫助及時發(fā)現(xiàn)包括流動性、信貸、市場、保險和運營在內(nèi)的各項風(fēng)險?;ㄆ靾孕牛哔|(zhì)量的數(shù)據(jù)不僅是企業(yè)競爭力的關(guān)鍵所在,也有助于提升監(jiān)管部門的信心。


3 分析框架


這個新成立的數(shù)據(jù)部門包括幾個小組,而我在的組專門負(fù)責(zé)數(shù)據(jù)分析和改進(jìn)。這個組由數(shù)據(jù)專家和分析師組成,負(fù)責(zé)構(gòu)建數(shù)據(jù)質(zhì)量的監(jiān)控和改進(jìn)框架。整個分析框架由兩部分組成。


首先是通過“漏斗法”、利用統(tǒng)計學(xué)手段確定需要監(jiān)控和改善的數(shù)據(jù)元素。數(shù)據(jù)元素可以定義為在銀行的各項業(yè)務(wù)中用到的數(shù)據(jù)屬性(比如客戶的姓名就是一個數(shù)據(jù)元素,它可以被用于賬戶管理、市場營銷以及客戶服務(wù)這些業(yè)務(wù)中)。銀行業(yè)務(wù)繁雜,有數(shù)以萬計的數(shù)據(jù)元素,因此必須找到對運營、服務(wù)、監(jiān)管等應(yīng)用場景成敗與否最至關(guān)重要的數(shù)據(jù)元素,把有限的人力和資源用來提高它們的質(zhì)量。被選出的核心數(shù)據(jù)元素稱為 CDEs(Critical Data Elements)。


當(dāng) CDEs 確定之后,采用流程改善的經(jīng)典工具 6?Sigma(譯作六西格瑪)對這些數(shù)據(jù)進(jìn)行實時的監(jiān)控和分析。通過監(jiān)控數(shù)據(jù)質(zhì)量判斷產(chǎn)生這些 CDEs 的業(yè)務(wù)過程是否出現(xiàn)紕漏或者異常變化,及時發(fā)現(xiàn)這些業(yè)務(wù)的潛在風(fēng)險并采取有效的措施避免可能的損失。


接下來,我們就來看看漏斗法是如何篩選核心數(shù)據(jù)元素的(這是花旗銀行的獨創(chuàng))。對于 6?Sigma,由于它是業(yè)界廣為人知的過程改善方法,我們只稍作提及但不會重點描述。為了結(jié)合實際,我們將用巴塞爾第二協(xié)定的用例來說明花旗的數(shù)據(jù)質(zhì)量分析框架。


4 漏斗法


漏斗法包含核心數(shù)據(jù)元素的識別和優(yōu)選兩部分(流程圖見圖 1)。


識別階段(前兩步),通過業(yè)務(wù)專家(subject matter experts)和評分矩陣初步篩選出核心數(shù)據(jù)元素。一般來說,在這個階段過后,被選出的元素個數(shù)仍然太多。


優(yōu)選階段(后兩步),通過統(tǒng)計學(xué)中的相關(guān)性和信噪比分析進(jìn)一步過濾不必要的數(shù)據(jù)元素,得到最終的核心數(shù)據(jù)元素。


f1.png

圖 1?漏斗法識別和優(yōu)選核心數(shù)據(jù)元素 CDEs

?

漏斗法因“輸入元素多、輸出元素少”而得名。下面我們將按照先后順序,對漏斗法的這四個步驟分別進(jìn)行詳述。


4.1?引入業(yè)務(wù)專家,“客戶需求”是重中之重


引入業(yè)務(wù)專家觀點是這個分析框架的核心之一。一切提高數(shù)據(jù)質(zhì)量的努力都是為了每一個具體的業(yè)務(wù)用例,而業(yè)務(wù)專家在這個過程中就是“客戶”,數(shù)據(jù)元素的鑒別必須從“客戶需求”(voice of customers)開始。業(yè)務(wù)專家為 CDO 的數(shù)據(jù)專家解釋業(yè)務(wù)過程的商業(yè)邏輯,闡明該業(yè)務(wù)的輸入和輸出數(shù)據(jù)元素都有哪些。在二者的配合下,由業(yè)務(wù)專家首先擬定候選核心數(shù)據(jù)元素。在巴塞爾第二協(xié)定這個用例中,花旗的相關(guān)業(yè)務(wù)專家首先鑒別出 35 個數(shù)據(jù)元素。


4.2 使用評分矩陣,按對業(yè)務(wù)的重要性為數(shù)據(jù)元素打分


雖然業(yè)務(wù)專家可以初選出很好的候選數(shù)據(jù)元素,但進(jìn)一步的篩選就需要一個可以量化的科學(xué)體系了,評分矩陣便應(yīng)運而生。


f3.png

圖 2?數(shù)據(jù)元素評分框架


評價矩陣如圖 2 所示。首先選出一系列和業(yè)務(wù)相關(guān)的數(shù)據(jù)評價標(biāo)準(zhǔn),并按照其重要性打分。為了有一定的區(qū)分度,分?jǐn)?shù)分為 1、4、7、10 四檔。其次,將每個數(shù)據(jù)元素按每個評價標(biāo)準(zhǔn)的規(guī)則進(jìn)行打分,打分同樣按照 1、4、7、10 四擋。將標(biāo)準(zhǔn)的重要性得分和數(shù)據(jù)元素對于該標(biāo)準(zhǔn)的得分兩兩相乘再求和,便得到每個元素的總分,并根據(jù)這個總分把它們從高到低排序。這個評分矩陣幫助業(yè)務(wù)專家對候選元素進(jìn)行量化比較。在巴塞爾協(xié)定用例中,利用這個評價矩陣,業(yè)務(wù)專家從 35 個候選元素中選出了分?jǐn)?shù)最高的 21 個。


4.3 進(jìn)行相關(guān)性分析,進(jìn)一步精簡核心數(shù)據(jù)元素


在漏斗法的第三步,相關(guān)性分析被用來檢查是否有多個數(shù)據(jù)元素具有很高的相關(guān)性。這是因為如果兩個元素的相關(guān)性非常高,那么我們只監(jiān)測其中一個即可。這樣能進(jìn)一步減少核心數(shù)據(jù)元素的個數(shù)。對于連續(xù)的數(shù)據(jù)元素(比如用戶的存款數(shù))和離散的數(shù)據(jù)元素(比如客戶的姓名),回歸分析和關(guān)聯(lián)分析分別被用來檢查元素之間的相關(guān)性(注:在金融行業(yè)的用例中,線性相關(guān)性一般來說就足夠了)。


圖 3 顯示了在我們的用例中,部分候選元素之間的相關(guān)性。值得一提的是,相關(guān)系數(shù)的取值在 -1 到 1 之間,越接近 1 說明正相關(guān)性越高,越接近 -1 說明負(fù)相關(guān)性越高,越接近 0 說明線性相關(guān)性越不明顯(注:也許它們有非線性相關(guān)性,但不在我們考慮范圍內(nèi))。在應(yīng)用中,0.85 和 -0.85 被用來當(dāng)作高相關(guān)性的閾值。


f4.png

圖 3?元素之間的線性相關(guān)性


相關(guān)分析顯示,有 10 個元素組成了 8 對兩兩相關(guān)的配對。這表明,我們只需要從這 10 個元素中選出 4 個即可;另外 6 個元素將和這 4 個元素高度相關(guān)。如何進(jìn)行 10 選 4 能?信噪比分析將隆重登場。


4.4 通過信噪比分析,確定最終核心數(shù)據(jù)元素名單


信噪比源于質(zhì)量控制,用來測量信號相對于環(huán)境噪聲的大?。═aguchi 1986, Taguchi and Jugulum 1999)。信噪比定義如下:


e1.png


這個定義說明信噪比低的 CDE 有更大的波動性。數(shù)據(jù)的波動性往往說明產(chǎn)生這個數(shù)據(jù)的業(yè)務(wù)過程有更大的不確定性、因此需要實時的監(jiān)控。因此對于兩個高度相關(guān)的數(shù)據(jù)元素,我們選擇信噪比低的作為需要監(jiān)控的對象。對 4.3 節(jié)提到的 10 個元素計算信噪比,結(jié)果如圖 4 所示,我們從中選取信噪比低的 4 個元素。


f5.png

圖 4?高度相關(guān)數(shù)據(jù)元素的信噪比


通過相關(guān)性和信噪比分析,我們進(jìn)一步舍棄6個數(shù)據(jù)元素。最終,整個漏斗法的四個步驟將核心數(shù)據(jù)元素個數(shù)由原始的 35 個降至最終的 15 個(減少了 57%)。這為后面數(shù)據(jù)質(zhì)量的檢測大大減少了所需的人力和資源。


5 數(shù)據(jù)質(zhì)量監(jiān)測和改善


核心數(shù)據(jù)元素確定后,便可對它們的質(zhì)量進(jìn)行實時監(jiān)測,一旦發(fā)現(xiàn)問題便可采用 6 Sigma 方法改進(jìn)業(yè)務(wù)流程,防范風(fēng)險。想要量化數(shù)據(jù)質(zhì)量,必須首先選取評價的維度,它們稱為數(shù)據(jù)質(zhì)量維度(data quality dimension)。一個數(shù)據(jù)質(zhì)量維度可以定義為描繪該數(shù)據(jù)在某一方面的質(zhì)量的屬性,比如數(shù)據(jù)的完整性、一致性、有效性、準(zhǔn)確性等。


舉個例子,客戶年齡是一個數(shù)據(jù)元素,如果所有的客戶在客戶年齡這個元素上都有數(shù)值,則這個元素在完整性這個屬性上的數(shù)據(jù)質(zhì)量是滿分。但完整性僅僅刻畫單一特性,所以我們并不知道用戶的年齡是否正確(比如用戶 A 可能實際是 30 歲但我們的記錄顯示為 40 歲)、取值是否有效等(比如我們的記錄可能顯示用戶B的年齡為 -1,這顯然是無效的)。因此,需要從多個維度考慮數(shù)據(jù)元素的綜合質(zhì)量。圖 5 顯示了在巴塞爾用例中,最終確定的 15 個核心數(shù)據(jù)元素在完整性、一致性和有效性三個維度上的質(zhì)量得分(注:表中數(shù)據(jù)僅是模擬分?jǐn)?shù),并非真實分?jǐn)?shù))。


f6.png

圖 5?數(shù)據(jù)質(zhì)量得分


量化的數(shù)據(jù)質(zhì)量使得我們可以通過統(tǒng)計過程控制(statistical process control)對數(shù)據(jù)質(zhì)量進(jìn)行監(jiān)測。一旦發(fā)現(xiàn)異常值或者數(shù)據(jù)質(zhì)量的突然惡化,便根據(jù)數(shù)據(jù)產(chǎn)生的邏輯順藤摸瓜找到產(chǎn)生數(shù)據(jù)的業(yè)務(wù)環(huán)節(jié),然后采用 6 Sigma 流程改善中的經(jīng)典分析方法對業(yè)務(wù)進(jìn)行完善,真正的做到有的放矢。


6 結(jié)語


數(shù)據(jù)是金融機(jī)構(gòu)最重要的無形資產(chǎn)。無論是銀行、公募私募基金、互聯(lián)網(wǎng)金融公司,高質(zhì)量的數(shù)據(jù)都是它們賴以生存的前提條件。特別的,對于量化投資來說,投資決策的數(shù)學(xué)模型要分析大量的宏觀經(jīng)濟(jì)數(shù)據(jù)以及股票交易數(shù)據(jù)。這些模型有效與否由輸入數(shù)據(jù)的質(zhì)量直接決定。所謂垃圾進(jìn),垃圾出(Garbage in, garbage out),模型輸出結(jié)果的質(zhì)量只會比輸入數(shù)據(jù)的質(zhì)量更差。然而,業(yè)界并沒有多少文獻(xiàn)系統(tǒng)的闡述一個能被直接應(yīng)用于實際的數(shù)據(jù)質(zhì)量分析框架。在這方面,花旗可謂是先驅(qū)之一。希望通過今天的介紹,讓更多的小伙伴了解到世界頂尖銀行在這方面所做的努力;更希望有人能因此受到啟發(fā),把數(shù)據(jù)質(zhì)量的提高帶入到他們自己的投資實戰(zhàn)中。



參考文獻(xiàn)

R.?Jugulum (2014). Competing with High Quality Data: Concepts, Tools, and Techniques for Building a Successful Approach to Data Quality. Wiley.

Shi, C., R.?Jugulum, H. I.?Joyce, J. Singh, B. Granese, R. Ramachandran, D. Gray, C. H. Heien, J. R. Talburt (2015). Improving Financial Services Data Quality – a Financial Company Practice. International Journal of Lean Six Sigma 6(2), 98 – 110.

Taguchi, G. (1986), Introduction to Quality Engineering, Asian Productivity Organization, Tokyo.

Taguchi, G. and R. Jugulum (1999). Role of S/N ratios in multivariate diagnosis. Journal of?Japanese Quality Engineering Society 7(6), 63 – 69.



免責(zé)聲明:入市有風(fēng)險,投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下,本文作者及所屬機(jī)構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外,文中圖表均直接或間接來自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。