貝葉斯回歸與比特幣
『壹』 Spss如何做貝葉斯分析
bayes不建議用spss做,可以用其他專業軟體做
除非你是要做bayes判別
『貳』 想問一下做貝葉斯向量自回歸(BVAR)用什麼統計軟體比較好,求推薦,最好是簡單易學的!
/, 、
宏 濟 , 前 各 濟l 備 所 弄 磊 f 觀 篙 是 孟 篙 耋明 達 銀 做 1 1 fl 經 當 I蘇 行 的 性 曇 問 世 國學 篙 儲 題 界經 磊 尼 開 的 e I 創研 究 , . T 『 ] I ] 家 一 通 做 , 把 論 析 實1 作 16 ,t1 利 貝 斯 的 種 用 法 它 理 分 和 工 。9 年L。a 用 葉 時【 8 in t r ll 際計 據 合 來 運 線 或 線 序 自歸 型對 尼 達 的 其 I 統 數 結 起 , 用 性 非 間 列 回 模 , 明 蘇 州 國1 中Bl
性歸析法確經 變之 的 民產 值七 宏指 進 預 , 數 分方 ,定濟量 間 【生總 等個 觀 標 行 測 } 回 量 關系, 構建一個由 方程 若干 組成的 1 得了很好的效果; 貝葉斯方法在 取 此後,
。
Il i I l A
l y l z l t — l y
II ;
+ 1 ]
薹,合測:程了應相研果增… ,。 。 蓄 不 預的方得 用關究逐I 1 構但 於目 立l 泛,的成年. 衄二 . 適 聯 廣 分 析 『 二 . 一 . 』 二 I 因是需要對外生變數本身進行預測。 j 但 從國內外的文獻資料來看, I … ~ := 一, 、 但是, 關 : 『 := 二 : VAR VAR 與 聯立方程模型不同, 模型的 I 於 模 型的貝葉斯推斷方法的系統 【 : 。 : 一… 一 … ~ ~ 「
薯是 期 ; 這 點 模 數 囂 ,性l… …~ 五 特 中 預 鑒 些 ,耋 的 鬈 布 限 和_ 一 ∑ 、 短 測 於 優 I 擴 驗 下 制 j…… ~ 別 型 散分 參 先 蘭 二 卜 :
羹. 【 V的:IU 域凳對l 性型飄= 其觀不 制) 1, 一R業.限(葉 I 主型金1 A貝IlI 參融。 模 z1 要經一斯 P1 = 是模足論 R 【,: 。 型之推 然濟般 缺也蘭一 在數預斷 而和 處 Y 。 言商A 點存測非 政太 、 , 多, 耍 府在領 是, V V 宏 其 A 模 R lTl 。 』l Il lI u l Zl 1 1 T I 如 y, 示 1 模 4是方模 一 果 的 1  ̄表 m Ln Ln 不 令 (,貝Ir y個般表 YX ZX l Jn 的 帕v …u j 型) 多程 nm  ̄m 就 J 變數在 t | 向量序列 變 階 為 則該VA P模型 j NN的 性 p型 山 匕叫 面腱 姒 一』 後 數 P R() 非 ~( } ! i t 滯 N ) 模 1 I N ̄ p 可豐呆 . 。 ,
凳平數觀一從』I』,j 觀均不測並u
時間序列向量自回歸模型的貝葉斯推 斷理論
網路文庫新客戶端 海量文檔免費下
1/4
n鍪驗 論 數的總個噪陣,2!結 型 也,本×多布辮後關 據有共 向正 ,分 以 一季數l的(一 口 測每到I均:萎 . V度,均系向個 的 A1 蕃量態, 點22獨 數皇 相 是個如m服, 布 R資果為,分l ,5個維 矩u竺 4參1m 即t 竺 模個6白 元) 0料樣, tN 則 參 立 ,相 年 有 m 10 型 0 聲 21 且 …莩 是 ( 互 三統濟理i中量 i 量『 型的:體示第的 素, 中過模論一的 元 ,竺 所計來R型的j,. 要 。參型法若第第 一 2 ,三第 矩向列則蘭 量減系( i。; 需數的模1 行 一 經少l 表 i 二 在種一 第 l 估方 V模 個 」 一個種 表 示 的 慧 般 法A ) 傳 數方 令 計 是陣 通 一
個方程為
性 V R( ) 型系數 B的後驗分 硒為難 A P模
拿 堡 墨 譬 奎 差 程 : 喜 奠 。
斥 條 的 加 往 實 摯 竺f解 變 的 ,也 常 項 所i 一,n1』 一 ( 性 件 添 往 與 二 據 余 釋 量 y y 以 數 及 ( p 際 生 過i J 成 數 」 m ws + 6 , ) 有m 變 的 後 作 其 釋 量 i 「… 個 量 滯 項 為 解 變 ,」 』 11 統計 與決策
l項 為解 變 ; 地 型其l。、t3Z ) I) 後 作 其 釋 量同 , 中 ,x ,, 一(Y ̄ 樣模 k,— (T, , .l L, n M 1 sk∑ ZL  ̄L I] Z 、
一
維普資訊 http://www.cqvip.com
理論 {a 4 }o 年第 1 ( 期 總第 19期 ) 8
相當復雜 。與非限制性 V R( ) 型系 A . 模 P
統相 比較 , 限制 性 V R( ) 型 的貝葉 A P模
專 e{ ( I x一 ∑ + p爭
斯推斷要復雜得多 ,在參數 的共軛先驗 【 (  ̄I lS 【 (  ̄ I Z z ∑ 3 z[一z ∑ I 3 z 分布下 難 以解 決參數 的後驗分 布問題 , (  ̄I 卜Y(  ̄I l} ∑ 3 y ∑ 3z] S 即使在擴散先驗 分布下 , 也只能對 B 或 ∑的條 件 後驗 分 布 的有關 結論 有 所 了 解 , 就 是 下 面 的結 論 2 這 。
I ∑ 專而一p ( e{ ∑ Yz x一 一 ( p ∑  ̄I z ) (L I z(  ̄ I )( 3 (l +I S 【 ∑ S S ) J
結論 2 在擴 散 先 驗分 布 訂( : B, ∑)
]S I } I ) l l 」『限制 性 V R ( 模 型 中的 z(—S】 ∑一 l m , (。 A. P)
模型 系數 B 和協方 差 陣 ∑的後驗條 件
分布如下 ( y )N , ∑ pl , ~ (
2/4
【 ( @IZ ∑;z pz 3】 ) ∑ l , 卜I ( n,此 處 I [ , B; w W Q, ( Y ) s z =
=
—
—
ep 一 1 【+I I ∑ x { s (—s z( s )
l l ∑一 1 (—s】 0 zp I } ) () 1 0
( @1z T(  ̄I , (— 3 ∑ z ∑~ j Q=Y wB l y C, - -
此 處 S y (  ̄1 ~ 一 z )(  ̄i ( = ∑ 0 Y (l ∑ S Jz .
( wBJ = k Y— , k 。
p。很 明顯 , ∑; z的分 布是 均值為 ) (l y ) p , 證 :首先對參數 B 的後驗條件分 布 p 協方差陣 為【 ( I z 的多元正 , z∑ T ) 加以證 明。顯然 ,8式 是一個單方程線 () 態分布 , 即 性模 型 , 根據貝葉斯定理 , 擴散先驗 分 在 ( ∑; ) pz J ] 布 訂B ∑ l 」 下 , I∑) }pl yz- , ∑ ( ) ∑l 參數(, 的 , N ( 【 (  ̄Iz ) , s (1 1)
為了獲得( l; w) ∑ v, 的條件後 驗分 I s
聯 合 後 驗分 布 密 度 1 p T(,∑ l Z y ) ,
布密 度 , 需要應用 () , 9 式 由該式 易 見參
。{ yZl - I 數 x一 -I(  ̄3 p 寺( s ∑@ ) r ( z) y p} —
( 在擴 散先驗 分 布下 的聯合 後 B ∑) ,
驗分布密度 c,
南
下p爭 e{ x一 。p 一 1 x {
3( ∑ yz +S I )
∑V ) IW , 一 B 一 3 W 3 WB }
EP 爭廿 X{ 一 (2 1)
由 ( Y, 對 ∑ 0上 進 (  ̄ I z ) Y (  ̄I ~ l ( l 據 此 , 訂 B, l w) ∑在 ∑> ∑ 3 ( l 一 ∑ S 3 zS z ) 一 S ( 』 ty ∑『 _ ¨ @I )
行積分 , 出( Y, 的條 件後驗 分布 求 B I w) 進而獲 得( l w) ∑ B; Y, 的分布 密 度 ( I y l 密度 , ∑ +S
] , 當然 , 模型 () 8 還可 以轉化成 如下 另一 有 用的等價形式 Y WB + , N (, I = ££ ~ 0∑ 3 ( 9 )
函數仍然具有 (0 式的形式 , 1) 因此 , 根據
( ; w)x BY 【 (  ̄I z —∑ Z∑ 3 p z(  ̄I 】 y( 逆維希特分布的定義,∑l , -w 3 Y一 T∑一【 1Q n (, 成立 。 ) I 剮} t 1 ) z
j ( 作者單位/ 南京理工大學, 湖北 省統計局)
≤九 其 中 , ( Y Y=
3/4
Y …Y ) , = z … w ( Z
0 … 0、 …
。
;
i
t o £2 … £
0
… p J
顯然 ,對參數施加限制條件並不影 響模型參數 的先驗分布 的選取 ,但 限制
性條件 的添加將使得參數後驗分 布變得
1 2 統計與決策
『叄』 如何理解貝葉斯估計
貝葉斯理論
1.貝葉斯法則
機器學習的任務:在給定訓練數據D時,確定假設空間H中的最佳假設。
最佳假設:一種方法是把它定義為在給定數據D以及H中不同假設的先驗概率的有關知識下的最可能假設。貝葉斯理論提供了一種計算假設概率的方法,基於假設的先驗概率、給定假設下觀察到不同數據的概率以及觀察到的數據本身。
2.先驗概率和後驗概率
用P(h)表示在沒有訓練數據前假設h擁有的初始概率。P(h)被稱為h的先驗概率。先驗概率反映了關於h是一正確假設的機會的背景知識如果沒有這一先驗知識,可以簡單地將每一候選假設賦予相同的先驗概率。類似地,P(D)表示訓練數據D的先驗概率,P(D|h)表示假設h成立時D的概率。機器學習中,我們關心的是P(h|D),即給定D時h的成立的概率,稱為h的後驗概率。
3.貝葉斯公式
貝葉斯公式提供了從先驗概率P(h)、P(D)和P(D|h)計算後驗概率P(h|D)的方法
p(h|D)=P(D|H)*P(H)/P(D)
P(h|D)隨著P(h)和P(D|h)的增長而增長,隨著P(D)的增長而減少,即如果D獨立於h時被觀察到的可能性越大,那麼D對h的支持度越小。
4.極大後驗假設
學習器在候選假設集合H中尋找給定數據D時可能性最大的假設h,h被稱為極大後驗假設(MAP)
確定MAP的方法是用貝葉斯公式計算每個候選假設的後驗概率,計算式如下:
h_map=argmax P(h|D)=argmax (P(D|h)*P(h))/P(D)=argmax P(D|h)*p(h) (h屬於集合H)
最後一步,去掉了P(D),因為它是不依賴於h的常量。
5.極大似然假設
在某些情況下,可假定H中每個假設有相同的先驗概率,這樣式子可以進一步簡化,只需考慮P(D|h)來尋找極大可能假設。
h_ml = argmax p(D|h) h屬於集合H
P(D|h)常被稱為給定h時數據D的似然度,而使P(D|h)最大的假設被稱為極大似然假設。
6.舉例
一個醫療診斷問題
有兩個可選的假設:病人有癌症、病人無癌症
可用數據來自化驗結果:正+和負-
有先驗知識:在所有人口中,患病率是0.008
對確實有病的患者的化驗准確率為98%,對確實無病的患者的化驗准確率為97%
總結如下
P(cancer)=0.008, P(cancer)=0.992
P(+|cancer)=0.98, P(-|cancer)=0.02
P(+|cancer)=0.03, P(-|cancer)=0.97
問題:假定有一個新病人,化驗結果為正,是否應將病人斷定為有癌症?求後驗概率P(cancer|+)和P(cancer|+)
因此極大後驗假設計算如下:
P(+|cancer)P(cancer)=0.0078
P(+|cancer)P(cancer)=0.0298
hMAP=cancer
確切的後驗概率可將上面的結果歸一化以使它們的和為1
P(canner|+)=0.0078/(0.0078+0.0298)=0.21
P(cancer|-)=0.79
貝葉斯推理的結果很大程度上依賴於先驗概率,另外不是完全接受或拒絕假設,只是在觀察到較多的數據後增大或減小了假設的可能性。
『肆』 貝葉斯線性回歸為什麼能避免過擬合
1. 引入 prior 的回歸/分類,或者說 MAP estimator(最大後驗估計)不能算是貝葉斯方法。完整的貝葉斯方法並不止步於算出 posterior 的 mode 或者 mean,而是利用整個 posterior 分布對預測過程進行平滑,具體來說就是:
假設 posterior 為 ,其中 D 是數據集,M 是模型, 是模型參數;
假設給定參數後,對於新數據 x 的預測函數為
在課本中 M 通常被忽略,因為通常我們只研究一個模型,但是如果要比較多個不同模型,那麼 M 不能忽略。
所謂貝葉斯回歸,就是計算一個預測分布(predictive distribution):
這個預測分布可以這么理解,將不同對應的預測結果組合起來,形成最終的預測結果,而組合的權重就根據的 posterior 的大小,由於是一個連續的隨機變數,所以這個「組合」就是一個積分。
再看MAP,它能夠降低過擬合,但是不能避免過擬合,因為 MAP 假定參數只會取一個固定的值,而不是一個分布,這是一種過度自信的表現,更具體來說,MAP 將上面的 近似為一個 delta 函數,從而忽略了 的不確定性。(式中 是 posterior 的 mode 點)
2. 再說邊緣似然 ,它實際上可以用上面的預測分布連乘來表示:
這個過程可以理解為,我們先計算模型生成 x1 的概率,然後乘以 x1 為訓練集時 x2 的預測分布,依次類推。顯然,如果一個模型過於復雜,那麼預測分布值會較小(因為預測性能不好),那麼在連乘後,得到的邊緣似然也很小。(這實際上是 MLAPP 上的解釋,見公式 5.14),所以邊緣似然可以用來做模型選擇。
最後,為什麼似然函數最大值不能用來做模型選擇呢?因為很可能是由於模型的能力過強,導致它能完美擬合的數據集過多(復雜度過高),所以很容易就 fit 訓練集了,而邊緣似然呢:
它考慮到了參數 的分布,並且將每個不同生成數據集的概率組合起來,和之前一樣,這個組合是個積分。你看,如果的可能性很多(模型復雜),但只有一種的似然函數值大,那麼最終積分的結果是很小的。只有【的可能性相對較少(簡單的模型),其中某些使似然函數較大】的情況下,這個積分才會較大,從而,邊緣似然可以來做模型選擇。
3. 綜上所述,貝葉斯方法本質上就是一個平均,平滑(averaging),這里我們只考慮了單層的貝葉斯模型,實際上,貝葉斯方法在多層的超參數存在時照樣十分自然優美,不過是多幾重積分而已。通過平均,融合了不同的可能性,使得預測結果更加穩定。其實線性回歸並不是貝葉斯方法最常用的地方,而是自然語言處理中的語言模型里的 add-x smoothing(加x平滑),所謂加x平滑實際上是 multinomial 分布加上狄利克雷先驗後的預測分布。上述所有內容都總結自 MLAPP 第五章
4. 另外,從以上內容可以看出,貝葉斯方法的核心部件,就是 posterior,而對於復雜模型來說,這個 posterior 是很難算的,於是,機器學習中的拉普拉斯近似,變分法,MCMC 采樣等就派上了用場。
作者:dontbeatmycat
『伍』 求教貝葉斯向量自回歸
引入 prior 的回歸/分類,或者說 MAP estimator(最大後驗估計)不能算是貝葉斯方法。完整的貝葉斯方法並不止步於算出 posterior 的 mode 或者 mean,而是利用整個 posterior 分布對預測過程進行平滑,具體來說就是:
假設 posterior 為 ,其中 D 是數據集,M 是模型, 是模型參數;
假設給定參數後,對於新數據 x 的預測函數為
在課本中 M 通常被忽略,因為通常我們只研究一個模型,但是如果要比較多個不同模型,那麼 M 不能忽略。
所謂貝葉斯回歸,就是計算一個預測分布(predictive distribution):
這個預測分布可以這么理解,將不同對應的預測結果組合起來,形成最終的預測結果,而組合的權重就根據的 posterior 的大小,由於是一個連續的隨機變數,所以這個「組合」就是一個積分。
再看MAP,它能夠降低過擬合,但是不能避免過擬合,因為 MAP 假定參數只會取一個固定的值,而不是一個分布,這是一種過度自信的表現,更具體來說,MAP 將上面的 近似為一個 delta 函數,從而忽略了 的不確定性。(式中 是 posterior 的 mode 點)
2. 再說邊緣似然 ,它實際上可以用上面的預測分布連乘來表示:
這個過程可以理解為,我們先計算模型生成 x1 的概率,然後乘以 x1 為訓練集時 x2 的預測分布,依次類推。顯然,如果一個模型過於復雜,那麼預測分布值會較小(因為預測性能不好),那麼在連乘後,得到的邊緣似然也很小。(這實際上是 MLAPP 上的解釋,見公式 5.14),所以邊緣似然可以用來做模型選擇。
最後,為什麼似然函數最大值不能用來做模型選擇呢?因為很可能是由於模型的能力過強,導致它能完美擬合的數據集過多(復雜度過高),所以很容易就 fit 訓練集了,而邊緣似然呢:
它考慮到了參數 的分布,並且將每個不同生成數據集的概率組合起來,和之前一樣,這個組合是個積分。你看,如果的可能性很多(模型復雜),但只有一種的似然函數值大,那麼最終積分的結果是很小的。只有【的可能性相對較少(簡單的模型),其中某些使似然函數較大】的情況下,這個積分才會較大,從而,邊緣似然可以來做模型選擇。
3. 綜上所述,貝葉斯方法本質上就是一個平均,平滑(averaging),這里我們只考慮了單層的貝葉斯模型,實際上,貝葉斯方法在多層的超參數存在時照樣十分自然優美,不過是多幾重積分而已。通過平均,融合了不同的可能性,使得預測結果更加穩定。其實線性回歸並不是貝葉斯方法最常用的地方,而是自然語言處理中的語言模型里的 add-x smoothing(加x平滑),所謂加x平滑實際上是 multinomial 分布加上狄利克雷先驗後的預測分布。上述所有內容都總結自 MLAPP 第五章
4. 另外,從以上內容可以看出,貝葉斯方法的核心部件,就是 posterior,而對於復雜模型來說,這個 posterior 是很難算的,於是,機器學習中的拉普拉斯近似,變分法,MCMC 采樣等就派上了用場。
作者:dontbeatmycat
『陸』 如何通俗地解釋貝葉斯線性回歸的基本原理
貝葉斯線性回歸是在普通線性回歸基礎上加上了模型參數的先驗p(w),從最大似然估計變成最大後驗,沒有特別的地方。
『柒』 如何通俗地解釋貝葉斯線性回歸的基本原理
貝葉斯線性回歸就是計量經濟學和統計學當中以「殘差平方和」為統計量的一次多項式模型擬合問題,這些問題比較具有專業性,一言半語,沒有辦法解釋清楚。
『捌』 天真貝葉斯分類和線形回歸的區別
一個是分類一個是回歸連可比性都沒有。
多項式分布的前提之下樸素貝葉斯可以被寫作線性分類器的形式,然而依然不是回歸。
『玖』 邏輯回歸 和 樸素貝葉斯 兩者間的區別
區別如下:
logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型,常用於數據挖掘,疾病自動診斷,經濟預測等領域。例如,探討引發疾病的危險因素,並根據危險因素預測疾病發生的概率等。以胃癌病情分析為例,選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群必定具有不同的體征與生活方式等。因此因變數就為是否胃癌,值為「是」或「否」,自變數就可以包括很多了,如年齡、性別、飲食習慣、幽門螺桿菌感染等。自變數既可以是連續的,也可以是分類的。然後通過logistic回歸分析,可以得到自變數的權重,從而可以大致了解到底哪些因素是胃癌的危險因素。同時根據該權值可以根據危險因素預測一個人患癌症的可能性。
樸素貝葉斯分類器(Naive Bayes Classifier,或 NBC)發源於古典數學理論,有著堅實的數學基礎,以及穩定的分類效率。同時,NBC模型所需估計的參數很少,對缺失數據不太敏感,演算法也比較簡單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。但是實際上並非總是如此,這是因為NBC模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,這給NBC模型的正確分類帶來了一定影響。
解決這個問題的方法一般是建立一個屬性模型,對於不相互獨立的屬性,把他們單獨處理。例如中文文本分類識別的時候,我們可以建立一個字典來處理一些片語。如果發現特定的問題中存在特殊的模式屬性,那麼就單獨處理。