使用Python預測btc
A. 有沒有會用Python編寫一個簡單的建模股票價格的小程序能夠對股票數據進行簡單預測即可!求助!
雖然懂python 但是不懂股票,
採用random()可以么,哈哈
B. 如何用Python在10分鍾內建立一個預測模型
預測模型的分解過程 我總是集中於投入有質量的時間在建模的初始階段,比如,假設生成、頭腦風暴、討論或理解可能的結果范圍。所有這些活動都有助於我解決問題,並最終讓我設計出更強大的商業解決方案。為什麼你要在前面花費這段時間,這有充分的理由: 你有足夠的時間投入並且你是無經驗的(這是有影響的) 你不帶有其它數據觀點或想法的偏見(我總是建議,在深入研究數據之前做假設生成) 在後面的階段,你會急於完成該項目而沒有能力投入有質量的時間了。 這個階段需要投入高質量時間,因此我沒有提及時間表,不過我建議你把它作為標準的做法。這有助於你建立建立更好地預測模型,在後面的階段的只需較少的迭代工作。讓我們來看看建立第一個模型的剩餘階段的時間表: 數據描述性分析——50%的時間
C. python sklearn中怎樣預測給定的新數據
最近在拿 sklearn 做中文文本分類器,
網上找到的例子都是拿帶標簽的數據,二八劃分後,八成用於訓練模型,兩成用於測試,
然後分析測試結果看精確度。
現在,我已經使用訓練數據做好了模型訓練(存在文本分類器的對象了),
拿一段之前數據集裡面沒有的文本數據,使用訓練好的文本分類器做類別預測,
問題是如何拿到預測的類別的名稱呢。。。
代碼如下:
# cls 是之前已經訓練好的文本分類器對象
pred = clf.predict(X_new)
怎樣從預測結果 pred ( ndarray )獲取到分類的類別名稱呢?
我有嘗試過如下的方式去獲取:
label_list = list()
D. 我用Python進行隨機森林回歸,訓練好模型後用來預測,預測值卻為一個定值,請問這是什麼原因導致的
隨機森林是以決策樹為基礎的一種更高級的演算法。隨機森林可用於回歸也可以用於分類。它的工作原理是生成多個分類器/模型,各自獨立地學習和作出預測。最後對這些預測進行集成,因此優於任何一個單分類的做出預測,是一種優秀的機器學習模型。
之所以你沒能學習到有效的模型,可能是你的數據中的因子與預測指標的關聯強度不夠,因此學習到的是常數模型,也有可能是數據的處理流程或者模型的使用方法不對。網頁鏈接這個網址上的課程完整講解了隨機森林演算法的使用,希望對你有幫助
E. python 有什麼方法能進行pm2.5預測
如你所說,現有的都是從歷史預測未來,但是我們在做模型的時候,更關注的是,哪些維度可以對結果有表徵性,哪些維度沒有
比如PM2.5,只看歷史數據,無疑,隨時間肯定會越來越高,但是這是我們需要的結果嗎?難道我們做預測不應該是將輸入和輸出建立一定的關系么?歷史數據也是由於輸入導致的,所以,從這個意義上,我們更應該關注哪些維度形成了歷史的數據這個結果;
舉個例子,某天污染氣體排放量是X噸,pm是y,當然,排放量只是一個維度,當我們建立起很多很多的維度的時候,這些維度又能直接加權輸出Y值,這個模型就比較准確了;
你說的預測,個人覺得從時間序列分析的角度說,也行的通,但不好解釋,結果更是不可控,比如今年禁煤,這個冬天比起往年的數據是否是小一些,但是從模型來說,趨勢肯定是升的,最終預測肯定比去年高;
正確的方式是,獲取各種和PM2.5相關的維度和數據,用這些維度數據做回歸,以PM2.5的值做監督值,進行模型訓練,把這些維度和PM2.5的值建立起關系,得到模型,才是一個好用的模型。
最後,當你搜集到【維度值】-->【PM2.5】這種樣本足夠多時,你可以用任何任何機器學習演算法去建模,神經網路也好,CART也好,SVR也好,就簡單的多了,多試試?
F. 如何利用Python預測股票價格
預測股票價格沒有意義。
單支股票價格,多股組合,大盤這些都可以使用神經網路來學習,02年就做過了,漲跌預測平均能達到54%到57%的准確率,但是只能定性,無法定量,因此,在扣除印花稅之後無利可圖。
純粹使用股票交易數據來預測並保證總體獲利不是程序能辦到的,人也辦不到。
目前世界上最先進的炒股機器也只能利用網路時差那微不可計的零點幾秒在歐洲與美國證券間倒來倒去,那套系統研發費用數千萬,硬體(主要是獨立光纜)費用以億計。
G. python 姓別預測用什麼方法
最近,我從孫子(指《孫子兵法》——譯者注)那裡學到了一些策略:速度和准備
「兵之情主速,乘人之不及,由不虞之道,攻其所不戒也。」(《孫子兵法•九地篇》)無備為戰之大患,有備無患,其乃至德也。(哈哈,譯者自己寫了這句,想必大家能明白。)
這與數據科學博客有什麼關系呢?這是你贏得競爭和編程馬拉松的關鍵。如果你比競爭對手准備得更充分,你學習、迭代執行的速度越快,那麼你就取得更好的名次,帶來更好的結果。
由於近幾年來,Python用戶數量上漲及其本身的簡潔性,使得這個工具包對數據科學世界的Python專家們變得有意義。本文將幫助你更快更好地建立第一個預測模型。絕大多數優秀的數據科學家和kagglers建立自己的第一個有效模型並快速提交。這不僅僅有助於他們領先於排行榜,而且提供了問題的基準解決方案。
預測模型的分解過程
我總是集中於投入有質量的時間在建模的初始階段,比如,假設生成、頭腦風暴、討論或理解可能的結果范圍。所有這些活動都有助於我解決問題,並最終讓我設計出更強大的商業解決方案。為什麼你要在前面花費這段時間,這有充分的理由:
你有足夠的時間投入並且你是無經驗的(這是有影響的)
你不帶有其它數據觀點或想法的偏見(我總是建議,在深入研究數據之前做假設生成)
在後面的階段,你會急於完成該項目而沒有能力投入有質量的時間了。
這個階段需要投入高質量時間,因此我沒有提及時間表,不過我建議你把它作為標準的做法。這有助於你建立建立更好地預測模型,在後面的階段的只需較少的迭代工作。讓我們來看看建立第一個模型的剩餘階段的時間表:
數據描述性分析——50%的時間
數據預處理(缺失值和異常值修復)——40%的時間
數據建模——4%的時間
性能預測——6%的時間
讓我們一步一步完成每個過程(每一步投入預測的時間):
階段1:描述性分析/數據探索
在我剛開始成為數據科學家的時候,數據探索占據了我大量的時間。不過,隨著時間的推移,我已經把大量的數據操作自動化了。由於數據准備占據建立第一個模型工作量的50%,自動化的好處是顯而易見的。
這是我們的第一個基準模型,我們去掉任何特徵設計。因此,描述分析所需的時間僅限於了解缺失值和直接可見的大的特徵。在我的方法體系中,你將需要2分鍾來完成這一步(假設,100000個觀測數據集)。
我的第一個模型執行的操作:
確定ID,輸入特徵和目標特徵
確定分類和數值特徵
識別缺失值所在列
階段2:數據預處理(缺失值處理)
有許多方法可以解決這個問題。對於我們的第一個模型,我們將專注於智能和快速技術來建立第一個有效模型。
為缺失值創建假標志:有用,有時缺失值本身就攜帶了大量的信息。
用均值、中位數或其它簡單方法填補缺失值:均值和中位數填補都表現良好,大多數人喜歡用均值填補但是在有偏分布的情況下我建議使用中位數。其它智能的方法與均值和中位數填補類似,使用其它相關特徵填補或建立模型。比如,在Titanic生存挑戰中,你可以使用乘客名字的稱呼,比如:「Mr.」, 「Miss.」,」Mrs.」,」Master」,來填補年齡的缺失值,這對模型性能有很好的影響。
填補缺失的分類變數:創建一個新的等級來填補分類變數,讓所有的缺失值編碼為一個單一值比如,「New_Cat」,或者,你可以看看頻率組合,使用高頻率的分類變數來填補缺失值。
由於數據處理方法如此簡單,你可以只需要3到4分鍾來處理數據。
階段3:數據建模
根據不同的業務問題,我推薦使用GBM或RandomForest技術的任意一種。這兩個技術可以極其有效地創建基準解決方案。我已經看到數據科學家通常把這兩個方法作為他們的第一個模型同時也作為最後一個模型。這最多用去4到5分鍾。
階段4:性能預測
有各種各樣的方法可以驗證你的模型性能,我建議你將訓練數據集劃分為訓練集和驗證集(理想的比例是70:30)並且在70%的訓練數據集上建模。現在,使用30%的驗證數據集進行交叉驗證並使用評價指標進行性能評估。最後需要1到2分鍾執行和記錄結果。
本文的目的不是贏得比賽,而是建立我們自己的基準。讓我們用python代碼來執行上面的步驟,建立你的第一個有較高影響的模型。
讓我們開始付諸行動
首先我假設你已經做了所有的假設生成並且你擅長使用python的基本數據科學操作。我用一個數據科學挑戰的例子來說明。讓我們看一下結構:
步驟1:導入所需的庫,讀取測試和訓練數據集。
#導入pandas、numpy包,導入LabelEncoder、random、RandomForestClassifier、GradientBoostingClassifier函數
現在可以提交了!
H. python輸出模型預測結果語句怎麼寫
result=model(data)
I. 使用python做量化交易策略測試和回驗,有哪些比較成熟一些的庫
numpy
介紹:一個用python實現的科學計算包。包括:1、一個強大的N維數組對象Array;2、比較成熟的(廣播)函數庫;3、用於整合C/C++和Fortran代碼的工具包;4、實用的線性代數、傅里葉變換和隨機數生成函數。numpy和稀疏矩陣運算包scipy配合使用更加方便。
scipy
介紹:SciPy是一款方便、易於使用、專為科學和工程設計的Python工具包。它包括統計、優化、線性代數、傅里葉變換、信號和圖像處理、常微分方程求解等等。
pandas
介紹:Python Data Analysis Library 或 pandas 是基於NumPy 的一種工具,該工具是為了解決數據分析任務而創建的。Pandas 納入了大量庫和一些標準的數據模型,提供了高效地操作大型數據集所需的工具。pandas提供了大量能使我們快速便捷地處理數據的函數和方法。你很快就會發現,它是使Python成為強大而高效的數據分析環境的重要因素之一。
quantdsl
介紹: quantdsl包是Quant DSL語法在Python中的一個實現。Quant DSL 是財務定量分析領域專用語言,也是對衍生工具進行建模的功能編程語言。Quant DSL封裝了金融和交易中使用的模型(比如市場動態模型、最小二乘法、蒙特卡羅方法、貨幣的時間價值)。
statistics
介紹:python內建的統計庫,該庫提供用於計算數值數據的數學統計的功能。
PyQL
介紹: PyQL構建在Cython之上,並在QuantLib之上創建一個很淺的Pythonic層,是對QuantLib的一個包裝,並利用Cython更好的性能。
J. 如何用Python在10分鍾內樹立一個預測模型
所謂預測模型我理解是機器學習的監督式演算法。 常用的有 K 近鄰, 決策樹, 樸素貝葉斯等。 舉例: 使用k近鄰演算法預測一個女的是不是美女: 我們抽取特徵值:
身高,體重,三圍等。 你先設置一些經驗數據,例如: A: 165CM 50KG, 23 32,31 美 B 150 60KG 23 23 23 丑 現在輸入 C 163 45 25 30 30 選擇K =3, 演算法會找經驗數據中和這個數據最接近的三個 值,判斷這三個對象是 美 還是丑。 如果2,3個美,則預測為美。否則為丑。
對應的python代碼在網上都有,估計20-30 行吧。 自己找找。