読者です 読者をやめる 読者になる 読者になる

統計馬

人工知能を活用した競馬の予想を紹介するブログです

競馬予測システム:ver2016-06-04

はじめに

馬券を購入するための元データと解析アルゴリズムの変遷を紹介していこうと思っております。

更新日:2016-06-04

 

データ

現在取得しているデータは以下のデータです。

申し訳ないのですが、他のブログ同様にNetkeibaさんから拝借しています。並列で叩かずスリープを入れているので迷惑をかけないように努力はしています。。

No 項目 意味
1 2走前の1コーナーの着順 逃げ馬か差し馬かを判断する指標
2 2走前の上がり3ハロン そのまま
3 2走前の人気 そのまま
4 2走前の結果 そのまま
5 2走前〜3走前の日数 そのまま
6 2走前の出走馬の走破タイムからの偏差値 その階級での標準的な走破タイムと比較するための数値
7 1走前の1コーナーの着順 逃げ馬か差し馬かを判断する指標
8 1走前の上がり3ハロン そのまま
9 1走前の人気 そのまま
10 1走前の結果 そのまま
11 1走前〜2走前の日数 そのまま
12 1走前の出走馬の走破タイムからの偏差値 その階級での標準的な走破タイムと比較するための数値
13 本馬のNetkeiba上でのお気に入り馬登録数 馬自体の人気をはかるための指標
14 父馬のNetkeiba上でのお気に入り馬登録数 馬自体の人気をはかるための指標
15 母馬のNetkeiba上でのお気に入り馬登録数 馬自体の人気をはかるための指標
16 騎乗ジョッキーの近100戦の着順-人気の値 ジョッキーの人気をはかるための指標
正解データ 結果の走破タイムの偏差値-オッズの偏差値 期待値よりも走っているかどうかを判断する指標

 

解析アルゴリズム

ちょっと流行り物を触りたかったので無駄にDeeplearningで学習をしています。っていっても1年分くらいのデータしかとってきていないのでデータ量的にはそんなに最適な手段じゃないんじゃないかなと思っています。

ひとまず、RのH2Oパッケージというお手軽にDeeplearningできるパッケージを使って正解データを当てるためのモデルを作っています。

参考サイト:http://tjo.hatenablog.com/entry/2014/10/23/230847

将来的にはRを使いつつ、もう少しいろんなアルゴリズムを当てて結果をみようと思います。

 

システム環境

基本はクロールしてきたデータをTreasure Dataに入れて管理しています。

これくらいの量だったら無料の領域に収まるし、いいアルゴリズムが見つかったらHivemallの方に移植すればいいかなと思っているので基盤としてTD使っておいて、将来的には類推の部分を自動化してGoogleSpreadSheetとかに連携するなりしようかなと思っています。