Soru:
R'de yüksek frekanslı veri serisi temizliği
Thomas Browne
2011-06-04 00:02:34 UTC
view on stackexchange narkive permalink

Döviz ve tahvil piyasalarındaki zaman serisi verilerine bakıyorum (aşırı hareketlerde geri dönüşü test etmek için). Talihsiz "işaret" verileri, yani yüksek frekanslı veriler, birçok soruna eğilimlidir ve açık bir şekilde analizi önemli ölçüde bozabilir. Aşağıdaki oldukça sık veri temizleme sorunlarında hangi R kitaplığının yardımcı olabileceğini bilmek istiyorum:

1) bir artış:

enter image description here

Bu, genellikle bir piyasa yapıcı bir tikte yanlış bir fiyat teklifi yazdırdığında oluşturulur, ancak bu fiyatta ticarete açıklık olmazdı, çünkü bir saniye kadar sürdü. Ani yükselişi ortadan kaldırmak istiyorum (ancak yalnızca bir (veya belki 2) baskı varsa)

2) teklif sorma boşluğu:

enter image description here

Bu durumda, pazar oldukça likit değildir ve veri algoritması teklifler arasında atlar ve sorar (bu durumda 2bps genişliğinde) bu garip buluta neden olur.

Bu şeyleri temizlemeye nereden başlamalıyım, belli ki en az miktarda gerçek veriyi atmaya çalışıyorum. Burada "verilere bakma" kuralının geçerli olduğunun farkındayım, ancak her biri 100 günlük veri içeren 1000 seriye baktığınızda, bunun nasıl hızlı bir şekilde pratik olmayacağını görebilirsiniz, bu nedenle otomatik yardıma ihtiyacım var. Varsa Python dil yöntemlerine de bakacağım.

Beş yanıtlar:
Joshua Ulrich
2011-06-04 00:35:02 UTC
view on stackexchange narkive permalink

Bunun için bir paket var. RTAQ 'ya göz atın.

Küçük eklenti: İlginizi çekebilecek bir nicel finans borsası var.

Aha! RTAQ bağlantısı için teşekkürler Joshua, ayrıca soruyu muhtemelen taşıyacağım. Bunu temel kesme ve yapıştırma olmadan nasıl yapabilirim?
Rica ederim. Yanlış kişiye soruları taşımakla ilgili soruyorsunuz. Bu, bilgisiz olduğum (birçok alanda) bir alan.
@Thomas Geçişi kolaydır, ancak bir kez yapıldığında geri dönmek çok zordur. Görünüşe göre bu soru her iki sitede de bir ev bulabilir. Bu soruyu Quant.SE'ye taşımak istediğinizden eminseniz, sadece işaretleyin ve bir moderatör taşıma işlemini halledecektir.
@Whuber tamam o zaman burada tutmama izin verin - bazı düzgün cevaplar alıyorum. Quantfi SE'yi bilmek güzel.
IrishStat
2011-06-04 01:01:01 UTC
view on stackexchange narkive permalink

Bir anormalliği tespit etmek için, beklenti sağlayan bir modele ihtiyacınız vardır. Müdahale Algılama, "Ben gözlemlemeden önce gözlemlediklerimi gözlemleme olasılığı nedir?" Sorusunun cevabını verir. Daha kısa zaman serilerine odaklanmanızı ve sinyal ile gürültüyü ayırmaya dayalı bir ARIMA modeli oluşturan otomatik bir modelleme algoritması kullanmanızı öneririm. Bu ARIMA modeli daha sonra "olağandışı" olanı tanımlamak için kullanılabilir. Zaman Serisi Yöntemleri, kullanıcıları temeldeki etkinliğin önemli ölçüde değiştiği konusunda uyarmak için kullanılabilir. Sorun, bir model olmadan bir aykırı değeri yakalayamamanızdır (en azından hafif bir Bir noktanın bu modeli ihlal ettiğini başka türlü nasıl bilebilirsiniz? Aslında, anlayışı geliştirme ve aykırı değerleri bulma ve inceleme süreci yinelemeli olmalıdır. Bu yeni bir düşünce değil. Bacon, Novum Organum'da yaklaşık 400 yazıyor yıllar önce şöyle demişti: "Doğa, Spor ve Canavarlar'daki Hatalar, sıradan şeyler hakkındaki anlayışı düzeltir ve genel biçimleri ortaya çıkarır. Çünkü Doğanın yollarını bilen, sapmalarını daha kolay fark edecektir; ve diğer yandan, sapmalarını bilen kişi Doğayı daha doğru anlayacaktır.

evet ilginç geliyor ..... ama ne kadar yüksek frekansa gitmeliyim? Örneğin, alttaki grafikte, 10,5 saatlik bir süre boyunca halihazırda 6333 tıklama var, bu nedenle her 6 saniyede bir veri noktasına bakıyoruz. Aslında sanırım nereye gittiğini anladım Sorunum için yaklaşık 1 dakikalık çözüme ihtiyacım olduğu için, eğer alt dakika ARIMA tabanlı bir tahmin oluşturursam ve aykırı değerleri ararsam, bunu doğru bir şekilde yapabilmeliyim. Kesinlikle bahsettiğiniz müdürler çok alakalı ve gerçekten de düşündürücü (bu orta yaşlı öğrenci için).
@ThomasB Çevrimdışı yardımcı olabilirsem lütfen benimle iletişime geçmekten çekinmeyin.
Mike Hunter
2016-03-30 21:03:55 UTC
view on stackexchange narkive permalink

"Temizliğin" gerekli olduğuna ikna olmadım.Yüksek frekanslı verilerin modellenmesi, akademik nicelik literatüründe, GARCH ve özellikle kısa vadeli oynaklığın tahmini için HARCH gibi işlevsel formlar kullanılarak ele alınmaktadır.Bu literatür 90'lı yıllara kadar uzanmaktadır, örneğin, Dacorogna ve diğerleri tarafından yazılan bu makale, http://long-memory.com/volatility/Dacorogna-etal1998.pdf ve diğerleri aynı yazar tarafından yapılmıştır.Bana göre bu, bilgileri koruduğu için verileri değiştirmekten daha tercih edilebilir bir yaklaşım olacaktır (ör. Teklif-talep yayılmasında not ettiğiniz gibi).

Qbik
2011-06-08 04:25:44 UTC
view on stackexchange narkive permalink

Mayby, bazı "hareketli sıyırıcıları" deneyin - p gözlemleri penceresinde standart sapmayı hesaplayın ve ardından önceki gözlemle mutlak farkın o penceredeki standart sapmadan x kat daha büyük olduğu gözlemi silin. Ancak bu yöntem, ikinci resimde gösterilen yoğun şekilde paketlenmiş aykırı değerlerle (birbiri ardına) işe yaramaz.

ps. bu resimler hangi programdan?

Evet, SD kullanarak hareket halinde silme işlemini seviyorum. Qbik'e teşekkür ederim. Her iki grafik de Bloomberg terminalinden.
JoshK
2016-03-30 20:44:21 UTC
view on stackexchange narkive permalink

Bir not.Çivilerin çoğu, bir türev işleminin parçası olarak basılan işlemlerdir.Kullanacağınız çoğu veri kaynağında durum kodu için bir alan bulunur.Devamlı olmayan tüm piyasa işlemlerini ortadan kaldırın.Hala bazı artışlarınız olacak ama en azından gerçek.



Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...