Gecmişte Yunanistan, Arjantin gibi ülkelerde, ekonomik göstergeleri daha iyi göstermek için resmi istatistiklerde oynamalar yapıldığı ortaya çıkmıştı. Bugün Çin için de verilerin gerçeği yansıtmadığı, büyüme oranlarının çok yüksek olduğu şeklinde iddialar var. Hatta geçenlerde ABD başkan adayı Trump da beğenmediği Amerikan verileri hakkında ileri geri konuşmuştu. Ülkemizde de zaman zaman böyle iddialar ortaya atılır. Kuşkuları ortadan kaldırmanın en etkili yolu istatistiklerin şeffaf şekilde üretilmesi, denetime açık olmasıdır. Örneğin, bildiğim kadarıyla Eurostat, IMF gibi kurumlar zaman zaman gelip TÜİK verilerini kontrol ediyor. Herhalde ülke içinde de resmi bir denetim mekanizması vardır.
Denetimin haricinde, veriler analiz edilerek de bir tuhaflık olup olmadığı tesbit edilebilir. Ben de Türkiye’deki GSYH ve TÜFE verileri için böyle bir şey yaptım ve basit bir istatistiksel yöntemi bu verilere uyguladım. Sonuç ne çıktı? Verilerin bazı bileşenlerinde şüpheli bulgular olsa da, genele yansıyan ciddi bir sistematik hata veya çarpıtmanın izine rastlamadım.
Kullandığım yöntem, Benford kanunu adı verilen ve çeşitli veri setlerinde görülen bir özelliğin, söz konusu verilerde de geçerli olup olmadığının sınanmasına dayanıyor. Kısaca anlatacak olursak, birçok veri setinde sayıların ilk hanelerindeki rakamlara bakıldığında 1’den 9’a rakamların eşit dağılmadığı görülüyor. Verinin içeriğinden bağımsız olarak, ilk hanelerin üçte bire yakınında 1 rakamı bulunuyor. Rakam büyüdükçe ilk hanede bulunma sıklığı da düşüyor.
Teorik olarak ilk hanelerin dağılımının nasıl olması gerektiği aşağıda göreceğiniz grafiklerde turuncuyla gösteriliyor. Bir veri setindeki gerçek ilk hanelerin teorik dağılımdan sapma göstermesi, ona dışardan müdahale edilmiş olabileceğine işaret ediyor. Elbette bu tek başına veriler yanlış demek ya da yanlışlığın büyük ekonomik sonuçları olduğunu söylemek için yeterli değil. Ancak bir uyarı olarak kabul edilebilir. Bu yöntemin dünyada istatistiki verilerin güvenilirliğini sınamanın dışında, iç denetim, vergi denetimi, seçim usulsüzlüklerinin saptanması gibi uygulamaları da mevcut. (Detaylı bilgi için yazının sonundaki notlara bakabilirsiniz.)
Enflasyon: Aşağıdaki grafik, TÜİK’in aylık enflasyon verilerini uygun şekilde dönüştürerek elde ettiğim ilk hane dağılımını, teorik Benford dağılımıyla karşılaştırıyor. Belli oranda sapmalar olsa da, iki dağılım ana hatlarıyla birbirine yakın görünüyor.
Kullandığım yöntem, Benford kanunu adı verilen ve çeşitli veri setlerinde görülen bir özelliğin, söz konusu verilerde de geçerli olup olmadığının sınanmasına dayanıyor. Kısaca anlatacak olursak, birçok veri setinde sayıların ilk hanelerindeki rakamlara bakıldığında 1’den 9’a rakamların eşit dağılmadığı görülüyor. Verinin içeriğinden bağımsız olarak, ilk hanelerin üçte bire yakınında 1 rakamı bulunuyor. Rakam büyüdükçe ilk hanede bulunma sıklığı da düşüyor.
Teorik olarak ilk hanelerin dağılımının nasıl olması gerektiği aşağıda göreceğiniz grafiklerde turuncuyla gösteriliyor. Bir veri setindeki gerçek ilk hanelerin teorik dağılımdan sapma göstermesi, ona dışardan müdahale edilmiş olabileceğine işaret ediyor. Elbette bu tek başına veriler yanlış demek ya da yanlışlığın büyük ekonomik sonuçları olduğunu söylemek için yeterli değil. Ancak bir uyarı olarak kabul edilebilir. Bu yöntemin dünyada istatistiki verilerin güvenilirliğini sınamanın dışında, iç denetim, vergi denetimi, seçim usulsüzlüklerinin saptanması gibi uygulamaları da mevcut. (Detaylı bilgi için yazının sonundaki notlara bakabilirsiniz.)
Enflasyon: Aşağıdaki grafik, TÜİK’in aylık enflasyon verilerini uygun şekilde dönüştürerek elde ettiğim ilk hane dağılımını, teorik Benford dağılımıyla karşılaştırıyor. Belli oranda sapmalar olsa da, iki dağılım ana hatlarıyla birbirine yakın görünüyor.
Daha net karar vermek için istatistiksel bir test yapmak gerekir. Aşağıdaki tabloda çeşitli enflasyon göstergeleri için hesapladığım test istatistikleri görülüyor. Burada kulladığım formül bir grup Alman akademisyenin Euro Bölgesi verileri üzerine yaptıkları çalışmadan alındı (link burada). Ki-kare (chi-square) dağılımına sahip istatistiklerden üçü hariç hepsinin, (%5 istatistiksel anlamlılık seviyesi için) 15.5 olan eşik değerin altında kaldığını görüyoruz. Yani bunlarda olağan dışı bir şey tespit etmiyoruz. Diğer üç gösterge içinde lokanta-otel grubunda nedense çok büyük bir sapma var.
Büyüme: Aynı egzersizi GSYH verileriyle tekrarladığımızda da fiyat endekslerinde gördüğümüze benzer bir sonuç elde ediyoruz. Burada da gerçek ve teorik dağılımlar paralel.
Tabloda da ana kalemler genel olarak sağlıklı görünüyor. En büyük sapmaların kamunun tüketim ve yatırım harcamalarında olması dikkat çekici. Çarpıtma dışında bunun başka ne sebebi olabilir? Tamamen spekülasyon yapıyorum; belki devletin bütçe planları masa başında yapıldığından ve kamu harcamaları o plan doğrultusunda gerçekleştiğinden, o harcamalara dair istatistikler de doğal görünmüyordur.
Çin büyümesi: Bir de son olarak dışardan Benford kanunun tutmadığı bir örnek göstereyim. Aşağıda IMF'den aldığım Çin GSYH verilerinden elde ettiğim ilk hane dağılımı var ve teorik dağılımdan bir hayli sapmış. Zaten ki-kare istatistiği de 56 ile kritik değerin oldukça üzerinde kalmış. Bu da yine belki planlı ekonomiyle alakalıdır. Belki de iddia edildiği gibi bir istatistiklerde oynama vardır.
Notlar:
1. Konuyla ilgili Wikipedia makalesi.
2. Bu websitesinde bolca örnek var: testingbenfordslaw.com
3. Bu konuda bilimsel yayın olarak, Steven J Miller’in kitabına bakılabilir. Temel bilgi ve açıklamaların verildiği ilk bölüme erişim ücretsiz.
4. Yazıda bahsettiğim makale: Rauch, Göttsche, Brahler, and Engel, Fact and Fiction in EU-Governmental Economic Data