Soru:
Excel'de büyük bir veri kümesiyle çalışmanın iyi bir yolu nedir?
Furlong
2011-05-26 02:32:14 UTC
view on stackexchange narkive permalink

Şu anda .dbf biçiminde büyük bir veri kümem var ve yapmak istediğim şey, onu Excel'de kolayca işleyebilmek ve ara toplam gibi bir şey yapmak ve stdev ve oranları hesaplamak.

Veri setinin detayları; Bu veri seti müşteri bilgilerini içerir. Satırların her birinin benzersiz bir müşteri olduğu ve sütunların alışveriş verilerini (satın aldıkları) tuttuğu 1,2 milyon satırı ve 20 sütunu var.

Office 2007 programlarını kullanıyorum, Excel'i en iyi biliyorum ama Hedeflerime ulaşmak için hangi alternatifleri kullanabileceğimi merak ediyorum (alt toplam, stdev hesaplama ve oran).

Bildiğim kadarıyla, Excel 2007 yalnızca 1 milyon veya daha fazla satıra sahip olmanıza izin veriyor (Hızlı bir Google araması, Excel 2007'de maksimum 1.048.576 satır çıkar). En iyi seçeneğinizin SQL veya Access gibi bir veritabanı programı kullanmak olduğunu söyleyebilirim. Size istediğinizi verecek basit veritabanı sorguları vardır (alt toplamlar, SD'ler, vb.). Ayrıca, kendimle gerçekten çalışmadım, ancak Excel kullanarak Access'ten veri kümelerine erişebileceğinizden eminim. Dürüst olmak gerekirse, sadece R'yi kullanırdım ve hesaplamaya çalıştığınız şey için bazı basit işlevleri öğrenmek uzun sürmez :)
R hakkındaki öneri için teşekkür ederim, beni oldukça hızlı bir şekilde hazırlayıp çalıştırabilecek herhangi bir çevrimiçi kaynak biliyor musunuz? Python'da biraz programlama deneyimim var.
@Furlong: R'yi ücretsiz olarak [buradan] indirebilirsiniz (http://www.r-project.org/). Çevrimiçi olarak R'ye başlamak için birçok kılavuz vardır. İşte google'da bulduğum [yeni başlayanlar için bir tane] (http://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf). Bir programlama dilinde deneyiminiz olduğundan, değişken atama fikrini iyi bilmelisiniz. R'deki dosyalarda okumaya ve işlevleri nasıl kullanacağınızı öğrenmeye odaklanmalısınız (sum (), mean (), sd (), vb. Gibi).
Orijinal dosyanız Access formatındaysa, ihtiyaç duyduğunuz şeyleri sorgu ve / veya Visual Basic modülleri yardımıyla hesaplayabilirsiniz.
Python'u zaten biliyorsanız bu görev önemsizdir ve R'yi indirmeye gerek yoktur. Dbf dosyalarını doğrudan okumak için bir dbfpy paketi, Excel dosyalarını okumak için xlrd ve numpy'nin de özet istatistikleri vardır.
@Josh, xlrd yalnızca xls ile çalışır, Excel 2007 xlsx kullanır. Dönüşebilirsin ama can sıkıcı olabilir. Ve muhtemelen burada xlwt'ye okumak için değil Excel dosyalarına yazmak için daha çok ihtiyaç duyulacaktır.
@mpiktas - Haklısınız; düzeltme için teşekkürler! Ben de daha iyi bilmeliyim. Excel 2007 dosyalarını win32com ile okudum ve ardından openpyxl ve pyxlsx paketleri var. Bu blog, Excel dosyalarını Python'dan programlama yoluyla okumak / yazmak için yapabileceğiniz pek çok şeyi gösterir (ör. Programlı olarak pivot tablolar yazmak): http://www.pythonexcels.com/
üç yanıtlar:
#1
+14
b_dev
2011-05-26 03:39:08 UTC
view on stackexchange narkive permalink

Gelecekte bu kadar çok büyük Excel türü projeye başlayabileceğinizi düşünüyorsanız, R (ücretsiz) ile ilgili temel bilgileri öğrenmek için 10 saatinizi yüklemeyi ve harcamayı düşünmelisiniz. , Excel'den çok daha verimli bir şekilde.
Yeni Başlayanlar için R PDF

StackOverflow 'da ve buradan R ile ilgili sorular sorabilirsiniz.

"Excel'den çok daha verimli bir şekilde" sanırım :)
İyi yakalama. Bunu yeni düzenledim.
R ile ilgili sorular da burada sorulabilir :)
#2
+10
Henrik
2011-05-26 18:55:58 UTC
view on stackexchange narkive permalink

Her zaman R'yi kullanmanızı tavsiye etmeme rağmen, yine de istediğinizi python ile elde edebilirsiniz.

dbf dosyalarını okumak için en azından bir paket var.

Ayrıca, scipy istatistiksel analiz için çok çeşitli işlevler sunar. Örneğin, ScientifyPython kitaplığı muhtemelen ihtiyacınız olan işlevleri içerir.

En iyi fikir scipy.org 'a bakmaktır. Orada istediğinizi bulacaksınız.

(Ama R öğrenmek harika bir fikir !!)

Birine zaten bildikleri bir dilde yön vermek için +1. Numpy'nin OP'nin ihtiyaç duyduğu tüm işlevlere sahip olduğunu unutmayın.
#3
+1
seanv507
2014-09-16 20:18:00 UTC
view on stackexchange narkive permalink

Excel 2010 ve 2013, milyonlarca satırla çalışmanıza olanak tanıyan power pivot adlı ücretsiz bir microsoft eklentisine sahiptir. Pivot tablolar, alt toplamlar vb. Oluşturmak için tasarlanmış ve önceden tanımlanmış standart sapma vb. Olan bir sütun veritabanıdır. ayrıca diğer microsoft eklentileri güç sorgusuna (veri girişi), güçlü görünüme (görselleştirme) ve güç haritasına (eşleme) bakabilirsiniz



Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...