Pandos .skaityti_csv

Aš jau aptariau dalį „Python“ bibliotekos pandų istorijos ir naudojimo būdų. pandos buvo sukurtos dėl to, kad reikia efektyvios „Python“ finansinių duomenų analizės ir manipuliavimo bibliotekos. Norint įkelti duomenis analizei ir manipuliavimui, pandos pateikia du metodus, „DataReader“ ir skaityti_csv. Čia aptariau pirmąjį. Pastarasis yra šios pamokos tema.

.skaityti_csv

Internete yra daugybė nemokamų duomenų saugyklų, kuriose pateikiama informacija apie įvairius laukus. Kai kuriuos iš šių šaltinių įtraukiau į žemiau pateiktą nuorodų skyrių. Kadangi aš pademonstravau integruotas API, kad čia būtų galima efektyviai traukti finansinius duomenis, šioje pamokoje naudosiu kitą duomenų šaltinį.

Duomenys.gov siūlo platų nemokamų duomenų apie viską nuo klimato kaitos iki U pasirinkimą.S. gamybos statistika. Atsisiųsti du duomenų rinkiniai, skirti naudoti šioje pamokoje. Pirmoji yra vidutinė dienos maksimali temperatūra Bay County, Florida. Šie duomenys buvo atsisiųsti iš U.S. Klimato atsparumo priemonių rinkinys nuo 1950 m. Iki dabartinio laikotarpio.

Antrasis yra prekių srautų tyrimas, kuriuo matuojamas importo į šalį būdas ir apimtis per 5 metus.

Abi šių duomenų rinkinių nuorodos pateikiamos toliau pateiktame nuorodų skyriuje. The .skaityti_csv metodas, kaip aišku iš pavadinimo, šią informaciją įkels iš CSV failo ir sužinos „DataFrame“ iš to duomenų rinkinio.

Naudojimas

Kiekvieną kartą, kai naudojate išorinę biblioteką, turite pasakyti „Python“, kad ją reikia importuoti. Žemiau yra kodo eilutė, importuojanti pandų biblioteką.

importuoti pandas kaip pd

Pagrindinis naudojimas .skaityti_csv metodas yra žemiau. Tai akimirksniu ir užpildo a „DataFrame“ df su informacija CSV faile.

df = pd.read_csv ('12005-year-hist-obs-tasmax.csv ')

Pridėję dar porą eilučių, mes galime apžiūrėti pirmąsias ir paskutines 5 eilutes iš naujai sukurto „DataFrame“.

df = pd.read_csv ('12005-year-hist-obs-tasmax.csv ')
spausdinti (df.galva (5))
spausdinti (df.uodega (5))

Kodas įkėlė metų stulpelį, vidutinę dienos temperatūrą Celsijaus (tasmax), ir sukūrė 1 indeksavimo schemą, didinančią kiekvienai duomenų eilutei. Taip pat svarbu pažymėti, kad antraštės pateikiamos iš bylos. Naudojant pagrindinį aukščiau pateiktą metodą, daroma išvada, kad antraštės yra pirmoje CSV failo eilutėje. Tai galima pakeisti perduodant metodui kitokį parametrų rinkinį.

Parametrai

Pateikiau nuorodą į pandas .skaityti_csv dokumentus, pateiktus žemiau esančiose nuorodose. Yra keli parametrai, kuriuos galima naudoti norint pakeisti duomenų skaitymo ir formatavimo būdą „DataFrame“.

Yra nemažai parametrų .skaityti_csv metodas. Dauguma jų nėra būtini, nes dauguma atsisiunčiamų duomenų rinkinių bus standartinio formato. Tai yra stulpeliai pirmoje eilutėje ir kablelių ribotuvas.

Yra keletas parametrų, kuriuos paryškinsiu pamokoje, nes jie gali būti naudingi. Išsamesnę apklausą galima rasti dokumentacijos puslapyje.

rodyklės_kol

rodyklės_kol yra parametras, kurį galima naudoti nurodant stulpelį, kuriame yra indeksas. Kai kuriuose failuose gali būti rodyklė, o kai kuriuose - ne. Pirmajame mūsų duomenų rinkinyje aš leidžiau pitonui sukurti indeksą. Tai yra standartas .skaityti_csv elgesys.

Mūsų antrame duomenų rinkinyje yra indeksas. Žemiau pateiktas kodas įkelia „DataFrame“ su duomenimis CSV faile, bet užuot sukūręs dalinio sveikojo skaičiaus indeksą, jis naudoja stulpelį SHPMT_ID, įtrauktą į duomenų rinkinį.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ', index_col =' SHIPMT_ID ')
spausdinti (df.galva (5))
spausdinti (df.uodega (5))

Nors šiame duomenų rinkinyje indeksui naudojama ta pati schema, kiti duomenų rinkiniai gali turėti naudingesnį indeksą.

nrows, skiprows, usecols

Turėdami didelius duomenų rinkinius, galbūt norėsite įkelti tik duomenų dalis. The nrows, skiprows, ir usecols parametrai leis jums supjaustyti į failą įtrauktus duomenis.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ', index_col =' SHIPMT_ID ', nrows = 50)
spausdinti (df.galva (5))
spausdinti (df.uodega (5))

Pridedant nrows parametras, kurio sveikoji vertė yra 50, .uodegos skambutis dabar pateikia eilutes iki 50. Likę failo duomenys nėra importuojami.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ', skiprows = 1000)
spausdinti (df.galva (5))
spausdinti (df.uodega (5))

Pridedant skiprows parametras, mūsų .galva col nerodo pradinio indekso 1001 duomenyse. Kadangi praleidome antraštės eilutę, nauji duomenys prarado antraštę ir indeksą pagal failo duomenis. Kai kuriais atvejais gali būti geriau suskaidyti duomenis į „DataFrame“ o ne prieš įkeliant duomenis.

The usecols yra naudingas parametras, leidžiantis importuoti tik duomenų pogrupį pagal stulpelius. Tai gali būti perduota nulinė rodyklė arba stygų sąrašas su stulpelių pavadinimais. Pirmus keturis stulpelius importavau į mūsų naująjį, naudodamas toliau pateiktą kodą „DataFrame“.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ',
index_col = 'SHIPMT_ID',
= 50, usecols = [0,1,2,3])
spausdinti (df.galva (5))
spausdinti (df.uodega (5))

Iš mūsų naujojo .galva skambink, mūsų „DataFrame“ dabar yra tik pirmieji keturi duomenų rinkinio stulpeliai.

variklis

Paskutinis parametras, kuris, manau, praverstų kai kuriuose duomenų rinkiniuose, yra variklis parametras. Galite naudoti C variklį arba „Python“ kodą. C variklis natūraliai bus greitesnis. Tai svarbu, jei importuojate didelius duomenų rinkinius. „Python“ analizavimo pranašumai yra labiau funkcijų rinkinys. Ši nauda gali reikšti mažiau, jei į atmintį įkeliate didelius duomenis.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ',
index_col = 'SHIPMT_ID', variklis = 'c')
spausdinti (df.galva (5))
spausdinti (df.uodega (5))

Sekti

Yra keletas kitų parametrų, kurie gali išplėsti numatytąjį „Windows“ elgesį .skaityti_csv metodas. Juos galite rasti dokumentų puslapyje, į kurį aš nurodžiau žemiau. .skaityti_csv yra naudingas duomenų rinkinių įkėlimo į pandas metodas duomenų analizei. Kadangi daugelyje nemokamų duomenų rinkinių internete nėra API, tai bus naudingiausia ne finansiniuose duomenyse esančioms programoms, kuriose yra patikimos API, kad būtų galima importuoti duomenis į pandas.

Literatūra

https: // pandas.pydata.org / pandas-docs / stabilus / generuotas / pandos.skaityti_csv.HTML
https: // www.duomenis.gov /
https: // įrankių rinkinys.klimatas.gov / # klimato tyrinėtojas
https: // www.surašymas.gov / econ / cfs / pums.HTML

Pandos skaitymo_csv pamoka