Vad är ORC (Optimized Row Columnar)?

o

Optimized Row Columnar (ORC) är ett självbeskrivande, typbevarande kolumnlagringsformat för Hadoop-projektet. ORC förbättrar lagringseffektiviteten genom att använda en rad avancerade tekniker, inklusive komprimering, kolumnprojektion och skjutning. Resultatet är att data kan lagras på en mycket kompakt sätt vilket sparar lagringsutrymme, men också betydligt ökar hastigheten på dataanalys.

ORC-filer innehåller en kolumnfokuserad representation av data. Tänk på det som lagring av data i en excel-kalkylark: varje fil innehåller rad- och kolumninformation, men inriktningen är större på kolumner än rader. Denna kolumnfokuserade representation ger flera fördelar inkluderad förbättrad prestanda vid datautvinning och optimal lagringskomprimering. Det gör ORC till ett perfekt val för att lagra stora datamängder i dataanalysverktyg som Apache Hive och Apache Spark.

Kompakteringen av data i ORC-formatet innebär att filerna är mycket mindre än vanliga textfiler, dessa filer tar mycket mindre lagringsutrymme, vilket ger besparingar på både kostnaden för lagringsmedia och nätverksoverföring. Komprimering innebär också att läs- och skrivoperationer av ORC-filer är mycket snabbare än traditionella filformat, vilket förbättrar prestanda vid dataanalys.

Kommentera

av Emma Smith