Veri Mühendisliği 2018-04-05T12:06:05+00:00

Ölçeklenebilir ve sürdürülebilir analitik sistemler, Modern Veri Mühendisliği ile yürütülebilir.

DATAMIND, geleneksel analitik çözümleri kullanmak yerine modern veri mühendisliği çözümleri kullanarak kompleks veri analitikleri oluşturur.

Geleneksel IT sağlayıcılarının aksine DATAMIND, yeni teknolojiler kullanarak modern veri yönetimi çözümleri sunar. Tüm veri ekosistemini ele alarak, modern iş zekası gözünden doğru ve hızlı çözümlere odaklanır. Veri mühendisliği çözümlerimiz, müşterilerimize güçlü, sağlam, hatasız ve ölçeklenebilir veri yönetimi sağlar.

  • Tüm kaynaklardan veri entegrasyonu
  • Veri hazırlama (ETL)
  • Veri keşfi
  • Algoritma ve modüllerle veri işleme, analitikler
  • Güvenilir ve ölçeklenebilir erişim için veri kararlılığı

DATAMIND olarak, müşterilerimizin mevcut sistemleri ile pragmatik yaklaşımlarla modern ürünleri kullanarak çalışıyoruz. Modern veri çözümleri ve mimarisini oluşturmak zaman alsa da, müşterilerimizin mevcut sistemlerine de destek vererek çalışmalarımızı sürdürüyoruz. Bu çalışmalarımız;

  • Veri kalitesi yönetimi
  • ETL işlem yönetimi
  • Verilerin çıkarılması, veri kalitesinin artırılması ve dönüşümler (Data Quality Improvement)
  • Veri tabanı yönetim sistemi (Database Management System)
  • Veri ambarı yönetimi (Datawarehouse Management & ETL)
  • Veri yönetişimi ve Veri Güvenliği (Data Governance & Data Security)

Bu maddeler çerçevesinde, verinin konsept olarak ele alındığı aşağıdaki başlıklar,  DATAMIND ailesi olarak müşterilerimize sunduğumuz danışmanlık ve diğer hizmetleri kapsamaktadır.

Veri Yönetimi ile Veri Kalitesinin Arttırılması

Şirketlerin ülkeleri ve tüm dünyayı etkileyen başarıları, karar verici pozisyondaki yöneticilerin zamanında verdiği doğru analiz edilmiş verilere dayalı, stratejik ve operasyonel kararlarına bağlıdır. Bu başarılı kararların temelinde ise kanı değil kanıt yatmaktadır. Bu başarıya ulaşmak, kanıtların güvenilir ve tutarlı olmasına bağlıdır. Kanıtlar şirketlerin ve çeşitli organizasyonların sağlıklı ham verilerinden ve güvenilir diğer kaynaklardan yararlanılarak zenginleştirilmiş faydalı, anlamlı, tutarlı verilerinden oluşmaktadır. Özetlemek gerekirse bu verilerden yola çıkarak yapılan tahminler de verilen kararlara ve kararı veren şirketlere olan güveni arttırmakta, müşterilere ve yatırımcılara, bu şirketlerle çalışma noktasında büyük bir cesaret vermektedir.

Birçok yönetici veri kalitesini artırmanın öneminin farkında değildir ya da IT birimi bu konuya gereken özeni göstermemekte gerekli çalışmaları yapmamaktadır. Ancak bilinenin aksine veri kalitesi büyük-küçük her şirket için hayati önem taşımaktadır. Düşük veri kalitesi doğrudan ya da dolaylı olarak  büyük ekonomik zararlara yol açabilir veya siz farkında olmadan hedeflediğiniz performansı alamamanıza neden olabilmektedir. Bu durum hedeflenen başarıya ulaşma noktasında sizi sekteye uğratabilmektedir.

Veriler şirket-sektör standartlarına uygun olmalıdır. Kalitesiz veri şirketlere olan güveni sarsmaktadır. Kalitesiz veri demek, yüksek maliyet ve düşük gelir demektir. Kısaca özetlemek gerekirse daha çok performans harcanıp daha az kazanılması anlamına gelmektedir. Örnek bir senaryo kurgulamak gerekirse; bir finans şirketi olduğumuzu varsayalım. Bu şirket, müşterilerinin kimlik numarası, telefon numarası, kredi kart numarası v.s. bilgilerinden herhangi birinin verisinde bir hata yaptığında ve bu ortaya çıktığında müşterinin tepkisi ne olmalıdır?  “Bu şirket gerçekten benim paramı yönetme kabiliyetine sahip mi?”  sorusu müşterinin ilk aklına gelen soru olacaktır ve şirkete olan genel güven sarsılacaktır. Bu durum da haliyle yatırımcıların şirketinizden uzaklaşmasına yol açacaktır.

Şirketlerin ve çeşitli organizasyonların geçmişine dair ham verilerin ve güvenilir kaynaklardan yardım alarak zenginleştirdiği faydalı verilerin kaliteli olması şirket geleceğinin inşası açısından son derece önemlidir. Birçok sebepten dolayı zamanla verilerde bozulmalar meydana gelebilmektedir. Bozuk ve doğru olmayan verilerle alınan kararların maliyeti oldukça yüksektir. Bazen bunu ölçmek mümkün bile olmayabilmektedir.

Başarısı doğru karar vermeye bağlı bir organizasyon  verilerini özenle tutmak ve yönetmek zorundadır. Çünkü bir organizasyon geleceğini tayin eden stratejik kararları doğru veriler ışığında alırsa başarıya ulaşılabilir.

Veri kalitesini arttırma çalışmalarında göz önünde bulundurulan etmenler şunlardır;

  • İşletme kurallarına hakim olmak.
  • Veri kümeleri arasındaki ilişkilere hakim olmak.
  • Verinin elde edildiği kaynaklardan veya türetildiği yöntemlerden haberdar olmak.
  • Veri temizleme teknolojilerine (Data/Text Mining, ETL, SQL vs.) ve yaklaşım biçimine hakim olmak.
  • Geliştirme desteğini alabilmek.
  • Geliştirme süresini kontrol altında tutabilmek.
  • Lisans maliyetlerini karşılayabilmek.
  • Proje maliyetini kontrol altında tutabilmek.
  • Her aşamada veri güvenliğinin sağlanması.
Şirketlerin öncelikli ihtiyaçlarından biri de güçlü bir profillendirmedir. Verinin uçtan uca yönetiminde iyi bir analiz çıkartılıp, verinin rapor aşamasına kadar süreç özenle takip edilmelidir. Temiz veriye ulaşmak için uyulması gereken başlıca kurallardan birisi de veri, kaynaktan ilk alınma aşamasından itibaren analizine başlanmalı, bozuk, tutarsız veya yanlış veriler temizlenerek ilerlenmelidir. Alanları standartlaştırılmalı ve her ortamda aynı formatta kullanılmalıdır.
Verilerin analiz edilip, verilerdeki bozuklukların tespit edilmesi aşamasıdır.
Analiz aşamasında tespit edilen bozuklukların giderilmesi için gerekli yol haritasının çıkarılması aşamasıdır. Bazen bir kaç seviye temizlik yapılması gerekebilir. Her seviyede yeniden analiz yeniden plan yapılabilir.
Kullanıcı hatasından kaynaklanan hatalar, donanımsal ve yazılımsal bozukluklar, net bir şekilde anlaşılır olmayan veriler, verilerin daha önce birleştirilmesinden sonra ortaya çıkan bozuklukların giderilmesi aşamasıdır.
Eksik verilerin yerine yeni değerlerin atanması, tahmine dayalı düzeltme gerektiren hatalar, makul olmayan aykırı verilerin düzeltilmesi aşamasıdır.
Mevcut durum kontrol edilir. Yeni ihtiyaçlar belirlenir. Gerekli görülürse geliştirme yapılır.

Süreci daha detaylı ve literatüre uygun şekilde ele alırsak veri kalitesini arttırma çalışmalarında şu aşamalardan geçildiğini ifade edebiliriz:

Verilerin analiz edilmesi ve bulguların elde edilmesi aşaması. Veri kaynaklarını ve veri kümesini tarif eden istatiksel analizler yapılır. Verilerin profili çıkartılır, ilişkiler, bağıntılar, dağılımlar vs. tespit edilir.
Veri dönüştürme ve eşleştirme çalışma planının hazırlanması aşamasıdır. Veri kaynaklarına erişim ve veri çekme planının yapılması ve veri kaynaklarında kirlilik durumuna göre tek tek ve entegrasyon sonrası yapılacak düzeltmelerin planlanmasıdır. Hedefte yapısal değişiklik yapma ihtiyacının belirlenmesi ve tasarımda, farklı kaynaklardaki verilerin birlikte değerlendirilmesi ile ilgili iş kurallarının çıkartılmasıdır.
Planlanan düzeltmelerin yapıldığı aşamadır. Öncelikle tek bir kaynaktaki problemlere odaklanılır. Daha çok alan bazlı verilerin düzeltilmesi aşamasıdır. İş kurallarına uygun olacak şekilde temiz bir entegrasyon için veri hazırlanır. Birleştirilmiş veri kümelerinde ortaya çıkan hatalara, bozuk ilişkilere odaklanılır. Veriler iş kurallarına uygun şekilde tasarlanmış hedefte depolanır. Veri kalitesini sürekli olarak korumak için otomasyon kurulur. Veri merkezileştilir, kurallar belirlenir ve istenen yapıda depolanır. Veri kalitesini bozan durumlar raporlanır.
Verinin gerekirse farklı kaynaklar kullanılarak zenginleştirilmesi aşamasıdır. Verinin anlaşılabilirliğine katkı sağlayacak ek geliştirmeler yapılması, verinin standartize edilmesi ve İlişkili olabilecek ek verilerin bir araya getirilmesi aşamasıdır.
Veri ambarı, analiz amaçlı sorgulamalar yapmak için özelleşmiş bir veritabanıdır. Temel amacı, işletmeye ait güncel olmayan kayıtları saklamak ve bu kayıtlar üzerinde daha kolay analizler yapılmasını sağlayarak iş ihtiyaçlarını anlamaya ve işletme fonksiyonlarını yenilemeye yardımcı olmak, yani iş zekasına kolaylık sağlamaktır. Ancak verilerin veri ambarında depolanma aşamasından önce bazı süreçlerden geçmesi gerekmektedir. Bu süreç Toplu veri aktarım (ETL) sürecidir. ETL; farklı operasyonel sistem veri tabanlarında biriken verilerin, mevcut sistemlerden alınıp, temizlenmesi ve kullanıcı için anlamlı yapıya dönüştürülmesi ve veri ambarına aktarılması sürecinin bütünüdür.


ETL( Extract – Transform – Load “Çıkart – Dönüştür – Yükle”) temel olarak kullanılacak verinin dış kaynaklardan çıkarılması, verinin iş önceliklerine göre temizlenmesi, birleştirilmesi, kısıtlarının ve kalitesinin dönüştürülmesi ve son hedefe (veritabanı veya veri ambarı) yüklenmesi sürecine denir. Yüksek boyutlu veriler operasyonel sistemlerden alınıp veri ambarı veya data mart’lara yüklenirken ETL sürecine sokulurlar. Amaç iş zekasında kullanılacak verinin en etkin kullanılabilecek hale sokulmasıdır.

Extract – Çıkart: Veriyi kaynak sistemden alma anlamına gelir. Bilindiği gibi veri ambarı yapılarında birçok farklı kaynak sistem ve flat files (excell,csv,txt…vb) kullanılır. Veriyi birçok farklı sistemden yardımcı araçlar veya kod ile alabiliriz.
Transform –  Dönüştür: Verilerin birçok farklı sistemden geldiğini söyledik. Bu farklı sistemden gelen verilerin bizim yapımıza uygun olması için belli bir dönüşümlerden geçmesi gerekmektedir. Verinin temizlenmesi, kalitesinin arttırılması lazımdır. Veri farklı kaynaktan gelmese bile verinin her bir veri ambarı yapısında farklı karakteristik özelliklerde davranması gerekebilir. İşte bu yüzden Staging alanındaki bir veri ile veri ambarındaki aynı verinin formatı farklı olabilir. İşte bu noktada Transform bu işlemlerin genel adını kapsayabilir.
Load – Yükle: Verilerin kaynak sistemden gelip hedef sisteme yüklenmesi anlamına gelir.

Veri ambarı,  işlem sistemlerinden,   operasyonel veri depolarından ve dış kaynaklardan elde edilen verileri tutmak için tasarlanmış bir depolama mimarisidir.

Veri ambarı, soyutlaştırılmış ve tarihle ilişkilendirilmiş konu alanlarını,  gerekli detay ve kırılımlarda barındırarak farklı analizlerde işlevli kılmayı hedefler. Datamartlar ise, benzer zaman detaylarında ve konuya odaklı verilerin boyutlar ve fact’lerin ayrılarak analiz edilmesi için kullanılan veri alanlarıdır.

Çeşitli kaynaklardan elde edilen veriler, önceden tanımlanan iş ihtiyaçlarına uygun kurumsal ölçekli veri analizlerinde ve raporlama işlemlerinde kullanılacak şekilde dönüşümlerden geçirilerek veri ambarında birleştirilir.
Mantıksal veri ambarı, büyük veri çağının yükselişiyle beraber ortaya çıkmış bir veri yönetim mimarisidir. Büyük verinin faydalarıyla geleneksel veri ambarı sistemlerini birleştirerek maksimum fayda elde etmeyi hedefler. Faydalar: • Daha hızlı “veriden bilgiye” süreçleri. • Bilgi keşfi için daha ucuz geliştirme ortamları. • Esneklik ve beraberinde getirdiği daha isabetli sonuçlar. Mantıksal veri ambarının ortaya çıkışıyla beraber, veri ambarı sistemine bir çok anahtar yetenekler eklenmiştir. Bu yetenekler; • Veri Depolama / Yönetimi (Bu maddeler mantıksal veri ambarı alt başlıkları) Veri kalitesini en üst kalite standartlarında tutmak ve gerekli olduğunda istenen veriye erişebilirlik sağlamak. • Veri Sanallaştırma Farklı kaynaklardan elde edilen verilerin, tipine, yapısal olup olmamasından bağımsız olarak bütün halinde ele alınabilmesini sağlamak. • Dağıtık İşlemler Veri sorgulamada birden fazla sistem üzerinde çalışması ile her sistemin kendi veri yükünü işlemesini ve sonuç olarak tek bir çıktı üretmesini sağlamak. • Denetim ve Performans Değerlendirme Servisleri Performansa ait istatistiklerin toplamak, kullanıcı ve uygulamaların tüketimlerini takip ederek denetimini sağlamak. • Metadata Yönetimi Dağıtık işlemleri ve veri sanallaştırma işlemlerini sağlamak adına verilerin oluşum, değişim, sahiplik gibi detayları hakkında bilgilerin tutulmasını sağlamak. • Servis Yönetimi Kullanıcı ve uygulamaların beklentileri ve var olan performans istatistiklerini göz önünde bulunarak öneri ve operasyon optimizasyonu sağlamak.

Data governance, veri ile ilgili işlemler için bir sorumluluklar sistemidir. Bu sistemin temelini ise politikalar, standartlar ve prosedürler oluşturur. Sistem, politikalar, standartlar ve prosedürler sayesinde verinin ne zaman, hangi şartlar altında, hangi eylemlerde, hangi yöntemler ile kimler tarafından kullanılacağına ve veri sahipliğine karar verir. Bu tür politikalar verinin doğruluk, erişilebilirlik, tutarlılık, bütünlük ve güncellenmesi de dahil olmak üzere çeşitli bölümlerinden sorumlu kişilerin kim olduğunu belirtmelidir. Bu süreçler dahilinde verilerin, nasıl depolanması, arşivlenmesi, yedeklenmesi ve güncellenmesi gerektiği veya hırsızlık ve siber saldırılara karşı nasıl etkilendiğinin verisinin tutulması ve bu işlerle ilgilenen ekiplerin belirlenmesi veri yönetişimi ve veri güvenliğinin konusudur. Firmalarda, firma ya da müşteri verilerinin, o veri ile ilgili yetkili personel tarafından kullanıldığına emin olunması için belirli standardizasyon çalışmaları yapılmalıdır.

Verileri, yapısal (Structured), yapısal olmayan (Unstructured)  şeklinde 2 sınıfa ayırmak mümkündür. Yapısal veriler, belirli bir veri tabanında duran, raporlanabilen, uygulamaların ürettiği veriler olarak karşımıza çıkmaktadır. Firmaların yönetmekte zorlandığı veri sınıfı ise yapısal olmayan verilerdir.

Oluşan BT varlıklarının %50 ila %80’i yapısız verilerden oluştuğu ve en az denetlenen ve yönetilen alan olduğu düşünülürse, denetlemelerde ve yönetim sistemlerinde, veri yönetişimi ve veri güvenliği büyük öneme sahiptir.

CRM,ERP gibi büyük uygulamalarınızın hergün veri ambarına aktarılmasının yanısıra ,çok fazla değişik kaynaklardan gelen (ürün,müşteri,tedarikçi,satış,flat files..vb) verilerin koordinasyonunu sağlamak ve onları yönetmek firmaların zorlandığı alanlardır. Bu verilerin tutulması maliyetli olduğu halde şirkete kazancı maliyetine oranla düşüktür. Bu verilerden şirket yararına iş süreçlerini destekleyici kararlar çıkarmak ve bu verilere hakim olup, yönetmek için ana veri yönetimine ihtiyaç duyulmaktadır. Yönetemediğiniz verileri yönetip, bu verilerden anlamlar çıkararak şirketinize büyük kazanç sağlayabilirsiniz. Düşünün ki her gün bu şekilde gelen büyük ölçeklerde verileriniz var ama bu verilerin ne olduğunu ve ne işe yaradığını bilmiyorsunuz veya çok azına hakimsiniz. Bir süre sonra bunlar veri ambarında,veri çöplüğü oluşturacaktır. Bundan dolayı yönetemediğiniz hiçbir bilgi sizin değildir. Master data management bu noktada verilerinizin koordinasyonu, yönetimi, nasıl kullanmanız gerektiğini size sunan bir yapıdır. Yanlış veriler şirketleri büyük zararlara uğratabilir. Örneğin eksik veya yanlış bir müşteri verisi, firmaların kampanyalarında, yanlış müşteri profilleri oluşturmalarına neden olabilir ve bu durum satışları büyük oranda etkileyerek, şirketleri büyük zararlara uğratabilir. Bu zararların önüne geçmek için müşteri, tedarikçi vs. gibi yönetemediğiniz verilerinizi tek bir doğru kaynaktan edinmek için ana veri yönetimi şirketlerin çok büyük önem vermesi gereken bir olgudur.