Product Group 9월 모임 후기

Eunsil Ha
2023년 10월 1일
5분 분량

지난 9월 23일 Bellevue City Hall Semniar Room에서 , 창발 Product Group에서는

" Data & Product "라는 제목으로 모임을 진행하였습니다. Product Group의 이 세미나는 JP Morgan Chase, Amazon, AT&T 등에서 다양한 경험을 가지신 David Sejin Park님이 진행하였으며 참석자들의 간단한 자기 소개와 함께 , 지금/최근 하는 일에서 데이터를 얼마나 많이 접하고 사용 하는지에 대한 Ice breaker questions 으로 시작하여 두 시간 동안 열정 넘치는 질문및 토론을 하였습니다.

세미나는 총 4부로 나누어 진행되었습니다.

1부에서는 Data Product Management의 역할과 범위에 대해 알아보았습니다.

2부에서는 Data Analytics Pipeline에 대한 정의와 구성 요소에 대해 알아보았습니다.

3부에서는 Data Quality에 대해 알아보았습니다.

4부에서는 Making Product Decisions using Data에 대해 알아보았습니다.

이 세미나를 통해 Data Product에 대한 이해를 한층 더 깊이 할 수 있었습니다.

Data Product은 맥락에 따라 다양한 방법으로 정의될 수 있습니다.

Raw Data: 처리되지 않았거나 정제되지 않은 데이터
Decision support Data: 의사 결정자가 정보에 입각한 결정을 내리는 데 도움이 되도록 처리 및 분석된 데이터
Transformed Data: 더 쉬운 분석 또는 소비를 위해 다른 형식이나 구조로 변환된 데이터
Algorithm: 알고리즘에 의해 처리되어 새로운 통찰력이나 예측을 생성한 데이터
API: 개발자가 데이터에 액세스하고 사용할 수 있는 방법을 제공하는 데이터 제품
Visualization: 차트, 그래프 및 기타 시각적 요소를 사용하여 데이터를 명확하고 간결하게 전달하는 Data Product
Data Management: 데이터를 수집, 저장, 보호 및 분석하는 프로세스
Data Governance: 데이터를 관리하고 사용하는 방법을 제어하는 정책 및 절차
Data InfraStructure: 데이터 관리 및 분석을 지원하는 하드웨어, 소프트웨어 및 네트워크

결론적으로 Data Product은 데이터를 사용하여 사용자에게 가치를 제공하는 모든 제품 또는 서비스입니다. 이는 간단한 Raw Data에서 복잡한 Machine Learning Model에 이르기까지 모든 것을 포함할 수 있습니다.

다음은 Data Product 의 몇 가지 예입니다.

Recommended Engine: 사용자의 과거 행동과 선호도에 따라 사용자에게 제품, 서비스 또는 콘텐츠를 추천하는 의사 결정 지원 시스템입니다.(eg: Neflex)
Curated Data: 특정 목적에 맞게 선택, 구성 및 정리된 데이터입니다.(eg: Bloomberg)
API: 데이터에 대한 액세스를 제공하고 개발자가 해당 데이터를 사용하는 애플리케이션을 구축할 수 있도록 합니다.(eg: Twitter)
Product Recommendation : 사용자의 과거 구매 내역 및 기타 요인에 따라 사용자에게 제품을 추천하는 의사 결정 지원 시스템입니다.(eg: Amazon)
Internal Data Product : 기업이 운영과 의사 결정을 개선하기 위해 내부적으로 사용하는 Data Product입니다.

Data Product Manager는 다음과 같은 업무를 담당합니다.

제품 비전 정의: Data Product Manager는 Stakeholder와 협력하여 Data Product에 대한 비전을 정의하고 Target사용자의 요구를 파악합니다.
데이터 요구사항 수집: Data Product Manager는 사용자 및 기타 Stakeholder로부터 데이터 요구사항을 수집합니다. 그런 다음 Data Scientist 및 Engineer와 협력하여 Data Product을 설계하고 개발합니다.
제품 수명 주기 관리: Data Product Manager는 개발부터 출시 및 유지 관리까지 전체 제품 수명 주기를 감독합니다.
제품 성능 측정 및 개선: Data Product Manager는 제품 성능을 추적하고 분석하여 개선 사항을 파악합니다.

Data Analytics Pipeline

Data Analytics Pipeline은 데이터를 수집, 정제, 분석, 시각화하는 과정을 포함하는 일련의 단계입니다.

Application은 OLTP(Online Transaction Processing ) 및 OLAP(Online Analytical Processing) 시스템을 사용하여 데이터를 저장하고 처리할 수 있습니다. OLTP 시스템은 일반적으로 트랜잭션 데이터를 저장하고 처리하는 데 사용되지만 ETL(Extract, Transform, Load) 을 사용하여 OLAP 시스템은 분석 데이터를 저장하고 처리하는 데 사용됩니다. 분석가는 OLTP 시스템과 Tool 및 기타 소스의 데이터를 분석하여 insight을 제공합니다.

다음은 이러한 구성 요소가 함께 작동하는 방법에 대한 예입니다.

고객이 전자 상거래 웹사이트에서 주문을 합니다. 전자 상거래 웹사이트는 OLTP 시스템을 사용하여 주문을 처리하고 고객 정보를 저장합니다.
전자 상거래 웹사이트는 또한 OLAP 시스템을 사용하여 판매 데이터를 분석합니다. 분석가는 OLAP 시스템을 사용하여 판매 트렌드를 식별합니다(eg: 가장 인기 있는 제품과 잘 팔리지 않는 제품).
분석가는 OLAP 시스템의 insight을 사용하여 전자 상거래 웹사이트에 판매를 개선하는 방법을 권장 합니다.

Data Anaytics Pipeline을 사용하여 확장 가능한 데이터 시스템 구축 방법

데이터의 흐름을 캡처, 처리, 저장 및 분석을 사용하여 확장 가능한 데이터 시스템을 구축합니다.

데이터 볼륨과 요구 사항이 증가함에 따라 데이터 시스템을 확장해야 합니다. 여기에는 더 많은 하드웨어, 소프트웨어를 추가하거나 기존 인프라를 최적화하는 작업이 포함될 수 있습니다.

확장 가능한 데이터 시스템 구축을 위한 몇 가지 팁은 다음과 같습니다.

클라우드 기반 플랫폼 사용. 클라우드 기반 플랫폼은 확장성, 탄력성 및 비용 효율성과 같은 확장 가능한 데이터 시스템 구축을 위한 많은 장점을 제공합니다.
모듈형 아키텍처 사용. 모듈형 아키텍처는 시스템에 새 구성 요소를 추가하고 시스템을 수평적으로 확장하는 것을 더 쉽게 만듭니다.
Data Warehouse, Data lake 사용. Data wasehouse 또는 Data Lake는 데이터 저장 및 분석을 위한 중앙 저장소를 제공할 수 있습니다.
분산 처리 사용. 분산 처리를 사용하면 많은 양의 데이터를 빠르고 효율적으로 처리할 수 있습니다.
캐싱 사용. 캐싱은 자주 액세스하는 데이터를 메모리에 저장하여 시스템 성능을 향상시키는 데 도움이 됩니다.

Data Quality

Data Quality는 데이터의 정확성, 완전성, 일관성을 의미합니다. Data Quality는 데이터 분석의 결과에 영향을 미치기 때문에 중요합니다.

Graph DB, Knowledge Graph및 Ontology는 모두 Data Quality를 개선하는 데 사용될 수 있는 관련 개념입니다.

Graph DB는 Node와 Edge의 형태로 데이터를 저장하는 유형의 DataBase입니다. Node는 사람, 제품 또는 이벤트와 같은 개체를 나타냅니다. Edge는 "친구" 또는 "구매"와 같은 노드 사이의 관계를 나타냅니다. Graph DB는 복잡한 데이터 관계를 저장하고 쿼리하는 데 적합합니다.
Knowledge Graph는 세계에 대한 지식을 표현하는 데 사용되는 유형의 Graph DataBase입니다. Knowledge Graph는 사람, 장소, 사물 및 이벤트에 대한 정보와 이들 사이의 관계를 포함할 수 있습니다. Knowledge Graph는 자연어 처리 및 Machine Learning 애플리케이션에서 자주 사용됩니다.
Ontology는 지식의 공식적인 표현입니다. Ontology는 특정 Domain에 존재하는 개념, 관계 및 제약 조건을 정의하는 데 사용될 수 있습니다. Ontology는 데이터의 일관성과 명확성을 보장하여 데이터 품질을 개선하는 데 자주 사용됩니다.

이러한 세 가지 개념은 함께 사용하여 다양한 방법으로 Data Quality를개선할 수 있습니다. 예를 들어 Ontology는 Knowledge Graph의 구조를 정의하는 데 사용될 수 있습니다. 이는 Knowledge Graph의 일관성과 Graph DB가 명확하게 정의되도록 하는 데 도움이 됩니다. 또한 Graph DB는 Knowledge Graph를 저장하고 쿼리하는 데 사용될 수 있습니다. 이는 Knowledge Graph의 데이터에 액세스하고 분석하는 것을 더 쉽게 만듭니다.

다음은 Graph DB, Knowledge Graph및 Ontology를 사용하여 데이터 품질을 개선하는 방법에 대한 몇 가지 구체적인 예입니다.

Graph DB는 노드 사이의 누락 또는 잘못된 관계를 찾아내어 데이터 불일치를 식별하는 데 사용될 수 있습니다. 예를 들어, Graph DB는 동일한 이메일 주소이지만 이름이 다른 고객 레코드를 식별하는 데 사용될 수 있습니다. 이 정보는 데이터 불일치를 수정하는 데 사용될 수 있습니다.
추가 컨텍스트를 사용하여 데이터 풍부화: Knowledge Graph는 Knowledge Graph의 다른 데이터에 연결하여 추가 컨텍스트를 사용하여 데이터를 풍부화하는 데 사용될 수 있습니다. 예를 들어, Knowledge Graph는 고객 레코드를 고객이 구매한 제품에 연결하는 데 사용될 수 있습니다. 이 정보는 고객에게 새로운 제품을 추천하는 데 사용될 수 있습니다.
Machine learning Model의 정확성 향상: Ontology는 Machine Learning Model이 학습하는 데이터에 대한 추가 정보를 제공하여 정확성을 향상시키는 데 사용될 수 있습니다. 예를 들어, Ontology는 고객이 관심을 가질 만한 제품 유형에 대한 정보를 Machine Learning Model에 제공하는 데 사용될 수 있습니다. 이 정보는 모델이 고객의 선호도에 대해 더 정확한 예측을 내리는 데 사용될 수 있습니다.

전반적으로 Graph DB, Knowledge Graph 및 Ontology는 다양한 방법으로 Data Quality을 개선하는 데 사용될 수 있습니다. 이러한 기술을 함께 사용하여 조직은 보다 일관성 있고 정확하며 유익한 데이터를 생성할 수 있습니다.

Making product decisions using data

전반적으로 Pirate Funnel은 제품 성장을 위한 데이터 중심의 접근 방식입니다. Funnel의 각 5단계 : 고객 유치(Acquisition),활성화(Activation),유지(Retention),추천(Referral),수익(Revenue)에서 데이터를 추적하고 분석하여 기업은 개선 영역을 식별하고 리소스를 할당하는 방법에 대한 더 나은 결정을 내릴 수 있습니다.

이 세미나를 통해 Data Product에 대한 이해를 한층 더 깊이 할 수 있었습니다. 데이터 전문가들과 데이터에 대해 더 많은 이야기를 나누면서, Data Product Manager는 데이터를 사용하여 더 나은 의사 결정을 내리고, 더 나은 제품을 만들고, 더 나은 고객 경험을 제공할 수 있다는 것을 확인 할 수 있었습니다.