Creative IT Development 2 - 너의 목소리가 보여(YouHear)

Untitled

🗓 2020.03 -2020.06 🌎 포항, 경상북도, Korea

참여인원: 3명

내 역할: Display part 개발 & Integration

개발 툴: Python

한 줄 소개: 청각 장애인을 위한 키네틱 타이포그래피 자막

Untitled

Development

개발파트에서 저는 Display part를 담당하였고, 그 외에도 Video Part에서 Active Speaker Detection의 아이디어 제공 및 OpenCV 라이브러리 사용에 도움을 주었습니다. Display Part가 단독으로 분리된 파트가 아니다보니 전체적인 process 및 pipeline을 모두 만들었고, 프로젝트 초반에는 Display를 할 수 없었기 때문에 Video part의 OpenCV Face landmark 조사 및 Active speaker detection 알고리즘 고안을 하였고 Audio part의 audio segment optimization 및 오류 찾아주는 역할을 하였습니다.

팀장은 따로 없었지만 전체적인 process 및 timeline, 해결해야하는 task를 제가 설정하여 함께 진행할 수 있도록 하였습니다. 또한 다른 팀원들의 코드를 보고 코드 리뷰 및 오류 잡아주기, 새로운 Idea 제안을 하는 등 전체적으로 팀에 중요한 기여를 하였다고 생각하고, 제 파트 뿐만이 아닌 프로젝트 전체 코드를 이해하고 있습니다.

Untitled

Integration

Audio part의 함수를 이용하여 audio_lst, Video part의 함수를 이용하여 emotion_lst와 loc를 생성하여 여기에 앞선 pipeline의 결과값을 저장하고 이용할 수 있도록 가공하였습니다.
Audio Segment 별 Display time

Display를 할 때, 언제 text를 띄울 지와 언제까지 유지시킬 지 결정하고 이를 구현하는 것은 상당히 중요한 task였습니다. Word_lst를 하나의 audio segment로 보고 이를 한 문장으로 가정하여 구현하였습니다.
화자 구분

화자의 location이 frame마다 계속 달라지기 때문에 이를 진짜 active speaker가 바뀐 상황과 구별하기 위해서 far 함수 등 화자 구분을 위한 solution을 구현하였습니다.