자세 랜드마크 인식 가이드

MediaPipe 포즈 랜드마크 작업을 사용하면 이미지에서 인체의 랜드마크를 감지할 수 있습니다. 있습니다. 이 작업을 사용하여 주요 신체 위치를 식별하고, 자세를 분석하고, 움직임을 분류합니다. 이 작업에서는 머신러닝 (ML) 모델을 단일 이미지 또는 동영상만 사용할 수 있습니다. 작업이 이미지에 랜드마크를 포즈 본문을 출력합니다. 3차원 세계 좌표로 구성됩니다.

<ph type="x-smartling-placeholder"></ph> 직접 해 보세요.

시작하기

이 작업을 사용하려면 먼저 확인할 수 있습니다 이 플랫폼별 가이드에서는 기본적인 코드 예제와 코드 예시를 포함하여 이 작업의 구현을 다음 권장 구성 옵션을 사용하세요.

Android - 코드 예 - 가이드
Python - 코드 예시 - 가이드
웹 - 코드 예 - 가이드

태스크 세부정보

이 섹션에서는 기능, 입력, 출력, 구성을 설명합니다. 이 태스크의 옵션 중 하나입니다.

기능

입력 이미지 처리: 처리에는 이미지 회전, 크기 조절, 정규화, 색공간 변환이 포함됩니다.
점수 임곗값 - 예측 점수를 기준으로 결과를 필터링합니다.

작업 입력	작업 출력
포즈 랜드마크는 다음 데이터 유형 중 하나의 입력을 허용합니다. <ph type="x-smartling-placeholder"> </ph> 정지 이미지 디코딩된 동영상 프레임 라이브 동영상 피드	포즈 랜드마크는 다음과 같은 결과를 출력합니다. <ph type="x-smartling-placeholder"> </ph> 정규화된 이미지 좌표에서 랜드마크 포즈 세계 좌표에서 랜드마크 포즈 선택사항: 포즈의 세분화 마스크.

작업 입력

작업 출력

포즈 랜드마크는 다음 데이터 유형 중 하나의 입력을 허용합니다.
<ph type="x-smartling-placeholder">

정지 이미지

디코딩된 동영상 프레임

라이브 동영상 피드

포즈 랜드마크는 다음과 같은 결과를 출력합니다.
<ph type="x-smartling-placeholder">

정규화된 이미지 좌표에서 랜드마크 포즈

세계 좌표에서 랜드마크 포즈

선택사항: 포즈의 세분화 마스크.

구성 옵션

이 작업에는 다음과 같은 구성 옵션이 있습니다.

옵션 이름	설명	값 범위	기본값
`running_mode`	작업의 실행 모드를 설정합니다. 다음과 같은 세 가지 모드: IMAGE: 단일 이미지 입력 모드입니다. 동영상: 동영상의 디코딩된 프레임 모드입니다. LIVE_STREAM: 입력의 라이브 스트림 모드 데이터를 수집할 수 있습니다. 이 모드에서는 resultListener가 결과를 수신하도록 리스너를 설정하기 위해 호출 있습니다.	{`IMAGE, VIDEO, LIVE_STREAM`}	`IMAGE`
`num_poses`	에서 감지할 수 있는 최대 포즈 수입니다. 포즈 랜드마크	`Integer > 0`	`1`
`min_pose_detection_confidence`	자세 감지에 필요한 최소 신뢰도 점수입니다. 성공으로 간주됩니다.	`Float [0.0,1.0]`	`0.5`
`min_pose_presence_confidence`	포즈 존재의 최소 신뢰도 점수입니다. 점수가 몇 점인지 평가합니다.	`Float [0.0,1.0]`	`0.5`
`min_tracking_confidence`	자세 추적의 최소 신뢰도 점수입니다. 합격해야 합니다.	`Float [0.0,1.0]`	`0.5`
`output_segmentation_masks`	Pose TRADEMARKer에서 감지된 대상에 대해 세분화 마스크를 출력하는지 여부 있습니다.	`Boolean`	`False`
`result_callback`	랜드마크 결과를 수신하도록 결과 리스너를 설정합니다. 비동기식으로 작동합니다. 달리기 모드가 `LIVE_STREAM`로 설정된 경우에만 사용할 수 있습니다.	`ResultListener`	`N/A`

모델

포즈 랜드마크는 일련의 모델을 사용하여 랜드마크의 포즈를 예측합니다. 첫 번째 모델은 이미지 프레임 내에서 인체의 존재를 감지하고, 몸에서 랜드마크를 찾습니다.

다음 모델은 다운로드 가능한 모델 번들로 함께 패키징됩니다.

동작 감지 모델: 몇 가지 주요 자세를 가진 신체의 존재를 감지합니다. 있습니다.
포즈 랜드마크 모델: 포즈의 전체 매핑을 추가합니다. 모델 33개의 3차원 포즈 랜드마크 추정치를 출력합니다.

이 번들은 컨볼루셔널 신경망을 사용합니다. MobileNetV2와 유사하며 애플리케이션을 위한 온디바이스 실시간 피트니스 애플리케이션입니다. 이 변형은 BlazePose 모델은 GHUM, 인간의 전체 3D 신체 자세를 추정할 수 있는 개별 이미지나 동영상에 등장합니다.

모델 번들	입력 형태	데이터 유형	모델 카드	버전
<ph type="x-smartling-placeholder"></ph> 랜드마크 포즈 (라이트)	포즈 감지기: 224x224x3 랜드마크 포즈: 256x256x3	부동 소수점 수 16	<ph type="x-smartling-placeholder"></ph> 정보	<ph type="x-smartling-placeholder"></ph> 최신 버전
<ph type="x-smartling-placeholder"></ph> 포즈 랜드마크 (전체)	포즈 감지기: 224x224x3 랜드마크 포즈: 256x256x3	부동 소수점 수 16	<ph type="x-smartling-placeholder"></ph> 정보	<ph type="x-smartling-placeholder"></ph> 최신 버전
<ph type="x-smartling-placeholder"></ph> 랜드마크 포즈 (헤비)	포즈 감지기: 224x224x3 랜드마크 포즈: 256x256x3	부동 소수점 수 16	<ph type="x-smartling-placeholder"></ph> 정보	<ph type="x-smartling-placeholder"></ph> 최신 버전

포즈 랜드마크 모델

이 포즈 랜드마크 모델은 신체의 특징을 나타내는 33개의 신체 랜드마크 위치를 추적하여 다음 신체 부위의 대략적인 위치:

모델 출력에 정규화된 좌표 (Landmarks)와 세계가 모두 포함되어 있습니다. 각 랜드마크의 좌표 (WorldLandmarks)입니다.

0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index