본문 바로가기

Algorithm/Binary Search

[Algorithm] Binary Search (이진 탐색)

이진 탐색은 배열 내부의 데이터가 정렬되어 있어야만 사용할 수 있는 알고리즘이다. 이진 탐색은 다음의 특징을 가진다.

  • 데이터가 무작위일 때는 사용할 수 없지만, 이미 정렬되어 있다면 매우 빠르게 데이터를 찾을 수 있다.
  • 탐색 범위를 절반씩 좁혀가며 데이터를 탐색한다

이진 탐색은 위치를 나타내는 변수 3개를 사용하는데 탐색하고자 하는 범위의 시작점, 끝점, 그리고 중간점이다. 찾으려는 데이터와 중간점 위치에 있는 데이터를 반복적으로 비교해서 원하는 데이터를 찾는 게 이진 탐색 과정이다. 

 

다음의 예시를 보자.

 

 

위와 같이 찾으려는 데이터와 중간점 위치에 있는 데이터를 반복적으로 비교하면서 결국 중간점에 위치한 데이터와 찾고자 하는 데이터가 동일한 시점이 된다면 탐색을 종료한다.

 

이진 탐색의 시간 복잡도는 얼마나 될까? 탐색을 한 번 할때마다 확인하는 원소의 개수가 절반씩 줄어든다는 점에서 시간복잡도가 O(logN)이다.

 

이진탐색을 구현하는 방법에는 2가지가 있는데 하나는 재귀함수를 이용하는 방법, 다른 하나는 단순하게 반복문을 이용하는 방법이다.

 

다음은 재귀함수를 이용한 방법이다.

 

def bs(arr,target,start,end):
    if start>end:
        return None
    mid = (start+end)//2 
    if arr[mid]==target:
        return mid 
    elif arr[mid]>target:
        return bs(arr,target,start,mid-1) 
    else :
        return bs(arr,target,mid+1,end)

n,target = list(map(int,input().split()))

arr = list(map(int,input().split()))

result = bs(arr,target,0,n-1)
if result==None:
    print("원소X")
else:
    print(result+1)

 

다음은 반복문을 이용한 방법이다.

 

def binary_search(array, target, start, end):
    while start <= end:
        mid = (start + end) // 2
        # 찾은 경우 중간점 인덱스 반환  
        if array[mid] == target:
            return mid
        # 중간점의 값보다 찾고자 하는 값이 작은 경우 왼쪽 확인
        elif array[mid] > target:
            end = mid - 1
        # 중간점의 값보다 찾고자 하는 값이 큰 경우 오른쪽 확인
        else:
            start = mid + 1
    return None

# n(원소의 개수)와 target(찾고자 하는 문자열)을 입력받기
n, target = list(map(int, input().split()))
# 전체 원소 입력받기
array = list(map(int, input().split()))

# 이진 탐색 수행 결과 출력
result = binary_search(array, target, 0, n-1)

if result == None:
    print("원소가 존재하지 않습니다")
else:
    print(result+1)

 

존 벤틀리의 말에 따르면 제대로 이진 탐색 코드를 작성한 프로그래머는 10% 내외라 할 정도로 실제 구현은 까다롭다. 그만큼 구현이 어렵긴 하지만 코딩 테스트에서 단골로 나오는 문제이니 암기하도록 하자!

 

 

 


 

 

 

사실 파이썬에는 이진탐색 라이브러리가 있다. 사용법은 다음과 같다.

 

bisect.bisect_left(정렬된 리스트, target)

정렬된 리스트에서 target을 insert할때의 위치

 

bisect.bisect_right(정렬된 리스트, target)

정렬된 리스트에서 target을 insert할때의 위치+1

 

다음의 코드를 보며 확인해보자.

 

import bisect
a = [1,2,3,4,5]
x = 3
b = bisect.bisect_left(a,x)
원소 2와 3 사이의 인덱스를 반환 -> 2

c = bisect.bisect_right(a,x)
원소 3과 4 사이의 인덱스를 반환 -> 3

리스트 내에 특정 값(x)이 몇번 등장하는지 확인 (정렬된 리스트에서 사용 가능)
bisect.bisect_right(a, x) - bisect.bisect_left(a, x)

특정 값의 개수는 가장 왼쪽 인덱스 번호와 가장 오른쪽 인덱스 번호의 차이 + 1 임을 이용해서 구한다.

이를 함수로 나타내면 다음과 같다.

 

 

 

 

 


 

 

 

더불어 코딩 테스트의 이진 탐색 문제는 탐색 범위가 큰 상황에서의 탐색을 가정하는 문제가 많다. 따라서 탐색 범위가 2,000만을 넘어가면 이진 탐색으로 문제에 접근해보자. 처리해야 할 데이터의 개수나 값이 1,000만 단위 이상으로 넘어가면 이진 탐색과 같이 O(logN)의 속도를 내야 하는 알고리즘을 떠올려야 문제를 풀 수 있는 경우가 많다.